2018年11月23日星期五

ML_001:Google Machine Learning 在线速成课程学习笔记之一

在线课程地址:https://developers.google.com/machine-learning

1. Machine Learning 简介
为什么要学习 Machine Learning?
(1)ML 是一个可以缩短编程时间的工具
例如:编写一个纠正拼写错误的程序
方式一:根据经验法则编写纠正逻辑。
方式二:使用 ML,只需提供足够的样本数据,就可以编写一个不错的程序。
(2)利用 ML 自定义产品,使其适合特定的用户群
例如:英文拼写纠正的程序很成功,如何提供其他语言拼写纠正程序?
方式一:根据经验法则,需要重新编写其他语言纠正逻辑。
方式二:使用 ML,只需提供其他语言的样本数据即可。
(3)让程序做以前需要人工才能做的事情
例如:人脸识别。我不需要告诉机器如何识别人脸,只需提供数据训练。

学习 ML,还有一个哲学上的意义,ML 可以改变我们的思考问题的方式。
以前的软件工程师使用“数学+逻辑”来解决问题,而 ML 让我们从数学科学转到自然科学,使用统计信息而非逻辑分析来解决问题。

2. 框架处理
引子:如何判断邮件是否是垃圾邮件?
术语列表:
(1)监督式机器学习:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
(2)标签:标签是我们要预测的事物,即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。
(3)特征:特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征。
在垃圾邮件检测器示例中,特征可能包括:
  •   电子邮件文本中的字词
  •   发件人的地址
  •   发送电子邮件的时段
  •   电子邮件中包含“一种奇怪的把戏”这样的短语。
(4)样本:样本是指数据的特定实例。
样本分为以下两类:有标签样本和无标签样本。我们使用有标签样本来训练模型。
在垃圾邮件检测器示例中,有标签样本是用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件。
(5)模型
模型定义了特征与标签之间的关系。
例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。
模型生命周期的两个阶段:
  • 训练表示创建或学习模型。
    也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
  • 推断表示将训练后的模型应用于无标签样本。
    也就是说,您使用训练后的模型来做出有用的预测。
(6)回归与分类
  • 回归模型可预测连续值。
    例如,回归模型做出的预测可回答如下问题:
    加利福尼亚州一栋房产的价值是多少?
    用户点击此广告的概率是多少?
  • 分类模型可预测离散值。
    例如,分类模型做出的预测可回答如下问题:
    某个指定电子邮件是垃圾邮件还是非垃圾邮件?
    这是一张狗、猫还是仓鼠图片?

没有评论: