引言
监督学习、无监督学习、强化学习、机器学习是学习AI必须要理解的基础概念。本文通过故事叙述的方式阐述监督学习、无监督学习、强化学习、机器学习的概念,深入浅出,帮助小伙伴们了解。
2、小明学AI
从前有个叫小明的男孩,很喜欢吃苹果。为了让他认识苹果,妈妈找来了三个苹果,一个大苹果、一个小苹果,一个青苹果。
妈妈拿起大苹果,告诉小明说:“这是苹果”;妈妈拿起小苹果,告诉小明:“这也是苹果”。最后妈妈拿起青苹果,告诉小明:“不管大小、颜色、如何变化,圆圆的、有把的就是苹果”。现在小明知道什么是苹果了。
在人类和动物感知中,这通常叫做概念学习,在人工智能领域,这过程被成为监督学习。
几年后小明不仅认识了苹果,还认识了西红柿、还有一个非常喜欢的小皮球,小明觉得这三样东西有非常相似的地方。草莓、爸爸的领带、妈妈的餐盘也有同样的相似之处,妈妈告诉他,这种相似之处是红色。
在人类行为中,我们将这个过程称为归纳推理;在人工智能领域,我们叫他无监督学习。
升入初中后,小明开始面对考试。作为一个优秀的学生,每一次考试结束,小明都会认真观察批改好的将其中做错的题目单独找出,重新解答,直到找出正确的答案。
在人工智能领域,我们将这个过程称为强化学习。
监督学习、无监督学习和强化学习都被称为机器学习。
小明将为了从一堆水果里找到自己喜欢的水果--苹果,于是将苹果、草莓、香蕉进行分类。
这个过程在人工智能领域的机器学习任务中称为分类问题。
为了吃到苹果,小明去买水果,小明发现每个月的苹果价格不同,为了每个月都能吃到苹果,小明根据前几个月的数据预测了下个月的苹果价格。
这个过程在人工智能领域的机器学习任务中称为回归问题。
进入社会,小明成为了一名工程师,他的朋友们有的成为了老师,有的成为了医生,还有人成为了作家。每个人都有自己擅长的领域,发挥着自己的作用,算法也是如此。
为图片分类,将语音转化为文字,找到不同数据之间的联系。不同的算法自有擅长之处;与进入仍然不断提升自己的人类一样,算法也在不断的提升效果,不断的迭代。
我们不断探讨人工智能,不断拓展技术的疆界,想要找到未来的答案,也许我们自身就是答案。
3、笔记总结
表1 机器学习
机器学习可以分为三种形式 | 监督学习(supervised learning) | |
非监督学习(unsupervised learning) | ||
强化学习(reinforcement learning) | ||
机器学习的主要任务 | 分类(classification) | 将实例数据划分到合适的类别中 |
回归(regression) | 主要用于预测数值型数据 |
表2 监督学习
概念理解 | 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。在监督学习中,给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。 (包括:分类和回归) |
特征 | 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值) |
表3 无监督学习
概念理解 | 在未加标签的数据中,试图找到隐藏的结构。数据没有类别信息,也没有给定的目标值。 |
分类 | 聚类:将数据集分成由类似的对象组成多个类 |
密度估计:通过样本分布的紧密程度,来估计与分组的相似性 |
表4 强化学习
概念理解 | 所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠自身的经历进行自我学习。通过这种学习获取知识,改进行动方案以适应环境。 |
强化学习最关键的三个因素 | 状态 |
环境奖励 | |
行为 |
强化学习和深度学习的主要区别:
第一,深度学习的训练样本是有标签的,强化学习的训练是没有标签的,它是通过环境给出的奖惩来学习
第二,深度学习的学习过程是静态的,强化学习的学习过程是动态的。这里静态与动态的区别在于是否会与环境进行交互,深度学习是给什么样本就学什么,而强化学习是要和环境进行交互,再通过环境给出的奖惩来学习
第三,深度学习解决的更多是感知问题,强化学习解决的主要是决策问题。因此有监督学习更像是五官,而强化学习更像大脑。