当前课程的小结|笔记
不知不觉已经算是”开学“的第五周了,机器学习这门课已经过半,对模式识别和机器学习有了初步和整体的认识(就是知道它主要是在做什么)。
名词解释
模式识别:对表征事物或现象的各种形式的信息进行处理和分析,从而达到对事物或现象进行描述、辨认、分类和解释的目的。
机器学习:机器从已知的经验数据(样本)中,通过某种特定的方法(算法),自己去寻找提炼(训练/学习)出一些规律(模型);提炼出的规律就可以用来判断一些未知的事情(预测)。
举个例子
模式识别:人类见到一个东西之后,通常就会下意识地给其归类:是动物还是植物,属于哪一门纲目属科,是否可以药用,有果实吗,花朵是否漂亮,是否有毒……这一大串归类构成了人们对于这种事物的整体认知。这就属于人类对于模式的识别,这种技能对于人们甚至是一些动物来说,是非常简单而且几乎是与生俱来的。
机器学习:,机器通过一百万个单身狗的样本,总结出了单身狗所具有的一些属性。当下次再给一个样本时,机器就可以很快判断出这个样本究竟是不是单身狗。(🐕)
学习过程
基于距离的分类器
基本概念
- 定义:把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其距离最近的类。
- 两个问题:1.类的原型问题:如何计算单个向量到多个向量的距离问题。2.距离度量问题:计算测试样本到类的何种距离。
类的原型:1.均值。2.最近邻
距离的度量:1. 欧式距离 2.曼哈顿距离 3.加权欧式距离
MED分类器
- 基于欧氏距离的分类器。
- 类的原型:均值
- 特点:易导致分类错误,一般不直接用欧式距离进行分类
MICD分类器
- 基于马氏距离的分类器
- 特点:消除了特征间的相关性并使特征具有相同方差,提高分类准确度,但易选择方差较大的类。
MAP分类器
- 基于后验概率的分类器
- 选择后验概率最大的类,等于最小化平均概率误差,即最小化概率误差。
贝叶斯分类器
- 在MAP分类器基础上,加入决策风险因素,得到贝叶斯分类器
- 给定所有测试样本,贝叶斯分类器的决策目标:最小化期望损失
- 对每个样本均归类于其决策风险最小的类别,可使损失期望之和最小化
参数估计方法
最大似然估计
- 求 θ使得似然函数最大
- 可对函数求一阶导数为0,得到极大值点,即函数最大值
贝叶斯估计
- 相对于似然估计,贝叶斯估计将 θ当作了随机变量
- 具备不断学习的能力,随着训练样本的不断增加,可以串行地不断修正参数的估计值,从而不断逼近参数的期望真值。
机器学习等人工智能领域的前沿技术介绍、展望、应用
自动化机器学习(AutoML)
近年来,在深度学习领域里,出现了一种「新式学习法」,很多人视它改变了设计复杂的深度学习网络,把看似高不可攀的深度学习,「拉」到了人人触手可及的程度。这个新方式,就是 AutoML。
2017 年 5 月,谷歌在 I/O 大会上发布了 AutoML,他们将 AutoML 应用到了深度学习的图像识别和语言建模的两大数据集中,他们提供的 Cloud AutoML 和 Google NAS 算法结合,把完整的机器学习工作做成了云端产品,用户只需要提供数据,Cloud AutoML 将自动构建深度学习模型。
传统的AI模型训练往往要经历特征分析、模型选择、调参、评估等步骤,这些步骤需要经历数月的时间,如果完全没经验,时间会更长。AutoML虽然也需要经历这些步骤,但是通过自动化的方式,可以减少这些步骤的时间。(虽然方便了许多,但是必然在较为复杂的情况下,不如人为分析好,我认为AutioML只能进行简单的机器学习,至少在短期内是这样的)