一:考试总结
这个考试说实话,已经过时了,因为实验中用的版本是老版本,而阿里在今年2020年已经有了V2.0,所以,实验可以不用做了,至于知识点还是可以好好学习的,毕竟有很多干货。至于原题,没有搜到,自己硬着头皮做的,一次过,幸亏研究生学的是大数据和机器学习,所以这个的考试还是比较容易的,如果没有相关基础的话,好好看官方视频,也是能过的,考的题目都在PPT里出现过,多看几遍没问题的。
二:真题
回忆:好多都是跟基本概念有关的,ID3,C4.5,C50这三个概念考了。 下面的表格是重点考了集成学习:针对同一数据集,训练多种学习器,来解决同一问题,包括什么,他们的区别是什么。
特征工程:最大限度地从原始数据中提取特征以供算法和模型使用
数据预处理:标准化、缩放、缺失值、变换、编码等
特征产生:结合业务数据,派生新的特征
特征选择:通过各种统计量、模型评分等,筛选合适的特征
降维:PCA、LDA等减少特征个数 能用更少的模型得出好的结果,就尽量不要用太多的模型。模型越多,受影响越多。
模型评估:解释&泛华
解释:模型能够很好的解释数据集叫做解释型模型
泛化:把一个模型使用在新的数据集上,如果表现非常糟糕,说明泛化能力差(顾名思义。使用广泛化)
过拟合:在原来的数据集表现的非常好,在另一个数据集上又太差了。这就是泛化能力差,也即是过拟合
随机森林也考了。
其实,只要把视频好好看,外加点机器学习的基础,还是很容易的,如果是小白的话,那就多看几遍。