一:考試總結
這個考試說實話,已經過時了,因為實驗中用的版本是老版本,而阿裡在今年2020年已經有了V2.0,是以,實驗可以不用做了,至于知識點還是可以好好學習的,畢竟有很多幹貨。至于原題,沒有搜到,自己硬着頭皮做的,一次過,幸虧研究所學生學的是大資料和機器學習,是以這個的考試還是比較容易的,如果沒有相關基礎的話,好好看官方視訊,也是能過的,考的題目都在PPT裡出現過,多看幾遍沒問題的。
二:真題
回憶:好多都是跟基本概念有關的,ID3,C4.5,C50這三個概念考了。 下面的表格是重點考了內建學習:針對同一資料集,訓練多種學習器,來解決同一問題,包括什麼,他們的差別是什麼。
特征工程:最大限度地從原始資料中提取特征以供算法和模型使用
資料預處理:标準化、縮放、缺失值、變換、編碼等
特征産生:結合業務資料,派生新的特征
特征選擇:通過各種統計量、模型評分等,篩選合适的特征
降維:PCA、LDA等減少特征個數 能用更少的模型得出好的結果,就盡量不要用太多的模型。模型越多,受影響越多。
模型評估:解釋&泛華
解釋:模型能夠很好的解釋資料集叫做解釋型模型
泛化:把一個模型使用在新的資料集上,如果表現非常糟糕,說明泛化能力差(顧名思義。使用廣泛化)
過拟合:在原來的資料集表現的非常好,在另一個資料集上又太差了。這就是泛化能力差,也即是過拟合
随機森林也考了。
其實,隻要把視訊好好看,外加點機器學習的基礎,還是很容易的,如果是小白的話,那就多看幾遍。