201116西瓜書機器學習系列---10、降維
一、總結
一句話總結:
先講一個【引子:k-nearst labor】,然後講【降維方法】,有【線性和非線性兩種】,然後是度量學習
1、降維常見方法?
降維方法主要是【線性和非線性兩種】,線性的裡面有我們熟知的【主成分分析PCA】
2、K近鄰學習?
K近鄰學習的原理就是判斷一個點的正負的時候,【找離他最近的點的正負】即可,【k=3就是最近的3個樣本】
3、線性變換降維的原理?
比如從1000維降到100維,原理就是【乘一個W矩陣】,是以問題的核心就是【尋找合适的W】
4、主成分分析PCA原理?
比如二維降到一維,我們需要【畫一條直線盡可能保留原始資訊】,這條直線需滿足【最近重構性】和【最大可分性】
【最近重構性】:樣本點【到這個直線的距離足夠近】;【最大可分性】:樣本點【在這個直線的投影盡量分散】
5、主成分分析PCA簡單數學原理?
先簡單abc【勾股定理】,想要【a^2足夠大就是讓b^2足夠小】,使用【拉格朗日乘子法】,就是【求特征向量相加最大的值】
6、南瓜書PumpkinBook?
PumpkinBook【西瓜書裡所有重點公式的推導和解析】:https://github.com/datawhalechina/pumpkin-book
7、降維用到的不多,但是Embedding用到的真的多?
用一個【低次元稠密向量表示一個對象】,廣泛應用于推薦、廣告、搜尋等領域【(萬物皆embedding)】
8、機器學習和深度學習耗時太久的原因?
【沒有系統的看書】,【找到的資料并不好】,是以【可以系統的看書,多看幾本】
二、内容在總結中
部落格對應課程的視訊位置: