主成分分析法(principal component analysis, PCA)是最常用的無監督高維資料降維方法之一,它旨在降維的過程中保留原資料中最重要的幾個分量,進而達到最大化原資料方差的作用。幾乎所有資料降維方面研究都要用來作為比較重要的方法。
原文: Ph0en1x Notebook
主成分分析的基本思想就是在原有樣本的n維空間内再建立一個d維線性空間,用n個标準正交基進行重新映射,然後選取其中的d'個正交基進行保留,而在這d'個坐标軸上的坐标值就是映射到低維後的坐标。而推導的目的就是為了确定如何确定這這d個标準正交基以及如何選取它們。就如下圖(圖檔來自于網絡)一樣,将二維空間内的點映射至一維空間,最終選擇較長的那條向量進行投影映射。
- 首先,需要将手頭需要降維的資料進行中心化,使樣本中心點為原點
- 然後假定選擇的新的坐标系為
其中W是标準正交基向量,即 (i != j)
- 選取其中的d'個向量讓原樣本向新坐标系中映射WTxi,即:
是經過選取後的d'個标準正交基,
z是低維中的坐标
- 選取的目标是使降維後的點盡量的分散,也就是方差盡量的大:
優化問題被歸納為
- 根據拉格朗日乘子法,來決定哪d'個 w 可以留下,優化目标就成為了:
代入優化目标
是以求解的過程就是尋找原樣本
協方差矩陣XXT的最大的d'個特征值,而相應的标準正交基就是相應特征值的特征向量;
如果覺得我的筆記内描述不準确,歡迎留言與我交流 ,如果覺得我的筆記寫的還行,歡迎給我點個贊Transformer結構及其應用--GPT、BERT、MT-DNN、GPT-2zhuanlan.zhihu.com
網絡表示學習(一)--DeepWalk、LINE、Node2Vec、HARP、GraphGANzhuanlan.zhihu.com