天天看點

用scikit-learn學習主成分分析(PCA)

    在主成分分析(PCA)原理總結中,我們對主成分分析(以下簡稱PCA)的原理做了總結,下面我們就總結下如何使用scikit-learn工具來進行PCA降維。

1. scikit-learn PCA類介紹

    在scikit-learn中,與PCA相關的類都在sklearn.decomposition包中。最常用的PCA類就是sklearn.decomposition.PCA,我們下面主要也會講解基于這個類的使用的方法。

    除了PCA類以外,最常用的PCA相關類還有KernelPCA類,在原理篇我們也講到了,它主要用于非線性資料的降維,需要用到核技巧。是以在使用的時候需要選擇合适的核函數并對核函數的參數進行調參。

    另外一個常用的PCA相關類是IncrementalPCA類,它主要是為了解決單機記憶體限制的。有時候我們的樣本量可能是上百萬+,次元可能也是上千,直接去拟合資料可能會讓記憶體爆掉, 此時我們可以用IncrementalPCA類來解決這個問題。IncrementalPCA先将資料分成多個batch,然後對每個batch依次遞增調用partial_fit函數,這樣一步步的得到最終的樣本最優降維。

    此外還有SparsePCA和MiniBatchSparsePCA。他們和上面講到的PCA類的差別主要是使用了L1的正則化,這樣可以将很多非主要成分的影響度降為0,這樣在PCA降維的時候我們僅僅需要對那些相對比較主要的成分進行PCA降維,避免了一些噪聲之類的因素對我們PCA降維的影響。SparsePCA和MiniBatchSparsePCA之間的差別則是MiniBatchSparsePCA通過使用一部分樣本特征和給定的疊代次數來進行PCA降維,以解決在大樣本時特征分解過慢的問題,當然,代價就是PCA降維的精确度可能會降低。使用SparsePCA和MiniBatchSparsePCA需要對L1正則化參數進行調參。

2. sklearn.decomposition.PCA參數介紹

    下面我們主要基于sklearn.decomposition.PCA來講解如何使用scikit-learn進行PCA降維。PCA類基本不需要調參,一般來說,我們隻需要指定我們需要降維到的次元,或者我們希望降維後的主成分的方差和占原始次元所有特征方差和的比例門檻值就可以了。

    現在我們對sklearn.decomposition.PCA的主要參數做一個介紹:

    1)n_components:這個參數可以幫我們指定希望PCA降維後的特征次元數目。最常用的做法是直接指定降維到的次元數目,此時n_components是一個大于等于1的整數。當然,我們也可以指定主成分的方差和所占的最小比例門檻值,讓PCA類自己去根據樣本特征方差來決定降維到的次元數,此時n_components是一個(0,1]之間的數。當然,我們還可以将參數設定為"mle", 此時PCA類會用MLE算法根據特征的方差分布情況自己去選擇一定數量的主成分特征來降維。我們也可以用預設值,即不輸入n_components,此時n_components=min(樣本數,特征數)。

    2)whiten :判斷是否進行白化。所謂白化,就是對降維後的資料的每個特征進行歸一化,讓方差都為1.對于PCA降維本身來說,一般不需要白化。如果你PCA降維後有後續的資料處理動作,可以考慮白化。預設值是False,即不進行白化。

    3)svd_solver:即指定奇異值分解SVD的方法,由于特征分解是奇異值分解SVD的一個特例,一般的PCA庫都是基于SVD實作的。有4個可以選擇的值:{‘auto’, ‘full’, ‘arpack’, ‘randomized’}。randomized一般适用于資料量大,資料次元多同時主成分數目比例又較低的PCA降維,它使用了一些加快SVD的随機算法。 full則是傳統意義上的SVD,使用了scipy庫對應的實作。arpack和randomized的适用場景類似,差別是randomized使用的是scikit-learn自己的SVD實作,而arpack直接使用了scipy庫的sparse SVD實作。預設是auto,即PCA類會自己去在前面講到的三種算法裡面去權衡,選擇一個合适的SVD算法來降維。一般來說,使用預設值就夠了。

    除了這些輸入參數外,有兩個PCA類的成員值得關注。第一個是explained_variance_,它代表降維後的各主成分的方內插補點。方內插補點越大,則說明越是重要的主成分。第二個是explained_variance_ratio_,它代表降維後的各主成分的方內插補點占總方內插補點的比例,這個比例越大,則越是重要的主成分。

3. PCA執行個體

    下面我們用一個執行個體來學習下scikit-learn中的PCA類使用。為了友善的可視化讓大家有一個直覺的認識,我們這裡使用了三維的資料來降維。

    完整代碼參見我的github: https://github.com/ljpzzz/machinelearning/blob/master/classic-machine-learning/pca.ipynb

    首先我們生成随機資料并可視化,代碼如下:

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
%matplotlib inline
from sklearn.datasets.samples_generator import make_blobs
# X為樣本特征,Y為樣本簇類别, 共1000個樣本,每個樣本3個特征,共4個簇
X, y = make_blobs(n_samples=10000, n_features=3, centers=[[3,3, 3], [0,0,0], [1,1,1], [2,2,2]], cluster_std=[0.2, 0.1, 0.2, 0.2], 
                  random_state =9)
fig = plt.figure()
ax = Axes3D(fig, rect=[0, 0, 1, 1], elev=30, azim=20)
plt.scatter(X[:, 0], X[:, 1], X[:, 2],marker='o')      

    三維資料的分布圖如下:

用scikit-learn學習主成分分析(PCA)

    我們先不降維,隻對資料進行投影,看看投影後的三個次元的方差分布,代碼如下:

from sklearn.decomposition import PCA
pca = PCA(n_components=3)
pca.fit(X)
print pca.explained_variance_ratio_
print pca.explained_variance_      

    輸出如下:

[ 0.98318212  0.00850037  0.00831751]

[ 3.78483785  0.03272285  0.03201892]

    可以看出投影後三個特征次元的方差比例大約為98.3%:0.8%:0.8%。投影後第一個特征占了絕大多數的主成分比例。

    現在我們來進行降維,從三維降到2維,代碼如下:

pca = PCA(n_components=2)
pca.fit(X)
print pca.explained_variance_ratio_
print pca.explained_variance_      

[ 0.98318212  0.00850037]

[ 3.78483785  0.03272285]

    這個結果其實可以預料,因為上面三個投影後的特征次元的方差分别為:[ 3.78483785  0.03272285  0.03201892],投影到二維後選擇的肯定是前兩個特征,而抛棄第三個特征。

    為了有個直覺的認識,我們看看此時轉化後的資料分布,代碼如下:

X_new = pca.transform(X)
plt.scatter(X_new[:, 0], X_new[:, 1],marker='o')
plt.show()      

    輸出的圖如下:

用scikit-learn學習主成分分析(PCA)

    可見降維後的資料依然可以很清楚的看到我們之前三維圖中的4個簇。

    現在我們看看不直接指定降維的次元,而指定降維後的主成分方差和比例。

pca = PCA(n_components=0.95)
pca.fit(X)
print pca.explained_variance_ratio_
print pca.explained_variance_
print pca.n_components_      

    我們指定了主成分至少占95%,輸出如下:

[ 0.98318212]
[ 3.78483785]
1      

    可見隻有第一個投影特征被保留。這也很好了解,我們的第一個主成分占投影特征的方差比例高達98%。隻選擇這一個特征次元便可以滿足95%的門檻值。我們現在選擇門檻值99%看看,代碼如下:

pca = PCA(n_components=0.99)
pca.fit(X)
print pca.explained_variance_ratio_
print pca.explained_variance_
print pca.n_components_      

    此時的輸出如下:

[ 0.98318212  0.00850037]
[ 3.78483785  0.03272285]
2
      

    這個結果也很好了解,因為我們第一個主成分占了98.3%的方差比例,第二個主成分占了0.8%的方差比例,兩者一起可以滿足我們的門檻值。

    最後我們看看讓MLE算法自己選擇降維次元的效果,代碼如下:

pca = PCA(n_components='mle')
pca.fit(X)
print pca.explained_variance_ratio_
print pca.explained_variance_
print pca.n_components_      

    輸出結果如下:

[ 0.98318212]

[ 3.78483785]

1

    可見由于我們的資料的第一個投影特征的方差占比高達98.3%,MLE算法隻保留了我們的第一個特征。

(歡迎轉載,轉載請注明出處。歡迎溝通交流: [email protected])