天天看點

【機器學習之LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)】前言一、LDA是什麼?二、PCA是什麼?三、SVD是什麼?總結

文章目錄

  • 前言
  • 一、LDA是什麼?
  • 二、PCA是什麼?
  • 三、SVD是什麼?
  • 總結

前言

例如:随着人工智能的不斷發展,機器學習這門技術也越來越重要,很多人都開啟了學習機器學習,本文就介紹了機器學習**LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)**的基礎内容。

【機器學習之LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)】前言一、LDA是什麼?二、PCA是什麼?三、SVD是什麼?總結

一、LDA是什麼?

首先LDA是一種經典的降維方法。它和PCA(不考慮樣本類别輸出)的無監督降維技術不同,LDA是一種有監督的降維技術,資料集的每個樣本有類别輸出。它進行分類的思想其實就是:①在多元空間中,資料處理分類問題會較為複雜,LDA算法将多元空間中的資料投影到一條直線上,将多元的資料轉化成1維資料進行處理;②對訓練資料來說,設法将多元的資料投影到一條直線上,同類資料的投影點盡可能接近,異類資料點盡可能遠離;③對資料進行分類的時侯,将其投影到同樣的這條直線上,再根據投影點的位置來确定樣本的類别。

一句話概括一下,投影後類内方差最小,類間方差最大。如果原始資料是1維的,分類後的投影是一條直線;要是多元的,則投影後的分類面是一低維的超平面。

【機器學習之LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)】前言一、LDA是什麼?二、PCA是什麼?三、SVD是什麼?總結

二、PCA是什麼?

其次PCA的話就是将高維的資料通過線性變換投影到低維空間上去。投影思想的話就是,找出最能夠代表原始資料的投影方法。被PCA降掉的那些次元隻能是那些噪聲或是備援的資料。去備援就是,去除可以被其他向量代表的線性相關向量,這部分資訊量是多餘的。去噪聲就是,去除掉較小的特征值所對應的特征向量,特征值的大小反映了變換後在特征向量方向上變換的幅度,幅度越大,說明這個方向上的元素差異也越大,然後就要保留。我們需要對角化矩陣,尋找極大的線性無關組,去保留較大的特征值,去除較小特征值,組成一個投影矩陣,對原始樣本矩陣進行投影,得到降維後的新樣本矩陣。完成PCA降維的關鍵是——協方差矩陣。協方差矩陣,能同時表現不同次元間的相關性以及各個次元上的方差。協方差矩陣度量的是次元與次元之間的關系,而非是樣本與樣本之間的關系。為什麼要對角化呢?

因為對角化之後非對角上的元素都是0,然後就達到了去噪聲的目的。對角化後的協方差矩陣,對角線上較小的新方差對應的就是那些該去掉的次元。是以我們隻取那些含有較大能量(特征值)的次元,其餘的就丢掉,也就是去備援。

PCA其實最主要的就是能解決訓練資料中存在資料特征過多或特征累贅的問題。

【機器學習之LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)】前言一、LDA是什麼?二、PCA是什麼?三、SVD是什麼?總結

對這兩種方法進行一個比較,

為什麼要降維呢?首先①可以減少預測變量的個數;②能夠確定這些變量是互相獨立的;③可以提供一個架構來解釋結果。相關的特征,特别是重要特征更能在資料中明确的顯示出來;如果隻有兩維或者三維的話,更便于可視化展示;④資料在低維下更容易處理、更容易使用;⑤去除資料噪聲;⑥降低算法運算開銷。

【機器學習之LDA(線性判别分析)PCA(主成分分析)和SVD(奇異值分解)】前言一、LDA是什麼?二、PCA是什麼?三、SVD是什麼?總結

三、SVD是什麼?

其實PCA的實作一般有兩種,一種是用特征值分解,一種是用奇異值分解(SVD)。

它的優點吧,就是簡化資料,去除噪聲,提高算法的結果。缺點就是資料的轉換可能難以了解。它所适用的資料類型是數值型的資料。我們通過SVD對資料的處理,我們可以使用小得多的資料集來表示原始資料集,這樣做實際上是去除了噪聲和備援資訊,借此達到了優化資料、提高結果的目的。

其實最早的SVD應用之一就是資訊檢索,我們稱利用SVD的方法為隐性語義檢索(LSI)或隐形語義分析(LSA)。一句話概括就是大矩陣≈幾個小矩陣相乘,從數學角度上來說一個大矩陣是N×M的,可以變成(F×N).T(轉置)和F×M的兩個小矩陣相乘。

總結

提示:這裡對文章進行總結:

例如:以上就是今天要講的内容,本文僅僅簡單介紹了LDA,PCA,SVD的使用,而pandas提供了大量能使我們快速便捷地處理資料的函數和方法。