天天看點

《誰說菜鳥不會資料分析》之探索性資料分析分類RFM分析聚類分析因子分析對應分析

探索性資料分析是運用一些分析方法從大量的資料中發現未知且有價值資訊的過程。

分類

探索性資料分析可分為以下4種:

* RFM分析

* 聚類分析

* 因子分析

* 對應分析

RFM分析

RFM分析是針對銷售行為的一種分析方法,在SPSS中有對應的分析子產品,叫做直銷子產品。其作用就是通過對客戶行為的分析,篩選出具有高價值的客戶。具體的方法簡單來說就是選取幾個名額,對名額進行評分,并賦予名額不同的權重,權重計算後得到每個客戶的權重評分值,根據評分值确定客戶的等級,進而制定具有針對性的營銷政策,另外分析結果也能衡量客戶價值和客戶利潤創收能力。

含義

R:Recency 表示客戶最近一次交易時間的間隔。R越大,說明距離上一次交易時間越久。

F:Frequency 表示客戶在最近一段時間内交易的次數,即頻率。

M:Monetary 表示客戶在最近一段時間内交易的金額。

原理

RFM分析的原理就會說有R、F和M三個名額構成一個三維立方圖,在各自次元上分别用高和低兩個分類(分類标準為這一名額的平均值)将立方圖剖開,這樣根據不同的分類組合,就形成了8種客戶類型,即2的3次方。

簡單說,就是算出每個名額的平均值,每個客戶的分值高于平均值就賦予2,低于平均值就賦予1,每個客戶每個名額就2個值,也就是有兩個次元,三個名額每個名額2個次元,就組合成8個等級。

《誰說菜鳥不會資料分析》之探索性資料分析分類RFM分析聚類分析因子分析對應分析

資料準備

RFM分析接受兩種資料格式:交易資料和客戶資料,建議使用交易資料格式進行分析。

因為交易資料可以整理為客戶資料,而客戶資料無法還原為交易資料。

交易資料:每次交易占一行,包括客戶ID,交易日期和交易總額。

客戶資料:每個客戶占一行,包括客戶ID、交易總金額、交易總次數和最近交易日期。

資料分析

1.SPSS直銷子產品一步步進行操作,其中輸出頁籤全部勾選。

2.計算各名額評分平均值。【分析】-【描述統計】

3.各評分與評分值比較,小于平均值定義為1,高于平均值定義為2,這樣就分成了2個次元。操作:【轉換】-【重新編碼為不同變量】-設定【舊值和新值】。

4.三個名額兩個次元組合,分為8種。操作:【轉換】-【計算變量】-【目标變量】(這樣資料視圖就多了一列客戶類型)-【計算變量:if個案】

5.變量值改為标簽。操作:【資料】-【定義變量屬性】

聚類分析

定義:聚類分析就是按照個體特征對其分類,目的在于讓同一類别的個體之間具有較高的相似度,而不同類别之間具有較大的差異性。

目的:研究人員可以根據不同類别特征有的放矢地進行分析,并制定出适合不同類别的解決方案。

聚類分析采用的名額:距離和相似系數

相似系數一般指相關系數

特點:

1.對聚類結果是未知的額,不同的居聚類分析方法可能得到不同的分類結果,或者相同的聚類方法但是分析的變量不同,也會得到不同的聚類結果。

2.對于聚類結果合理性判斷比較主觀,隻要類别間相似或者類别間差異性都能得到合理的解釋和判斷,就認為聚類分析時可行的。

聚類分析步驟

  • 确定需要參與聚類分析的變量
  • 對資料進行标準化處理
  • 選擇聚類方法和類别個數
  • 聚類結果解讀

其中對資料進行标準化處理的原因是不同變量間的變量值的數量級别差異較大或者機關不統一。隻有通過标準化處理,消除變量間量綱關系的影響,才能在同一标準下進行比較或者計算“距離”和“相關系數”等名額。

聚類方法

快速聚類(K-Means Cluster)

也稱為K均值聚類。它是按照一定的方法選取一批聚類中心,讓個案向最近的聚類中心點聚集形成初始分類,然後按照最近距離原則調整不合理的分類,直到分類合理為知。

系統聚類(Hierarchical Cluster)

也稱為層次聚類,首先将參與聚類的每個個案(或者變量)各視為一類,然後根據兩個類别之間的距離或者相似性逐漸合并,直到所有的個案(或者變量)合并為一個大類。

二階聚類(TwoStep Cluster)

也稱為二步聚類。它是随着人工智能發展而發展起來的一種聚類方法。

整個聚類過程分為兩個步驟,第一個步驟是預聚類,就是根據定義的最大聚類類别個數對個案進行初步聚類;第二個步驟是正式聚類,就是對第一步中的初步聚類結果進行再聚類并确定最終聚類結果,并且在這一步中,會根據一定的統計标準确定聚類的類别數。

SPSS分析與結果解讀

三種聚類方法均在【分析】-【分類】菜單欄中。

快速聚類分析結果

表1:初始聚類中心

該聚類中心是随機選擇的三個資料,所形成的初始分類,之後還會進行調整,聚類中心可能會發生變化。

表2:疊代曆史記錄

本次快速聚類分析一共疊代的次數。疊代的次數可以了解為每個類别與初始位置之間的距離變化情況。

表3:最終聚類中心

每一類中各變量都對應自己的數值,可以通過數值對比不同類别之間的差異,進而選擇應對政策。

表4:每個聚類中的個案數目

僅為統計值。

分析完資料視圖内最右側新生成一個變量,變量值就是每個個案所屬的類别。可以對每個類别中的個案進行分析,描述每個類别各個變零的平均值。

系統聚類分析簡介

系統聚類分析與快速聚類分析不同之處:

1.不僅支援輸入的單個分類數量,還指出輸入分類數量的範圍

2.支援生成聚類結果圖。

3.具有多種分析方法

結果圖:譜系圖和冰柱圖

譜系圖也稱樹狀圖,以樹狀的形式展現個案被分類的過程,推薦選擇。

冰柱圖:以X形式顯示全部類别或指定類别數的分類過程。

系統聚類分析提供了多種聚類方法,較常用的是【組間聯接】和【瓦爾德法】,預設組間聯接法。

【測量】方法

1.區間:适用于連續變量

2.計數:适用于連續或分類變量

3.二進制:适用于0/1分類變量

【轉換值】進行标準化處理,一般采用【Z得分】。

系統聚類分析結果解讀

表1:個案處理摘要

表2:集中計劃

即聚類過程,提供了詳細的系統聚類分析步驟。

表3:聚類成員

資料視圖内兩變量

表4:譜系圖

該圖形能直覺地表現聚類的全過程。

二階聚類分析簡介

該聚類方法非常智能,需要操作設定的參數較少。

智能主要展現在:

1.能夠對連續變量和分類變量同時進行處理;

2.操作簡單,無需提前指定類别數,二階聚類會自動分析并輸出最優聚類數。

二階聚類分析結果解讀

表1:自動聚類

還結果主要借由統計名額施瓦茲貝葉斯BIC幫助判斷最佳分類數量。從統計學上講,BIC越大,代表聚類效果越好。但實際應用中還需要考慮後三列的統計名額,即BIC變化量、BIC變化比率及距離測量比率。

判斷一個好的聚類方案的依據是BIC的數值越小,同時BIC變化量的絕對值和距離測量比率數值越大,則說明聚類效果越好。

表2 聚類分布

包含各類的個案數量

表3 質心

反應資料分布分平均位置,可以了解為連續變量的集中趨勢。

表4 頻率表

表5 模型摘要和聚類品質

通過輕按兩下該結果可以進入【模型檢視器】視窗,可以進一步進行分析。

聚類方法對比

《誰說菜鳥不會資料分析》之探索性資料分析分類RFM分析聚類分析因子分析對應分析

因子分析

定義:通過研究變量間的相關系數矩陣,把關系錯綜複雜的多個變量歸結成少數幾個綜合因子,并據此對變量進行分類的一種統計方法。由于歸結出的因子個數少于原始變量的個數,但他們又包括原始變量的資訊,這一分析方法也叫作降維。

目的:

1.探索結構:用較少的因子來概括相關度較高的多個因子。

2.簡化資料:将原始變量轉換為因子得分之後,是用因子得分進行其他分析,如聚類分析、回歸分析等。

3.綜合評價:通過每個因子得分算出綜合得分,對分析對象進行綜合評價。

概念

因子載荷(Factor Loading)

每個原始變量和每個因子之間的相關系數,它反映了變量對因子的重要性。

當有多個因子時,因子載荷将構成一個矩陣,稱為因子載荷矩陣。

變量共同度(Communality)

每個變量所包含的資訊能夠被因子所解釋的程度,取值範圍介于0和1之間,取值越大,說明該變量能被因子解釋的程度越高。

因子旋轉(Rotation)

因子分析的結果需要每個因子都要有實際意義,有時,原始變量和因子之間的相關系數可能無法明确地表達出因子的含義,為了是這些相關系數更加顯著,可以對因子載荷矩陣進行旋轉,使原始變量與因子之間的關系更為突出,進而對因子的解釋更加容易。

因子得分(Factor Score)

因子得分可以用來評價每個個案在每個因子上的分值,該分值包含了原始變量的資訊,可以用于代替原始變量進行其他統計分析,比如回歸分析,可以考慮将因子得分作為自變量,與對應的因變量進行回歸。

因子分析步驟

1.判斷資料是否适合進行因子分析

2.構造因子變量

3.利用因子旋轉方法使因子更具有實際意義

4.計算每個個案因子得分

如何判斷資料适合因子分析?

1.隻适用于連續變量,不适用于分類變量

2.建議個案個數為變量個數的5倍以上

3.KMO檢驗統計量小于0.5不适合,0.7以上适合,0.8以上極其适合

SPSS操作步驟

1.【分析】-【降維】-【因子分析】

2.【描述】-勾選【KMO和巴特利特球形度檢驗】

3.【提取】-方法:【主成分】-勾選【碎石圖】

4.【旋轉】-選擇【最大方差法】

5.【得分】-勾選【儲存為變量】-選擇【回歸】方法

6.【選項】-勾選【按大小排序】和【排除小系數】-絕對值如下設定為0.4.

SPSS結果解讀

表1 KMO和巴特利特檢驗

主要看KMO統計量,應大于0.5.

表2 公因子方差

即變量共同度,提取值應大于0.6.

表3 總方差解釋

一般累計方差貢獻率大于60% 就說明因子對變量的解釋能力尚可。

表4 碎石圖

可輔助判斷最佳因子個數,通常選擇曲線中較陡位置所對應的因子個數。

其實表3即可确定因子個數。表3中資料填滿的成分個數即為因子個數。

确定因子個數的标準?

1.表3初始特征值 總計 大于1的因子個數

2.表3初始特征值 累積達到一定水準(如60%)的因子個數

3.碎石圖上處于較陡曲線上所對應的因子個數。

表5成分矩陣

旋轉之間的因子載荷矩陣。其中有些變量在各個因子上的載荷比較接近,難以對因子進行明确定義,是以對因子解釋和命名更有指導意義的是旋轉後的成分矩陣。

表6旋轉後的成分矩陣

通常選擇該矩陣給分類後的因子進行命名。若數值為負責表示該變量與因子成反向關系。

表7 成分轉換矩陣

表示旋轉前因子載荷矩陣轉換到旋轉後的因子載荷矩陣需要相乘的矩陣系數。對結果解讀實用性不高,可忽略。

如何通過因子得分進行綜合評價?

計算綜合評價得分,需要考慮每個因子的方差貢獻率占總累計方差貢獻率的比例,以此作為權重,進行權重計算。

方差貢獻率為表3 總方差解釋中 旋轉載荷平方和 列中的累計百分數。

對應分析

對應分析實際上也是一種降維分析方法,不過是針對分類變量的。

主要用于研究分類變量構成的交叉表,以解釋變量間的關系,并以交叉表的資訊以圖形的方式展現出來。可以揭示同一變量各個類别之間的差異,以及不同變量各個類别之間的對應關系。

對應分析原理與步驟

1.将兩個分類變量做成交叉表,交叉表中每個單元格可以看做變量在相應類别上的對應點

2.對應分析會把變量及變量間的聯系同時反映在一張圖形上(通常是平面圖形),使得聯系密切的類别點集中,聯系疏遠的類别點較分散

3.通過觀察對應圖就能直覺地把握變量與類别之間的聯系

SPSS分析結果解讀

表1 對應表

再現交叉表結果

表2 摘要

輸出對應分析的統計量結果以及累計百分比。

該表中隻需關注累計變零比例即可,若前兩個緯度的累計慣量比例達到80%以上,則說明對應分析圖的效果非常好,具有可讀性。

表3 行/列點總覽

主要提供了各類别在各次元上的得分,也是對應分析圖中橫縱坐标對應的數值,一級行列對行列之間的貢獻大小。

對應分析圖就是由本表中兩個緯度的得分繪制。

最後一個為對應分析圖

《誰說菜鳥不會資料分析》之探索性資料分析分類RFM分析聚類分析因子分析對應分析

分析:

同一次元上,例如橫軸上,同一變量的類别距離越近,說明在這個緯度上差異較小。例如,“外觀穩重大氣”和“外觀時尚”對于參與品牌形象評價的使用者來說,差異相對較小。

不同變量散點之間的距離越近,說明相關性越大。例如,“品牌T”和“技術領先”距離很近,說明使用者認為品牌T屬于技術領先、經常創新的品牌。

《誰說菜鳥不會資料分析》之探索性資料分析分類RFM分析聚類分析因子分析對應分析

繼續閱讀