天天看點

分組分析方法與實作

分組分析,是指将客體(問卷、特征、現實)按研究要求進行分類編組,使得同組客體之間的差别小于各種客體之間的差别,進而進行分析研究的方法。其特點在于不依賴于原始資料分布的正常性假設,可以按任意規律分布,在分析既包括數量資料,又包括品質資料的混合資料時尤為重要。

離散屬性的分組比較容易,而連續屬性的分組,分組前要進行離散化

分組分析方法與實作
分組分析方法與實作
分組分析方法與實作

image.png

分組分析方法與實作

離散值基尼系數的計算

分組分析方法與實作

連續值的基尼系數的計算

代碼實作

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
           
分組分析方法與實作

未去除異常值,是以圖像比較模糊

sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
           
分組分析方法與實作

圖中有兩個明顯的拐彎的界限,可以根據界限來對滿意度分組