分組分析,是指将客體(問卷、特征、現實)按研究要求進行分類編組,使得同組客體之間的差别小于各種客體之間的差别,進而進行分析研究的方法。其特點在于不依賴于原始資料分布的正常性假設,可以按任意規律分布,在分析既包括數量資料,又包括品質資料的混合資料時尤為重要。
離散屬性的分組比較容易,而連續屬性的分組,分組前要進行離散化
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIn5GcuADZ5UTO5EGOjhTYmVDZiZGZyUWM2gTYhVDO5AzYilDOfdWbp9CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
image.png
離散值基尼系數的計算
連續值的基尼系數的計算
代碼實作
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()
未去除異常值,是以圖像比較模糊
sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()
圖中有兩個明顯的拐彎的界限,可以根據界限來對滿意度分組