分組分析方法與實作

2018-09-12 23:50:00

分組分析，是指将客體（問卷、特征、現實）按研究要求進行分類編組，使得同組客體之間的差别小于各種客體之間的差别，進而進行分析研究的方法。其特點在于不依賴于原始資料分布的正常性假設，可以按任意規律分布，在分析既包括數量資料，又包括品質資料的混合資料時尤為重要。

離散屬性的分組比較容易，而連續屬性的分組，分組前要進行離散化

image.png

離散值基尼系數的計算

連續值的基尼系數的計算

代碼實作

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_context(font_scale=1.5)
df = pd.read_csv("./data/HR.csv")
sns.barplot(x="salary",y="left",hue="department",data=df)
plt.show()

未去除異常值，是以圖像比較模糊

sl_s = df["satisfaction_level"]
sl_s = sl_s.dropna()
sns.barplot(list(range(len(sl_s))),sl_s.sort_values())
plt.show()

圖中有兩個明顯的拐彎的界限，可以根據界限來對滿意度分組

分組分析方法與實作

代碼實作

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入