分類算法預測存活-Kaggle
- 檢視目标變量
- 檢視資料關聯性
- 特征工程
-
- 删除不必要特征
- 根據現有特征建構新特征
- 轉換類别型特征
- 缺失值填補
- 資料按範圍劃分
- 合并多變量
- 建構全新特征
- 類别性特征缺失值處理
- 模組化分析
-
檢視目标變量
1)庫函數導入
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 2)導入資料集
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 3)檢視資料集
檢視所有表項
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 檢視資料概況
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 檢視訓練集和測試集各特征資料類型及資料缺失情況
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 檢視資料取值與資料分布(檢視字元型資料,為大寫字母O)
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 4)目标變量
預測目标為Survived
為整型資料,取值為0/1,訓練集中無缺失值
0:未存活
1:存活
二分類問題。
檢視資料關聯性
資料量較少,依次檢視特征與預測目标變量的關系
首先根據特征的類型(數值型和字元串型)進行特征分類
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 1)然後根據特征是否為類别型特征進行可視化檢視:
可以看出Pclass(客艙類型)、Sex(性别)、SibSp (乘客在船上的兄弟姐妹/配偶數量)、 Parch(乘客在船上的父母/孩子數量)為類别型,根據求取均值來檢視其相關性:
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 注意此處越接近0/1的,相關性越高,越接近0.5的,更傾向于随機分布。此處可以看到客艙為1的生存率更高,為3的生存率很低,客艙為2的對半。
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 可以看出女性的存活率明顯高于男性
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 可以看到兄弟姐妹配偶數越多的,存活率越低
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 可以看到一定的分割,大于3的存活率極低。
2)檢視數值型特征
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 可以看到年紀小的存活率較高,年紀最大的也存活下來。15-20歲的人數較多,且大部分未存活下來
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 3号艙的乘客人數較多,且大多數都沒有存活下來
2/1号艙的人大多數活下來了
1号艙的存活比例較高
各等級艙的歲數比較存在一定差異
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 之前計算得到女性的存活率比較高,此處同樣
Embarked=c的男性的存活率高過女性,存在一定的差異
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 特征工程
删除不必要特征
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 根據現有特征建構新特征
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 crosstab交叉表是用于統計分組頻率的特殊透視表
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 将稱謂進行分類替換
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 将字元串型轉換為數字。此處也可以使用labelencoder
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 将姓名特征删除。注意測試集為何不删除id,因為id是後續需要送出的标志字段
轉換類别型特征
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 此處也可使用獨熱算法或者labelencoder
缺失值填補
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 觀察到船艙等級、性别與歲數分布的關系。見圖。
決定采用中位數的方式來進行填補。
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 資料按範圍劃分
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 合并多變量
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 建構全新特征
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 類别性特征缺失值處理
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 模組化分析
庫函數導入
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 資料劃分
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 邏輯回歸
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析 分類模型
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析