天天看點

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

分類算法預測存活-Kaggle

  • 檢視目标變量
  • 檢視資料關聯性
  • 特征工程
    • 删除不必要特征
    • 根據現有特征建構新特征
    • 轉換類别型特征
    • 缺失值填補
    • 資料按範圍劃分
    • 合并多變量
    • 建構全新特征
    • 類别性特征缺失值處理
  • 模組化分析
    • 庫函數導入
    • 資料劃分
    • 邏輯回歸
    • 分類模型

檢視目标變量

1)庫函數導入

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

2)導入資料集

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

3)檢視資料集

檢視所有表項

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

檢視資料概況

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

檢視訓練集和測試集各特征資料類型及資料缺失情況

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

檢視資料取值與資料分布(檢視字元型資料,為大寫字母O)

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

4)目标變量

預測目标為Survived

為整型資料,取值為0/1,訓練集中無缺失值

0:未存活

1:存活

二分類問題。

檢視資料關聯性

資料量較少,依次檢視特征與預測目标變量的關系

首先根據特征的類型(數值型和字元串型)進行特征分類

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

1)然後根據特征是否為類别型特征進行可視化檢視:

可以看出Pclass(客艙類型)、Sex(性别)、SibSp (乘客在船上的兄弟姐妹/配偶數量)、 Parch(乘客在船上的父母/孩子數量)為類别型,根據求取均值來檢視其相關性:

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

注意此處越接近0/1的,相關性越高,越接近0.5的,更傾向于随機分布。此處可以看到客艙為1的生存率更高,為3的生存率很低,客艙為2的對半。

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

可以看出女性的存活率明顯高于男性

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

可以看到兄弟姐妹配偶數越多的,存活率越低

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

可以看到一定的分割,大于3的存活率極低。

2)檢視數值型特征

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

可以看到年紀小的存活率較高,年紀最大的也存活下來。15-20歲的人數較多,且大部分未存活下來

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

3号艙的乘客人數較多,且大多數都沒有存活下來

2/1号艙的人大多數活下來了

1号艙的存活比例較高

各等級艙的歲數比較存在一定差異

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

之前計算得到女性的存活率比較高,此處同樣

Embarked=c的男性的存活率高過女性,存在一定的差異

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

特征工程

删除不必要特征

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

根據現有特征建構新特征

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

crosstab交叉表是用于統計分組頻率的特殊透視表

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

将稱謂進行分類替換

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

将字元串型轉換為數字。此處也可以使用labelencoder

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

将姓名特征删除。注意測試集為何不删除id,因為id是後續需要送出的标志字段

轉換類别型特征

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

此處也可使用獨熱算法或者labelencoder

缺失值填補

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

觀察到船艙等級、性别與歲數分布的關系。見圖。

決定采用中位數的方式來進行填補。

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

資料按範圍劃分

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

合并多變量

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

建構全新特征

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

類别性特征缺失值處理

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

模組化分析

庫函數導入

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

資料劃分

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

邏輯回歸

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析

分類模型

分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析
分類算法預測存活-Kaggle檢視目标變量檢視資料關聯性特征工程模組化分析