天天看點

titanic預測

開始入手做titianic項目了。

首先明确,這肯定是一個分類問題,而且是二分類問題。

對資料進行觀察

Survived–存活率,也就是label

Pclass–類别型變量,1、2/3分别代表頭等艙到下等艙

Name–姓名,姓名看起來沒什麼用,但是可以用來判定是否一家,在年齡缺失的時候可以用來斷定

sex–性别,類别型變量

Age–年齡,有缺失值,如果年齡小于1,則年齡為分數。如果估計年齡,是否為xx.5

SibSp–家庭成員,資料集定義這樣的家庭關系…… 兄弟姐妹=兄弟,姐妹,同父異母的弟弟,義妹配偶=丈夫,妻子(包情婦和未婚夫被忽略)

Parch–父=母親,父親 兒童=女兒,兒子,繼女,繼子 一些孩子隻帶着保姆旅行,是以parch = 0。

Ticket–票号,基本無用

Fare–乘客票價,基本也無用

Cabin–客艙号碼,也基本無用

Embarked–登船港口, C =瑟堡,Q =皇後鎮,S =南安普敦,,,這個變量也基本無用。。

經過初步考慮,我選擇暫時保留Pclass,Name,Sex,Age,SibSp,Parch這幾個變量,并對這些變量進行進一步統計分析

繼續閱讀