天天看点

titanic预测

开始入手做titianic项目了。

首先明确,这肯定是一个分类问题,而且是二分类问题。

对数据进行观察

Survived–存活率,也就是label

Pclass–类别型变量,1、2/3分别代表头等舱到下等舱

Name–姓名,姓名看起来没什么用,但是可以用来判定是否一家,在年龄缺失的时候可以用来断定

sex–性别,类别型变量

Age–年龄,有缺失值,如果年龄小于1,则年龄为分数。如果估计年龄,是否为xx.5

SibSp–家庭成员,数据集定义这样的家庭关系…… 兄弟姐妹=兄弟,姐妹,同父异母的弟弟,义妹配偶=丈夫,妻子(包二奶和未婚夫被忽略)

Parch–父=母亲,父亲 儿童=女儿,儿子,继女,继子 一些孩子只带着保姆旅行,因此parch = 0。

Ticket–票号,基本无用

Fare–乘客票价,基本也无用

Cabin–客舱号码,也基本无用

Embarked–登船港口, C =瑟堡,Q =皇后镇,S =南安普敦,,,这个变量也基本无用。。

经过初步考虑,我选择暂时保留Pclass,Name,Sex,Age,SibSp,Parch这几个变量,并对这些变量进行进一步统计分析

继续阅读