Kaggle比赛入门----泰坦尼克幸存几率预测

2023-03-27 23:03:48

import pandas as pd 
import matplotlib.pyplot as plt 

train_data = pd.read_csv("../titanic/titanic/train.csv")
fig = plt.figure()
fig.set(alpha = 0.2) #设定图表颜色alpha参数

plt.subplot2grid((3,3),(0,0)) #在一张大图里分列几个小图
train_data.Survived.value_counts().plot(kind='bar')# 柱状图
plt.title(u"获救情况(1为获救)")# 标题
plt.ylabel(u"人数")

plt.subplot2grid((3,3),(0,1)) 
train_data.Sex.value_counts().plot(kind='bar')
plt.title(u"性别分布(female为女)")# 标题
plt.ylabel(u"性别")

plt.subplot2grid((3,3),(0,2))
train_data.Pclass.value_counts().plot(kind="bar")
plt.title(u"乘客等级分布")
plt.ylabel(u"人数")

plt.subplot2grid((3,3),(1,0))
plt.scatter(train_data.Survived,train_data.Age)
plt.ylabel(u"年龄")
plt.grid(b=True,which='major',axis='y')
plt.title(u"按年龄看获救分布（1为获救）")

plt.subplot2grid((3,3),(1,1),colspan=2)
train_data.Age[train_data.Pclass==1].plot(kind="kde")
train_data.Age[train_data.Pclass==2].plot(kind='kde')
train_data.Age[train_data.Pclass==3].plot(kind='kde')
plt.xlabel(u"年龄")
plt.ylabel(u"密度")
plt.title(u"各等级的乘客年龄分布")
plt.legend((u'头等舱',u'2等舱',u'3等舱'),loc='best')

plt.subplot2grid((3,3),(2,0))
train_data.Embarked.value_counts().plot(kind='bar')
plt.title(u"各登船口岸上船人数")
plt.ylabel(u"人数")


plt.show()

预分析原始数据

特征工程部分：

pandas是常用的Python数据处理包，把csv文件读入成dataframe各式

对比dataframe格式与csv格式如下图

dataframe:

Kaggle比赛入门----泰坦尼克幸存几率预测

csv:

Kaggle比赛入门----泰坦尼克幸存几率预测

参考文献：https://blog.csdn.net/guoxinian/article/details/73740746

Kaggle比赛入门----泰坦尼克幸存几率预测

继续阅读

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入