天天看点

kaggle入门-Titanic浅析

Kaggle是为国外开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台;

当然在国内也有阿里的天池平台,也是不错的选择;

有需要练习机器学习的新手可以去这两个平台找数据下载,去练习机器学习和数据分析,本次分享的项目是kaggle入门级,经典的泰坦尼克号人员生还预测问题;相关数据请去kaggle里面自行下载,链接:https://www.kaggle.com,以下开始个人一些分析,由于不怎么会使用CSDN编辑基本都是截图的图片;

对于数据分析,整个流程,我认为有以下四个大的步骤:

  1. 获取数据:爬虫,企业网站内部等;
  2. 数据分析:分析整个数据的组成,数据特征之间的关系,各个特征与目标特征之间的关系等;
  3. 数据预处理:如找到缺失值和异常值,进行补充,特征工程等;
  4. 机器学习模型:模型选择,参数调优等;

1.导入基本分析库

python 数据分析必要的库,numpy,pandas,matplotlib,以及seaborn。

kaggle入门-Titanic浅析

2.导入数据,分析数据结构

kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析

3.特征信息

特征信息主要是分析特征的组成,简单的了解哪些特征重要,哪些特征无关紧要。如PassengerId这个特征对于此项目无关紧要。

kaggle入门-Titanic浅析

4.数据分析

这里只是简单对特征数据与目标特征数据之间,简单分析它们之间的一个影响关系;

kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析

5.数据预处理

kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析

6.处理预测数据

还是先观察,再进行操作:

kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析

7.数据分离

kaggle入门-Titanic浅析

8.导入机器学习模型

kaggle入门-Titanic浅析
kaggle入门-Titanic浅析
kaggle入门-Titanic浅析