天天看点

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

研究了2天缺失数据的处理方法,今天给大家写一个比较全面的总结:

在pandas中,缺失数据由两个值表示:

  • None:None是Python单例对象,通常在Python代码中表示缺失数据。
  • NaN:NaN(非数字【not a number】的缩写),是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。

在pandas中缺失数据的表示上,这两者基本上可以互换。常见的缺失处理方法如下,今天我们一个一个来看:

  • isnull()
  • notnull()
  • dropna()
  • fillna()
  • replace()
  • interpolate()

isnull()和notnull()用来检查缺失值

代码1

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.isnull() 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

代码2

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.notnull() 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

fillna(),replace()和interpolate()用来填充缺失值

注意Interpolate()使用各种插补技术来填充丢失的值,而不是对缺失值进行硬填充。

代码1 用单一值填充所有缺失数据

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(0) 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

此处我用0填充了所以的缺失值

代码2 使用缺失值上一个值填充该缺失值

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='pad') 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看到第三列的第一个缺失没有被填充因为其没有上一个值

代码3 用缺失值的下一个值填充

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, 45, 56, np.nan],         'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='bfill') 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看到,第二列的最后一个缺失值没有被填充,因为其没有下一个值

代码4:使用interpolate()函数,用线性回归预测方法填充缺少的值。

df = pd.DataFrame({"A":[12, 4, 5, None, 1],                     "B":[None, 2, 54, 3, None],                     "C":[20, 16, None, 3, 8],                     "D":[14, 3, None, None, 6]})df  df.interpolate(method ='linear', limit_direction ='forward') 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看到,第二列的第一行缺失值并没有被插补成功,因为我们插补的方向是向前的。

dropna()删除缺失值

代码1:删除包含至少1个空值的行。

dict = {'First Score':[100, 90, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, 40, 80, 98],         'Fourth Score':[np.nan, np.nan, np.nan, 65]} df = pd.DataFrame(dict) df.dropna()
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看到,只要某一行中有一个缺失值,那么这一整行都会被删除

代码2:如果该行中的所有值都缺失,才删除该行。

dict = {'First Score':[100, np.nan, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, np.nan, 80, 98],         'Fourth Score':[np.nan, np.nan, np.nan, 65]} dfdf.dropna(how = 'all') 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看到因为第二行所有值都缺失,所以第二行被删除。

代码3:删除包含至少1个空值的列。

dict = {'First Score':[100, np.nan, np.nan, 95],         'Second Score': [30, np.nan, 45, 56],         'Third Score':[52, np.nan, 80, 98],         'Fourth Score':[60, 67, 68, 65]} df = pd.DataFrame(dict) df.dropna(axis = 1) 
           

输出

dataframe列互换 python_python数据分析:缺失数据的处理isnull()和notnull()用来检查缺失值fillna(),replace()和interpolate()用来填充缺失值dropna()删除缺失值

可以看出,某一行只要有一个缺失便整行都被删除。

好了,今天就写这么多。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

往期精彩:

python数据分析:缺失值处理

python数据分析:删除与重命名dataframe的行与列