研究了2天缺失数据的处理方法,今天给大家写一个比较全面的总结:
在pandas中,缺失数据由两个值表示:
- None:None是Python单例对象,通常在Python代码中表示缺失数据。
- NaN:NaN(非数字【not a number】的缩写),是使用标准IEEE浮点表示法的所有系统都能识别的特殊浮点类型的值。
在pandas中缺失数据的表示上,这两者基本上可以互换。常见的缺失处理方法如下,今天我们一个一个来看:
- isnull()
- notnull()
- dropna()
- fillna()
- replace()
- interpolate()
isnull()和notnull()用来检查缺失值
代码1
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.isnull()
输出
代码2
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.notnull()
输出
fillna(),replace()和interpolate()用来填充缺失值
注意Interpolate()使用各种插补技术来填充丢失的值,而不是对缺失值进行硬填充。
代码1 用单一值填充所有缺失数据
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(0)
输出
此处我用0填充了所以的缺失值
代码2 使用缺失值上一个值填充该缺失值
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='pad')
输出
可以看到第三列的第一个缺失没有被填充因为其没有上一个值
代码3 用缺失值的下一个值填充
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, 45, 56, np.nan], 'Third Score':[np.nan, 40, 80, 98]} df = pd.DataFrame(dict)df.fillna(method ='bfill')
输出
可以看到,第二列的最后一个缺失值没有被填充,因为其没有下一个值
代码4:使用interpolate()函数,用线性回归预测方法填充缺少的值。
df = pd.DataFrame({"A":[12, 4, 5, None, 1], "B":[None, 2, 54, 3, None], "C":[20, 16, None, 3, 8], "D":[14, 3, None, None, 6]})df df.interpolate(method ='linear', limit_direction ='forward')
输出
可以看到,第二列的第一行缺失值并没有被插补成功,因为我们插补的方向是向前的。
dropna()删除缺失值
代码1:删除包含至少1个空值的行。
dict = {'First Score':[100, 90, np.nan, 95], 'Second Score': [30, np.nan, 45, 56], 'Third Score':[52, 40, 80, 98], 'Fourth Score':[np.nan, np.nan, np.nan, 65]} df = pd.DataFrame(dict) df.dropna()
输出
可以看到,只要某一行中有一个缺失值,那么这一整行都会被删除
代码2:如果该行中的所有值都缺失,才删除该行。
dict = {'First Score':[100, np.nan, np.nan, 95], 'Second Score': [30, np.nan, 45, 56], 'Third Score':[52, np.nan, 80, 98], 'Fourth Score':[np.nan, np.nan, np.nan, 65]} dfdf.dropna(how = 'all')
输出
可以看到因为第二行所有值都缺失,所以第二行被删除。
代码3:删除包含至少1个空值的列。
dict = {'First Score':[100, np.nan, np.nan, 95], 'Second Score': [30, np.nan, 45, 56], 'Third Score':[52, np.nan, 80, 98], 'Fourth Score':[60, 67, 68, 65]} df = pd.DataFrame(dict) df.dropna(axis = 1)
输出
可以看出,某一行只要有一个缺失便整行都被删除。
好了,今天就写这么多。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。
往期精彩:
python数据分析:缺失值处理
python数据分析:删除与重命名dataframe的行与列