天天看点

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

做数据分析的各位应该知道,数据就是我们的武器,就像厨师做饭一样,食材重要但是食材处理更重要。拿最简单的炒土豆丝来说,拿到土豆后最先开始的就是洗土豆了。同样作为数据分析师,既然我们已经有了数据,是不是就该清洗数据了,下面是我关于用excel进行数据清洗的一些总结。

做数据清洗主要包含以下这些点:

1、去掉不需要的重复数据

2、补足缺失数据

3、检查数据的准确性

我们一波一波的操作。

1、去掉不需要的重复数据

想要去掉重复数据首先要能找出重复数据:

第一种呢函数法

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

如上图所示,在B2中输入=COUNTIF(A:A,A2),往下一次类推就可以得出这串数据中这个数据重复出现了几次。

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

这次呢再B2中输入=COUNTIF(A$2:A2,A2),往下一次类推就可以得出这个数据在这列数据中它之前的数据中重复出现了几次。

实际应用中可以根据自己的需要选择,统计出那些重复的数据让后根据实际情况处理。

第二种呢就是用数据筛选的方法

选中需要筛选的数据 —— 数据选项卡——排序和筛选—— 高级筛选

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

第三种处理重复数据的方法呢就使用数据透视表,计算出重复的数据的频次,然后根据实际情况对这些数据进行处理。这里简单介绍找出重复数据的几种方法。

既然已经找到了重复的数据下面就可以开始删除重复数据了,可以直接选中数据,使用数据中的“删除重复项”删除重复项。

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

另一种方法呢是针对第二次重复标记进行降序排序,然后删除掉重复项就可以了。

2、补足缺失数据

处理完重复的数据就该处理缺失的数据了,如果说缺失值过多说明在数据采集的过程中出现了问题,那这个数据的准确性就不能保证,建议缺失值大于10% 的数据就放弃吧。

缺失的数据最常见的就是空值,这时候呢可以使用定位来查找。可以选择开始——编辑——定位条件。或者直接使用快捷键Ctrl+G或者F5就会弹出以下对话框。

excel数据清洗_用excel进行数据清洗需要的一波操作(一)
excel数据清洗_用excel进行数据清洗需要的一波操作(一)

这样就会直接定位到数据的缺失项。找到缺失项应该怎么处理呢?处理缺失值一般有以下几种方法:

一 用一个样本统计量的值代替缺失值一般是用平均值代替缺失值。

二 用一个统计模型计算出来的量来代替缺失值

三 直接将缺失值删除

这里可以使用Ctrl+Enter快捷键来一次性填充数据

excel数据清洗_用excel进行数据清洗需要的一波操作(一)

如上图所示,先定位到缺失值,然后输入 缺失,按下Ctrl+enter ,所有的缺失数据中就会填入缺失字样。

当然例子中的C3列都是数字如果输入缺失,是不对的,这时可以使用替换查找功能将 缺失替换为数字2

excel数据清洗_用excel进行数据清洗需要的一波操作(一)
3、检查数据的准确性

处理完了多余的数据和缺失的数据,就该要检查获取的数据是否符合要求了,一般数据出现错误是出现的数据不符合要求,不如我们做农产品数据调查时,出现了苹果手机这个数据,这肯定是不符合要求的,要么是数据输入时输错了,要么是数据抓取时出现错误。

另外一种就是数据出现的格式不符合要求,比如我们在针对在职人员的收入情况做调查分析时,年龄中出现了14周岁,这肯定是不正确的是吧,企业禁止雇佣童工的。

这时候我们可以使用if函数来解决这些问题.