天天看点

箱线图怎么判断异常值_异常值的识别与处理,看这一篇就够了

箱线图怎么判断异常值_异常值的识别与处理,看这一篇就够了

在数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面就给大家介绍一下如何处理数据中的异常值。

一、异常值判断

何为异常值? 异常值

,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为

离群点

。异常值分析就是要将这些离群点找出来,然后进行分析。

异常值判断

在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:

    • (1)数字超过某个标准值

这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。

比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。

又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。

    • (2)数据大于±3标准差

3σ 原则是在数据服从正态分布的时候用的比较多,在这种情况下&