天天看点

【数据挖掘概念与技术】学习笔记3-数据预处理

  1. 有大量的数据预处理技术:数据清理可以用来清除数据中的噪声,纠正不一致。数据集成由多个数据源合并成一个一致的数据存储,如数据仓库。数据归约可以通过如聚集删除冗余特征或聚类来降低数据规模。数据变换可以用来把数据压缩到较小区间。
  2. 数据清理:通过填写缺失的值,光滑噪声数据,识别或删除离群点,解决不一致性来清理数据。
    • 填写缺失值方法:
      • 忽略元组:忽略某元组后,不能再使用该元组的其他属性值
      • 人工填写缺失值
      • 使用一个全局常量填充缺失值(如Unknown)
      • 使用属性的中心度量(如均值、中位数)填充缺失值
      • 使用与给定元组属同一类的所有样本的属性均值或中位数(如将顾客按风险级别分类,则用具有相同级别的所有顾客的收入的均值或中位数来代替这个顾客的收入)
      • 使用最可能的值填充缺失值:用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定缺失值(如利用数据集中其他顾客的属性,构造一棵决策树,预测Income的值)
    • 光滑噪声数据方法(许多光滑数据的方法也用于数据离散化和数据归约;有些分类方法如神经网络有内置的数据光滑机制):
      • 分箱:通过考察数据的”近邻“来光滑有序数据值。
      • 回归:用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性的”最佳“直线,使一个属性可以用来预测另一个属性。多元线性回归是线性回归的补充,涉及多个属性,并且数据拟合到一个多维曲面。
    • 离群点分析:
      • 通过一些方法如聚类来检测离群点。
  3. 数据集成时可能产生冗余信息。数据集成时可再次进行数据清理,检测和删去可能由集成导致的冗余。
    • 实体识别问题:数据集成将多个数据源合并,这些数据源包括多个数据库、数据立方体或一般文件。
      • 数据库表间的字段表示的信息是否一致,属性名相同,但含义是否相同
    • 冗余和相关分析:一个属性可能其另一个或几个属性导出,则这个属性可能是冗余的。有些冗余可被相关分析检测到,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,使用X2(卡方)检验;对于数值属性,我们使用相关系数和协方差。
    • 元组重复:除检测属性的冗余外还应当在元组检测重复。
    • 数据值冲突的检测与处理:如对于现实世界的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、尺度或编码不同;属性也可能在不同的抽象层,如一个是省级,一个是市级。
  4. 数据归约:用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。
    • 数据归约策略:包括维归约、数量归约和数据压缩。
      • 维归约:减少所考虑的属性个数。包括小波变换、主成分分析,它们把原数据变换或投影到较小的空间;属性子集选择(去掉不相关的属性);属性构造(从原来的属性集导出更有用的小属性集)。
      • 数量归约:使用参数模型(回归模型、对数线性模型等)或非参数模型(直方图、聚类、抽样、数据聚集等),用较小的表示代替数据。
      • 数据压缩:使用变换以便 得到原数据的归约或”压缩“表示。维归约和数量归约也可视为某种形式的数据压缩。
  5. 数据变换:规范化(按比例映射到一个较小区间,以使各属性权重相近)、数据离散化和概念分层(属性原始值被区间或较高层的概念取代,如原始年龄用青年、中年、老年代替)。
    • 数据变换策略:
      • 光滑:去掉数据中的噪声。这类技术包括分箱、回归、聚类。
      • 属性构造:由给定的属性构造新的属性并添加到属性集中。
      • 聚集:对数据进行汇总或聚集。
      • 归范化:将属性数据按比例缩放,使之落入一个特定的小区间。规范化数据试图赋予所有属性相等的权重。
      • 离散化:数值属性的原始值用区间标签或概念标签替换,这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。(可通过分箱离散化,直方图分析离散化,聚类、决策树、相关分析离散化)
      • 由标称数据产生概念分层:如省级,市级。
  6. 数据预处理的主要任务之间存在许多重叠

继续阅读