天天看点

数据清洗习题总结

1.8

1,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

2,数据质量的评价标准有准确性,完整性,简洁性,适用性。

3,数据质量的问题何以分为两类,分别是基于数据源的“脏数据”分类和基于清洗方式的“脏数据”分类。

4,数据清洗技术是提高数据质量的有效方法。

5,常见的数据质量问题主要包括缺失值、重复值以及错误值等问题。

6,直接使用原始数据会影响数据决策的准确性和效率。

7,从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型‘脏’数据”和“依赖型‘脏’数据”两类。

8,依赖型“脏”数据主要包括缺失数据和拼写错误数据等“脏”数据。

9,数据清洗的目的是解决“脏”数据问题,将数据清洗干净。

10,基于数据源的“脏”数据分类的数据质量问题可以分为单数据源问题和多数据源问题。

11,适用性是评价数据质量的核心原则。

12,手工清洗策略,自动清洗策略,特定应用领域策略,与特定应用领域无关策略都属于一般的数据清洗策略。

13,清洗重复值的基本思想是“排序和合并”。

14,数据清洗的基本流程:

数据清洗习题总结

 2.5

1,ETL(Extract Transform Load)是实现商务智能(Business Intelligence,BI)的核心和灵魂。

2,ETL是将业务系统的数据经过抽取、转换之后加载到数据仓库的过程。

3,ETL的实现有多种方式,常见的方式有借助ETL工具,编写SQL语句,将ETL工具与SQL语句结合起来使用。

4,数据的抽取分为数据的全量抽取和数据的增量抽取。

5,不符合要求的数据主要有不完整的数据,错误的数据,重复的数据三大类。

6,基于ETL的数据清洗时挖掘有价值数据的一种方案。

7,如果数据源为外部文件,就使用SQL语句进行数据清洗工作,只能从数据源中抽取出来,然后在数据转换的时候进行数据清洗的工作。

8,不完整数据主要包括缺失部分信息的数据。

9,重复数据检测主要分为基于字段和基于记录的重复检测。

10,Kettle是一款国外免费开源的ETL工具,纯Java语言编写。

11,数据的增量抽取有四种方式:触发器方式,时间戳方式,全表比对方式,日志表方式。

12,重复数据检测主要分为基于字段和基于记录的重复数据检测。基于字段的重复检测算法为编辑距离算法;基于记录的重复检测算法主要包括排序邻居算法,优先队列算法,N-Gram聚类算法。

13,不符合要求数据的清洗流程:

数据清洗习题总结

 3.6

1,Kettle是一款国外免费开源的轻量级ETL工具。

2,Kettle可以在Windows,Linux,UNIX系统上运行,并且是绿色无需安装的。

3,Kettle的集成开发环境Spoon提供了一个基于SWT的图形用户界面,主要用于ETL的开发。

4,一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作。

5,转换中的步骤是通过转换跳连接的。

6,Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。

7,Kettle中,一个作业可以包含多个作业项。

8,作业跳是作业项之间的连接线,它定义了作业的执行路径。

9,定义一个Kettle的数据库连接,并不会真正打开一个数据库连接。

10,作业的执行顺序由作业项之间的跳和每个作业项的执行结果决定。

11,Kettle的设计原则:易于开发,避免自定义开发,所有功能界面都可通过用户界面完成,没有命名限制,透明,灵活的数据通道,只映射需要映射的字段。

12,作业管理主要包括通用,邮件,文件管理,条件,脚本,批量加载等功能。

13,Kettle工具有Spoon,Pan,Kitchen,Carte。

4.5

1,实际应用中,常用的文本文件类型有两种,分别是TSV文件和CSV文件两种。

2,制表符文件中的数据是以表格的结构进行存储。

3,使用逗号分隔数据字段的文件被称为逗号分隔值文件。

4,HTML可以以文档的形式展示,HTML文档中包含HTML标签和纯文本。

5,JSON是一种轻量级的数据交换方式。

6,XML是一种可扩展标记语言,也是以一种元标记语言,与HTML有很大区别。

7,JSON是理想的数据交换语言。

8,通过制表符分隔的文本数据与未使用制表符分隔的数据相比,前者更便于观察识别,同时也便于对数据进行抽取操作。

9,CSV文件以纯文本形式存储表格数据(数字和文本)。

10,NoSQL是Not Only SQL的缩写。

11,CSV的特定实现规则:

                开头是不留空,以行为单位。

                可含或不含列名,含列名则居文件第一行。

                一行数据不跨行,无空行。

                以半角逗号(即,)作分隔符,列为空也要表达其存在。

                列内容如存在半角逗号(即,)则用半角双引号(即"")将该字段值包含起来。

                列内容如存在半角引号(即")则应替换成半角双引号("")转义,并用半角引号(即"")将该字段值包含起来。

                文件读写时引号,逗号操作规则互逆。

                内码格式不限,可为 ASCII、Unicode 或者其他。

                不支持特殊字符。

12,XML的主要用途:

                XML可以将数据从HTML中分离。

                XML可以简化数据传输。

                XML可以简化数据共享。

                XML简化平台变更。

                XML可以使数据充分利用。

                XML可用于存储数据。

                XML可用于创建新的互联网语言。

13非关系型数据库有MongoDB,Redis及HBase等。

5.6

1,常见的数据清洗操作包括重复值的处理,缺失值的处理,异常值的处理。

2,数据缺失分为两种,分别是行记录的缺失和列记录的缺失。

3,异常值的检测方法通常分为三大类,即无监督异常值的检测,监督式异常值的检测以及半监督式异常值的检测。

4,数据的一致性有三种类型,即强一致性,弱一致性以及最终一致性。

5,修补异常值的方式主要有两种,即修改异常值和替换异常值。

6,完全去重指的是消除完全重复的数据。

7,缺失值产生的原因主要是人为原因和机械原因。

8,箱型图又称为箱线图,是一种用于显示一组数据分散情况的统计图。

9,数据一致性是指在对一个副本数据进行更新的同时,必须确保也能更新到其他副本。

10,检查数据都必须遵守预定义的业务规则,找出不符合业务规则的数据。

11,填充缺失值的方法有均值填充,热卡填充,回归填充,多重填充。

12,修改异常值的策略:一是利用数据集中的代表属性,如众数和均值等,或是定义一个数据代替异常值;二是通过回归模型,决策树模型,贝叶斯定理等预测异常值,并利用最邻近值替代异常值。

6.6

1,数据转换是数据清洗过程的重要步骤之一。

2,不一致数据转换主要是将不同业务系统中的相同类型的数据进行统一。

3,一般情况下会将业务系统数据按照数据仓库粒度进行聚合,这个过程被称为数据粒度的转换。

7.4

1,数据的加载机制可以分为全量加载和增量加载。

2,增量加载是指目标表仅加载源数据表中变化的数据。

3,当数据迁移量过于庞大时,需要针对数据采取批量加载的操作。

继续阅读