天天看點

資料清洗習題總結

1.8

1,對原始資料進行有效的清洗是大資料分析和應用過程中的關鍵環節。

2,資料品質的評價标準有準确性,完整性,簡潔性,适用性。

3,資料品質的問題何以分為兩類,分别是基于資料源的“髒資料”分類和基于清洗方式的“髒資料”分類。

4,資料清洗技術是提高資料品質的有效方法。

5,常見的資料品質問題主要包括缺失值、重複值以及錯誤值等問題。

6,直接使用原始資料會影響資料決策的準确性和效率。

7,從資料清洗方式的設計者角度看,可以将“髒”資料分為“獨立型‘髒’資料”和“依賴型‘髒’資料”兩類。

8,依賴型“髒”資料主要包括缺失資料和拼寫錯誤資料等“髒”資料。

9,資料清洗的目的是解決“髒”資料問題,将資料清洗幹淨。

10,基于資料源的“髒”資料分類的資料品質問題可以分為單資料源問題和多資料源問題。

11,适用性是評價資料品質的核心原則。

12,手工清洗政策,自動清洗政策,特定應用領域政策,與特定應用領域無關政策都屬于一般的資料清洗政策。

13,清洗重複值的基本思想是“排序和合并”。

14,資料清洗的基本流程:

資料清洗習題總結

 2.5

1,ETL(Extract Transform Load)是實作商務智能(Business Intelligence,BI)的核心和靈魂。

2,ETL是将業務系統的資料經過抽取、轉換之後加載到資料倉庫的過程。

3,ETL的實作有多種方式,常見的方式有借助ETL工具,編寫SQL語句,将ETL工具與SQL語句結合起來使用。

4,資料的抽取分為資料的全量抽取和資料的增量抽取。

5,不符合要求的資料主要有不完整的資料,錯誤的資料,重複的資料三大類。

6,基于ETL的資料清洗時挖掘有價值資料的一種方案。

7,如果資料源為外部檔案,就使用SQL語句進行資料清洗工作,隻能從資料源中抽取出來,然後在資料轉換的時候進行資料清洗的工作。

8,不完整資料主要包括缺失部分資訊的資料。

9,重複資料檢測主要分為基于字段和基于記錄的重複檢測。

10,Kettle是一款國外免費開源的ETL工具,純Java語言編寫。

11,資料的增量抽取有四種方式:觸發器方式,時間戳方式,全表比對方式,日志表方式。

12,重複資料檢測主要分為基于字段和基于記錄的重複資料檢測。基于字段的重複檢測算法為編輯距離算法;基于記錄的重複檢測算法主要包括排序鄰居算法,優先隊列算法,N-Gram聚類算法。

13,不符合要求資料的清洗流程:

資料清洗習題總結

 3.6

1,Kettle是一款國外免費開源的輕量級ETL工具。

2,Kettle可以在Windows,Linux,UNIX系統上運作,并且是綠色無需安裝的。

3,Kettle的內建開發環境Spoon提供了一個基于SWT的圖形使用者界面,主要用于ETL的開發。

4,一個資料抽取過程主要包括建立一個作業,并且每個作業可以包括多個轉換操作。

5,轉換中的步驟是通過轉換跳連接配接的。

6,Kettle中,資料的機關是行,資料流就是資料行從一個步驟到另一個步驟的移動。

7,Kettle中,一個作業可以包含多個作業項。

8,作業跳是作業項之間的連接配接線,它定義了作業的執行路徑。

9,定義一個Kettle的資料庫連接配接,并不會真正打開一個資料庫連接配接。

10,作業的執行順序由作業項之間的跳和每個作業項的執行結果決定。

11,Kettle的設計原則:易于開發,避免自定義開發,所有功能界面都可通過使用者界面完成,沒有命名限制,透明,靈活的資料通道,隻映射需要映射的字段。

12,作業管理主要包括通用,郵件,檔案管理,條件,腳本,批量加載等功能。

13,Kettle工具有Spoon,Pan,Kitchen,Carte。

4.5

1,實際應用中,常用的文本檔案類型有兩種,分别是TSV檔案和CSV檔案兩種。

2,制表符檔案中的資料是以表格的結構進行存儲。

3,使用逗号分隔資料字段的檔案被稱為逗号分隔值檔案。

4,HTML可以以文檔的形式展示,HTML文檔中包含HTML标簽和純文字。

5,JSON是一種輕量級的資料交換方式。

6,XML是一種可擴充标記語言,也是以一種元标記語言,與HTML有很大差別。

7,JSON是理想的資料交換語言。

8,通過制表符分隔的文本資料與未使用制表符分隔的資料相比,前者更便于觀察識别,同時也便于對資料進行抽取操作。

9,CSV檔案以純文字形式存儲表格資料(數字和文本)。

10,NoSQL是Not Only SQL的縮寫。

11,CSV的特定實作規則:

                開頭是不留白,以行為機關。

                可含或不含列名,含列名則居檔案第一行。

                一行資料不跨行,無空行。

                以半形逗號(即,)作分隔符,列為空也要表達其存在。

                列内容如存在半形逗號(即,)則用半角雙引号(即"")将該字段值包含起來。

                列内容如存在半角引号(即")則應替換成半角雙引号("")轉義,并用半角引号(即"")将該字段值包含起來。

                檔案讀寫時引号,逗号操作規則互逆。

                内碼格式不限,可為 ASCII、Unicode 或者其他。

                不支援特殊字元。

12,XML的主要用途:

                XML可以将資料從HTML中分離。

                XML可以簡化資料傳輸。

                XML可以簡化資料共享。

                XML簡化平台變更。

                XML可以使資料充分利用。

                XML可用于存儲資料。

                XML可用于建立新的網際網路語言。

13非關系型資料庫有MongoDB,Redis及HBase等。

5.6

1,常見的資料清洗操作包括重複值的處理,缺失值的處理,異常值的處理。

2,資料缺失分為兩種,分别是行記錄的缺失和列記錄的缺失。

3,異常值的檢測方法通常分為三大類,即無監督異常值的檢測,監督式異常值的檢測以及半監督式異常值的檢測。

4,資料的一緻性有三種類型,即強一緻性,弱一緻性以及最終一緻性。

5,修補異常值的方式主要有兩種,即修改異常值和替換異常值。

6,完全去重指的是消除完全重複的資料。

7,缺失值産生的原因主要是人為原因和機械原因。

8,箱型圖又稱為箱線圖,是一種用于顯示一組資料分散情況的統計圖。

9,資料一緻性是指在對一個副本資料進行更新的同時,必須確定也能更新到其他副本。

10,檢查資料都必須遵守預定義的業務規則,找出不符合業務規則的資料。

11,填充缺失值的方法有均值填充,熱卡填充,回歸填充,多重填充。

12,修改異常值的政策:一是利用資料集中的代表屬性,如衆數和均值等,或是定義一個資料代替異常值;二是通過回歸模型,決策樹模型,貝葉斯定理等預測異常值,并利用最鄰近值替代異常值。

6.6

1,資料轉換是資料清洗過程的重要步驟之一。

2,不一緻資料轉換主要是将不同業務系統中的相同類型的資料進行統一。

3,一般情況下會将業務系統資料按照資料倉庫粒度進行聚合,這個過程被稱為資料粒度的轉換。

7.4

1,資料的加載機制可以分為全量加載和增量加載。

2,增量加載是指目标表僅加載源資料表中變化的資料。

3,當資料遷移量過于龐大時,需要針對資料采取批量加載的操作。

繼續閱讀