大資料模組化流程之資料處理

原文連結

資料是模組化的基礎，也是研究事物發展規律的材料。資料本身的可信度和處理的方式将直接決定模型的天花闆在何處。一個太過雜亂的資料，無論用多麼精煉的模型都無法解決資料的本質問題，也就造成了模型的效果不理想的效果。這也是我們目前所要攻克的壁壘。但是，目前我們市場對的資料或者科研的資料并不是完全雜亂無章的，基本都是有規律可循的，是以，用模型算法去進行科學的分析，可以主觀情緒對決策的影響。是以資料是非常重要的一部分。那麼，接下來我們就詳細說一下資料的處理與分析。

一.資料的基本特征

當看到資料的時候，首要做的并不是進行清洗或者特征工程，而是要觀察資料所呈現的基本狀态，以及進行資料與任務的比對，這就需要我們之前所提到的業務常識與資料敏感度的能力了，隻有資料完整的分析完整，才能夠更為精準的做符合需求的特征工程（資料處理）的工作。資料的基本特征分析主要從以下幾個方面進行：

大資料模組化流程之資料處理

1.确定類型：資料集的類型包括文本，音頻，視訊，圖像，數值等多種形式交織而成，但是傳入模型中的都是以數值形式呈現的，是以确定資料的類型，才可以确定用什麼方法進行量化處理。

2.驗證可靠度：由于資料的收集的方式不盡相同，資料來源的途徑多種多樣。是以資料的可信度判斷也顯得尤為重要。而資料可靠性校驗得方法非常多。例如：根據收集途徑判斷，如果調查問卷也可根據問卷設計得可靠度進行判斷，當然轉化為數值後也可輔助一些模型進行精細校驗等。采用何種方式，取決于擷取資料得方式，資料類型以及項目得需求。

3.樣本定義：需要确定樣本得對應得每一個特征屬性的内容是什麼。例如：樣本的容量，樣本的具體内容，樣本所包含的基本資訊等。

4.任務比對：在任務分析中我們把項目拆分成了小的子問題，這些問題有分類，回歸，關聯關系等。也就是每個問題的所達成的目标是不一樣的，那麼我們要從資料集中篩選出符合子問題的資料，也就是選好解決問題的原料，很多情況下是靠你的資料敏感度和業務常識進行判斷的。

5.資料集的劃分：由于模型搭建完成之後有一個訓練與驗證評估的過程，而目前最為簡單的一種驗證手段就是就是交叉驗證，是以我們需要将資料集拆分成訓練集和測試集，這一步僅僅确定訓練集和測試集的比例關系，例如：70%的資料用于訓練，30%的資料用于測試。

二. 資料的清洗與處理

資料的清洗是一件非常繁瑣且耗費時間的事情，基本可以占到一個工程的30%到50%的時間。并且資料的清洗很難有規律可循，基本上依托于你對資料的基本分析與資料敏感度。當然，當你看的資料夠多，資料的清洗的經驗也就越多，會為你今後哦搭模組化型提供很多周遊，我們這裡提供一些常見的清洗的點。

大資料模組化流程之資料處理

A. 資料的預處理：

1.由于資料的來源大多數是來源于多個途徑，是以需要對資料進行合并；

2.選擇資料處理工具：資料庫或者python，spss等。

3.通過人工的方式去觀察資料可能出現的問題。

B.清洗異常樣本資料

清洗異常資料樣本需要考慮到方方面面，通常情況下我們從以下方面：

1.處理格式或者内容錯誤：

首先，觀察時間，日期，數值等是否出現格式不一緻，進行修改整理；其次，注意開頭，或者中間部分是否存在異常值；最後，看字段和内容是否一緻。例如，姓名的内容是男，女。

2.邏輯錯誤清洗：

去重：通常我們收集的資料集中有一些資料是重複的，重複的資料會直接影響我們模型的結果，是以需要進行去重操作；

去除或者替換不合理的值：例如年齡突然某一個值是-1，這就屬于不合理值，可用正常值進行替換或者去除；

修改沖突内容:例如身份證号是91年的，年齡35歲，顯然不合理，進行修改或者删除。

3.去除不要的資料：根據業務需求和業務常識去掉不需要的字段

4.關聯性錯誤驗證：由于資料來源是多個途徑，是以存在一個id，進行不同的資料收集，可通過，id或者姓名進行比對合并。

C.資料不平衡處理：改問題主要出現在分類模型中，由于正例與負例之間樣本數量差别較大，造成分類結果樣本量比較少的類别會大部分分錯。是以需要進行資料不平衡處理。常用的方法有：上采樣，下采樣，資料權重複制，異常點檢測等。不在一一闡述了。

大資料模組化流程之資料處理

大資料模組化流程之資料處理

繼續閱讀

transfomer

滑動平均原理