天天看點

大資料模組化流程之資料處理

原文連結

資料是模組化的基礎,也是研究事物發展規律的材料。資料本身的可信度和處理的方式将直接決定模型的天花闆在何處。一個太過雜亂的資料,無論用多麼精煉的模型都無法解決資料的本質問題,也就造成了模型的效果不理想的效果。這也是我們目前所要攻克的壁壘。但是,目前我們市場對的資料或者科研的資料并不是完全雜亂無章的,基本都是有規律可循的,是以,用模型算法去進行科學的分析,可以主觀情緒對決策的影響。是以資料是非常重要的一部分。那麼,接下來我們就詳細說一下資料的處理與分析。

一.資料的基本特征

當看到資料的時候,首要做的并不是進行清洗或者特征工程,而是要觀察資料所呈現的基本狀态,以及進行資料與任務的比對,這就需要我們之前所提到的業務常識與資料敏感度的能力了,隻有資料完整的分析完整,才能夠更為精準的做符合需求的特征工程(資料處理)的工作。資料的基本特征分析主要從以下幾個方面進行:

大資料模組化流程之資料處理

1.确定類型:資料集的類型包括文本,音頻,視訊,圖像,數值等多種形式交織而成,但是傳入模型中的都是以數值形式呈現的,是以确定資料的類型,才可以确定用什麼方法進行量化處理。

2.驗證可靠度:由于資料的收集的方式不盡相同,資料來源的途徑多種多樣。是以資料的可信度判斷也顯得尤為重要。而資料可靠性校驗得方法非常多。例如:根據收集途徑判斷,如果調查問卷也可根據問卷設計得可靠度進行判斷,當然轉化為數值後也可輔助一些模型進行精細校驗等。采用何種方式,取決于擷取資料得方式,資料類型以及項目得需求。

3.樣本定義:需要确定樣本得對應得每一個特征屬性的内容是什麼。例如:樣本的容量,樣本的具體内容,樣本所包含的基本資訊等。

4.任務比對:在任務分析中我們把項目拆分成了小的子問題,這些問題有分類,回歸,關聯關系等。也就是每個問題的所達成的目标是不一樣的,那麼我們要從資料集中篩選出符合子問題的資料,也就是選好解決問題的原料,很多情況下是靠你的資料敏感度和業務常識進行判斷的。

5.資料集的劃分:由于模型搭建完成之後有一個訓練與驗證評估的過程,而目前最為簡單的一種驗證手段就是就是交叉驗證,是以我們需要将資料集拆分成訓練集和測試集,這一步僅僅确定訓練集和測試集的比例關系,例如:70%的資料用于訓練,30%的資料用于測試。

二. 資料的清洗與處理

資料的清洗是一件非常繁瑣且耗費時間的事情,基本可以占到一個工程的30%到50%的時間。并且資料的清洗很難有規律可循,基本上依托于你對資料的基本分析與資料敏感度。當然,當你看的資料夠多,資料的清洗的經驗也就越多,會為你今後哦搭模組化型提供很多周遊,我們這裡提供一些常見的清洗的點。

大資料模組化流程之資料處理

A. 資料的預處理:

1.由于資料的來源大多數是來源于多個途徑,是以需要對資料進行合并;

2.選擇資料處理工具:資料庫或者python,spss等。

3.通過人工的方式去觀察資料可能出現的問題。

B.清洗異常樣本資料

清洗異常資料樣本需要考慮到方方面面,通常情況下我們從以下方面:

1.處理格式或者内容錯誤:

首先,觀察時間,日期,數值等是否出現格式不一緻,進行修改整理;其次,注意開頭,或者中間部分是否存在異常值;最後,看字段和内容是否一緻。例如,姓名的内容是男,女。

2.邏輯錯誤清洗:

去重:通常我們收集的資料集中有一些資料是重複的,重複的資料會直接影響我們模型的結果,是以需要進行去重操作;

去除或者替換不合理的值:例如年齡突然某一個值是-1,這就屬于不合理值,可用正常值進行替換或者去除;

修改沖突内容:例如身份證号是91年的,年齡35歲,顯然不合理,進行修改或者删除。

3.去除不要的資料:根據業務需求和業務常識去掉不需要的字段

4.關聯性錯誤驗證:由于資料來源是多個途徑,是以存在一個id,進行不同的資料收集,可通過,id或者姓名進行比對合并。

C.資料不平衡處理:改問題主要出現在分類模型中,由于正例與負例之間樣本數量差别較大,造成分類結果樣本量比較少的類别會大部分分錯。是以需要進行資料不平衡處理。常用的方法有:上采樣,下采樣,資料權重複制,異常點檢測等。不在一一闡述了。

大資料模組化流程之資料處理