天天看點

Excel資料處理(缺失值/重複值/異常值/拆分)

目錄:

一、缺失值

    1、篩選

    2、定位空值

    3、缺失值的處理

    4、執行個體

二、重複值

    1、countif函數

    2、條件格式

    3、資料透視表

三、異常值

    1、異常值的判斷

    2、執行個體

四、字段拆分

    1、分列

    2、文本函數

    3、執行個體

正文開始:

爬取了某招聘網站關于資料分析的職位的資訊進行資料處理的執行個體講解

原始字段:

崗位:崗位名稱

位址:地市+區

薪資:薪資+X年經驗+學曆

薪資2:薪資

公司:公司名稱

公司概況:公司所屬行業+規模+人數

Excel資料處理(缺失值/重複值/異常值/拆分)

缺失值即資料值為空,或為NULL等,尋找缺失值有很多方法,這裡提供篩選和定位空值兩個思路。

1、篩選

我們發現學曆一欄裡是有空值的,尋找空值的方法很多,這裡提供兩個方法,一個是直接篩選,在Excel裡對于資料量較少的情況下篩選空值是很有效的一個方法,資料——篩選裡可以找到,篩選的快捷鍵是“ctrl+L”.

Excel資料處理(缺失值/重複值/異常值/拆分)

2、定位空值

開始——查找——定位條件裡選擇定位空值,可以篩選出所有空值。

Excel資料處理(缺失值/重複值/異常值/拆分)

3、缺失值的處理

對于尋找到的缺失值我們該如何處理呢,這得看實際的資料和業務需求了,一般來說可以有以下3種處理方式,直接删除、保留和尋找替代值。

直接删除:直接删除的優點是删除以後整個資料集都變得完美了,都是有完整記錄的資料,缺點是缺少了部分樣本可能導緻整體結果的偏差。對于有大量缺失值的在衡量利弊的情況下建議就直接删除了吧,缺失了大量關鍵資料的樣本集統計起來也沒有什麼意義。

保留:保留缺失值,優點是保證了樣本的完整,缺點是你得知道為什麼要保留,保留它的意義是什麼,是什麼原因導緻了值的缺失,是系統的原因還是人為的原因,這種保留建立在缺失單個資料的情況下,且缺失值是有明确意義的。

尋找替代值:如用均值、衆數、中位數等代替缺失值,優點是簡單且有依據,缺點是可能會使缺失值失去其本身的含義。對于尋找替代值的除了統計學中常用的描述資料的值以外,還可以人為地去賦予缺失值一個具體的值。

4、執行個體

具體到本例中,學曆為空的缺失值我們如果直接删除,會發現在年限一欄裡就少了應屆畢業生這個變量了,是以不能直接删除。保留的話,按照常識,就算是應屆畢業生也應該有相應的學曆,是什麼應屆,高中?大專?大學?碩士?是以保留也不行。那要就尋找替代值了,我們發現學曆裡的變量有大專、大學、碩士、不限,這些是類别變量,如果取衆數來替代空值的話,那應屆畢業生的學曆應該填大學,但我們通過分析薪資和年限發現,填大學好像不太對,學曆大學,年限一年以下的薪資在4K-8K之間,而應屆畢業生的薪資在10-15K,說明這個應屆畢業生的學曆要比大學高比碩士低,依據常識推斷此處空值可填大學雙學位。

Excel資料處理(缺失值/重複值/異常值/拆分)

可以直接篩選出來填,也可以定位空值填,此處以定位空值批量填寫為例,定位好空值後直接在單元格内輸入“大學雙學位”,此時先不要急着回車,批量填寫時要“ctrl+回車”。

Excel資料處理(缺失值/重複值/異常值/拆分)

擷取資料源的時候可能因為各種原因會導緻擷取到完全重複的資料,對于這樣的資料我們沒必要進行重複統計,是以需要找出重複值并删除,這裡也提供3種尋找重複值的思路:countif函數、條件格式和資料透視表。

1、countif函數

還記得countif函數嗎,按條件統計個數,模闆:countif(區域,條件),這裡countif(I:I,I2),統計I2單元格在I列裡出現的次數,以此類推,結果為1的是出現了1次,為2是出現了2次。這樣就可以統計重複出現的公司了,對于公司等招聘條件都重複的可以删除。

Excel資料處理(缺失值/重複值/異常值/拆分)

2、條件格式

開始——條件格式——突出顯示單元格的規則——重複值,将重複值直接以紅色底色顯示出來。

Excel資料處理(缺失值/重複值/異常值/拆分)

3、資料透視表

資料透視表可以直覺地統計出每個變量出現的次數,行标簽是公司,以公司進行計數統計。

Excel資料處理(缺失值/重複值/異常值/拆分)

對于重複值的處理,就兩個字:删除。

1、異常值的判斷

對異常值的判斷除了依靠統計學常識以外就是對業務的了解。如果某個類别變量出現的頻率非常少,或者某數值型變量相對業務來說太異常的可以判斷為異常值。對異常值的處理就直接删除好了。 

2、執行個體

在本例中,我們對薪資下限升序排列,發現了一個薪資區間在1-1K的,但因為深圳的基本工資為2200元,是以對于薪資上限小于2K的值我們都判定為異常。

Excel資料處理(缺失值/重複值/異常值/拆分)

對于原始資料有些字段不是我們想象中格式,是以要對這些字段做一些計算和處理,計算這裡就不細說了,用函數搞定即可,這裡主要講解一下字段拆分的操作。

對于原始字段裡的位址一欄,我們想要将地市和區域分開,将一個字段分割成兩個字段,這裡介紹兩種方式:分列和函數。

1、分列

之前講到過分列的功能,資料——分列,觀察資料發現,地市和區域之間以符号 “ · ” 區分,是以我們也用該符号進行分列的标志,可以得到地市和區域分開的資料。

Excel資料處理(缺失值/重複值/異常值/拆分)
Excel資料處理(缺失值/重複值/異常值/拆分)

2、文本函數

可以使用left、right以及find函數來實作字段分列的功能。觀察發現,地市全部為兩個字元,那麼地市一欄我們就可以用left函數取前兩個字元即可得到。

Excel資料處理(缺失值/重複值/異常值/拆分)

區域字段理想情況下應該用right函數取後3位字元,但觀察發現,有的區域是三個字元,有的是兩個字元,那就不能直接用right函數取後3位了,應該取的是總字元個數減3個字元(沒明白的再好好琢磨一下),RIGHT(B2,LEN(B2)-3)。

Excel資料處理(缺失值/重複值/異常值/拆分)

3、執行個體

 這裡我們還要對薪資一欄進行處理,我們想要把原始字段裡的區間變量轉換成薪資下限和薪資上限,為什麼要做這樣一個處理呢?我們在學Excel使用技巧的時候發現,其實把幾個字段合并起來是非常容易的,但想要把一個字段拆分成幾個我們想要的字段其實是很困難的,有規律的還好我們用分列+公式也能解決,規律不明顯的就沒法處理了。是以在錄入Excel表的時候,也建議小夥伴們本着最簡化的原則去錄入,一個單元格裡能少放就不要多放,比如位址:深圳市福田區上梅林XX大廈,你就把它分成三個單元格錄入最好,深圳市,福田區,上梅林XX大廈,這也是給統計的人以友善,人家想合并幾秒就能合并,想拆分還得寫上一大堆公式,還不一定能拆分出來否。

Excel資料處理(缺失值/重複值/異常值/拆分)

好,我們先來看看分列能不能完成,分割符号是-,最後分列完是BC列顯示的,資料+機關的形式(13K),我們在做Excel資料表統計的時候數值通常是不帶機關的,因為你帶上個機關這個單元格的值就變成了文本形式,沒法做數值統計,是以我們還要把K這個機關去掉,這很簡單了,我們用LEFT(B2,LEN(B2)-1)公式,

Excel資料處理(缺失值/重複值/異常值/拆分)
Excel資料處理(缺失值/重複值/異常值/拆分)

這是先分列再公式,可能有人會覺得繁瑣,接下來,我們直接上公式。=LEFT(A2,FIND("k",A2)-1),高效,就看你對公式的掌握了。先find找k是第幾個值,find後的結果是數到k,可能是3也可能是2,,然後left左取3-1(2-1)。

Excel資料處理(缺失值/重複值/異常值/拆分)

背景回複“資料處理”可擷取本執行個體的資料,實操練習效果更佳哦。

關于資料處理這部分就告一段落,接下來在 用Excel進行資料分析系列 中會寫一些分析的方法、技巧,感謝各位的持續關注。

提供入門級資料分析的學習路線規劃,分享從Excel到統計學的幹貨。資料分析是一項技能,希望人人都能分析資料。

Excel資料處理(缺失值/重複值/異常值/拆分)

繼續閱讀