上次跟大家介紹的預測,并沒有深入讨論,以後有時間,我在整理一個執行個體系列的文章,跟大家深入讨論這些技術。今天講第二個任務,異常檢測。異常檢測也叫孤立點檢測,或離群點檢測。
如我前文所說,我們天天監控店鋪資料,目的就是為了發現異常并及時預警,如果一切正常,那咱們就啥事兒都沒有。萬一有異常資料出現,那我們就要做進一步的分析,找出導緻異常的罪魁禍首。
異常檢測,操作和觀測起來異常簡單,用箱線圖或者散點圖即可。
大家看下圖,是某行業按銷量排名前4004個寶貝的價格散點圖。非常明顯,有一個孤立點,居然賣12W+。
當我們發現這種孤立點的時候,必須要考慮的是:
1、這個資料是否有誤?
2、如果資料無誤,是什麼原因?
辨識是否有誤,就需要調出源資料進行檢查。這個相當簡單,隻要做核對,以及根據邏輯和常理來判别即可。但也有無法判定的情況。
我們先說第一個情況。如果我們判斷是資料出錯,而我們又無法拿到正确的資料,此時我們就需要對這個異常值進行處理。
異常值(資料有誤的情況下)處理的方法:
1、更正。2、删除。3、替換。
下面是通過生e經下載下傳下來的資料,共有325行資料。
對成交量、銷售額、高質寶貝數分别作出散點圖(我是做示範說明,不要再跟我糾結這個資料準不準等問題了)
銷售額這裡明顯有一個孤立點。如果我們不處理這個孤立點的話,可能會影響我們後續的分析結果。
可以直接定位到這個點的位置,在散點圖看一下,是在第77個點,那馬上就可以定位到excel的第78行。
經過篩選,可以直接拿出毛衣這組資料。
(為什麼散點圖是第77個點,而excel中是第78行?這個問題其實之前一直有人問我。但如果閱讀到這一篇,還不能獨立思考這個問題的話,那請先回過頭去看前面的7篇)
經過和生e經的資料對比,這個資料沒有錯,生e經上面就是這個資料。但是根據邏輯和常識,可以立馬判定這個資料是個錯誤值。
“為什麼能立馬判定這個是錯誤值?”如果不明白的話還是自己想啊,哈哈。
确定這個資料是個錯誤值後,我們也無法更正這個資料了。那要如何處理這個資料呢?已經無法更正了,就剩餘兩個方法:1、删除。2、替換。
删除的話,這裡不适用。一删就少了一個月的資料了。那這裡就用替換。
怎麼替換?那方法就多的去了。最簡單的方法是用平均值替換法,平均值替換也有多種技巧。
方法1、取這個值的前後兩個資料的平均值,也就是(935086015+894448225)/2=914767120,用這個數字來替換,就要比之前的靠譜多了。
方法2、先剔除錯誤行,然後算出平均售價,用平均售價乘以錯誤行的成交量即可。算得173*5292179=915546967
理論上面來講應該是方法2比較準确一點。我就用方法2替換這個錯誤值。替換後的散點圖如下。
異常值就不見了,我們就可以對這組資料做分析了。
另一種情況,如果這個孤立點不是錯誤值呢?也就是資料無誤,那這個時候,我們就要深入分析了。
看下面這個案例吧!雖然特别簡單,但可以表達清楚即可。
某店的銷售額,每天記錄下來,通過觀察即可發現(如果是淘寶,資料魔方,生e經等工具都有這個資料的,在網上就可以看到)
發現18号銷售額突然下降。依然是先判别是否錯誤值。判别無誤。
資料無錯的情況下,我們要找原因(這個案例真心太簡單,将就着吧)
第一步是分解名額,找到關鍵名額。
通過分解銷售額=客單價X轉化率X訪客數
這時,我們需要檢查的就是這三個名額。
客單價目測沒有問題。
轉化率非常明顯,在18号有一個最小值。
訪客數在8号居然是有升無減。。那鎖定轉化率的問題。
事情還沒完。。我們接着分解轉化率。
最終隻要細細看下這些轉化率名額即可。當然也可以想辦法把名額分得更細,再觀察。餘下的事情就留給讀者思考和實踐吧。我也到點了。
這一篇我介紹得很簡單,大家也不要被我誤導了。其實異常檢測,不僅僅能做這麼簡單的事情,很多我們熟知的功能其實就用的異常檢測。比如:
1、站長通過日志中的孤立點,發現入侵者
2、老師通過IQ測試分析孤立點,發現天才or白癡
3、氣象站人員通過孤立點,發現災害or極端天氣
4、淘寶or銀行or電信,發現欺詐or異常行為
等等。
原文釋出時間為:2018-09-18
本文來自雲栖社群合作夥伴“
零一”,了解相關資訊可以關注“
”。