本節書摘來自華章出版社《智能資料時代:企業大資料戰略與實戰》一書中的第3章,第3.6節,作者 talkingdata ,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
有人認為在處理大資料時忽略各種異常資料是最好的做法,為此他們建立了複雜的過濾程式,來舍棄那些異常的資訊。在處理特定類型的資料時,這可能算是較為穩妥的做法,因為異常往往會導緻結果的不準确。但實踐證明,在某些時候和某些特定的情景中,異常資料要比其他的資料更有價值。對此,我們應該認識到的是“在沒有進一步分析的情況下,丢棄資料的做法是不正确的”。
舉例來說,在以資料加密為标準做法并且需要實時進行通路記錄和資料檢查的高端網絡安全領域,識别并認定符合資料非特征運動的情況(即通過發現異常來檢測安全問題)是至關重要的步驟。上述思想可以應用于從金融審計到科學探究再到檢測網絡威脅等領域,在這些領域,發現和識别非正常現象才是服務的關鍵。
在大資料的世界裡,“異常資料”可能隻是一個條目,在數百萬的資料量中,這一個條目可能并不值得注意。但是,在對流量、通路和資料流進行分析時,這一個條目就可能具有無法估量的價值,并可能成為獲驗證據的關鍵資訊。在計算機安全領域,發現異常具有特别重大的意義。但是很多資料科學家都不願意為研究異常處理而占用用于其他任務的資源。
事實上,異常現象很可能是某種趨勢的前兆。以網上購物為例,許多購買趨勢在一開始就是早期産品使用者創造的一種孤立異常現象;但這些産品随後可能成為時尚并最終成為頂級的産品。這種類型的資訊——即早期趨勢——可能帶來銷售周期的破與立。在這個方面,沒有任何執行個體比華爾街更有說服力,在這個市場中任何異常的股票交易都可能帶來不可預料的恐慌和瘋狂,而這一切可能隻是源自從一堆大資料中發現的幾個小事件。
通常情況下,隻要資料集的規模足夠大,異常現象就總會随之出現。某些領域中對異常價值的展現更具有意義,社交網絡就是其中之一,在這個領域有大量的文章、tweet資訊和更新被投入大資料和分析程式,相關的企業會檢視客戶情緒等資訊并以平行的方式對比在衆多不同類型的時間序列中發現的異常現象,其中所涉及的思想就是類似的異常模式可能會出現在不同的次元中。
零售購物便是其中的一個典型案例。某些人群可能會在一年中相對固定地在safeway、trader joe’s或whole foods購買生活用品,但在年終他們會前往百思買和toys“r”us進行假日購物并引緻相關商戶年終預期銷售量的增長。而蘋果之類的公司則可能在一年中的大部分時間均維持較為平均的表現,但一旦新的手機産品釋出,它們在全球的客戶總會不約而同地為了這一金屬與玻璃構成的工藝品而甘願排隊采購。
在需要與其他資料元素區分開來的重要資料中,上述資訊就如海底針一般的存在。我們可以看出,在一年中,蘋果專賣店有約300天在臨時購買模式(或利潤率)方面都與典型的電子産品零售商均沒有什麼差別,但是一旦發生某個能引發兩個或三個年度大事件的異常情況(例如新産品釋出),這個異常就成為了蘋果商店和其他電子零售商之間的最大差別。為了能專注于真正具有特異性的事件,我們可以使用各行業中常見的趨勢來抵消可以預期的季節性變化。
在twitter資料方面,不同次元之間通常有很大的差異。哈希标簽通常與短暫或不規則現象相關,與之相比某個大國的使用者所釋出的大量tweet資訊則具有規律性。由于在這種次元内部相似性更高的情況,我們應該對每個次元進行分開處理。按次元使用算法有助于在标簽和使用者名(而非位置和時區)成為最主要的異常來源的情況下做出判斷,因為前述情況表明相關各群組中的項目之間幾乎沒有任何相似性。
鑒于異常的數量巨大,找出其中的意義是一項極為艱巨的任務,這也導緻了以下問題:是什麼導緻了正常的流量中出現異常暴增的情況?有哪些領域與此相關?這是否與url縮短器和twitter直播視訊流服務有關?按照異常情況的多少來排序的看法不夠精細且有諸多限制;異常之間的聯系通常存在于次元之中以及各次元之間的區域。各種算法可以共同産生強大的協同效應,但我們可能需要采用某種聚類過程才能發現其中的規律。