天天看點

《大資料分析原理與實踐》——1.3 什麼是大資料分析

資料分析指的是用适當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

資料分析可以分為三個層次,即描述分析、預測分析和規範分析。

描述分析是探索曆史資料并描述發生了什麼,這一層次包括發現資料規律的聚類、相關規則挖掘、模式發現和描述資料規律的可視化分析。

預測分析用于預測未來的機率和趨勢,例如基于邏輯回歸的預測、基于分類器的預測等。

規範分析根據期望的結果、特定場景、資源以及對過去和目前事件的了解對未來的決策給出建議,例如基于模拟的複雜系統分析和基于給定限制的優化解生成。

顧名思義,大資料分析是指對規模巨大的資料進行分析。大資料分析是大資料到資訊,再到知識的關鍵步驟。

大資料分析有着廣泛的應用,成為大資料創造價值的最重要的方面。下面舉一些各個領域大資料分析應用的執行個體。

在宏觀經濟領域方面,淘寶根據網上成交額比較高的390個類目的商品價格來得出CPI,比國家統計局公布的CPI更早地預測到經濟狀況。國家統計局統計的CPI主要根據的是剛性物品,如食品,百姓都要買,差别不大;可是淘寶是利用化妝品、電子産品等購買量受經濟影響較明顯的商品進行預測,是以淘寶的CPI更能反映價格走勢。美國印第安納大學利用谷歌公司提供的心情分析工具,從近千萬的短信和網民留言中歸納出6種心情,進而預測道瓊斯工業指數,準确率高達87%。

在制造業方面,華爾街對沖基金依據購物網站的顧客評論,分析企業的銷售狀況;一些企業利用大資料分析實作對采購和合理庫存的管理,通過分析網上資料了解客戶需求,掌握市場動向;美國通用電氣公司通過對所生産的兩萬台噴氣引擎的資料分析,開發的算法能夠提前一個月預測和維護需求,準确率達70%。

在農業領域,矽谷有個Climate公司,利用30年的氣候和60年的農作物收成變化、14 TB的土壤的曆史資料、250萬個地點的氣候預測資料和1500億例土壤觀察資料,生成10萬億個模拟氣候據點,可以預測下一年的農産品産量以及天氣、作物、病蟲害和災害、肥料、收獲、市場價格等的變化。

在商業領域,沃爾瑪将每月4500萬的網絡購物資料,與社交網絡上産品的大衆評分結合,開發出“北極星”搜尋引擎,友善顧客購物,線上購物的人數增加10%~15%。再如,有的電商平台将消費者在其平台上的消費記錄賣給其他商家,商家得到這個消費記錄對應的顧客IP位址後,就會留意其上網蹤迹和消費行為,并适時彈出本公司商品的廣告,這樣就很容易做成交易,最終的結果是顧客、電商平台、商家,甚至相關網站都各有收益。

在金融領域,阿裡巴巴根據淘寶網上中小型公司的交易狀況,篩選出财務健康、誠信優良的企業,為他們免擔保提供貸款達上千億元,壞賬率僅有0.3%;華爾街“德溫特資本市場”公司通過分析3.4億留言判斷群眾心情,以決定公司股票的買入和賣出,也獲得了較好的收益。

在醫療衛生領域,一方面,相關部門可以根據搜尋引擎上群眾對相關關鍵詞的搜尋資料建立數學模型進行分析,得出相應的預測進行預防。例如,2009年,谷歌公司在甲型H1N1爆發前幾周,就預測出流感形式,與随後的官方資料相關性高達97%;而百度公司得出的中國艾滋病感染人群的分布情況,與後期的衛生部公布結果基本一緻。另一方面,醫生可以借助社交網絡平台與患者就診療效果和醫療經驗進行交流,能夠獲得在醫院得不到的臨床效果資料。除此之外,基于對人體基因的大資料分析,可以實作對症下藥的個性化診療,提高醫療品質。

在交通運輸中,物流公司可以根據GPS上大量的資料分析優化運輸路線節約燃料和時間,提高效率;相關部門也會通過對公共汽車上手機使用者的位置資料的分析,為市民提供交通實時情況。大資料還可以改善機器翻譯服務,谷歌翻譯器就是利用已經索引過的海量資料庫,從網際網路上找出各種文章及對應譯本,找出語言資料之間的文法和文字對應的規律來達到目的的。大資料在影視、軍事、社會治安、政治領域的應用也都有着很明顯的效果。總之,大資料的用途是十分廣泛的。

當然,大資料不僅僅是一種資源,作為一種思維方法,大資料也有着令人折服的影響。伴随大資料産生的資料密集型科學,有學者将它稱為第四種科學模式,其研究特點在于:不在意資料的雜亂,但強調資料的規模;不要求資料的精準,但看重其代表性;不刻意追求因果關系,但重視規律總結。現如今,這一思維方式廣泛應用于科學研究和各行各業,是從複雜現象中透視本質的重要工具。

繼續閱讀