天天看點

《大資料導論》一1.5 案例學習

  本節書摘來自華章出版社《大資料導論》一書中的第1章,第1.5節,作者托馬斯·埃爾(thomas erl),瓦吉德·哈塔克(wajid khattak),保羅·布勒(paul buhler),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

1.5 案例學習

雖然eti公司目前的政策選擇了大資料技術作為實作它們戰略目标的手段,但eti并沒有大資料技術,是以需要在雇傭大資料咨詢團隊還是讓自己的it團隊進行大資料訓練中進行選擇。最終它們選擇了後者。然而,隻有進階的成員接受了完整的學習,并且轉換為公司永久的大資料咨詢員工,同時由他們去訓練初級團隊,在公司内部進行進一步大資料訓練。

接受了大資料學習之後,受訓小組的成員強調他們需要一個常用的術語詞典,這樣整個小組在讨論大資料内容時才能處于同一個頻道。其後,他們選擇了一個案例驅動的方案。當讨論資料集的時候,小組成員将會指出一些相關的資料集,這些資料集包括理賠、政策、報價、消費者檔案、普查檔案。雖然這些資料分析和分析學概念很快被接受了,但是一些缺乏商務經驗的小組成員在了解bi和建立合适的kpi上依舊有困難。一個接受過訓練的it團隊成員以生成月報的過程為例來解釋bi。這個過程需要将作業系統中的資料輸入到edw中,并生成諸如保險銷售、理賠送出處理的kpi在不同的儀表闆和計分闆上。

就分析方法而言,eti同時使用描述性分析和診斷性分析。描述性分析包括通過政策管理系統決定每天賣的保險份數,通過理賠管理系統統計每天的理賠送出數,通過賬單系統統計客戶的欠款數量。診斷性分析作為bi活動的一部分,例如回答為什麼上個月的銷售目标沒有達成這類問題。分析将銷售劃分為不同的類型和不同的地區,以便發現哪些地區的哪些類型的銷售表現得不盡人意。

目前eti并沒有使用預測性分析和規範性分析手法。然而,對大資料技術的實行将會使他們最終能夠使用這些分析手法,正如他們現在能夠處理非結構化資料,讓其跟結構化資料一同為分析手法提供支援一樣。eti決定循序漸進地開始使用這兩種分析方法,首先應用預測性分析,鍛煉了熟練使用該分析的能力後再開始實施規範性分析。

在這個階段,eti計劃利用預測性分析來支援他們實作目标。舉個例子,預測性分析能夠通過預測可能的欺詐理賠來檢測理賠欺詐行為,或者通過對客戶流失的案例分析,來找到可能流失的客戶。在未來的一段時間内,通過規範性分析,我們可以确定eti能夠更加接近他們的目标。例如,規範性分析能夠幫助他們在考慮所有可能的風險因素下确立正确的保險費,也能幫助他們在諸如洪水和龍卷風的自然災害下減少損失。

1.5.1 确定資料特征

it團隊想要從容量、速率、多樣性、真實性、價值這5個方面對公司内部和外部的資料進行評估,以得到這些資料對公司利益的影響。于是小組輪流讨論這些特征,考慮不同的資料集如何能夠表現出這些特征。

1.容量

小組強調,在處理理賠、銷售新的保險産品以及更改現有産品的過程中,會有大量的轉移資料産生。然而,小組進行了一個快速的讨論,發現大量的非結構化資料,無論是來自公司的内部還是外部,都會幫助公司達成目标。這些資料包括健康記錄、客戶送出保險申請時送出的檔案、财産計劃、臨時資料、社交媒體資料以及天氣資訊。

2.速率

考慮所有輸入流的資料,有的資料速率很低,例如理賠送出的資料和新政策讨論的資料。但是像網頁服務日志和保險費又是速率高的資料。縱觀公司外部資料,it小組預計社交媒體資料和天氣資料将以極快的高頻到達。此外,預測還表示災難管理和詐騙理賠檢測的時候資料必須盡快處理,以最小化損失。

3.多樣性

在實作目标的時候,eti需要将大量多種不同的資料集聯合起來考慮,包括健康記錄、政策資料、理賠資料、保險費、社交媒體資料、電話中心資料、理賠人記錄、事件圖檔、天氣資訊、人口普查資料、網頁服務日志以及電子郵件。

4.真實性

從作業系統和edw中獲得的資料樣本顯示有極高的真實性。于是it小組把這一點添加到資料真實性表現中。資料的真實性展現在多個階段,包括資料進入公司的階段、多個應用處理資料的階段,以及資料穩定存儲在資料庫中的階段。考慮eti的外部資料,對一些來自媒體和天氣的資料闡明了真實性的遞減會導緻資料确認和資料清洗的需求增加,因為最終要獲得高保真性的資料。

5.價值

對于價值這個特征,從目前的情況來看,所有it團隊的成員都認同他們需要通過確定資料存儲的原有格式以及用合适的分析類型來使資料集的價值最大化。

1.5.2 确定資料類型

it小組成員對多種資料集進行了分類訓練,并得出如下清單:

結構化資料:政策資料、理賠資料、客戶檔案資料、保險費資料;

非結構化資料:社交媒體資料、保險應用檔案、電話中心記錄、理賠人記錄、事件照片;

半結構化資料:健康記錄、客戶檔案資料、天氣記錄、人口普查資料、

網頁日志及電子郵件。

中繼資料對于eti現在的資料管理過程是一個全新的概念。同樣的,即使中繼資料真的存在,目前的資料處理也沒有考慮過中繼資料的情況。it小組指出其中一個原因,公司内部幾乎所有的需要處理的資料都是結構化資料。是以,資料的源和特征能很輕易地得知。經過一些考慮後,成員們意識到對于結構化資料來說,資料字典、上次更新資料的時間戳和上次更新時不同關系資料表中的使用者編号可以作為它們的中繼資料使用。

繼續閱讀