資料挖掘(英語:Data mining),又譯為資料探勘、資料采礦。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。資料挖掘一般是指從大量的資料中通過算法搜尋隐藏于其中資訊的過程。資料挖掘通常與計算機科學有關,并 通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識别等諸多方法來實作上述目标。
- 中文名
- 資料挖掘
- 外文名
- Data mining
- 别 名
- 資料探勘、資料采礦
- 所屬學科
- 計算機科學
- 應用領域
- 情報檢索、資料分析、模式識别等
- 相關領域
- 人工智能、資料庫
目錄
- 1 起源
- 2 發展階段
- 3 使用
- 4 經驗之談
- 5 成功案例
- 6 經典算法
- 7 過程
- ▪ 算法
- ▪ 應用
- ▪ 研究
- 8 隐私
起源
編輯
需要是發明之母。近年來,資料挖掘引起了資訊産業界的極大關注,其主要原因是存在大量資料,可以廣泛使用,并且迫切需要将這些資料轉換成有用的資訊和知識。擷取的資訊和知識可以廣泛用于各種應用,包括商務管理,生産控制,市場分析,工程設計和科學探索等。
資料挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智能、模式識别和機器學習的搜尋算法、模組化技術和學習理論。資料挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊論、信号處理、可視化和資訊檢索。一些其他領域也起到重要的支撐作用。特别地,需要資料庫系統提供有效的存儲、索引和查詢處理支援。源于高性能(并行)計算的技術在處理海量資料集方面常常是重要的。分布式技術也能幫助處理海量資料,并且當資料不能集中到一起處理時更是至關重要。
發展階段
第一階段:電子郵件階段
這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。
第二階段:資訊釋出階段
從1995年起,以Web技術為代表的資訊釋出系統,爆炸式地成長起來,成為目前Internet的主要應用。中小企業如何把握好從“粗放型”到“精準型”營銷時代的電子商務。
第三階段: EC(Electronic Commerce),即電子商務階段
EC在美國也才剛剛開始,之是以把EC列為一個劃時代的東西,是因為 Internet的最終主要商業用途,就是電子商務。同時反過來也可以說,若幹年後的商業資訊,主要是通過Internet傳遞。Internet即将成 為我們這個商業資訊社會的神經系統。1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統克林頓提出敦促各國共同促 進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的資訊技術廠商已經宣布1998年為電子商務年。
第四階段:全程電子商務階段
随着SaaS(Software as a service)軟體服務模式的出現,軟體紛紛登陸網際網路[5],延長了電子商務鍊條,形成了當下最新的“全程電子商務”概念模式。也是以形成了一門獨立的學科——資料挖掘與客戶關系管理碩士。
使用
分析方法:
· 分類 (Classification)
· 估計(Estimation)
· 預測(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚類(Clustering)
· 複雜資料類型挖掘(Text, Web ,圖形圖像,視訊,音頻等)
方法簡介:
·分類 (Classification)
首先從資料中選出已經分好類的訓練集,在該訓練集上運用資料挖掘分類的技術,建立分類模型,對于沒有分類的資料進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 故障診斷:中國寶鋼集團與上海天律資訊技術有限公司合作,采用資料挖掘技術對鋼材生産的全流程進行品質監控和分析,建構故障地圖,實時分析産品出現瑕疵的原因,有效提高了産品的優良率。
注意: 類的個數是确定的,預先定義好的
估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類
的類别是确定數目的,估值的量是不确定的。
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入資料,通過估值,得到未知的連續變量的值,然後,根據預先設定的門檻值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然後,根據門檻值,将貸款級别分類。
通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言準确性是多少。
決定哪些事情将一起發生。
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
聚類是對記錄分組,把相似的記錄在一個聚集裡。聚類和分類的差別是聚集不依賴于預先定義好的類,不需要訓練集。
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群
聚集通常作為資料挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一 類問題,首先對整個客戶做聚集,将客戶分組在各自的聚集裡,然後對每個不同的聚集,回答問題,可能效果更好。
· 描述和可視化(Description and Visualization)
是對資料挖掘結果的表示方式。一般隻是指資料可視化工具,包含報表工具和商業智能分析産品(BI)的統稱。譬如通過Yonghong Z-Suite等工具進行資料的展現,分析,鑽取,将資料挖掘的分析結果更形象,深刻的展現出來。
經驗之談
第一,目标律:業務目标是所有資料解決方案的源頭。
第二,知識律:業務知識是資料挖掘過程每一步的核心。
第三,準備律:資料預處理比資料挖掘其他任何一個過程都重要。
第四,試驗律(NFL律:No Free Lunch):對于資料挖掘者來說,天下沒有免費的午餐,一個正确的模型隻有通過試驗(experiment)才能被發現。
第五,模式律(大衛律):資料中總含有模式。
第六,洞察律:資料挖掘增大對業務的認知。
第七,預測律:預測提高了資訊泛化能力。
第八,價值律:資料挖掘的結果的價值不取決于模型的穩定性或預測的準确性。
第九,變化律:所有的模式因業務變化而變化。
成功案例
資料挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評分
Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資産估計價值為9570萬美元,對于Credilogros而言,重要的是識别與潛在預先付款客戶相關的潛在風險,以便将承擔的風險最小化。
該公司的第一個目标是建立一個與公司核心系統和兩家信用報告公司系統互動 的決策引擎來處理信貸申請。同時,Credilogros還在尋找針對它所服務的低收入客戶群體的自定義風險評分工具。除這些之外,其他需求還包括解決方 案能在其35個分支辦公地點和200多個相關的銷售點中的任何一個實時操作,包括零售家電連鎖店和手機銷售公司。
最終Credilogros 選擇了SPSS Inc.的資料挖掘軟體PASWModeler,因為它能夠靈活并輕松地整合到 Credilogros 的核心資訊系統中。通過實作PASW Modeler,Credilogros将用于處理信用資料和提供最終信用評分的時間縮短到了8秒以内。這使該組織能夠迅速準許或拒絕信貸請求。該決策引 擎還使 Credilogros 能夠最小化每個客戶必須提供的身份證明文檔,在一些特殊情況下,隻需提供一份身份證明即可準許信貸。此外,該系統還提供監控功能。Credilogros 目前平均每月使用PASW Modeler處理35000份申請。僅在實作 3 個月後就幫助Credilogros 将貸款支付失職減少了 20%.
資料挖掘幫助DHL實時跟蹤貨箱溫度
DHL是國際快遞和物流行業的全球市場領先者,它提供快遞、水陸空三路運 輸、合同物流解決方案,以及國際郵件服務。DHL的國際網絡将超過220個國家及地區聯系起來,員工總數超過28.5萬人。在美國 FDA 要求確定運送過程中藥品裝運的溫度達标這一壓力之下,DHL的醫藥客戶強烈要求提供更可靠且更實惠的選擇。這就要求DHL在遞送的各個階段都要實時跟蹤集 裝箱的溫度。
雖然由記錄器方法生成的資訊準确無誤,但是無法實時傳遞資料,客戶和 DHL都無法在發生溫度偏差時采取任何預防和糾正措施。是以,DHL的母公司德國郵政世界網(DPWN)通過技術與創新管理(TIM)集團明确拟定了一個 計劃,準備使用RFID技術在不同時間點全程跟蹤裝運的溫度。通過IBM全球企業咨詢服務部繪制決定服務的關鍵功能參數的流程架構。DHL獲得了兩方面的 收益:對于最終客戶來說,能夠使醫藥客戶對運送過程中出現的裝運問題提前做出響應,并以引人注目的低成本全面切實地增強了運送可靠性。對于DHL來說,提 高了客戶滿意度和忠實度;為保持競争差異奠定堅實的基礎;并成為重要的新的收入增長來源。
行業應用
價格競争空前激烈,語音業務增長趨緩,快速增長的中國移動通信市場正面臨 着前所未有的生存壓力。中國電信業改革的加速推進形成了新的競争态勢,移動營運市場的競争廣度和強度将進一步加大,這特别表現在集團客戶領域。移動資訊化 和集團客戶已然成為未來各營運商應對競争、擷取持續增長的新引擎。
随着國内三足鼎立全業務競争态勢和3G牌照發放,各營運商為集團客戶提供 融合的資訊化解決方案将是大勢所趨,而移動資訊化将成為全面進入資訊化服務領域的先導力量。傳統移動營運商是以面臨着從傳統個人業務轉向同時拓展集團客戶 資訊化業務領域的挑戰。如何應對來自内外部的挑戰,迅速以移動資訊化業務作為融合業務的競争利器之一拓展集團客戶市場,在新興市場中立于不敗之地,是傳統 移動營運商需要解決的緊迫問題。
從目前網絡招聘的資訊來看,大小公司對資料挖掘的需求有50多個方面(來源見參考資料):
1、資料統計分析
2、預測預警模型
3、資料資訊闡釋
4、資料采集評估
5、資料加工倉庫
6、品類資料分析
7、銷售資料分析
8、網絡資料分析
9、流量資料分析
10、交易資料分析
11、媒體資料分析
12、情報資料分析
13、金融産品設計
14、日常資料分析
15、總裁萬事通
16、資料變化趨勢
17、預測預警模型
18、營運資料分析
19、商業機遇挖掘
20、風險資料分析
21、缺陷資訊挖掘
22、決策資料支援
23、營運優化與成本控制
24、品質控制與預測預警
25、系統工程數學技術
26、使用者行為分析/客戶需求模型
27、産品銷售預測(熱銷特征)
28、商場整體利潤最大化系統設計
29、市場資料分析
30、綜合資料關聯系統設計
31、行業/企業名額設計
32、企業發展關鍵點分析
33、資金鍊管理設計與風險控制
34、使用者需求挖掘
35、産品資料分析
36、銷售資料分析
37、異常資料分析
38、數學規劃與數學方案
39、資料實驗模拟
40、數學模組化與分析
41、呼叫中心資料分析
42、貿易/進出口資料分析
43、海量資料分析系統設計、關鍵技術研究
44、資料清洗、分析、模組化、調試、優化
45、資料挖掘算法的分析研究、模組化、實驗模拟
46、組織機構營運監測、評估、預測預警
47、經濟資料分析、預測、預警
48、金融資料分析、預測、預警
49、科研數學模組化與資料分析:社會科學,自然科學,醫藥,農學,計算機,工程,資訊,軍事,圖書情報等
50、資料名額開發、分析與管理
51、産品資料挖掘與分析
52、商業數學與資料技術
53、故障預測預警技術
54、資料自動分析技術
55、泛工具分析
56、互譯
57、指數化
其中,互譯與指數化是資料挖掘除計算機技術之外最核心的兩大技術。
經典算法
1. C4.5:是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法。
2. K-means算法:是一種聚類算法。
3.SVM:一種監督式學習的方法,廣泛運用于統計分類以及回歸分析中
4.Apriori :是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。
5.EM:最大期望值法。
6.pagerank:是google算法的重要内容。
7. Adaboost:是一種疊代算法,其核心思想是針對同一個訓練集訓練不同的分類器然後把弱分類器集合起來,構成一個更強的最終分類器。
8.KNN:是一個理論上比較成熟的的方法,也是最簡單的機器學習方法之一。
9.Naive Bayes:在衆多分類方法中,應用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)
10.Cart:分類與回歸樹,在分類樹下面有兩個關鍵的思想,第一個是關于遞歸地劃分自變量空間的想法,第二個是用驗證資料進行減枝。
關聯規則規則定義
在描述有關關聯規則的一些細節之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。
在一家超市裡,有一個有趣的現象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措卻使尿布和
啤酒的銷量雙雙增加了。這不是一個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的資料倉庫系 統,為了能夠準确了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些。沃爾瑪資料倉庫裡集中了其 各門店的詳細原始交易資料。在這些原始交易資料的基礎上,沃爾瑪利用資料挖掘方法對這些資料進行分析和挖掘。一個意外的發現是:"跟尿布一起購買最多的商 品竟是啤酒!經過大量實際調查和分析,揭示了一個隐藏在"尿布與啤酒"背後的美國人的一種行為模式:在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿 布,而他們中有30%~40%的人同時也為自己買一些啤酒。産生這一現象的原因是:美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後 又随手帶回了他們喜歡的啤酒。
按正常思維,尿布與啤酒風馬牛不相及,若不是借助資料挖掘技術對大量交易資料進行挖掘分析,沃爾瑪是不可能發現資料内在這一有價值的規律的。
資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隐藏的關聯網。有時并不知道資料庫中資料的關聯函數, 即使知道也是不确定的,是以關聯分析生成的規則帶有可信度。關聯規則挖掘發現大量資料中項集之間有趣的關聯或相關聯系。Agrawal等于1993年首先 提出了挖掘顧客交易資料庫中項集間的關聯規則問題,以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優化,如引入随機采樣、并行的思想等,以提高算法挖掘規則的效率;對關聯規則的應用進行推廣。關聯規則挖掘在資料挖掘中是一個重要的課題,最近幾年已被業界所廣泛研究。
過程
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent
Itemsets),第二階段再由這些高頻項目組中産生關聯規則(Association Rules)。
關聯規則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Large Itemsets)。高頻的意思是指某一項目組出現的頻率相對于所有記錄而言,必須達到某一水準。一項目組出現的頻率稱為支援度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經由公式(1) 求得包含{A,B}項目組的支援度,若支援度大于等于所設定的最小支援度(Minimum Support)門檻值時,則{A,B}稱為高頻項目組。一個滿足最小支援度的k-itemset,則稱為高頻k-項目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項目組中再産生Large k+1,直到無法再找到更長的高頻項目組為止。
關聯規則挖掘的第二階段是要産生關聯規則(Association Rules)。從高頻項目組産生關聯規則,是利用前一步驟的高頻k-項目組來産生規則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規則所求得的信賴度滿足最小信賴度,稱此規則為關聯規則。例如:經由高頻k-項目組{A,B}所産生的規則 AB,其信賴度可經由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關聯規則。
就沃爾瑪案例而言,使用關聯規則挖掘技術,對交易資料庫中的紀錄進行資料挖掘,首先必須要設定最小支援度與最小信賴度兩個門檻值,在此假設最小支援度min_support=5% 且最小信賴度min_confidence=70%。是以符合此該超市需求的 關聯規則将必須同時滿足以上兩個條件。若經過挖掘過程所找到的關聯規則「尿布,啤酒」,滿足下列條件,将可接受「尿布,啤酒」的關聯規則。用公式可以描述 Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5% 于此應用範例中的意義為:在所有的交易紀錄資料中,至少有5%的交易呈現尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤 酒)>=70%于此應用範例中的意義為:在所有包含尿布的交易紀錄資料中,至少有70%的交易會同時購買啤酒。是以,今後若有某消費者出現購買尿布 的行為,超市将可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據「尿布,啤酒」關聯規則,因為就該超市過去的交易紀錄而言,支援了“大部份購買尿 布的交易,會同時購買啤酒”的消費行為。
從上面的介紹還可以看出,關聯規則挖掘通常比較适用與記錄中的名額取離散值的情況。如果原始資料庫中的名額值是取連續的資料,則在關聯規則挖掘之前應該進行适當的資料離散化(實際上就是将某個區間的值對應于某個值),資料的離散化是資料挖掘前的重要環節,離散化的過程是否合理将直接影響關聯規則的挖掘結果。
分類
按照不同情況,關聯規則可以進行分類如下:
1.基于規則中處理的變量的類别,關聯規則可以分為布爾型和數值型。
布爾型關聯規則處理的值都是離散的、種類化的,它顯示了這些變量之間的關系;而數值型關聯規則可以和多元關聯或多層關聯規則結合起來,對數值型字段進行處理,将其進行動态的分割,或者直接對原始的資料進行處理,當然數值型關聯規則中也可以包含種類變量。例如:性别=“女”=>職業=“秘書” ,是布爾型關聯規則;性别=“女”=>avg(收入)=2300,涉及的收入是數值類型,是以是一個數值型關聯規則。
2.基于規則中資料的抽象層次,可以分為單層關聯規則和多層關聯規則。
在單層的關聯規則中,所有的變量都沒有考慮到現實的資料是具有多個不同的層次的;而在多層的關
聯規則中,對資料的多層性已經進行了充分的考慮。例如:IBM桌上型電腦=>Sony列印機,是一個細節資料上的單層關聯規則;桌上型電腦=>Sony列印機,是一個較高層次和細節層次之間的多層關聯規則。
3.基于規則中涉及到的資料的維數,關聯規則可以分為單維的和多元的。
在單維的關聯規則中,我們隻涉及到資料的一個維,如使用者購買的物品;而在 多元的關聯規則中,要處理的資料将會涉及多個維。換成另一句話,單維關聯規則是處理單個屬性中的一些關系;多元關聯規則是處理各個屬性之間的某些關系。例 如:啤酒=>尿布,這條規則隻涉及到使用者的購買的物品;性别=“女”=>職業=“秘書”,這條規則就涉及到兩個字段的資訊,是兩個維上的一條關聯規則。
算法
1.Apriori算法:使用候選項集找頻繁項集
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這裡,所有支援度大于最小支援度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預 定義的最小支援度一樣。然後由頻集産生強關聯規則,這些規則必須滿足最小支援度和最小可信度。然後使用第1步找到的頻集産生期望的規則,産生隻包含集合的 項的所有規則,其中每一條規則的右部隻有一項,這裡采用的是中規則的定義。一旦這些規則被生成,那麼隻有那些大于使用者給定的最小可信度的規則才被留下來。 為了生成所有頻集,使用了遞推的方法。
可能産生大量的候選集,以及可能需要重複掃描資料庫,是Apriori算法的兩大缺點。
2.基于劃分的算法
Savasere等設計了一個基于劃分的算法。這個算法先 把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然後把産生的頻集合并,用來生成所有可能的頻集,最後計算這些項集的 支援度。這裡分塊的大小選擇要使得每個分塊可以被放入主存,每個階段隻需被掃描一次。而算法的正确性是由每一個可能的頻集至少在某一個分塊中是頻集保證 的。該算法是可以高度并行的,可以把每一分塊分别配置設定給某一個處理器生成頻集。産生頻集的每一個循環結束後,處理器之間進行通信來産生全局的候選k-項 集。通常這裡的通信過程是算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集算法
針對Apriori算法的固有缺陷,J. Han等提出了不産生候選挖掘頻繁項集的方法:FP-樹頻集算法。采用分而治之的政策,在經過第一遍掃描之後,把資料庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯資訊,随後再将FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然後再對這些條件庫分别進行挖掘。當原始資料量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的适應性,同時在效率上較之Apriori算法有巨大的提高。
應用
就目前而言,關聯規則挖掘技術已經被廣泛應用在西方金融行業企業中,它可 以成功預測銀行客戶需求。一旦獲得了這些資訊,銀行就可以改善自身營銷。現在銀行天天都在開發新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客 可能感興趣的本行産品資訊,供使用本行ATM機的使用者了解。如果資料庫中顯示,某個高信用限額的客戶更換了位址,這個客戶很有可能新近購買了一棟更大的住 宅,是以會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些産品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數 據庫可以有力地幫助電話銷售代表。銷售代表的電腦螢幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼産品感興趣。
同時,一些知名的電子商務站點也從強大的關聯規則挖掘中的受益。這些電子購物網站使用關聯規則中規則進行挖掘,然後設定使用者有意要一起購買的捆綁包。也有一些購物網站使用它們設定相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
但是目前在我國,“資料海量,資訊缺乏”是商業銀行在資料大集中之後普遍所面對的尴尬。目前金融業實施的大多數資料庫隻能實作資料的錄入、查詢、統計等較低層次的功能,卻無法發現資料中存在的各種有用的資訊,譬如對這些資料進行分析,發現其資料模式及特征,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,并可觀察金融市場的變化趨勢。可以說,關聯規則挖掘的技術在我國的研究與應用并不是很廣泛深入。
近年來,電信業從單純的語音服務演變為提供多種服務的綜合資訊服務商。随 着網絡技術和電信業務的發展,電信市場競争也日趨激烈,電信業務的發展提出了對資料挖掘技術的迫切需求,以便幫助了解商業行為,識别電信模式,捕捉盜用行 為,更好地利用資源,提高服務品質并增強自身的競争力。下面運用一些簡單的執行個體說明如何在電信行業使用資料挖掘技術。可以使用上面提到的K 均值、EM 等聚類算法,針對營運商積累的大量使用者消費資料建立客戶分群模型,通過客戶分群模型對客戶進行細分,找出有相同特征的目标客戶群,然後有針對性地進行營 銷。而且,聚類算法也可以實作離群點檢測,即在對使用者消費資料進行聚類的過程中,發現一些使用者的異常消費行為,據此判斷這些使用者是否存在欺詐行為,決定是 否采取防範措施。可以使用上面提到的C4.5、SVM 和貝葉斯等分類算法,針對使用者的行為資料,對使用者進行信用等級評定,對于信用等級好的客戶可以給予某些優惠服務等,對于信用等級差的使用者不能享受促銷等優 惠。可以使用預測相關的算法,對電信客戶的網絡使用和客戶投訴資料進行模組化,建立預測模型,預測大客戶離網風險,采取激勵和挽留措施防止客戶流失。可以使 用相關分析找出選擇了多個套餐的客戶在套餐組合中的潛在規律,哪些套餐容易被客戶同時選取,例如,選擇了流量套餐的客戶中大部分選擇了彩鈴業務,然後基于 相關性的法則,對選擇流量但是沒有選擇彩鈴的客戶進行交叉營銷,向他們推銷彩鈴業務。
研究
由于許多應用問題往往比超市購買問題更複雜,大量研究從不同的角度對關聯 規則做了擴充,将更多的因素內建到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支援管理決策的範圍。如考慮屬性之間的類别層次關系,時态關 系,多表挖掘等。近年來圍繞關聯規則的研究主要集中于兩個方面,即擴充經典關聯規則能夠解決問題的範圍,改善經典關聯規則挖掘算法效率和規則興趣性。
類似差別
一個經常問的問題是,資料挖掘和OLAP到底有何不同。下面将會解釋,他們是完全不同的工具,基于的技術也大相徑庭。
OLAP是決策支援領域的一部分。傳統的查詢和報表工具是告訴你資料庫中 都有什麼(what happened),OLAP則更進一步告訴你下一步會怎麼樣(What next)、和如果我采取這樣的措施又會怎麼樣(What if)。使用者首先建立一個假設,然後用OLAP檢索資料庫來驗證這個假設是否正确。比如,一個分析師想找到什麼原因導緻了貸款拖欠,他可能先做一個初始的 假定,認為低收入的人信用度也低,然後用OLAP來驗證他這個假設。如果這個假設沒有被證明,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入 和負債一起考慮,一直進行下去,直到找到他想要的結果或放棄。
也就是說,OLAP分析師是建立一系列的假設,然後通過OLAP來證明或推翻這些假設來最終得到自己的結論。OLAP分析過程在本質上是一個演繹推理的過程。但是如果分析的變量達到幾十或上百個,那麼再用OLAP手動分析驗證這些假設将是一件非常困難和痛苦的事情。
資料挖掘與OLAP不同的地方是,資料挖掘不是用于驗證某個假定的模式 (模型)的正确性,而是在資料庫中自己尋找模型。他在本質上是一個歸納的過程。比如,一個用資料挖掘工具的分析師想找到引起貸款拖欠的風險因素。資料挖掘 工具可能幫他找到高負債和低收入是引起這個問題的因素,甚至還可能發現一些分析師從來沒有想過或試過的其他因素,比如年齡。
資料挖掘和OLAP具有一定的互補性。在利用資料挖掘出來的結論采取行動之前,你也許要驗證一下如果采取這樣的行動會給公司帶來什麼樣的影響,那麼OLAP工具能回答你的這些問題。
而且在知識發現的早期階段,OLAP工具還有其他一些用途。可以幫你探索資料,找到哪些是對一個問題比較重要的變量,發現異常資料和互相影響的變量。這都能幫你更好的了解你的資料,加快知識發現的過程。
相關技術
資料挖掘利用了人工智能(AI)和統計分析的進步所帶來的好處。這兩門學科都緻力于模式發現和預測。
資料挖掘不是為了替代傳統的統計分析技術。相反,他是統計分析方法學的延 伸和擴充。大多數的統計分析技術都基于完善的數學理論和高超的技巧,預測的準确度還是令人滿意的,但對使用者的要求很高。而随着計算機計算能力的不斷增 強,我們有可能利用計算機強大的計算能力隻通過相對簡單和固定的方法完成同樣的功能。
一些新興的技術同樣在知識發現領域取得了很好的效果,如神經元網絡和決策樹,在足夠多的資料和計算能力下,他們幾乎不用人的關照自動就能完成許多有價值的功能。
資料挖掘就是利用了統計和人工智能技術的應用程式,他把這些高深複雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。
相關影響
使資料挖掘這件事情成為可能的關鍵一點是計算機性能價格比的巨大進步。在 過去的幾年裡磁盤存儲器的價格幾乎降低了99%,這在很大程度上改變了企業界對資料收集和存儲的态度。如果每兆的價格是¥10,那存放1TB的價格是 ¥10,000,000,但當每兆的價格降為1毛錢時,存儲同樣的資料隻有¥100,000!
計算機計算能力價格的降低同樣非常顯著。每一代晶片的誕生都會把CPU的計算能力提高一大步。記憶體RAM也同樣降價迅速,幾年之内每兆記憶體的價格由幾百塊錢降到現在隻要幾塊錢。通常PC都有64M記憶體,工作站達到了256M,擁有上G記憶體的伺服器已經不是什麼新鮮事了。
在單個CPU計算能力大幅提升的同時,基于多個CPU的并行系統也取得了很大的進步。目前幾乎所有的伺服器都支援多個CPU,這些SMP伺服器簇甚至能讓成百上千個CPU同時工作。
基于并行系統的資料庫管理系統也給資料挖掘技術的應用帶來了便利。如果你有一個龐大而複雜的資料挖掘問題要求通過通路資料庫取得資料,那麼效率最高的辦法就是利用一個本地的并行資料庫。
所有這些都為資料挖掘的實施掃清了道路,随着時間的延續,我們相信這條道路會越來越平坦。
相關問題
NO.1 Data Mining 和統計分析有什麼不同?
硬要去區分Data Mining和Statistics的差異其實是沒有太大意義的。一般将之定義為Data Mining技術的CART、CHAID或模糊計算等 等理論方法,也都是由統計學者根據統計理論所發展衍生,換另一個角度看,Data Mining有相當大的比重是由高等統計學中的多變量分析所支撐。但是為什麼Data Mining的出現會引發各領域的廣泛注意呢?主要原因在相較于傳統統計分析而言,Data Mining有下列幾項特性:
1.處理大量實際資料更強勢,且無須太專業的統計背景去使用Data Mining的工具;
2.資料分析趨勢為從大型資料庫抓取所需資料并使用專屬計算機分析軟體,Data Mining的工具更符合企業需求;
3. 純就理論的基礎點來看,Data Mining和統計分析有應用上的差别,畢竟Data Mining目的是友善企業終端使用者使用而非給統計學家檢測用的。
NO.2 資料倉庫和資料挖掘的關系為何?
若将Data Warehousing(資料倉庫)比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無中生有的魔術,也不是點石成金的煉金術,若沒有夠豐富完整的資料,是很難期待Data Mining能挖掘出什麼有意義的資訊的。
要将龐大的資料轉換成為有用的資訊,必須先有效率地收集資訊。随着科技的 進步,功能完善的資料庫系統就成了最好的收集資料的工具。資料倉庫,簡單地說,就是搜集來自其它系統的有用資料,存放在一整合的儲存區内。是以其實就是一 個經過處理整合,且容量特别大的關系型資料庫,用以儲存決策支援系統(Decision Support System)所需的資料,供決策支援或資料分析使用。從資訊技術的角度來看,資料倉庫的目标是在組織中,在正确的時間,将正确的資料交給正确的人。
許多人對于Data Warehousing和Data Mining時常混淆,不知如何分辨。其實,資料倉庫是資料庫技術的一個新主題,利用計算機系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟着改變。
資料倉庫本身是一個非常大的資料庫,它儲存着由組織作業資料庫中整合而來的資料,特别是指事務處理系統OLTP(On-Line Transactional Processing)所得來的資料。将這些整合過的資料置放于資料倉庫中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉庫最大的挑戰。因為将作業中的資料轉換成 有用的的政策性資訊是整個資料倉庫的重點。綜上所述,資料倉庫應該具有這些資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、曆史資料、解釋資料的資料。從資料倉庫挖掘出對決策有用的資訊與知識,是建立資料倉庫與使用Data Mining的最大目的,兩者的本質與過程是兩回事。換句話說,資料倉庫應先行建立完成,Data mining才能有效率的進行,因為資料倉庫本身所含資料是幹淨(不會有錯誤的資料參雜其中)、完備,且經過整合的。是以兩者關系或許可解讀為Data Mining是從巨大資料倉庫中找出有用資訊的一種過程與技術。
大部分情況下,資料挖掘都要先把資料從資料倉庫中拿到資料挖掘庫或資料集市中(見圖1)。
從資料倉庫中直接得到進行資料挖掘的資料有許多好處。就如我們後面會講到的,資料倉庫的資料清理和資料挖掘的資料清理差不多,如果資料在導入資料倉庫時已經清理過,那很可能在做資料挖掘時就沒必要在清理一次了,而且所有的資料不一緻的問題都已經被你解決了。
資料挖掘庫可能是你的資料倉庫的一個邏輯上的子集,而不一定非得是實體上單獨的資料庫。但如果你的資料倉庫的計算資源已經很緊張,那你最好還是建立一個單獨的資料挖掘庫。
當然為了資料挖掘你也不必非得建立一個資料倉庫,資料倉庫不是必需的。建 立一個巨大的資料倉庫,把各個不同源的資料統一在一起,解決所有的資料沖突問題,然後把所有的資料導到一個資料倉庫内,是一項巨大的工程,可能要用幾年的 時間花上百萬的錢才能完成。隻是為了資料挖掘,你可以把一個或幾個事務資料庫導到一個隻讀的資料庫中,就把它當作資料集市,然後在他上面進行資料挖掘。
NO.3 OLAP 能不能代替 Data Mining?
所謂OLAP(Online Analytical Process)意指由資料庫所連結出來的線上分析處理程式。有些人會說:「我已經有OLAP的工具了,是以我不需要Data Mining。」事實上兩者間是截然不同的,主要差異在于Data Mining用在産生假設,OLAP則用于查證假設。簡單來說,OLAP是由使用者所主導,使用者先有一些假設,然後利用OLAP來查證假設是否成立;而 Data Mining則是用來幫助使用者産生假設。是以在使用OLAP或其它Query的工具時,使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。
舉個例子來看,一市場分析師在為超市規劃貨品架櫃擺設時,可能會先假設嬰兒尿布和嬰兒奶粉會是常被一起購買的産品,接着便可利用OLAP的工具去驗證此假設是否為真,又成立的證據有多明顯;但Data Mining則不然,執行Data Mining的人将龐大的結帳資料整理後,并不需要假設或期待可能的結果,透過Mining技術可找出存在于資料中的潛在規則,于是我們可能得到例如尿布和啤酒常被同時購買的意料外之發現,這是OLAP所做不到的。
Data Mining常能挖掘出超越歸納範圍的關系,但OLAP僅能利用人工查詢及可視化的報表來确認某些關系,是以Data Mining此種自動找出甚至不會被懷疑過的資料模型與關系的特性,事實上已超越了我們經驗、教育、想象力的限制,OLAP可以和Data Mining互補,但這項特性是Data Mining無法被OLAP取代的。
NO.4 完整的Data Mining 包含哪些步驟?
1、資料挖掘環境
資料挖掘是指一個完整的過程,該過程從大型資料庫中挖掘先前未知的,有效的,可實用的資訊,并使用這些資訊做出決策或豐富知識. 資料挖掘環境可示意如下圖:
資料挖掘環境框圖.gif
2、資料挖掘過程圖
下圖描述了資料挖掘的基本過程和主要步驟
資料挖掘的基本過程和主要步驟
3、資料挖掘過程工作量
在資料挖掘中被研究的業務對象是整個過程的基礎,它驅動了整個資料挖掘過 程,也是檢驗最後結果和指引分析人員完成資料挖掘的依據和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的回報.資料挖掘的過程并不 是自動的,絕大多數的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在資料準備上,這說明了資料挖掘對資料的嚴 格要求,而後挖掘工作僅占總工作量的10%.
圖3資料挖掘過程工作量比例
4、資料挖掘過程簡介
過程中各步驟的大體内容如下:
(1). 确定業務對象
清晰地定義出業務問題,認清資料挖掘的目的是資料挖掘的重要一步.挖掘的最後結構是不可預測的,但要探索的問題應是有預見的,為了資料挖掘而資料挖掘則帶有盲目性,是不會成功的.
(2). 資料準備
1)、資料的選擇
搜尋所有與業務對象有關的内部和外部資料資訊,并從中選擇出适用于資料挖掘應用的資料.
2)、資料的預處理
研究資料的品質,為進一步的分析作準備.并确定将要進行的挖掘操作的類型.
3)、資料的轉換
将資料轉換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正适合挖掘算法的分析模型是資料挖掘成功的關鍵.
(3). 資料挖掘
對所得到的經過轉換的資料進行挖掘.除了完善從選擇合适的挖掘算法外,其餘一切工作都能自動地完成.
(4). 結果分析
解釋并評估結果.其使用的分析方法一般應作資料挖掘操作而定,通常會用到可視化技術.
(5). 知識的同化
将分析所得到的知識內建到業務資訊系統的組織結構中去.
5、資料挖掘需要的人員
資料挖掘過程的分步實作,不同的步會需要是有不同專長的人員,他們大體可以分為三類.
業務分析人員:要求精通業務,能夠解釋業務對象,并根據各業務對象确定出用于資料定義和挖掘算法的業務需求.
資料分析人員:精通資料分析技術,并對統計學有較熟練的掌握,有能力把業務需求轉化為資料挖掘的各步操作,并為每步操作選擇合适的技術.
資料管理人員:精通資料管理技術,并從資料庫或資料倉庫中收集資料.
從上可見,資料挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入的過程.這一過程要反複進行牞在反複過程中,不斷地趨近事物的本質,不斷地優先問題的解決方案。資料重組和細分添加和拆分記錄選取資料樣本可視化資料探索聚類分析神經網絡、決策樹數理統計、時間序列結論綜合解釋評價資料知識資料取樣資料探索資料調整模型化評價。
NO.5 Data Mining 運用了哪些理論與技術?
Data Mining是近年來資料庫應用技術中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什麼新東西,因其所用之諸如預測模型、資料分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰前就已應用運用在人口普查及軍事等方面。
随着資訊科技超乎想象的進展,許多新的計算機分析工具問世,例如關系型資料庫、模糊計算理論、基因算法則以及類神經網絡等,使得從資料中發掘寶藏成為一種系統性且可實行的程式。
一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩支。傳統技術以統計分析為代表,統計學内所含序列統計、機率論、回歸分析、類别資料分析等都屬于傳統資料挖掘技術,尤其 Data Mining 對象多為變量繁多且樣本數龐大的資料,是以高等統計學裡所含括之多變量分析中用來精簡變量的因素分析(Factor Analysis)、用來分類的判别分析(Discriminant Analysis),以及用來區隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特别常用。
在改良技術方面,應用較普遍的有決策樹理論(Decision Trees)、類神經網絡(Neural Network)以及規則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現資料受各變量的影響情形之預測模型,根據對目标變量産生之效應的不同而建構分類的規則,一般多運用在對客戶資料的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。
類神經網絡是一種仿真人腦思考結構的資料分析模式,由輸入之變量與數值中自我學習并根據學習經驗所得之知識不斷調整參數以期建構資料的型樣(patterns)。類神經網絡為非線性的設計,與傳統回歸分析相比,好處是在進行分析時無須限定模式,特别當資料變量間存有互動效應時可自動偵測出;缺點則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的權重與轉換亦不明确,是故類神經網絡多利用于資料屬于高度非線性且帶有相當程度的變量交感效應時。
規則歸納法是知識發掘的領域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規則對資料進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先将資料中發生數太少的項目先剔除,以避免産生無意義的邏輯規則。
NO.6 Data Mining包含哪些主要功能?
Data Mining實際應用功能可分為三大類六分項來說明:Classification和Clustering屬于分類區隔類;Regression和Time-series屬于推算預測類;Association和Sequence則屬于序列規則類。
Classification是根據一些變量的數值做計算,再依照結果作 分類。(計算的結果最後會被分類為幾個少數的離散數值,例如将一組資料分為 "可能會響應" 或是 "可能不會響應" 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據曆史經驗已經分類好的資料來研究它們的特征,然後再根 據這些特征對其他未經分類或是新的資料做預測。這些我們用來尋找特征的已分類資料可能是來自我們的現有的客戶資料,或是将一個完整資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大型郵寄對象資料庫的部份取樣來建立一個Classification Model,再利用這個Model來對資料庫的其它資料或是新的資料作分類預測。
Clustering用在将資料分群,其目的在于将群間的差異找出來,同時也将群内成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據來分類。是以必須要配合專業領域知識來解讀這些分群的意義。
Regression是使用一系列的現有數值來預測一個連續數值的可能 值。若将範圍擴大亦可利用Logistic Regression來預測類别變量,特别在廣泛運用現代分析技術如類神經網絡或決策樹理論等分析工具,推估預測的模式已不在止于傳統線性的局限,在預測 的功能上大大增加了選擇工具的彈性與應用範圍的廣度。
Time-Series Forecasting與Regression功能類似,隻是它是用現有的數值來預測未來的數值。兩者最大差異在于Time-Series所分析的數值都 與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性,譬如時間的周期性、階層性、季節性以及其它的一些特别因素(如過去與未來的關連性)。
Association是要找出在某一事件或是資料中會同時出現的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現在該事件中的機率有多少。(例如:如果顧客買了火腿和柳橙汁,那麼這個顧客同時也會買牛奶的機率是85%。)
Sequence Discovery與Association關系很密切,所不同的是Sequence Discovery中事件的相關是以時間因素來作區隔(例如:如果A股票在某一天上漲12%,而且當天股市權重指數下降,則B股票在兩天之内上漲的機率是 68%)。
NO.7 Data Mining在各領域的應用情形為何?
Data Mining在各領域的應用非常廣泛,隻要該産業擁有具分析價值與需求的資料倉儲或資料庫,皆可利用Mining工具進行有目的的挖掘分析。一般較常見的應用案例多發生在零售業、直效行銷界、制造業、财務金融保險、通訊業以及醫療服務等。
于銷售資料中發掘顧客的消費習性,并可藉由交易紀錄找出顧客偏好的産品組 合,其它包括找出流失顧客的特征與推出新産品的時機點等等都是零售業常見的執行個體;直效行銷強調的分衆概念與資料庫行銷方式在導入Data Mining的技術後,使直效行銷的發展性更為強大,例如利用Data Mining分析顧客群之消費行為與交易紀錄,結合基本資料,并依其對品牌價值等級的高低來區隔顧客,進而達到差異化行銷的目的;制造業對Data Mining的需求多運用在品質控管方面,由制造過程中找出影響産品品質最重要的因素,以期提高作業流程的效率。
近來電話公司、信用卡公司、保險公司以及股票交易商對于詐欺行為的偵測 (Fraud Detection)都很有興趣,這些行業每年因為詐欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶資料中找出相似特征并預測可能的詐欺交易,達到減少損失的目的。财務金融業可以利用 Data Mining來分析市場動向,并預測個别公司的營運以及股價走向。Data Mining的另一個獨特的用法是在醫療業,用來預測手術、用藥、診斷、或是流程控制的效率。
NO.8 Web Mining 和資料挖掘有什麼不同?
如果将Web視為CRM的一個新的Channel,則Web Mining便可單純看做Data Mining應用在網絡資料的泛稱。
該如何測量一個網站是否成功?哪些内容、優惠、廣告是人氣最旺的?主要訪 客是哪些人?什麼原因吸引他們前來?如何從堆積如山之大量由網絡所得資料中找出讓網站運作更有效率的操作因素?以上種種皆屬Web Mining 分析之範疇。Web Mining 不僅隻限于一般較為人所知的log file分析,除了計算網頁浏覽率以及訪客人次外,舉凡網絡上的零售、财務服務、通訊服務、政府機關、醫療咨詢、遠距教學等等,隻要由網絡連結出的資料庫 夠大夠完整,所有Off-Line可進行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的資料庫,實施更大規模的模型預測與推估,畢竟憑借網際網絡的便利性與滲透力再配合網絡行為的可追蹤性與高互動特質,一對一行銷的理念是最有機會在網絡世界裡完全落實的。
整體而言,Web Mining具有以下特性:1.資料收集容 易且不引人注意,所謂凡走過必留下痕迹,當訪客進入網站後的一切浏覽行為與曆程都是可以立即被紀錄的;2. 以互動式個人化服務為終極目标,除了因應不同訪客呈現專屬設計的網頁之外,不同的訪客也會有不同的服務;3. 可整合外部來源資料讓分析功能發揮地更深更廣,除了log file、cookies、會員填表資料、線上調查資料、線上交易資料等由網絡直接取得的資源外,結合實體世界累積時間更久、範圍更廣的資源,将使分析的 結果更準确也更深入。
利用Data Mining技術建立更深入的訪客資料剖析,并賴以架構精準的預測模式,以期呈現真正智能型個人化的網絡服務,是Web Mining努力的方向。
NO.9 資料挖掘在 CRM 中扮演的角色為何?
CRM(Customer Relationship Management)是近來引起熱烈讨論與高度關切的議題,尤其在直效行銷的崛起與網絡的快速發展帶動下,跟不上CRM的腳步如同跟不上時代。事實上 CRM并不算新發明,奧美直效行銷推動十數年的CO(Customer Ownership)就是現在大家談的CRM—客戶關系管理。
Data Mining應用在CRM的主要方式可對應在Gap Analysis之三個部分:
針對Acquisition Gap,可利用Customer Profiling找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由Cluster Analysis對客戶進行分群後再通過Pattern Analysis預測哪些人可能成為我們的客戶,以幫助行銷人員找到正确的行銷對象,進而降低成本,也提高行銷的成功率。
針對Sales Gap,可利用Basket Analysis幫助了解客戶的産品消費模式,找出哪些産品客戶最容易一起購買,或是利用Sequence Discovery預測客戶在買了某一樣産品之後,在多久之内會買另一樣産品等等。利用 Data Mining可以更有效的決定産品組合、産品推薦、進貨量或庫存量,甚或是在店裡要如何擺設貨品等,同時也可以用來評估促銷活動的成效。
針對Retention Gap,可以由原客戶後來卻轉成競争對手的客戶群中,分析其特征,再根據分析結果到現有客戶資料中找出可能轉向的客戶,然後設計一些方法預防客戶流失;更有系統的做法是藉由Neural Network根據客戶的消費行為與交易紀錄對客戶忠誠度進行Scoring的排序,如此則可區隔流失率的等級進而配合不同的政策。
CRM不是設一個(800)客服專線就算了,更不僅隻是把一堆客戶基本資料輸入計算機就夠,完整的CRM運作機制在相關的硬軟體系統能 健全的支援之前,有太多的資料準備工作與分析需要推動。企業透過Data Mining可以分别針對政策、目标定位、操作效能與測量評估等四個切面之相關問題,有效率地從市場與顧客所搜集累積之大量資料中挖掘出對消費者而言最關 鍵、最重要的答案,并賴以建立真正由客戶需求點出發的客戶關系管理。
NO.10 目前業界常用的資料挖掘分析工具?
Data Mining工具市場大緻可分為三類:
- 一般分析目的用的軟體包
K-Miner(神通資料挖掘分析系統,MPP+SMP并行計算架構)
AlpineMiner(AlpineDataLabs)
TipDM(頂尖資料挖掘平台)
GDM(Geni-Sage Data Mining Analysis System,博通資料挖掘分析系統)
SAS Enterprise Miner
KXEN(凱森)
IBM Intelligent Miner
Unica PRW
SPSS Clementine
SGI MineSet
Oracle Darwin
Angoss KnowledgeSeeker
2. 針對特定功能或産業而研發的軟體
KD1(針對零售業)
Options & Choices(針對保險業)
HNC(針對信用卡詐欺或呆帳偵測)
Unica Model 1(針對行銷業)
iEM System (針對流程行業的實時曆史資料)
3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系統
Cognos Scenario and Business Objects
國際相關
[Journals]
1.ACM Transactions on Knowledge Discovery from Data (TKDD)
2.IEEE Transactions on Knowledge and Data Engineering (TKDE)
3.Data Mining and Knowledge Discovery
4.Knowledge and Information Systems
5.Data & Knowledge Engineering
[Conferences]
1.SIGMOD:ACM Conference on Management of Data (ACM)
2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)
3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)
4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)
5.WWW:International World Wide Web Conferences (W3C)
6.CIKM:ACM International Conference on Information and Knowledge Management (ACM)
7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI)
國内期刊
資料挖掘研究 Hans Journal of Data Mining 是一本關注資料挖掘領域最新進展的國際中文期刊,由漢斯出版社發行,主要刊登資料結構、資料安全、知識工程等計算機資訊系統建設相關内容的學術論文和成果 評述。本刊支援思想創新、學術創新,倡導科學,繁榮學術,集學術性、思想性為一體,旨在為了給世界範圍内的科學家、學者、科研人員提供一個傳播、分享和讨 論資料挖掘領域内不同方向問題與發展的交流平台。
研究領域:
· 資料結構
· 資料安全與計算機安全
· 資料庫
· 資料處理
· 知識工程
· 計算機資訊管理系統
· 計算機決策支援系統
· 計算機應用其他學科
· 模式識别
· 人工智能其他學科
編委資訊
主編
丁曉青 教授清華大學
編委會
蔣嶷川 教授東南大學
李道亮 教授中國農業大學
賴劍煌 教授中山大學
劉金山 教授華南農業大學
李紹滋 教授廈門大學
呂紹高 副教授西南财經大學
馬懋德 副教授新加坡南洋理工大學
莫宏偉 教授哈爾濱工程大學
樸昌浩 教授重慶郵電大學
譚文安 教授南京航空航天大學
王加陽 教授中南大學
汪衛 教授複旦大學
楊力華 教授中山大學
楊曉忠 教授華北電力大學
張道強 教授南京航空航天大學
檢索
《資料挖掘》期刊論文已被以下資料庫收錄:
維普
萬方
全國期刊聯合目錄資料庫(UNICAT)
中國科學院國家科學圖書館
讀秀學術
DOAJ
Open J-Gate
Google Scholar
Academic Journals Database
The Elektronische Zeitschriftenbibliothek(EZB)
NewJour
SJSU
Worldwidescience
Ulrichsweb
Washington
trueserials
WorldCat
NYULibraries
Scirus
Journalseek
Index Copernicus
Cornell University Library
Open Access Library
隐私
與資料挖掘有關的,還牽扯到隐私問題,例如:一個雇主可以通過通路醫療記錄來篩選出那些有糖尿病或者嚴重心髒病的人,進而意圖削減保險支出。然而,這種做法會導緻倫理和法律問題。
對于政府和商業資料的挖掘,可能會涉及到的,是國家安全或者商業機密之類的問題。這對于保密也是個不小的挑戰。
資料挖掘有很多合法的用途,例如可以在患者群的資料庫中查出某藥物和其副作用的關系。這種關系可能在1000人中也不會出現一例,但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量,還有可能挽救生命;但這當中還是存在着資料庫可能被濫用的問題。
資料挖掘實作了用其他方法不可能實作的方法來發現資訊,但它必須受到規範,應當在适當的說明下使用。
如果資料是收集自特定的個人,那麼就會出現一些涉及保密、法律和倫理的問題。