天天看點

資料挖掘技術及其應用現狀

資料挖掘技術及其應用現狀

資料來源 :網絡資料

<script type="text/javascript"> </script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"> </script> name="google_ads_frame" marginwidth="0" marginheight="0" src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-3463202417050106&dt=1153789790718&lmt=1153789790&format=728x15_0ads_al&output=html&url=http%3A%2F%2Fwww.dmresearch.net%2Fhtml%2Fcontent%2Fpaper-on-data-mining%2F1000000987.php&color_bg=FFFFFF&color_text=000000&color_link=000000&color_url=008000&color_ frame width="728" scrolling="no" height="15" allowtransparency="allowtransparency">

近十幾年,随着科學技術飛速的發展,經濟和社會都取得了極大的進步,與此同時,在各個領域産生了大量的資料,如人類對太空的探索,銀行每天的巨額交易資料。顯然在這些資料中豐富的資訊,如何處理這些資料得到有益的資訊,人們進行了有益的探索。計算機技術的迅速發展使得處理資料成為可能,這就推動了資料庫技術的極大發展,但是面對不斷增加如潮水般的資料,人們不再滿足于資料庫的查詢功能,提出了深層次問題:能不能從資料中提取資訊或者知識為決策服務。就資料庫技術而言已經顯得無能為力了,同樣,傳統的統計技術也面臨了極大的挑戰。這就急需有新的方法來處理這些海量般的資料。于是,人們結合統計學、資料庫、機器學習等技術,提出資料挖掘來解決這一難題。

  資料挖掘的含義和作用

  資料挖掘的曆史雖然較短,但從20世紀90年代以來,它的發展速度很快,加之它是多學科綜合的産物,目前還沒有一個完整的定義,人們提出了多種資料挖掘的定義,例如:

  SAS研究所(1997):“在大量相關資料基礎之上進行資料探索和建立相關模型的先進方法”。

  Bhavani(1999):“使用模式識别技術、統計和數學技術,在大量的資料中發現有意義的新關系、模式和趨勢的過程”。

  Hand et al(2000):“資料挖掘就是在大型資料庫中尋找有意義、有價值資訊的過程”。

  我們認為:資料挖掘就是從海量的資料中挖掘出可能有潛在價值的資訊的技術。這些資訊是可能有潛在價值的,支援決策,可以為企業帶來利益,或者為科學研究尋找突破口。

  現今資料流通量之巨大已到了令人咂舌地步,就實際限制而言,便遇到了諸如巨量的紀錄,高維的資料增加的傳統分析技術上的困難,搜集到的資料僅有5%至10%用來分析,以及資料搜集過程中并不探讨特性等問題,這就讓我們不得不利用Data Mining技術。

  資料挖掘綜合了各個學科技術,有很多的功能,目前的主要功能如下:

  1.  分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據以前的資料将客戶分成了不同的類别,現在就可以根據這些來區分新申請貸款的客戶,以采取相應的貸款方案。

  2.  聚類:識别出分析對内在的規則,按照這些規則把對象分成若幹類。例如:将申請人分為高度風險申請者,中度風險申請者,低度風險申請者。

  3.  關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支援度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。

  4.  預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。

  5.  偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示内在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩健經營,就要發現這500例的内在因素,減小以後經營的風險。

  需要注意的是:資料挖掘的各項功能不是獨立存在的,在資料挖掘中互相聯系,發揮作用。

  資料挖掘的方法及工具

  作為一門處理資料的新興技術,資料挖掘有許多的新特征。首先,資料挖掘面對的是海量的資料,這也是資料挖掘産生的原因。其次,資料可能是不完全的、有噪聲的、随機的,有複雜的資料結構,維數大。最後,資料挖掘是許多學科的交叉,運用了統計學,計算機,數學等學科的技術。以下是常見和應用最廣泛的算法和模型:

  (1) 傳統統計方法:① 抽樣技術:我們面對的是大量的資料,對所有的資料進行分析是不可能的也是沒有必要的,就要在理論的指導下進行合理的抽樣。② 多元統計分析:因子分析,聚類分析等。③ 統計預測方法,如回歸分析,時間序列分析等。

  (2) 可視化技術:用圖表等方式把資料特征用直覺地表述出來,如直方圖等,這其中運用的許多描述統計的方法。可視化技術面對的一個難題是高維資料的可視化。

  (3) 決策樹:利用一系列規則劃分,建立樹狀圖,可用于分類和預測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

  (4) 神經網絡:模拟人的神經元功能,經過輸入層,隐藏層,輸出層等,對資料進行調整,計算,最後得到結果,用于分類和回歸。

  (5) 遺傳算法:基于自然進化理論,模拟基因聯合、突變、選擇等過程的一種優化技術。

  (6) 關聯規則挖掘算法:關聯規則是描述資料之間存在關系的規則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個步驟:① 求出大資料項集。② 用大資料項集産生關聯規則。

  除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords ,最鄰近算法(k-nearest neighbors method(kNN))等。

  由于資料挖掘一開始就是面向應用的,是為決策服務,而決策者又不一定具備太多的技術的知識,現許多公司和研究機構開發了一系列的工具用于資料挖掘,見表1

  表1  常用資料挖掘工具及其比較

 公司名 産品名 NN DT B kM kNN S Pred TS C A W32 U P A-S SQL
Angoss International Ltd. KnowledgeSEEKER Yes Yes Yes Yes Yes

Knowledge

STUDIO

Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes
Business Objects

Business

Miner

Yes Yes
Cognos Incorporated  4Thought Yes Yes Yes Yes
Scenario Yes 招聘資料分析師(淘寶) 論壇發放第二批勳章 尋找BI/Data mining 創業合夥人/高管 尋找合作夥伴 求免費實習機會 mysql中文指南