資料挖掘技術及其應用現狀 資料來源 :網絡資料 <script type="text/javascript"> </script> <script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"> </script> name="google_ads_frame" marginwidth="0" marginheight="0" src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-3463202417050106&dt=1153789790718&lmt=1153789790&format=728x15_0ads_al&output=html&url=http%3A%2F%2Fwww.dmresearch.net%2Fhtml%2Fcontent%2Fpaper-on-data-mining%2F1000000987.php&color_bg=FFFFFF&color_text=000000&color_link=000000&color_url=008000&color_ frame width="728" scrolling="no" height="15" allowtransparency="allowtransparency"> 近十幾年,随着科學技術飛速的發展,經濟和社會都取得了極大的進步,與此同時,在各個領域産生了大量的資料,如人類對太空的探索,銀行每天的巨額交易資料。顯然在這些資料中豐富的資訊,如何處理這些資料得到有益的資訊,人們進行了有益的探索。計算機技術的迅速發展使得處理資料成為可能,這就推動了資料庫技術的極大發展,但是面對不斷增加如潮水般的資料,人們不再滿足于資料庫的查詢功能,提出了深層次問題:能不能從資料中提取資訊或者知識為決策服務。就資料庫技術而言已經顯得無能為力了,同樣,傳統的統計技術也面臨了極大的挑戰。這就急需有新的方法來處理這些海量般的資料。于是,人們結合統計學、資料庫、機器學習等技術,提出資料挖掘來解決這一難題。 資料挖掘的含義和作用 資料挖掘的曆史雖然較短,但從20世紀90年代以來,它的發展速度很快,加之它是多學科綜合的産物,目前還沒有一個完整的定義,人們提出了多種資料挖掘的定義,例如: SAS研究所(1997):“在大量相關資料基礎之上進行資料探索和建立相關模型的先進方法”。 Bhavani(1999):“使用模式識别技術、統計和數學技術,在大量的資料中發現有意義的新關系、模式和趨勢的過程”。 Hand et al(2000):“資料挖掘就是在大型資料庫中尋找有意義、有價值資訊的過程”。 我們認為:資料挖掘就是從海量的資料中挖掘出可能有潛在價值的資訊的技術。這些資訊是可能有潛在價值的,支援決策,可以為企業帶來利益,或者為科學研究尋找突破口。 現今資料流通量之巨大已到了令人咂舌地步,就實際限制而言,便遇到了諸如巨量的紀錄,高維的資料增加的傳統分析技術上的困難,搜集到的資料僅有5%至10%用來分析,以及資料搜集過程中并不探讨特性等問題,這就讓我們不得不利用Data Mining技術。 資料挖掘綜合了各個學科技術,有很多的功能,目前的主要功能如下: 1. 分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據以前的資料将客戶分成了不同的類别,現在就可以根據這些來區分新申請貸款的客戶,以采取相應的貸款方案。 2. 聚類:識别出分析對内在的規則,按照這些規則把對象分成若幹類。例如:将申請人分為高度風險申請者,中度風險申請者,低度風險申請者。 3. 關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支援度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。 4. 預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。 5. 偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示内在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩健經營,就要發現這500例的内在因素,減小以後經營的風險。 需要注意的是:資料挖掘的各項功能不是獨立存在的,在資料挖掘中互相聯系,發揮作用。 資料挖掘的方法及工具 作為一門處理資料的新興技術,資料挖掘有許多的新特征。首先,資料挖掘面對的是海量的資料,這也是資料挖掘産生的原因。其次,資料可能是不完全的、有噪聲的、随機的,有複雜的資料結構,維數大。最後,資料挖掘是許多學科的交叉,運用了統計學,計算機,數學等學科的技術。以下是常見和應用最廣泛的算法和模型: (1) 傳統統計方法:① 抽樣技術:我們面對的是大量的資料,對所有的資料進行分析是不可能的也是沒有必要的,就要在理論的指導下進行合理的抽樣。② 多元統計分析:因子分析,聚類分析等。③ 統計預測方法,如回歸分析,時間序列分析等。 (2) 可視化技術:用圖表等方式把資料特征用直覺地表述出來,如直方圖等,這其中運用的許多描述統計的方法。可視化技術面對的一個難題是高維資料的可視化。 (3) 決策樹:利用一系列規則劃分,建立樹狀圖,可用于分類和預測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。 (4) 神經網絡:模拟人的神經元功能,經過輸入層,隐藏層,輸出層等,對資料進行調整,計算,最後得到結果,用于分類和回歸。 (5) 遺傳算法:基于自然進化理論,模拟基因聯合、突變、選擇等過程的一種優化技術。 (6) 關聯規則挖掘算法:關聯規則是描述資料之間存在關系的規則,形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個步驟:① 求出大資料項集。② 用大資料項集産生關聯規則。 除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords ,最鄰近算法(k-nearest neighbors method(kNN))等。 由于資料挖掘一開始就是面向應用的,是為決策服務,而決策者又不一定具備太多的技術的知識,現許多公司和研究機構開發了一系列的工具用于資料挖掘,見表1 表1 常用資料挖掘工具及其比較 公司名 | 産品名 | NN | DT | B | kM | kNN | S | Pred | TS | C | A | W32 | U | P | A-S | SQL | Angoss International Ltd. | KnowledgeSEEKER | Yes | Yes | Yes | Yes | Yes | Knowledge STUDIO | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Yes | Business Objects | Business Miner | Yes | Yes | Cognos Incorporated | 4Thought | Yes | Yes | Yes | Yes | Scenario | Yes | 招聘資料分析師(淘寶) 論壇發放第二批勳章 尋找BI/Data mining 創業合夥人/高管 尋找合作夥伴 求免費實習機會 mysql中文指南 | |