資料挖掘技術及其應用現狀

資料來源：網絡資料

近十幾年，随着科學技術飛速的發展，經濟和社會都取得了極大的進步，與此同時，在各個領域産生了大量的資料，如人類對太空的探索，銀行每天的巨額交易資料。顯然在這些資料中豐富的資訊，如何處理這些資料得到有益的資訊，人們進行了有益的探索。計算機技術的迅速發展使得處理資料成為可能，這就推動了資料庫技術的極大發展，但是面對不斷增加如潮水般的資料，人們不再滿足于資料庫的查詢功能，提出了深層次問題：能不能從資料中提取資訊或者知識為決策服務。就資料庫技術而言已經顯得無能為力了，同樣，傳統的統計技術也面臨了極大的挑戰。這就急需有新的方法來處理這些海量般的資料。于是，人們結合統計學、資料庫、機器學習等技術，提出資料挖掘來解決這一難題。

　　資料挖掘的含義和作用

　　資料挖掘的曆史雖然較短，但從20世紀90年代以來，它的發展速度很快，加之它是多學科綜合的産物，目前還沒有一個完整的定義，人們提出了多種資料挖掘的定義，例如：

　　SAS研究所（1997）：“在大量相關資料基礎之上進行資料探索和建立相關模型的先進方法”。

　　Bhavani（1999）：“使用模式識别技術、統計和數學技術，在大量的資料中發現有意義的新關系、模式和趨勢的過程”。

　　Hand et al（2000）：“資料挖掘就是在大型資料庫中尋找有意義、有價值資訊的過程”。

　　我們認為：資料挖掘就是從海量的資料中挖掘出可能有潛在價值的資訊的技術。這些資訊是可能有潛在價值的，支援決策，可以為企業帶來利益，或者為科學研究尋找突破口。

　　現今資料流通量之巨大已到了令人咂舌地步，就實際限制而言，便遇到了諸如巨量的紀錄，高維的資料增加的傳統分析技術上的困難，搜集到的資料僅有5%至10%用來分析，以及資料搜集過程中并不探讨特性等問題，這就讓我們不得不利用Data Mining技術。

　　資料挖掘綜合了各個學科技術，有很多的功能，目前的主要功能如下：

　　1．　分類：按照分析對象的屬性、特征，建立不同的組類來描述事物。例如：銀行部門根據以前的資料将客戶分成了不同的類别，現在就可以根據這些來區分新申請貸款的客戶，以采取相應的貸款方案。

　　2．　聚類：識别出分析對内在的規則，按照這些規則把對象分成若幹類。例如：将申請人分為高度風險申請者，中度風險申請者，低度風險申請者。

　　3．　關聯規則和序列模式的發現：關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如：每天購買啤酒的人也有可能購買香煙，比重有多大，可以通過關聯的支援度和可信度來描述。與關聯不同，序列是一種縱向的聯系。例如：今天銀行調整利率，明天股市的變化。

　　4．　預測：把握分析對象發展的規律，對未來的趨勢做出預見。例如：對未來經濟發展的判斷。

　　5．　偏差的檢測：對分析對象的少數的、極端的特例的描述，揭示内在的原因。例如：在銀行的100萬筆交易中有500例的欺詐行為，銀行為了穩健經營，就要發現這500例的内在因素，減小以後經營的風險。

　　需要注意的是：資料挖掘的各項功能不是獨立存在的，在資料挖掘中互相聯系，發揮作用。

　　資料挖掘的方法及工具

　　作為一門處理資料的新興技術，資料挖掘有許多的新特征。首先，資料挖掘面對的是海量的資料，這也是資料挖掘産生的原因。其次，資料可能是不完全的、有噪聲的、随機的，有複雜的資料結構，維數大。最後，資料挖掘是許多學科的交叉，運用了統計學，計算機，數學等學科的技術。以下是常見和應用最廣泛的算法和模型：

　　(1) 傳統統計方法：① 抽樣技術：我們面對的是大量的資料，對所有的資料進行分析是不可能的也是沒有必要的，就要在理論的指導下進行合理的抽樣。② 多元統計分析：因子分析，聚類分析等。③ 統計預測方法，如回歸分析，時間序列分析等。

　　(2) 可視化技術：用圖表等方式把資料特征用直覺地表述出來，如直方圖等，這其中運用的許多描述統計的方法。可視化技術面對的一個難題是高維資料的可視化。

　　(3) 決策樹：利用一系列規則劃分，建立樹狀圖，可用于分類和預測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

　　(4) 神經網絡：模拟人的神經元功能，經過輸入層，隐藏層，輸出層等，對資料進行調整，計算，最後得到結果，用于分類和回歸。

　　(5) 遺傳算法：基于自然進化理論，模拟基因聯合、突變、選擇等過程的一種優化技術。

　　(6) 關聯規則挖掘算法：關聯規則是描述資料之間存在關系的規則，形式為“A1∧A2∧…An→B1∧B2∧…Bn”。一般分為兩個步驟：① 求出大資料項集。② 用大資料項集産生關聯規則。

　　除了上述的常用方法外，還有粗集方法，模糊集合方法，Bayesian Belief Netords ,最鄰近算法（k-nearest neighbors method(kNN)）等。

　　由于資料挖掘一開始就是面向應用的，是為決策服務，而決策者又不一定具備太多的技術的知識，現許多公司和研究機構開發了一系列的工具用于資料挖掘，見表1

　　表1 　常用資料挖掘工具及其比較

公司名

産品名

kNN

Pred

W32

A-S

SQL

Angoss International Ltd.

KnowledgeSEEKER

Yes

Knowledge

STUDIO

Yes

Business Objects

Business

Miner

Yes

Cognos Incorporated

4Thought

Yes

Scenario

Yes

招聘資料分析師（淘寶）論壇發放第二批勳章尋找BI/Data mining 創業合夥人/高管尋找合作夥伴求免費實習機會 mysql中文指南

資料挖掘技術及其應用現狀

資料挖掘技術及其應用現狀

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

交通/城市相關的公開的資料集上學時整理的Xie et al., 2020收集的

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

Linux裝置模型（中）之上層容器

hdu7108哈希