天天看點

資料挖掘

至少精通使用IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine、LEVEL5 Quest、SGI、WinRosa、ExcelVBA等等常見資料挖掘軟體中的一個進行資料挖掘的開發工作;

能夠綜合使用各種數理統計、資料分析、資料挖掘、制表繪圖等軟

随着資料庫和計算機網絡的廣泛應用,加上先進的資料自動生成和采集工具的使用,人們擁有的資料量急劇增大。然而資料的極速增長與資料分析方法的改進并不成正比,一方面人們希望在已有的大量資料的基礎上進行科學研究、商業決策、企業管理,另一方面傳統的資料分析工具很難令人滿意的對資料進行深層次的處理,這樣二者之間的沖突日益突出,正是在這種狀況下,資料挖掘應運而生。資料挖掘作為一項從海量資料中提取知識的資訊技術是一個"以發現為驅動"的過程,已經引起了學術界和産業界的極大重視。特别是從1989年8月在美國底特律召開的第11屆國際人工智能聯合會議上首次出現資料庫中的知識發現概念以來,資料挖掘在國際國内都受到了前所未有的重視,目前資料挖掘廣泛應用于各個領域,如地理學、地質學、生物醫學等等,總之資料挖掘的出現使資料庫技術進入了一個更進階的階段,不僅能對過去的資料進行查詢和周遊,還能夠找出以往資料間潛在的聯系,促進資訊的傳播。

  資料挖掘技術概述

  1、資料挖掘的定義

  資料挖掘是一個從資料中提取模式的過程,是一個受多個學科影響的交叉領域,包括資料庫系統、統計學、機器學習、可視化和資訊科學等;資料挖掘反複使用多種資料挖掘算法從觀測資料中确定模式或合理模型,是一種決策支援過程。通過預測客戶的行為,幫助企業的決策者調整市場政策,減少風險,做出正确的決策。由于傳統的事物型工具(如查詢工具、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構的問題,是以其使用者必須清楚地了解問題的目的。資料挖掘就可以回答事先未加定義的綜合性問題或跨部門/機構的問題,挖掘潛在的模式并預測未來的趨勢,使用者不必提出确切的問題,而且模糊問題更有利于發現未知的事實。

  2、資料挖掘的主要方法和途徑

  資料挖掘有很多種分類方法,如按發現的知識種類,挖掘的資料庫類型,挖掘方法,挖掘途徑,所采用的技術等等。下面隻讨論四個應用比較廣泛的方法:

  ·關聯規則(Association Rule)

  在資料挖掘領域中,關聯規則應用最為廣泛,是重要的研究方向。表示資料庫中一組對象之間某種關聯關系的規則,一般來講,可以用多個參數來描述一個關聯規則的屬性,常用的有:可信度,支援度,興趣度,期望可信度,作用度。

  ·離群資料(Outlier)

  離群資料就是明顯偏離其他資料、不滿足資料的一般模式或行為、與存在的其他資料不一緻的資料。資料挖掘的大部分研究忽視了離群資料的存在和意義,現有的方法往往研究如何減少離群資料對正常資料的影響,或僅僅把其當作噪音來對待。這些離群資料可能來源于計算機錄入錯誤、人為錯誤等,也可能就是資料的真實反映。

  ·基于案例的推理(case-based reasoning, CBR)

  基于案例的推理來源于人類的認知心理活動,它屬于類比推理方法。其基本思想是基于人們在問題求解中習慣于過去處理類似問題的經驗和擷取的知識,在針對新舊情況的差異作相應的調整,進而得到新問題的解并形成新的案例。CBR方法的應用越來越受到人們的重視,在許多領域都有較好的推廣前景,例如,在氣象、環保、地震、農業、醫療、商業、 CAD等領域;CBR也可用在計算機軟硬體的生産中,如軟體及硬體的故障檢測;CBR方法尤其在不易總結出專家知識的領域中,應用越來越普遍,也越來越深入。

  ·支援向量機(Support Vector Machine,SVM)

  支援向量機是近幾年發展起來的新型通用的知識發現方法,在分類方面具有良好的性能。SVM是建立在計算學習理論的結構風險最小化原則之上,主要思想是針對兩類分類問題在高位空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。

  資料挖掘工具

  伴随越來越多的軟體供應商加入資料挖掘這一行列,使得現有的挖掘工具的性能得到進一步的增強,使用更加便捷,也使得其價格門檻迅速降低,為應用的普及帶來了可能。當然資料倉庫技術的發展同樣功不可沒。資料倉庫是将海量複雜的客戶行為資料集中起來建立的一個整合的、結構化的資料模型,是實施資料挖掘的基礎,這裡不作為讨論的重點。

  1、資料挖掘工具分類

  一般來講,資料挖掘工具根據其适用的範圍分為兩類:專用資料挖掘工具和通用資料挖掘工具。專用資料挖掘工具是針對某個特定領域的問題提供解決方案,在涉及算法的時候充分考慮了資料、需求的特殊性,并作了優化;而通用資料挖掘工具不區分具體資料的含義,采用通用的挖掘算法,處理常見的資料類型。

  2、資料挖掘工具的選擇

  資料挖掘是一個過程,隻有将資料挖掘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,并在實施的過程中不斷的磨合,才能取得成功,是以我們在選擇資料挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:

  資料挖掘的功能和方法

  即是否可以完成各種資料挖掘的任務,如:關聯分析、分類分析、序列分析、回歸分析、聚類分析、自動預測等。我們知道資料挖掘的過程一般包括資料抽樣、資料描述和預處理、資料變換、模型的建立、模型評估和釋出等,是以一個好的資料挖掘工具應該能夠為每個步驟提供相應的功能集。資料挖掘工具還應該能夠友善的導出挖掘的模型,進而在以後的應用中使用該模型。

  ·資料挖掘工具的可伸縮性

  也就是說解決複雜問題的能力,一個好的資料挖掘工具應該可以處理盡可能大的資料量,可以處理盡可能多的資料類型,可以盡可能高的提高處理的效率,盡可能使處理的結果有效。如果在資料量和挖掘維數增加的情況下,挖掘的時間呈線性增長,那麼可以認為該挖掘工具的伸縮性較好。

  ·操作的簡易性

  一個好的資料挖掘工具應該為使用者提供友好的可視化操作界面和圖形化報表工具,在進行資料挖掘的過程中應該盡可能提高自動化運作程度。總之是面向廣大使用者的而不是熟練的專業人員。

  ·資料挖掘工具的可視化

  這包括源資料的可視化、挖掘模型的可視化、挖掘過程的可視化、挖掘結果的可視化,可視化的程度、品質和互動的靈活性都将嚴重影響到資料挖掘系統的使用和解釋能力。畢竟人們接受外界資訊的80%是通過視覺獲得的,自然資料挖掘工具的可視化能力就相當重要。

  ·資料挖掘工具的開放性

  即資料挖掘工具與資料庫的結合能力。好的資料挖掘工具應該可以連接配接盡可能多的資料庫管理系統和其他的資料資源,應盡可能的與其他工具進行內建;盡管資料挖掘并不要求一定要在資料庫或資料倉庫之上進行,但資料挖掘的資料采集、資料清洗、資料變換等等将耗費巨大的時間和資源,是以資料挖掘工具必須要與資料庫緊密結合,減少資料轉換的時間,充分利用整個的資料和資料倉庫的處理能力,在資料倉庫内直接進行資料挖掘,而且開發模型,測試模型,部署模型都要充分利用資料倉庫的處理能力,另外,多個資料挖掘項目可以同時進行。

  當然,上述的隻是一些通用的參考名額,具體選擇挖掘工具時還需要從實際情況出發具體分析。

  資料挖掘工具的現狀

  比較著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供正常的挖掘過程和挖掘模式。

  1、Intelligent Miner

  由美國IBM公司開發的資料挖掘軟體Intelligent Miner是一種分别面向資料庫和文本資訊進行資料挖掘的軟體系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在資料庫、資料倉庫和資料中心中的隐含資訊,幫助使用者利用傳統資料庫或普通檔案中的結構化資料進行資料挖掘。它已經成功應用于市場分析、詐騙行為監測及客戶聯系管理等;Intelligent Miner for Text允許企業從文本資訊進行資料挖掘,文本資料源可以是文本檔案、Web頁面、電子郵件、Lotus Notes資料庫等等。

  2、Enterprise Miner

  這是一種在我國的企業中得到采用的資料挖掘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的資料挖掘工具,按照"抽樣--探索--轉換--模組化--評估"的方法進行資料挖掘。可以與SAS資料倉庫和OLAP內建,實作從提出資料、抓住資料到得到解答的"端到端"知識發現。

  3、SPSS Clementine

  SPSS Clementine是一個開放式資料挖掘工具,曾兩次獲得英國政府SMART 創新獎,它不但支援整個資料挖掘流程,從資料擷取、轉化、模組化、評估到最終部署的全部過程,還支援資料挖掘的行業标準--CRISP-DM。 Clementine的可視化資料挖掘使得"思路"分析成為可能,即将集中精力在要解決的問題本身,而不是局限于完成一些技術性工作(比如編寫代碼)。提供了多種圖形化技術,有助了解資料間的關鍵性聯系,指導使用者以最便捷的途徑找到問題的最終解決辦法。

  其它常用的資料挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的資料挖掘軟體Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。

  結束語

  經過十多年的發展,資料挖掘工具的性能獲得了顯著的改善,不論是自動化程度還是适用範圍都發生了巨大變化,價格的門檻迅速降低,對于推進資料挖掘在企業和電子商務中的應用具有特殊的意義。但是還應該看到,現在的資料挖掘工具還存在許多的不足,1999年的調查顯示多數的資料挖掘工具隻使用了有限的幾種技術,且集中在比較簡單的資料挖掘技術種類上。

  是以我們呼籲每個企業都必須結合自己的實際情況,充分考慮本企業在資料挖掘領域的實施經驗,避免踏進僅僅是"選擇工具"的陷阱,進而獲得一個完善的資料挖掘解決方案,真正把資料挖掘融入到企業的經營決策中。

seo
上一篇: 資料挖掘

繼續閱讀