天天看點

資料挖掘中的概念描述

從資料分析角度出發,資料挖掘可分為兩種類型:

描述型資料挖掘:以簡潔概要方式描述資料

預測型資料挖掘:預測性資料挖掘則是通過對所提供資料集應用特定方法分析所獲得的一個或一組資料模型,并将該模型用于預測未來新資料的有關性質。

描述型資料挖掘又稱為概念描述,概念描述是資料挖掘的一個重要部分。描述型資料挖掘最簡單的類型就是概念描述。概念描述描述的是資料的特征和比較描述:

特征描述:給定資料集的簡潔彙總

比較描述:多用于兩個或多個資料集

資料泛化也是一種概念描述,這類似于資料倉庫中的olap,但兩者之間也是有差別的:

複雜的資料類型和聚集:概念描述可以處理更加複雜的資料類型屬性和他們的聚集

使用者控制和自動處理:olap多是使用者的控制和操作,而資料挖掘中的概念描述更努力成為自動化的過程,具備自動知識發現的能力,要遠遠複雜的多

資料泛化也是一種特征描述。資料泛化的概念:它是一個過程,它将龐大、任務相關的資料集從較低的概念層次抽象到較高的概念層次。具體泛化方法有兩類:

資料立方:類似olap

面向屬性的歸納

資料泛化是非常有用的,舉個例子:一個銷售系統中的資料庫中商品項目可能由諸如itemid,name,brand,price,category,place-made等低層次的屬性構成,但銷售和市場經理都希望得到在聖誕節期間大量商品基本資訊的彙總描述來獲得一些資訊。

面向屬性歸納的基本思想是:首先使用關系資料庫查詢收集任務相關資料,然後通過觀察任務相關資料中每個屬性的不同值的個數進行泛化。泛化可以通過屬性删除,或者通過屬性泛化進行。

通過資料挖掘查詢或者關系查詢擷取相關資料,假設我們有如下關系查詢語句:

把詞語在關系資料庫中執行,傳回如下表所示資料。該表一般被稱作初始工作表,是要進行歸納的資料。

name

gender

major

birth_place

birth_date

redidence

phone

gpa

jim

m

cs

vancouver,bc,canada

76-12-8

3511,main st,richmand

687-4598

3.67

scott

montreal,que,canada

75-7-28

345,istst,vancouver

253-9106

3.70

lee

f

physics

seattle,wa,usa

70-8-25

231,austin,burnaby

420-5232

3.83

資料已經準備好,下面就開始進行屬性歸納,面向屬性歸納的基本操作是資料泛化,它有兩種方法:屬性删除

顧名思義,屬性删除就是删除我們不需要的資料。我們基于如下規則盤點是否采用屬性删除方法:如果初始工作表中某個屬性有大量不同的值,<code>(1)但是在此屬性上沒有泛化操作符</code>;或者<code>(2)它的較高層概念可以用其它屬性表示</code>,該屬性應當從工作關系表中删除。

舉個例子,對于情況1,因為它沒有泛化操作符,就意味着它不能被泛化,保留它則與産生簡潔的描述規則相沖突,比如初始工作表中的姓名字段。對于情況2,比如屬性street可以被較高的屬性city表示,是以删除city屬性。

屬性泛化基于如下規則:如果初始工作表中某個屬性有大量不同的值,并且該屬性上存在泛化操作符,則應當選擇該泛化操作符,并将它用于該屬性。

屬性删除和屬性泛化兩個規則都表明,如果某個屬性存在大量的不同取值,就應當進一步泛化,那多大才算是大?這個控制過程我們就稱作屬性泛化控制。有一些方法可以控制泛化的過程,下面介紹兩種常用的方法:

屬性泛化門檻值控制,對所有屬性設定一個泛化門檻值,或對每個屬性設定一個泛化門檻值,如果屬性不同值個數大于這個門檻值,就應當進一步進行屬性删除或泛化。

泛化關系門檻值控制,如果泛化關系中不同元組的個數超過該門檻值,則應當進一步泛化。

現在,我們就對上面的初始工作表中的每個屬性進行泛化,泛化過程如下:

name:由于name存在大量不同的值,并且沒有泛化操作符,删除之。

gender:隻有兩個不同值,保留,無需泛化。

major:假設major數量有20,屬性泛化門檻值為5,并且已定義了一個向上攀升的概念分層{arts,engineering,business},則對major進行泛化。

birth_place:有大量不同取值,應當泛化。可以将birth_place屬性删除,泛化到birth_country。

birth_date:泛化到age。

resident:可以泛化到resident_country,像是的概念層次的number,street可以删除。

phone:從泛化中删除。

gpa:存在概念分層,可以泛化到{excellent,very good,…}

所泛化過程将産生相等元組的組。例如,初始工作表中前兩個元組被泛化成相同的元組(即第一個元組),這些相同的元組被合并成一個,同時累計它們的計數值,這一過程最終得到如下泛化關系表:

birth_country

age_range

redidence_city

count

science

canada

20

richmon

verygood

1

vancouve

2

engineer

usa

25

burnaby

excellent

二維表

3d交叉表

條形圖、餅形圖

資料方

有時候我們很難确定哪些屬性應當納入類特征或類比較中,我們可以借助某些屬性相關分析方法來識别不相關或者弱相關屬性。

我們已經在上面介紹過,資料倉庫和olap工具有兩個局限性:處理複雜對象和泛化過程難以自動化。

對使用者來說,确定哪些維應當納入到類特征分析中并不是一件很容易的事,資料關系通常有很多屬性(多的有成百上千個),對于有效的資料挖掘,應當選擇哪些屬性或維,使用者所知甚少。另一方面,使用者也可能包含了太多的分析屬性。

是以我們應當引進一些方法進行屬性相關性分析,以過濾統計不相關或弱相關屬性,保留對手頭挖掘任務最相關的屬性。包含屬性/維相關性分析的類特征成為解析特征,包含這種分析的類比較成為解析比較。

關于屬性相關分析,在機器學習、統計、模糊和粗糙集理論等方面都有很多研究。屬性相關分析基本思想是計算某種度量,用于量化屬性與給定類或概念的相關性。這種度量包括資訊增益、gini索引、不确定性和相關系數。