天天看點

《資料挖掘概念與技術》學習筆記第6章(6/10)挖掘大型資料庫中的關聯規則

項目集:項的集合,記為I。牛奶,面包,蘋果,etc

事  務:事務T是I中的一組項目的集合,每個事務都有個一個TID作為辨別符号。

項目集X的支援度

         Sup(X)=Count(X)/|D|

關聯規則X->Y的支援度

         Sup(X->Y)=Count(X->Y)/|D|

關聯規則X->Y的置信度

Conf(X->Y)=Count( X->Y)/Count(X)

步驟:

1 找出所有頻繁項集

2 有頻繁項集産生強關聯規則

算法之Apriori算法

核心思想

頻繁1-項集then關聯規則then剪枝

then頻繁2-項集then關聯規則then剪枝

then頻繁3-項集then關聯規則then剪枝

……

重複此過程直到做不下去為止

算法實作  以後單獨寫出

改進措施 FP(Frequent Pattern  Growth) 頻繁模式增長

多層關聯規則

基本思想:

自頂向下,在每個概念層找尋頻繁項集。然後①在該層發掘關聯規則②适當剪枝,向下進入更具體的一層。

可選方案:

         1 使用一緻的最小支援度

         2使用遞減的最小支援度

         3 逐層獨立

         4 層交叉單項過濾

         5 曾交叉k-項集過濾

多元關聯規則

涉及兩個或者多個維的關聯規則

e.g. age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)

多元關聯規則注意

強關聯規則不一定是有趣的。比如,

buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]

推導出來的結果可能是滿足支援度和置信度的,但是卻不是有趣的。

因為可能實際上不購買computer games而去購買video的人有75%,而同時購買了computer games和videos的人隻有66%,說明其實computer games和videos是負相關。