項目集:項的集合,記為I。牛奶,面包,蘋果,etc
事 務:事務T是I中的一組項目的集合,每個事務都有個一個TID作為辨別符号。
項目集X的支援度
Sup(X)=Count(X)/|D|
關聯規則X->Y的支援度
Sup(X->Y)=Count(X->Y)/|D|
關聯規則X->Y的置信度
Conf(X->Y)=Count( X->Y)/Count(X)
步驟:
1 找出所有頻繁項集
2 有頻繁項集産生強關聯規則
算法之Apriori算法
核心思想
頻繁1-項集then關聯規則then剪枝
then頻繁2-項集then關聯規則then剪枝
then頻繁3-項集then關聯規則then剪枝
……
重複此過程直到做不下去為止
算法實作 以後單獨寫出
改進措施 FP(Frequent Pattern Growth) 頻繁模式增長
多層關聯規則
基本思想:
自頂向下,在每個概念層找尋頻繁項集。然後①在該層發掘關聯規則②适當剪枝,向下進入更具體的一層。
可選方案:
1 使用一緻的最小支援度
2使用遞減的最小支援度
3 逐層獨立
4 層交叉單項過濾
5 曾交叉k-項集過濾
多元關聯規則
涉及兩個或者多個維的關聯規則
e.g. age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)
多元關聯規則注意
強關聯規則不一定是有趣的。比如,
buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]
推導出來的結果可能是滿足支援度和置信度的,但是卻不是有趣的。
因為可能實際上不購買computer games而去購買video的人有75%,而同時購買了computer games和videos的人隻有66%,說明其實computer games和videos是負相關。