《資料挖掘概念與技術》學習筆記第6章(6/10)挖掘大型資料庫中的關聯規則

2023-05-13 00:05:36

項目集：項的集合，記為I。牛奶，面包，蘋果，etc

事務：事務T是I中的一組項目的集合，每個事務都有個一個TID作為辨別符号。

項目集X的支援度

Sup(X)=Count(X)/|D|

關聯規則X->Y的支援度

Sup(X->Y)=Count(X->Y)/|D|

關聯規則X->Y的置信度

Conf(X->Y)=Count( X->Y)/Count(X)

步驟：

1 找出所有頻繁項集

2 有頻繁項集産生強關聯規則

算法之Apriori算法

核心思想

頻繁1-項集then關聯規則then剪枝

then頻繁2-項集then關聯規則then剪枝

then頻繁3-項集then關聯規則then剪枝

……

重複此過程直到做不下去為止

算法實作以後單獨寫出

改進措施 FP(Frequent Pattern Growth) 頻繁模式增長

多層關聯規則

基本思想：

自頂向下，在每個概念層找尋頻繁項集。然後①在該層發掘關聯規則②适當剪枝，向下進入更具體的一層。

可選方案：

1 使用一緻的最小支援度

2使用遞減的最小支援度

3 逐層獨立

4 層交叉單項過濾

5 曾交叉k-項集過濾

多元關聯規則

涉及兩個或者多個維的關聯規則

e.g． age(X, “IBM desktop computer”)^occupation(“drive”r)=>buys(X, ”laptop”)

多元關聯規則注意

強關聯規則不一定是有趣的。比如，

buys(X, “computer games”)=>buys(X, “videos”) [Support=40%, confidence= 66%]

推導出來的結果可能是滿足支援度和置信度的，但是卻不是有趣的。

因為可能實際上不購買computer games而去購買video的人有75%，而同時購買了computer games和videos的人隻有66%，說明其實computer games和videos是負相關。

《資料挖掘概念與技術》學習筆記第6章(6/10)挖掘大型資料庫中的關聯規則

繼續閱讀

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希