Apriori 演算法

Apriori 關聯聯規則演算法

何謂關聯聯規則？ • 單⼀一購物⾞車車告訴我們個別顧客的消費⾏行行為，但是累積⼤大量量的購物⾞車車資料之後，可以分析整體顧客的消費習慣 • 例例如，顧客購買印表機時，他們是否也會購買報表紙？購買IBM PC主機的顧客是否會傾向於搭配 ViewSonic螢幕？顧客購買碳粉匣的數量量是否和同時購買的報表紙數
量量有關係？ • 關聯聯規則分析是協助我們找出哪些事物總是同時發⽣生或者是先後發⽣生。Ex:If 啤酒then 70%機率購買尿尿布 • 在零售業我們稱之為購物籃分析

關聯聯法則探勘的⽬目的 • 找出交易易中可能相關連的產品項⽬目 • 例例如，根據商店中消費者每次交易易所購買的產品資料，可以發掘出類似下列列的關聯聯法則：“80%的顧客如果購買碳粉匣，則也會購買報表紙”

定義(1/4) • 在交易易資料庫中，每⼀一筆交易易包含交易易編號與⼀一組被購買的商品項⽬目；⽽而⼀一組商品項⽬目所成的集合稱之為 “項⽬目集” (itemset)。 • 假設X是⼀一個項⽬目集，若若所有在X中的項⽬目皆被包含在交易易T之中，則稱交易易T⽀支持 (support)
項⽬目集X。

定義(2/4) • 項⽬目集X的 “⽀支持個數” (support count) 被定義為“⽀支持項⽬目集X的交易易總數”。 • 項⽬目集X的
“⽀支持度” (support) 則是 “⽀支持項⽬目集X的交易易個數佔全部交易易總數的比例例”。 • Ex:商品編號為 “2” 的物品之 “⽀支持個數” 為 5，亦即 “⽀支持度” 為5/10=0.5；⽽而項⽬目集{2,5}的 “⽀支持個數” 為 3，“⽀支持度” 為3/10=0.3

定義(3/4) • 關聯聯法則的形式為 “X → Y [⽀支持度,信⼼心⽔水準]”，其中 X 和 Y
代表項⽬目集，X 被稱為 “條件句句”，Y為 “結論句句”，關聯聯規則的表現形式就是⼀一個「If... .Then」的分析結果。 • 例例如顧客買了了紅茶茶時, 也會順帶購買蛋糕

定義(4/4) • 法則X → Y的⽀支持度定義為項⽬目集的⽀支持度。 • 法則X → Y的 “信⼼心⽔水準”
(conﬁdence) 是符合條件句句與結論句句的交易易個數佔全體符合條件句句的交易易個數之比例例，亦即

需滿⾜足條件 • 關聯聯規則分析的過程中,必須滿⾜足事先先設定的兩兩個參參數值做為篩選⾨門檻:最⼩小⽀支持度(Minimum Support)與最⼩小信⼼心度(Minimum Conﬁdence)，須滿⾜足這兩兩個⾨門檻參參數才會是關聯聯法則。 • 最⼩小⽀支持度和資料庫中交易易總數的乘積即是最⼩小⽀支持個數
(minimum support count) 。 • EX: 假設最⼩小⽀支持度與最⼩小信⼼心⽔水準分別為0.2和0.5。關聯聯法則 {1,3}→ {5}的⽀支持個數為2，所以⽀支持度為0.2，且項⽬目集{1,3}的⽀支持度為0.3，因此關聯聯法則 {1,3} → {5}的信⼼心⽔水準為0.2/ 0.3=0.67。

兩兩個⼦子問題 • ⾸首先，找出所有⽀支持度⼤大於或等於最⼩小⽀支持度的項⽬目集，稱之為 “⼤大型項⽬目集” (large itemset)或”頻繁項⽬目集”(frequent itemset)。 • 接著，從⼤大型項⽬目集中產⽣生信⼼心⽔水準⼤大於或等於最⼩小信⼼心⽔水
準的關聯聯法則。 • EX:假設Z 為⼤大型項⽬目集，所有形式為X → Y，滿⾜足、以及信⼼心⽔水準⼤大於或等於最⼩小信⼼心⽔水準的關聯聯法則都應該被產⽣生。很明顯的，⼀一旦所有⼤大型項⽬目集被發掘之後，關聯聯法則的產⽣生將變得非常直接。

範例例 • 若若最⼩小⽀支持度與最⼩小信⼼心⽔水準分別為0.2和0.7，則項⽬目集{1,3}是⼤大型項⽬目集，因此可以考慮下列列這兩兩條法則： {1} → {3}和{3} → {1}
• 法則{1} → {3}的信⼼心⽔水準為0.3/0.4=0.75 • 法則{3} → {1}的信⼼心⽔水準為0.3/0.5=0.6 • 其中只有法則{1} → {3}才是我們所想要的關聯聯法則。

Apriori 演算法的基本精神

• ⼀一個包含 k個項⽬目的項⽬目集被稱為 k-項⽬目集 (k- itemset)。 • 符號Lk表⽰示所有⼤大型k-項⽬目集 (large k-itemset)
所成的集合。 • Apriori的基本精神是使⽤用前⼀一個階段所發掘的⼤大型項⽬目集來來產⽣生下⼀一個階段的⼤大型項⽬目集

• 也就是說，先找出所有⼤大型1-項⽬目集，我們稱為⼀一階⼤大型項⽬目集 L1，再利利⽤用L1找出L2，然後利利⽤用L2 找出L3，依此類推下去，直到下⼀一個階段無任何⼤大型項⽬目集產⽣生為⽌止。 • L1 (合併成候選項⽬目) →
C2 候選 2-項⽬目集 (⽤用⽀支持度⾨門檻過濾) → L2 (合併成候選項⽬目) → C3 候選 3-項⽬目集 (⽤用⽀支持度⾨門檻過濾) → L3以此類推....

為了了減少產⽣生⼤大型項⽬目集所花費的計算時間，Apriori 使⽤用⼀一個重要的性質來來減少搜尋的空間： • ⼀一個⼤大型項⽬目集的任何⼦子集合也必定是⼤大型項⽬目集。 • 頻繁項集的所有非空⼦子集也必須是頻繁項⽬目集。 • 如果項⽬目集 i 不符合最⼩小值，即最⼩小⽀支持度不滿⾜足，
則不是⼀一個頻繁項⽬目集

• 假設{A,B}是⼀一個⼤大型項⽬目集，根據⼤大型項⽬目集的定義，它的⽀支持個數必定⼤大於或等於最⼩小⽀支持個數。考慮{A,B}的兩兩個⼦子集合{A}和{B}。 • 在交易易資料庫中，項⽬目集{A}的⽀支持個數必⼤大於或等於項⽬目集{A,B}的⽀支持個數，因此項⽬目集{A}必定是⼤大型項⽬目集。 • 同理理，項⽬目集{B}也必定是⼤大型項⽬目集。

候選項⽬目集產⽣生程序

• Apriori 演算法使⽤用Apriori 性質產⽣生候選項⽬目集 (candidate itemsets)，候選項⽬目集的產⽣生程序主要包含兩兩個步驟： • “結合” (join)
步驟 • “刪除” (prune) 步驟

結合(join) • 結合⼤大型(k-1)-項⽬目集來來產⽣生候選k-項⽬目集 (candidate k- itemsets)。符號Ck表⽰示所有候選k-項⽬目集所成的集合。 • 令X1和X2是兩兩個⼤大型(k-1)-項⽬目集，Xi[j]代表項⽬目集Xi中的第j個項⽬目。假設項⽬目集中的項⽬目已依遞增的⽅方式排序完成。若若X1和X2的前k-2個項⽬目皆相同，且X1[k-1]<X2[k-1]，則X1和X2將被結合
成⼀一個候選k-項⽬目集，亦即{X1[1], X1[2], …, X1[k-1], X2[k-1]}。其中，結合條件X1[k-1]< X2[k-1]的⽬目的是為了了避免產⽣生重複的候選k-項⽬目集。例例:abcd, abce =>abcde

刪除(prune) • 刪除不滿⾜足Apriori 性質的候選項⽬目集。候選k-項⽬目集 Ck包含Lk，但不⼀一定和Lk相等。 • 假設 XiCk，Apriori 演算法在讀取資料庫中的每⼀一筆交易易時，若若交易易⽀支持項⽬目集
X，則X的⽀支持個數將會增加 1。 • 應⽤用Apriori 性質來來減少Ck的⼤大⼩小。若若項⽬目集X有任何⼀一個⼤大⼩小為k-1的⼦子集合不是⼤大型(k-1)-項⽬目集，則X 必定不是⼤大型k-項⽬目集，因此就可以將X從Ck中刪除。

例例：設⼤大型項⽬目集L3={abc, abd, acd, ace, bcd} Self-joining: L3*L3 abcd
from abc and abd acde from acd and ace Pruning: 3-item subset of abcd are abc, abd, acd and bcd. 3-item subset of acde are acd, ace, ade and cde. acde is removed because ade is not in L3 C4={abcd}

（1） L1 = ﬁnd_frequent_1-itemsets(D); （2） for (k=2;Lk-1 ≠Φ ;k++) {
　　（3） Ck = apriori_gen(Lk-1 ,min_sup); 　　（4） for each transaction t ∈ D { //scan D for counts 　（5） Ct = subset(Ck,t); //get the subsets of t that are candidates 　（6） for each candidate c ∈ Ct 　　（7） c.count++; 　（8） } 　　（9） Lk ={c ∈ Ck|c.count≥min_sup } 　　（10） } 　　（11） return L= ∪ k Lk;

• ⽤用⼀一個簡單的例例⼦子說明。表1是顧客購買記錄的資料庫D，包含6個事務。項集I={網球拍,網球,運動鞋,⽻羽⽑毛球}。考慮關聯聯規則：網球拍 → 網球，事務1,2,3,4,6包含網球拍，事務1,2,6同時包含網球拍和網球，⽀支持度support= 3/6 = 0.5，置信度conﬁdent=
3/5 = 0.6。若若給定最⼩小⽀支持度 α =0.5，最⼩小置信度 β =0.6，關聯聯規則網球拍 → 網球是有趣的，認為購買網球拍和購買網球之間存在強關聯聯。

Apriori演算法的幾種優化⽅方法: (1) 劃分導向的⽅方式這個演算法先把資料庫從邏輯上分成兒個互不相交的塊，每次單獨考慮⼀一個分塊並對它⽣生成所有的頻集，然後把產⽣生的頻集合並，⽤用來來⽣生成所有可能的頻集，最後計算這些項⽬目集的⽀支持度。 (2) Hash導向的⽅方式⼀一個⾼高效地產⽣生頻集的雜湊(Hash)的演算法由Park等提出來來。運⽤用實驗可以發現尋找頻集主要的計算是在⽣生成頻繁2-項⽬目集上，Park
等就是利利⽤用了了這個性質引入雜草技術來來改進產⽣生頻繁兒項⽬目集的⽅方法。

(3) 採樣導向的⽅方式 Mannila等先考慮了了這⼀一點，他們認為採樣是發現規則的⼀一個有效途徑。隨後⼜又由Toivonen進⼀一步發展了了這個思想，先使⽤用從資料庫中抽取出來來的採樣得到⼀一些在整個資料庫中可能成立的規則，然後對資料庫的剩餘部分驗證這個結果。 (4) 減少交易易的個數減少⽤用於未來來掃描的交易易集的⼤大⼩小。⼀一個基本的原理理就是當⼀一個交易易不包含長度為k的頻繁項⽬目集，則必然不包含長度為k+1的頻繁項
⽬目集。

DHP演算法 Direct Hashing and Pruning

• 主要的著眼點，是希望減少候選項⽬目集合的數量量以增進整個演算法的效率。所以DHP提出了了⼀一個⽅方法，能夠在每次產⽣生⼤大項⽬目集合後，將資料庫中不再⽤用到的項⽬目刪除，以達到資料庫修整(DB Prunning)的⽬目的。 • 此⽅方法就是利利⽤用Hashing的技巧產⽣生較Apriori少的候選項⽬目集合，尤其是減少C2的數量量。

Apriori 演算法

Apriori 演算法

Kyle Bai

More Decks by Kyle Bai

Other Decks in Technology

Featured

Transcript

Apriori 關聯聯規則演算法

關聯聯法則探勘的⽬目的 • 找出交易易中可能相關連的產品項⽬目 • 例例如，根據商店中消費者每次交易易所購買的產品資料，可以發掘出類似下列列的關聯聯法則：“80%的顧客如果購買碳粉匣，則也會購買報表紙”

定義(2/4) • 項⽬目集X的 “⽀支持個數” (support count) 被定義為“⽀支持項⽬目集X的交易易總數”。 • 項⽬目集X的

定義(3/4) • 關聯聯法則的形式為 “X → Y [⽀支持度,信⼼心⽔水準]”，其中 X 和 Y

定義(4/4) • 法則X → Y的⽀支持度定義為項⽬目集的⽀支持度。 • 法則X → Y的 “信⼼心⽔水準”

範例例 • 若若最⼩小⽀支持度與最⼩小信⼼心⽔水準分別為0.2和0.7，則項⽬目集{1,3}是⼤大型項⽬目集，因此可以考慮下列列這兩兩條法則： {1} → {3}和{3} → {1}