★ 關聯分析
關聯分析主要想從大量的交易資料中,挖掘出項目之間的規律或關聯性。在社會科學類別的研究中,我們很常需要了解到的問題是,通常具有 A 性質的人是不是還具有 B 性質,或者通常一個人具有 B 性質時,能不能推出說這個人也同時具有 A 性質。關聯分析的一個典型例子是購物籃分析:用在分析每一筆交易內容,消費者通常買什麼,哪些商品經常會被一起購買,以及下一次可能會買什麼。
★ Apriori 演算法
Apriori 演算法是常用於關聯性分析的演算法,主要是用『最小支持度 (Support)』、『可靠度 (Confidence)』與『提昇度 (Lift)』三個值來建立關聯性規則 (Association Rule)。此演算法是最為經典的演算法,其優點為算法簡單、容易理解且資料要求度低。
支持度:在所有項集發生的狀況下,同時發生 X、Y 項集的機率。
Support (X⇒Y) = P(X,Y)
一般以設定最小支持門檻值 (min support) 來篩選。
可靠度:在 X 項集發生的狀況下,同時發生 X、Y 項集的機率。
Confidence (X⇒Y) = P(Y|X) = P(X,Y)/P(X)
發生頻次越高表示該關聯性規則越具備高度關係。
一般以設定最小信賴門檻值 (min confidence) 來篩選。
提升度:在含有 X 的條件下同時含有 Y 的可能性,與含有 Y 的可能性之比。
Lift (X⇒Y) = P(Y|X)/P(Y) = Confidence (X⇒Y)/P(Y)
若 Lift 值大於 1, 則 A 與 B 呈現正向關係。
若 Lift 值等於 1, 則 A 與 B 沒有關係。
若 Lift 值小於 1, 則 A 與 B 呈現負向關係。
★ Data Set
根據不同的資料型態,我們提供了兩個平台做關聯分析。