分類方法的效能評估
分類方法的效能評估
資料分析是近年來各行各業的顯學,其目的是希望能從資料中萃取出有用的資訊,如造成不良品或是形成呆帳的原因,以便讓企業更有競爭力,所以資料分析的方法如雨後春筍般的出現,例如資料分析中常用的分類方法,會從資料中學習出一個分類模型,來對新出現的資料進行類別值的預測,因此每一個分類方法都宣稱自己可以達到更高的預測正確率,而要得到這樣的結論,就必須有一個客觀的方式來評估一個分類方法的正確率。目前評估分類方法效能的標準做法是所謂的k等分交叉驗證法,這個驗證法是將一個資料集先隨機切割成大小約略相等的k等分,然後每等分輪流測試由其它k-1等分所學習出來的分類模型,再將這k次所得的結果彙整在一起,以評估一個分類方法的效能。
雖然k等分交叉驗證法是一個大家經常在使用的評估方法,但如何正確的執行這個評估方法卻沒有想像中那麼容易,例如所謂的隨機切割該怎麼做;等分數應該設定為多少;所得到的實驗結果該如何彙整,以得到可靠的正確率估計值;或是應該用什麼統計方法來檢測實驗結果,這在相關介紹這個評估方法的文獻中並沒有一致的見解,因此即使使用k等分交叉驗證法,亦無法保證得到可靠的正確率估計值。
到了所謂不平衡資料的分類,如何評估一個分類方法效能的做法就更加分歧。不平衡資料是指一個資料集中,有些類別值的資料筆數遠少於其它類別值,例如罹患某一疾病的人遠少於沒有該疾病的人,或是一個製程所生產出來的不良品數量遠少於良品的數量,這類資料不平衡的案例中,所關注的往往是那屬於少數類別的資料,例如會想探究會罹患該疾病或是產生不良品的原因,但在分類時因這個少數類別的資料不多,所以只要將所有的資料都預測成多數類別的資料,就會有很高的預測正確率,但這對於找出是什麼原因會產生少數類別的資料卻幾乎沒有任何幫助。
為了解決上述不平衡資料之分類效能評估問題,陸續有些研究提出了較適合的評估測度,其中較被廣泛使用的有召回率、精確率、F測度、G平均和AUC(Area Under the ROC Curve),召回率是用來衡量少數類別的資料被正確預測的比率,而精確率則是指預測為少數類別的正確率。若以產品的製造為例,召回率是指生產出來的不良品被正確辨識的比率,而精確率則是指被預測為不良品且實際上亦為不良品的比率,這兩個值都希望愈高愈好,但一般而言,當召回率高時精確率會低,而當精確率高時則召回率會低,所以不容易從個別的召回率或精確率來判斷那一個分類方法有較好的效能。為了解決這個問題,可將召回率和精確率整合為F測度或是G平均,其中F測度是召回率和精確率的調和平均,而G平均則是召回率和精確率的幾何平均,由於召回率和精確率已整合成一個值,所以較容易用來進行分類效能的比較。
另一個測度AUC是以描述少數類別資料被正確辨識比率且多數類別資料被誤認為少數類別比率所繪製而成的曲線所含蓋的面積,這個面積的值愈大,表示辨識出少數類別資料的效能愈好。從上述的介紹可知,這些不同的測度是從不同的觀點來衡量少數類別的資料被正確辨識的機會,所以會產生當使用某一衡量測度時,甲分類方法比乙分類方法好,但換成另一個測度時,變成乙分類方法比甲分類方法好,因此不知該參考那一個測度所得到的結果。
資料分析的重要性已逐漸被大家所熟知,但一個實際資料分析的案例究竟能達到多好的效能,需要有客觀的方式來進行評估,因此資料探勘方法的效能評估是這個領域很重要的核心問題之一。可能是因為這個領域的應用層面很廣,而且發展的相當快速,所以在效能評估這個議題尚未建置好強健的基礎時,分析方法就不斷的被開發出來,造成使用的效能評估方式相當紊亂,建議在執行資料分析時,應先對如何進行效能評估建立正確的觀念,如此才能將資料分析所得的結果,轉化成企業的競爭優勢。