動機:
乳腺癌 (Breast Cancer) 是全球僅次於肺癌的女性死亡主因,2020 年新增病例約 2,261,419 例,新增死亡病例 684,996 例。乳腺癌是一種起源於乳房組織的癌症,最常見的是起源於乳管的內層或向乳管提供乳汁的小葉,由於脫氧核糖核酸 (DNA) 和核糖核酸 (RNA) 的修飾或突變,癌細胞起源於天然細胞。 這些修改或突變可能由於熵增加而自發發生,也可能由其他因素觸發。一般來說,有良性和惡性是兩類腫瘤。雖然良性不會危及生命和癌變,但它可能會增加患乳腺癌的風險。相比之下,惡性腫瘤更令人擔憂和癌變。
在文獻中,研究證明,在早期階段使用機器學習分類器預測乳腺癌不僅可以增加生存機會,還可以控制癌細胞在體內的擴散。 例如,早其一項研究使用基於支持向量機 (Support Vector Machine, SVM) 的方法進行乳腺癌診斷,並在預測方面取得了實際成果,達到了 93.4% 的準確率[1]。 後來,這項工作被擴展到WDBC乳腺癌(Wisconsin Diagnostic Breast Cancer, WDBC)數據集,並且通過 K-SVM 混合模型獲得 97% 的準確率[2]。同時,其他一些研究人員繼續研究了不同的分類器,這也開啟機器學習以及深度學習應用於乳腺癌輔助診斷。
[1] Bichen Zheng, Sang Won Yoon, Sarah S. Lam, Breast cancer diagnosis based on feature extraction using a hybrid of K-means and support vector machine algorithms, Expert Systems with Applications,Volume 41, Issue 4, Part 1, 2014.
[2] Seddik, A.F.; Shawky, D.M. Logistic regression model for breast cancer automatic diagnosis. In Proceedings of the 2015 SAI Intelligent Systems Conference (IntelliSys), London, UK, 10–11 November 2015; pp. 150–154.
數據集:Wisconsin Diagnostic Breast Cancer, WDBC)數據集
這些數據包含對女性乳房可疑腫塊中細胞的測量,特徵是根據乳房腫塊的細針穿刺(Fine Needle Aspirate, FNA)的數位圖像計算得的,描述了圖像中存在的細胞核的特徵, 所有樣本都被分類為良性或惡性。
方法:
WDBC的每個樣本具有30個特徵,因此分類問題處於極高維空,分類器容易受到非主要特徵干擾。文獻使用遞迴特徵消除(Recersive Feature Elimination, RFE)進行特徵選取,以降低問題維度。此專題使用L1正則化技術,進行特徵選取,並且結合線性鑑別分析(Linear Discriminant Analysis, LDA)進一步選取特徵。
這是屬於一個疾病篩查系統,因此將「惡性」樣本視為正類別(Postive),並且將「召回率(Recall)」這個效能指標最大化,這將會使得精確率以及準確率受到損失,採用邏輯斯迴歸(Logistic Regression)分類器下,並使用下列方法降低精確率以及準確率之損失
SVM L1 正則化:使用支持向量機分類器,並且於損失函數加上權重L1範數,模型訓練過程將會最小化非主要特徵的權重係數,達成特徵選取。
線性鑑別分析:將上述選取後的特徵子集合,再進行線性映射,使得組間變異/組內變異最大。
成果:
WDBC 30個特徵相關性
Logistic Regression (LR) 分類器效能
LR_SVML1_LDA 混淆矩陣(不同閾值)
LR_SVML1_LDA 分類器效能