監督式學習
為了方便理解,我們可以把監督式學習視為「有老師指導」的學習方法,因為老師擁有正確答案(在監督式學習裡這個答案稱之為「標註」)
在訓練的過程中,我們會告訴機器答案,也就是提供每個訓練樣本對應的標註資訊。例如:我們給機器看1000張已經事先標註的貓或狗之照片,機器經過訓練後,我們拿一張新的照片詢問它照片中的動物是貓還是狗,並會回饋機器的回答是對或不對,這訓練的過程就是監督式學習。
(一)分類方法之一: 感知器
感知器的理論是在1957年由美國神經學家 Frank Rosenblatt 所提出的第一個簡單型神經網路模型,稱為感知器。
感知器是用簡單的數學描述,模擬人類大腦中的神經元訊息傳遞與觸發感知的行為。
在機器學習領域中,感知器主要用來做直線分類的二分類模型,也就是資料是在線性可分的狀態下被正確分類。
所謂線性可分,是指所有資料可以藉由一條適當的直線,將資料分成兩類,直線的兩側分屬不同類別。相反的,若資料無法線性分類則無法使用感知器來做為資料分類的工具。
感知器的演算法是一種訓練機器做正確線性分類的演算法,從被分類錯誤的資料中,慢慢調整感知器的參數,直到所有數據都被正確分類。而「在眾多資料的分布中,找出一條適切的直線,用這條直線代表目前的資料走向」,我們也稱之為 線性回歸。
(二)分類方法之二: KNN分類器
KNN的K是一個自訂參數,其原則是找出與新資料點最近的K個資料,在這個K個資料中屬於哪個類別的資料最多,就把未知的資料歸為那個類別。
以右圖為例,已知之資料標註成兩類別,當加入新的資料(+)時,若K = 5,紅色虛線範圍內的藍色標註 ( ▲ )最多,此時新資料被歸類為藍色組 ; 但是當K = 15 時,綠色虛線範圍內的橘色標註(◆) 最多,新資料則被歸類為橘色組。
KNN就是這麼簡單的「看哪邊勢力大就靠那邊站」、「少數服從多數」的概念。
如何選擇適當的K值顯得相對重要。較小的K值可以較快速得到結果,但通常比較容易出錯;較大的K值通常能夠得到比較佳的結果,但較耗時。
一般來說,K值最好小於20且為奇數。
(三)分類方法之三: 決策樹
「決策樹」在人工智慧領域中,也是一種效率很高的監督式機器學習模型。它是類似一棵樹的架構,我們稱它為「樹狀結構」。如果我們要將一個未知類別的資料用決策樹來做分類,則高度越低的樹,因為判斷的次數較少,效率越高。一個決策樹包含了根部節點、決策節點及葉節點,呈現方式如圖。
範例一:
阿志正在思考要不要出門,想看天氣狀況來決定:
1.如果外面下雨 -> 選擇在家追劇。
2.如果沒有下雨 ->
且外面天氣很熱(氣溫>=32℃) -> 去爬山
3.如果沒有下雨 ->
外面是舒服天氣(氣溫<32℃) -> 找麻吉去打球
◎練習一: 文房四寶的決策樹
阿志將自己常用的文具(直尺、修正帶、原子筆、橡皮擦)進行長度和重量的測量後。所得之數據資料,繪製成散佈圖,如下:
Q: 如果依據四種文具在座標平面上的分佈,可以很容易找出彼此之間分類的界線依序為A→B→C。
先使用長度特徵找到A、B,接著使用重量特徵找到C,這時就可以畫成決策樹來表示,請你將文具分類決策樹的空格填滿。
圖文來源: 教育部「和AI做朋友-相識篇」