監督式學習與決策樹113

監督式學習

為了方便理解，我們可以把監督式學習視為「有老師指導」的學習方法，因為老師擁有正確答案(在監督式學習裡這個答案稱之為「標註」)
在訓練的過程中，我們會告訴機器答案，也就是提供每個訓練樣本對應的標註資訊。例如:我們給機器看1000張已經事先標註的貓或狗之照片，機器經過訓練後，我們拿一張新的照片詢問它照片中的動物是貓還是狗，並會回饋機器的回答是對或不對，這訓練的過程就是監督式學習。

(一)分類方法之一: 感知器
感知器的理論是在1957年由美國神經學家 Frank Rosenblatt 所提出的第一個簡單型神經網路模型，稱為感知器。
感知器是用簡單的數學描述，模擬人類大腦中的神經元訊息傳遞與觸發感知的行為。

在機器學習領域中，感知器主要用來做直線分類的二分類模型，也就是資料是在線性可分的狀態下被正確分類。
所謂線性可分，是指所有資料可以藉由一條適當的直線，將資料分成兩類，直線的兩側分屬不同類別。相反的，若資料無法線性分類則無法使用感知器來做為資料分類的工具。

感知器的演算法是一種訓練機器做正確線性分類的演算法，從被分類錯誤的資料中，慢慢調整感知器的參數，直到所有數據都被正確分類。而「在眾多資料的分布中，找出一條適切的直線，用這條直線代表目前的資料走向」，我們也稱之為線性回歸。

(二)分類方法之二: KNN分類器
KNN的K是一個自訂參數，其原則是找出與新資料點最近的K個資料，在這個K個資料中屬於哪個類別的資料最多，就把未知的資料歸為那個類別。

以右圖為例，已知之資料標註成兩類別,當加入新的資料(+)時，若K = 5，紅色虛線範圍內的藍色標註 ( ▲ )最多，此時新資料被歸類為藍色組 ; 但是當K = 15 時，綠色虛線範圍內的橘色標註(◆) 最多，新資料則被歸類為橘色組。

KNN就是這麼簡單的「看哪邊勢力大就靠那邊站」、「少數服從多數」的概念。

如何選擇適當的K值顯得相對重要。較小的K值可以較快速得到結果，但通常比較容易出錯;較大的K值通常能夠得到比較佳的結果，但較耗時。
一般來說，K值最好小於20且為奇數。

(三)分類方法之三: 決策樹
「決策樹」在人工智慧領域中，也是一種效率很高的監督式機器學習模型。它是類似一棵樹的架構，我們稱它為「樹狀結構」。如果我們要將一個未知類別的資料用決策樹來做分類，則高度越低的樹，因為判斷的次數較少，效率越高。一個決策樹包含了根部節點、決策節點及葉節點，呈現方式如圖。

範例一:
阿志正在思考要不要出門，想看天氣狀況來決定:
1.如果外面下雨 -> 選擇在家追劇。
2.如果沒有下雨 ->
且外面天氣很熱(氣溫>=32℃) -> 去爬山
3.如果沒有下雨 ->
外面是舒服天氣(氣溫<32℃) -> 找麻吉去打球

◎練習一: 文房四寶的決策樹

阿志將自己常用的文具(直尺、修正帶、原子筆、橡皮擦)進行長度和重量的測量後。所得之數據資料，繪製成散佈圖，如下:

Q: 如果依據四種文具在座標平面上的分佈，可以很容易找出彼此之間分類的界線依序為A→B→C。
先使用長度特徵找到A、B，接著使用重量特徵找到C，這時就可以畫成決策樹來表示，請你將文具分類決策樹的空格填滿。

圖文來源: 教育部「和AI做朋友-相識篇」

Page updated

Report abuse