單純貝氏分類器 (Naïve Bayes Classifier)
單純貝氏分類器是一種基於機率論的監督式學習方法,通常用於分類文章、垃圾郵件過濾等分類,其假設所有特徵之間是相互獨立的,也就是說每個特徵對於結果的影響是相互獨立的。這種假設使得單純貝氏分類器具有計算簡單、效率高的優點。它基於Bayes定理,通過計算每個類別下每個特徵出現的機率,來判斷輸入數據屬於哪一類別。具體來說,對於一個新的樣本,單純貝氏分類器會先估計每個特徵在每個類別下的條件機率,然後應用貝氏定理計算屬於每個類別的後驗機率,最後選擇擁有最大後驗機率的類別作為預測結果。
貝氏定理:
貝氏定理是關於隨機事件A和B事件的定理,在一個已知B事件會發生下,計算A事件發生的機率。
P(A│B)為已知B發生後,A的機率,也稱為A的事後機率。P(A)是A事件的事前機率。P(B│A)為已知A事件發生後,B發生的機率,也稱為B的事後機率。P(B)是B事件的事前機率。
在某個假設下,我們看到資料的機率 P(資料|假設) ,稱為可能性(likelihood)
P(假設)及P(資料)則為先驗機率(prior probability)
以骰骰子為例,已知我們骰到偶數 P(假設|資料) ,而這個偶數是數字2的機率有多少 P(假設|資料)
機器學習當中,假設會有好幾個,以鳶尾花為例子,資料就是我們的特徵(花萼、花瓣的長度及寬度),在假設的部分,就是分成三種類型的鳶尾花(0、1、2),只要將三種類型都算過一遍,之後判定給機率最大的即可。
邏輯迴歸(logistic regression)
邏輯迴歸是一種機器學習模型,旨在將資料集進行二元分類。它通過找到一條直線來區分兩個類別,並通過訓練過程中得到的參數來計算每個數據點屬於每個類別的機率。這種機率可以被解釋為後驗機率或後驗機率分佈,並通過調整模型的參數來提高模型的分類能力。最終,邏輯迴歸模型能夠將新的數據分類到相應的類別中。
支持向量機(Support Vector Machine , SVM)
深度學習是機器學習的一個分支,它利用新穎的方法,從大量的數據中學習到有效的特徵表示,強調使用多層神經網路進行連續的學習,以更好地理解和解釋數據中的模式和關係。通過深度學習,電腦可以自動學習和改進,從而實現各種任務,如圖像識別、語音辨識、自然語言處理等。
神經網路通過一系列的層次轉換,將原始的數字影像逐步轉換成更高層次的抽象特徵表示。每一層都可以看作是一個資訊的過濾器,提取出對於該層次重要的特徵。通過多層的堆疊,逐步提取出越來越抽象的特徵,最終得到的表示法是對原始數字影像的高度精煉(purified)的結果。這種多階段的資訊萃取方式就是深度學習的核心思想之一。
每個神經網路的層(layer)可以視為一個資料轉換器,其轉換方式依賴於該層所擁有的權重參數(parameters)。權重參數是由多個數字組成的向量或矩陣,它們與輸入數據進行矩陣運算,從而產生新的輸出特徵表示。因此,神經網路的學習過程就是為每個層次找到最佳權重值的過程,這樣神經網絡才能夠進行有效的資訊轉換,並在訓練過程中逐漸改進其表現。
為了控制神經網路的輸出,需要評估該輸出與標準答案的差異程度。這個評估過程由神經網路的損失函數(目標函數或成本函數)負責執行。損失函數接收神經網路的預測結果和標準答案,計算出兩者之間的損失分數,這可讓我們知道神經網路在學習中的表現好壞。
深度學習使用損失分數作為回饋訊號,透過優化器(optimizer)來微調各層的權重,以降低每次學習的損失分數。這個微調的過程是透過反向傳播(Backpropagation)演算法來實現的。該演算法透過將損失分數倒傳回到神經網路的每一層,計算該層權重對損失分數的貢獻,進而調整權重,以使神經網路能夠更準確地預測目標輸出。
神經網路在訓練開始時權重值是隨機設置的,這會導致神經網路輸出與標準答案相差甚遠,並且損失函數也相對較高。透過多次迭代(iteration,訓練與回饋的過程),神經網路會逐步調整權重值,使損失函數逐漸降低,最終得出的權重值可以使神經網路的輸出與標準答案最接近。