料科學暨大數據分析與應用學系畢業專題

研究過程

研究過程

1.資料輸入

輸入經過數據清洗的句子

2.特徵提取

使用TF-IDF和Word2Vec

3.分類器

使用隨機森林(Random forest)、支援向量機(SVM)、K近鄰(KNN)、長短期記憶模型(LSTM)、BERT

4.輸出類別

輸出是否為霸凌或有毒的類別

研究方法

我們嘗試了多種機器學習分類器方法，利用TF-IDF(term frequency–inverse document frequency ) 結合支援向量機(Support Vector Machine) 、TF-IDF(term frequency–inverse document frequency )結合隨機森林(random forest)、TF-IDF(term frequency–inverse document frequency )結合KNN( K Nearest Neighbor)，以及基於自然語言模型（如Bert）。

TF-IDF結合RF
TF-IDF結合SVM
TF-IDF結合KNN
Word2Vec結合LSTM
使用BERT神經網路的架構，加上向量的特徵做分類

方法介紹

1.特徵提取(TF-IDF)

TF-IDF的概念最早是1972年由Spock Jones提出，TF-IDF為Term Frequency(詞頻)與Inverted Document Frequency(逆詞頻)相乘，通常表示文本/句子中每個詞的重要程度為何。

2.特徵提取(Word2Vec)

Word2Vec是Google於2013年由Tomas Mikolov等人所提出，通過閱讀大量文本來學習，產生向量空間。

3.ROC曲線

ROC曲線下的面積越大越好，模型的效益越高。

當AUC = 1時，為理想狀況。

當AUC > 0.5時，表示模型有預測價值。

當AUC = 0.5時，表示模型無預測價值。

當AUC < 0.5時，表示分類器分類效果比隨機猜測差。

Page updated

Google Sites

Report abuse