研究過程

研究過程

1.資料輸入

輸入經過數據清洗的句子

2.特徵提取

使用TF-IDF和Word2Vec

3.分類器

使用隨機森林(Random forest)、支援向量機(SVM)、K近鄰(KNN)、長短期記憶模型(LSTM)、BERT

4.輸出類別

輸出是否為霸凌或有毒的類別

研究方法

我們嘗試了多種機器學習分類器方法,利用TF-IDF(term frequency–inverse document frequency ) 結合支援向量機(Support Vector Machine) 、TF-IDF(term frequency–inverse document frequency )結合隨機森林(random forest)、TF-IDF(term frequency–inverse document frequency )結合KNN( K Nearest Neighbor),以及基於自然語言模型(如Bert)。 

方法介紹

1.特徵提取(TF-IDF)

TF-IDF的概念最早是1972年由Spock Jones提出,TF-IDF為Term Frequency(詞頻)與Inverted Document Frequency(逆詞頻)相乘,通常表示文本/句子中每個詞的重要程度為何

2.特徵提取(Word2Vec)

Word2VecGoogle2013年由Tomas Mikolov等人所提出,通過閱讀大量文本來學習,產生向量空間。

3.ROC曲線

ROC曲線下的面積越大越好,模型的效益越高。

當AUC = 1時,為理想狀況。

當AUC > 0.5時,表示模型有預測價值。

當AUC = 0.5時,表示模型無預測價值。

當AUC < 0.5時,表示分類器分類效果比隨機猜測差。