研究過程
研究過程
1.資料輸入
輸入經過數據清洗的句子
2.特徵提取
使用TF-IDF和Word2Vec
3.分類器
使用隨機森林(Random forest)、支援向量機(SVM)、K近鄰(KNN)、長短期記憶模型(LSTM)、BERT
4.輸出類別
輸出是否為霸凌或有毒的類別
研究方法
我們嘗試了多種機器學習分類器方法,利用TF-IDF(term frequency–inverse document frequency ) 結合支援向量機(Support Vector Machine) 、TF-IDF(term frequency–inverse document frequency )結合隨機森林(random forest)、TF-IDF(term frequency–inverse document frequency )結合KNN( K Nearest Neighbor),以及基於自然語言模型(如Bert)。
TF-IDF結合RF
TF-IDF結合SVM
TF-IDF結合KNN
Word2Vec結合LSTM
使用BERT神經網路的架構,加上向量的特徵做分類
方法介紹
1.特徵提取(TF-IDF)
TF-IDF的概念最早是1972年由Spock Jones提出,TF-IDF為Term Frequency(詞頻)與Inverted Document Frequency(逆詞頻)相乘,通常表示文本/句子中每個詞的重要程度為何。
2.特徵提取(Word2Vec)
Word2Vec是Google於2013年由Tomas Mikolov等人所提出,通過閱讀大量文本來學習,產生向量空間。
3.ROC曲線
ROC曲線下的面積越大越好,模型的效益越高。
當AUC = 1時,為理想狀況。
當AUC > 0.5時,表示模型有預測價值。
當AUC = 0.5時,表示模型無預測價值。
當AUC < 0.5時,表示分類器分類效果比隨機猜測差。