結論
在本研究中,我們採用了不同的實驗方法,分別是TFIDF搭配隨機森林、TFIDF搭配支持向量機(SVM)、TFIDF搭配K最近鄰(KNN)、Word2Vec搭配隨機森林(Random Forest),以及BERT模型。
TFIDF方法利用詞頻進行分析,主要在捕捉詞彙在文本中的重要性,故它無法真正理解詞語的含義,僅僅是根據詞語的出現次數進行分類。相比之下,BERT模型中採用維基百科的權重結合神經網路,能夠更深入地理解句子的意義,因此在分析上能夠更為優異。
基於Google團隊使用機器學習來識別有毒語言,我們還透過機器學習分類器和自然語言模型的方法進行網路霸凌加毒性檢測的評論研究,而在兩種研究中的方法準確率都高達85%。
未來的研究方向可以進一步優化BERT模型,使其在識別有毒評論方面更加準確和高效。此外,擴展研究對於不同語言和文化背景下的網路霸凌檢測,以及應用於不同的社交媒體平台上。這些努力將有助於建立更安全、更友善的線上交流環境,保障用戶的心理健康和個人尊嚴。