利用博弈論增強生成
對抗網絡對抗詐騙網站攻
利用博弈論增強生成
對抗網絡對抗詐騙網站攻
由於釣魚網址攻擊日益普遍, 本研究旨在開發更高效的偵測方法, 利用博弈論和生成對抗網絡(GAN)的創新結合,提升釣魚網址的識別能力。 架構與方法: 提出一種條件生成對抗網絡(GAN),包括用於產生釣魚網址的生成器和分類惡意/良性網址的鑑別器。引入了兩種非合作、非零和的博弈,一個在模型訓練階段,另一個在部署後。
專題老師 : 孫培真 教授 專題學生 : 林儀恩
系統方法與設計
主要是以GAN架構:生成器用於合成釣魚網址,鑑別器負責分類網址為良性或惡意。接著在博弈論在訓練中的角色:模擬攻擊者(生成器)與防禦者(鑑別器)之間的策略互動。先載入數據並分類清洗過後,使用One-Hot編碼轉換網址為數字表示,並進行交替訓練。
進行了廣泛的超參數調整,使用LS-GAN損失函數和Adam優化器進行訓練。對生成器的性能進行了定量評估,包括與真實釣魚網址的相似性測量。比較了模型與現有最先進架構在釣魚網址分類方面的表現。評估了鑑別器在偵測對抗性範例方面的準確性。
Adeversarial Loss
這裡 D(x,y) 表示鑑別器對真實數據 x 和標籤y 的評分, 而 G(x,ζ,y) 表示生成器使用隨機噪聲 ζ 和條件y 生成的數據。
Classification Loss
其中yi 是真實標籤,而yi’是鑑別器預測的標籤
Reconstruction Loss
這裡G(x,ζ,y) 是生成器生成的數據,而x 是真實數據。該損失函數鼓勵生成器產生的數據在結構上與真實數據相似。
初步成果
1.性能指標:
使用結構相似性指數(SSIM)測試,得分為98.33%,表示生成的對抗性URL在結構上與原始URL非常相似。使用均方誤差(MSE)和歸一化均方誤差(NRMSE)作為量化指標,結果顯示模型能生成與真實URL相似的對抗性URL。
模型比較
1.與其他最新技術如CNN、LSTM相比,該模型在偵測良性和惡意釣魚URL的準確度、靈敏度、精確度、F1分數和AUC方面表現優異。
2.在對抗性範例偵測方面,模型特別有效,能夠準確地識別真實和生成的對抗性URL。
3.這些結果證明了使用生成對抗網絡和博弈論方法在釣魚URL偵測方面的有效性和優越
追加功能
由於單純以URL來作為判斷依據在實際上因設備和時間有限還無法完善,故希望額外透過網站內容如:圖片、文字、價格等相關依據。
爬蟲的途中使用google api進行協調交叉比對搜索,再透過openAI api的協助以判斷文本邏輯進行多重驗證等方式。
使用技術與工具
Python:作為編程語言。
Selenium:用於自動化控制瀏覽器,以獲取動態生成的網頁內容。
ChromeDriver 和 WebDriver Manager:用於自動管理Chrome瀏覽器驅動,以支持Selenium 控制Chrome。
Beautiful Soup:用於解析網頁內容。
OpenAI API:用於分析網頁內容,檢測潛在的網絡釣魚風險。
requests:用於發送 HTTP 請求。
結論與未來展望
本研究通過開發一個結合了博弈論的生成對抗網絡(CGAN)模型,顯著提高了釣魚網址的檢測能力。該模型在準確率、靈敏度、精確度、F1分數以及AUC方面均顯示出顯著的性能優勢。實驗結果表明,相比傳統機器學習方法和深度學習技術,如SVM、隨機森林、CNN和LSTM,本研究提出的方法在對抗性範例的檢測方面尤為有效。這些成果展示了該模型應用於即時網絡安全的潛力,並為未來相關領域的研究指明了方向。
目前的階段在使用上多虧了openAI api 的關係,呈現結果尚能更為直觀。 或該稱為 比起原本所做的純學術研究,能有讓非專科人士也能更好上手的使用這支程式。 使之從單純訓練模型變成具有服務性質。
未來目標是透過以上兩支api長時間的訓練出獨立模型,以支持此程式的獨立運作。畢竟使用api仍是要收費的,若想在此部份上做出一個對社會進行無償貢獻的程式仍有待時間上的開發。