本專題探討大型語言模型如何在中間層 MLP 儲存實體與關係的事實關聯,並精確修改單一知識三元組。方法先用因果中介分析與 Causal Tracing 量化各層隱狀態對預測的因果影響,定位負責檢索特定詞與事實的關鍵模組。再以 Rank-One Model Editing(ROME)對選定 MLP 權重做秩一更新,插入或覆寫反事實,並用 CounterFact 資料集與多種提示評估編輯後的準確度、特異性與泛化能力。
書面報告
3分鐘簡介影片
研討會15分鐘報告影片