本專題旨在透過實作深入探索大型語言模型(LLM)的內部機制,特別是其「拒絕行為」的成因。為理解 LLM 如何處理有害輸入,本研究將載入一個開源模型gemma-2b-it,並建立「有害」與「無害」的對照資料集。核心方法是擷取模型在不同層級的激活向量,藉由計算兩組提示的平均激活差異,來分離出「拒絕方向」(refusal direction)。接著,本專題將採用「激活消融」(Activation Ablation)技術,逐層干預模型的運算過程,並定義「拒絕率」作為評估指標,以量化比較各層對最終拒絕決策的貢獻,最終將結果可視化。
書面報告
3分鐘簡介影片
研討會15分鐘報告影片