有鑒於目前AI風險的討論繁多,相關分類框架缺乏一致性,MIT等校學者從43個較具代表性的風險分類框架中提取了777個風險,並依據因果分類法 (Causal Taxonomy)及領域分類法 (Domain Taxonomy)來建立「AI風險資料庫」(AI Risk Repository) ,以利各方AI利害關係人如政策擬定者、研究者、技術人員以及企業等可共享及管理AI風險的參考框架。
本文運用了系統性文獻搜尋和專家諮詢,篩選出相關分類框架,並使用「最佳適合框架綜合法」來建立並形成「因果分類法」和「領域分類法」等二大種分類方式。
因果分類法從「實體、意圖、時機」等三大因素來分類風險:
實體:風險是否由人類、AI系統,或其他因素所造成。
意圖:風險是預期結果還是非預期結果。
時機:風險發生在部署前、部署後、或跨越多個階段。
AI風險分為七大類別及23個子領域(Subdomains)
歧視與毒性
(1)不公平歧視與錯誤再現(2)暴露於有害內容 (3)群體間的不平等表現
隱私與安全
(4)隱私洩露 (5)系統安全漏洞與攻擊
錯誤信息
(6)虛假或誤導性資訊 (7)資訊生態污染與共識真實的流失
惡意行為與濫用
(8)大規模虛假宣傳、監控與影響 (9)網絡攻擊、武器開發或使用,以及大規模傷害 (10)詐騙、騙局與目標操縱
人機互動
(11)過度依賴與不安全使用 (12)人類自主性與控制力的喪失
社會經濟與環境
(13)權力集中與利益分配不公 (14)不平等增加與就業質量下降 (15)人類努力的經濟和文化貶值 (16)競爭動態 (17)治理失敗 (18)環境損害
系統安全、失敗與限制
(19)AI追求自我目標並與人類目標或價值觀相悖 (20)AI擁有危險能力 (21)缺乏能力或穩定性 (22)缺乏透明度或可解釋性 (23)AI福利與權利
註9:以ChatGPT 4.0整理這篇文章及網站:Slattery, P., Saeri, A. K., Grundy, E. A., Graham, J., Noetel, M., Uuk, R., Dao, J., Pour S., Casper S. & Thompson, N. (2024). The AI risk repository: A comprehensive meta-review, database, and taxonomy of risks from artificial intelligence. arXiv preprint arXiv:2408.12622.。https://airisk.mit.edu/