2024年6月
Low-Cost High-Power Membership Inference Attacks
ロバストなメンバーシップ推論攻撃を低計算オーバヘッドで実行するための新しい統計的検定を提案.帰無仮説の細やかな設定と参照モデルや参照データの効果的な活用がポイント.参照モデルを1つしか使えないという計算制約の下では,既存の攻撃より高い性能を確認できた.https://arxiv.org/abs/2312.03262
Proving membership in LLM pretraining data via data watermarks
自身の著作物がLLMに使われてるか検出するためのデータ透かし.ランダム列の挿入とUnicodeで似たものに置き換える2つを提案.透かしの長さ,重複度,干渉の検出力への影響を調査.データセットを大きくすると透かし強度は低下したが,モデルも大きくすると強度は維持された.https://arxiv.org/abs/2402.10892
2024年4月
How to Craft Backdoors with Unlabeled Data Alone?
自己教師あり学習(SSL)に対するuntarget型のBackdoor攻撃,no-label backdoorsを提案.ラベル無しデータだけにアクセスできるという設定.クラスタリングベースと相互情報量ベースの2種類の戦略で汚染データを作成.これで事前学習したモデルの下流モデルもBackdoorを持つ.https://arxiv.org/abs/2404.06694
2024年3月
Stealing Part of a Production Language Model
言語モデルをクエリAPIのみ利用できる際,最終層の埋め込み射影行列を復元する攻撃の提案.ランダムに投げたクエリ結果で作った行列を特異値分解し,ソートされた特異値比が一番大きくなる番目が隠れ層の次元になっていることを確認.それに基づいて行列自体も復元.https://arxiv.org/abs/2403.06634
Visual Privacy Auditing with Diffusion Models
拡散モデルを用いた画像データの再構成攻撃を提案.勾配へのノイズはデータへのノイズと等価として,データにかけたノイズを拡散モデルでdenoisingする.攻撃者がデータの事前分布を持っている場合は強力になることを実証.https://arxiv.org/abs/2403.07588
Differentially Private Neural Tangent Kernels for Privacy-Preserving Data Generation
neural tangent kernelを用いた差分プライベートな合成データ生成手法の提案.画像や表形式データを用いた実験では既存手法より品質の高いデータが生成された.https://arxiv.org/abs/2303.01687
2024年2月
Machine Unlearning of Pre-trained Large Language Models
LLMの事前学習モデルに対するUnlearningの包括的な調査.7種類のUnlearning手法を,3つのデータセットに対して実験.実験効率を向上のため,メンバーシップ推論の汎化ギャップに注目して,忘却集合と同分布の未経験データを用いるapproximate retrainingという手法を提案.https://arxiv.org/abs/2402.15159
PANORAMIA: Privacy Auditing of Machine Learning Models without Retraining
大規模MLモデルのプライバシーリスクをmembership推論で評価するPANORAMIAを提案.memberサンプルで学習した生成モデルが吐くデータを,non-memberサンプルとみなすことで,訓練データのみでの監査を可能とした.DP化などの学習過程の制約や監査のための再学習の必要がない.https://arxiv.org/abs/2402.09477
How Does a Deep Learning Model Architecture Impact Its Privacy? A Comprehensive Study of Privacy Attacks on CNNs and Transformers
深層学習のモデルアーキテクチャがプライバシー漏洩に与える影響を広範的に調査.一般的にTransformerはCNNよりもプライバシー攻撃に対して脆弱であると実証.CNNが比較的強い要因となった,micro designを特定し,一方で,注意機構などがTransformerを弱くしていると主張.https://arxiv.org/abs/2210.11049
2024年1月
Does Few-shot Learning Suffer from Backdoor Attacks?
Few-shot学習に対するBackdoor攻撃.学習データが少ないため,精度の影響が出やすく,また,開発者に画像の目視でばれるなどの可能性がある.少数でも効果の強いtriggerを作ることで精度への影響を減らしつつ,それと反応するステルス性の高いノイズでPoisoningを行う.https://arxiv.org/abs/2401.01377