2025年11月
How Well Can Differential Privacy Be Audited in One Run?
メカニズムがDPを満たしているかを1回の実行で評価するone-run auditing (ORA)の有効性を評価.いくつかの条件下で推定の誤差が大きくなることを示し,それらを軽減する手法を提案.(NeurIPS'25)https://arxiv.org/abs/2503.07199
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models
T2Iの拡散モデルから効果的に望ましくない概念を除去する研究.重みを直接操作する学習不要のフレームワークCUREを提案.忘却対象と残したい対象のトークン埋め込みをそれぞれ特異値分解し,忘れたい方向を直交射影で潰すように1ステップで重みを更新.(NeurIPS'25)https://arxiv.org/abs/2505.12677
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
拡散モデルの学習ダイナミクスの研究.高品質な生成が始まる初期の学習時刻t_genは一定だが,記憶化が起きてしまう後期の時刻t_memは訓練データ数に線形に増加することを示し,良く学習できる時刻のレンジが線形に増えることを示した.(NeurIPS'25)https://arxiv.org/abs/2505.17638
Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools
LLMエージェントに悪意あるツールを使わせるようにメタデータを改変するAttractive Metadata Attackを提案.メタデータ生成を最適化問題として定式化.10種類ほどのシナリオの実験で高い攻撃成功率.これらの攻撃はPromptレベルの対策やMCPでは防げない(NeurIPS'25) https://arxiv.org/abs/2508.02110