Skip to content

Automatic Calibration for Membership Inference Attack on Large Language Models

grok-3-latest
Score: 0.58
Published: at 10:15

Summary: 本文提出自动校准成员推断攻击(ACMIA)框架,通过温度调整校准大型语言模型输出概率,显著提高成员推断精度并降低假阳性率,无需外部参考模型。

Keywords: LLM, Membership Inference, Privacy Attack, Probability Calibration, Model Security

Authors: Saleh Zare Zade, Yao Qiang, Xiangyu Zhou, Hui Zhu, Mohammad Amin Roshani, Prashant Khanduri, Dongxiao Zhu

Institution(s): Wayne State University, Oakland University

Problem Background

大型语言模型(LLMs)在预训练过程中会记住训练数据,带来隐私泄露、版权侵犯和评估数据污染等伦理与安全问题。 成员推断攻击(MIA)旨在判断特定文本是否为训练数据的一部分,但现有方法在LLMs上常将非成员误判为成员(高假阳性率),或依赖额外参考模型进行校准,限制了实用性。

Method

Experiment

Further Thoughts

ACMIA的温度调整机制不仅适用于成员推断攻击,还可能扩展到其他概率分布分析任务,如对抗攻击或模型蒸馏中的概率校准;此外,其作为红队工具的潜力启发我们结合差分隐私或机器遗忘技术,开发更安全的LLM训练流程,是否可以通过温度调整揭示模型记忆行为的深层模式?