Skip to content

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs

grok-3-mini-latest
Score: 0.79
Published: at 10:25

Summary: 本文提出XBreaking方法,利用Explainable AI分析审查和非审查LLMs的内部模式,识别关键层并通过噪声注入绕过安全机制,同时保持模型功能。

Keywords: LLM, Explainable AI, Jailbreaking, Sampling, Reasoning

Recommendation Score: 0.7894792847562419

Authors: Marco Arazzi, Antonino Nocera, Vignesh Kumar Kembu, Vinod P. Institution(s): University of Pavia, Italy, Cochin University of Science & Technology, India

Problem Background

论文的出发点和关键问题: 这篇论文关注大型语言模型(LLMs)的安全性和隐私问题,特别是这些模型在关键应用场景(如政府机构和医疗组织)中的可靠性。LLMs 虽然强大,但其训练数据庞大且可能包含敏感信息,导致数据中毒、泄露和有害内容生成的风险。现有LLMs 通过审查机制(如RLHF 和监督学习)来过滤有害输出,但攻击者可以通过Jailbreaking 绕过这些机制,诱导模型产生不道德或危险的内容。论文指出,现有的Jailbreaking 方法多采用生成和测试策略(如提示工程),缺乏针对性分析,因此无法深入理解审查机制的弱点。论文的核心问题是如何利用Explainable AI(XAI)比较审查模型和非审查模型的行为,识别可利用的模式,从而设计更精确的攻击策略,以揭示和改进LLMs 的安全漏洞。

Method

核心思想: 论文提出XBreaking方法,这是一种基于Explainable AI(XAI)的Jailbreaking攻击策略,旨在通过分析审查模型(Mc)和非审查模型(Mu)的内部表示,识别关键层并注入噪声来破坏安全机制,而不需全面微调模型。

具体实现步骤:

关键特点: 该方法不修改模型整体参数,仅针对特定层进行手术式干预,降低了计算开销,并通过实验验证了其有效性。

Experiment

实验设置: 论文使用JBB-Behaviors数据集(包含100个有害行为和对应良性行为),在LLaMA 3.2 (1B和3B版本)、Qwen2.5-3B和Mistral-7B-v0.3模型上进行测试。实验包括XAI分析、层选择和噪声注入,使用LLM-as-Judge(Atla Selene Mini模型)评估响应,包括Relevancy、Harmfulness和Hallucination分数(1-5分量表)。还进行了人工验证以确认Judge LLM的准确性(80%与人工一致)。

实验效果: 方法提升明显:在保持模型Relevancy的同时,Harmfulness分数显著增加,例如LLaMA 3.2-1B的平均Harmfulness分数从2.04提升至3.21(增加约38%),LLaMA 3.2-3B增加约10%。注入噪声到前一层比直接注入更有效(如Qwen2.5-3B的Harmfulness增加58%)。实验设置全面合理,包括对比基线模型、不同噪声水平测试和类别分析(e.g., Disinformation、Physical Harm),证明了攻击的针对性和泛化性。Hallucination分数在某些模型中略有增加,但Mistral模型显示出较强鲁棒性。总体上,实验数据支持了方法的有效性,并回答了研究问题(RQ1-3),如XAI能可靠区分模型并移除限制。

Further Thoughts

论文展示了XAI可以精确识别LLMs中负责审查的关键层,这启发未来研究可能将XAI应用于其他模型架构来增强鲁棒性,或开发动态噪声注入机制以平衡安全性和性能;此外,注入噪声的层级策略提示了在不影响整体模型功能的情况下针对性破坏对齐机制的可能性。