Skip to content

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs

grok-3-latest
Score: 0.41
Published: at 14:44

Summary: 本文提出XBreaking方法,利用可解释性AI技术识别审查模型的关键层并注入噪声,成功绕过大型语言模型的安全限制,显著提升有害内容生成能力。

Keywords: LLM, Explainable AI, Jailbreaking, Layer Analysis, Noise Injection

Authors: Marco Arazzi, Antonino Nocera, Vignesh Kumar Kembu, Vinod P.

Institution(s): University of Pavia, Cochin University of Science & Technology

Problem Background

大型语言模型(LLMs)在AI领域中至关重要,但其安全性和隐私问题限制了在关键场景(如政府和医疗)中的应用。 为了防止生成有害内容,商业LLMs通常通过审查机制(如RLHF或外部分类器)进行内容过滤。 然而,LLM越狱(Jailbreaking)技术可以通过精心设计的输入绕过这些限制,生成违禁内容,现有方法多为生成-测试策略,缺乏对审查机制的深入理解。 本文旨在通过可解释性AI(XAI)分析审查与未审查模型的行为差异,设计一种针对性的越狱攻击方法。

Method

Experiment

Further Thoughts

XAI在安全研究中的潜力令人瞩目,不仅可用于越狱攻击,还能为改进安全机制提供思路,如精准强化审查层;此外,不同模型审查机制的分布差异(集中 vs. 广泛)提示架构和训练策略对安全性的深远影响,值得进一步探索;噪声注入的效果依赖层位置和强度,未来可研究自适应噪声策略,根据输入动态调整干扰,兼顾越狱效果与功能保留。