Tag: Layer Analysis
All the papers with the tag "Layer Analysis".
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-latestScore: 0.41Published: at 14:44本文提出XBreaking方法,利用可解释性AI技术识别审查模型的关键层并注入噪声,成功绕过大型语言模型的安全限制,显著提升有害内容生成能力。