Tag: Jailbreaking
All the papers with the tag "Jailbreaking".
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-mini-latestScore: 0.79Published: at 10:25本文提出XBreaking方法,利用Explainable AI分析审查和非审查LLMs的内部模式,识别关键层并通过噪声注入绕过安全机制,同时保持模型功能。
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-latestScore: 0.41Published: at 14:44本文提出XBreaking方法,利用可解释性AI技术识别审查模型的关键层并注入噪声,成功绕过大型语言模型的安全限制,显著提升有害内容生成能力。