Daily Paper Machine

Tag: Jailbreaking

All the papers with the tag "Jailbreaking".

XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-mini-latest
Score: 0.79
Published:2025年5月1日 at 10:25
#LLM, #Explainable AI, #Jailbreaking, #Sampling, #Reasoning
本文提出XBreaking方法，利用Explainable AI分析审查和非审查LLMs的内部模式，识别关键层并通过噪声注入绕过安全机制，同时保持模型功能。
XBreaking: Explainable Artificial Intelligence for Jailbreaking LLMs
grok-3-latest
Score: 0.41
Published:2025年4月30日 at 14:44
#LLM, #Explainable AI, #Jailbreaking, #Layer Analysis, #Noise Injection
本文提出XBreaking方法，利用可解释性AI技术识别审查模型的关键层并注入噪声，成功绕过大型语言模型的安全限制，显著提升有害内容生成能力。