Daily Paper Machine

Tag: Safety Alignment

All the papers with the tag "Safety Alignment".

Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization
grok-3-latest
Score: 0.66
Published:2025年5月7日 at 17:18
#LLM, #Reinforcement Learning, #Safety Alignment, #Reward Design, #Fine-Tuning
本文提出Reward Neutralization框架，通过训练模型生成最小信息拒绝来中和恶意RL微调的奖励信号，显著提升开源模型在攻击下的安全性。