Skip to content

The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)

grok-3-latest
Score: 0.76
Published: at 16:06

Summary: 本文提出位置增强微调(PFT)方法,通过操纵位置 ID 增强角色分离信号,有效缓解大型语言模型对任务类型和位置捷径的依赖,同时保持性能。

Keywords: LLM, Role Separation, Position Encoding, Fine-Tuning, Prompt Injection

Authors: Zihao Wang, Yibo Jiang, Jiahao Yu, Heqing Huang

Institution(s): University of Chicago, Northwestern University, ByteDance Inc.

Problem Background

大型语言模型(LLMs)在处理多角色输入(如系统指令、用户查询)时,需要准确区分各角色信息以确保功能性和安全性,这一能力称为角色分离(Role Separation)。 然而,现有研究多关注提示注入攻击(Prompt Injection Attacks)的防御,未深入探讨模型是否真正学会角色区分,还是仅依赖表面捷径(如任务类型关联和靠近文本开头的优先级),这导致模型在面对新型攻击或复杂提示时易失效,存在功能错误和安全隐患。

Method

Experiment

Further Thoughts

增强不变信号(Invariant Signals)的思路可扩展至其他需要明确边界区分的任务,如多轮对话中历史上下文与当前输入的分离,或多模态模型中文本与图像信息的区分;此外,预训练模型对初始 token 的‘注意力沉积’(Attention Sink)现象提示我们,可在预训练阶段引入角色区分信号,而非仅依赖后训练微调,或设计角色特定嵌入和动态位置编码以应对复杂输入结构。