Skip to content

Rethinking Invariance in In-context Learning

grok-3-latest
Score: 0.66
Published: at 06:59

Summary: 本文提出 Invariant In-Context Learning (InvICL) 算法,通过设计不变性注意力掩码和两阶段编码策略,实现上下文学习对顺序的不变性,同时确保信息不泄露和上下文相互依赖,显著提升性能和泛化能力。

Keywords: LLM, In-Context Learning, Permutation Invariance, Attention Mask, Generalization

Authors: Lizhe Fang, Yifei Wang, Khashayar Gatmiry, Lei Fang, Yisen Wang

Institution(s): Peking University, MIT CSAIL

Problem Background

上下文学习(In-Context Learning, ICL)是大型语言模型(LLMs)的一项关键能力,允许模型通过上下文示例快速适应新任务而无需参数调整。然而,ICL 对上下文示例的顺序表现出显著的敏感性(order sensitivity),尽管示例理论上独立,顺序变化却可能导致预测结果大幅波动(如 SST-2 数据集准确率从 90% 降至 50%),这违背了数据对称性(data symmetry),影响学习和泛化能力。本文旨在解决这一问题,设计一种对顺序不变(permutation invariant)的 ICL 算法,同时保持高性能。

Method

Experiment

Further Thoughts

论文强调尊重数据对称性(data symmetry)可以显著提升模型泛化能力,这启发我们可以在其他机器学习任务中探索类似对称性约束,例如图像处理中的旋转不变性或时间序列中的顺序无关性;此外,InvICL 通过调整注意力掩码实现特定属性的思路,可推广到其他 Transformer 架构设计中,如多模态学习中的跨模态交互掩码设计;最后,其并行实现方式(输入重复和自定义掩码)为高效处理复杂依赖关系提供了新思路,可能对长序列处理等 NLP 任务有借鉴意义。