Summary: 本文系统分析了 Contrastive Activation Engineering (CAE) 的模式与机制,发现其在分布内有效但分布外泛化不足,且对模型困惑度有负面影响,为实际应用提供了重要参考。
Keywords: LLM, Activation Engineering, Steering Vector, Inference Time Control, Generalization
Authors: Yixiong Hao, Ayush Panda, Stepan Shabalin, Sheikh Abdur Raheem Ali
Institution(s): Georgia Institute of Technology, Independent
Problem Background
大型语言模型(LLMs)由于其复杂性和不透明性,行为控制是一个重大挑战。 传统的微调方法虽然能调整模型行为,但计算成本高昂。 Contrastive Activation Engineering (CAE) 作为一种新兴技术,通过在推理时直接修改模型内部表示来引导输出,具有零成本和灵活性的潜力。 本文旨在分析 CAE 在分布内和分布外场景下的性能,评估其局限性,并为实际部署提供指导。
Method
- 核心思想: CAE 通过计算正向(desired)和负向(undesired)输入在模型隐藏状态中的差异,生成一个引导向量(steering vector),在推理时将其注入模型的残差激活中,以调整输出行为。
- 具体实现:
- 使用正向和负向输入数据集(如 Anthropic 的 Model Written Evaluations 数据集,MWE),在模型的特定层计算两类输入的隐藏状态均值差异,形成引导向量。
- 在推理时,将引导向量按比例(通过系数 α 控制强度)加到模型的残差激活上,影响模型生成过程。
- 对比了两种方法:Contrastive Activation Addition (CAA),基于大量正负样本生成引导向量;ActAdd,基于单一高层次描述对生成引导向量。
- 优势与特点: 该方法无需重新训练模型,仅在推理时操作,计算成本低。
- 关注点: 引导向量是否能泛化到未见分布,以及对模型整体性能的影响。
Experiment
- 分布内效果: 在 MWE 数据集上,CAE 表现有效,尤其在模型早期到中期层(如 Llama 8B 的第 15 层,Llama 70B 的第 29 层)效果最佳;引导强度在一定范围内有效,超过阈值后输出退化为无意义内容;样本数量超过 100 个后收益递减。
- 分布外效果: 在合成数据集(包括选择型和开放式问题)上,CAE 泛化能力不足,几乎无法有效引导模型行为,限制了实际应用。
- 困惑度影响: 引导向量普遍增加模型困惑度,对整体性能有负面影响,但较大模型(如 Llama 70B)对退化抵抗力更强。
- 对抗性输入: 通过进化提示优化(EPO)生成对抗性输入,可逆转引导向量行为,但这些输入交叉熵较高,不太可能自然出现。
- 实验设置: 覆盖多个模型、引导强度、层位置和样本数量,设置全面,但分布外数据集为合成,未基于真实用户查询,可能影响结论的实际意义。
Further Thoughts
CAE 作为推理时行为调整工具的潜力令人关注,若能解决分布外泛化问题,可能成为灵活的任务特定控制方法。 是否可以通过多分布数据生成引导向量,或利用元学习技术提升泛化能力? 此外,较大模型对引导退化的抵抗力更强,提示未来可探索模型规模与 CAE 效果的关系,或许在超大规模模型上负面影响会进一步减小。