论文: Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models
作者: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He (香港科技大学(广州校区),蚂蚁集团)
发表日期: 2025年4月18日 (arXiv)
问题背景
大型推理模型(LRMs)通过生成逐步的链式思维(CoT)在复杂任务中表现出色。然而,它们常因"过度思考"生成冗余推理步骤,导致计算成本增加而性能提升有限。现有的解决方案,如微调,需要额外数据,可能导致安全对齐问题,且泛化能力差。
提出方法:ThoughtMani
- 核心思想: 利用小模型生成高层次 CoT,插入到 LRM 输入中引导推理,减少冗余步骤,无需训练。
- 如何实现:
- 小模型(如 Qwen-2.5-7B-Instruct)生成简洁的 CoT,置于
<think>
和</think>
标记之间,仅包含关键推理步骤,不含计算细节。 - 将 CoT 附加到 LRM 的推理模板中,使 LRM(如 QwQ-32B)跳过不必要的中间推理。
<STOP>
机制确保小模型在复杂问题上放弃生成 CoT,让 LRM 直接处理,避免误导。
- 小模型(如 Qwen-2.5-7B-Instruct)生成简洁的 CoT,置于
- 关键: ThoughtMani 无需训练,利用 LRM 基于外部 CoT 动态调整推理的能力,并通过安全对齐的小模型提升安全性。
实验结果
- 有效性: 在 GSM8K 和 MATH-500 等数据集上,ThoughtMani 对 RL-based LRM(如 QwQ-32B)减少 1%-37% 的 token 量,性能损失仅 0.8%-7.2%;对蒸馏模型减少高达 86%,但损失较大(4.5%-20.4%)。
- 优越性: 相比微调(TokenSkip、CoT-Valve)或提示压缩等基线,ThoughtMani 效率更高,安全性提升 10%,而微调方法安全性下降 7%。
- 开销: 极低,小模型每次 CoT 生成仅需 7-209 个 token,远少于 LRM 节省的数千 token。