Skip to content

Phi-4-reasoning Technical Report

grok-3-latest
Score: 0.73
Published: at 05:05

Summary: 本文通过监督微调和强化学习,基于 14B 参数的 Phi-4 模型开发出 Phi-4-reasoning 和 Phi-4-reasoning-plus,显著提升复杂推理任务性能并展现出与更大规模模型的竞争力。

Keywords: LLM, Reasoning, Supervised Fine-Tuning, Reinforcement Learning, Inference Scaling

Authors: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng

Institution(s): Microsoft

Problem Background

大型语言模型(LLMs)在复杂推理任务(如数学、科学、编码)中需要更多的推理时计算(inference-time compute)来提升性能,而小型模型由于资源限制往往表现不足。 本文旨在通过监督微调(SFT)和强化学习(RL),基于 14B 参数的 Phi-4 模型,开发出在推理任务上具有竞争力的 Phi-4-reasoning 和 Phi-4-reasoning-plus,解决小型模型在推理能力上的关键瓶颈,同时探索推理技能对通用任务的泛化影响。

Method

Experiment

Further Thoughts

论文通过筛选‘可教’提示和高质量合成数据,证明小型模型可以通过数据策略达到大模型性能,这启发我思考如何在多语言或低资源任务中应用类似筛选策略;此外,推理时计算的动态分配(如 best-of-N 策略)显著提升性能,是否可以通过自适应策略根据任务难度动态调整计算资源?最后,RL 仅针对数学训练却对其他推理任务有提升,是否可以通过多任务 RL 或元学习进一步增强跨领域泛化能力?