Skip to content

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

grok-3-latest
Score: 0.57
Published: at 16:57

Summary: 本文提出了一种基于子目标分解和强化学习的训练框架,显著提升了大型语言模型在形式化定理证明中的性能,并在多个基准数据集上取得了最先进的成果。

Keywords: LLM, Formal Proof, Subgoal Decomposition, Reinforcement Learning, Reasoning

Authors: Z.Z. Ren, Zhihong Shao, Junxiao Song, Huajian Xin, Haocheng Wang, Wanjia Zhao, Liyue Zhang, Zhe Fu, Qihao Zhu, Dejian Yang, Z.F. Wu, Zhibin Gou, Shirong Ma, Hongxuan Tang, Yuxuan Liu, Wenjun Gao, Daya Guo, Chong Ruan

Institution(s): DeepSeek-AI

Problem Background

大型语言模型(LLMs)在自然语言推理中表现出色,但由于缺乏形式化系统的严谨性,难以直接应用于形式化定理证明(如 Lean 4)。 论文旨在弥合自然语言推理与形式化证明之间的差距,解决如何利用 LLMs 的推理能力高效生成可验证的形式化证明这一关键问题。

Method

Experiment

Further Thoughts

子目标分解与强化学习的结合为解决复杂问题提供了新思路,可推广至代码生成或逻辑推理等领域;自然语言与形式化推理的统一提示我们可以在其他任务中尝试将非结构化知识与结构化系统结合;课程学习的应用表明逐步增加任务难度可能对训练任务导向的 AI 系统具有普遍意义。