Skip to content

DeepCritic: Deliberate Critique with Large Language Models

grok-3-latest
Score: 0.72
Published: at 17:03

Summary: 本文提出 DeepCritic 框架,通过两阶段训练(监督微调与强化学习)显著提升大型语言模型在数学推理任务中的批判能力,为自动化监督和模型自我改进铺平道路。

Keywords: LLM, Critique Model, Mathematical Reasoning, Supervised Fine-Tuning, Reinforcement Learning

Authors: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen

Institution(s): Renmin University of China, Beijing Jiaotong University

Problem Background

随着大型语言模型(LLMs)能力的快速提升,提供准确、有效的反馈和可扩展的监督成为迫切需求。 当前 LLM 批判模型在复杂领域(如数学推理)中生成的反馈过于浅显,缺乏深入分析和批判性思维,导致判断准确性低,无法为生成模型提供有效改进指导,限制了自动化监督的潜力。

Method

Experiment

Further Thoughts

DeepCritic 框架的多视角批判与元批判机制为提升模型自我纠错能力提供了新思路,可扩展至其他复杂推理领域(如代码生成);自动化数据生成(蒙特卡洛采样)减少了对人工标注的依赖,未来可结合更多自动化评估方法进一步降低监督成本;弱强监督的潜力(小模型改进大模型)值得在不同任务上进一步探索其泛化性。