Skip to content

FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models

grok-3-latest
Score: 0.55
Published: at 15:37

Summary: 本文提出 FormalMATH,一个包含 5560 个形式化数学问题的 Lean4 基准测试,通过高效的‘人在回路中’自动化形式化流程构建,并揭示了当前大型语言模型在形式化推理中的显著局限性。

Keywords: LLM, Formal Reasoning, Benchmarking, Autoformalization, Test Time Scaling

Authors: Zhouliang Yu, Ruotian Peng, Keyi Ding, Yizhe Li, Zhongyuan Peng, Minghao Liu, Yifan Zhang, Zheng Yuan, Huajian Xin, Wenhao Huang, Yandong Wen, Ge Zhang, Weiyang Liu

Institution(s): The Chinese University of Hong Kong, Numina, Westlake University, M-A-P, 2077AI, University of California, Los Angeles, Max Planck Institute for Intelligent Systems, Tübingen

Problem Background

形式化数学推理(Formal Mathematical Reasoning, FMR)是人工智能领域的重要挑战,但现有基准测试在范围、规模和性能饱和方面存在局限,难以全面评估大型语言模型(LLMs)在多样化数学领域和难度级别上的推理能力。 论文旨在解决如何构建一个更大规模、更全面的基准测试,以揭示当前模型在形式化推理中的局限性,并推动更通用、更强大的 FMR 系统发展。

Method

Experiment

Further Thoughts

论文中‘人在回路中’的自动化形式化流程启发了我,这种多 LLM 协作与自动化验证结合的方式可以推广到其他高精度形式化任务(如法律文本或编程规范);此外,领域偏见问题提示未来模型训练需更均衡的数据分布或领域自适应技术;CoT 的反直觉结果(自然语言指导降低性能)则启发我们设计更贴近形式化逻辑的推理引导策略,而非依赖直观描述;我还认为可以探索利用形式化推理中间状态(如子目标)作为反馈信号,以提升模型学习效率。