Skip to content

Crosslingual Reasoning through Test-Time Scaling

grok-3-latest
Score: 0.89
Published: at 16:50

Summary: 本文通过测试时计算扩展,揭示了英语中心推理模型在多语言数学推理中的潜力,并分析了语言混合模式和跨领域泛化的局限,为多语言推理研究提供了重要基准。

Keywords: LLM, Reasoning, Test Time Scaling, Multilingual, Chain of Thought

Authors: Zheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji

Institution(s): Brown University, MBZUAI, Stanford University, University of Tübingen, Capital One, Cohere Labs

Problem Background

大型语言模型(LLMs)在推理能力上的研究主要集中于英语环境,而多语言预训练模型在英语推理微调后,其跨语言推理能力的泛化性尚未被充分探索。 论文旨在解决如何通过测试时计算扩展(Test-Time Scaling)提升英语中心推理语言模型(RLMs)在多语言任务中的表现,分析语言混合行为、语言强制策略的效果,以及跨领域推理能力的局限性。

Method

Experiment

Further Thoughts

测试时计算扩展作为一种无需额外训练即可提升多语言推理性能的方法,启发我们探索动态调整计算预算的可能性;‘引用与思考’模式提示可以通过设计特定提示策略增强跨语言语义理解;高资源语言推理的高效性建议优先使用其作为枢纽语言,但低资源语言推理劣势亟需通过数据增强或多语言微调解决;跨领域泛化局限性则启发我们考虑多领域混合训练或引入文化特异性数据以提升模型适应性。