Skip to content

X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains

grok-3-latest
Score: 0.48
Published: at 21:08

Summary: 本文提出 X-REASONER,通过仅基于通用领域文本的两阶段后训练策略(SFT + RL),成功实现推理能力跨模态和跨领域泛化,并在多个通用和医学基准测试中超越现有 SOTA。

Keywords: LLM, Reasoning, Multimodal, Post-Training, Generalization

Authors: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon

Institution(s): Microsoft Research

Problem Background

当前开源研究主要集中于文本推理模型的训练与评估,局限于数学和通用领域任务,而对于如何将推理能力扩展到多模态输入(如视觉-语言)和特定领域(如医学)仍缺乏深入探索。 论文提出一个核心问题:推理能力是否可以通过仅基于通用领域文本的后训练(post-training)实现跨模态和跨领域的泛化? 这一问题不仅具有科学意义(探究推理的本质是否独立于模态),还具有实际意义(文本数据易获取且计算成本低于多模态数据,避免了构建特定领域数据集的复杂性)。

Method

Experiment

Further Thoughts

论文提出的‘数学作为推理泛化锚点’的观点令人启发,数学任务因其结构化、长链式推理特性,可能比其他领域 领域更适合作为推理能力的训练基础,是否可以在其他领域寻找类似的‘锚点’任务(如逻辑推理或编程),以进一步提升泛化能力? 仅用文本数据训练即可实现多模态推理泛化挑战了传统观念,是否推理的核心是一种抽象的模式,与输入模态无关?这可能推动未来研究探索更通用的推理框架。 X-REASONER-MED 的成功表明,通用推理基础结合领域特定微调可能是实现专业化模型的高效路径,是否可以推广到其他领域(如法律、金融),通过少量领域数据结合通用推理模型快速构建专业模型?