Skip to content

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

grok-3-mini-latest
Score: 0.78
Published: at 10:25

Summary: 本文提出WebThinker框架,通过Deep Web Explorer和Autonomous Think-Search-and-Draft策略增强LRMs的网页搜索与报告生成能力,并利用RL-based训练优化工具交互,实现显著的复杂任务性能提升。

Keywords: LLM, Proxy Model, Distillation, Sampling, Reasoning Recommendation Score: 0.7797082916340089

Authors: Xiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou Institution(s): Renmin University of China, BAAI, Huawei Poisson Lab

Problem Background

大型推理模型(LRMs)如OpenAI-o1和DeepSeek-R1展示了出色的长程推理能力,但它们依赖静态内部知识,这限制了它们在复杂知识密集型任务上的性能,例如处理需要整合多样网络信息的任务,以及生成全面的研究报告,从而无法有效应对现实世界的深度研究需求。

Method

Experiment

Further Thoughts

论文启发性想法包括:LRMs可以通过工具增强外部知识访问,这可能扩展到多模态环境或更高级的工具学习机制;此外,RL训练优化工具使用的策略可启发未来模型在动态交互场景中的自适应改进,例如结合更多外部数据源来提升泛化能力。