Tag: Reasoning
All the papers with the tag "Reasoning".
Phi-4-reasoning Technical Report
grok-3-latestScore: 0.73Published: at 05:05本文通过监督微调和强化学习,基于 14B 参数的 Phi-4 模型开发出 Phi-4-reasoning 和 Phi-4-reasoning-plus,显著提升复杂推理任务性能并展现出与更大规模模型的竞争力。
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
grok-3-latestScore: 0.62Published: at 03:14本文系统综述了强化学习(RL)在多模态大语言模型(MLLMs)推理中的应用,分析了算法设计、奖励机制和应用场景,提出了当前局限和未来方向,为多模态推理研究提供了结构化指南。