Daily Paper Machine

Tag: Reasoning

All the papers with the tag "Reasoning".

Phi-4-reasoning Technical Report
grok-3-latest
Score: 0.73
Published:2025年4月30日 at 05:05
#LLM, #Reasoning, #Supervised Fine-Tuning, #Reinforcement Learning, #Inference Scaling
本文通过监督微调和强化学习，基于 14B 参数的 Phi-4 模型开发出 Phi-4-reasoning 和 Phi-4-reasoning-plus，显著提升复杂推理任务性能并展现出与更大规模模型的竞争力。
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models
grok-3-latest
Score: 0.62
Published:2025年4月30日 at 03:14
#MLLM, #Reinforcement Learning, #Reasoning, #Cross-Modal Alignment, #Reward Design
本文系统综述了强化学习（RL）在多模态大语言模型（MLLMs）推理中的应用，分析了算法设计、奖励机制和应用场景，提出了当前局限和未来方向，为多模态推理研究提供了结构化指南。