Tag: Reinforcement Learning
All the papers with the tag "Reinforcement Learning".
Procedural Memory Is Not All You Need: Bridging Cognitive Gaps in LLM-Based Agents
grok-3-latestScore: 0.77Published: at 11:18本文提出一种模块化架构,通过解耦程序性、语义和关联功能,弥补大型语言模型在‘恶劣’学习环境中的认知缺陷,为构建适应复杂现实世界的 AI 代理提供了理论框架。
Enhancing LLMs' Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry
grok-3-latestScore: 0.50Published: at 15:23本文通过真实世界脓毒症登记数据训练大型语言模型,显著提升其临床推理能力,并展示跨任务、跨疾病的泛化性,为通用临床推理模型的发展奠定基础。
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
grok-3-latestScore: 0.70Published: at 11:30EMORL 框架通过集成学习和隐藏状态聚合,为多目标 LLM 微调提供了一种高效、灵活且可解释的方法,在资源消耗和稳定性上显著优于传统方法,同时保持了相当的性能。
Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL
grok-3-latestScore: 0.58Published: at 06:26本文提出GVM-RAFT方法,通过动态采样分配策略最小化梯度方差,显著提升大型语言模型在链式思维推理任务中的训练效率和性能。
RM-R1: Reward Modeling as Reasoning
grok-3-latestScore: 0.83Published: at 06:11本文提出将奖励建模作为推理任务的范式,通过推理链蒸馏和强化学习训练 RM-R1 模型,显著提升了奖励模型的解释性和性能,超越了更大规模的开源和闭源模型。
Universal Approximation Theorem of Deep Q-Networks
grok-3-latestScore: 0.44Published: at 22:57本文在连续时间框架下证明了深度 Q 网络对最优 Q 函数的通用逼近能力,并通过随机逼近理论分析了 Q 学习算法的收敛性,为深度强化学习与随机控制的结合提供了理论基础。