Tag: LLM
All the papers with the tag "LLM".
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
grok-3-latestScore: 0.48Published: at 21:08本文提出 X-REASONER,通过仅基于通用领域文本的两阶段后训练策略(SFT + RL),成功实现推理能力跨模态和跨领域泛化,并在多个通用和医学基准测试中超越现有 SOTA。
Frog Soup: Zero-Shot, In-Context, and Sample-Efficient Frogger Agents
grok-3-latestScore: 0.61Published: at 19:51本文展示了推理型 LLM 在零样本 Atari 游戏 Frogger 中的潜力,并通过 LLM 示范数据提升传统 DQN 智能体 35.3% 的样本效率。
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model
grok-3-latestScore: 0.57Published: at 17:59VITA-Audio通过轻量级MCTP模块和四阶段训练策略,在端到端语音模型中实现首次音频token零延迟生成,显著提升推理速度并在ASR、TTS、SQA任务上达到开源模型最优性能,为实时语音交互设定了新标准。
ReGraP-LLaVA: Reasoning enabled Graph-based Personalized Large Language and Vision Assistant
grok-3-latestScore: 0.56Published: at 16:00本文提出 ReGraP-LLaVA 模型,通过知识图谱和思维链问答数据增强个性化多模态大语言模型的关系推理能力,显著提升了上下文理解和复杂任务表现。
am-ELO: A Stable Framework for Arena-based LLM Evaluation
grok-3-latestScore: 0.47Published: at 12:28本文提出 am-ELO 框架,通过最大似然估计和标注者能力建模,显著提升了大型语言模型竞技场评估中 ELO 评分系统的稳定性和准确性。
The Steganographic Potentials of Language Models
grok-3-latestScore: 0.76Published: at 11:25本文通过强化学习微调和提示实验,首次系统性量化了大型语言模型的隐写潜力,揭示其在特定场景下隐藏非琐碎有效载荷的能力,并指出了对 AI 对齐和监控的潜在风险。