Daily Paper Machine

Tag: Multimodal LLM

All the papers with the tag "Multimodal LLM".

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
grok-3-latest
Score: 0.60
Published:2025年5月7日 at 17:59
#Multimodal LLM, #Reinforcement Learning, #Audio-Visual Reasoning, #Cross-Modal Integration
本文提出 EchoInk-R1 框架，通过 Group Relative Policy Optimization 强化学习显著提升多模态大语言模型在音频-视觉推理任务上的性能，首次实现音频、视觉和文本模态的统一开放世界推理。
Rethinking Visual Layer Selection in Multimodal LLMs
grok-3-latest
Score: 0.87
Published:2025年5月1日 at 15:51
#Multimodal LLM, #Visual Encoder, #Feature Fusion, #Layer Selection, #Task Performance
本文通过层级表示相似性分析系统研究 CLIP-ViT 视觉层级特征差异，并提出轻量级融合策略，显著提升多模态大语言模型在多样化任务上的性能。