Summary: 本文提出 EchoInk-R1 框架,通过 Group Relative Policy Optimization 强化学习显著提升多模态大语言模型在音频-视觉推理任务上的性能,首次实现音频、视觉和文本模态的统一开放世界推理。
Keywords: Multimodal LLM, Reinforcement Learning, Audio-Visual Reasoning, Cross-Modal Integration
Authors: Zhenghao Xing, Xiaowei Hu, Chi-Wing Fu, Wenhai Wang, Jifeng Dai, Pheng-Ann Heng
Institution(s): The Chinese University of Hong Kong, Shanghai Artificial Intelligence Laboratory, Tsinghua University
Problem Background
多模态大语言模型(MLLMs)在文本、视觉和音频感知方面取得了显著进展,但它们在跨模态推理能力上仍显不足,尤其是整合音频和视觉信号进行深层次多步推理时,往往依赖浅层相关性而非系统性推断。 现有强化学习方法主要聚焦于单一或部分模态(如文本或视觉-语言)的推理提升,缺乏对音频-视觉-文本全模态的统一推理框架。 论文旨在解决这一关键问题,提出一个强化学习框架以增强 MLLMs 在开放世界中的音频-视觉推理能力。
Method
- 框架设计: 论文提出 EchoInk-R1,一个基于强化学习的框架,构建在 Qwen2.5-Omni-7B 模型基础上,专门针对同步音频-图像对的多选题问答(MCQA)任务。
- 优化方法: 使用 Group Relative Policy Optimization (GRPO) 进行微调,这是一种不依赖价值函数的强化学习方法,通过对一组候选响应的相对排名计算标准化优势(standardized advantages)来指导策略更新,公式为 A_i = (r_i - μ) / σ,其中 μ 和 σ 分别是组内奖励的均值和标准差。
- 奖励设计: 奖励机制包括两部分:答案准确性(Answer Accuracy),即预测是否与真实标签一致;格式一致性(Format Consistency),通过正则表达式匹配确保输出结构化(如使用
和 标签),最终奖励为两者的加权和(权重均为 1)。 - 训练数据: 构建 AVQA-R1-6K 数据集,包含 4490 个训练样本和 1911 个验证样本,专门用于音频-视觉推理任务。
- 核心目标: 通过强化学习优化模型的多模态推理能力,确保输出既有准确性又有结构化推理过程,而非单纯依赖监督微调。
Experiment
- 性能提升: EchoInk-R1-7B 在 AVQA-R1-6K 验证集上的准确率达到 85.77%,显著优于基础模型 Qwen2.5-Omni-7B 的 80.53%,且仅用 562 个强化学习迭代步,表明 GRPO 框架的高效性。
- 推理现象: 训练中观察到‘aha moments’(顿悟时刻),即模型能自我修正初始假设,通过跨模态理解改进答案,尤其在模棱两可的情况下;此外,模型展现出跨模态推理能力,能整合音频和视觉线索解决问题。
- 训练动态: 准确率奖励随时间稳步上升,输出长度先增加后趋于简洁,表明模型学会了高效表达推理过程。
- 实验设置评价: AVQA-R1-6K 数据集针对性强,适合初步验证音频-视觉推理能力,但规模和复杂性有限,论文也指出这可能限制更高级推理能力的开发,实验在任务多样性和难度上仍有提升空间。
Further Thoughts
论文中‘aha moments’现象表明强化学习能诱导多模态模型的自我修正和反思推理能力,这启发我思考是否可以通过设计基于推理深度或跨模态依赖度的奖励机制进一步增强这种能力;此外,模型依赖单一模态捷径的问题提示我们可以在未来探索对抗性训练或模态平衡奖励设计,以强制跨模态整合;数据集构建方式也提供了新思路,是否可以扩展到更多模态(如视频、触觉)或更复杂任务(如开放式问答)?