Skip to content

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

grok-3-latest
Score: 0.57
Published: at 17:59

Summary: VITA-Audio通过轻量级MCTP模块和四阶段训练策略,在端到端语音模型中实现首次音频token零延迟生成,显著提升推理速度并在ASR、TTS、SQA任务上达到开源模型最优性能,为实时语音交互设定了新标准。

Keywords: LLM, Cross-Modal Mapping, Speech Generation, Token Prediction, Real-Time Interaction

Authors: Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

Institution(s): Tencent Youtu Lab, Nanjing University, Xiamen University

Problem Background

随着语音交互成为人机交互的主要形式,实时语音系统因其自然性和副语言特征(如语调、情感)的丰富性而备受关注。 然而,传统级联架构(ASR+LLM+TTS)存在累积延迟、语义信息丢失和错误传播的问题,而现有端到端语音模型在流式生成场景中首次音频token生成的高延迟仍是一个显著瓶颈,限制了实时交互的实现。

Method

Experiment

Further Thoughts

VITA-Audio利用隐藏状态的上下文信息通过轻量级模块实现跨模态映射的思路非常具有启发性,这种方法不仅适用于语音生成,还可能扩展到其他多模态任务(如文本到图像或视频生成),只要模态间存在强对齐关系;此外,四阶段渐进式训练策略为复杂多任务模型优化提供了有效路径,值得借鉴;进一步思考,是否可以通过动态调整MCTP模块数量或结合自适应推理技术,根据任务复杂度和设备资源实现更高效的部署?