Skip to content

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

grok-3-latest
Score: 0.68
Published: at 15:05

Summary: 本文提出 Voila,一个语音-语言基础模型家族,通过端到端架构、分层多尺度Transformer和文本-音频交错对齐,实现低延迟、自主的全双工语音交互,并支持高效语音定制和多任务处理,显著提升人机交互自然性。

Keywords: Voice AI, End-to-End Model, Full-Duplex Interaction, Speech Tokenization, Multimodal Alignment

Authors: Yemin Shi, Yu Shu, Siwei Dong, Guangyi Liu, Jaward Sesay, Jingwen Li, Zhiting Hu

Institution(s): Maitrix.org, UC San Diego, MBZUAI

Problem Background

当前语音AI系统在实现自主、实时和情感表达的人机交互方面存在局限性,传统系统依赖模块化管道,反应式交互模式导致对话僵硬,无法主动参与或模拟人类对话的动态性;此外,高延迟、语音细微差别(如语调、情感)丢失以及缺乏全双工交互能力是主要问题。本文旨在构建一个语音-语言基础模型,以低延迟、保留丰富语音细节的方式实现自然、自主的实时交互,并支持多种语音任务。

Method

Experiment

Further Thoughts

端到端架构与全双工交互的结合为多模态自主交互提供了新思路,可扩展至视觉-语音融合场景;语音定制化机制(短音频样本快速生成个性化语音)启发个性化AI助手的构建,未来可结合情感识别实现自适应交互;统一模型支持多任务(如 ASR、TTS、翻译)的设计,提示我们探索更通用多模态基础模型的可能性,减少任务特定调整。