Skip to content

Lightweight End-to-end Text-to-speech Synthesis for low resource on-device applications

grok-3-latest
Score: 0.56
Published: at 16:10

Summary: 本文提出了一种轻量级端到端文本转语音模型(LE2E),通过联合训练声学模型和声码器,在低资源设备上实现了高质量实时语音合成,参数量减少90%且速度提升10倍。

Keywords: TTS, End-to-End, Lightweight Model, Speech Synthesis, Low Resource

Authors: Biel Tura Vecino, Adam Gabryś, Daniel Mątwicki, Andrzej Pomirski, Tom Iddon, Marius Cotescu, Jaime Lorenzo-Trueba

Institution(s): Alexa AI

Problem Background

随着智能设备和物联网的普及,离线、设备端实时文本转语音(TTS)系统的需求日益增加,特别是在无网络连接或隐私敏感场景下。 然而,当前端到端(E2E)TTS模型计算复杂、内存占用大,不适合低资源环境,而传统两阶段方法(声学模型和声码器分开训练)存在特征不匹配问题,导致合成质量下降。 论文旨在开发一种轻量级、高质量的E2E-TTS模型,解决低资源设备上的实时语音合成难题。

Method

Experiment

Further Thoughts

端到端联合训练的思路启发了我对减少中间表示(如mel-spectrogram)在其他语音任务(如语音识别或转换)中应用的思考,是否能同样提升效率和质量? 此外,轻量化设计在低资源设备上的成功应用让我联想到动态模型裁剪策略,例如根据设备性能在推理时调整模型复杂度,以进一步优化用户体验。 最后,改进的判别器和损失函数设计对生成质量的提升显著,这提示在其他生成任务中可以探索更复杂的对抗训练策略,甚至结合跨模态数据(如文本与语音的联合建模)来增强模型性能。