Hume AI近日开源发布了其最新语音生成模型TADA(Text-Acoustic Dual Alignment),这是一款基于大语言模型的文本转语音(TTS)系统,采用创新的文本-声学双对齐架构,显著提升了生成效率、可靠性和适用场景。
据官方介绍,TADA通过将文本token与声学表示实现1:1严格同步,彻底解决了传统LLM-based TTS系统中常见的token级内容幻觉(hallucination)问题。在超过1000个测试样本的评估中,该模型实现了零内容幻觉的表现。
在性能方面,TADA的生成速度比同级别LLM TTS系统快5倍以上,同时资源消耗极低:每秒音频仅需2-3帧计算资源,而传统方案通常需要12.5至75帧。这使得模型能够在手机、边缘设备等低功耗硬件上实现本地推理,无需依赖云端服务器。
TADA支持包括中文在内的多种语言(多语言版本基于Llama3.23B参数规模),并提供1B(主要针对英语)和3B多语言预训练模型。模型采用2048token的上下文窗口,能够一次性生成约700秒的连续音频,远超传统方案在相同token限制下仅能支持约70秒的水平。
另一项重要创新是同步转录功能:模型在生成语音的同时直接输出对应文本转录,无需额外运行独立的语音识别(ASR)流程,从而实现零额外延迟的文字输出。这一特性对于实时字幕、语音交互和内容创作等应用具有显著价值。
在人类主观评测中,TADA的自然度和音色相似度排名位居第二,超越了多个参数规模更大、训练数据更多的系统,展现出极具竞争力的语音质量。
地址:https://huggingface.co/collections/HumeAI/tada