Hume AI开源TADA模型 手机端可流畅运行700秒长音频

2026年03月12日 14:49
本文共计745个字,预计阅读时长3分钟。
来源/aibase 责编/爱力方

Hume AI近日开源发布了其最新语音生成模型TADA(Text-Acoustic Dual Alignment),这是一款基于大语言模型的文本转语音(TTS)系统,采用创新的文本-声学双对齐架构,显著提升了生成效率、可靠性和适用场景。

据官方介绍,TADA通过将文本token与声学表示实现1:1严格同步,彻底解决了传统LLM-based TTS系统中常见的token级内容幻觉(hallucination)问题。在超过1000个测试样本的评估中,该模型实现了零内容幻觉的表现。

在性能方面,TADA的生成速度比同级别LLM TTS系统快5倍以上,同时资源消耗极低:每秒音频仅需2-3帧计算资源,而传统方案通常需要12.5至75帧。这使得模型能够在手机、边缘设备等低功耗硬件上实现本地推理,无需依赖云端服务器。

TADA支持包括中文在内的多种语言(多语言版本基于Llama3.23B参数规模),并提供1B(主要针对英语)和3B多语言预训练模型。模型采用2048token的上下文窗口,能够一次性生成约700秒的连续音频,远超传统方案在相同token限制下仅能支持约70秒的水平。

另一项重要创新是同步转录功能:模型在生成语音的同时直接输出对应文本转录,无需额外运行独立的语音识别(ASR)流程,从而实现零额外延迟的文字输出。这一特性对于实时字幕、语音交互和内容创作等应用具有显著价值。

在人类主观评测中,TADA的自然度和音色相似度排名位居第二,超越了多个参数规模更大、训练数据更多的系统,展现出极具竞争力的语音质量。

地址:https://huggingface.co/collections/HumeAI/tada

来源:Hume AI开源TADA:5倍速零幻觉TTS,能在手机上跑700秒长音频 | AIbase

声明:本文来自aibase,版权归作者所有。文章内容仅代表作者独立观点,不代表A³·爱力方立场,转载目的在于传递更多信息。如有侵权,请联系 copyright#agent.ren。

相关图文

热门资讯