Maya1 TTS

什么是 Maya1 TTS?

首个完全开源的30亿参数TTS模型

Maya1 TTS 是 Maya Research 开发的革命性开源文本转语音模型。它基于 Llama 风格的仅解码器 Transformer 架构,拥有30亿参数,集成了自然语言语音控制、情感表达能力和实时流式生成。我们的方法提供了前所未有的语音定制和自然度,支持详细的语音描述、20多种情感标签和多种英语口音。

  • 自然语言语音控制:使用 XML 风格描述定义语音特征,如年龄、口音、音调和个性
  • 情感表达:20多种情感标签,如 <laugh>、<sigh>、<whisper>、<angry>,实现真实的人类情感
  • 实时流式:低于100毫秒延迟,低缓冲,适用于交互应用
  • 开源:Apache 2.0 许可证,商业友好,无每秒费用

开始使用 Maya1 TTS

Maya1 TTS 快速入门指南

  1. 访问 Hugging Face 仓库获取 Maya1 TTS 模型和资源
  2. 安装依赖:torch、transformers、snac 和 soundfile
  3. 加载模型并用语音描述和情感标签创建提示词

Maya1 TTS 核心功能

探索 Maya1 TTS 的革命性特点

自然语言语音控制

用直观的 XML 风格描述定义语音特征。只需用自然语言描述年龄、口音、音高、语调和性格。

行内情感标签

在文本中直接插入 20 多种情感标签控制局部表达。标签包括 <laugh>、<sigh>、<whisper>、<angry>、<giggle> 等,基于真实人类情感。

实时流式生成

延迟低于 100 毫秒,缓冲少,适合交互应用。完美适配 AI 助手、游戏和实时内容创作。

多口音英语支持

支持多种英语口音和角色变化,基于大规模互联网英语语音语料库预训练,提供多样化语音选项。

Frequently Asked Questions

 Maya1 TTS 和其他 TTS 模型有什么不同?

Maya1 TTS 是首个完全开源的 30 亿参数 TTS 模型,支持自然语言语音控制和情感表达。与专有系统不同,它采用 Apache 2.0 许可证,没有按秒计费。

 如何控制 Maya1 TTS 的语音特征?

使用 XML 风格的描述,如 <description="40岁,温暖,低音调,对话式"> 或 <description="20多岁女性声音,英式口音,有活力,发音清晰">,来自然定义语音特征。

 Maya1 TTS 支持哪些情感标签?

Maya1 TTS 支持 20 多种情感标签,包括 <laugh>(笑)、<sigh>(叹息)、<whisper>(低语)、<angry>(生气)、<giggle>(咯咯笑)、<chuckle>(轻笑)、<gasp>(喘气)和 <cry>(哭)。这些标签可以直接插入文本中,实现逼真的情感表达。

 Maya1 TTS 的延迟是多少?

Maya1 TTS 实现了低于 100 毫秒的延迟,支持实时流式生成,非常适合 AI 助手、游戏和实时内容创作等交互式应用。

 Maya1 TTS 的技术要求是什么?

Maya1 TTS 需要单块 16GB+ 显存的 GPU(如 RTX 4090、A100 或 H100),使用 BF16 张量类型。它支持 vLLM 集成和多 GPU 扩展。

 Maya1 TTS 真的是开源的吗?

是的!Maya1 TTS 在 Apache 2.0 许可证下完全开源,支持商业使用和修改。没有按秒计费或 API 成本。

 Maya1 TTS 支持哪些语言和口音?

Maya1 TTS 目前支持带多种口音的英语和角色变化,在海量英语语音语料库上进行了预训练。

 Maya1 TTS 如何实现如此低的延迟?

Maya1 TTS 使用具有多尺度分层结构和高效压缩的 SNAC 编解码器,实现了低至 0.98 kbps 的流式比特率和低于 100 毫秒的延迟。

 我可以将 Maya1 TTS 用于商业应用吗?

当然可以!Maya1 TTS 采用 Apache 2.0 许可证,对商业友好。您拥有完全的部署控制权,没有任何按秒使用费。

 Maya1 TTS 有哪些集成选项?

Maya1 TTS 支持通过 transformers 进行 Python 集成、ComfyUI 节点包、用于量化部署的 llama.cpp,以及用于流式推理的 vLLM。