Maya1 TTS
O que é Maya1 TTS?
O Primeiro Modelo TTS de 3B Parâmetros Totalmente Open-Source
Maya1 TTS é um modelo de texto para fala open-source revolucionário, desenvolvido pela Maya Research. Construído com uma arquitetura Transformer do tipo decoder-only, estilo Llama, com 3B de parâmetros, combina controle de voz por linguagem natural, capacidade de expressão emocional e geração em tempo real. A nossa abordagem oferece uma personalização e naturalidade de voz sem precedentes, suportando descrições de voz detalhadas, mais de 20 etiquetas emocionais e vários sotaques em inglês.
- Controlo de Voz por Linguagem Natural: Use descrições estilo XML para definir características da voz como idade, sotaque, tom e personalidade
- Expressão Emocional: Mais de 20 etiquetas emocionais como <laugh>, <sigh>, <whisper>, <angry> para emoções humanas realistas
- Streaming em Tempo Real: Latência inferior a 100ms com baixo buffer para aplicações interativas
- Open Source: Licenciado Apache 2.0, amigável para uso comercial e sem taxas por segundo
Começar com o Maya1 TTS
Guia Rápido para Usar a Maya1 TTS
- Visite o repositório Hugging Face para aceder aos modelos e recursos da Maya1 TTS
- Instale as dependências: torch, transformers, snac e soundfile
- Carregue o modelo e crie prompts com descrições de voz e tags emocionais
Recursos Principais do Maya1 TTS
Descubra o que Torna a Maya1 TTS Revolucionária
Controlo de Voz por Linguagem Natural
Use descrições intuitivas em estilo XML para definir características da voz. Descreva idade, sotaque, tom, intensidade e personalidade em linguagem natural.
Tags Emocionais Incorporadas
Insira mais de 20 tags emocionais diretamente no texto para controlar a expressão local. Tags incluem <laugh>, <sigh>, <whisper>, <angry>, <giggle> e mais, baseadas em emoções humanas reais.
Geração em Tempo Real
Alcance latência inferior a 100ms com baixo buffer para aplicações interativas. Perfeito para assistentes IA, jogos e criação de conteúdo ao vivo.
Suporte para Múltiplos Sotaques em Inglês
Suporta vários sotaques e variações de personagens em inglês, pré-treinado em corpora de fala em inglês em escala da internet para opções de voz diversas.