Maya1 TTS

Что такое Maya1 TTS?

Первая полностью открытая TTS-модель с 3B параметрами

Maya1 TTS — это революционная модель синтеза речи с открытым исходным кодом от Maya Research. Построена на архитектуре Transformer-декодера в стиле Llama с 3B параметрами. Объединяет управление голосом на естественном языке, выражение эмоций и генерацию в реальном времени. Наш подход обеспечивает беспрецедентную настройку голоса и естественность. Поддерживает подробные описания голоса, более 20 эмоциональных тегов и несколько английских акцентов.

  • Управление голосом на естественном языке: Используйте описания в стиле XML для определения характеристик голоса: возраст, акцент, высота тона, личность
  • Эмоциональное выражение: Более 20 эмоциональных тегов, таких как <laugh>, <sigh>, <whisper>, <angry> для реалистичных человеческих эмоций
  • Стриминг в реальном времени: Задержка менее 100 мс с низким буфером для интерактивных приложений
  • Открытый исходный код: Лицензия Apache 2.0, подходит для коммерческого использования, без оплаты за секунды

Начало работы с Maya1 TTS

Краткое руководство по использованию Maya1 TTS

  1. Посетите репозиторий Hugging Face для доступа к моделям и ресурсам Maya1 TTS
  2. Установите зависимости: torch, transformers, snac и soundfile
  3. Загрузите модель и создавайте промпты с описаниями голоса и эмоциональными тегами

Ключевые возможности Maya1 TTS

Узнайте, что делает Maya1 TTS революционной

Управление голосом на естественном языке

Используйте интуитивные описания в стиле XML для определения характеристик голоса. Просто опишите возраст, акцент, высоту тона, тембр и характер на естественном языке.

Встроенные эмоциональные теги

Вставляйте более 20 эмоциональных тегов прямо в текст для управления локальной выразительностью. Теги включают <laugh>, <sigh>, <whisper>, <angry>, <giggle> и другие, основанные на реальных человеческих эмоциях.

Генерация в реальном времени

Достигайте задержки менее 100 мс с низким буфером для интерактивных приложений. Идеально для AI-ассистентов, игр и создания контента в прямом эфире.

Поддержка английского с разными акцентами

Поддерживает различные английские акценты и вариации персонажей, предварительно обученные на речевых корпусах интернет-масштаба для разнообразных вариантов голоса.

Frequently Asked Questions

 Что делает Maya1 TTS отличной от других моделей TTS?

Maya1 TTS — первая полностью открытая модель TTS с 3 миллиардами параметров. Она управляется голосом на естественном языке и может выражать эмоции. В отличие от проприетарных систем, она лицензирована по Apache 2.0 и не требует оплаты за секунды.

 Как управлять характеристиками голоса в Maya1 TTS?

Используйте описания в стиле XML, например <description="40-летний, тёплый, низкий тон, разговорный"> или <description="Женский голос, 20 лет, британский акцент, энергичный, чёткое произношение">. Так вы естественно определите характеристики голоса.

 Какие эмоциональные теги поддерживает Maya1 TTS?

Maya1 TTS поддерживает более 20 эмоциональных тегов: <laugh>, <sigh>, <whisper>, <angry>, <giggle>, <chuckle>, <gasp> и <cry>. Эти теги можно вставлять прямо в текст для реалистичного выражения эмоций.

 Какая задержка у Maya1 TTS?

Maya1 TTS достигает задержки менее 100 мс с генерацией в реальном времени. Это идеально для интерактивных приложений: AI-ассистентов, игр и создания контента в прямом эфире.

 Какие технические требования у Maya1 TTS?

Maya1 TTS требует одну видеокарту с 16 ГБ+ видеопамяти (например, RTX 4090, A100 или H100) с использованием тензора BF16. Поддерживается интеграция с vLLM и масштабирование на несколько видеокарт.

 Maya1 TTS действительно с открытым исходным кодом?

Да! Maya1 TTS полностью открытая по лицензии Apache 2.0. Разрешено коммерческое использование и модификация. Нет оплаты за секунды или затрат на API.

 Какие языки и акценты поддерживает Maya1 TTS?

Maya1 TTS сейчас поддерживает английский язык с разными акцентами и вариантами произношения. Модель предварительно обучена на англоязычных речевых корпусах интернет-масштаба.

 Как Maya1 TTS достигает такой низкой задержки?

Maya1 TTS использует кодек SNAC с многоуровневой иерархической структурой и эффективным сжатием. Это позволяет достичь потоковой скорости передачи данных до 0.98 кбит/с с задержкой менее 100 мс.

 Можно использовать Maya1 TTS для коммерческих приложений?

Конечно! Maya1 TTS лицензирована по Apache 2.0 и подходит для коммерческого использования. У вас полный контроль над развёртыванием без какой-либо платы за использование.

 Какие опции интеграции доступны для Maya1 TTS?

Maya1 TTS поддерживает интеграцию с Python через transformers, пакеты узлов ComfyUI, llama.cpp для квантованного развёртывания и vLLM для потокового вывода.