Maya1 TTS

ما هو Maya1 TTS؟

أول نموذج تحويل نص إلى كلام مفتوح المصدر تمامًا بـ 3 مليار معامل

Maya1 TTS هو نموذج تحويل نص إلى كلام مفتوح المصدر طورته مايا للأبحاث. مبني على بنية محول من نوع Llama بـ 3 مليار معامل، يجمع بين التحكم الصوتي باللغة الطبيعية، والتعبير العاطفي، والتوليد المباشر. نهجنا يقدم تخصيصًا وطبيعية غير مسبوقة للصوت، مع دعم أوصاف صوتية مفصلة، و20+ علامة عاطفية، ولهجات إنجليزية متعددة.

  • التحكم الصوتي باللغة الطبيعية: استخدم أوصافًا بأسلوب XML لتحديد خصائص الصوت مثل العمر، اللهجة، النبرة، والشخصية
  • التعبير العاطفي: 20+ علامة عاطفية مثل <laugh>, <sigh>, <whisper>, <angry> لمحاكاة مشاعر الإنسان الواقعية
  • التدفق المباشر: تأخير أقل من 100 مللي ثانية مع تخزين مؤقت منخفض للتطبيقات التفاعلية
  • مفتوح المصدر: مرخص تحت Apache 2.0، صديق للاستخدام التجاري، وبدون رسوم لكل ثانية

البدء مع Maya1 TTS

دليل سريع لاستخدام Maya1 TTS

  1. قم بزيارة مستودع Hugging Face للوصول إلى نماذج وموارد Maya1 TTS
  2. ثبّت المتطلبات: torch, transformers, snac, و soundfile
  3. حمّل النموذج وأنشئ أوصافاً صوتية ووسوماً عاطفية

الميزات الرئيسية لـ Maya1 TTS

اكتشف ما يجعل Maya1 TTS ثورية

تحكم صوتي باللغة الطبيعية

استخدم أوصافاً بأسلوب XML لتحديد خصائص الصوت. صف العمر، اللهجة، النبرة، والشخصية بلغة طبيعية.

وسوم عاطفية مضمنة

أدخل 20+ وسماً عاطفياً مباشرة في النص للتحكم في التعبير المحلي. تشمل الوسوم <laugh>، <sigh>، <whisper>، <angry>، <giggle>، وأكثر.

توليد بالبث المباشر

حقق تأخيراً أقل من 100 مللي ثانية مع تخزين مؤقت منخفض للتطبيقات التفاعلية. مثالي للمساعدين الذكاء، الألعاب، وإنشاء المحتوى المباشر.

دعم اللهجات الإنجليزية المتعددة

يدعم مختلف اللهجات الإنجليزية وتنوعات الشخصيات، مدرب مسبقاً على بيانات صوتية إنجليزية واسعة النطاق.

Frequently Asked Questions

 ما الذي يميز Maya1 TTS عن نماذج تحويل النص إلى كلام الأخرى؟

Maya1 TTS هو أول نموذج تحويل نص إلى كلام مفتوح المصدر بالكامل بمعاملات 3 مليار، مع تحكم صوتي باللغة الطبيعية وقدرات على التعبير العاطفي. على عكس الأنظمة الخاصة، مرخص بموجب Apache 2.0 بدون رسوم لكل ثانية.

 كيف أتحكم في خصائص الصوت في Maya1 TTS؟

استخدم أوصافاً بأسلوب XML مثل <description="رجل في الأربعينيات، دافئ، طبقة صوت منخفضة، حواري"> أو <description="صوت أنثى في العشرينيات بلهجة بريطانية، نشيط، نطق واضح"> لتحديد خصائص الصوت بشكل طبيعي.

 ما هي العلامات العاطفية التي يدعمها Maya1 TTS؟

Maya1 TTS يدعم أكثر من 20 علامة عاطفية بما في ذلك <laugh>، <sigh>، <whisper>، <angry>، <giggle>، <chuckle>، <gasp>، و <cry>. يمكن إدراج هذه العلامات مباشرة في النص للتعبير العاطفي الواقعي.

 ما هو زمن الاستجابة لـ Maya1 TTS؟

Maya1 TTS يحقق زمن استجابة أقل من 100 مللي ثانية مع توليد متدفق في الوقت الفعلي، مما يجعله مثالياً للتطبيقات التفاعلية مثل المساعدين الذكاء، الألعاب، وإنشاء المحتوى المباشر.

 ما هي المتطلبات التقنية لـ Maya1 TTS؟

Maya1 TTS يتطلب وحدة معالجة رسومات واحدة بذاكرة VRAM 16 جيجابايت أو أكثر (مثل RTX 4090، A100، أو H100) باستخدام نوع الموتر BF16. يدعم التكامل مع vLLM والتوسع متعدد وحدات معالجة الرسومات.

 هل Maya1 TTS مفتوح المصدر حقاً؟

نعم! Maya1 TTS مفتوح المصدر بالكامل بموجب ترخيص Apache 2.0، ويدعم الاستخدام التجاري والتعديل. لا توجد رسوم لكل ثانية أو تكاليف API.

 ما هي اللغات واللهجات التي يدعمها Maya1 TTS؟

Maya1 TTS يدعم حالياً الإنجليزية بلهجات وتنوعات متعددة، مدرب مسبقاً على مجموعات بيانات كلام إنجليزية على نطاق الإنترنت.

 كيف يحقق Maya1 TTS زمن استجابة منخفضاً بهذا الشكل؟

Maya1 TTS يستخدم ترميز SNAC بهيكل هرمي متعدد المقاسات وضغط فعال، محققاً معدلات بت متدفق تصل إلى 0.98 كيلوبت في الثانية مع زمن استجابة أقل من 100 مللي ثانية.

 هل يمكنني استخدام Maya1 TTS للتطبيقات التجارية؟

بالتأكيد! Maya1 TTS مرخص بموجب Apache 2.0 وموافق للاستخدام التجاري. لديك تحكم كامل في النشر بدون أي رسوم استخدام لكل ثانية.

 ما هي خيارات التكامل المتاحة لـ Maya1 TTS؟

Maya1 TTS يدعم التكامل مع Python عبر transformers، حزم عقد ComfyUI، llama.cpp للنشر الكمي، و vLLM للاستدلال المتدفق.