نموذج Kokoro 82M للذكاء الاصطناعي للنص إلى الكلام
Kokoro 82M هو نموذج متقدم في تحويل النص إلى كلام (TTS) يستخدم الهندسيات StyleTTS 2 و ISTFTNet. تم إطلاقه بموجب Apache 2.0، يجمع هذا النموذج بين الحجم الصغير والأداء الفائق، ويقدم توليد كلام عالي الجودة باللغة الإنجليزية الأمريكية والبريطانية.
الصوت المُولد
كيفية استخدام Kokoro 82M
دليل سريع للبدء باستخدام Kokoro 82M لتوليد النص إلى كلام بسلاسة.
- قم بتثبيت الاعتمادات: استنساخ مستودع Kokoro 82M واعد تشغيل بيئتك باستخدام pip و espeak-ng.
- قم بتحميل النموذج: استخدم الكود المقدم لبناء نموذج Kokoro وحدد حزمة الصوت التي تريده.
- قم بتوليد الكلام: أدخل نصك وقم بتوليد إخراج صوتي عالي الدقة 24 كيلو هرتز باستخدام الوظائف المدمجة.
الأسئلة الشائعة
ما الذي يجعل Kokoro 82M فريدًا بين نماذج TTS؟
يتفوق Kokoro 82M بسبب هندسته الفعالة وحجمه الصغير المكون من 82 مليون معلمة والاداء العالي. يتغلب على نماذج أكبر مثل MetaVoice (1.2 بليون معلمة) و XTTS (467 مليون معلمة) في حين أنه مفتوح المصدر ومتوافق تجارياً.
هل Kokoro 82M مناسب للاستخدام التجاري؟
نعم، Kokoro 82M مرخص بموجب Apache 2.0، مما يجعله مثاليًا للاستخدام التجاري. إنه يوفر حلول TTS موثوقة عالية الجودة بدون قيودroprietary.
كيف يمكن لـ Kokoro 82M التعامل مع الأقليات المختلفة؟
يدعم Kokoro 82M كل من اللغة الإنجليزية الأمريكية والبريطانية. يمكنك اختيار حزم الصوت المحددة مثل Bella و Sarah و Adam وغيرها لتطابق الأقصى المفضل لديك.
ما هي متطلبات النظام لتشغيل Kokoro 82M؟
Kokoro 82M خفيف الوزن ويمكن تشغيله على الأجهزة المستهلكية. يدعم كل من تكوينات GPU و CPU، وتوفر النسخة ONNX توافقًا أوسع للاستخدام في الوقت الحقيقي.
هل يمكن لـ Kokoro 82M التعامل مع نصوص متعددة اللغات؟
حاليًا، يتم تحسين Kokoro 82M لتوليد كلام للغة الإنجليزية. ومع ذلك، بنيتها الهندسية لديها القدرة على دعم لغات أخرى بوجود بيانات تدريب إضافية.
هل Kokoro 82M قادر على استنساخ الصوت؟
بينما لا يدعم Kokoro 82M استنساخ الصوت حاليًا بسبب مجموعة بيانات التدريب المحدودة (<100 ساعة)، إلا أن حزم الصوت الموجودة توفر جودة استثنائية لأسلوب الصوت المحدد.