Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي لتوليد أصوات طبيعية

حول النص إلى كلام واقعي باستخدام Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي - النموذج الفعال الذي يدعم 82 مليون معلمة ويوفر تحويل EPUB/PDF، ومزج الأصوات، والبث المباشر عبر 7 لغات.

Discover Skyreels - Revolutionizing Video Content Creation. Learn More →

مدخل النموذج

حدد النموذجSpecial Spanish sound models are available now, try it!

الإيحاء*

0/800

Voice

يسمح بعرض الإبداعات علنًا.

الصوت المُولد

لم يتم إنشاء صوت بعد

am_ericHere are five reason...

Generated on 8/8/2025

af_heartYou look into a door...

Generated on 5/17/2025

ef_doraEn la antigua tierra...

Generated on 7/29/2025

am_adamTranslation into Eng...

Generated on 2/4/2025

pf_doraEm 1951, o médico de...

Generated on 12/3/2025

jf_alpha苗字と名前をひらがなで入力して、作成ボタ...

Generated on 6/15/2025

pm_alexAhhhh "CONFIANÇA"! A...

Generated on 10/27/2025

af_jessicalet me know dear...

Generated on 4/1/2025

af_heartI woul love to visit...

Generated on 10/27/2025

am_adamToday, we’re not jus...

Generated on 12/10/2025

كيفية عمل Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي

سير عمل تركيب عصبي من ثلاث خطوات

التثبيت باستخدام pip/uv: استدلال مع تسريع GPU عبر ONNX runtime (Python 3.12+)
تكوين الأصوات: مزج عدة متحدثين (مثال: 'af_sarah:60,am_adam:40') أو استخدام أكثر من 40 ملفًا مسبق الإعداد
تحويل المستندات: معالجة فصول EPUB/صفحات PDF إلى MP3/WAV مع --split-output directory

الدليل الفني لـ Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي

كيف يحسن Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي جودة الصوت؟

يستخدم Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي نقل النبرة من StyleTTS2 (arxiv:2306.07691) مع تركيب الموجة 24kHz من ISTFTNet. يسمح هيكل 82 مليون معلمة باستدلال أسرع بثلاثة أضعاف من XTTSv2 مع الحفاظ على درجة 4.35 MOS. تشمل الابتكارات الفنية التنبؤ بمدة الفونيمات المخصصة لهياكل فقرات EPUB وتقليل الضوضاء الديناميكية أثناء الإنشاء طويل المدى.

ما هي تنسيقات الملفات التي يدعمها Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي؟

يعالج نظام تحويل النص إلى كلام باستخدام الذكاء الاصطناعي EPUB 3.0/2.0، وطبقات نص PDF، وملفات TXT الخام. تشمل المخرجات WAV 24-bit (32.7kHz) وMP3 192kbps مع بيانات وصفية للفصول. يمكن للمطورين الوصول إلى التمثيلات الوسيطة عبر واجهة برمجة تطبيقات Python بما في ذلك تسلسلات الفونيمات ومخططات النغمة.

كيفية تخصيص الأصوات في Kokoro TTS؟

يدعم Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي مزج الأصوات الخطي عبر torch.mean(voices, dim=0). يمكن للمستخدمين الجمع بين ملفات .pt للأصوات مع أوزان (مثال: 0.7*af_bella + 0.3*am_echo). يسمح التكوين المتقدم بتغيير النغمة (±20%) والتحكم في سرعة الكلام (0.5x-2.0x) عبر معلمة --speed.

هل يدعم Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي المعالجة الدفعية؟

نعم، يقوم مولد الصوت باستخدام الذكاء الاصطناعي بمعالجة تحويل أكثر من 50 فصلًا من EPUB بشكل متوازي باستخدام multiprocessing.Pool. تقوم وضعية الدُفعة بتقسيم ملفات PDF التي تحتوي على أكثر من 10 آلاف صفحة تلقائيًا باستخدام تحليل التخطيط من PyMuPDF، مع تتبع التقدم عبر tqdm. يحصل مستخدمو GPU على تسريع بمقدار 8 أضعاف عبر CUDA graphs.

ما هي ميزات الأمان التي تحمي المحتوى المعالج؟

يعمل Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي دون اتصال مع مخازن ذاكرة آمنة (معالجة النصوص المدعومة بـ Rust). يستخدم استخراج EPUB/PDF بيئات معزولة، ويتم مسح الملفات المؤقتة باستخدام مسح DoD 5220.22-M. يتم تحميل نماذج الأصوات باستخدام torch.load(weights_only=True) لمنع حقن التعليمات البرمجية.

كيفية نشر Kokoro TTS: تحويل النص إلى كلام باستخدام الذكاء الاصطناعي تجاريًا؟

نموذج تحويل النص إلى كلام باستخدام الذكاء الاصطناعي المرخص من MIT يدعم الاستخدام التجاري. لنشر الويب، قم بتصدير النموذج إلى تنسيق ONNX (3.2 ميجابايت) ودمجه مع نقطة نهاية FastAPI. يقدم Discord الخاص بنا أوصاف Kubernetes للقياس إلى أكثر من 1000 طلب في الثانية باستخدام خادم استدلال NVIDIA Triton.