Kokoro AI：革新文本到语音技术

Kokoro AI 仅用 8200 万参数，就在文本到语音合成中提供了无与伦比的性能，使其成为免费开源 TTS 解决方案中的佼佼者。非常适合寻求高质量、资源高效 TTS 模型的开发者和企业。

模型输入

选择模型Special Spanish sound models are available now, try it!

提示词*

0/800

Voice

允许公开显示创作。

尚未生成声音

am_michaelThe city of Leipzig ...

Generated on 11/1/2025

jf_nezumi日本で花火を見るなら、長岡花火大会や隅田...

Generated on 11/17/2025

pf_doramelhores achados da ...

Generated on 8/3/2025

Audio Preview

Generated on 2/24/2025

ff_siwisPour sauver la ville...

Generated on 5/8/2025

pm_alexEla era faxineira, e...

Generated on 1/3/2026

af_koreRegardless of whethe...

Generated on 4/18/2025

Audio Preview

Generated on 2/10/2025

pm_alexCansado de se sentir...

Generated on 7/23/2025

ff_siwisBonjour! Parler-vous...

Generated on 12/3/2025

从 Hugging Face 克隆 Kokoro AI 仓库并安装依赖项：`git clone https://huggingface.co/hexgrad/Kokoro-82M` 并安装所需的库。
加载 Kokoro AI 模型并选择语音包。从各种语音选项中选择，如美式英语或英式英语。
使用 `generate` 函数将文本转换为 24kHz 音频，并使用 IPython 的显示模块等工具进行播放。

Kokoro AI 因其仅 8200 万参数的紧凑尺寸、开源的 Apache 2.0 许可证以及可与更大模型媲美的卓越性能而脱颖而出。它提供多种语音选项，包括美式英语和英式英语，并支持 ONNX 以实现轻量级实时部署。

Kokoro AI 利用如 StyleTTS2 和 ISTFTNet 等优化架构，配合一个精心提炼的、少于100小时的数据集。这种高效的方法使其能够在保持较小模型大小的同时，生成高质量的语音。

可以，Kokoro AI 采用了宽松的 Apache 2.0 许可证，允许无限制的商业使用。这使其成为希望将 TTS 功能集成到应用程序中的企业的理想选择。

尽管 Kokoro AI 提供了出色的 TTS 性能，但由于其较小的训练数据集，它缺乏语音克隆功能。此外，目前它仅支持美式英语和英式英语，多语言能力有限。

Kokoro AI 可以通过其 ONNX 兼容性在个人服务器或云平台上进行轻量级部署。使用 Docker 和 Cloudflare Tunnels 等工具可以简化部署过程，并使其在线可访问。

Kokoro AI 包含 11 个预训练的语音包，提供美式英语和英式英语的男声和女声。这些选项适用于从旁白到实时通信系统的多种应用场景。