Kokoro 82M 文本转语音 AI 模型
Kokoro 82M 是一款利用 StyleTTS 2 和 ISTFTNet 架构的先进文本转语音(TTS)模型。该模型在 Apache 2.0 许可下发布,结合了紧凑的尺寸和无与伦比的性能,提供美式和英式英语的高质量语音合成。

Generated on 1/24/2025

Generated on 1/24/2025

Generated on 2/9/2025

Generated on 4/4/2025
Audio Preview
Generated on 1/18/2025

Generated on 3/13/2025
Audio Preview
Generated on 2/20/2025

Generated on 2/9/2025

Generated on 3/21/2025

Generated on 2/28/2025
如何使用 Kokoro 82M
快速指南,帮助您开始使用 Kokoro 82M 进行无缝文本转语音生成。
- 安装依赖项:克隆 Kokoro 82M 仓库,并使用 pip 和 espeak-ng 设置您的环境。
- 加载模型:使用提供的代码构建 Kokoro 模型,并选择您想要的语音包。
- 生成语音:输入您的文本,并使用内置函数生成 24kHz 的音频输出。
常见问题
Kokoro 82M 在 TTS 模型中有何独特之处?
Kokoro 82M 因其高效的架构、仅 8200 万参数的紧凑尺寸和高性能而脱颖而出。它在开源和商业可行性方面超越了 MetaVoice(12 亿参数)和 XTTS(4.67 亿参数)等更大的模型。
Kokoro 82M 是否适合商业用途?
是的,Kokoro 82M 在 Apache 2.0 许可下发布,非常适合商业应用。它提供了可靠、高质量的 TTS 解决方案,没有专有限制。
Kokoro 82M 如何处理不同的口音?
Kokoro 82M 支持美式英语和英式英语。您可以选择特定的语音包,如 Bella、Sarah、Adam 等,以匹配您偏好的口音。
运行 Kokoro 82M 的系统要求是什么?
Kokoro 82M 轻量级,可在消费级硬件上运行。它支持 GPU 和 CPU 配置,ONNX 版本为实时应用提供了更广泛的兼容性。
Kokoro 82M 能否处理多语言文本?
目前,Kokoro 82M 针对英语文本到语音合成进行了优化。然而,其架构有潜力通过额外的训练数据支持其他语言。
Kokoro 82M 是否支持语音克隆?
由于训练数据集有限(<100 小时),Kokoro 82M 目前不支持语音克隆,但其现有的语音包为特定语音风格提供了卓越的质量。