news 2026/4/3 6:57:00

Kokoro-ONNX中英数字混合语音合成(支持静态推理)

张小明

前端开发工程师

1.2k 24

Kokoro-ONNX中英数字混合语音合成(支持静态推理)

这是一个基于Kokoro-82M模型的ONNX语音合成系统，支持中英文文本到语音转换。该系统采用深度学习技术，通过端到端的神经网络架构实现高质量的语音合成。

特色：目前示例代码仅支持中文、英文、数字混合，但模型支持更多语言，包括但不限于：日语、韩语、法语等。如需支持更多语言请自行调整代码。

🎯 项目特性

多语言支持：支持中文和英文语音合成
ONNX推理：基于ONNX Runtime的高效推理引擎
动态/静态输入：支持动态和静态输入形状配置
高质量语音：基于Kokoro-82M预训练模型
音色控制：支持多种音色选择和自定义音色
可调节语速：支持实时语速调节

📦 环境要求

系统依赖

Python 3.10.12+
ONNX Runtime
CUDA（可选，用于GPU加速）

主要依赖包

项目依赖项已导出到requirements.txt，包含以下核心组件：

onnxruntime- ONNX模型推理引擎
torch- PyTorch深度学习框架
numpy- 数值计算库
soundfile- 音频文件处理
misaki- 多语言文本处理
kokoro- 语音合成核心库

🚀 快速开始

1. 模型下载&源码获取

👇👇👇👇首先需要下载模型: Kokoro-82M-v1.1-dynamic-static-ONNX👇👇👇👇👇

modelscope download --model KeanuX/Kokoro-82M-v1.1-dynamic-static-ONNX --local_dir ./

2. 环境配置

安装项目依赖：

pipinstall-r requirements.txt

3. 基础使用

运行语音合成：

python run.py -t"你好，这是一个语音合成测试"-o ./output.wav

4. 高级参数

python run.py -t"需要合成的文本"\-o ./\-m ./models/kokoro_82M_v1.1_zh_onnx/model_dynamic.onnx\-c ./models/kokoro_82M_v1.1_zh_onnx/config.json\-v ./models/kokoro_82M_v1.1_zh_onnx/voices/zm_031.bin\-s1.0\-d python run.py -t"需要合成的文本"\-o ./\-m ./models/kokoro_82M_v1.1_zh_onnx/model_static.onnx\-c ./models/kokoro_82M_v1.1_zh_onnx/config.json\-v ./models/kokoro_82M_v1.1_zh_onnx/voices/zm_031.bin\-s1.0\

参数说明：

-t, --text: 需要合成的文本（必需）
-o, --output: 输出音频文件路径，默认为当前目录
-m, --model: ONNX模型路径
-c, --config: 模型配置文件路径
-v, --voice: 音色数据文件路径
-s, --speed: 合成速度因子，默认为1.0
-d, --dynamic: 是否使用动态输入形状

🔧 技术原理

语音合成算法架构

本系统基于Kokoro-82M神经网络架构，采用端到端的语音合成方法：

1. 文本处理流程

输入文本 → 语言检测 → 音素转换 → 序列编码

语言检测：自动识别中英文及数字混合文本
音素转换：使用misaki库将文本转换为音素序列
序列编码：将音素序列编码为模型可处理的token格式

2. 语音生成流程

音素序列 + 音色嵌入 → Kokoro模型 → 音频波形

音色嵌入：使用预训练的音色向量（shape: [510, 1, 256]）
Kokoro模型：基于Transformer的序列到序列架构
音频解码：生成24kHz采样率的音频波形

3. 模型架构特点

Kokoro-82M模型包含以下核心组件：

编码器（Encoder）
解码器（Decoder）
声码器（Vocoder）

4. 音色控制机制

系统支持音色定制和切换：

音色提取：从参考音频中提取音色特征
音色嵌入：将音色信息编码为256维向量
多音色支持：支持多种预设音色和自定义音色

音色处理流程：

参考音频 → 特征提取 → 音色嵌入 → 模型融合

📁 项目结构

KokoroTTS-ONNX-DS/ ├── run.py # 主运行脚本 ├── requirements.txt # 项目依赖 ├── src/ # 源代码目录 │ ├── kokoro_loader.py # Kokoro模型加载器 │ ├── tokenizer.py # 文本分词器 │ └── espeakcfg.py # Espeak配置 ├── sources/ # 资源文件 │ ├── speakers/ # 说话人参考音频 │ └── output_feats/ # 输出特征 ├── tools/ # 工具脚本 │ └── audio_handler.py # 音频处理工具 ├── logs/ # 日志文件 │ └── run_kokoro_onnx.log # 运行日志 └── models/ # 模型文件（下载后） └── kokoro_82M_v1.1_zh_onnx/ ├── model_static.onnx # 静态模型 ├── config.json # 配置文件 └── voices/ # 音色文件

📊 运行日志

所有运行日志保存在logs/目录下：

run_kokoro_onnx.log- 主程序运行日志
日志包含详细的推理过程、性能指标和错误信息

🎛️ 高级功能

音色定制

系统支持从参考音频中提取音色特征：

fromtools.audio_handlerimportextract_voice_embedding,process_speaker_wavs# 批量处理说话人音频process_speaker_wavs("./sources/speakers","./sources/output_feats")

多语言混合

支持中英文数字混合文本的合成，以及其他多语言支持：

python run.py -t"Hello 你好，这是一个mixed language test测试"

语速控制

支持实时语速调节（0.5x - 2.0x）：

python run.py -t"需要合成的文本"-s0.8# 慢速python run.py -t"需要合成的文本"-s1.5# 快速

关键语音合成算法

def__create(self,phonemes:str,voice:NDArray[np.float32],speed:float=1.0)->tuple[NDArray[np.float32],NDArray[np.int64],int]:logger.info(f"phonemes:{len(phonemes)}")phonemes=phonemes[:510]start_time=time.time()tokens=np.array(self.tokenizer.tokenize(phonemes),dtype=np.int64)assertlen(tokens)<=510,(f"Context length is 510, but leave room for the pad token 0 at the start & end")voice=voice[len(tokens)]ifself.is_dynamic:tokens=np.array([[0,*tokens,0]],dtype=np.int64)# add pad token 0 at the start & endinput_specs={self.input_names[0]:tokens,self.input_names[1]:voice,self.input_names[2]:np.array([speed],dtype=np.float32)}audio,pred_dur=self.session.run(self.output_names,input_specs)returnaudio,pred_dur,24000else:tokens=np.array([[0,*tokens,0]],dtype=np.int64)# add pad token 0 at the start & endiftokens.shape[1]!=512:pad_token_len=512-tokens.shape[1]padded_tokens=np.pad(tokens,((0,0),(0,pad_token_len)),'constant')input_specs={self.input_names[0]:padded_tokens,self.input_names[1]:voice,self.input_names[2]:np.array([speed],dtype=np.float32)}audio,pred_dur=self.session.run(self.output_names,input_specs)samples_per_dur_unit=audio.shape[0]/np.sum(pred_dur)# 计算总的单位持续时间对应的采样数valid_tokens_len=tokens.shape[1]valid_dur=pred_dur[:valid_tokens_len]total_duration=np.sum(valid_dur)# 计算有效token的总持续时间# 将持续时间转换为音频样本数（采样率24000Hz）audio_length=int(total_duration*samples_per_dur_unit)audio_length=min(audio_length,audio.shape[0])# 确保不超出实际音频长度# 裁剪音频audio=audio[:audio_length]returnaudio,pred_dur,24000

🔍 故障排除

如何通过 C# 将 Markdown 转换为 PDF 文档

在日常开发中，我们经常需要将轻量级的 Markdown 文档转换为格式固定、便于分享的 PDF 文件。本文将详细介绍如何使用 Spire.Doc for .NET 库，通过 C# 代码实现 Markdown 到 PDF 的高效转换，并涵盖核心步骤、进阶示例。一、快速环境准备 Spire…

李华

网站建设 2026/4/1 0:03:08

收藏！程序员必看：大模型浪潮下的职业洗牌与转型机遇

最近逛招聘网站时，我发现一个特别明显的趋势：以前技术岗招聘，核心考察点多是“能否独立搭建常规系统框架”“是否具备数据库存储优化能力”这类传统技能，而现在，几乎所有技术岗位的要求里都悄悄加了一条——“拥有大模…

李华

网站建设 2026/3/23 20:21:35

如何安全地清洁 Windows 10/11 PC 上的 SS

那么，您想知道如何在 Windows 10/11 PC 上清洁 SSD 驱动器吗？也许您只是想释放宝贵的空间并提高性能，而不是切换到新的 SSD。不管怎样，你需要清空SSD上的数据，对吧？阅读这份综合指南，您将了解 5…

李华

网站建设 2026/4/3 0:09:15

在 Android 上备份短信：保护您的对话

尽管我们的Android手机有足够的存储空间来存储无数的短信，但由于设备故障、意外删除或其他意外原因，您可能会丢失重要的对话。幸运的是，我们找到了 5 种有效的 Android SMS 备份解决方案，确保您的数字聊天和信息保持安全且可访问。…

李华

网站建设 2026/3/13 0:36:16

大模型时代来临：网络安全工程师/渗透测试工程师转行AI的必备学习路线图！！

“当我成功绕过了第1000个系统防火墙时，突然意识到：真正的安全挑战不再只是保护网络边界，而是守护正在觉醒的数字智能。” 一、红队玩家的新战场：当黑客思维遇见大模型深夜，你正在某个测试环境中横向移动&#xff0c…

李华

网站建设 2026/4/1 14:21:08

苹果明年将推出20多款新品，重磅产品抢先看

苹果公司计划在明年推出比往年更多的新产品阵容，这些产品预计将在年初发布。亮点产品包括全新的苹果家居产品、一款全新的经济型MacBook、iPhone 17e等更多产品。夏季通常是苹果产品发布的淡季。相反，重点会是全新的软件。在6月的WWDC大会上，…

李华