ChatTTS版本选型实战：从性能对比到生产环境部署指南-智慧文博士

ChatTTS版本选型实战：从性能对比到生产环境部署指南

背景痛点

ChatTTS 开源不到半年就迭代出 1.2、2.0、2.1-dev 三条线，每条线又分 full、lite、onnx 三种打包方式。真正落地时，SDK 版本号对不上、模型权重对不上、接口字段一夜之间被删，都是日常。最坑的是，v1.2 与 v2.0 的 protobuf 定义字段顺序不同，同一段代码在本地能跑，到线上就 core dump。语音质量也随版本波动：v2.0 的「情感控制」开关默认打开，结果在 8 并发场景下出现 30% 句子末尾吞字，直接把客服机器人干成“哑巴”。

版本横评

为了把“感觉”量化，我们在同一台 A10（24 GB）云主机上跑了 24 小时压测，指标定义如下：

QPS：单卡 8 并发，持续 5 min 的平均值
RTF：Real-Time Factor，越低越好
GPU 峰值：nvidia-smi 采样最大值
方言支持：官方文档列出的方言数量
首包延迟：从 HTTP 发完到收到第一帧音频的 p99

结果如下：

指标	v1.2-stable	v2.0-exp
QPS	28	34
RTF	0.42	0.31
GPU 峰值	6.8 GB	9.5 GB
方言	17	25
首包 p99	380 ms	520 ms

一句话总结：v2.0 吞吐高、音色多，但吃显存、冷启动慢；v1.2 稳，延迟低，适合“秒回”场景。

核心实现

下面这段代码放在网关层，负责“探测→路由→降级”。思路：先起探针容器跑 v2.0，若 5 s 内无响应或显存报警>90%，则把流量切回 v1.2。核心类只依赖 requests 与 psutil，方便丢进 sidecar。

# -*- coding utf-8 -*- """ chatts_router.py 负责版本自动探测与降级 Python 3.8+ PEP8 checked """ import os import time import logging import requests from concurrent.futures import ThreadPoolExecutor, as_completed logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s") ENDPOINTS = { "v2": os.getenv("CHATTTS_V2_URL", "http://chatts-v2:8080"), "v1": os.getenv("CHATTTS_V1_URL", "http://chatts-v1:8080"), } TIMEOUT = 5 # 探测超时 GPU_THRESHOLD = 0.9 # 显存占用阈值 class ChatTSRouter: def __init__(self): self.version = "v1" # 默认保守 self.last_check = 0 self.cache = {} # 简单本地缓存，key=文本hash def _probe(self, ver: str) -> bool: """探测指定版本是否健康""" url = f"{ENDPOINTS[ver]}/health" try: resp = requests.get(url, timeout=TIMEOUT) if resp.status_code != 200: return False gpu = resp.json().get("gpu_mem_percent", 1) return gpu < GPU_THRESHOLD except Exception as e: logging.warning("probe %s failed: %s", ver, e) return False def _select(self) -> str: """每 30 s 刷新一次路由决策""" now = int(time.time()) if now - self.last_check > 30: if self._probe("v2"): self.version = "v2" else: self.version = "v1" self.last_check = now logging.info("route to %s", self.version) return self.version def tts(self, text: str) -> bytes: """外部唯一入口""" if text in self.cache: # 读缓存 return self.cache[text] ver = self._select() url = f"{ENDPOINTS[ver]}/api/tts" payload = {"text": text, "voice": "zh_female_shanghai"} resp = requests.post(url, json=payload, timeout=10) resp.raise_for_status() audio = resp.content # 缓存 1000 条，防止 OOM if len(self.cache) > 1000: self.cache.pop(next(iter(self.cache))) self.cache[text] = audio return audio if __name__ == "__main__": router = ChatTSRouter() with ThreadPoolExecutor(max_workers=8) as pool: futures = [pool.submit(router.tts, f"测试文本{i}") for i in range(20)] for f in as_completed(futures): try: _audio = f.result() print("got audio size", len(_audio)) except Exception as exc: logging.error("task failed: %s", exc)

代码要点：

探测失败立即降级，不“硬撑”
本地缓存用 dict+LRU 简单裁剪，防止内存泄漏
线程池演示高并发调用，异常全部接住并记录，避免把网关打挂

生产考量

Kubernetes 部署模板

把 v1、v2 做成两个 Deployment，共用同一个 Service（chatts-headless），由上面的 router 决定流量去向。GPU 配额是重点：v2 需要 10 GB，但节点只有 24 GB，所以把 maxReplicas 设成 2，防止 HPA 把卡挤爆。

apiVersion: apps/v1 kind: Deployment metadata: name: chatts-v2 spec: replicas: 1 selector: matchLabels: {app: chatts, ver: v2} template: metadata: labels: {app: chatts, ver: v2} spec: containers: - name: tts image: your-registry/chatts:2.0-cuda118 resources: requests: nvidia.com/gpu: "1" memory: "4Gi" cpu: "2" limits: nvidia.com/gpu: "1" memory: "12Gi" # 给足显存 cpu: "4" env: - name: MODEL_PRELOAD value: "1" livenessProbe: httpGet: {path: /health, port: 8080} initialDelaySeconds: 60 # 冷启动慢 readinessProbe: httpGet: {path: /ready, port: 8080} initialDelaySeconds: 30

冷启动优化

v2.0 第一次推理要 JIT 编译 CUDA kernel，实测 35 s。解决思路：

镜像里加一条「预热」CMD：python preload.py，把常见句子先跑一遍，再打包成新镜像
启动探针把 initialDelaySeconds 调到 60 s，防止未 ready 就接流量
配合 HPA 的 stabilizationWindowSeconds: 300，避免峰值时盲目扩容导致冷启动雪崩

避坑指南

API 变更：v2.0 彻底移除<prosody>等 SSML 标签，若老业务直接拼接 XML，会 400；务必提前做正则清洗
高并发缓存：对 15 s 内的重复文本，直接上 Redis+TTL，减少 30% 打到模型的 QPS
音频编码：v2 默认 48 kHz，而 v1 是 16 kHz，下游 FFmpeg 拼接新闻播报时，如果采样率混用，会出现“吱吱”变速；统一用-ar 16000 -ac 1 -sample_fmt s16再转码
日志别打音频 blob：曾经把 200 kB 的 wav 打印到 stdout，ELK 一天就爆 1 TB