在Mac上训练ChatTTS模型：从环境配置到实战避坑指南-智慧文博士

在Mac上训练ChatTTS模型：从环境配置到实战避坑指南

把耳朵叫醒之前，先让电脑把嗓子练好。下面这份笔记，记录了我把 ChatTTS 塞进 16 GB 的 MacBook Pro 里“练声”的全过程，踩过的坑都标了红线，能抄作业就抄，别客气。

1. 环境准备：先给 Mac 选对“引擎”

Mac 没有 CUDA，但苹果把 Metal Performance Shaders（MPS）直接做到了 PyTorch 里，等于白送一块“准 GPU”。实测同样 10 k 步，CPU 要 6 h 20 min，MPS 只要 1 h 45 min，差距肉眼可见。

用 Miniforge 装 Python 3.9，省得和系统 Python 打架

新建环境

conda create -n chattts python=3.9 conda activate chattts

装 PyTorch 1.13+ 的 MPS 版

pip install torch torchvision torchaudio --extra-index-url \ https://download.pytorch.org/whl/mps

验证 MPS 可用

import torch print(torch.backends.mps.is_available()) # True 才能继续

小贴士：别用官方 pkg 安装 Python，Rosetta 转译后会出现“非法指令”崩溃，血泪教训。

2. 数据预处理：把“干声”切成“口粮”

ChatTTS 默认要吃 22050 Hz、单通道、无静音的干净音频。下面这段脚本一次完成重采样、切分、梅尔频谱提取，并直接存成.pt省内存。

安装依赖

pip install librosa==0.9.2 soundfile numpy torch

预处理脚本preprocess.py

import os, librosa, soundfile as sf, torch, math from pathlib import Path SR = 22_500 N_FFT = 1024 HOP = 256 N_MEL = 80 SEG_LEN = 16_000 # 约 0.7 s，适配 16 GB 显存 def trim_and_split(wav_path, out_dir): y, _ = librosa.load(wav_path, sr=SR, mono=True) y, _ = librosa.effects.trim(y, top_db=25) # 去头尾静音 n = len(y) for i in range(0, n-SEG_LEN, SEG_LEN//2): # 50 % 重叠 seg = y[i:i+SEG_LEN] if len(seg) < SEG_LEN: # 尾部补 0 seg = librosa.util.fix_length(seg, SEG_LEN) mel = librosa.feature.melspectrogram( y=seg, sr=SR, n_fft=N_FFT, hop_length=HOP, n_mels=N_MEL) logmel = torch.tensor(librosa.power_to_db(mel)) fname = Path(wav_path).stem + f"_{i}.pt" torch.save(logmel, out_dir / fname) if __name__ == "__main__": out = Path("data/mel") out.mkdir(exist_ok=True, parents=True) for wav in Path("wavs").rglob("*.wav"): trim_and_split(wav, out)

跑完会在data/mel里得到一堆.pt，单条约 1.3 MB，后续Dataset直接torch.load，省掉现场算梅尔的耗时。

3. 模型训练：小内存也能“大口吃”

ChatTTS 官方默认 batch=32，在 16 GB Mac 上直接 OOM。思路两个：缩小 batch + 梯度累积。

自定义collate_fn把变长 mel 补齐到相同帧数

def collate(batch): xs = [b.t() for b in batch] lens = [x.size(0) for x in xs] max_len = max(lens) padded = [torch.cat([x, torch.zeros(max_len-x.size(0), x.size(1))]) for x in xs] return torch.stack(padded), torch.tensor(lens)

训练脚本关键片段

ACCUM = 4 # 梯度累积步数 MICRO_BATCH = 6 # 实际喂给 MPS 的批量 model = ChatTTS().to(device) opt = torch.optim.AdamW(model.parameters(), lr=2e-4) for epoch in range(EPOCHS): for i, (x, lens) in enumerate(loader): x = x.to(device) loss = model(x, lens) (loss / ACCUM).backward() # 先缩放梯度 if (i+1) % ACCUM == 0: opt.step(); opt.zero_grad()

实测 10 k 步
- CPU 训练：6 h 20 min，峰值内存 14.8 GB
- MPS 训练：1 h 45 min，峰值内存 12.1 GB
  梯度累积=4 时，等效 batch=24，Loss 收敛曲线与官方 32 基本持平。

4. 性能优化：把 M 系列芯片榨干

苹果给 M1/M2 埋了俩彩蛋：ANE（神经网络引擎）+ 统一内存。PyTorch 1.13 起支持mps后端，但 ANE 目前只跑苹果自家 CoreML，PyTorch 还够不着，所以重点放在内存压缩和混合精度。

混合精度

scaler = torch.cuda.amp.GradScaler() # MPS 也认这 API with torch.autocast(device_type='mps', dtype=torch.float16): loss = model(x, lens) scaler.scale(loss).backward() scaler.step(opt); scaler.update()

显存占用再降 18 %，速度提 8 %，实测无肉眼掉质。

统一内存“零拷贝”
把num_workers=0给DataLoader，避免多进程把 tensor 复制到子进程；pin_memory=False在 MPS 上反而更快。
动态帧长采样
每 epoch 把SEG_LEN随机 ±10 %，能让模型更鲁棒，还顺带省 7 % 的 padding 开销。

5. 避坑指南：报错信息翻译机

报错	根因	速效救心丸
`librosa.util.exceptions.ParameterError`	0.10 版 librosa 把`power_to_db`默认 top_db 改了	锁版本`pip install librosa==0.9.2`
`RuntimeError: Invalid buffer size`	MPS 目前最大 tensor 2 GB	把 batch 再砍一半或切分输入
`Killed: 9`	虚拟内存不足，系统 OOM 杀进程	关闭 Chrome，加 8 GB swap：`sudo dd if=/dev/zero of=/swapfile bs=1m count=8192`
训练 loss 突然 NaN	梯度累积忘记清零	检查`opt.zero_grad()`位置