快速搭建本地语音识别服务｜FunASR + speech_ngram_lm

快速搭建本地语音识别服务｜FunASR + speech_ngram_lm_zh-cn 镜像详解

1. 背景与技术选型

1.1 为什么选择 FunASR？

在当前语音识别技术快速发展的背景下，构建一个高效、稳定、可离线运行的本地语音识别系统成为许多开发者和企业的刚需。FunASR是由阿里巴巴达摩院开源的一套高性能自动语音识别（ASR）工具包，具备以下核心优势：

多任务支持：涵盖 ASR、VAD（语音活动检测）、标点恢复、关键词识别等完整语音处理流程。
丰富的预训练模型：提供针对中文、英文等多种语言优化的模型，适用于会议记录、直播转写、客服对话等场景。
灵活部署方式：支持 Python 原生调用、Docker 容器化部署、ONNX/TensorRT 推理加速，适配从边缘设备到服务器的多种环境。
持续更新与社区活跃：项目托管于 GitHub，持续迭代并拥有良好的文档支持。

结合speech_ngram_lm_zh-cn中文语言模型进行二次开发，能够显著提升中文语境下的识别准确率，尤其在专业术语、口语表达和长句理解方面表现更优。

1.2 镜像简介

本文介绍的镜像是基于官方 FunASR 框架，集成speech_ngram_lm_zh-cn-ai-wesp-fst语言模型，并由开发者“科哥”进行 WebUI 二次开发后打包发布的 Docker 镜像：

镜像名称：FunASR 语音识别基于 speech_ngram_lm_zh-cn 二次开发构建 by 科哥
核心功能增强：
- 内置 Paraformer-Large 和 SenseVoice-Small 双模型切换
- 支持 VAD 自动分段、标点恢复、时间戳输出
- 提供直观的 Web 界面操作，无需编程即可使用
- 输出格式多样化（TXT、JSON、SRT 字幕）

该镜像极大降低了本地部署门槛，适合科研人员、产品经理、内容创作者等非算法背景用户快速上手。

2. 镜像部署与启动

2.1 环境准备

确保主机已安装以下基础组件：

Docker Engine≥ 20.10
NVIDIA Driver（如使用 GPU 加速）≥ 470.x
NVIDIA Container Toolkit（GPU 用户必装）

# 安装 NVIDIA Container Toolkit（Ubuntu 示例） distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update && sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker

2.2 拉取并运行镜像

# 创建持久化存储目录 mkdir -p ~/funasr_outputs # 运行容器（CPU 版本） docker run -d \ --name funasr-webui \ -p 7860:7860 \ -v ~/funasr_outputs:/app/outputs \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:webui-speech_ngram_lm_zh-cn-cpu-v1.0 # 或使用 GPU 版本（需支持 CUDA） docker run -d \ --gpus all \ --name funasr-webui-gpu \ -p 7860:7860 \ -v ~/funasr_outputs:/app/outputs \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:webui-speech_ngram_lm_zh-cn-gpu-v1.0

说明：
-p 7860:7860映射 WebUI 访问端口
-v ~/funasr_outputs:/app/outputs持久化保存识别结果
使用--gpus all启用 GPU 加速，推理速度可提升 3~5 倍

2.3 访问 WebUI

启动成功后，在浏览器中访问：

http://localhost:7860

或远程访问：

http://<你的服务器IP>:7860

页面加载完成后将显示如下界面：

3. WebUI 功能详解

3.1 界面布局概览

整个 WebUI 分为两大区域：

左侧控制面板：模型配置、参数设置、操作按钮
右侧识别区域：上传音频、开始识别、查看结果

头部信息栏

标题：FunASR 语音识别 WebUI
描述：基于 FunASR 的中文语音识别系统
版权声明：webUI 二次开发 by 科哥 | 微信：312088415

3.2 控制面板功能解析

3.2.1 模型选择

模型	特点	推荐场景
Paraformer-Large	高精度、大参数量	对准确性要求高的正式场合
SenseVoice-Small	响应快、资源占用低	实时交互、移动端模拟

默认选中 SenseVoice-Small，可在“加载模型”前手动切换。

3.2.2 设备选择

CUDA：启用 GPU 加速（推荐有显卡用户）
CPU：通用模式，兼容性好但速度较慢

系统会根据硬件自动判断是否可用 CUDA，建议优先选择 GPU 模式以获得最佳性能。

3.2.3 功能开关

✅启用标点恢复 (PUNC)
自动为识别文本添加逗号、句号等标点符号，提升可读性。
✅启用语音活动检测 (VAD)
自动切分连续音频中的静音段落，避免无效识别。
✅输出时间戳
在结果中标注每个词或句子的时间区间，便于后期对齐视频或剪辑音频。

3.2.4 模型状态与操作按钮

模型状态指示灯：
- ✓ 绿色：模型已成功加载
- ✗ 红色：未加载或加载失败
操作按钮：
- 加载模型：首次进入需点击此按钮初始化模型
- 刷新：重新获取当前状态信息

4. 使用流程实战演示

4.1 方式一：上传音频文件识别

步骤 1：准备音频文件

支持格式包括：

.wav,.mp3,.m4a,.flac,.ogg,.pcm

推荐参数：

采样率：16kHz
单声道（Mono）
位深：16bit

若原始音频不符合要求，可用 FFmpeg 转换：
ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

步骤 2：上传音频

点击 “ASR 语音识别” 区域的上传音频
选择本地文件并等待上传完成

步骤 3：配置识别参数

批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒
识别语言：
- auto：自动检测（推荐混合语种）
- zh：纯中文
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

步骤 4：开始识别

点击“开始识别”按钮，系统将自动执行以下流程：

VAD 切分有效语音片段
ASR 模型逐段识别
N-Gram LM 语言模型纠错优化
PUNC 模型添加标点
合成最终结果

步骤 5：查看识别结果

结果分为三个标签页展示：

文本结果

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

详细信息（JSON）

{ "text": "你好，欢迎使用语音识别系统。", "confidence": 0.96, "timestamp": [[0.0, 2.5], [2.5, 5.0]] }

时间戳

[001] 0.000s - 2.500s (时长: 2.500s) [002] 2.500s - 5.000s (时长: 2.500s)

4.2 方式二：浏览器实时录音识别

步骤 1：授权麦克风权限

点击“麦克风录音”按钮，浏览器弹出权限请求 → 点击“允许”。

步骤 2：录制语音

开始说话，录音波形实时显示
点击“停止录音”结束录制

步骤 3：启动识别

与上传文件一致，点击“开始识别”即可处理录音数据。

录音文件默认保存为audio_001.wav并同步导出至输出目录。

5. 结果导出与高级设置

5.1 下载识别结果

识别完成后，可通过以下按钮下载不同格式的结果：

按钮	文件格式	用途
下载文本	`.txt`	纯文本复制粘贴
下载 JSON	`.json`	程序解析结构化数据
下载 SRT	`.srt`	视频字幕导入 Premiere/Final Cut

所有输出文件统一保存在挂载目录中：

~/funasr_outputs/outputs_YYYYMMDDHHMMSS/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

每次识别生成独立时间戳目录，防止文件覆盖。

5.2 高级功能调优

批量大小调整

小批量（60~120 秒）：适合高延迟容忍度场景，内存占用低
大批量（300~600 秒）：适合长音频一次性处理，提高吞吐效率

注意：过大的批处理可能导致 OOM（内存溢出），建议根据设备性能合理设置。

语言识别策略

场景	推荐设置
普通话讲座	`zh`
英文播客	`en`
中英混杂会议	`auto`
粤语访谈	`yue`

正确选择语言可使识别准确率提升 15% 以上。

时间戳应用示例

可用于制作视频字幕：

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

导入主流剪辑软件即可实现音画同步。

6. 常见问题与解决方案

6.1 识别结果不准确？

排查方向：

检查音频质量是否清晰，避免背景噪音过大
确认采样率为 16kHz，否则影响模型输入
尝试开启speech_ngram_lm_zh-cn语言模型增强纠错能力
更换为 Paraformer-Large 模型提升精度

建议使用 Audacity 等工具进行降噪预处理。

6.2 识别速度慢？

可能原因及对策：

原因	解决方案
使用 CPU 模式	改用 GPU 镜像并启用 CUDA
音频过长	分段处理，每段不超过 5 分钟
模型过大	切换至 SenseVoice-Small 模型
批量设置过高	调整 batch_size 至 120 秒以内

6.3 无法上传音频？

检查项：

文件格式是否为支持类型（优先使用 WAV/MP3）
文件大小是否超过 100MB 限制
浏览器是否阻塞了上传请求（尝试 Chrome/Firefox）

6.4 录音无声或无响应？

解决方法：

确保浏览器已授予麦克风权限
检查操作系统音频输入设备是否正常工作
调整系统麦克风增益（避免音量过低）

6.5 如何进一步提升准确率？

工程化建议：

使用高质量录音设备采集音频
统一音频编码标准（16kHz, 16bit, Mono）
在嘈杂环境中使用降噪耳机或后期滤波
针对特定领域微调语言模型（Hotwords）

7. 总结

本文详细介绍了如何通过“FunASR + speech_ngram_lm_zh-cn”定制镜像快速搭建本地语音识别服务。相比传统部署方式，该方案具有以下显著优势：

零代码部署：Docker 一键运行，无需配置复杂依赖
可视化操作：WebUI 界面友好，支持上传与实时录音双模式
高精度识别：集成 N-Gram 中文语言模型，有效纠正语法错误
多格式输出：支持 TXT、JSON、SRT，满足文档、程序、视频等多场景需求
可持续扩展：开放源码设计，支持后续自定义开发

无论是用于会议纪要自动化、教学视频字幕生成，还是作为智能助手的语音前端，这套本地化 ASR 方案都能提供稳定可靠的支撑。

对于希望将其集成到其他系统的开发者，也可参考官方 API 接口进行二次封装，实现与 Fay 数字人、RPA 工具、CRM 系统等深度联动。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。