支持实时录音与多格式导出｜FunASR WebUI镜像使用手册-智慧文博士

支持实时录音与多格式导出｜FunASR WebUI镜像使用手册

1. 快速上手：从启动到首次识别

你是不是也经常遇到这样的场景？会议录音要整理成文字、课程音频需要转写笔记，或者想给一段视频加字幕却苦于手动输入太慢。现在，有了 FunASR WebUI 镜像，这些需求都能一键搞定。

这款由“科哥”基于speech_ngram_lm_zh-cn模型二次开发的语音识别工具，不仅支持上传多种格式音频文件进行离线识别，还具备浏览器端实时录音功能，并能将结果导出为文本、JSON 和 SRT 字幕等多种格式，真正实现了开箱即用。

1.1 如何访问你的语音识别系统

当你成功部署该镜像后，服务默认运行在本地7860端口。你可以通过以下地址访问 WebUI 界面：

http://localhost:7860

如果你是在远程服务器上部署的，只需将localhost替换为服务器 IP 地址即可：

http://<你的服务器IP>:7860

打开浏览器输入地址后，你会看到一个简洁美观的紫蓝渐变主题界面，标题清晰写着“FunASR 语音识别 WebUI”，下方是开发者信息和版权说明——这是属于你自己的私有语音识别平台。

2. 界面详解：每个按钮都值得了解

别被“WebUI”这个词吓到，它其实非常直观易用。整个页面分为左右两部分：左侧是控制面板，右侧是功能操作区。我们来一步步拆解它的核心模块。

2.1 左侧控制面板全解析

2.1.1 模型选择：精度 vs 速度

目前提供两个主流模型供你切换：

Paraformer-Large：大模型，识别准确率更高，适合对质量要求高的场景（如正式会议记录）
SenseVoice-Small：小模型，默认选项，响应更快，适合日常快速转录

建议你在网络条件好、显卡资源充足时优先尝试 Paraformer-Large；若追求效率或设备性能有限，则 SenseVoice-Small 是更稳妥的选择。

2.1.2 设备模式：GPU 加速才是王道

CUDA：启用 GPU 推理，处理速度显著提升（推荐有 NVIDIA 显卡用户使用）
CPU：无显卡环境下的备用方案，虽然稳定但速度较慢

系统会自动检测是否有可用 GPU 并默认选中 CUDA，但如果发现识别卡顿，记得检查是否真的调用了 GPU 资源。

2.1.3 功能开关三件套

这三个复选框直接影响输出效果，按需开启：

启用标点恢复 (PUNC)：让识别结果自动加上逗号、句号等标点，读起来更自然
启用语音活动检测 (VAD)：自动切分静音段落，避免识别出“嗯”、“啊”这类无效内容
输出时间戳：为每句话标注起止时间，后续做字幕或剪辑定位特别有用

初次使用建议全部勾上，体验完整功能后再根据实际需求关闭某些项。

2.1.4 模型状态与操作按钮

最下方显示当前模型加载状态：

✓ 表示模型已就绪，可以开始识别
✗ 表示未加载，需点击“加载模型”手动初始化

“刷新”按钮用于更新状态显示，尤其在更换模型或设备后建议点击一次，确保配置生效。

3. 实战操作：两种方式完成语音转写

FunASR WebUI 提供了两种主流的语音输入方式：上传已有音频文件和浏览器实时录音。无论哪种方式，最终都能获得高质量的文字输出。

3.1 方式一：上传音频文件识别（适合已有录音）

3.1.1 支持哪些音频格式？

这个工具兼容性很强，支持以下常见格式：

WAV (.wav)
MP3 (.mp3)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)
PCM (.pcm)

推荐使用 16kHz 采样率的音频，这是大多数中文语音模型的最佳输入标准。高保真录音也不用担心，系统会自动降采样处理。

3.1.2 上传并开始识别

步骤很简单：

在右侧“ASR 语音识别”区域点击“上传音频”
选择本地文件，等待上传完成
设置参数：
- 批量大小（秒）：默认 300 秒（5 分钟），最长支持 600 秒
- 识别语言：可选auto（自动检测）、zh（中文）、en（英文）、yue（粤语）、ja（日语）、ko（韩语）

小贴士：如果是纯中文内容，建议直接选zh，比 auto 更精准；混合语种才用 auto。

点击“开始识别”，几秒钟内就能看到结果！

3.1.3 查看三种结果视图

识别完成后，结果区会出现三个标签页：

标签页	内容说明
文本结果	干净整洁的纯文本，可直接复制粘贴使用
详细信息	JSON 格式数据，包含置信度、时间戳等元信息，适合程序调用
时间戳	按词或句子划分的时间区间，方便后期编辑

例如一段简单的对话会被解析成：

[001] 0.000s - 1.200s (时长: 1.200s) —— 你好 [002] 1.200s - 3.500s (时长: 2.300s) —— 欢迎来到语音识别系统

这对制作视频字幕来说简直是神器。

3.2 方式二：浏览器实时录音（边说边转写）

这才是真正“动口不动手”的体验！无需提前准备录音文件，直接对着麦克风说话就能实时转文字。

3.2.1 开启录音权限

点击“麦克风录音”按钮后，浏览器会弹出权限请求：

“XXX 网站想要使用你的麦克风”

务必点击“允许”。如果误点了拒绝，可以在浏览器设置中重新授权。

3.2.2 录音与识别流程

点击“开始录音”，说出你想转写的语句
完成后点击“停止录音”
自动跳转至识别环节，点击“开始识别”即可

整个过程流畅自然，就像在用微信语音聊天一样简单。而且由于是本地处理，所有音频不会上传到任何第三方服务器，隐私安全完全可控。

4. 结果导出：一键生成多格式文件

识别完成后，别忘了把成果保存下来。系统提供了三个下载按钮，满足不同用途。

4.1 导出格式一览

下载按钮	文件类型	适用场景
下载文本	`.txt`	直接阅读、复制内容、导入文档
下载 JSON	`.json`	开发对接、数据分析、二次加工
下载 SRT	`.srt`	视频剪辑配字幕、B站/抖音投稿

SRT 是最常见的字幕格式，几乎所有视频编辑软件（Premiere、Final Cut Pro、剪映）都支持导入。这意味着你可以轻松地为课程录像、访谈视频添加自动生成的字幕。

4.2 文件存储路径说明

所有输出文件统一保存在容器内的outputs/目录下，命名规则带有精确时间戳：

outputs/outputs_20260104123456/ ├── audio_001.wav # 原始录音副本 ├── result_001.json # 完整识别结果 ├── text_001.txt # 纯文本版 └── subtitle_001.srt # SRT 字幕文件

每次识别都会创建一个独立文件夹，避免覆盖历史记录，便于管理和归档。

5. 高级技巧：提升识别质量的实用建议

虽然 FunASR 本身已经很智能，但要想获得最佳识别效果，还是有一些“隐藏技巧”可以掌握。

5.1 合理设置批量大小

默认值：300 秒（5 分钟）
可调范围：60 ~ 600 秒

对于超过 5 分钟的长音频，建议分段上传。过大的 batch size 不仅增加内存压力，还可能导致识别延迟甚至失败。

5.2 正确选择语言模式

语言选择直接影响识别准确率：

中文为主 → 选zh
英文演讲 → 选en
粤语采访 → 选yue
多语混杂 → 选auto

特别是方言或口音较重的情况，固定语言能减少误判。

5.3 时间戳的实际用途

开启“输出时间戳”后，不仅能查看每句话的起止时间，还能实现：

视频剪辑时快速定位关键片段
教学视频中生成知识点索引
法律取证中精确还原对话顺序

结合 SRT 导出功能，几乎零成本完成专业级字幕制作。

6. 常见问题与解决方案

再强大的工具也会遇到小状况。以下是用户反馈最多的几个问题及应对方法。

6.1 识别不准怎么办？

先别急着换模型，试试这几个排查步骤：

检查音频质量：背景噪音大、人声太轻都会影响识别
确认语言设置：英文内容误设为中文会导致大量乱码
尝试开启 VAD 和 PUNC：有助于过滤无效音节并增强语义连贯性
使用 16kHz 单声道 WAV 格式重新编码音频

如果仍不理想，可考虑后期用降噪工具（如 Adobe Audition 或 RNNoise）预处理音频。

6.2 识别速度太慢？

主要看三点：

是否使用了 CPU 模式？有 GPU 的一定要选 CUDA
音频是否过长？建议拆分为 3~5 分钟一段
是否选择了大模型？Paraformer-Large 虽准但耗资源

临时提速方案：切换为 SenseVoice-Small + CPU 模式，牺牲一点精度换取速度。

6.3 无法上传文件？

常见原因如下：

文件过大（建议小于 100MB）
格式不支持（尽量用 MP3 或 WAV）
浏览器兼容性问题（推荐 Chrome 或 Edge）

解决办法：转换格式、压缩体积、更换浏览器重试。

6.4 录音没声音？

请依次检查：

浏览器是否授予麦克风权限
系统麦克风是否正常工作（可在其他应用测试）
麦克风输入音量是否被静音或调得太低

Windows 用户可在“声音设置”中查看录制设备状态，Mac 用户可在“系统设置 > 声音 > 输入”中确认。

7. 总结：为什么你应该试试这款镜像

经过这一轮实操，你会发现 FunASR WebUI 镜像不仅仅是一个语音识别工具，更像是一个私人语音助手。它具备三大核心优势：

零门槛使用：图形化界面，无需代码基础，点点鼠标就能完成转写
全链路闭环：从录音、识别到导出字幕，一站式解决所有需求
高度可定制：支持模型切换、语言选择、时间戳输出，满足多样化场景

无论是学生整理课堂笔记、记者撰写采访稿，还是自媒体创作者制作视频字幕，这款工具都能大幅提升工作效率。

更重要的是，它是开源免费的，承诺永久可用，背后还有开发者“科哥”持续维护和支持。这种社区驱动的精神，在当下尤为珍贵。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

支持实时录音与多格式导出｜FunASR WebUI镜像使用手册