小白也能懂的语音识别：Fun-ASR保姆级使用教程-智慧文博士

小白也能懂的语音识别：Fun-ASR保姆级使用教程

你有没有过这样的经历：会议录音存了一堆，却懒得听；采访素材录了三小时，整理文字要花一整天；客服通话成百上千条，想查某句关键话得翻到眼花？别再靠“人耳+手动”硬扛了——现在，一个点几下就能把声音变成文字的工具，真的来了。

它叫Fun-ASR，是钉钉联合通义实验室推出、由开发者“科哥”亲手构建的本地化语音识别系统。没有复杂命令行，不用配环境，不传数据上云，更不需要懂模型、参数、GPU这些词。只要你有一台能上网的电脑，打开浏览器，就能用上专业级的语音转写能力。

这篇文章就是为你写的——不是给工程师看的部署文档，而是给第一次听说“ASR”的你，准备的一份真正能照着做的、零门槛、不绕弯、带截图感的实操指南。从启动到出结果，每一步都像教朋友一样讲清楚。咱们不聊架构，不谈原理，只说：怎么用、怎么快、怎么准、怎么避坑。

1. 三分钟启动：连服务器都不用买

Fun-ASR 最大的优点，就是“开箱即用”。它不像很多AI工具需要装Python、配CUDA、下载几十GB模型——它已经打包好了，你只需要执行一条命令，服务就跑起来了。

1.1 启动前确认两件事

你的电脑已安装Python 3.9 或更高版本（Windows/macOS/Linux 都支持）
如果你有NVIDIA显卡（比如RTX 3060及以上），建议开启GPU加速；没有也没关系，CPU也能跑，只是稍慢一点

小贴士：不确定有没有Python？在终端（Windows叫“命令提示符”或“PowerShell”，Mac/Linux叫“终端”）里输入python --version或python3 --version，能看到类似Python 3.10.12的输出，就说明已安装。

1.2 一行命令，启动服务

进入 Fun-ASR 的安装目录（比如你把它解压到了~/Downloads/fun-asr-webui），运行：

bash start_app.sh

你会看到类似这样的滚动日志：

Starting Fun-ASR WebUI... Loading model from ./models/Fun-ASR-Nano-2512... Model loaded successfully on cuda:0 Gradio app launched at http://localhost:7860

看到最后一行http://localhost:7860，就说明启动成功了！

1.3 打开浏览器，进入界面

本地使用：直接在浏览器地址栏输入http://localhost:7860
远程使用（比如你在公司服务器上部署）：用同事电脑访问http://你的服务器IP:7860，例如http://192.168.1.100:7860

注意：首次访问可能需要几秒加载界面，别急着刷新。如果打不开，请检查是否防火墙拦截了7860端口，或确认start_app.sh是否真正在运行（可用ps aux | grep python查看进程）。

2. 第一次识别：上传一个MP3，5分钟搞定

我们从最简单的场景开始：你手头有一段会议录音MP3，想快速转成文字。整个过程不到5分钟，连鼠标点击都数得清。

2.1 进入「语音识别」页面

启动后，默认打开的就是主界面。顶部导航栏中，点击「语音识别」标签页（就是第一个）。

你会看到一个简洁的区域，中间有个大大的虚线框，写着“上传音频文件”——这就是你的起点。

2.2 上传音频的两种方式（任选其一）

方式一：上传本地文件
点击虚线框，或直接把MP3/WAV/FLAC/M4A文件拖进去。支持多格式，常见手机录音、微信语音导出的文件基本都能认。
方式二：直接用麦克风录一段
点击右下角的🎤麦克风图标，浏览器会请求权限，点“允许”。对着电脑说话，说完点停止，它会自动把这段录音作为输入。

推荐新手先用方式一：找一个10秒左右的清晰录音试水（比如自己说一句“今天天气不错”），避免第一次就挑战长音频。

2.3 关键设置：三个选项，决定识别效果

上传完成后，别急着点“开始识别”。先看下面这三个设置项——它们就像“音量旋钮”，调对了，准确率能差20%：

设置项	怎么选	为什么重要
目标语言	默认是“中文”，如果你录的是英文或日文，才需要改	选错语言=全盘皆输，系统会强行按中文规则去“听”英文，结果全是乱码
启用文本规整（ITN）	建议勾选（默认就是勾选的）	它能把“一千二百三十四”变成“1234”，把“二零二五年”变成“2025年”，让文字更像人写的，而不是机器人念的
热词列表	初次可跳过，等熟悉后再用	如果录音里反复出现专有名词（比如“钉钉”、“通义千问”、“项目周报”），在这里每行写一个，识别时会特别“留心”，大幅减少张冠李戴

小技巧：热词不是越多越好。刚开始用，写3~5个最关键的就行。比如你录的是产品发布会，就写“Fun-ASR”“科哥”“WebUI”“离线识别”。

2.4 开始识别 & 查看结果

点击绿色的「开始识别」按钮。

短音频（<30秒）：1~3秒出结果
中等音频（1~2分钟）：约10~20秒
长音频（>5分钟）：耐心等，进度条会实时显示

识别完成后，页面下方会立刻出现两栏结果：

识别结果：原样输出模型“听到”的内容（可能带口语停顿词，如“呃”“啊”）
规整后文本：经过ITN处理后的干净版本（数字、日期、单位都标准化了）

此时你可以：复制粘贴、直接截图、或者点右上角“下载文本”保存为.txt文件。

3. 日常高频场景：这样用才省力

光会单次识别还不够。真正提升效率的，是把 Fun-ASR 变成你工作流里的“固定动作”。下面这三种用法，覆盖了80%的日常需求。

3.1 实时边说边转：开会时同步出字幕（适合安静环境）

这个功能叫「实时流式识别」，名字听起来高大上，其实很简单：打开麦克风，你说，它记。

进入顶部导航栏的「实时流式识别」页面
点击🎤麦克风图标 → 允许权限 → 开始说话
说完后点“停止录音”，再点「开始实时识别」

注意：这不是真正的“毫秒级”流式（像讯飞听见那样），而是把你说的每2秒切一段，快速识别后拼起来。所以会有1~2秒延迟，但足够用于个人笔记、远程协作记录。

实测建议：用Chrome或Edge浏览器；关掉空调、风扇等背景噪音源；语速适中，别太快。我们试过边读PPT边说，识别准确率稳定在90%+。

3.2 一次处理50个文件：告别逐个上传（批量处理）

如果你有10个客户访谈录音、20节网课音频、30段培训录像，一个个传太折磨人。用「批量处理」，一键全搞定。

进入「批量处理」页面
点击“上传音频文件”，一次性选中所有MP3（支持Ctrl/Cmd多选，也支持拖拽）
设置统一参数：语言、是否ITN、热词（比如所有文件都涉及“金融风控”，就在这里统一加）
点击「开始批量处理」

你会看到一个清晰的进度条，显示：

当前处理第几个文件
文件名（比如interview_07.mp3）
已完成 / 总数（如12/50）

处理完后，所有结果集中展示，还能：

点击任意一条，查看完整识别文本
点击“导出CSV”，生成带文件名、时间、文本的表格，方便导入Excel分析
点击“导出JSON”，供程序员做二次开发

真实案例：一位HR同事用它处理了47段校招面试录音，25分钟全部转完，再用Excel筛选含“沟通能力”的句子，当天就完成了人才画像初稿。

3.3 找回上次的记录：历史不丢，随时翻查（识别历史）

每次识别完，系统都会自动存档。进「识别历史」页面，就能找回所有记录。

默认显示最近100条，按时间倒序排列
搜索框输入关键词（比如“周报”“钉钉”“会议”），立刻过滤出相关记录
点击某条记录的ID，能看到：原始音频路径、完整识别文本、规整后文本、用了哪些热词、当时选的语言……信息非常全

数据安全提醒：所有历史记录只存在你本地电脑的webui/data/history.db文件里，不联网、不上传、不备份到任何云端。你删掉这个文件，历史就彻底清空——完全可控。

4. 进阶技巧：让识别更准、更快、更稳

用熟了基础功能，再学这几个“小开关”，你会发现 Fun-ASR 还有隐藏实力。

4.1 VAD检测：自动剪掉“静音废片”，省时又省力

想象一段90分钟的会议录音，实际说话时间可能只有35分钟，其余全是翻纸声、咳嗽、沉默。如果直接喂给ASR，它得白白算60分钟“空气”。

VAD（语音活动检测）就是来干这个的：自动找出哪几段是真的在说话。

进入「VAD 检测」页面
上传音频（和语音识别一样操作）
设置“最大单段时长”（默认30秒，够用；如果怕切太碎，可调到45秒）
点击「开始 VAD 检测」

结果会告诉你：

共检测到多少段有效语音（比如“检测到28段语音”）
每段的起止时间（如“第1段：00:02:15 ~ 00:02:48”）
如果勾选了“同时识别”，还会直接给出每段的识别文本

之后，你只需把这28段有效片段单独导出，再批量识别——速度提升近3倍，GPU显存占用直降50%。

4.2 系统设置：三步调出最佳性能

别被“系统设置”吓到，这里只有四个真正有用的开关：

设置项	推荐选择	效果
计算设备	有N卡选`cuda:0`；Mac M系列选`mps`；没独显选`cpu`	决定快慢的核心。GPU模式比CPU快2~4倍
批处理大小	默认`1`，别改	改大了容易显存爆炸，新手保持默认最稳
清理 GPU 缓存	出现卡顿、报错时点一下	立刻释放显存，比重启应用快得多
卸载模型	暂时不用ASR时点一下	节省内存，让其他程序跑得更流畅

如果你遇到“CUDA out of memory”错误（显存不足），按这个顺序操作：①点“清理GPU缓存”→②等几秒→③重试识别。90%的问题当场解决。

5. 常见问题快查：5秒定位，1分钟解决

我们把用户最常卡住的7个问题，浓缩成一句话答案，不用翻文档，直接对号入座：

Q：识别半天没反应？
A：先看右上角计算设备是不是cpu（太慢），换成cuda:0；再检查音频是否损坏（换一个MP3试试）。
Q：识别结果全是错别字？
A：第一步，确认“目标语言”选的是“中文”；第二步，检查录音质量——手机外放录音、隔着桌子录，效果必然差；第三步，加热词。
Q：麦克风点不了？
A：Chrome/Edge浏览器 → 地址栏左侧点锁形图标 → “网站设置” → 把“麦克风”设为“允许”。
Q：批量处理卡在第3个文件不动了？
A：大概率是那个文件损坏或格式异常。进“识别历史”，看前两个是否成功；失败的那个，单独上传试试。
Q：导出的CSV打开是乱码？
A：用WPS或Excel打开时，选择“UTF-8编码”，别用系统记事本双击打开。
Q：历史记录太多，想清空但怕误删？
A：先点“搜索”，输入一个不存在的词（比如“xyz123”），确认列表为空；再点“清空所有记录”，就万无一失。
Q：页面按钮点不动、样式错乱？
A：快捷键Ctrl+F5（Windows）或Cmd+Shift+R（Mac）强制刷新，99%恢复。

6. 总结：你真正需要记住的三句话

Fun-ASR 不是另一个需要学习的AI工具，而是一个可以立刻嵌入你日常工作的“语音助手”。回顾全程，你只需要记住这三句话：

启动很简单：bash start_app.sh→ 浏览器打开http://localhost:7860→ 完事。
识别很直观：拖文件进来 → 选中文+开ITN → 点“开始识别” → 复制结果。
提效很实在：批量处理省时间，VAD检测省算力，历史管理省脑子。

它不追求参数世界第一，但把“听得清、转得准、用得顺、管得住”这四件事，扎扎实实做到了。尤其适合那些不想折腾技术细节，只想让声音快速变成可用文字的职场人、教师、记者、客服管理者。

你现在就可以打开电脑，找一段录音，花3分钟走一遍流程。当第一行文字从音频里“跳”出来时，那种“原来这么简单”的感觉，就是技术真正落地的时刻。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

小白也能懂的语音识别：Fun-ASR保姆级使用教程