电梯广告效果评估：乘客驻留时情绪变化AI分析-智慧文博士

电梯广告效果评估：乘客驻留时情绪变化AI分析

在现代城市生活中，电梯广告已成为品牌触达用户的重要场景。但一个关键问题始终困扰着营销方：广告真的打动了乘客吗？传统评估方式依赖问卷或点击率，难以捕捉真实、即时的情绪反馈。如今，借助AI语音情感识别技术，我们可以在不侵犯隐私的前提下，通过分析乘客在封闭空间内的自然反应，精准评估广告传播效果。

本文将介绍如何利用阿里开源的SenseVoiceSmall多语言语音理解模型，构建一套“电梯广告情绪感知系统”。该系统不仅能转写乘客对话内容，更能识别其情绪波动（如开心、惊讶、愤怒）和环境声音事件（如笑声、背景音乐），为广告效果提供量化依据。

1. 技术核心：SenseVoiceSmall 模型能力解析

1.1 为什么选择 SenseVoiceSmall？

相比传统ASR（自动语音识别）仅能输出文字，SenseVoiceSmall是阿里巴巴达摩院推出的一款具备“富文本理解”能力的语音大模型。它不仅能高精度识别中、英、日、韩、粤语等多语种语音，还能同步感知声音背后的情绪状态与环境特征。

这一特性使其成为非侵入式用户体验分析的理想工具——无需摄像头，仅通过音频即可判断用户对广告内容的真实反应。

1.2 核心功能亮点

功能类别	支持项	实际意义
多语言识别	中文、英文、粤语、日语、韩语	覆盖主流城市人群，适应多元语言环境
情感识别	开心（HAPPY）、愤怒（ANGRY）、悲伤（SAD）、中性（NEUTRAL）等	判断广告是否引发积极情绪共鸣
声音事件检测	BGM（背景音乐）、LAUGHTER（笑声）、APPLAUSE（掌声）、CRY（哭声）等	捕捉群体性反应，识别“爆点时刻”
富文本输出	原始标签 `<	HAPPY

关键优势：采用非自回归架构，在NVIDIA 4090D等消费级显卡上也能实现秒级推理，适合部署于边缘设备进行实时分析。

2. 系统搭建：从镜像到Web交互界面

本方案基于预集成Gradio WebUI的镜像环境，支持GPU加速推理，开发者无需从零配置即可快速启动服务。

2.1 环境依赖概览

Python: 3.11
PyTorch: 2.5
核心库:funasr,modelscope,gradio,av（音频解码）
系统工具:ffmpeg（自动重采样至16kHz）

所有依赖均已打包进镜像，开箱即用。

2.2 启动Web服务流程

步骤一：安装必要组件（若未预装）

pip install av gradio

步骤二：创建主程序文件`app_sensevoice.py`

以下代码封装了模型加载、音频处理与网页交互逻辑：

import gradio as gr from funasr import AutoModel from funasr.utils.postprocess_utils import rich_transcription_postprocess import os # 初始化 SenseVoiceSmall 模型 model_id = "iic/SenseVoiceSmall" model = AutoModel( model=model_id, trust_remote_code=True, vad_model="fsmn-vad", vad_kwargs={"max_single_segment_time": 30000}, device="cuda:0", # 使用GPU加速 ) def sensevoice_process(audio_path, language): if audio_path is None: return "请先上传音频文件" res = model.generate( input=audio_path, cache={}, language=language, use_itn=True, batch_size_s=60, merge_vad=True, merge_length_s=15, ) if len(res) > 0: raw_text = res[0]["text"] clean_text = rich_transcription_postprocess(raw_text) return clean_text else: return "识别失败" # 构建Gradio界面 with gr.Blocks(title="SenseVoice 多语言语音识别") as demo: gr.Markdown("# 🎙️ SenseVoice 智能语音识别控制台") gr.Markdown(""" **功能特色：** - 🚀 **多语言支持**：中、英、日、韩、粤语自动识别。 - 🎭 **情感识别**：自动检测音频中的开心、愤怒、悲伤等情绪。 - 🎸 **声音事件**：自动标注 BGM、掌声、笑声、哭声等。 """) with gr.Row(): with gr.Column(): audio_input = gr.Audio(type="filepath", label="上传音频或直接录音") lang_dropdown = gr.Dropdown( choices=["auto", "zh", "en", "yue", "ja", "ko"], value="auto", label="语言选择 (auto 为自动识别)" ) submit_btn = gr.Button("开始 AI 识别", variant="primary") with gr.Column(): text_output = gr.Textbox(label="识别结果 (含情感与事件标签)", lines=15) submit_btn.click( fn=sensevoice_process, inputs=[audio_input, lang_dropdown], outputs=text_output ) # 启动服务 demo.launch(server_name="0.0.0.0", server_port=6006)

步骤三：运行服务

python app_sensevoice.py

服务将在http://0.0.0.0:6006启动，等待外部访问。

3. 远程访问与数据采集

由于平台安全策略限制，无法直接开放公网端口。需通过SSH隧道实现本地浏览器访问。

3.1 配置SSH端口转发

在本地电脑终端执行以下命令（替换实际IP与端口）：

ssh -L 6006:127.0.0.1:6006 -p [服务器SSH端口] root@[服务器公网IP]

连接成功后，在本地浏览器打开：

👉 http://127.0.0.1:6006

即可进入Web操作界面，上传电梯内录制的广告播放时段音频进行分析。

4. 应用于电梯广告效果评估的实践方法

4.1 数据采集建议

录音位置：安装于电梯顶部角落的定向麦克风，避免拾取过多机械噪音。
采样频率：推荐使用16kHz单声道WAV格式，兼容模型最佳输入要求。
时间段选择：覆盖早晚高峰、午间休息等人流密集时段，确保样本多样性。

⚠️ 注意：应遵守相关法律法规，明确告知录音用途，并做匿名化处理，仅用于统计分析。

4.2 分析维度设计

我们将从三个层面解读AI输出结果：

4.2.1 情绪趋势图谱

提取每段语音的情感标签，按时间轴绘制情绪波动曲线。例如：

[00:15] <|HAPPY|> 这个广告好有意思啊 [00:22] <|LAUGHTER|> [00:30] <|NEUTRAL|> 又是洗脑广告...

可统计：

广告播放期间“正向情绪”出现频次
笑声/掌声持续时长占比
负面情绪（如愤怒、烦躁）是否集中出现在特定片段

4.2.2 内容关键词关联

结合转写文本与情感标签，挖掘触发情绪的关键语句。例如：

“这个明星代言的产品看起来不错” → [HAPPY]
“怎么又是这个广告” → [SAD]

可用于优化创意脚本或更换代言人。

4.2.3 多版本A/B测试对比

对不同广告版本在同一电梯环境中投放，收集多日数据后进行横向比较：

指标	版本A（幽默风）	版本B（温情风）
平均正向情绪占比	68%	52%
笑声出现次数	12次/小时	3次/小时
负面情绪提及率	9%	15%

结论：版本A更易引发轻松愉悦氛围，适合快消品类推广。

5. 实际案例演示

假设某饮料品牌在写字楼电梯投放新广告，我们截取一段典型反馈音频进行分析。

输入音频内容（原始转录+标签）

<|BGM:轻快流行乐|> <|HAPPY|> 哇！这不是我最喜欢的歌手吗？ <|LAUGHTER|> <|NEUTRAL|> 嗯...不过这广告词有点土。 <|HAPPY|> 但他跳舞的样子太搞笑了哈哈哈 <|APPLAUSE|>

输出清洗后文本

[背景音乐：轻快流行乐] [开心] 哇！这不是我最喜欢的歌手吗？ [笑声] [中性] 嗯...不过这广告词有点土。 [开心] 但他跳舞的样子太搞笑了哈哈哈 [掌声]

效果评估小结

✅明星效应显著：第一时间激发正面情绪
⚠️文案拖后腿：中性评价指出创意短板
✅娱乐性强：引发笑声与虚拟掌声，具备社交传播潜力

建议保留现有视觉风格，优化旁白文案，提升整体质感。

6. 总结

6.1 技术价值回顾

通过集成SenseVoiceSmall模型，我们实现了对电梯广告受众情绪的精细化捕捉。这套方案具备以下核心优势：

非接触式感知：仅用音频即可完成用户体验分析，保护个人隐私
多维洞察：超越“看了没”，深入到“喜欢吗”、“笑了吗”、“记住了吗”
低成本部署：基于开源模型与通用硬件，适合大规模复制
实时反馈闭环：广告效果可当日评估，快速迭代优化

6.2 未来拓展方向

结合IoT设备实现自动定时录音+上传，减少人工干预
引入说话人分离技术，区分个体与群体反应
将情绪数据接入CRM系统，形成“用户情绪资产地图”

当广告不再只是单向输出，而是能听懂人心的对话者，真正的智能营销时代才算真正到来。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

电梯广告效果评估：乘客驻留时情绪变化AI分析