语音情绪识别结果可视化！科哥镜像输出JSON和npy文件详解-智慧文博士

语音情绪识别结果可视化！科哥镜像输出JSON和npy文件详解

在实际语音情感分析项目中，模型输出的原始数据如何被真正“用起来”，往往比模型本身更关键。很多开发者拿到result.json和embedding.npy后，第一反应是：这俩文件到底长什么样？结构怎么读？能画出什么图？能不能直接喂给自己的下游系统？本文不讲模型原理、不堆参数指标，只聚焦一个务实问题：当你点击“ 开始识别”后，系统在outputs/目录里生成的那两个文件——到底该怎么打开、解析、可视化、再利用？

我们以科哥二次开发的Emotion2Vec+ Large语音情感识别系统为实操对象，全程使用Python原生工具链，不依赖任何黑盒SDK，手把手带你把冷冰冰的JSON和npy变成可读、可看、可分析的直观结果。

1. 理解输出文件的定位与生成逻辑

1.1 输出目录结构：时间戳即任务ID

每次识别完成，系统都会在根目录下创建一个带精确时间戳的子目录：

outputs/ └── outputs_20240715_142236/ ← 识别发生时刻：2024年7月15日 14:22:36 ├── processed_audio.wav ├── result.json └── embedding.npy

这个命名规则不是随意的——它天然解决了批量任务管理的核心痛点。你不需要手动重命名，也不用担心文件覆盖。同一小时内运行10次识别，就会有10个独立目录，彼此完全隔离。对自动化脚本或日志追踪而言，这是最干净、最鲁棒的设计。

实践建议：写批处理脚本时，直接用ls outputs/ | tail -n 1获取最新任务目录，比硬编码路径可靠十倍。

1.2 两个文件的本质分工

文件名	类型	核心作用	是否必生成
`result.json`	文本（人类可读）	语义层结果：情感标签、置信度、9维得分分布、元信息	是（所有识别均生成）
`embedding.npy`	二进制（机器可读）	特征层表示：音频的深度语义向量，维度固定为1024	否（仅当勾选“提取Embedding特征”时生成）

简单说：result.json告诉你“这段话听起来像什么情绪”，而embedding.npy告诉你“这段话在1024维空间里落在哪里”。前者面向业务逻辑判断，后者面向算法二次开发。

2. 深度解析result.json：不只是看“快乐85.3%”

2.1 JSON结构逐字段拆解（附真实示例）

假设你刚识别完一段3秒的欢快语音，result.json内容如下：

{ "emotion": "happy", "confidence": 0.853, "scores": { "angry": 0.012, "disgusted": 0.008, "fearful": 0.015, "happy": 0.853, "neutral": 0.045, "other": 0.023, "sad": 0.018, "surprised": 0.021, "unknown": 0.005 }, "granularity": "utterance", "timestamp": "2024-07-15 14:22:36" }

我们逐字段说明其工程价值：

"emotion": "happy"
→主情感标签，字符串形式，直接用于if-else逻辑分支。例如：if emotion == "angry": trigger_alert()。
"confidence": 0.853
→全局置信度，浮点数（0~1）。注意：它不等于scores.happy，而是模型对“当前决策是否可靠”的综合评估。实践中，建议设置阈值（如0.7）过滤低置信结果，避免误判干扰业务流。
"scores"对象
→9维情感概率分布，所有值之和严格为1.0。这是真正的金矿：
- happy: 0.853是主情感得分；
- surprised: 0.021和neutral: 0.045构成次要情绪线索——说明语音虽以快乐为主，但略带惊讶和中性缓冲，符合“突然听到好消息”的真实语境；
- unknown: 0.005极低，表明模型对输入音频有充分把握。
"granularity": "utterance"
→粒度标识，明确告知此结果是整句级（utterance）还是帧级（frame）。若为"frame"，scores将变为数组，每个元素对应一个时间帧的9维向量（后文详述）。
"timestamp"
→UTC时间戳，格式为YYYY-MM-DD HH:MM:SS，可用于日志对齐、时序分析、审计追踪。

2.2 帧级别（frame）JSON的特殊结构

当你在WebUI中选择frame粒度时，result.json结构发生质变：

{ "emotion_sequence": [ {"time": 0.0, "emotion": "neutral", "confidence": 0.92}, {"time": 0.1, "emotion": "neutral", "confidence": 0.88}, {"time": 0.2, "emotion": "happy", "confidence": 0.76}, ... ], "scores_sequence": [ [0.02, 0.01, 0.03, 0.15, 0.62, 0.04, 0.02, 0.08, 0.03], // t=0.0 [0.03, 0.01, 0.02, 0.18, 0.58, 0.05, 0.03, 0.07, 0.03], // t=0.1 ... ], "granularity": "frame", "frame_rate": 10.0, "timestamp": "2024-07-15 14:22:36" }

关键变化：

emotion_sequence：按时间顺序排列的情感标签序列，time单位为秒，frame_rate表示每秒分析帧数（默认10帧/秒，即100ms一帧）；
scores_sequence：二维数组，scores_sequence[i]是第i帧的9维得分向量；
此结构天然支持情感时序建模：你可以计算“快乐持续时长”、“情绪转折点”、“情感波动方差”等高级指标。

工程提示：用Pandas加载scores_sequence，一行代码即可转为DataFrame：

import pandas as pd df = pd.DataFrame(scores_sequence, columns=["angry","disgusted","fearful","happy","neutral","other","sad","surprised","unknown"]) df['time'] = [i/10.0 for i in range(len(df))] # 添加时间列

3. 可视化result.json：让情绪“看得见”

光看数字不够直观。下面提供3种零依赖、开箱即用的可视化方案，全部基于Matplotlib+NumPy，无需额外安装库。

3.1 方案一：9维情感雷达图（utterance级）

适用于单次识别结果，直观展示情绪构成：

import json import numpy as np import matplotlib.pyplot as plt # 1. 加载JSON with open("outputs/outputs_20240715_142236/result.json", "r") as f: data = json.load(f) # 2. 提取9维得分 emotions = ["angry", "disgusted", "fearful", "happy", "neutral", "other", "sad", "surprised", "unknown"] scores = [data["scores"][e] for e in emotions] # 3. 绘制雷达图 angles = [n / float(len(emotions)) * 2 * np.pi for n in range(len(emotions))] scores += scores[:1] # 闭合图形 angles += angles[:1] fig, ax = plt.subplots(figsize=(6,6), subplot_kw=dict(polar=True)) ax.fill(angles, scores, color='lightcoral', alpha=0.25) ax.plot(angles, scores, linewidth=2, linestyle='-', color='darkred') ax.set_xticks(angles[:-1]) ax.set_xticklabels(emotions) ax.set_ylim(0, 1) ax.set_title(f"情绪雷达图 — {data['emotion'].title()} ({int(data['confidence']*100)}%)", pad=20) plt.show()

效果：一张图看清主情绪（最高点）与次情绪（次高点），以及情绪纯度（其他维度是否压得足够低）。

3.2 方案二：情感时序热力图（frame级）

适用于长语音分析，揭示情绪动态演变：

import numpy as np import matplotlib.pyplot as plt import json # 加载frame级JSON with open("outputs/outputs_20240715_142236/result.json", "r") as f: data = json.load(f) # 转为numpy数组 scores_array = np.array(data["scores_sequence"]) # shape: (N_frames, 9) # 绘制热力图 plt.figure(figsize=(10, 4)) im = plt.imshow(scores_array.T, aspect='auto', cmap='viridis', origin='lower') plt.colorbar(im, label="情感得分") plt.xlabel("时间帧（每帧100ms）") plt.ylabel("情绪类型") plt.yticks(range(9), ["Angry", "Disgusted", "Fearful", "Happy", "Neutral", "Other", "Sad", "Surprised", "Unknown"]) plt.title(f"情绪时序热力图 — 共{len(scores_array)}帧") plt.tight_layout() plt.show()

效果：横轴是时间，纵轴是9种情绪，颜色深浅代表该时刻该情绪的强度。一眼看出“前2秒中性→第3秒突变为快乐→最后1秒回归中性”的完整情绪弧线。

3.3 方案三：置信度分布直方图（批量任务统计）

当你跑完100段客服录音，想快速评估系统整体稳定性：

import glob import json import numpy as np import matplotlib.pyplot as plt # 收集所有result.json中的confidence confidences = [] for json_path in glob.glob("outputs/outputs_*/result.json"): with open(json_path, "r") as f: data = json.load(f) confidences.append(data["confidence"]) # 绘制分布 plt.figure(figsize=(8, 4)) plt.hist(confidences, bins=20, alpha=0.7, color='steelblue', edgecolor='black') plt.xlabel("置信度") plt.ylabel("频次") plt.title(f"置信度分布 — 共{len(confidences)}个样本") plt.axvline(np.mean(confidences), color='red', linestyle='--', label=f'均值: {np.mean(confidences):.3f}') plt.legend() plt.grid(True, alpha=0.3) plt.show()

效果：如果直方图集中在0.8~1.0，说明模型泛化好；若大量样本低于0.5，则需检查音频质量或场景适配性。

4. 解析embedding.npy：1024维向量的实战用法

4.1 读取与基础验证

embedding.npy是NumPy保存的二进制数组，加载极其简单：

import numpy as np # 加载向量 embedding = np.load("outputs/outputs_20240715_142236/embedding.npy") print(f"向量形状: {embedding.shape}") # 输出: (1024,) print(f"数据类型: {embedding.dtype}") # 输出: float32 print(f"L2范数: {np.linalg.norm(embedding):.4f}") # 应接近1.0（归一化后）

科哥镜像默认输出的是L2归一化后的1024维向量，这意味着：

向量长度恒为1，可直接用余弦相似度计算任意两段语音的语义距离；
所有维度数值范围在[-1,1]之间，适合输入到后续ML模型（如SVM、随机森林）。

4.2 场景一：语音相似度检索（无监督聚类）

假设你有50段销售电话录音，想自动分组“热情型”、“冷静型”、“急躁型”：

from sklearn.cluster import KMeans import numpy as np import glob # 1. 批量加载所有embedding embeddings = [] file_names = [] for npy_path in glob.glob("outputs/outputs_*/embedding.npy"): emb = np.load(npy_path) embeddings.append(emb) file_names.append(npy_path.split("/")[-2]) # 提取时间戳目录名 X = np.stack(embeddings) # shape: (50, 1024) # 2. K-Means聚类（k=3） kmeans = KMeans(n_clusters=3, random_state=42, n_init=10) labels = kmeans.fit_predict(X) # 3. 输出分组结果 for i in range(3): cluster_files = [file_names[j] for j in range(len(file_names)) if labels[j] == i] print(f"第{i+1}类（{len(cluster_files)}个）: {cluster_files}")

结果：无需人工标注，系统自动将语义相近的语音归为一类，为质检、培训提供数据支撑。

4.3 场景二：构建情绪分类器（有监督微调）

你有1000段已标注情绪的内部语音数据，想用Emotion2Vec+的embedding作为特征，训练一个更贴合业务的分类器：

from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report import numpy as np # 假设你已有： # X_all: (1000, 1024) 的embedding矩阵 # y_all: (1000,) 的情绪标签数组（0-8对应9种情绪） X_train, X_test, y_train, y_test = train_test_split( X_all, y_all, test_size=0.2, random_state=42, stratify=y_all ) # 训练随机森林（轻量、高效、不易过拟合） clf = RandomForestClassifier(n_estimators=100, random_state=42) clf.fit(X_train, y_train) # 评估 y_pred = clf.predict(X_test) print(classification_report(y_test, y_pred, target_names=["Angry","Disgusted","Fearful","Happy","Neutral","Other","Sad","Surprised","Unknown"]))

优势：相比从头训练大模型，用预训练embedding+小样本微调，准确率提升显著，且训练时间从天级降至分钟级。

5. 安全边界与避坑指南：那些文档没写的细节

5.1 JSON字段的隐含约束

"confidence"字段并非概率，而是模型内部的logit softmax后置信度。它可能在极端噪声下仍返回0.9+，因此必须结合音频质量做交叉验证。
"scores"中的9个值之和严格为1.0，但"emotion"字段选出的标签，不一定对应scores中最高分项。这是因为模型采用多任务学习，主标签由独立分支决策，得分分布由另一分支输出。实践中，二者95%以上一致，但需知悉此设计。

5.2 npy文件的兼容性陷阱

科哥镜像输出的embedding.npy是float32精度。若你在TensorFlow/PyTorch中加载，需显式指定dtype=tf.float32或dtype=torch.float32，否则可能因精度丢失导致相似度计算偏差。
向量维度固定为1024，但不同粒度（utterance/frame）输出的npy结构不同：
- utterance级：(1024,)一维向量；
- frame级：(N_frames, 1024)二维数组，每行是一个时间帧的embedding。

5.3 WebUI与命令行的输出一致性

镜像同时支持WebUI和CLI调用。通过/bin/bash /root/run.sh启动后，若用curl命令行调用API，输出JSON结构与WebUI完全一致，只是缺少processed_audio.wav。这意味着你的可视化脚本、批量处理Pipeline，可无缝对接两种入口。

6. 总结：从文件到价值的完整闭环

本文没有复述模型有多先进，而是聚焦一个工程师每天面对的真实问题：拿到输出文件后，下一步做什么？我们梳理出一条清晰路径：

第一步：定位文件→ 认清outputs/下时间戳目录即任务ID，建立自动化索引；
第二步：解析JSON→ 区分utterance/frame两种模式，掌握scores与confidence的工程语义；
第三步：可视化呈现→ 雷达图看构成、热力图看时序、直方图看分布，让数据开口说话；
第四步：挖掘npy价值→ 用余弦相似度做检索，用K-Means做无监督分组，用RandomForest做有监督微调；
第五步：规避实践陷阱→ 知晓confidence非概率、npy精度要求、WebUI/CLI一致性。

最终你会发现，科哥镜像输出的这两个文件，远不止是“识别结果”的终点，而是你构建语音情感分析应用的新起点。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

语音情绪识别结果可视化！科哥镜像输出JSON和npy文件详解