CiteSpace关键词聚类轮廓值解析：从算法原理到Python实现-智慧文博士

背景痛点：为什么“轮廓值”总在和我捉迷藏？

做文献计量的小伙伴几乎都踩过同一个坑：CiteSpace 跑完关键词聚类，界面里五颜六色的区块煞是好看，可一旦想量化“这簇到底紧不紧凑”，就得在菜单里来回翻——Cluster → Summary → 详细信息 → 手动抄数，十几簇还好，上百簇直接劝退。更尴尬的是，不同版本把结果藏在不同子窗口，升级一次软件，之前的“肌肉记忆”全作废。把数据导出到 Excel 再人工拼接，不仅耗时，还极易错位，完全背离“可重复”的科研准则。

技术方案：让网络文件自己“开口说话”

CiteSpace 在后台其实已经把聚类指标写进网络文件，只是 GUI 没有集中展示。常见格式有两种：

.net（Pajek 格式）：纯文本，节点、边、分区各自成块
.gml（Graph Modelling Language）：带层次标签，易读性更好

无论哪种，关键信息只有两类：

cluster_id→ 聚类编号
silhouette→ 轮廓值（−1~1，越大越紧凑）

思路极其直接：用 Python 把文件读进来 → 把节点属性拆成表 → 按簇分组取平均 → 完工。NetworkX 已经内建 Pajek 与 GML 解析器，不必自己写正则；pandas 负责对齐字段、去空值、算均值，比 Excel 公式靠谱得多。

核心代码：10 行读取，20 行清洗，30 行出表

下面给出同时兼容.net与.gml的稳健脚本，已埋好异常处理与字段注释，复制即可跑。

import networkx as nx import pandas as pd import glob, os def read_citespace_network(path): """ 读取 CiteSpace 导出的网络文件，返回节点属性表 字段： - id: 节点原始编号 - label: 关键词 - cluster_membership: 所属聚类编号 - silhouette: 该节点的轮廓值 """ ext = os.path.splitext(path)[1].lower() try: if ext == '.net': G = nx.read_pajek(path) elif ext == '.gml': G = nx.read_gml(path) else: raise ValueError('仅支持 .net 或 .gml') except Exception as e: print('[Warning] 读取失败:', e) return pd.DataFrame() # 返回空表，避免后续报错 # 把节点属性转 DataFrame df = pd.DataFrame.from_dict(dict(G.nodes(data=True)), orient='index') # 若缺少关键列，先补空值，方便统一处理 needed = ['cluster_membership', 'silhouette'] for col in needed: if col not in df.columns: df[col] = None # 强制类型转换，后面计算均值需要数值型 df['cluster_membership'] = pd.to_numeric(df['cluster_membership'], errors='coerce') df['silhouette'] = pd.to_numeric(df['silhouette'], errors='coerce') return df def silhouette_summary(df): """ 按聚类汇总轮廓值 返回：cluster_id, node_count, mean_silhouette """ summary = (df.groupby('cluster_membership')['silhouette'] .agg(['count', 'mean']) .reset_index() .rename(columns={'count':'node_count','mean':'mean_silhouette'})) return summary # 批量示例：一次性扫某个文件夹 if __name__ == '__main__': files = glob.glob('citespace_export/*.*') for f in files: df_nodes = read_citespace_network(f) if df_nodes.empty: continue summary = silhouette_summary(df_nodes) out_csv = f.replace('.', '_silhouette.') summary.to_csv(out_csv, index=False, encoding='utf-8-sig') print(f'{f} → 已输出 {out_csv}')

跑完你会得到一张极简三列表：簇编号、节点数、平均轮廓值。想追加中位数、标准差，把agg里再加'median'、'std'即可。

可视化增强：一图看懂聚类质量分布

数字表再精准，也不如直方图直观。下面代码读取刚才生成的*_silhouette.csv，自动忽略负值过多的“垃圾簇”，让审稿人一眼看到“大部分簇 >0.5”。

import matplotlib.pyplot as plt import seaborn as sns def plot_silhouette_dist(csv_path, bins=20, cutoff=0.3): summary = pd.read_csv(csv_path) # 过滤掉节点太少的簇，避免视觉干扰 summary = summary[summary['node_count'] >= cutoff] plt.figure(figsize=(6,4)) sns.histplot(summary['mean_silhouette'], bins=bins, kde=True, color='#387bc6') plt.axvline(0.5, ls='--', c='r', label='经验阈值 0.5') plt.title('Mean Silhouette Distribution of Keyword Clusters') plt.xlabel('Mean Silhouette') plt.ylabel('Number of Clusters') plt.legend() plt.tight_layout() plt.savefig('silhouette_dist.png', dpi=300) plt.show() # 调用 plot_silhouette_dist('citespace_export/xxx_silhouette.csv')

避坑指南：版本差异与格式陷阱

字段名大小写
6.1.R1 之前用silhouette，6.2 以后部分版本写成Silhouette（首字母大写）。代码里统一str.lower()后再判断列名，可免疫此坑。
缺失值标记
少数版本把“孤立节点”轮廓值记为na字符串，而不是留空。pd.to_numeric(..., errors='coerce')能强制转 NaN，后续算均值自动跳过。
多部分网络
若项目里同时勾选了“Timezone”与“Term”，CiteSpace 会生成<Project>_nodes_XXX.net等多文件，一定确认你读的是“关键词”而非“作者”网络。
中文路径
nx.read_pajek底层用 C 库时，对中文路径支持不佳，统一把文件拷到英文目录再读，可省一堆UnicodeDecodeError。