会议热点扫描｜SIGKDD 2025研究热点一看就懂-智慧文博士

本推文对2025年的数据挖掘领域会议ACM SIGKDD Conference on Knowledge Discovery and Data Mining（简称SIGKDD）进行了分析。对录用的552篇研究论文进行了标题高频词统计，对其研究热点进行了深入分析。希望本文能为数据挖掘领域的研究人员提供一些有价值的参考。

本推文由王一鸣撰写，审校为龚裕涛，黄忠祥。

一、会议介绍

第31届ACM SIGKDD国际知识发现与数据挖掘大会（KDD 2025）于2025年8月3日至7日在加拿大多伦多举行。本届大会延续传统，继续作为数据挖掘、数据科学和机器学习领域前沿研究成果和经验报告的顶级论坛。该会议被中国计算机学会（CCF）评为数据挖掘领域的A类会议，具备极高的影响力，为研究人员提供了一个分享新颖观点的独特平台。

会议网址：https://kdd2025.kdd.org/

二、录用情况

SIGKDD 2025总计收到了2955篇研究论文，有552篇被录用，整体录用率约为 18.68%。表1和图1呈现了近五年SIGKDD的录用情况及变化趋势。不难看出，与往年相比，SIGKDD的论文提交数量显著增加，创下历史新高。然而其录用率近年来却有所降低，足以证明委员会对论文质量的重视与数据挖掘领域的蓬勃发展。

表1近五年SIGKDD的录用情况及变化趋势表格

举办年份	提交数量	录用数量	录用率
2025	2955	552	18.68%
2024	2046	411	20.09%
2023	1416	313	22.10%
2022	1659	254	15.31%
2021	1541	239	15.51%

图1近五年SIGKDD的录用情况及变化趋势

三、热点分析

表2 SIGKDD 2025录用论文标题的高频关键词统计表

高频词	翻译	词频
Learning	学习	119
Graph	图	119
Model	模型	87
Recommendation	推荐	52
Large Language Model/LLM	大语言模型	35
Prediction	预测	35
Time Series	时间序列	35
Framework	框架	31
Neural Network	神经网络	31
Graph Neural Networks/ GNN	图神经网络	29
Forecasting	推测	28
Optimization	优化	22
Diffusion	扩散	21
Classification	分类	20
Anomaly Detection	异常检测	20
Robustness	鲁棒性	18
Federated Learning	联邦学习	15
Representation Learning	表征学习	14
Spatio-temporal	时空	13
Contrastive Learning	对比学习	11

图2 SIGKDD 2025录用论文标题的高频关键词词云图

表2是根据SIGKDD 2025录用的522篇论文标题提取的高频关键词词频统计表，图2是根据词频生成的词云图。接下来，本文将根据上述信息，结合高频关键词对热门研究方向进行总结。

对于通用机器学习方向，关键词Learning以119次并列第一，该方向中涵盖了对模型（Model，87次）的构建以及框架（Framework，31次）的开发。具体而言，该方向聚焦神经网络（Neural Network，31次）设计、鲁棒性（Robustness，18次）优化，以及不同机器学习算法例如联邦学习（Federated Learning，15次）、表征学习（Representation Learning，14次）、对比学习（Contrastive Learning，11次），是所有细分领域的技术根基。

而Graph以119次成为关键词出现频率的并列第一，证明了图相关结构正成为数据挖掘的核心研究方向。该方向聚焦图神经网络（GNN，29次）、知识图谱（Knowledge Graph，7次）、超图（Hypergraph，6次）等技术的建模与应用，是独立于通用机器学习的特色方向，重点解决非欧氏空间数据的关联挖掘问题。

除了上述两个热门方向，推荐（Recommendation，52次）系统也成为了一个独立且高关注度的应用导向方向。该方向聚焦用户偏好挖掘、个性化推荐算法优化、推荐系统效率与效果提升，在电商、视频平台等实际场景中都有广泛的应用，体现其在学术与工业界的双重价值。

时间序列（Time Series，35次）相关研究在本次SIGKDD中占比不容忽视。该方向多以纯时间序列、时空（Spatio-Temporal，13次）融合数据为基础进行预测（Prediction，35次）任务，聚焦趋势预判、动态规律挖掘等核心需求，凸显其在交通、金融等领域的实用价值。

随着AI技术的发展，大语言模型（Large Language Model，35次）以及其他生成（Generative，14次）式模型毋庸置疑是当下最热门的方向之一。Transformer（8次）作为最经典的架构之一，其仍然拥有重要地位。最新的扩散（Diffusion，21次）模型聚焦于高质量内容生成，多模态（Multi-Modal，15次）或多视角（Multi-View，5次）模型则重点关注跨类型数据融合建模，这也使得他们成为区别于传统机器学习与图学习的最新热点。