本推文对2025年的数据挖掘领域会议ACM SIGKDD Conference on Knowledge Discovery and Data Mining(简称SIGKDD)进行了分析。对录用的552篇研究论文进行了标题高频词统计,对其研究热点进行了深入分析。希望本文能为数据挖掘领域的研究人员提供一些有价值的参考。
本推文由王一鸣撰写,审校为龚裕涛,黄忠祥。
一、会议介绍
第31届ACM SIGKDD国际知识发现与数据挖掘大会(KDD 2025)于2025年8月3日至7日在加拿大多伦多举行。本届大会延续传统,继续作为数据挖掘、数据科学和机器学习领域前沿研究成果和经验报告的顶级论坛。该会议被中国计算机学会(CCF)评为数据挖掘领域的A类会议,具备极高的影响力,为研究人员提供了一个分享新颖观点的独特平台。
会议网址:https://kdd2025.kdd.org/
二、录用情况
SIGKDD 2025总计收到了2955篇研究论文,有552篇被录用,整体录用率约为 18.68%。表1和图1呈现了近五年SIGKDD的录用情况及变化趋势。不难看出,与往年相比,SIGKDD的论文提交数量显著增加,创下历史新高。然而其录用率近年来却有所降低,足以证明委员会对论文质量的重视与数据挖掘领域的蓬勃发展。
表1近五年SIGKDD的录用情况及变化趋势表格
举办年份 | 提交数量 | 录用数量 | 录用率 |
2025 | 2955 | 552 | 18.68% |
2024 | 2046 | 411 | 20.09% |
2023 | 1416 | 313 | 22.10% |
2022 | 1659 | 254 | 15.31% |
2021 | 1541 | 239 | 15.51% |
图1近五年SIGKDD的录用情况及变化趋势
三、热点分析
表2 SIGKDD 2025录用论文标题的高频关键词统计表
高频词 | 翻译 | 词频 |
Learning | 学习 | 119 |
Graph | 图 | 119 |
Model | 模型 | 87 |
Recommendation | 推荐 | 52 |
Large Language Model/LLM | 大语言模型 | 35 |
Prediction | 预测 | 35 |
Time Series | 时间序列 | 35 |
Framework | 框架 | 31 |
Neural Network | 神经网络 | 31 |
Graph Neural Networks/ GNN | 图神经网络 | 29 |
Forecasting | 推测 | 28 |
Optimization | 优化 | 22 |
Diffusion | 扩散 | 21 |
Classification | 分类 | 20 |
Anomaly Detection | 异常检测 | 20 |
Robustness | 鲁棒性 | 18 |
Federated Learning | 联邦学习 | 15 |
Representation Learning | 表征学习 | 14 |
Spatio-temporal | 时空 | 13 |
Contrastive Learning | 对比学习 | 11 |
图2 SIGKDD 2025录用论文标题的高频关键词词云图
表2是根据SIGKDD 2025录用的522篇论文标题提取的高频关键词词频统计表,图2是根据词频生成的词云图。接下来,本文将根据上述信息,结合高频关键词对热门研究方向进行总结。
对于通用机器学习方向,关键词Learning以119次并列第一,该方向中涵盖了对模型(Model,87次)的构建以及框架(Framework,31次)的开发。具体而言,该方向聚焦神经网络(Neural Network,31次)设计、鲁棒性(Robustness,18次)优化,以及不同机器学习算法例如联邦学习(Federated Learning,15次)、表征学习(Representation Learning,14次)、对比学习(Contrastive Learning,11次),是所有细分领域的技术根基。
而Graph以119次成为关键词出现频率的并列第一,证明了图相关结构正成为数据挖掘的核心研究方向。该方向聚焦图神经网络(GNN,29次)、知识图谱(Knowledge Graph,7次)、超图(Hypergraph,6次)等技术的建模与应用,是独立于通用机器学习的特色方向,重点解决非欧氏空间数据的关联挖掘问题。
除了上述两个热门方向,推荐(Recommendation,52次)系统也成为了一个独立且高关注度的应用导向方向。该方向聚焦用户偏好挖掘、个性化推荐算法优化、推荐系统效率与效果提升,在电商、视频平台等实际场景中都有广泛的应用,体现其在学术与工业界的双重价值。
时间序列(Time Series,35次)相关研究在本次SIGKDD中占比不容忽视。该方向多以纯时间序列、时空(Spatio-Temporal,13次)融合数据为基础进行预测(Prediction,35次)任务,聚焦趋势预判、动态规律挖掘等核心需求,凸显其在交通、金融等领域的实用价值。
随着AI技术的发展,大语言模型(Large Language Model,35次)以及其他生成(Generative,14次)式模型毋庸置疑是当下最热门的方向之一。Transformer(8次)作为最经典的架构之一,其仍然拥有重要地位。最新的扩散(Diffusion,21次)模型聚焦于高质量内容生成,多模态(Multi-Modal,15次)或多视角(Multi-View,5次)模型则重点关注跨类型数据融合建模,这也使得他们成为区别于传统机器学习与图学习的最新热点。
四、获奖论文
本次SIGKDD 2025录用的522篇研究论文中,分别评选出了最佳论文奖的冠军、亚军以及荣誉提名各一名。以下是论文的具体信息以及下载链接。
(1)最佳论文奖冠军
Wenqian Ye, Guangtao Zheng, and Aidong Zhang. 2025. Improving Group Robustness on Spurious Correlation via Evidential Alignment.
论文链接:https://doi.org/10.1145/3711896.3737002
(2)最佳论文奖亚军
Ashutosh Gupta, Thomas A. Henzinger, Konstantin Kueffner, Kaushik Mallik, and David Pape. 2025. Monitoring Robustness and Individual Fairness.
论文链接:https://doi.org/10.1145/3711896.3737054
(3)最佳论文奖荣誉提名
Masoud Reyhani Hamedani, Jeong-Seok Oh, Seong-Un Cho, and SangWook Kim. 2025. SIGEM: A Simple yet Effective Similarity based Graph Embedding Method.
论文链接:https://doi.org/10.1145/3711896.3737128