news 2026/4/3 6:30:04

Graph Unlearning---论文总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Graph Unlearning---论文总结

一、研究背景

1、隐私法规与被遗忘权

近年来,随着《通用数据保护条例》(GDPR)、《加州消费者隐私法案》(CCPA)等法律法规的颁布,数据隐私保护成为了全球关注的焦点。其中最重要且最具争议的条款之一是“被遗忘权”(Right to be Forgotten)。这意味着数据主体(用户)有权要求服务提供商删除其存储的个人数据。

2、机器遗忘

在机器学习(ML)背景下,仅仅从数据库中删除数据是不够的,因为模型在训练过程中已经“记住”了这些数据的信息。为了真正合规,模型提供者必须消除被撤销数据对模型参数的影响。这一过程被称为“机器遗忘”

  • 传统方法:最彻底的方法是删除数据后**从头重新训练(Retraining from scratch)**模型。但这在计算上非常昂贵,尤其是当数据集很大、模型很复杂时,频繁的重训是不现实的。

  • 近似方法(SISA):为了加速,学术界提出了近似算法。其中最先进的是SISA(Sharded, Isolated, Sliced, and Aggregated) 框架。它的核心思想是将训练数据随机划分成多个不重叠的碎片(Shards),每个碎片训练一个子模型。当需要删除某条数据时,只需要重新训练该数据所在的那个碎片对应的子模型即可,从而大大节省时间。

3、图神经网络的兴起

现实世界中有大量数据是以图(Graph)的形式存在的,如社交网络、金融网络、生物网络等。图神经网络(GNN)在处理这些非欧几里得数据方面表现出色。因此,如何在GNN中实现高效的“机器遗忘”成为了一个紧迫的问题。

二、研究动机

作者发现,直接将现有的 SISA 框架(主要针对图像和文本设计)应用到图数据上存在严重的问题。

1. 核心冲突:数据独立性 vs. 图结构依赖性
  • SISA的假设:图像或文本数据通常被视为独立同分布(I.I.D.)的。随机划分数据不会破坏数据的内在属性。

  • 图数据的特性:图中的节点不是独立的,它们通过边(Edges)相互连接,共享特征和标签信息。图的结构信息(Structure Information)对 GNN 的性能至关重要。

2. 现有方法的缺陷

如果直接对图数据使用 SISA(即随机划分节点到不同的碎片中):

  • 破坏结构:会切断大量的边,破坏图的拓扑结构。

  • 性能下降:导致子模型的预测准确率(Utility)大幅下降。

3. 潜在解决方案的挑战(社区发现的不平衡性)

为了保留图结构,一个直观的方法是使用社区发现(Community Detection)算法来划分图(将联系紧密的节点分在同一个碎片)。但是,真实世界的图通常具有幂律分布特性,导致社区大小极其不均匀(有的社区巨大,有的极小)。

  • 不平衡的后果:如果按照社区划分,会导致碎片大小极度不平衡。根据木桶效应,遗忘效率取决于最大的那个碎片的重训时间。如果被删除的节点恰好在最大的碎片中,重训时间依然很长,导致遗忘效率低下。

总结动机:

我们需要一种专门针对 GNN 的遗忘框架,它既能像社区发现那样保留图结构(保证模型准确性),又能像随机划分那样保证碎片大小均衡(保证遗忘效率)。

三、核心方法

作者提出的GraphEraser框架主要包含三个阶段:均衡图划分分片模型训练基于学习的聚合

阶段 1: 均衡图划分 (Balanced Graph Partition) ——这是论文最核心的创新点

作者提出了一个通用原则:将节点分配问题转化为排序与容量限制问题。设定每个碎片的容量上限 δ,并定义每个节点对于特定碎片的“偏好(Preference)”,优先满足高偏好的分配。

为了实现这一原则,作者提出了两种具体的算法:

  • 基础:基于标签传播算法(Label Propagation Algorithm, LPA)。

  • 改进逻辑:

    1. 初始化:随机将节点分配给 k个碎片。

    2. 偏好计算:计算每个节点 u 的邻居中有多少属于目标碎片 Cdst。邻居数越多,说明该节点越应该属于这个碎片(偏好越高)。

    3. 排序与分配:将所有 (节点, 目标碎片) 对按照邻居数量从高到低排序。

    4. 容量限制:按照排序顺序重新分配节点。关键点:如果目标碎片的当前节点数已经达到了上限 δ,则不允许该节点加入,必须寻找其他碎片或留在原处。

    5. 迭代:重复上述过程直到收敛或达到最大次数。

  • 适用性:适用于高度依赖图拓扑结构的模型(如 GCN)。

  • 基础:基于 K-Means 聚类算法。

  • 改进逻辑:

    1. 预处理:先用一个预训练的 GNN 提取所有节点的 Embedding(这样 Embedding 既包含特征信息也包含结构信息)。

    2. 初始化:随机选择 k 个质心。

    3. 偏好计算:计算节点 Embedding 到各质心的欧几里得距离。距离越近,偏好越高。

    4. 排序与分配:将 (节点, 质心) 对按距离从小到大排序。

    5. 容量限制:同样强制执行容量上限 δ。如果一个簇满了,距离再近的节点也进不去。

    6. 更新质心:根据新分配的节点更新质心位置。

  • 适用性:适用于对节点特征敏感的模型(如 GAT, GraphSAGE, GIN)。

阶段 2: 分片模型训练 (Shard Model Training)

在图被划分为 k个大小均衡的子图(碎片)后,作者在每个碎片上独立训练一个 GNN 子模型。

  • 遗忘操作:当收到针对节点u的遗忘请求时,GraphEraser 只需要定位到 u 所在的那个碎片,从该碎片中删除 u,然后重新训练该碎片的子模型。其他 k-1 个子模型保持不变。

  • 效率:由于碎片大小被强制均衡,任何一个碎片的重训时间都是可控且较短的。

阶段 3: 基于学习的聚合 (Learning-based Aggregation, LBAggr)

在推理阶段(预测未知节点的标签时),所有子模型都会给出一个预测结果。如何汇总这些结果?

  • 现有问题:传统的 SISA 使用“多数投票”(Majority Voting)。但这假设所有子模型同等重要。实际上,某些子模型可能因为包含了与目标节点更相关的结构信息,预测更准确。

  • LBAggr 方案:

    • 作者提出为每个子模型 i学习一个重要性权重αi

    • 优化目标:最小化加权聚合后的预测误差。公式如下:

      min⁡αEw∈G0[L(∑i=0mαi⋅Fi(Xw,Nw),y)]
    • 实现细节:从训练图中采样一小部分节点(例如 10%),用它们的真实标签来训练这个权重向量 a。

    • 最终预测:最终输出是各子模型输出后验概率的加权和。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/29 7:59:33

软件工程专业介绍(非常详细)零基础入门到精通,收藏这一篇就够了

软件工程专业介绍(非常详细)零基础入门到精通,收藏这一篇就够了_软件工程专业课程 软件工程 主要课程 软件工程专业的学习内容相当丰富,涵盖了从基础知识到专业技能的多个方面。以下是对软件工程专业全部课程的详细归纳&#x…

作者头像 李华
网站建设 2026/4/1 7:49:03

AppendFilter使用AppendFilter合并两个不同的数据并展示

一:主要的知识点 1、说明 本文只是教程内容的一小段,因博客字数限制,故进行拆分。主教程链接:vtk教程——逐行解析官网所有Python示例-CSDN博客 2、知识点纪要 本段代码主要涉及的有①vtkUnstructuredGrid无法显示点的原因&am…

作者头像 李华
网站建设 2026/4/2 22:15:09

量子化学中的价键理论

在理解化学键的本质时,价键理论(Valence Bond Theory, VB)是最早建立、同时也是最直观的一套电子结构理论框架。它以电子配对、局域化成键和轨道重叠为基础解释原子如何结合成分子。虽然现代量子化学和分子轨道理论极大拓展了我们对电子结构的…

作者头像 李华
网站建设 2026/3/19 18:43:29

18、OS X系统的进程管理、图形应用启动与网络连接指南

OS X系统的进程管理、图形应用启动与网络连接指南 在使用OS X系统时,我们常常会遇到一些技术难题,比如难以终止的进程、如何方便地启动图形应用程序,以及怎样进行远程网络连接等。下面将为大家详细介绍相关的解决方法和操作技巧。 难以终止的进程处理 有些进程很难被终止…

作者头像 李华
网站建设 2026/3/31 3:58:02

19、文件传输与X11系统使用指南

文件传输与X11系统使用指南 在计算机操作中,我们常常需要在不同计算机之间进行文件传输,同时,OS X系统中的Unix核心也为我们带来了许多强大的开源应用,比如X11系统。下面将详细介绍文件传输的多种方式以及X11系统的相关内容。 1. 文件传输方式 在不同计算机间复制文件是…

作者头像 李华
网站建设 2026/3/20 16:06:35

什么是ddos攻击,如何低成本防御ddos攻击?

若干年前读大学时候我接触的第一门专业课是“网络基础课”,还记得第一节课时老师就以ping命令为切入点介绍DDoS攻击,当时还专门告诉我们要念成“D-D-O-S”,而非“D-DOS”。 时至今日,DDoS攻击依然是网络系统所面临的主要威胁之一…

作者头像 李华