研究背景
大型语言模型虽能力强大,却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源(如知识图谱 KG)来弥补这些缺陷,已成为提升模型可靠性的关键 [2]。
然而,当 RAG 系统需要访问包含个人隐私或商业机密的私有知识图谱时,一个严峻的挑战浮出水面:如何防止敏感数据在检索和生成过程中泄露?
传统 RAG 方法直接将知识图谱中的事实三元组暴露给 LLM,其“黑盒”特性和潜在的数据传输风险,使得隐私保护成为应用落地的重大障碍。
为了解决这一难题,本文首次探索了隐私保护的 RAG 场景,其中知识图谱中的所有实体对 LLM 匿名化,从而阻止 LLM 访问实体语义。
但这也带来了新的挑战:当实体变成无意义的机器标识符后,RAG 系统又该如何有效检索相关知识?
论文题目:
Privacy-protected Retrieval-Augmented Generation for Knowledge Graph Question Answering
论文来源:
AAAI 2026
论文链接:
https://arxiv.org/abs/2508.08785
代码链接:
https://github.com/NLPGM/ARoG
核心挑战:匿名实体下的知识检索
在隐私保护 RAG 场景下,如图 1 所示,实体(如 “Bronny”、“L.A.”)被替换为无语义的机器标识符(如 ID.1, ID.5)。这使得利用 LLM 直接进行实体语义匹配(如 ToG [2])的传统 RAG 方法彻底失效。
▲ 图1. 隐私保护的 RAG 系统和传统 RAG 系统的比较
因此,为了实现一个有效的隐私保护 RAG 系统,必须解决两个核心挑战:
(1)如何将匿名实体转化为可检索的信息?
(2)如何检索与问题相关的匿名实体?
解决方案:ARoG 框架横空出世
为应对上述挑战,研究团队提出了一种新颖的图抽象推理框架。该框架包含两大核心策略,并构建了完整的检索-生成流水线。
1. 关系中心抽象
此策略旨在解决挑战(1)。它将匿名实体视作主语/宾语名词,将其相邻关系视作谓语动词,并利用 LLM 的生成能力,将这些关系动态抽象为高层概念,补充到匿名标识符之后。
例如,一个与“时区”、“包含于”、“人口”等关系相邻的实体,可被抽象为“地理位置”。这样,无意义的 ID 就变成了 “ID(地理位置)”,为后续检索提供了语义基础。
2. 结构导向抽象
此策略旨在解决挑战(2)。它将非结构化的自然语言问题,转化为结构化的抽象概念路径。
例如,问题“举办 ‘The Mrs. Carter Show World Tour’ 的艺术家,其女儿的名字是什么?”被转化为路径:“艺术家 → 举办 → The Mrs. Carter Show World Tour;艺术家 → 拥有女儿 → 人”。
即使生成的实体名称不准确,这条路径也能通过其关系结构,与知识图谱中被抽象后的实体的概念有效对齐,从而精准引导检索。
基于以上策略,ARoG 框架包含四个模块(如图 2 所示):
关系中心抽象模块:将 KG 中的匿名实体转化为抽象概念。
结构导向抽象模块:将用户问题转化为抽象概念路径。
抽象驱动检索模块:基于上述抽象信息,从 KG 中检索问题相关的三元组。
生成模块:基于检索到的证据,生成最终答案。
▲ 图2. ARoG 框架概览
实验结果:性能与隐私的完美平衡
为了评估 ARoG 框架的有效性,研究团队在 WebQSP、CWQ 和 GrailQA 三个主流数据集上进行了实验,并于基线方法进行了对比。
1. 性能全面领先:如图 3 所示,在 #Total(全集)和 #Filtered(严格隐私保护的子集)两种设置下,ARoG 在所有数据集上均达到最好的性能,显著优于现有的 RAG 方法,以及隐私保护的语义解析(SP)方法。
其中,在 #Filtered 设置下,LLM 自身知识无法正确回答数据集中的问题,必须依赖于知识图谱,此设置用以模拟严格隐私保护的场景。
当进入 #Filtered 设置时,传统 RAG 方法性能急剧下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其在隐私保护场景下的卓越鲁棒性。
▲ 图3 ARoG 与基线方法的性能比较
2. 隐私鲁棒性显著:如图 4 所示,研究团队测试了 ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现。其中,P-RAG 意为在检索阶段和生成阶段暴露实体名,P-G 为在生成阶段暴露实体名,P-R 为在检索阶段暴露实体名,Private 为完全的实体匿名化。
实验结果表明,随着隐私保护程度加深,ToG 的推理准确性逐渐下降,而 ARoG 凭借其抽象策略,依然保持了强大的性能,证明了其显著的隐私鲁棒性。
▲ 图4. ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现
3. 效率问题:如图 5 所示,在计算效率方面,ARoG 也展现出竞争力,尤其是在处理复杂问题时,其总 token 消耗甚至低于部分基线模型。
▲ 图5. 不同 RAG 系统的计算效率
总结和未来研究方向
本文首次系统性地研究了隐私保护场景下的 RAG 技术,并提出了创新的 ARoG 框架。该框架通过关系中心抽象和结构导向抽象两大策略,成功解决了匿名实体下的知识检索难题,在严格保护数据隐私的同时,实现了高性能的知识图谱问答。
这项工作为隐私敏感领域的 RAG 应用开辟了新的实用方向。未来,研究团队将继续探索如何将人类经验更深入地融入抽象过程,并研究 ARoG 在更广泛任务中的应用潜力。
参考文献
[1] Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A.; and Fung, P. 2023. Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12)
[2] Sun, J.; Xu, C.; Tang, L.; Wang, S.; Lin, C.; Gong, Y.; Ni, L.; Shum, H.-Y.; and Guo, J. 2024. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph. In The Twelfth International Conference on Learning Representations.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·