AAAI 2026 | 当知识图谱变成乱码，LLM还能推理吗？ARoG破解RAG隐私困境-智慧文博士

研究背景

大型语言模型虽能力强大，却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源（如知识图谱 KG）来弥补这些缺陷，已成为提升模型可靠性的关键 [2]。

然而，当 RAG 系统需要访问包含个人隐私或商业机密的私有知识图谱时，一个严峻的挑战浮出水面：如何防止敏感数据在检索和生成过程中泄露？

传统 RAG 方法直接将知识图谱中的事实三元组暴露给 LLM，其“黑盒”特性和潜在的数据传输风险，使得隐私保护成为应用落地的重大障碍。

为了解决这一难题，本文首次探索了隐私保护的 RAG 场景，其中知识图谱中的所有实体对 LLM 匿名化，从而阻止 LLM 访问实体语义。

但这也带来了新的挑战：当实体变成无意义的机器标识符后，RAG 系统又该如何有效检索相关知识？

论文题目：

Privacy-protected Retrieval-Augmented Generation for Knowledge Graph Question Answering

论文来源：

AAAI 2026

论文链接：

https://arxiv.org/abs/2508.08785

代码链接：

https://github.com/NLPGM/ARoG

核心挑战：匿名实体下的知识检索

在隐私保护 RAG 场景下，如图 1 所示，实体（如 “Bronny”、“L.A.”）被替换为无语义的机器标识符（如 ID.1, ID.5）。这使得利用 LLM 直接进行实体语义匹配（如 ToG [2]）的传统 RAG 方法彻底失效。

▲ 图1. 隐私保护的 RAG 系统和传统 RAG 系统的比较

因此，为了实现一个有效的隐私保护 RAG 系统，必须解决两个核心挑战：

（1）如何将匿名实体转化为可检索的信息？

（2）如何检索与问题相关的匿名实体？

解决方案：ARoG 框架横空出世

为应对上述挑战，研究团队提出了一种新颖的图抽象推理框架。该框架包含两大核心策略，并构建了完整的检索-生成流水线。

1. 关系中心抽象

此策略旨在解决挑战（1）。它将匿名实体视作主语/宾语名词，将其相邻关系视作谓语动词，并利用 LLM 的生成能力，将这些关系动态抽象为高层概念，补充到匿名标识符之后。

例如，一个与“时区”、“包含于”、“人口”等关系相邻的实体，可被抽象为“地理位置”。这样，无意义的 ID 就变成了 “ID（地理位置）”，为后续检索提供了语义基础。

2. 结构导向抽象

此策略旨在解决挑战（2）。它将非结构化的自然语言问题，转化为结构化的抽象概念路径。

例如，问题“举办 ‘The Mrs. Carter Show World Tour’ 的艺术家，其女儿的名字是什么？”被转化为路径：“艺术家 → 举办 → The Mrs. Carter Show World Tour；艺术家 → 拥有女儿 → 人”。

即使生成的实体名称不准确，这条路径也能通过其关系结构，与知识图谱中被抽象后的实体的概念有效对齐，从而精准引导检索。

基于以上策略，ARoG 框架包含四个模块（如图 2 所示）：

关系中心抽象模块：将 KG 中的匿名实体转化为抽象概念。
结构导向抽象模块：将用户问题转化为抽象概念路径。
抽象驱动检索模块：基于上述抽象信息，从 KG 中检索问题相关的三元组。
生成模块：基于检索到的证据，生成最终答案。

▲ 图2. ARoG 框架概览

实验结果：性能与隐私的完美平衡

为了评估 ARoG 框架的有效性，研究团队在 WebQSP、CWQ 和 GrailQA 三个主流数据集上进行了实验，并于基线方法进行了对比。

1. 性能全面领先：如图 3 所示，在 #Total（全集）和 #Filtered（严格隐私保护的子集）两种设置下，ARoG 在所有数据集上均达到最好的性能，显著优于现有的 RAG 方法，以及隐私保护的语义解析（SP）方法。

其中，在 #Filtered 设置下，LLM 自身知识无法正确回答数据集中的问题，必须依赖于知识图谱，此设置用以模拟严格隐私保护的场景。

当进入 #Filtered 设置时，传统 RAG 方法性能急剧下降，而 ARoG 凭借其抽象策略，依然保持了强大的性能，证明了其在隐私保护场景下的卓越鲁棒性。

▲ 图3 ARoG 与基线方法的性能比较

2. 隐私鲁棒性显著：如图 4 所示，研究团队测试了 ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现。其中，P-RAG 意为在检索阶段和生成阶段暴露实体名，P-G 为在生成阶段暴露实体名，P-R 为在检索阶段暴露实体名，Private 为完全的实体匿名化。

实验结果表明，随着隐私保护程度加深，ToG 的推理准确性逐渐下降，而 ARoG 凭借其抽象策略，依然保持了强大的性能，证明了其显著的隐私鲁棒性。

▲ 图4. ARoG 与传统 RAG 系统在不同隐私保护场景下的性能表现

3. 效率问题：如图 5 所示，在计算效率方面，ARoG 也展现出竞争力，尤其是在处理复杂问题时，其总 token 消耗甚至低于部分基线模型。

▲ 图5. 不同 RAG 系统的计算效率

总结和未来研究方向

本文首次系统性地研究了隐私保护场景下的 RAG 技术，并提出了创新的 ARoG 框架。该框架通过关系中心抽象和结构导向抽象两大策略，成功解决了匿名实体下的知识检索难题，在严格保护数据隐私的同时，实现了高性能的知识图谱问答。

这项工作为隐私敏感领域的 RAG 应用开辟了新的实用方向。未来，研究团队将继续探索如何将人类经验更深入地融入抽象过程，并研究 ARoG 在更广泛任务中的应用潜力。

参考文献

[1] Ji, Z.; Lee, N.; Frieske, R.; Yu, T.; Su, D.; Xu, Y.; Ishii, E.; Bang, Y. J.; Madotto, A.; and Fung, P. 2023. Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12)

[2] Sun, J.; Xu, C.; Tang, L.; Wang, S.; Lin, C.; Gong, Y.; Ni, L.; Shum, H.-Y.; and Guo, J. 2024. Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph. In The Twelfth International Conference on Learning Representations.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site