【智能体安全】AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security-智慧文博士

Code: https://github.com/AI45Lab/AgentDoG
Model & Data: https://huggingface.co/collections/AI45Research/agentdog

Abstract

AI智能体的兴起带来了由自主工具使用和环境交互引发的复杂安全与安保挑战。当前的防护模型缺乏对智能体风险的认知，且在风险诊断方面缺乏透明度。为了引入一种能够覆盖复杂且数量众多的风险行为的智能体防护机制，我们首先提出了一个统一的三维分类法，按照来源（何处）、失效模式（如何）和后果（什么）三个正交维度对智能体风险进行分类。在这一结构化且层次化的分类法指导下，我们引入了一个新的细粒度智能体安全基准测试（ATBench）以及一个用于智能体安全与安保的诊断防护框架（AgentDoG）。AgentDoG能够在智能体轨迹中提供细粒度且上下文感知的监控。更重要的是，AgentDoG能够诊断不安全行为以及看似安全但不合理行为的根本原因，提供超越二元标签的溯源性和透明度，以促进有效的智能体对齐。AgentDoG提供三种尺寸的变体（4B、7B和8B参数），基于Qwen和Llama模型家族。大量实验结果表明，AgentDoG在多样化且复杂的交互场景中实现了最先进的智能体安全审核性能。所有模型和数据集均已开源发布。

【PS：为什么8B的反而比7B或者4B的更差？=》backbone模型不一样，4B是Qwen3-4B、Qwen2.5-7B、Llama3.1-8B】

1 Introduction

大型语言模型（LLMs）（Singh et al., 2025; Anthropic, 2025; OpenAI, 2025a; Yang et al., 2025a; Guo et al., 2025b）的演进推动了智能体AI的发展：能够进行复杂规划、工具使用和长期任务执行的自主智能体。这些智能体被广泛应用于各种场景，如深度研究（Zheng et al., 2025）、计算机使用助手（Xie et al., 2024）、软件工程（Jimenez et al., 2023）和金融投资（Fan et al., 2025）。然而，其高度自动化和不确定性特征为智能体安全与安保带来了新的挑战前沿，包括工具调用的风险以及环境中的有害信息传播。

当前的防护模型（如LlamaGuard3（Inan et al., 2023）、Qwen3Guard（Zhao et al., 2025）和ShieldGemma（Chen et al., 2025b））为LLM的输出内容提供安全过滤，但在应用于复杂智能体场景时存在局限性。其主要不足体现在两个方面：（1）缺乏智能体风险认知：现有LLM的安全策略未能涵盖智能体复杂且依赖环境的风险图景。（2）缺乏溯源性与透明度：二元标签"安全/不安全"不足以准确诊断风险，且忽略了看似安全但不合理的行为。

为了引入智能体防护机制，我们需要一个全面且层次化的安全分类法来覆盖复杂且众多的智能体行为。然而，现有的智能体安全定义和分类法是扁平且粗粒度的，例如将提示注入和未授权访问视为两个平行的视角。但提示注入是风险来源的视角，而未授权访问是风险实际后果的视角。这种扁平粗粒度的风险分类法仅以枚举方式覆盖有限的智能体行为。因此，我们提出了一个统一且层次化的智能体安全分类法，包含三个正交维度：风险来自何处、风险如何影响智能体行为、以及产生何种实际危害。同时，我们提供了ATBench，一个专注于分析和评估这些维度的细粒度智能体安全基准测试。

在上述三维风险分类法的指导下，我们引入了用于智能体安全与安保的诊断防护框架（AgentDoG）。AgentDoG能够在智能体轨迹中提供细粒度且上下文感知的监控，包括恶意工具执行和提示注入。更重要的是，AgentDoG提供了更透明的视角来理解智能体为何以不安全或看似安全但不合理的方式采取特定行动，从而实现更高效的对齐。我们在多样化的智能体基准测试上对AgentDoG进行了全面评估，如R-judge（Yuan et al., 2024b）、ASSE-Safety（Luo et al., 2025a）和ATBench。结果表明，AgentDoG在安全审核的多样化场景中优于现有的最先进模型。

本工作的主要贡献包括：

统一的智能体安全分类法：我们引入了一个结构化且层次化的安全分类法，对传统内容风险（如有毒性和偏见）和新型智能体风险（如未授权工具使用）进行分类。
智能体可解释AI框架：AgentDoG提出了一个新的可解释AI（XAI）模块，用于诊断特定行为的根本原因，追溯至具体的规划步骤、工具选择或上下文误解。
开放数据集与模型发布：AgentDoG发布了精心策划的ATBench，包含约2157个工具和4486轮交互，以支持社区基准测试和研究。同时，AgentDoG变体以三种尺寸（4B、7B和8B参数）在Qwen和Llama模型家族中开源可用。
最先进的性能：大量实验结果表明，AgentDoG在面向智能体的安全基准测试中实现了卓越性能，能够有效分类有害提示并缓解复杂交互场景中的风险智能体行为。

2 Safety Taxonomy

智能体安全分类法是实施有效防护机制的基础，因为它定义了应识别哪些风险类别、如何区分不同风险，以及如何系统性地表征不安全的智能体行为。由于智能体系统在开放式环境中运行、与外部工具交互并执行多步骤任务，其失效模式变得更难分析。风险不再源于单一决策或输出，而往往产生于输入、推理、工具和行动随时间的交互。这种转变需要一个能够系统性组织多样化且不断演进的风险的原理性安全分类法，而非依赖临时性或枚举式的定义。

现有的智能体风险基准测试和分类法，如R-judge（Yuan et al., 2024b）和ASSE-Safety（Luo et al., 2025a）存在若干实际局限性。首先，它们采用枚举式且不完整的智能体风险覆盖，特别是那些源于工具使用和智能体-工具交互的风险。例如包括受损的工具描述、恶意工具执行、错误的参数规范或低效但有害的智能体行动。此类风险要么代表性不足，要么完全缺失，限制了这些基准测试反映真实智能体行为的能力。

其次，现有分类法常依赖不清晰或混合的分类标准，导致扁平风险空间内的标签重叠。风险的不同维度，包括起源、行为和后果，经常被混为一谈。例如，提示注入和未授权访问通常被当作对等类别处理，尽管前者描述风险来源，而后者表征智能体行为中的风险表现方式。这一问题也反映在先前工作中通过security和safety视角分别框定智能体相关风险（Luo et al., 2025a; Ghosh et al., 2025）。面向security的分类关注对抗性威胁和系统保护目标（如机密性、完整性和可用性），而面向safety的分类强调影响个人、组织或社会的有害后果。尽管两种视角均有价值，但将其视为平行或不相交的维度会导致标签重叠，阻碍智能体场景中的精确诊断。为了在保持概念清晰度的同时整合两种视角，本文使用"safety"作为统称术语，同时保留细粒度分析所需的区分。

为解决这些局限性，我们提出了一个统一的、三个正交维度的智能体系统安全分类法。具体而言，我们沿三个正交维度分解智能体风险：风险来源、失效模式和实际危害。这些维度分别回答风险来自何处、在智能体执行过程中如何表现、以及造成何种实际危害。这种结构化分解将原因、行为表现和后果分离，消除了标签重叠，同时显式捕获与工具相关和与环境介导的风险。分类法概览及三个维度之间的关系如图2所示。

以下我们详细介绍所提出的安全分类法，引入其三个维度：风险来源、失效模式和实际危害。

2.1 Risk Source

风险来源维度表征潜在风险在智能体交互循环中的起源位置。它关注在决策前或决策过程中引入不安全条件的因素。风险来源的详细分类总结于表1。

我们将风险来源分为四个主要类别：用户输入、环境观察、外部实体（如工具或API）以及智能体的内部决策逻辑。用户输入可能包含模糊、误导性或对抗性指令。环境观察可能提供不完整、嘈杂或被操纵的信息。外部实体可能返回错误、过时或有害的响应，误导后续行动。此外，底层语言模型的内部失效可能导致 flawed 推理、规划或行动选择，即使没有外部干扰。

2.2 Failure Mode

失效模式维度描述风险在风险来源被引入后，如何通过智能体的行为或输出来实现。它捕获直接导致不良后果的不安全执行或生成的具体模式。失效模式的详细分类总结于表2。

我们将失效模式分为两大类。行为失效模式源于 flawed 的规划、推理或执行，如不当的行动序列、不安全的工具使用或偏离预期程序。输出内容失效模式则发生在智能体的文本输出本身直接构成风险时，无需调用工具或执行外部行动。这包括生成误导信息、未授权披露或其他不安全内容，可能在消费时造成危害。

2.3 Real-world Harm

实际危害维度捕获不安全智能体行为导致的实际危害。它关注失效的影响而非其原因或机制。实际危害的详细分类总结于表3。

实际危害可能包括身体、财务、隐私、心理、声誉或社会危害。此类后果可能源于对抗性操纵、良性用户错误或内部模型失效。通过显式建模后果，该维度支持面向结果的安全性评估和影响评估。

3 AgentDoG

3.1 Task Definition

先前的工作，如LlamaGuard（Inan等人，2023）和Qwen3Guard（Zhao等人，2025），主要关注多轮对话历史中最终角色的输出是否安全。相比之下，我们考虑一个根本不同的任务：轨迹级安全诊断，其中模型必须确定智能体在执行轨迹的任何时刻是否表现出不安全行为。关键区别在于，不安全行为可能源于中间动作（例如，思考内容、工具调用）或中间环境反馈，即使最终响应看似无害；因此，仅审计最后一轮可能会遗漏动作引发的风险和过程级失效。

轨迹级安全评估。形式上，给定一个智能体轨迹T = { t 1 , … , t n } T = \{t_1, \ldots, t_n\}T={t1,…,tn}，其中每一步t i t_iti由一个动作a i a_iai和一个观察o i o_ioi组成，即t i = ( a i , o i ) t_i = (a_i, o_i)ti=(ai,oi)。目标是预测一个轨迹级二元标签y ∈ { safe , unsafe } y \in \{\text{safe}, \text{unsafe}\}y∈{safe,unsafe}，其中y = unsafe y = \text{unsafe}y=unsafe表示存在至少一步表现出不安全行为：

y = unsafe ⟺ ∃ i ∈ { 1 , … , n } , Unsafe ( t i ) = True y = \text{unsafe} \iff \exists i \in \{1, \ldots, n\}, \text{Unsafe}(t_i) = \text{True}y=unsafe⟺∃i∈{1,…,n},Unsafe(ti)=True

细粒度风险诊断。给定一个不安全的轨迹，第二个任务是预测细粒度标签：

y fine = ( ℓ risk , ℓ mode , ℓ harm ) ∈ L risk × L mode × L harm y_{\text{fine}} = (\ell_{\text{risk}}, \ell_{\text{mode}}, \ell_{\text{harm}}) \in \mathcal{L}_{\text{risk}} \times \mathcal{L}_{\text{mode}} \times \mathcal{L}_{\text{harm}}yfine=(ℓrisk,ℓmode,ℓharm)∈Lrisk