安全自治代理 AI 系统

支柱名称:监视和检测威胁
模式名称:安全代理 AI 系统


上下文和问题

自治代理 AI 系统可以通过有限的人工干预来计划、调用工具、访问数据和执行操作。 随着自治的增加,不对齐、滥用和妥协的潜在影响也是如此。

配套模式和实践文章 《降低自主代理 AI 系统的风险 》概述了代理行为引入的设计、安全性和治理风险。 此模式从 风险识别 转向 风险降低,侧重于在实际中缓解这些风险的控件和设计决策。

解决方案

保护代理系统需要一种 深层防御 策略,该策略假定各个层和设计系统发生故障,因此不会造成任何单一故障造成不可接受的伤害。

缓解层中的控制

模型层控件

该模型充当代理的推理引擎,并影响代理解释指令、计划操作和响应对抗输入的方式。 不同的模型提供影响代理输出和操作的各种功能和安全功能。 选择适当的模型有助于避免不当对齐、错误和不安全的结果。

建议的控件:

  • 有意选择模型:选择推理深度、拒绝行为和工具使用特征与代理程序的自主性和风险特征相匹配的模型。 缓解任务不对齐和不安全操作。
  • 模型供应链治理: 通过在部署之前跟踪版本、查看更新和验证更改,将模型视为安全依赖项。 缓解供应链风险。
  • 评估和红队测试: 持续测试模型中的自主性威胁,例如跨提示注入、意图破坏和不安全工具选择。 减轻代理劫持和非故意行为。
  • 功能对齐:避免使用功能过剩的模型,而采用能够满足系统需求的更简单或受约束的模型。 缓解过度自主性和扩大的影响范围。

安全系统层控制

当代理与不受信任的内容、工具、API 和用户交互时,安全系统层会在运行时截获故障。 这些安全措施构成了防范操作风险的基本防御措施,包括代理劫持、有害输出、敏感数据泄漏和运行时滥用。

建议的控件:

  • 输入和输出筛选: 检测并阻止恶意、操纵或不安全的输入和输出,包括间接提示注入。 缓解代理劫持和敏感数据泄露。
  • 代理防护措施: 强制实施任务遵循,并防止执行期间发生作用域外或不安全的工具调用。 缓解意外操作和高影响滥用。
  • 日志记录和可观测性: 捕获代理计划、工具调用、决策和结果,以支持审核、事件响应和改进。 缓解可理解性故障及未被识别的滥用。
  • 滥用和异常情况检测: 监视重复绕过尝试或异常行为模式。 减轻持续探测和隐蔽的外泄。

应用程序层控件

应用程序层定义代理的构建方式、可以执行的操作以及如何强制实施控件。 这是安全原则成为可强制执行的系统行为的地方。

建议的控件:

  • 代理作为微服务: 设计具有独立权限和范围较窄的工具访问权限的微服务等代理。 缓解不对齐、爆炸半径和敏感数据泄漏。
  • 显式操作架构: 定义允许的操作、所需的输入、风险级别、执行约束和日志记录要求。 缓解不当操作和不安全工具调用。
  • 确定性人类参与(HITL): 通过协调器逻辑(而不是模型推理)对高风险或不可逆操作强制实施人工评审。 缓解监督控制差距和不对齐。
  • 最低特权和最小操作设计: 从默认情况下不允许的操作开始,并基于角色和风险以增量方式启用功能。 为每个代理分配唯一的可验证标识,以强制实施 RBAC。 缓解敏感数据泄露、代理蔓延和过度权限。
  • 系统消息作为强化: 使用结构化系统指令来强化角色和边界,始终由确定性控制提供支持。 缓解代理劫持和不对齐。

定位层管理控件

定位层塑造了人们如何理解、信任和依赖代理系统。 即使技术控制强大,定位不佳也会带来风险。

建议的控件:

  • 明确披露: 明确告知用户他们正在与自治 AI 代理进行交互。 缓解透明度和披露失败。
  • 功能透明度: 传达代理可以和不能执行的操作,包括限制和不确定性。 避免将代理定位为权威或无过。 缓解不适当的依赖。
  • 用户可见边界: 显示计划的操作、审批和结果,以便用户可以检测异常行为。 缓解可理解性故障。
  • 安全 UX 模式: 确保评审、审批和关闭机制可访问和保护。 缓解滥用和过度依赖。

Microsoft 解决方案

上述控件描述了要实现的内容。 以下Microsoft解决方案有助于跨标识、治理、运行时强制和检测实施这些缓解措施。

主控制平面

  • Microsoft Agent 365
    • 提供集中式清单、治理、访问边界和跨代理可见性。
    • 支持代理蔓延防护、最小特权原则和治理。 支持:代理扩散防护、最低权限、管理。

模型选择和评估

安全系统和运行时缓解措施

  • Microsoft技术孵化器(防护栏、内容筛选器、滥用监控)
    • 强制实施任务遵循、筛选不受信任的输入和输出,并检测滥用模式。
    • 支持:提示注入缓解、泄漏防护。

标识和数据保护

  • Microsoft Entra

    • 为代理提供标识、条件访问和基于角色的访问控制。
    • 支持:最低特权、访问控制。
  • Microsoft Purview

    • 提供数据分类、治理和策略强制实施。
    • 支持:敏感数据保护。

UX 设计

检测和响应(支持)

  • Microsoft DefenderMicrosoft Sentinel ,用于跨代理工作负荷进行安全状况管理、信号关联和事件响应。
  • 用于代理行为和性能的遥测和可观测性的 Azure MonitorApplication Insights

Guidance

寻求采用此模式的组织可以应用以下可操作的做法:

实践类别 建议的操作 资源
工具、代理和模型的管理 使用支持的框架将代理加入 Foundry 或注册自定义代理 Microsoft Foundry 控制平面
内容安全与提示词注入抗力 筛选输入和输出;将检索的内容视为不受信任;阻止间接提示注入 Foundry 内容筛选和提示屏蔽
任务符合性和工具安全性 执行工具白名单和确定性验证 Foundry Agent Guardrails
人工智能红队行动 持续测试提示注入、意向中断、不安全工具选择和泄漏 Foundry AI 红队代理 / PyRIT
代理的身份和访问权限 应用最低特权、条件访问和生命周期管理 Microsoft Entra
数据管理和合规性 对敏感数据进行分类和保护 Microsoft Purview
状况管理 评估配置和漏洞 Microsoft Defender for Cloud
检测滥用 关联日志和跟踪 Microsoft Sentinel

结果

优点

  • 代理在定义的意向、权限和边界内运行。
  • 高风险操作需要确定性的人工审批。
  • 代理行为可观察、可审核且可大规模管理。
  • 通过最低特权和策略强制实施来减少敏感数据公开。
  • 随着代理使用情况的增长,组织将保持可见性和控制。
  • 信任是通过透明、问责和可预测行为构建的。

权衡

  • 实现分层控件需要额外的工程工作量。
  • 自治系统引入了体系结构和操作复杂性。
  • 人为监督增加了高风险工作流的摩擦。
  • 治理和可观测性需要持续的操作投资。

关键成功因素

  • 任务符合性
  • 人类参与
  • 确定性安全措施
  • 透明度和披露
  • 抵御劫持
  • 最低特权和治理
  • 供应链意识

总结

解锁人类潜力从信任开始。 代理系统计划、决定和自主行动的能力意味着小型不对齐、监督或安全漏洞可能导致重大后果和失去信任。

随着这些系统与工具、API 和其他代理更深入地集成,其行为变得越来越复杂,因此可能通过多种路径造成伤害。 与代理行为相关的风险是系统性的,需要跨整个系统堆栈的缓解策略。

通过在模型、安全系统、应用程序和定位层中深入应用防御,并通过利用Microsoft的集成安全性和代理管理生态系统,组织可以通过设计部署自治、可观察和复原的代理系统。