【微软AI治理工具】Agent Governance Toolkit：让AI Agent行为安全可控（MIT协议）-壹联网络

随着AI Agent自主能力越来越强，如何确保它们的行为安全、可控、可审计，成为企业和开发者必须面对的问题。微软推出的Agent Governance Toolkit（AGT）正是为了解决这一痛点——它是业界首个全面覆盖OWASP Agentic Top 10全部10项风险的AI Agent治理框架，在红队测试中实现了0.00%的策略违规率。

项目概述

Agent Governance Toolkit是由微软出品的AI Agent治理工具包，其核心理念是：AI Agent的安全不能仅靠”prompt约束”（即”请遵守规则”这类指令），因为基于prompt的安全措施在红队测试中政策违规率高达26.67%。AGT采用内核级（kernel-level）强制执行机制，在Agent的每一个操作执行之前，先通过策略引擎进行确定性检查，确保所有行为都在预设策略范围内。GitHub星标超过950个，正在快速获得社区关注。

核心特色功能

1. 确定性策略执行（非概率性）
AGT运行在Agent框架和Agent操作之间，每当Agent要调用工具、访问资源或发送消息时，都会先经过策略评估。评估在0.1毫秒内完成，完全确定性，不会像prompt那样依赖模型的概率输出。

2. 零信任身份体系
内置零信任（Zero-Trust）身份机制，每个Agent和工具都有独立身份标识，所有操作都有身份验证和授权检查。即使是同一个Agent发起的请求，如果没有相应权限也会被拒绝。

3. 执行沙箱（Execution Sandboxing）
Agent的操作被隔离在沙箱环境中执行，危险操作（如执行代码、删除文件等）会被拦截在沙箱边界外，不会影响宿主系统。

4. 完整SRE可观测性
内置完整的可观测性支持，所有策略评估结果、允许/拒绝的操作、Agent行为日志都会被记录到审计日志中，支持事后分析和合规审计。

5. 全面OWASP Agentic Top 10覆盖
当前版本的AGT已经覆盖了OWASP Agentic Top 10中全部10项风险，测试用例超过9500个，是目前覆盖最全面的Agent安全框架。

6. 跨框架兼容
AGT设计为与具体Agent框架无关，支持AWS Bedrock、Google ADK、Azure AI、LangChain、CrewAI、AutoGen、OpenAI Agents等20+种框架，实现无缝集成。

安装部署步骤

安装AGT

pip install agent-governance-toolkit[full]

验证安装

# 检查AGT是否正确安装
agt doctor

# 验证OWASP合规性
agt verify

Docker快速体验

git clone https://github.com/microsoft/agent-governance-toolkit.git
cd agent-governance-toolkit
docker compose up -d

使用示例

AGT的基本使用方式是在你的Agent代码中嵌入策略评估器：

from agent_os.policies import (
    PolicyEvaluator, PolicyDocument, PolicyRule,
    PolicyCondition, PolicyAction, PolicyOperator, PolicyDefaults
)

evaluator = PolicyEvaluator(policies=[PolicyDocument(
    name="my-policy",
    version="1.0",
    defaults=PolicyDefaults(action=PolicyAction.ALLOW),
    rules=[
        PolicyRule(
            name="block-dangerous-tools",
            condition=PolicyCondition(
                field="tool_name",
                operator=PolicyOperator.IN,
                value=["execute_code", "delete_file"]
            ),
            action=PolicyAction.DENY
        )
    ]
)])

# 评估每个Agent操作
result = evaluator.evaluate(agent_action)
# result: ALLOW 或 DENY