AI Agent实现原理与实践(五):Permission, Approval & Sandbox

1. 前言 在上一篇文章中,我们深入剖析了 SubAgent System 的设计——Agent 如何将复杂任务拆解、委托给多个专职子 Agent 并行执行。如果说 Agent Loop 是 Agent 的"心跳",Tool System 是 Agent 的"双手",Context Management 是 Agent 的"记忆系统",SubAgent System 是 Agent 的"团队协作能力",那么 Permission, Approval & Sandbox(权限、审批与沙箱系统)就是 Agent 的"免疫系统"——它决定了 Agent 在拥有强大执行能力的同时,是否会对宿主环境造成不可逆的破坏。 这其实是一个在Agent规模化之后出现的工程难题,在 Demo 阶段,让 Agent “能跑起来"容易,但当 Agent 真正接入开发者的生产环境——能读写文件、执行 shell 命令、访问网络、修改 Git 历史——安全就不再是"锦上添花”,而是"生死攸关"。 Anthropic 曾经内部维护了一个事故日志,专门记录 Agent 行为失控的案例1:Agent 因误解指令而删除了远程 Git 分支;Agent 把工程师的 GitHub 认证 token 上传到了内部计算集群;Agent 试图对生产数据库执行迁移操作。这些事故的共同特征不是"模型意图作恶",而是模型过度热心(overeager)——它以用户没有预料到的方式主动采取了行动。 更隐蔽的威胁来自 prompt injection:攻击者在网页、文件或工具输出中植入指令,劫持 Agent 偏离用户任务、转向攻击者的目标。2025 年 10 月,Anthropic 发表的 Claude Code 沙箱技术博客开门见山地指出:即使是一次成功的 prompt injection,如果发生在 sandbox 之内,攻击者也什么都拿不到2。 ...

June 7, 2026 · Skyan