<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Security on Sky&#39;s Blog</title>
    <link>https://skyan.github.io/tags/security/</link>
    <description>Recent content in Security on Sky&#39;s Blog</description>
    <generator>Hugo -- 0.148.2</generator>
    <language>en</language>
    <copyright>2025 Sky&amp;rsquo;s Blog</copyright>
    <lastBuildDate>Sun, 07 Jun 2026 17:00:00 +0800</lastBuildDate>
    <atom:link href="https://skyan.github.io/tags/security/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>AI Agent实现原理与实践（五）：Permission, Approval &amp; Sandbox</title>
      <link>https://skyan.github.io/posts/agents-arch-5/</link>
      <pubDate>Sun, 07 Jun 2026 17:00:00 +0800</pubDate>
      <guid>https://skyan.github.io/posts/agents-arch-5/</guid>
      <description>&lt;h2 id=&#34;1-前言&#34;&gt;1. 前言&lt;/h2&gt;
&lt;p&gt;在&lt;a href=&#34;https://skyan.github.io/posts/agents-arch-4/&#34;&gt;上一篇文章&lt;/a&gt;中，我们深入剖析了 SubAgent System 的设计——Agent 如何将复杂任务拆解、委托给多个专职子 Agent 并行执行。如果说 Agent Loop 是 Agent 的&amp;quot;心跳&amp;quot;，Tool System 是 Agent 的&amp;quot;双手&amp;quot;，Context Management 是 Agent 的&amp;quot;记忆系统&amp;quot;，SubAgent System 是 Agent 的&amp;quot;团队协作能力&amp;quot;，那么 Permission, Approval &amp;amp; Sandbox（权限、审批与沙箱系统）就是 Agent 的&amp;quot;免疫系统&amp;quot;——它决定了 Agent 在拥有强大执行能力的同时，是否会对宿主环境造成不可逆的破坏。&lt;/p&gt;
&lt;p&gt;这其实是一个在Agent规模化之后出现的工程难题，在 Demo 阶段，让 Agent &amp;ldquo;能跑起来&amp;quot;容易，但当 Agent 真正接入开发者的生产环境——能读写文件、执行 shell 命令、访问网络、修改 Git 历史——安全就不再是&amp;quot;锦上添花&amp;rdquo;，而是&amp;quot;生死攸关&amp;quot;。&lt;/p&gt;
&lt;p&gt;Anthropic 曾经内部维护了一个事故日志，专门记录 Agent 行为失控的案例&lt;sup id=&#34;fnref:1&#34;&gt;&lt;a href=&#34;#fn:1&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;1&lt;/a&gt;&lt;/sup&gt;：Agent 因误解指令而删除了远程 Git 分支；Agent 把工程师的 GitHub 认证 token 上传到了内部计算集群；Agent 试图对生产数据库执行迁移操作。这些事故的共同特征不是&amp;quot;模型意图作恶&amp;quot;，而是&lt;strong&gt;模型过度热心（overeager）——它以用户没有预料到的方式主动采取了行动&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;更隐蔽的威胁来自 prompt injection：攻击者在网页、文件或工具输出中植入指令，劫持 Agent 偏离用户任务、转向攻击者的目标。2025 年 10 月，Anthropic 发表的 Claude Code 沙箱技术博客开门见山地指出：&lt;strong&gt;即使是一次成功的 prompt injection，如果发生在 sandbox 之内，攻击者也什么都拿不到&lt;/strong&gt;&lt;sup id=&#34;fnref:2&#34;&gt;&lt;a href=&#34;#fn:2&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;2&lt;/a&gt;&lt;/sup&gt;。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
