<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Operations on Sky&#39;s Blog</title>
    <link>https://skyan.github.io/tags/operations/</link>
    <description>Recent content in Operations on Sky&#39;s Blog</description>
    <generator>Hugo -- 0.148.2</generator>
    <language>en</language>
    <copyright>2025 Sky&amp;rsquo;s Blog</copyright>
    <lastBuildDate>Sun, 07 Jun 2026 18:00:00 +0800</lastBuildDate>
    <atom:link href="https://skyan.github.io/tags/operations/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>AI Agent实现原理与实践（六）：Observability &amp; Operations</title>
      <link>https://skyan.github.io/posts/agents-arch-6/</link>
      <pubDate>Sun, 07 Jun 2026 18:00:00 +0800</pubDate>
      <guid>https://skyan.github.io/posts/agents-arch-6/</guid>
      <description>&lt;h2 id=&#34;1-前言&#34;&gt;1. 前言&lt;/h2&gt;
&lt;p&gt;在&lt;a href=&#34;https://skyan.github.io/posts/agents-arch-5/&#34;&gt;上一篇文章&lt;/a&gt;中，我们深入剖析了 Permission, Approval &amp;amp; Sandbox 的设计——Agent 如何在拥有强大执行能力的同时，通过多层防御体系保证安全可控。如果说 Agent Loop 是 Agent 的&amp;quot;心跳&amp;quot;，Tool System 是&amp;quot;双手&amp;quot;，Context Management 是&amp;quot;记忆系统&amp;quot;，SubAgent System 是&amp;quot;团队协作能力&amp;quot;，Permission &amp;amp; Sandbox 是&amp;quot;免疫系统&amp;quot;，那么 Observability &amp;amp; Operations（可观测性与运维）就是 Agent 的&amp;quot;神经系统&amp;quot;——它决定了 Agent 在生产环境中能否被监控、追踪、调试和治理。&lt;/p&gt;
&lt;p&gt;当 Agent 真正部署到生产环境——作为 CLI 工具被数千名开发者日常使用、作为后台服务持续运行数周、作为编码助手修改关键代码——可观测性变成了Agent的基本能力。&lt;/p&gt;
&lt;p&gt;可观测性不是简单的打日志，报个监控，而是一组更根本的问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Agent 的一次运行，事后能不能完整回放和审计？&lt;/li&gt;
&lt;li&gt;Agent 正在做什么，当前处于什么状态，有没有卡住？&lt;/li&gt;
&lt;li&gt;子 Agent、后台任务、定时调度——这些异步执行单元能不能被追踪？&lt;/li&gt;
&lt;li&gt;出问题后，第一现场在哪里？如何区分是模型问题、工具问题、上下文问题还是系统问题？&lt;/li&gt;
&lt;li&gt;Token 消耗、API 延迟、工具调用耗时——这些成本指标能不能被量化和管理？&lt;/li&gt;
&lt;li&gt;会话能不能被恢复、归档、导出、切换？这些运维动作是不是系统的一等能力？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本文是 Agent 实现原理系列的第六篇，继续参考 Codex CLI、Claude Code、nanobot、pi 四个主流开源项目的实现，从工程角度总结 Agent 可观测性与运维体系的设计原则和关键权衡。&lt;/p&gt;
&lt;h2 id=&#34;2-可观测性是-agent-runtime-的骨架&#34;&gt;2. 可观测性是 Agent Runtime 的骨架&lt;/h2&gt;
&lt;h3 id=&#34;21-从打点日志到多层信号体系&#34;&gt;2.1 从&amp;quot;打点日志&amp;quot;到&amp;quot;多层信号体系&amp;quot;&lt;/h3&gt;
&lt;p&gt;Agent 的运行过程不是一条直线，而是一棵分叉的树——有主会话、有子 Agent、有后台任务、有定时调度、有工具调用链、有压缩边界、有权限决策点。单靠几条零散的 log，在出问题时根本无法还原&amp;quot;当时到底发生了什么&amp;quot;。&lt;/p&gt;
&lt;p&gt;更深一层看，可观测性之于 Agent，就像飞行数据记录仪之于飞机——不是为了日常飞行时盯着看，而是为了两件事：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;事后可恢复&lt;/strong&gt;：会话中断了能继续，系统崩溃了能重建状态&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;事中可诊断&lt;/strong&gt;：运行时能判断 Agent 是正常推理、卡在工具执行、还是在等待用户审批&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;因此，一个 production-grade Agent Runtime 的可观测性，不是&amp;quot;有空再补点日志&amp;quot;，而是和主执行链同等级的基础设施。它至少需要覆盖五种不同粒度：会话级（transcript、session metadata）、任务级（background task status、task output）、工具级（tool call 轨迹、shell output、permission 事件）、平台级（analytics、tracing、metrics）、运维级（状态快照、健康检查、成本追踪）。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
