第一课：委派阶梯 — 你和 Agent 的关系该升级了

你说自己"对 Agent 的应用方式太原始"。诊断一下：原始不在于不会用功能——你已经在用 skills、hooks、subagents——而在于协作形态停在了第一、二级：绝大多数工作仍是你坐在终端前，一轮一轮地看着 agent 干活。

这恰好也是两个主题的交汇点。Steve Yegge 在 Revenge of the Junior Developer 中的预言：开发者将从"写代码的人"变成"agent 管理者"，从管理单个 agent，到集群，到舰队。管理 agent 本身就是战略活动——规划、拆解、定验收标准、做 QA。所以升级你的委派形态，就是在练战略技能。

知识：五级委派阶梯

按"你离开键盘的程度"排列。每上一级，你写的代码更少，写的规格与验收标准更多。先看全貌，再逐级拆开。

①

同步结对　逐轮对话，你看着每一步

日常会话 · Fast Mode（/fast）

②

任务委派　整块交出，只验收结果

subagents · 后台任务（run_in_background）

← 你大致在这里

③

并行舰队　多 agent 同时推进无依赖块

worktree（claude -w）· Dynamic Workflows（ultracode）· Codex 多 thread

④

云端异步　工作在你不在机器旁时发生

Codex Cloud · @codex review/fix · GitHub Action

⑤

自治系统　常驻目标/触发器，无需逐次发起

/loop · Routines（/schedule）· Goal Mode（/goal）· Channels

颜色由浅到深表示委派程度递增；② 级是你当前起点，目标是稳定推到更高级。

场景。线上出了一个你说不清根因的 bug：症状在 A 服务，日志指向 B，你自己也只有猜想。这种时候你和 agent 逐轮推进——它查一处，你纠一次方向——因为你根本写不出验收标准，"做完"长什么样要边走边发现。

工具。Claude Code 这级的升级点是 Fast Mode（/fast）：Opus 输出提速 2.5×、成本 2×、TTFT 不变——同步对话里你的等待时间就是成本，值得花。Codex 侧对应的是模型分层：探索用 GPT-5.5 旗舰，机械轻任务切 codex -m gpt-5.4-mini（省 70% 限额、快 2×），要极速吐字有 5.3-Codex-Spark（1000+ tok/s）。

什么时候该停在这级。两类任务永远留在①：(1) 探索性问题——验收标准本身是产出物，没法预先写；(2) 品味敏感的改动（接口设计、命名、文档语气）——你的偏好还没教会 agent 之前，委派出去只会收回一堆要重写的东西。

上推门票。当你发现自己能在动手前一口气说清"做什么 + 怎么算做完"，这个任务就不配占用你的同步时间了——这就是②的门票。

场景。"把这个模块的裸 print 全部换成结构化日志，保持现有测试全绿，新增逻辑补单测。"任务边界清楚、验收可执行（测试跑一遍就知道），你写完这段话就可以去干别的，回来只看 diff 和测试结果。你大致在这里——subagent 和并行委派你已经熟练。

工具。Claude Code：subagents 之外，注意后台任务——Bash/Agent 的 run_in_background，或直接在提示词里说"后台跑"，完成时回调你，主会话不被长命令阻塞。Codex：实验中的 Subagents 机制，codex exec --profile test-writer 按预设 profile 跑一类任务，codex --cd agents/refactor 在指定目录起子 agent。

什么时候该停在这级。(1) 任务块之间有依赖、改动会互相踩文件——硬拆只会制造合并冲突；(2) 每一步的中间产出都需要你的判断（比如逐个 API 决定保留还是废弃），那"整块交出"是假委派，本质还是①。

上推门票。③的门票是任务拆解能力：把一个大任务切成 N 个互不依赖、各自带验收标准的块。切不出来，开再多并行 agent 也只是排队。

场景。一次依赖升级波及 8 个模块的适配，外加补测试、改文档。三件事互不依赖，串行做是浪费——8 个适配各开一个 agent，测试和文档再各一个，你只在终点统一验收。

工具。Claude Code：claude -w 起 worktree 会话，每个会话/子 Agent 独立工作目录互不干扰，无改动自动清理；更重的并行用 Dynamic Workflows——prompt 里含 ultracode 即触发，自动生成 JS 编排脚本并行驱动最多 1000 个子 Agent，中间结果不占主上下文；/effort ultracode 整会话开启，/workflows 管理、按 s 保存编排复用。Codex：桌面 App 多 thread，新建 thread 时选 Worktree 自动隔离，内置 review pane 统一审所有 diff，审完 handoff 回本地。

什么时候该停在这级。(1) 拆出来的块仍共享热点文件——并行的收益会被解决冲突的成本吃光；(2) 你的验收带宽才是瓶颈：10 个 diff 同时到达而你只能认真审 3 个，剩下 7 个要么积压、要么糊弄过——这时并行度该降不该升。

上推门票。④的门票是环境配置 + PR 验收纪律：能让云端沙箱复现你的构建和测试环境，且你愿意把"审 PR"当成每天固定要还的债，而不是攒一堆。

场景。睡前把一个独立 bug 丢给 Codex Cloud——"修复 issue #N，附带回归测试"——它在云端沙箱里跑，产出 PR；早上你在手机上审。你的机器没开，工作照样发生。这一级的本质变化：你的在场不再是 agent 工作的前提。

工具。这级以 Codex 为主：chatgpt.com/codex 连 GitHub、配好环境后丢任务，移动端可发起和审查；或者更轻——直接在 issue 里评论 @codex。配套的 QA 闭环：开 Automatic reviews 让每个 PR 被自动审（只报 P0/P1，不刷存在感），@codex review 手动触发，@codex fix it 一键派云任务修掉审出的问题。要做质量门禁就把 codex exec 封进 CI：openai/codex-action@v1 + prompt 文件 + sandbox 模式。

什么时候该停在这级。(1) 任务依赖沙箱里复现不了的东西（内网服务、本地数据、特殊凭据）——环境配不平就别硬推，失败会很安静；(2) 任务品味敏感或不可逆——云端跑完你才看到结果，纠偏成本最高的位置不要放纠偏需求最大的任务。

上推门票。⑤的门票是把意图写成可长期执行的目标与守则：不再描述一次性任务，而是描述一个状态（"warning 保持为零"）+ 约束（"每次一个独立 PR"），让系统自己决定何时、做什么。

场景。仓库里积了几百条 ESLint warning，你不再一次次发任务，而是设一个目标："清零，每次一个独立 PR"——agent 持续数小时甚至数天自主推进，你只按节奏收 PR。或者反过来由事件驱动：线上告警从 Telegram 推进运行中的会话，agent 自动开始诊断，轮询反转为推送。

工具。Claude Code 三件套：/loop 5m check deployment 在会话内按间隔自动重复 prompt（不给间隔则 Claude 自调节奏；默认 prompt 放 .claude/loop.md；Esc 停止；注意它是会话作用域，7 天过期）；Routines 跑在云端，/schedule daily PR review at 9am 一句话建立，支持定时 / GitHub 事件 / API 三种触发，完整配置在 claude.ai/code/routines（6/15 起走独立 Agent SDK credit，留意账单）；Channels 把 Telegram/Discord/iMessage 接进运行中的会话（本地 MCP server + bot）。Codex 两件：Goal Mode 已 GA，/goal 把 ESLint warning 清零，每次一个独立 PR；Automations 在 App 内建定时 agent 任务（项目 + prompt + 周期 + 环境），比如每日 9:00 triage 新 issue。

这一级的边界。(1) 没有机器可验证的成功标准的目标不要放上来——自治系统会在模糊目标上持续产出貌似合理的垃圾，且没人盯着；(2) 守则必须限定爆炸半径（独立 PR、只动某目录、不碰发布分支），自治 ≠ 放权一切。

"战术时代的 AI 是补全；战略时代的 AI 是 agent 接管编码，人负责规格、上下文与规划。" — Vivek Haldar

原则 1 · 不是越高越好

选级标准是杠杆率（impact / time）与验收成本：探索性、高风险、品味敏感的工作留在低层级；可清晰描述、可自动验证的工作尽量上推。Osmani 的 70% 问题提醒你：上推得越高，最后 30%（边界、集成、可维护性）的验收责任越重。

放错级（② 级盯着干）

你要写十几次 prompt、盯十几次 diff，每轮验收都占你的同步时间，杠杆率趴在地上。

放对级（⑤ /goal + 每次一个独立 PR）

lint 结果机器可验证、验收成本趋近于零，你每个 PR 扫 30 秒即可。

反过来，"重新设计某模块的对外接口"如果推到④，云端会还你一个编译通过、测试全绿但抽象方向错了的 PR——验收（看懂再推翻）比自己在①做一遍还贵。验收成本不可自动化的任务，每上推一级都是负杠杆。

原则 2 · 上推的瓶颈从来不是工具，是规格

写代码从来不是瓶颈——瓶颈是把"我要什么、怎么算做完"说清楚。这正是 Ousterhout 意义上的战略投资：前期慢一点，换长期吞吐量反超。

对比示例——同一个 bug 丢给 Codex Cloud（同一工具、同一级）：

规格马虎

只写"修一下 issue #N"，早上收到的 PR 大概率修了表象、没有回归测试、改在了错误的层。

规格清晰

写"复现步骤 X → 根因在 Y 层 → 验收 = 新增回归测试覆盖 X 且全量测试通过"，收到的 PR 可以直接 merge。

两次的差别不在 agent 能力，在你睡前那五分钟写规格的质量。觉得"某级用不了"时，先怀疑规格，再怀疑工具。

技能：阶梯审计（今天就做）

实操任务 · 约 15 分钟

1. 写下你本周实际做过的 3 个任务（编码、文档、调研都算）。
2. 给每个标注：你用的是第几级？理论上最高可以放到第几级？
3. 挑差距最大的那一个，今天就把它上推一级。两个现成起点：

# 起点 A（Claude Code，②→⑤）：给一个你常手动盯的事配上 /loop
/loop check whether CI passed and address any review comments

# 起点 B（Codex，②→④）：睡前丢一个独立 bug 给云端
# chatgpt.com/codex → 选仓库 → "修复 issue #N，附带回归测试" → 早上审 PR

4. 把你的 3 行审计结果发回给我（你的老师）。我会基于它判断下一课教什么，并纠正层级判断。这是本课的反馈环。

1. 把任务从「同步结对」上推到「任务委派」时，你的核心工作变成什么？

上推一级的门票永远是"把意图说清"。逐行检查和实时打断是①级行为——继续做它们说明你并没有真正委派，只是换了个姿势结对；模型选择（Fast Mode、gpt-5.4-mini）影响速度和成本，但不改变协作形态。判断自己在哪一级，看的是你的行为，不是你用的工具。

2. Ousterhout（2025 年访谈）认为默认状态下的 AI 编码工具更像哪种角色？

出处：Pragmatic Engineer 播客。LLM 倾向复制而非抽象、加参数而非重想接口——所以战略设计必须由你供给，这是复杂度天花板。这也解释了为什么品味敏感的设计工作要留在阶梯低层：上推得越高，"战术龙卷风"无人纠偏的时间就越长，复杂度积累得越快。

3. /loop 与 Routines 最关键的区别是什么？

/loop 是会话作用域（关闭即停，7 天过期），本质是"会话内的自治"；Routines 跑在 Anthropic 云上，本地不开机也执行，支持定时/GitHub 事件/API 三种触发——这才是完整意义上的⑤级。选择标准：要盯的事和当前会话上下文强相关（比如刚发的 PR 的 CI）用 /loop；要长期常驻、与会话无关的（每日 triage）用 Routines。详见能力速查表。

首选阅读（一篇就够）

引用文献

闪卡 1 / 决策口诀

任何任务该放阶梯哪一级，依据是哪两个量？

翻面

杠杆率（impact/time）＋验收成本。不是工具能力、不是"越高越好"。验收成本不可自动化的任务，每上推一级都是负杠杆。

闪卡 2 / 自检

判断自己当前在第几级，看的是什么？

翻面

看你的行为，不是你用的工具。还在逐行检查、实时打断，就是 ①级结对——哪怕开了 subagent。

闪卡 3 / 上推门票

每上一级的门票，本质都是同一件事，是什么？

翻面

把意图说清：做什么 + 怎么算做完。觉得"某级用不了"时，先怀疑规格，再怀疑工具。

复述任务

用一段话向同事讲清楚：为什么"升级你和 Agent 的委派形态"本身就是在练战略技能，而不是学工具？

参考表述

上推委派形态，要做的不是按更多按钮，而是把任务规划清楚、拆成无依赖的块、定出机器可验证的验收标准——这正是规划、拆解、QA 这些战略动作。Yegge 说开发者从"写码人"变成"agent 管理者"，管理 agent 靠的就是这些。所以委派形态停在低层，等于战略肌肉没练；推上去的过程，就是把战略技能变成日常基本功。

讲不顺的地方就是还没真懂的地方 —— 发给我，我帮你补上。

第一课：委派阶梯
你和 Agent 的关系该升级了

为什么是这一课

知识：五级委派阶梯

同步结对：你看着每一步

任务委派：交出整块，只验收结果

并行舰队：多线同时推进

云端异步：工作在你睡觉时发生

自治系统：常驻目标，无需逐次发起

技能：阶梯审计（今天就做）

实操任务 · 约 15 分钟

首选阅读（一篇就够）

引用文献

第一课：委派阶梯你和 Agent 的关系该升级了

为什么是这一课

知识：五级委派阶梯

同步结对：你看着每一步

任务委派：交出整块，只验收结果

并行舰队：多线同时推进

云端异步：工作在你睡觉时发生

自治系统：常驻目标，无需逐次发起

技能：阶梯审计（今天就做）

实操任务 · 约 15 分钟

首选阅读（一篇就够）

引用文献

第一课：委派阶梯
你和 Agent 的关系该升级了