第一课:委派阶梯
你和 Agent 的关系该升级了

≈15 分钟 · AI 时代战略型工程师 · 课程 0001 · 2026-06-12
参考:术语表 · 能力速查表(2026-06 调研快照)

为什么是这一课

你说自己"对 Agent 的应用方式太原始"。诊断一下:原始不在于不会用功能——你已经在用 skills、hooks、subagents——而在于协作形态停在了第一、二级:绝大多数工作仍是你坐在终端前,一轮一轮地看着 agent 干活。

这恰好也是两个主题的交汇点。Steve Yegge 在 Revenge of the Junior Developer 中的预言:开发者将从"写代码的人"变成"agent 管理者",从管理单个 agent,到集群,到舰队。管理 agent 本身就是战略活动——规划、拆解、定验收标准、做 QA。所以升级你的委派形态,就是在练战略技能。


知识:五级委派阶梯

按"你离开键盘的程度"排列。每上一级,你写的代码更少,写的规格与验收标准更多。先看全貌,再逐级拆开。

同步结对 逐轮对话,你看着每一步
日常会话 · Fast Mode(/fast)
任务委派 整块交出,只验收结果
subagents · 后台任务(run_in_background)
← 你大致在这里
并行舰队 多 agent 同时推进无依赖块
worktree(claude -w)· Dynamic Workflows(ultracode)· Codex 多 thread
云端异步 工作在你不在机器旁时发生
Codex Cloud · @codex review/fix · GitHub Action
自治系统 常驻目标/触发器,无需逐次发起
/loop · Routines(/schedule)· Goal Mode(/goal)· Channels

颜色由浅到深表示委派程度递增;② 级是你当前起点,目标是稳定推到更高级。

同步结对:你看着每一步

场景。线上出了一个你说不清根因的 bug:症状在 A 服务,日志指向 B,你自己也只有猜想。这种时候你和 agent 逐轮推进——它查一处,你纠一次方向——因为你根本写不出验收标准,"做完"长什么样要边走边发现。

工具。Claude Code 这级的升级点是 Fast Mode(/fast):Opus 输出提速 2.5×、成本 2×、TTFT 不变——同步对话里你的等待时间就是成本,值得花。Codex 侧对应的是模型分层:探索用 GPT-5.5 旗舰,机械轻任务切 codex -m gpt-5.4-mini(省 70% 限额、快 2×),要极速吐字有 5.3-Codex-Spark(1000+ tok/s)。

什么时候该停在这级。两类任务永远留在①:(1) 探索性问题——验收标准本身是产出物,没法预先写;(2) 品味敏感的改动(接口设计、命名、文档语气)——你的偏好还没教会 agent 之前,委派出去只会收回一堆要重写的东西。

上推门票。当你发现自己能在动手前一口气说清"做什么 + 怎么算做完",这个任务就不配占用你的同步时间了——这就是②的门票。

任务委派:交出整块,只验收结果

场景。"把这个模块的裸 print 全部换成结构化日志,保持现有测试全绿,新增逻辑补单测。"任务边界清楚、验收可执行(测试跑一遍就知道),你写完这段话就可以去干别的,回来只看 diff 和测试结果。你大致在这里——subagent 和并行委派你已经熟练。

工具。Claude Code:subagents 之外,注意后台任务——Bash/Agent 的 run_in_background,或直接在提示词里说"后台跑",完成时回调你,主会话不被长命令阻塞。Codex:实验中的 Subagents 机制,codex exec --profile test-writer 按预设 profile 跑一类任务,codex --cd agents/refactor 在指定目录起子 agent。

什么时候该停在这级。(1) 任务块之间有依赖、改动会互相踩文件——硬拆只会制造合并冲突;(2) 每一步的中间产出都需要你的判断(比如逐个 API 决定保留还是废弃),那"整块交出"是假委派,本质还是①。

上推门票。③的门票是任务拆解能力:把一个大任务切成 N 个互不依赖、各自带验收标准的块。切不出来,开再多并行 agent 也只是排队。

并行舰队:多线同时推进

场景。一次依赖升级波及 8 个模块的适配,外加补测试、改文档。三件事互不依赖,串行做是浪费——8 个适配各开一个 agent,测试和文档再各一个,你只在终点统一验收。

工具。Claude Code:claude -w 起 worktree 会话,每个会话/子 Agent 独立工作目录互不干扰,无改动自动清理;更重的并行用 Dynamic Workflows——prompt 里含 ultracode 即触发,自动生成 JS 编排脚本并行驱动最多 1000 个子 Agent,中间结果不占主上下文;/effort ultracode 整会话开启,/workflows 管理、按 s 保存编排复用。Codex:桌面 App 多 thread,新建 thread 时选 Worktree 自动隔离,内置 review pane 统一审所有 diff,审完 handoff 回本地。

什么时候该停在这级。(1) 拆出来的块仍共享热点文件——并行的收益会被解决冲突的成本吃光;(2) 你的验收带宽才是瓶颈:10 个 diff 同时到达而你只能认真审 3 个,剩下 7 个要么积压、要么糊弄过——这时并行度该降不该升。

上推门票。④的门票是环境配置 + PR 验收纪律:能让云端沙箱复现你的构建和测试环境,且你愿意把"审 PR"当成每天固定要还的债,而不是攒一堆。

云端异步:工作在你睡觉时发生

场景。睡前把一个独立 bug 丢给 Codex Cloud——"修复 issue #N,附带回归测试"——它在云端沙箱里跑,产出 PR;早上你在手机上审。你的机器没开,工作照样发生。这一级的本质变化:你的在场不再是 agent 工作的前提

工具。这级以 Codex 为主:chatgpt.com/codex 连 GitHub、配好环境后丢任务,移动端可发起和审查;或者更轻——直接在 issue 里评论 @codex。配套的 QA 闭环:开 Automatic reviews 让每个 PR 被自动审(只报 P0/P1,不刷存在感),@codex review 手动触发,@codex fix it 一键派云任务修掉审出的问题。要做质量门禁就把 codex exec 封进 CI:openai/codex-action@v1 + prompt 文件 + sandbox 模式。

什么时候该停在这级。(1) 任务依赖沙箱里复现不了的东西(内网服务、本地数据、特殊凭据)——环境配不平就别硬推,失败会很安静;(2) 任务品味敏感或不可逆——云端跑完你才看到结果,纠偏成本最高的位置不要放纠偏需求最大的任务。

上推门票。⑤的门票是把意图写成可长期执行的目标与守则:不再描述一次性任务,而是描述一个状态("warning 保持为零")+ 约束("每次一个独立 PR"),让系统自己决定何时、做什么。

自治系统:常驻目标,无需逐次发起

场景。仓库里积了几百条 ESLint warning,你不再一次次发任务,而是设一个目标:"清零,每次一个独立 PR"——agent 持续数小时甚至数天自主推进,你只按节奏收 PR。或者反过来由事件驱动:线上告警从 Telegram 推进运行中的会话,agent 自动开始诊断,轮询反转为推送

工具。Claude Code 三件套:/loop 5m check deployment 在会话内按间隔自动重复 prompt(不给间隔则 Claude 自调节奏;默认 prompt 放 .claude/loop.md;Esc 停止;注意它是会话作用域,7 天过期);Routines 跑在云端,/schedule daily PR review at 9am 一句话建立,支持定时 / GitHub 事件 / API 三种触发,完整配置在 claude.ai/code/routines(6/15 起走独立 Agent SDK credit,留意账单);Channels 把 Telegram/Discord/iMessage 接进运行中的会话(本地 MCP server + bot)。Codex 两件:Goal Mode 已 GA,/goal 把 ESLint warning 清零,每次一个独立 PR;Automations 在 App 内建定时 agent 任务(项目 + prompt + 周期 + 环境),比如每日 9:00 triage 新 issue。

这一级的边界。(1) 没有机器可验证的成功标准的目标不要放上来——自治系统会在模糊目标上持续产出貌似合理的垃圾,且没人盯着;(2) 守则必须限定爆炸半径(独立 PR、只动某目录、不碰发布分支),自治 ≠ 放权一切。


"战术时代的 AI 是补全;战略时代的 AI 是 agent 接管编码,人负责规格、上下文与规划。" — Vivek Haldar

两条原则,决定任务放在哪一级:

原则 1 · 不是越高越好

选级标准是 杠杆率(impact / time)与验收成本:探索性、高风险、品味敏感的工作留在低层级;可清晰描述、可自动验证的工作尽量上推。Osmani 的 70% 问题提醒你:上推得越高,最后 30%(边界、集成、可维护性)的验收责任越重。

对比示例——同一个任务"清掉仓库里 200 条 lint warning":

放错级(② 级盯着干)
你要写十几次 prompt、盯十几次 diff,每轮验收都占你的同步时间,杠杆率趴在地上。
放对级(⑤ /goal + 每次一个独立 PR)
lint 结果机器可验证、验收成本趋近于零,你每个 PR 扫 30 秒即可。

反过来,"重新设计某模块的对外接口"如果推到④,云端会还你一个编译通过、测试全绿但抽象方向错了的 PR——验收(看懂再推翻)比自己在①做一遍还贵。验收成本不可自动化的任务,每上推一级都是负杠杆。

原则 2 · 上推的瓶颈从来不是工具,是规格

写代码从来不是瓶颈——瓶颈是把"我要什么、怎么算做完"说清楚。这正是 Ousterhout 意义上的战略投资:前期慢一点,换长期吞吐量反超。

对比示例——同一个 bug 丢给 Codex Cloud(同一工具、同一级):

规格马虎
只写"修一下 issue #N",早上收到的 PR 大概率修了表象、没有回归测试、改在了错误的层。
规格清晰
写"复现步骤 X → 根因在 Y 层 → 验收 = 新增回归测试覆盖 X 且全量测试通过",收到的 PR 可以直接 merge。

两次的差别不在 agent 能力,在你睡前那五分钟写规格的质量。觉得"某级用不了"时,先怀疑规格,再怀疑工具。


技能:阶梯审计(今天就做)

实操任务 · 约 15 分钟

1. 写下你本周实际做过的 3 个任务(编码、文档、调研都算)。
2. 给每个标注:你用的是第几级?理论上最高可以放到第几级?
3. 挑差距最大的那一个,今天就把它上推一级。两个现成起点:

# 起点 A(Claude Code,②→⑤):给一个你常手动盯的事配上 /loop
/loop check whether CI passed and address any review comments

# 起点 B(Codex,②→④):睡前丢一个独立 bug 给云端
# chatgpt.com/codex → 选仓库 → "修复 issue #N,附带回归测试" → 早上审 PR

4. 把你的 3 行审计结果发回给我(你的老师)。我会基于它判断下一课教什么,并纠正层级判断。这是本课的反馈环。

自测(先回忆,再点选)

1. 把任务从「同步结对」上推到「任务委派」时,你的核心工作变成什么?

上推一级的门票永远是"把意图说清"。逐行检查和实时打断是①级行为——继续做它们说明你并没有真正委派,只是换了个姿势结对;模型选择(Fast Mode、gpt-5.4-mini)影响速度和成本,但不改变协作形态。判断自己在哪一级,看的是你的行为,不是你用的工具。

2. Ousterhout(2025 年访谈)认为默认状态下的 AI 编码工具更像哪种角色?

出处:Pragmatic Engineer 播客。LLM 倾向复制而非抽象、加参数而非重想接口——所以战略设计必须由你供给,这是复杂度天花板。这也解释了为什么品味敏感的设计工作要留在阶梯低层:上推得越高,"战术龙卷风"无人纠偏的时间就越长,复杂度积累得越快。

3. /loop 与 Routines 最关键的区别是什么?

/loop 是会话作用域(关闭即停,7 天过期),本质是"会话内的自治";Routines 跑在 Anthropic 云上,本地不开机也执行,支持定时/GitHub 事件/API 三种触发——这才是完整意义上的⑤级。选择标准:要盯的事和当前会话上下文强相关(比如刚发的 PR 的 CI)用 /loop;要长期常驻、与会话无关的(每日 triage)用 Routines。详见能力速查表

首选阅读(一篇就够)

Vivek Haldar — AI Coding: From Tactics to Strategy(约 5 分钟)。你那段"AI 吞噬战术性编程"的引文,思想源头正是这篇 + Osmani 的 The Next Two Years。先读 Haldar 这篇短的。

引用文献

🧠背诵区

点卡片翻面。记的是能用的判断核心,不是定义。

闪卡 1 / 决策口诀
任何任务该放阶梯哪一级,依据是哪两个量?
翻面
杠杆率(impact/time)+ 验收成本。不是工具能力、不是"越高越好"。验收成本不可自动化的任务,每上推一级都是负杠杆。
闪卡 2 / 自检
判断自己当前在第几级,看的是什么?
翻面
你的行为,不是你用的工具。还在逐行检查、实时打断,就是 ①级结对——哪怕开了 subagent。
闪卡 3 / 上推门票
每上一级的门票,本质都是同一件事,是什么?
翻面
把意图说清:做什么 + 怎么算做完。觉得"某级用不了"时,先怀疑规格,再怀疑工具。
⏱ 间隔复习:明天扫一遍这 3 张,3 天后再来。本课是第 1 课,暂无更早的卡可交织——往后每学一课,回头抽一张旧卡混进来。
🗣复述区

能讲清楚,才是真懂——比能回忆高一层。

复述任务
用一段话向同事讲清楚:为什么"升级你和 Agent 的委派形态"本身就是在练战略技能,而不是学工具?
参考表述
上推委派形态,要做的不是按更多按钮,而是把任务规划清楚、拆成无依赖的块、定出机器可验证的验收标准——这正是规划、拆解、QA 这些战略动作。Yegge 说开发者从"写码人"变成"agent 管理者",管理 agent 靠的就是这些。所以委派形态停在低层,等于战略肌肉没练;推上去的过程,就是把战略技能变成日常基本功。

讲不顺的地方就是还没真懂的地方 —— 发给我,我帮你补上。