你说自己"对 Agent 的应用方式太原始"。诊断一下:原始不在于不会用功能——你已经在用 skills、hooks、subagents——而在于协作形态停在了第一、二级:绝大多数工作仍是你坐在终端前,一轮一轮地看着 agent 干活。
这恰好也是两个主题的交汇点。Steve Yegge 在 Revenge of the Junior Developer 中的预言:开发者将从"写代码的人"变成"agent 管理者",从管理单个 agent,到集群,到舰队。管理 agent 本身就是战略活动——规划、拆解、定验收标准、做 QA。所以升级你的委派形态,就是在练战略技能。
按"你离开键盘的程度"排列。每上一级,你写的代码更少,写的规格与验收标准更多。先看全貌,再逐级拆开。
颜色由浅到深表示委派程度递增;② 级是你当前起点,目标是稳定推到更高级。
场景。线上出了一个你说不清根因的 bug:症状在 A 服务,日志指向 B,你自己也只有猜想。这种时候你和 agent 逐轮推进——它查一处,你纠一次方向——因为你根本写不出验收标准,"做完"长什么样要边走边发现。
工具。Claude Code 这级的升级点是 Fast Mode(/fast):Opus 输出提速 2.5×、成本 2×、TTFT 不变——同步对话里你的等待时间就是成本,值得花。Codex 侧对应的是模型分层:探索用 GPT-5.5 旗舰,机械轻任务切 codex -m gpt-5.4-mini(省 70% 限额、快 2×),要极速吐字有 5.3-Codex-Spark(1000+ tok/s)。
什么时候该停在这级。两类任务永远留在①:(1) 探索性问题——验收标准本身是产出物,没法预先写;(2) 品味敏感的改动(接口设计、命名、文档语气)——你的偏好还没教会 agent 之前,委派出去只会收回一堆要重写的东西。
上推门票。当你发现自己能在动手前一口气说清"做什么 + 怎么算做完",这个任务就不配占用你的同步时间了——这就是②的门票。
场景。"把这个模块的裸 print 全部换成结构化日志,保持现有测试全绿,新增逻辑补单测。"任务边界清楚、验收可执行(测试跑一遍就知道),你写完这段话就可以去干别的,回来只看 diff 和测试结果。你大致在这里——subagent 和并行委派你已经熟练。
工具。Claude Code:subagents 之外,注意后台任务——Bash/Agent 的 run_in_background,或直接在提示词里说"后台跑",完成时回调你,主会话不被长命令阻塞。Codex:实验中的 Subagents 机制,codex exec --profile test-writer 按预设 profile 跑一类任务,codex --cd agents/refactor 在指定目录起子 agent。
什么时候该停在这级。(1) 任务块之间有依赖、改动会互相踩文件——硬拆只会制造合并冲突;(2) 每一步的中间产出都需要你的判断(比如逐个 API 决定保留还是废弃),那"整块交出"是假委派,本质还是①。
上推门票。③的门票是任务拆解能力:把一个大任务切成 N 个互不依赖、各自带验收标准的块。切不出来,开再多并行 agent 也只是排队。
场景。一次依赖升级波及 8 个模块的适配,外加补测试、改文档。三件事互不依赖,串行做是浪费——8 个适配各开一个 agent,测试和文档再各一个,你只在终点统一验收。
工具。Claude Code:claude -w 起 worktree 会话,每个会话/子 Agent 独立工作目录互不干扰,无改动自动清理;更重的并行用 Dynamic Workflows——prompt 里含 ultracode 即触发,自动生成 JS 编排脚本并行驱动最多 1000 个子 Agent,中间结果不占主上下文;/effort ultracode 整会话开启,/workflows 管理、按 s 保存编排复用。Codex:桌面 App 多 thread,新建 thread 时选 Worktree 自动隔离,内置 review pane 统一审所有 diff,审完 handoff 回本地。
什么时候该停在这级。(1) 拆出来的块仍共享热点文件——并行的收益会被解决冲突的成本吃光;(2) 你的验收带宽才是瓶颈:10 个 diff 同时到达而你只能认真审 3 个,剩下 7 个要么积压、要么糊弄过——这时并行度该降不该升。
上推门票。④的门票是环境配置 + PR 验收纪律:能让云端沙箱复现你的构建和测试环境,且你愿意把"审 PR"当成每天固定要还的债,而不是攒一堆。
场景。睡前把一个独立 bug 丢给 Codex Cloud——"修复 issue #N,附带回归测试"——它在云端沙箱里跑,产出 PR;早上你在手机上审。你的机器没开,工作照样发生。这一级的本质变化:你的在场不再是 agent 工作的前提。
工具。这级以 Codex 为主:chatgpt.com/codex 连 GitHub、配好环境后丢任务,移动端可发起和审查;或者更轻——直接在 issue 里评论 @codex。配套的 QA 闭环:开 Automatic reviews 让每个 PR 被自动审(只报 P0/P1,不刷存在感),@codex review 手动触发,@codex fix it 一键派云任务修掉审出的问题。要做质量门禁就把 codex exec 封进 CI:openai/codex-action@v1 + prompt 文件 + sandbox 模式。
什么时候该停在这级。(1) 任务依赖沙箱里复现不了的东西(内网服务、本地数据、特殊凭据)——环境配不平就别硬推,失败会很安静;(2) 任务品味敏感或不可逆——云端跑完你才看到结果,纠偏成本最高的位置不要放纠偏需求最大的任务。
上推门票。⑤的门票是把意图写成可长期执行的目标与守则:不再描述一次性任务,而是描述一个状态("warning 保持为零")+ 约束("每次一个独立 PR"),让系统自己决定何时、做什么。
场景。仓库里积了几百条 ESLint warning,你不再一次次发任务,而是设一个目标:"清零,每次一个独立 PR"——agent 持续数小时甚至数天自主推进,你只按节奏收 PR。或者反过来由事件驱动:线上告警从 Telegram 推进运行中的会话,agent 自动开始诊断,轮询反转为推送。
工具。Claude Code 三件套:/loop 5m check deployment 在会话内按间隔自动重复 prompt(不给间隔则 Claude 自调节奏;默认 prompt 放 .claude/loop.md;Esc 停止;注意它是会话作用域,7 天过期);Routines 跑在云端,/schedule daily PR review at 9am 一句话建立,支持定时 / GitHub 事件 / API 三种触发,完整配置在 claude.ai/code/routines(6/15 起走独立 Agent SDK credit,留意账单);Channels 把 Telegram/Discord/iMessage 接进运行中的会话(本地 MCP server + bot)。Codex 两件:Goal Mode 已 GA,/goal 把 ESLint warning 清零,每次一个独立 PR;Automations 在 App 内建定时 agent 任务(项目 + prompt + 周期 + 环境),比如每日 9:00 triage 新 issue。
这一级的边界。(1) 没有机器可验证的成功标准的目标不要放上来——自治系统会在模糊目标上持续产出貌似合理的垃圾,且没人盯着;(2) 守则必须限定爆炸半径(独立 PR、只动某目录、不碰发布分支),自治 ≠ 放权一切。
"战术时代的 AI 是补全;战略时代的 AI 是 agent 接管编码,人负责规格、上下文与规划。" — Vivek Haldar
两条原则,决定任务放在哪一级:
选级标准是 杠杆率(impact / time)与验收成本:探索性、高风险、品味敏感的工作留在低层级;可清晰描述、可自动验证的工作尽量上推。Osmani 的 70% 问题提醒你:上推得越高,最后 30%(边界、集成、可维护性)的验收责任越重。
对比示例——同一个任务"清掉仓库里 200 条 lint warning":
反过来,"重新设计某模块的对外接口"如果推到④,云端会还你一个编译通过、测试全绿但抽象方向错了的 PR——验收(看懂再推翻)比自己在①做一遍还贵。验收成本不可自动化的任务,每上推一级都是负杠杆。
对比示例——同一个 bug 丢给 Codex Cloud(同一工具、同一级):
两次的差别不在 agent 能力,在你睡前那五分钟写规格的质量。觉得"某级用不了"时,先怀疑规格,再怀疑工具。
1. 写下你本周实际做过的 3 个任务(编码、文档、调研都算)。
2. 给每个标注:你用的是第几级?理论上最高可以放到第几级?
3. 挑差距最大的那一个,今天就把它上推一级。两个现成起点:
# 起点 A(Claude Code,②→⑤):给一个你常手动盯的事配上 /loop /loop check whether CI passed and address any review comments # 起点 B(Codex,②→④):睡前丢一个独立 bug 给云端 # chatgpt.com/codex → 选仓库 → "修复 issue #N,附带回归测试" → 早上审 PR
4. 把你的 3 行审计结果发回给我(你的老师)。我会基于它判断下一课教什么,并纠正层级判断。这是本课的反馈环。
1. 把任务从「同步结对」上推到「任务委派」时,你的核心工作变成什么?
2. Ousterhout(2025 年访谈)认为默认状态下的 AI 编码工具更像哪种角色?
3. /loop 与 Routines 最关键的区别是什么?
Vivek Haldar — AI Coding: From Tactics to Strategy(约 5 分钟)。你那段"AI 吞噬战术性编程"的引文,思想源头正是这篇 + Osmani 的 The Next Two Years。先读 Haldar 这篇短的。
点卡片翻面。记的是能用的判断核心,不是定义。
能讲清楚,才是真懂——比能回忆高一层。
讲不顺的地方就是还没真懂的地方 —— 发给我,我帮你补上。