AI 时代的战略型工程师

课程总览 · 更新于 2026-07-06 · 你的私人学习地图

使命（Why）：AI 正在吞噬战术性、实地性编程。把规划、QA、代码库设计这些"过去让人从初级升到高级"的战略技能练成日常基本功，并把 Claude Code / Codex 从"原始对话式用法"升级为稳定、高杠杆的协作伙伴。
完整使命见 MISSION.md

🔄 开始复习　跨课随机抽卡（背诵 + 复述），偏向更早学的课——间隔 + 交织检索练习，记得才牢。也可以直接在对话里跟我说"考考我"。

进入复习 →

一张图看懂主线：委派阶梯

整个课程的骨架。按"你离开键盘的程度"分五级，每上一级你写的代码更少、写的规格与验收更多。管理 agent 本身就是战略活动——所以升级委派形态 = 练战略技能。

①
同步结对　逐轮对话，你看着每一步日常会话 · Fast Mode（/fast）
②
任务委派　整块交出，只验收结果subagents · 后台任务（run_in_background）
起点
③
并行舰队　多 agent 同时推进无依赖块worktree（claude -w）· Dynamic Workflows（ultracode）· Codex 多 thread
④
云端异步　工作在你不在机器旁时发生Codex Cloud · @codex review/fix · GitHub Action
⑤
自治系统　常驻目标/触发器，无需逐次发起/loop · Routines（/schedule）· Goal Mode（/goal）· Channels
★ 已实操到达

你已经用一条全自动 Workflow（KMP 重构）实操到了 ⑤ 级 —— 三节课走完了别人原地踏步几年的跨度。

课程进度

第一课 · 委派阶梯✓ 已学 + 已扩写

核心技能：判断任何任务该放在五级委派阶梯的哪一级，依据是杠杆率与验收成本，不是工具能力。

你做了什么：审计了三个真实任务（文档写作 / 测试修复 skill / 12h Goal Mode），暴露出真正的瓶颈是规格与验证，不是委派工具。

≈15 分钟 · 含 3 道自测 + 阶梯审计实操 · 首选阅读：Vivek Haldar《From Tactics to Strategy》

第二课 · 可执行规格✓ 已学

核心技能：把"想要的效果"写成 agent 啃得动的规格——黄金样本 > 验收标准 > 反例 > 读者目的 > 素材清单（按杠杆率排序）。

关键洞察：生成结果与预期差距大，根因是欠规格的空间被默认值占领，不是模型不行。修正不回流 = 为同一错误反复付费。

≈15 分钟 · 含 SPEC.md 模板 + 对照实验 · 首选阅读：GitHub Spec Kit 方法论

第三课 · 编排一场大重构✓ 已学 + 实战跑通

核心技能：设计一条让多个 Agent 安全完成大体量重构的流水线，自己当总指挥——拆解、把门、对抗 review、防改坏。

实战结果：KMP 个人页（256 文件 / 4 万行 / 5 个子 Tab）的全自动 Workflow 完整跑通，10 个单元全部 MERGED、编译通过。真机验证（关 4）转为第五课的作业。

关0 盘点→ 关1 方案冻结
你拍板→ 关2 并行改造
worktree 隔离→ 关3 对抗 review
独立挑刺→ 关4 真机验证
你的安全网

≈18 分钟 · 含 4 道自测 · 产物：REFACTOR_PLAN.html（冻结 SPEC）+ refactor-workflow.mjs（编排脚本），随实战留在代码仓库 /Users/bytedance/novel/v1biz/android/.ai_local_artifacts/

第四课 · 为什么 Agent 会忘记规则✓ 已开课

核心技能：诊断与预防上下文漂移（instruction drift）——agent 长流程中忘记早前规则、过程跑偏。先正名（这不是 trace，是病；trace 是诊断工具），再机制、诊断、预防闭环。

缘起：你的自动化测试 skill 编排执行中会忽略前面强调的规则。根因是 Transformer 注意力架构属性（lost in the middle / context rot），2026 最强模型也有——不是你的错，但有确定对策。

≈18 分钟 · 含 4 道自测 + skill 编排三步改造（抽 INVARIANTS.md / 每步读回 / hook 重注入+拦截）· 首选阅读：Chroma《Context Rot》

第五课 · 可观测性与验证 harness✓ 已开课

核心技能：让 agent 出示证据而非宣称成功——可观测性三件套（确定性 trace / run journal / 分析也委派）+ 官方四级验证梯度（prompt → /goal → Stop hook 门禁 → 独立 verifier）。

直击痛点：你流水线唯一卡在 ① 级的真机验证：VERIFY.md 断言清单 + device-control 驱动 + logcat 断言优先截图兜底，人从"逐 Tab 点"降到"只审矛盾报告"。含 codex 自述翻车的现场活教材。

≈20 分钟 · 含 4 道自测 + 真机验证 harness 实操 · 首选阅读：Claude Code Best Practices「验证」章

第六课 · 并行舰队✓ 已开课

核心技能：30 秒判断该不该开舰队（too big / too parallel / self-grading 三问 + 反向判据），用官方原语（pipeline/parallel/phase）和质量模式（对抗验证 / 评审团 / 挖到干涸）编排不浪费。

关键数字：multi-agent ≈ 15× token、比单强模型高 90.2%、token 用量解释 80% 性能方差——舰队的第一性原理是"把 token 花在对的结构上"，不是 agent 头数。

≈20 分钟 · 含 4 道自测 + refactor-workflow.mjs 对照复盘实操 · 首选阅读：Anthropic multi-agent research system

第七课 · 云端异步✓ 已开课

核心技能：点亮阶梯 ④——Codex Cloud（网页建 environment、best-of-N --attempts、@codex review→fix 闭环）× Claude Code（--cloud/--teleport 会话接力、Routines 真云端定时、/code-review ultra）。

一句话总纲：Codex 的云是"任务农场"（事件驱动），Claude 的云是"会话的延伸"（日程驱动）——互补不互斥。含合规边界：内网代码不上云。

≈20 分钟 · 含 4 道自测 + 云端冒烟三步实操 · 首选阅读：Codex Cloud 官方文档

第八课 · 复杂度控制✓ 已开课

核心技能：用 Ousterhout 框架审 AI 代码——复杂度解剖学（依赖+晦涩→三症状）、深模块原文公式（收益是功能、成本是接口）、14 条 red flags × AI 典型表现全表，写成 Review guidelines 装进 review 链。

关键实证：AI 默认是战术型程序员——粘贴:重构 ≈ 5:1、smell +63%、模型越强越臃肿且"详细 prompt 救不了架构退化"。铁律：生成代码的模型不审自己的代码。

≈22 分钟 · 含 4 道自测 + KMP 代码库复杂度门禁实操 · 首选阅读：APOSD 第 2-5 章

第九课 · 常驻自治系统：Routines × Goal Mode 的设计待开课

将教：把第五课的验证 harness 和第八课的复杂度门禁变成"每周自动跑"的常驻系统——Routine 设计、/goal 长目标、告警回流。

入课门票：第八课作业的两个基线数字（重复块数、pass-through 数）。

这几节课你真实走过的轨迹

不是听课，是一条真实任务把理论逼成了实战：

节点	你做的判断（战略动作）
第一课	承认"应用太原始"实为协作形态停在 ②级，开始上推
第二课	看清文档任务差距大 = 规格缺口，不是模型问题
插入实战	带来 KMP 重构真实任务，要求"先方案后动手 + 不想盯着"
纠正教练	明确"老师只指导，执行我自己做"——夺回总指挥位置
四次修方案	用现场事实纠正 AI 假设：只到开发分支 / 自动 merge / 1 台设备 / 查出 Codex plugin
审编排脚本	抓出 stash 数据风险、路径迁移静默失效——审"编排逻辑"而非"每行代码"

↑ 这一列，就是"AI 时代战略型工程师"的日常：不接受 agent 给的方案，用对系统的真实理解去逼问、修正它。

参考资料（随时查）

🔄 跨课复习 —— 随机抽卡（背诵 + 复述），偏向更早学的课，间隔 + 交织检索练习
📇 术语表 —— 战略编程 / 委派阶梯 / 工具机制的统一定义，所有课程共用
🗺️ 能力速查表（2026-06） —— Claude Code & Codex 最新能力按阶梯排列 + 分工心法
🎯 MISSION.md —— 完整使命、成功标准、边界
📚 RESOURCES.md —— 20+ 高信任学习资源 + 社区（Ousterhout / Osmani / Spec Kit …）

学习记录（决策档案）

教学的"架构决策记录"，捕捉非显然的洞察与转折，驱动下一课。

0001 基线：你是中高级用户，跳过基础
0002 三任务审计：瓶颈是规格与可观测性
0003 KMP 重构成为实战锚点
0004 教学边界：教练只指导，执行你做
0005 下一课方向：可观测性与验证
0006 第四课：上下文漂移的诊断与预防
0007 工作区按最新结构规则改造（练习区 + 跨课复习）
0008 第五课：验证 harness 与"要证据不要宣称"
0009 第六课：并行舰队的判断框架与质量模式
0010 第七课：云端异步——任务农场 vs 会话延伸
0011 第八课：复杂度门禁与 red flags 工具化

怎么用这页：点任意课程标题进入该课；课内有自测题、实操任务、首选阅读和引用文献。有任何不清楚的，回到对话里问我——我是你的老师，可以展开任何一课的任何细节。

当前作业池（按优先级）：第五课·KMP 真机验证装 harness（触屏次数对比）→ 第八课·Review guidelines 装进 review 链 + 复杂度基线两个数字 → 第六课·舰队 token 单价 → 第七课·云端冒烟三步（用个人仓库）。任何一份数据回来都可以推进对应的下一步；第九课（常驻自治）等第八课基线。