| 任务 | 你的判断 | 我的纠正 | 真正的瓶颈 |
|---|---|---|---|
| ① 文档写作 讨论大纲→AI 初稿→逐章调整 | 实际①,理论② | 实际①✓,理论是③:规格冻结后各章无依赖,可并行委派 | 不是委派形态,是规格缺口——"生成的和想要的差距大"说明 agent 在拿默认值填你没说清的空间 |
| ② 测试修复 skill 开发 给目标→执行→跑 skill 验证→vibe 改→重复 | 实际②,理论③ | 都对,但上③有前置条件:先把"验证链路长"砍短。没有自动验证 harness 就并行,等于把你的阅读量乘以 N | 验证成本——验证不自动化,并行舰队只会更快地堆积待你验收的产物 |
| ③ 12h Goal Mode UI 测试 截图对比,想要 trace | 实际②,理论⑤ | 执行已经在⑤(Goal Mode 12 小时就是自治系统),但验证/观测在①——所以体感才是②。层级 = 执行 + 验证闭环,取两者较低值 | 可观测性——你提的 trace 方向完全正确,这是第三课主题 |
你的文档流程是:讨论大纲 → agent 读代码/旧文档/补充信息 → 出全稿 → 逐章人工调整。问题出在三个具体环节:
1. 大纲不是规格。大纲只约束了"写什么",没约束"写成什么样"。读者是谁、一章多长、概念怎么展开、示例占多大比重、什么语气、什么禁区——这些你都没说,agent 就只能用它的默认值(训练语料里"文档"的平均样子)填进去。这正是 Ousterhout 说的战术龙卷风行为:LLM 不会停下来问你要设计决策,它直接编一个最顺手的。差距大不是模型笨,是欠规格的空间全被默认值占领了。
2. 修正没有回流。你逐章调整时,每一次修改其实都是一条珍贵的规格信息("这样写不对,应该那样")。但它们消费完就丢了——下一章 agent 犯的还是同款错误。所以"整体耗时比较久":你在为同一条没写下来的规则反复付费。
3. 验收没有标准,所以无法委派。"我看了感觉不对"没法交给 verifier agent 执行。不能委派验收,你就只能停在①级逐字看——这就是你被锁在第一级的真正原因。
对任何要委派的任务(文档、代码、调研皆同),规格 = 以下五件东西。按杠杆率排序:
golden-sample.mdsrc/core/ 为准;旧文档 docs/v1/ 仅参考结构不参考内容;发布流程问我"↑ 你的时间随章节数线性烧
"对比我改前改后的版本,把差异总结成可执行的写作规则和反例""按 SPEC.md 和 golden-sample.md 并行写第 2、3、4 章,每章一个 subagent,互不依赖""按 SPEC.md 的验收标准逐条检查 ch02.md,输出表格:条款 | 通过/不通过 | 证据(引用原文行)"唯一需要长期遵守的纪律:任何一次人工修正,都问一句"这条该不该回写进 SPEC.md"。该回写不回写,下一章同样的错误你再付一次费;全部回写又会让规格膨胀成没人读的法典。判据:这个错误是模式(会再犯)还是个案(仅此处语境)。模式回写,个案就地改完拉倒。
拿你审计里那个文档任务(或当前在写的任何一篇),完成阶段一:
# SPEC.md 模板(直接复制开填) ## 读者与目的 读者:…(具体到岗位和上下文) 读完能:…(一个可观察的行为) ## 黄金样本 见 golden-sample.md(亲手改到满意的一节,500 字以上) ## 验收标准(verifier 逐条核对用,每条必须可检查) - [ ] 每章 ≤ … 字 - [ ] 每个概念配 ≥1 个真实代码示例,标注文件路径 - [ ] 术语与 … 一致 - [ ] …(至少 5 条) ## 反例(从你过去的修改中提炼,含原因) - ❌ …:因为 … - ❌ …:因为 …(至少 3 条——翻你上次逐章调整的记录) ## 素材清单 - 以 … 为准;… 仅参考;… 问我
提示:第 2、3 步不用手写——让 Claude Code 干粗活:
"对比 draft-v1.md 和我改完的 final-v1.md,把所有差异提炼成写作规则和反例,按上面模板生成 SPEC.md 草稿",你只做裁决。
然后做对照实验:用 SPEC.md + 黄金样章重新生成一章,和当初无规格的初稿比。把两个结果发回给我——差距收窄了多少,是检验本课是否成立的证据。
1. 生成结果与想要效果差距大,最常见的根因是?
2. 规格五组件里杠杆率最高的是哪个?
3. 逐章调整时人工修正了一处问题,正确的下一步是?
你问 12 小时长任务"想记录 trace 来定位哪一步出问题、不知道往哪个方向优化"——方向就是可观测性三件套,下一课展开,先给你结论免得等:
Claude Code 用 PostToolUse hook 把每次工具调用追加写入 JSONL(时间戳、工具、输入摘要、结果摘要)——hook 是确定性执行的,agent 想忘都忘不掉。Codex 侧用 codex exec --json 拿结构化事件流。
在 goal prompt 里钉一条不变量——每个步骤完成后必须向 RUN_LOG.md 追加一行:步骤号 | 意图 | 动作 | 观察 | 判定,截图文件名带步骤号,让图和 trace 能对上。这就是你自己那份 subagent-invariant-anchoring 规范的直接应用。
跑完别自己读 12 小时的日志——丢给一个分析 agent:"读 RUN_LOG.md + hook trace,定位首个判定与截图证据矛盾的步骤"。
点卡片翻面。记的是能用的判断核心,不是定义。
能讲清楚,才是真懂——比能回忆高一层。
讲不顺的地方就是还没真懂的地方 —— 发给我,我帮你补上。