Agent 驾驭工程
深度学习知识点 · 完整版
核心理念:Harness Engineering 是AI工程化发展的第三个阶段——从前两代的Prompt Engineering和Context Engineering进化而来,设计模型的执行环境,让模型可靠完成任务。
一、概念定位与演进
1.1 三层AI开发范式
| 阶段 | 核心问题 | 优化什么 |
|---|---|---|
| Prompt Engineering | 怎么说让模型理解 | 表达方式 |
| Context Engineering | 给什么上下文 | 信息管理 |
| Harness Engineering | 怎么让模型可靠完成任务 | 执行环境 |
1.2 核心公式
Agent = Model + Harness
Model:AI模型本身(推理引擎)
Harness:模型之外的一切——工具、内存、护栏、验证、编排逻辑
关键洞察:大多数Agent可靠性问题不在模型,而在Harness。
二、七大子系统
子系统一:复杂任务的规划和执行能力
核心目标:让Agent能够处理跨越多个会话/上下文窗口的长时任务,实现持续可靠的自主工作。
1.3 核心机制详解
A. Initializer Agent(初始化Agent)
首个会话专门设置初始环境,为后续所有工作奠定基础:
- init.sh — 启动脚本
- claude-progress.txt — 进度日志
- feature_list.json — 特性清单
B. 增量进度模式(Incremental Progress)
每次只处理一个功能点,完成后:
- 运行相关测试验证
- 提交git commit
- 更新progress文件
- 遗留干净的代码状态
C. Feature List(特性清单)
结构化任务列表,每个任务包含:id、category、description、priority、steps、passes状态。
三、上下文工程处理能力
2.1 Context Window Inflation(上下文膨胀)
| 组成 | 典型大小 |
|---|---|
| System Prompt | 2K tokens |
| Tool Definitions | 50K tokens ← MCP越多膨胀越严重 |
| Conversation | 100K tokens ← 中间步骤累积 |
| Retrieved Context | 30K tokens |
2.2 Context Rot(上下文腐败)
| Token区间 | 模型表现 |
|---|---|
| 1-50K | ★★★★★ 高相关 |
| 50-100K | ★★★★☆ 中相关 |
| 100-150K | ★★☆☆☆ 低相关 |
| 150-200K | ★☆☆☆☆ 几乎遗忘 |
2.3 解决方案详解
- A. Compaction(压缩) — 定期压缩上下文,保留关键信息
- B. Context Firewall(上下文防火墙) — 使用子Agent隔离执行,父线程只看到最终结果
- C. Progressive Disclosure(渐进式披露) — 只在需要时加载相关上下文
四、子系统三至七
子系统三:虚拟文件系统
为Agent提供安全可控的文件操作能力,追踪状态变化。
子系统四:智能体管理系统
多Agent协作与状态管理,Coordinator分析任务需求,制定执行计划,委派给子Agent。
子系统五:人工介入系统
在关键节点引入人类判断,防止自动化失控——Pre-Commit Review、Stop Hooks、Feedback Loop、Approval Gates。
子系统六:沙箱系统
安全隔离的执行环境,防止Agent破坏真实系统——容器隔离、危险操作防护、可恢复性。
子系统七:技能管理系统
可复用的知识模块,按需激活。
五、底层原理
Feedforward + Feedback 二元组
| 机制 | 作用 | 目的 |
|---|---|---|
| Guide(前馈) | 预期问题,提前引导 | 提高首次成功率 |
| Sensor(反馈) | 观察结果,自正修正 | 减少人为干预 |
关键洞察:只做Feedback → Agent重复同样错误。只做Guide → Agent不知道是否成功。必须两者结合。
六、关键模式:Ralph Loop
核心思想:Agent"故意遗忘"——每次迭代从fresh context开始,而不是在长上下文中退化。
七、行业实践案例
| 案例 | 特点 |
|---|---|
| OpenAI Codex | Repository Knowledge, Execution Plans |
| Anthropic Claude | Initializer + Coding, Feature List |
| Spotify Honk | Coordinator + Implementor, 1500+ PRs |
| Augment Intent | Verifier Agent, Pre-Merge Verification |
八、核心原则总结
- 一、问题在Harness而非Model — 换模型不解决问题
- 二、Guide + Feedback必须结合 — 只做任何一个都不行
- 三、Computational优先 — 便宜可靠,inferential补充
- 四、渐进式披露 — 不要一次性塞入,按需加载
- 五、自上而下设计 — 从目标倒推需要什么harness
九、前沿方向
- Harness自动优化 — AutoAgent自动迭代配置
- 多Agent协作 — 共享代码库的多Agent编排
- 动态Harness — Just-in-time工具和上下文组装
- 自我改进 — Agent分析trace,修复harness层级失败