Harness Engineering

Agent 驾驭工程

深度学习知识点 · 完整版

核心理念：Harness Engineering 是AI工程化发展的第三个阶段——从前两代的Prompt Engineering和Context Engineering进化而来，设计模型的执行环境，让模型可靠完成任务。

一、概念定位与演进

1.1 三层AI开发范式

阶段	核心问题	优化什么
Prompt Engineering	怎么说让模型理解	表达方式
Context Engineering	给什么上下文	信息管理
Harness Engineering	怎么让模型可靠完成任务	执行环境

1.2 核心公式

Agent = Model + Harness

Model：AI模型本身（推理引擎）

Harness：模型之外的一切——工具、内存、护栏、验证、编排逻辑

关键洞察：大多数Agent可靠性问题不在模型，而在Harness。

◆ ◆ ◆

二、七大子系统

子系统一：复杂任务的规划和执行能力

核心目标：让Agent能够处理跨越多个会话/上下文窗口的长时任务，实现持续可靠的自主工作。

1.3 核心机制详解

A. Initializer Agent（初始化Agent）

首个会话专门设置初始环境，为后续所有工作奠定基础：

init.sh — 启动脚本
claude-progress.txt — 进度日志
feature_list.json — 特性清单

B. 增量进度模式（Incremental Progress）

每次只处理一个功能点，完成后：

运行相关测试验证
提交git commit
更新progress文件
遗留干净的代码状态

C. Feature List（特性清单）

结构化任务列表，每个任务包含：id、category、description、priority、steps、passes状态。

◆ ◆ ◆

三、上下文工程处理能力

2.1 Context Window Inflation（上下文膨胀）

组成	典型大小
System Prompt	2K tokens
Tool Definitions	50K tokens ← MCP越多膨胀越严重
Conversation	100K tokens ← 中间步骤累积
Retrieved Context	30K tokens

2.2 Context Rot（上下文腐败）

Token区间	模型表现
1-50K	★★★★★ 高相关
50-100K	★★★★☆ 中相关
100-150K	★★☆☆☆ 低相关
150-200K	★☆☆☆☆ 几乎遗忘

2.3 解决方案详解

A. Compaction（压缩） — 定期压缩上下文，保留关键信息
B. Context Firewall（上下文防火墙） — 使用子Agent隔离执行，父线程只看到最终结果
C. Progressive Disclosure（渐进式披露） — 只在需要时加载相关上下文

◆ ◆ ◆

四、子系统三至七

子系统三：虚拟文件系统

为Agent提供安全可控的文件操作能力，追踪状态变化。

子系统四：智能体管理系统

多Agent协作与状态管理，Coordinator分析任务需求，制定执行计划，委派给子Agent。

子系统五：人工介入系统

在关键节点引入人类判断，防止自动化失控——Pre-Commit Review、Stop Hooks、Feedback Loop、Approval Gates。

子系统六：沙箱系统

安全隔离的执行环境，防止Agent破坏真实系统——容器隔离、危险操作防护、可恢复性。

子系统七：技能管理系统

可复用的知识模块，按需激活。

◆ ◆ ◆

五、底层原理

Feedforward + Feedback 二元组

机制	作用	目的
Guide（前馈）	预期问题，提前引导	提高首次成功率
Sensor（反馈）	观察结果，自正修正	减少人为干预

关键洞察：只做Feedback → Agent重复同样错误。只做Guide → Agent不知道是否成功。必须两者结合。

◆ ◆ ◆

六、关键模式：Ralph Loop

核心思想：Agent"故意遗忘"——每次迭代从fresh context开始，而不是在长上下文中退化。

◆ ◆ ◆

七、行业实践案例

案例	特点
OpenAI Codex	Repository Knowledge, Execution Plans
Anthropic Claude	Initializer + Coding, Feature List
Spotify Honk	Coordinator + Implementor, 1500+ PRs
Augment Intent	Verifier Agent, Pre-Merge Verification

◆ ◆ ◆

八、核心原则总结

一、问题在Harness而非Model — 换模型不解决问题
二、Guide + Feedback必须结合 — 只做任何一个都不行
三、Computational优先 — 便宜可靠，inferential补充
四、渐进式披露 — 不要一次性塞入，按需加载
五、自上而下设计 — 从目标倒推需要什么harness

◆ ◆ ◆

九、前沿方向

Harness自动优化 — AutoAgent自动迭代配置
多Agent协作 — 共享代码库的多Agent编排
动态Harness — Just-in-time工具和上下文组装
自我改进 — Agent分析trace，修复harness层级失败