AI 应用工程演变与核心概念
从 Prompt 到 Skills、Harness:梳理 AI 应用工程时间轴,理解「会说→会做→可运维」的演进逻辑
学习 AI 应用开发时,我把近几年常见概念按时间线串了一遍,再按「问题—解法—工程化」重排,方便对照自己的项目与实习实践。
一张图看懂演进方向
AI 应用工程不是「模型越来越强」这一条线,而是不断回答三个问题:
- 输出稳不稳 — 同样的问题,能不能得到可预期的格式与质量?
- 能不能动手 — 除了生成文字,能否调用工具、访问私有知识、完成多步任务?
- 能不能上线 — 出错、漂移、工具爆炸时,系统能否兜住,而不是靠改 prompt 碰运气?
对应关系可以粗分为:
| 阶段 | 典型概念 | 解决的核心痛点 |
|---|---|---|
| 交互收敛 | Prompt Engineering | 概率输出发散,难以用于产品 |
| 知识与时效 | RAG | 训练知识冻结,易幻觉 |
| 行动能力 | Function Calling → Tool Use → MCP | 只会说不会做;工具对接各自为政 |
| 任务规模 | Multi-agent、Context Engineering | 单 Agent 上下文与单线程瓶颈 |
| 协作与规范 | OpenSpec、OpenClaw | 决策消失在对话里;入口分散 |
| 可复用与可运维 | Skills、Harness Engineering | 每次从零推理;生产环境失控 |
时间轴上越靠后的条目,往往建立在前面已经「被吸收」的能力之上——例如 Function Calling 今天很少单独讨论,因为它已内化为 Agent 的默认能力。
时间轴速览(2022 → 2026)
按时间正序排列,便于理解因果链。
| 时间 | 概念 | 一句话 |
|---|---|---|
| 2022-11 | Prompt Engineering | 用角色、格式等约束,把发散输出收敛成可控结果;后续技术的起点。 |
| 2023-06 | Function Calling | 给模型「能力菜单」,自主选工具与参数,从「会说」到「会做」。 |
| 2023-11 | RAG | 回答前检索资料塞进上下文,接入私有知识与实时信息,企业问答标配。 |
| 2024-11 | MCP | 工具与模型的统一「插座标准」,Agent 工具生态走向即插即用。 |
| 2025-03 | Tool Use | 在 Function Calling 之上泛化:搜索、浏览器、数据库等皆可成为工具。 |
| 2025-06 | Multi-agent | 复杂任务拆给多 Agent 并行,突破单模型上下文与单线程限制。 |
| 2025-09 | Context Engineering | 有策略地组织对话、外部知识、工具结果——决定模型「看见什么」。 |
| 2026-01 | OpenSpec | 动手前先写规格,人与 AI 对齐目标与做法,改动可追溯。 |
| 2026-01 | OpenClaw | 微信、邮件、CLI 等入口统一接入同一助手;需较多配置,未必适合作为第一优先级。 |
| 2026-02 | Harness Engineering | 工具、记忆、错误恢复做成系统脚手架,Agent 进生产的关键一层。 |
| 2026-02 | Skills | 把提示词 + 工具 + 步骤打包成可复用单元,标准化 Agent 的基础积木。 |
做技术选型时,除了概念新旧,还要看落地门槛(安装即用 / 需配置 / 需系统级长期建设)和概念是否已被上层吸收——门槛往往比名词更重要。
核心概念分层理解
1. 交互层:把输出变成「产品接口」
Prompt Engineering 解决的是:大模型本质是采样生成,同一 prompt 也可能多套说法。产品需要的是字段稳定、语气一致、边界清晰——这正是互动叙事里 JSON 强约束、分层 Prompt 仍然绕不开的原因(参见 Prompt 工程中的 JSON 强约束实践)。
Context Engineering 则把问题从「怎么问」推进到「模型这次看到了什么」:历史对话如何裁剪、RAG 片段如何排序、工具返回是否过长、哪些记忆该进窗口。它和 Prompt 不是替代关系,而是同一轮推理的输入拼装。
2. 能力层:知识、工具与协作
- RAG:适合「有据可查」的问答与文档场景;要额外关注切片质量、召回、引用与幻觉边界。
- Function Calling / Tool Use:模型决策「调谁、传什么参」;工具设计(幂等、超时、错误信息)直接影响 Agent 可靠性。
- MCP:当工具数量上来,没有协议就会 N×M 对接;MCP 把扩展性交给生态,而不是每个项目手写胶水层。
- Multi-agent:适合长流程、角色分工明确的任务;代价是编排复杂度、成本与调试难度上升,不宜「为了多 Agent 而多 Agent」。
3. 工程层:规范、复用与生产护栏
- OpenSpec:AI 写代码快,但「为什么这样改」容易丢在聊天里;规格先行适合与 PR、评测集绑定的团队流程。
- Skills:把高频任务固化为可加载单元,减少「每次重新发明菜谱」——与个人站、Cursor 里按场景挂载 Skill 的思路一致。
- Harness Engineering:承认模型会错,在系统层做重试、校验、降级、审计;这是从 Demo 到线上服务的分水岭。
OpenClaw 一类「全入口网关」解决的是触达问题。我的体会是:要先想清楚统一入口是否真降低复杂度,还是只是把碎片化搬到网关后面,再决定是否投入集成成本。
落地门槛:选型时先问「谁维护」
个人与小团队可以先用三档门槛自检:
| 门槛 | 含义 | 典型概念 |
|---|---|---|
| 安装下就能使用 | 改配置或 prompt 即可验证 | Prompt、RAG 入门、MCP 客户端、Skills |
| 需要配置才能使用 | 要接账号、流水线或规范流程 | OpenClaw、部分多 Agent 编排 |
| 需要系统级开发与长期维护 | 索引、权限、监控、评测闭环 | 企业级 RAG、生产 Harness |
实习或 Vibe Coding 项目里,优先把门槛低、与业务直接相关的层做扎实(例如 JSON 输出、评测 badcase、上下文裁剪),再叠 MCP、多 Agent,避免堆概念却缺可观测性。
和本站其他学习笔记的对应
| 工程概念 | 本站实践锚点 |
|---|---|
| Prompt + Context | JSON 强约束、AIGC 工作流总结 里的模板与模型选型 |
| Tool Use / 多步任务 | AI 互动叙事 中的 Workflow 编排、状态机与多模态 |
| RAG / 私有知识 | 叙事人设、剧本与世界观文档的检索注入(产品内「设定库」) |
| Harness / 评测 | 互动叙事 7 类验收、20 轮双语回归、badcase 标签闭环 |
| Skills / 规范 | 本仓库 Cursor Skills、OpenSpec 类「先写清再实现」的协作习惯 |
小结
这张时间轴的价值,不在于记住 11 个英文词条,而在于看清每一层补的是哪块短板:Prompt 补稳定性,RAG 补知识,Tool/MCP 补行动,Context 补输入质量,Multi-agent 补规模,Skills/Harness 补复用与生产。做 AI 产品时,可以按当前瓶颈往上对齐——叙事引擎卡在格式,就先 Harness + JSON schema;卡在设定一致性,就先 Context + RAG,而不是反过来追最新名词。