AI 应用工程演变与核心概念

从 Prompt 到 Skills、Harness：梳理 AI 应用工程时间轴，理解「会说→会做→可运维」的演进逻辑

Agent RAG MCP Prompt Roadmap

学习 AI 应用开发时，我把近几年常见概念按时间线串了一遍，再按「问题—解法—工程化」重排，方便对照自己的项目与实习实践。

一张图看懂演进方向

AI 应用工程不是「模型越来越强」这一条线，而是不断回答三个问题：

输出稳不稳 — 同样的问题，能不能得到可预期的格式与质量？
能不能动手 — 除了生成文字，能否调用工具、访问私有知识、完成多步任务？
能不能上线 — 出错、漂移、工具爆炸时，系统能否兜住，而不是靠改 prompt 碰运气？

对应关系可以粗分为：

阶段	典型概念	解决的核心痛点
交互收敛	Prompt Engineering	概率输出发散，难以用于产品
知识与时效	RAG	训练知识冻结，易幻觉
行动能力	Function Calling → Tool Use → MCP	只会说不会做；工具对接各自为政
任务规模	Multi-agent、Context Engineering	单 Agent 上下文与单线程瓶颈
协作与规范	OpenSpec、OpenClaw	决策消失在对话里；入口分散
可复用与可运维	Skills、Harness Engineering	每次从零推理；生产环境失控

时间轴上越靠后的条目，往往建立在前面已经「被吸收」的能力之上——例如 Function Calling 今天很少单独讨论，因为它已内化为 Agent 的默认能力。

时间轴速览（2022 → 2026）

按时间正序排列，便于理解因果链。

时间	概念	一句话
2022-11	Prompt Engineering	用角色、格式等约束，把发散输出收敛成可控结果；后续技术的起点。
2023-06	Function Calling	给模型「能力菜单」，自主选工具与参数，从「会说」到「会做」。
2023-11	RAG	回答前检索资料塞进上下文，接入私有知识与实时信息，企业问答标配。
2024-11	MCP	工具与模型的统一「插座标准」，Agent 工具生态走向即插即用。
2025-03	Tool Use	在 Function Calling 之上泛化：搜索、浏览器、数据库等皆可成为工具。
2025-06	Multi-agent	复杂任务拆给多 Agent 并行，突破单模型上下文与单线程限制。
2025-09	Context Engineering	有策略地组织对话、外部知识、工具结果——决定模型「看见什么」。
2026-01	OpenSpec	动手前先写规格，人与 AI 对齐目标与做法，改动可追溯。
2026-01	OpenClaw	微信、邮件、CLI 等入口统一接入同一助手；需较多配置，未必适合作为第一优先级。
2026-02	Harness Engineering	工具、记忆、错误恢复做成系统脚手架，Agent 进生产的关键一层。
2026-02	Skills	把提示词 + 工具 + 步骤打包成可复用单元，标准化 Agent 的基础积木。

做技术选型时，除了概念新旧，还要看落地门槛（安装即用 / 需配置 / 需系统级长期建设）和概念是否已被上层吸收——门槛往往比名词更重要。

核心概念分层理解

1. 交互层：把输出变成「产品接口」

Prompt Engineering 解决的是：大模型本质是采样生成，同一 prompt 也可能多套说法。产品需要的是字段稳定、语气一致、边界清晰——这正是互动叙事里 JSON 强约束、分层 Prompt 仍然绕不开的原因（参见 Prompt 工程中的 JSON 强约束实践）。

Context Engineering 则把问题从「怎么问」推进到「模型这次看到了什么」：历史对话如何裁剪、RAG 片段如何排序、工具返回是否过长、哪些记忆该进窗口。它和 Prompt 不是替代关系，而是同一轮推理的输入拼装。

2. 能力层：知识、工具与协作

RAG：适合「有据可查」的问答与文档场景；要额外关注切片质量、召回、引用与幻觉边界。
Function Calling / Tool Use：模型决策「调谁、传什么参」；工具设计（幂等、超时、错误信息）直接影响 Agent 可靠性。
MCP：当工具数量上来，没有协议就会 N×M 对接；MCP 把扩展性交给生态，而不是每个项目手写胶水层。
Multi-agent：适合长流程、角色分工明确的任务；代价是编排复杂度、成本与调试难度上升，不宜「为了多 Agent 而多 Agent」。

3. 工程层：规范、复用与生产护栏

OpenSpec：AI 写代码快，但「为什么这样改」容易丢在聊天里；规格先行适合与 PR、评测集绑定的团队流程。
Skills：把高频任务固化为可加载单元，减少「每次重新发明菜谱」——与个人站、Cursor 里按场景挂载 Skill 的思路一致。
Harness Engineering：承认模型会错，在系统层做重试、校验、降级、审计；这是从 Demo 到线上服务的分水岭。

OpenClaw 一类「全入口网关」解决的是触达问题。我的体会是：要先想清楚统一入口是否真降低复杂度，还是只是把碎片化搬到网关后面，再决定是否投入集成成本。

落地门槛：选型时先问「谁维护」

个人与小团队可以先用三档门槛自检：

门槛	含义	典型概念
安装下就能使用	改配置或 prompt 即可验证	Prompt、RAG 入门、MCP 客户端、Skills
需要配置才能使用	要接账号、流水线或规范流程	OpenClaw、部分多 Agent 编排
需要系统级开发与长期维护	索引、权限、监控、评测闭环	企业级 RAG、生产 Harness

实习或 Vibe Coding 项目里，优先把门槛低、与业务直接相关的层做扎实（例如 JSON 输出、评测 badcase、上下文裁剪），再叠 MCP、多 Agent，避免堆概念却缺可观测性。

和本站其他学习笔记的对应

工程概念	本站实践锚点
Prompt + Context	JSON 强约束、AIGC 工作流总结里的模板与模型选型
Tool Use / 多步任务	AI 互动叙事中的 Workflow 编排、状态机与多模态
RAG / 私有知识	叙事人设、剧本与世界观文档的检索注入（产品内「设定库」）
Harness / 评测	互动叙事 7 类验收、20 轮双语回归、badcase 标签闭环
Skills / 规范	本仓库 Cursor Skills、OpenSpec 类「先写清再实现」的协作习惯

小结

这张时间轴的价值，不在于记住 11 个英文词条，而在于看清每一层补的是哪块短板：Prompt 补稳定性，RAG 补知识，Tool/MCP 补行动，Context 补输入质量，Multi-agent 补规模，Skills/Harness 补复用与生产。做 AI 产品时，可以按当前瓶颈往上对齐——叙事引擎卡在格式，就先 Harness + JSON schema；卡在设定一致性，就先 Context + RAG，而不是反过来追最新名词。