个人思考

AI 应用工程演变与核心概念

从 Prompt 到 Skills、Harness:梳理 AI 应用工程时间轴,理解「会说→会做→可运维」的演进逻辑

Agent RAG MCP Prompt Roadmap

学习 AI 应用开发时,我把近几年常见概念按时间线串了一遍,再按「问题—解法—工程化」重排,方便对照自己的项目与实习实践。

一张图看懂演进方向

AI 应用工程不是「模型越来越强」这一条线,而是不断回答三个问题:

  1. 输出稳不稳 — 同样的问题,能不能得到可预期的格式与质量?
  2. 能不能动手 — 除了生成文字,能否调用工具、访问私有知识、完成多步任务?
  3. 能不能上线 — 出错、漂移、工具爆炸时,系统能否兜住,而不是靠改 prompt 碰运气?

对应关系可以粗分为:

阶段典型概念解决的核心痛点
交互收敛Prompt Engineering概率输出发散,难以用于产品
知识与时效RAG训练知识冻结,易幻觉
行动能力Function Calling → Tool Use → MCP只会说不会做;工具对接各自为政
任务规模Multi-agent、Context Engineering单 Agent 上下文与单线程瓶颈
协作与规范OpenSpec、OpenClaw决策消失在对话里;入口分散
可复用与可运维Skills、Harness Engineering每次从零推理;生产环境失控

时间轴上越靠后的条目,往往建立在前面已经「被吸收」的能力之上——例如 Function Calling 今天很少单独讨论,因为它已内化为 Agent 的默认能力。

时间轴速览(2022 → 2026)

按时间正序排列,便于理解因果链。

时间概念一句话
2022-11Prompt Engineering用角色、格式等约束,把发散输出收敛成可控结果;后续技术的起点。
2023-06Function Calling给模型「能力菜单」,自主选工具与参数,从「会说」到「会做」。
2023-11RAG回答前检索资料塞进上下文,接入私有知识与实时信息,企业问答标配。
2024-11MCP工具与模型的统一「插座标准」,Agent 工具生态走向即插即用。
2025-03Tool Use在 Function Calling 之上泛化:搜索、浏览器、数据库等皆可成为工具。
2025-06Multi-agent复杂任务拆给多 Agent 并行,突破单模型上下文与单线程限制。
2025-09Context Engineering有策略地组织对话、外部知识、工具结果——决定模型「看见什么」。
2026-01OpenSpec动手前先写规格,人与 AI 对齐目标与做法,改动可追溯。
2026-01OpenClaw微信、邮件、CLI 等入口统一接入同一助手;需较多配置,未必适合作为第一优先级。
2026-02Harness Engineering工具、记忆、错误恢复做成系统脚手架,Agent 进生产的关键一层。
2026-02Skills把提示词 + 工具 + 步骤打包成可复用单元,标准化 Agent 的基础积木。

做技术选型时,除了概念新旧,还要看落地门槛(安装即用 / 需配置 / 需系统级长期建设)和概念是否已被上层吸收——门槛往往比名词更重要。

核心概念分层理解

1. 交互层:把输出变成「产品接口」

Prompt Engineering 解决的是:大模型本质是采样生成,同一 prompt 也可能多套说法。产品需要的是字段稳定、语气一致、边界清晰——这正是互动叙事里 JSON 强约束、分层 Prompt 仍然绕不开的原因(参见 Prompt 工程中的 JSON 强约束实践)。

Context Engineering 则把问题从「怎么问」推进到「模型这次看到了什么」:历史对话如何裁剪、RAG 片段如何排序、工具返回是否过长、哪些记忆该进窗口。它和 Prompt 不是替代关系,而是同一轮推理的输入拼装

2. 能力层:知识、工具与协作

  • RAG:适合「有据可查」的问答与文档场景;要额外关注切片质量、召回、引用与幻觉边界。
  • Function Calling / Tool Use:模型决策「调谁、传什么参」;工具设计(幂等、超时、错误信息)直接影响 Agent 可靠性。
  • MCP:当工具数量上来,没有协议就会 N×M 对接;MCP 把扩展性交给生态,而不是每个项目手写胶水层。
  • Multi-agent:适合长流程、角色分工明确的任务;代价是编排复杂度、成本与调试难度上升,不宜「为了多 Agent 而多 Agent」。

3. 工程层:规范、复用与生产护栏

  • OpenSpec:AI 写代码快,但「为什么这样改」容易丢在聊天里;规格先行适合与 PR、评测集绑定的团队流程。
  • Skills:把高频任务固化为可加载单元,减少「每次重新发明菜谱」——与个人站、Cursor 里按场景挂载 Skill 的思路一致。
  • Harness Engineering:承认模型会错,在系统层做重试、校验、降级、审计;这是从 Demo 到线上服务的分水岭。

OpenClaw 一类「全入口网关」解决的是触达问题。我的体会是:要先想清楚统一入口是否真降低复杂度,还是只是把碎片化搬到网关后面,再决定是否投入集成成本。

落地门槛:选型时先问「谁维护」

个人与小团队可以先用三档门槛自检:

门槛含义典型概念
安装下就能使用改配置或 prompt 即可验证Prompt、RAG 入门、MCP 客户端、Skills
需要配置才能使用要接账号、流水线或规范流程OpenClaw、部分多 Agent 编排
需要系统级开发与长期维护索引、权限、监控、评测闭环企业级 RAG、生产 Harness

实习或 Vibe Coding 项目里,优先把门槛低、与业务直接相关的层做扎实(例如 JSON 输出、评测 badcase、上下文裁剪),再叠 MCP、多 Agent,避免堆概念却缺可观测性。

和本站其他学习笔记的对应

工程概念本站实践锚点
Prompt + ContextJSON 强约束AIGC 工作流总结 里的模板与模型选型
Tool Use / 多步任务AI 互动叙事 中的 Workflow 编排、状态机与多模态
RAG / 私有知识叙事人设、剧本与世界观文档的检索注入(产品内「设定库」)
Harness / 评测互动叙事 7 类验收、20 轮双语回归、badcase 标签闭环
Skills / 规范本仓库 Cursor Skills、OpenSpec 类「先写清再实现」的协作习惯

小结

这张时间轴的价值,不在于记住 11 个英文词条,而在于看清每一层补的是哪块短板:Prompt 补稳定性,RAG 补知识,Tool/MCP 补行动,Context 补输入质量,Multi-agent 补规模,Skills/Harness 补复用与生产。做 AI 产品时,可以按当前瓶颈往上对齐——叙事引擎卡在格式,就先 Harness + JSON schema;卡在设定一致性,就先 Context + RAG,而不是反过来追最新名词。

延伸阅读