停止编写提示。开始构建 AI 系统。

发布: (2026年2月26日 GMT+8 04:36)
8 分钟阅读
原文: Dev.to

Source: Dev.to

状态: 草稿

Source:

1. 真正的升级:从 Prompt 到 Engineering Loop

在传统软件中,你编写的是确定性的代码。
在 AI 系统中,行为是 概率性的——你不再硬编码逻辑,而是 塑造它。

难点不在于生成文本;而在于 在成千上万次交互中控制行为
控制来自于对循环的工程化。

AI Engineering Loop

+------------------+
|       GOAL       |
+------------------+

+------------------+
| SUCCESS CRITERIA |
+------------------+

+------------------+
|    TEST CASES    |
+------------------+

+------------------+
| PROMPT + CONTEXT |
|     VERSION      |
+------------------+

+------------------+
|   MEASUREMENT    |
+------------------+

+------------------+
|    ITERATION     |
+------------------+
  • 如果在编写 Prompt 之前 没有定义成功标准,那就不是工程化。
  • 如果 没有在结构化案例中测试行为,那就不是工程化。
  • 如果 无法比较版本并衡量改进,那就不是工程化。

否则,你仅仅是在 实验

2. Prompt Engineering 是基本要求

一个可预测的提示包含以下结构:

要素描述
ROLE模型应扮演的角色
CONTEXT背景信息
TASK模型必须完成的任务
CONSTRAINTS行为限制
REFERENCES (examples & anti‑examples)风格/质量指南(示例与反示例)
OUTPUT FORMAT答案的期望格式

这提升了可靠性,但提示结构类似于 function signature —— 必要但不充分

当你开始提问:

  • 在 20 回合之后会发生什么?
  • 在 1,000 位用户之间会发生什么?
  • 在对抗性输入下会发生什么?
  • 当工具执行真实操作时会发生什么?

此时你不再是设计提示,而是在设计 systems

3. Context Engineering: 大多数团队忽视的学科

  • Prompt engineering = 你说的内容
  • Context engineering = 模型看到的内容

在生产环境中,模型的 context window 包含:

  1. 系统指令
  2. 对话历史
  3. 检索到的文档
  4. 工具输出
  5. 记忆摘要
  6. 集成状态

它们共同竞争 有限的 token——一种稀缺资源。

  • 上下文过多 → 注意力被稀释。
  • 上下文无关 → 推理崩溃。
  • 将指令与不可信数据混合 → 行为不可预测地变化。

这不是 bug;这是 物理规律

Context Window Architecture

+------------------------------------------------------+
|                CONTEXT WINDOW                        |
+------------------------------------------------------+
| [SYSTEM INSTRUCTIONS]                                 |
|   - Role                                              |
|   - Rules                                             |
|   - Constraints                                       |
+------------------------------------------------------+
| [RETRIEVED DOCUMENTS]                                 |
|   - High‑signal chunks only                           |
+------------------------------------------------------+
| [TOOL RESULTS]                                        |
|   - DB queries                                        |
|   - Code output                                       |
+------------------------------------------------------+
| [CONVERSATION MEMORY]                                 |
|   - Summarized prior turns                            |
+------------------------------------------------------+
  • 将所有内容全部塞入上下文会 降低质量
  • 积极进行内容筛选会 提升稳定性

RAG(Retrieval‑Augmented Generation)不是 功能,而是 记忆架构。外部知识必须:

  • 建立索引
  • 正确分块
  • 进行排序
  • 以纪律性注入

检索不佳会破坏生成质量。

4. 工具使用:当文本变为行动

当你的模型能够调用工具时,你不再是一个聊天机器人——你拥有了一个 agent

最小代理循环

用户请求

模型决定:是否需要工具?

[tool_use call]

外部工具执行

[tool_result returned]

模型继续推理

最终输出

此循环驱动:

  • AI 辅助的编码系统
  • 基于数据库的助手
  • 自主工作流
  • CI 集成的代理

工具同时提升杠杆效应和风险。 验证:

  • 工具输入
  • 工具输出
  • 执行边界
  • 失败状态

否则系统将以自信的方式 错误地行动

5. 安全是架构性的

大型语言模型模糊了 指令数据 之间的界限。
如果 不可信内容 进入与系统规则相同的上下文空间,行为可能被操纵。

这是一种 结构性 问题,而非边缘案例。安全必须内建于循环中:

  1. 将系统规则与用户内容分离。
  2. 对检索到的文档进行清理。
  3. 验证工具调用。
  4. 包含对抗性测试案例。
  5. 进行红队情景演练。

如果你的代理能够行动,它就可能被 利用。请相应地进行设计。

6. AI 产品系统栈

AI 原生产品 不是 “Model + Prompt”。它是一个 分层系统

+--------------------------------------------------+
|                AI PRODUCT SYSTEM                 |
+--------------------------------------------------+
| 1. Prompt Specification (versioned)             |
| 2. Context Architecture Map                     |
| 3. Retrieval Layer (memory + chunking strategy) |
| 4. Tool Layer (controlled action surface)       |
| 5. Evaluation Suite (automated + human review)  |
| 6. Security Layer (injection defenses)          |
| 7. Iteration Loop (continuous improvement)       |
+--------------------------------------------------+

没有这些层,你得到的只是 demo,而不是产品。

7. Visual Checklist: AI Product Builder Kit

Use this as a founder checklist.

Day 1 — Define Success

  • 用户画像
  • 核心工作流(5–7 步)
  • 明确的成功指标
  • 已定义的失败案例
  • 风险清单

Artifact: LLM Success Spec

Day 2 — Prompt Library

  • 基于角色的系统提示
  • Few‑shot 示例
  • 反例

Samples


Output contracts

Artifact: Promptbook v1


Day 3 — Context Map

  • 什么应放入系统?
  • 什么被检索?
  • 什么是记忆?
  • 什么是动态状态?

Chunking strategy

Artifact: Context Architecture Diagram


Day 4 — Tool Loop

  • 实现 2–3 个有意义的工具
  • 验证输入
  • 记录使用情况
  • 测试失败情况

Artifact: Tooling Spec + Working Tool


Day 5 — Evaluation Suite

  • 30–60 条测试用例
    • 正常情况
    • 边缘情况
    • 对抗性案例
  • 自动评分

Artifact: Eval Suite v1


Day 6 — Prototype

  • AI 辅助实现
  • 集成测试框架
  • 最小可部署系统

Artifact: Working Prototype


Day 7 — Ship Discipline

  • 完整评估运行
  • 上下文清理
  • 安全审查
  • 版本文档

Artifact: AI Product Builder Kit v1

最终思考

  • 模型访问正变得像商品一样。
  • 提示技巧已成为商品。
  • API 集成已成为商品。

什么不是商品:

  • 评估纪律
  • 上下文架构
  • 安全工具集成
  • 迭代速度

防御壁垒不在于谁拥有最好的模型。
而在于谁能围绕模型构建最好的系统。

那就是工程。
这就是 AI 原生公司获胜的方式。

0 浏览
Back to Blog

相关文章

阅读更多 »

停止浪费上下文

引言 OpenAI 说:“上下文是一种稀缺资源”。要把它当作稀缺资源来对待。一个庞大的指令文件可能让人觉得安全且详尽,但它会挤占实际的 t...