每位AI工程师必须了解的AI工程关键突破

发布: 1个月前 (2025年12月20日 GMT+8 03:52)

9 分钟阅读

I’m happy to translate the article for you, but I need the actual text of the post. Could you please paste the content you’d like translated (excluding any code blocks or URLs you want to keep unchanged)? Once I have the text, I’ll provide a Simplified‑Chinese translation while preserving the original formatting and markdown.

概览

这篇博客文章清晰地、一步步展示了 2017 年至今 AI 工程的演变过程。
我们将主要的突破划分为 四大类，并用通俗的语言解释每一类。

1️⃣ 2017 – Transformer 的诞生

论文: “Attention Is All You Need”
重要性:
- 在 Transformer 之前，模型是顺序处理文本的（RNN）。
- 这慢，且难以捕捉长距离依赖（模型会“忘记”前面的词）。
核心思想 – 自注意力（Self‑Attention）:
- 模型可以一次性查看 所有词，并决定哪些词彼此最相关。
两大优势:
1. 大规模并行 训练。
2. 更好地处理长距离上下文。

2️⃣ 2020 – GPT‑3 与上下文学习

论文: “Language Models are Few‑Shot Learners” (OpenAI)
关键突破: 将 Transformer 扩大到足够规模即可实现 上下文学习。
它能够:
- 无需针对特定任务进行微调。
- 在提示中提供少量示例（few‑shot），模型会模仿该模式。
结果: 通用的 “基础” 模型可以通过 提示 / 上下文工程 来引导。

出现的问题（GPT‑3）

问题	描述
不“听话”	生成看似合理却毫无意义或有害的输出。
昂贵	对某一领域（法律、医学等）进行完整微调成本极高。
“书呆子”	知识冻结在训练数据的截止时间点，模型无法获取新的或内部信息。

3️⃣ 2022‑2023 – 让模型对齐、专业且开卷

3.1 对齐 – RLHF（InstructGPT）

论文： “Training language models to follow instructions with human feedback”
过程（RLHF）：
1. 人工排序 – 人类比较多个模型的回复。
2. 奖励模型 – 训练以预测这些人工偏好。
3. 策略优化 – 对大模型进行微调，以最大化奖励。
要点： 一个 更小、已对齐的模型 可以在用户满意度上击败体积更大的未对齐模型。

3.2 参数高效微调 – LoRA

全量微调（更新每个权重）成本高昂。
LoRA（低秩适配）：
- 冻结数十亿的原始参数。
- 插入极小的可训练适配器（约占总参数的 0.01 %）到每一层。
影响： 微调在 单个 GPU 上即可实现，降低了进入门槛，使小团队也能参与。

3.3 检索增强生成（RAG）

问题： 模型像“书虫”，在缺乏知识时会产生幻觉。
解决方案：
1. 检索来自外部知识库（互联网、内部数据库等）的相关文档。
2. 将这些文档作为 “开卷” 材料输入模型。
3. 生成基于检索文本的答案。
结果： RAG 已成为生产级 LLM 应用的事实标准（客服机器人、知识库问答等）。

4️⃣ 2023‑2024 – 效率与边缘部署

知识蒸馏

概念： 大型 teacher 模型（例如 BERT）教授紧凑的 student 模型（例如 DistilBERT）。
结果：
- student 保留了 ≈ 97 % 的 teacher 语言理解能力。
- 40 % 更少的参数，且 ≈ 60 % 更快的推理。
重要性： 使 AI 能在 智能手机、边缘设备以及其他资源受限的环境中运行。

四类概述

类别	核心挑战	代表性突破
基础架构	处理缓慢且顺序	Transformer (2017)
可扩展性与泛化	需要少样本能力	GPT‑3 / In‑Context Learning (2020)
可用性与对齐	指令遵循差、微调成本高、知识陈旧	RLHF (InstructGPT)、LoRA、RAG
效率与部署	运行时成本、边缘设备限制	Knowledge Distillation

最后思考

从 2017 年的第一个 self‑attention 层到今天的 edge‑ready distilled models，每一次突破都针对具体的可用性问题。其结果是一个 实用、成本效益高且可信赖 的 AI 堆栈，可在任何地方部署——从庞大的云集群到手机口袋。

量化

目标： 减小模型体积，使其能够在边缘设备（例如可穿戴设备）上运行。
工作原理：
- 使用更少位数存储权重——例如，从 32‑bit 浮点数转为 8‑bit 整数（int8）。
- 这将内存使用量降低约 ≈ 4×。
挑战： 朴素的压缩往往会损害精度。
关键洞察： 只有极少数“异常值”权重会导致较大误差。
解决方案 – 混合精度：
- 对绝大多数权重使用 Int8。
- 对关键的异常值使用 16‑bit。
结果： 几乎零精度损失，同时显著节省内存。

Mixture‑of‑Experts (MoE) Architecture

Idea: 与其使用一个单一的“全能”模型，不如训练许多 专门的专家模型（例如，数学专家、诗歌专家）。
Routing:
- 一个 router 为每个 token 预测选择最合适的专家。
- 仅激活被选中的专家（们），从而保持计算量低。
Benefits:
- 总参数量可以达到 万亿级。
- Inference cost 仍然保持适中，因为每一步只使用一小部分参数。

LLM 代理

目的： 使模型能够与外部世界交互，而不仅仅是聊天。
核心组件：
1. Brain – 思考和规划的 LLM。
2. Perception – 读取外部信息（例如工具输出）。
3. Action – 调用 API 或其他工具。
这将实现的功能： 预订航班、分析财务报告、执行代码等。

Model Context Protocol (MCP)

Problem before MCP: 每个 AI‑to‑tool 集成都需要定制的、一次性的接口。
Solution (Anthropic, 2024): 一个 open standard（开放标准），用于 AI‑model 与外部工具和 APIs 的通信。
Analogy: 如同 HTTP 统一了 web 浏览器 ↔ 服务器的通信，MCP 旨在统一 AI ↔ tool 的通信。
Impact: 如果被广泛采用，AI 生态系统的连接效率将显著提升。

Agent‑to‑Agent (A2A) 协议

场景： 多个 AI 代理需要协作（例如日历管理器、邮件处理器、文档分析器）。
解决方案（2025）： 一种让代理在不同平台之间 对话、安全地共享数据并协调操作 的协议。
类比：
- MCP = 为每个代理提供一部打电话的手机，以调用服务。
- A2A = 为所有代理提供一个群聊，以进行协作。
结果： 完善了生态系统——代理既可以 使用工具（通过 MCP），又可以 共同工作（通过 A2A）。

AI 工程的演进路径

阶段	解决了什么	代表性突破
运行	能够高效执行模型	Transformer
学习	可扩展的预训练	GPT‑3
服从	将行为与人类意图对齐	InstructGPT
有用且负担得起	降低成本并提升可及性	LoRA, RAG, Quantization
执行工作	实现自主行动与协作	Agents, MCP, A2A

每一步都代表一个重要的杠杆点，使 AI 更接近成为实用的、能够完成工作的伙伴。

每位AI工程师必须了解的AI工程关键突破

概览

1️⃣ 2017 – Transformer 的诞生

2️⃣ 2020 – GPT‑3 与上下文学习

出现的问题（GPT‑3）

3️⃣ 2022‑2023 – 让模型对齐、专业且开卷

3.1 对齐 – RLHF（InstructGPT）

3.2 参数高效微调 – LoRA

3.3 检索增强生成（RAG）

4️⃣ 2023‑2024 – 效率与边缘部署

知识蒸馏

四类概述

最后思考

量化

Mixture‑of‑Experts (MoE) Architecture

LLM 代理

Model Context Protocol (MCP)

Agent‑to‑Agent (A2A) 协议

AI 工程的演进路径

相关文章

图解Transformer

Transformer 已死。Google 杀死了它们——随后沉默

AI的未来

浅层代理 vs 深层代理：深度研究在 GPT 类系统内部的实际工作方式

概览

1️⃣ 2017 – Transformer 的诞生

2️⃣ 2020 – GPT‑3 与上下文学习

出现的问题（GPT‑3）

3️⃣ 2022‑2023 – 让模型 对齐、专业 且 开卷

3.1 对齐 – RLHF（InstructGPT）

3.2 参数高效微调 – LoRA

3.3 检索增强生成（RAG）

4️⃣ 2023‑2024 – 效率与边缘部署

知识蒸馏

四类概述

最后思考

量化

Mixture‑of‑Experts (MoE) Architecture

LLM 代理

Model Context Protocol (MCP)

Agent‑to‑Agent (A2A) 协议

AI 工程的演进路径

相关文章

图解Transformer

Transformer 已死。Google 杀死了它们——随后沉默

AI的未来

浅层代理 vs 深层代理：深度研究在 GPT 类系统内部的实际工作方式

3️⃣ 2022‑2023 – 让模型对齐、专业且开卷