每位AI工程师必须了解的AI工程关键突破

发布: (2025年12月20日 GMT+8 03:52)
9 min read
原文: Dev.to

I’m happy to translate the article for you, but I need the actual text of the post. Could you please paste the content you’d like translated (excluding any code blocks or URLs you want to keep unchanged)? Once I have the text, I’ll provide a Simplified‑Chinese translation while preserving the original formatting and markdown.

概览

这篇博客文章清晰地、一步步展示了 2017 年至今 AI 工程的演变过程。
我们将主要的突破划分为 四大类,并用通俗的语言解释每一类。

1️⃣ 2017 – Transformer 的诞生

  • 论文: “Attention Is All You Need”
  • 重要性:
    • 在 Transformer 之前,模型是 顺序 处理文本的(RNN)。
    • ,且难以捕捉长距离依赖(模型会“忘记”前面的词)。
  • 核心思想 – 自注意力(Self‑Attention):
    • 模型可以一次性查看 所有词,并决定哪些词彼此最相关。
  • 两大优势:
    1. 大规模并行 训练。
    2. 更好地处理长距离上下文

2️⃣ 2020 – GPT‑3 与上下文学习

  • 论文: “Language Models are Few‑Shot Learners” (OpenAI)
  • 关键突破: 将 Transformer 扩大到足够规模即可实现 上下文学习
  • 它能够:
    • 无需针对特定任务进行微调。
    • 在提示中提供少量示例(few‑shot),模型会 模仿 该模式。
  • 结果: 通用的 “基础” 模型可以通过 提示 / 上下文工程 来引导。

出现的问题(GPT‑3)

问题描述
不“听话”生成看似合理却毫无意义或有害的输出。
昂贵对某一领域(法律、医学等)进行完整微调成本极高。
“书呆子”知识冻结在训练数据的截止时间点,模型无法获取新的或内部信息。

3️⃣ 2022‑2023 – 让模型 对齐专业开卷

3.1 对齐 – RLHF(InstructGPT)

  • 论文: “Training language models to follow instructions with human feedback”
  • 过程(RLHF):
    1. 人工排序 – 人类比较多个模型的回复。
    2. 奖励模型 – 训练以预测这些人工偏好。
    3. 策略优化 – 对大模型进行微调,以最大化奖励。
  • 要点: 一个 更小、已对齐的模型 可以在用户满意度上击败体积更大的未对齐模型。

3.2 参数高效微调 – LoRA

  • 全量微调(更新每个权重)成本高昂。
  • LoRA(低秩适配):
    • 冻结数十亿的原始参数。
    • 插入极小的可训练适配器(约占总参数的 0.01 %)到每一层。
  • 影响: 微调在 单个 GPU 上即可实现,降低了进入门槛,使小团队也能参与。

3.3 检索增强生成(RAG)

  • 问题: 模型像“书虫”,在缺乏知识时会产生幻觉。
  • 解决方案:
    1. 检索 来自外部知识库(互联网、内部数据库等)的相关文档。
    2. 这些文档作为 “开卷” 材料 输入 模型。
    3. 生成 基于检索文本的答案。
  • 结果: RAG 已成为生产级 LLM 应用的事实标准(客服机器人、知识库问答等)。

4️⃣ 2023‑2024 – 效率与边缘部署

知识蒸馏

  • 概念: 大型 teacher 模型(例如 BERT)教授紧凑的 student 模型(例如 DistilBERT)。
  • 结果:
    • student 保留了 ≈ 97 % 的 teacher 语言理解能力。
    • 40 % 更少的参数,且 ≈ 60 % 更快的推理。
  • 重要性: 使 AI 能在 智能手机边缘设备以及其他资源受限的环境中运行。

四类概述

类别核心挑战代表性突破
基础架构处理缓慢且顺序Transformer (2017)
可扩展性与泛化需要少样本能力GPT‑3 / In‑Context Learning (2020)
可用性与对齐指令遵循差、微调成本高、知识陈旧RLHF (InstructGPT)LoRARAG
效率与部署运行时成本、边缘设备限制Knowledge Distillation

最后思考

从 2017 年的第一个 self‑attention 层到今天的 edge‑ready distilled models,每一次突破都针对具体的可用性问题。其结果是一个 实用、成本效益高且可信赖 的 AI 堆栈,可在任何地方部署——从庞大的云集群到手机口袋。

量化

  • 目标: 减小模型体积,使其能够在边缘设备(例如可穿戴设备)上运行。
  • 工作原理:
    • 使用更少位数存储权重——例如,从 32‑bit 浮点数转为 8‑bit 整数(int8)。
    • 这将内存使用量降低约 ≈ 4×
  • 挑战: 朴素的压缩往往会损害精度。
  • 关键洞察: 只有极少数“异常值”权重会导致较大误差。
  • 解决方案 – 混合精度:
    • 对绝大多数权重使用 Int8
    • 对关键的异常值使用 16‑bit
  • 结果: 几乎零精度损失,同时显著节省内存。

Mixture‑of‑Experts (MoE) Architecture

  • Idea: 与其使用一个单一的“全能”模型,不如训练许多 专门的专家模型(例如,数学专家、诗歌专家)。
  • Routing:
    • 一个 router 为每个 token 预测选择最合适的专家。
    • 仅激活被选中的专家(们),从而保持计算量低。
  • Benefits:
    • 总参数量可以达到 万亿级
    • Inference cost 仍然保持适中,因为每一步只使用一小部分参数。

LLM 代理

  • 目的: 使模型能够与外部世界交互,而不仅仅是聊天。
  • 核心组件:
    1. Brain – 思考和规划的 LLM。
    2. Perception – 读取外部信息(例如工具输出)。
    3. Action – 调用 API 或其他工具。
  • 这将实现的功能: 预订航班、分析财务报告、执行代码等。

Model Context Protocol (MCP)

  • Problem before MCP: 每个 AI‑to‑tool 集成都需要定制的、一次性的接口。
  • Solution (Anthropic, 2024): 一个 open standard(开放标准),用于 AI‑model 与外部工具和 APIs 的通信。
  • Analogy: 如同 HTTP 统一了 web 浏览器 ↔ 服务器的通信,MCP 旨在统一 AI ↔ tool 的通信。
  • Impact: 如果被广泛采用,AI 生态系统的连接效率将显著提升。

Agent‑to‑Agent (A2A) 协议

  • 场景: 多个 AI 代理需要协作(例如日历管理器、邮件处理器、文档分析器)。
  • 解决方案(2025): 一种让代理在不同平台之间 对话、安全地共享数据并协调操作 的协议。
  • 类比:
    • MCP = 为每个代理提供一部打电话的手机,以调用服务。
    • A2A = 为所有代理提供一个群聊,以进行协作。
  • 结果: 完善了生态系统——代理既可以 使用工具(通过 MCP),又可以 共同工作(通过 A2A)。

AI 工程的演进路径

阶段解决了什么代表性突破
运行能够高效执行模型Transformer
学习可扩展的预训练GPT‑3
服从将行为与人类意图对齐InstructGPT
有用且负担得起降低成本并提升可及性LoRA, RAG, Quantization
执行工作实现自主行动与协作Agents, MCP, A2A

每一步都代表一个重要的杠杆点,使 AI 更接近成为实用的、能够完成工作的伙伴。

Back to Blog

相关文章

阅读更多 »

图解Transformer

抱歉,我无法直接访问外部链接。请提供您想要翻译的具体摘录或摘要文本,我会为您翻译成简体中文。