LangChain CEO 认为,仅靠更好的模型无法让你的 AI 代理投入生产
Source: VentureBeat
概述
随着模型变得更聪明、更强大,围绕它们的“套索”(harness)也必须进化。
这“套索工程”是上下文工程的延伸,LangChain 联合创始人兼 CEO Harrison Chase 在 Beyond the Pilot 播客节目中表示。传统的 AI 套索往往限制模型在循环中运行和调用工具,而为 AI 代理构建的套索则让它们能够更独立地交互并执行长期任务。Chase 还对 OpenAI 收购 OpenClaw 发表了看法,认为其病毒式成功来源于一种“放手让它发挥”的姿态,而这是任何大型实验室都不敢为之的——并质疑这笔交易是否真的让 OpenAI 更接近安全的企业版产品。
“套索的趋势实际上是让大型语言模型(LLM)本身对上下文工程拥有更多控制权,让它决定看到什么、看不到什么,” Chase 说。“现在,长期运行、更自主的助手的想法是可行的。”
跟踪进度并保持连贯性
虽然让大型语言模型(LLM)在循环中运行并调用工具的概念看起来相对简单,但要可靠地实现却很困难,Chase 指出。曾有一段时间,模型“低于可用阈值”,根本无法在循环中运行,因此开发者使用图结构并编写链式流程来规避这一问题。Chase 以 AutoGPT 为警示性例子——它曾是增长最快的 GitHub 项目,但其架构与当今顶级代理相同,然而模型当时尚未足够成熟,无法可靠地循环运行,结果很快就衰退了。
随着 LLM 持续改进,团队可以构建能够让模型在循环中运行并进行更长时域规划的环境,并不断优化这些“套件”。Chase 说,以前“你根本无法对套件进行改进,因为根本无法在套件中实际运行模型”。
Source: …
深度代理
LangChain 对此的答案是 Deep Agents,一个可定制的通用用途框架。
Deep Agents 基于 LangChain 和 LangGraph,提供:
- 规划能力、虚拟文件系统、上下文和 token 管理、代码执行以及技能和记忆功能。
- 将任务委派给子代理的能力,每个子代理可使用不同的工具和配置,并可并行工作。
- 隔离的上下文,使子代理的工作不会污染主代理的上下文,大型子任务的上下文会被压缩为单一结果,以提高 token 效率。
所有这些代理都可以访问文件系统,基本上可以创建待办事项列表并随时间执行和跟踪。
“当它进入下一步,或者进入第二步、第三步、第四步,在一个 200 步的流程中,它有办法跟踪自己的进度并保持连贯性,”Chase 说。“这归结为让 LLM 在进行时把自己的想法写下来,基本上就是这样。”
他强调,框架的设计应使模型能够在更长的任务中保持连贯性,并且“对模型友好”,让模型在认为“有利”的时候自行压缩上下文。
让代理能够访问代码解释器和 BASH 工具可以提升灵活性。为代理提供 技能 而不是一套静态工具,使它们仅在需要时加载信息:
“所以与其把所有东西硬编码到一个大的系统提示中,你可以使用一个更小的系统提示——‘这是核心基础,但如果我需要做 X,就读取 X 的技能;如果我需要做 Y,就读取 Y 的技能。’”
本质上,上下文工程是一种“非常高级”的提问方式:LLM 正在看到什么? 这与开发者看到的不同。当人类开发者能够分析代理的追踪记录时,他们可以站在 AI 的“思维模式”中,回答诸如:
- 系统提示是什么?
- 它是如何创建的?
- 是静态的还是动态填充的?
- 代理拥有哪些工具?
- 当它调用工具并得到响应时,这些信息是如何呈现的?
“当代理出错时,是因为它们没有正确的上下文;当它们成功时,是因为它们拥有正确的上下文,”Chase 说。“我把上下文工程看作是在正确的时间把正确的信息以正确的格式提供给 LLM。”
Podcast Highlights
收听播客以了解更多内容:
- LangChain 如何构建其技术栈:LangGraph 作为核心支柱,LangChain 位于中心,Deep Agents 位于顶层。
- 为什么代码沙箱将成为下一个大趋势。
- 随着代理在更长的间隔(或持续)运行,不同类型的用户体验将如何演进。
- 为什么追踪和可观测性是构建真正可用的代理的核心。
您还可以在 Spotify、Apple Podcasts,或您常用的任何播客平台收听并订阅 Beyond the Pilot。