LangChain CEO는 더 나은 모델만으로는 AI 에이전트를 프로덕션에 가져올 수 없다고 주장한다

발행: 1개월 전 (2026년 3월 8일 오전 02:45 GMT+9)

10 분 소요

Source: VentureBeat

개요

모델이 점점 더 똑똑하고 능력이 향상됨에 따라, 모델을 둘러싼 “하네스”도 함께 진화해야 합니다.

이 “하네스 엔지니어링”은 컨텍스트 엔지니어링의 확장이라고 LangChain 공동 설립자이자 CEO인 Harrison Chase가 Beyond the Pilot 팟캐스트 에피소드에서 말했습니다. 전통적인 AI 하네스는 모델이 루프를 돌거나 도구를 호출하는 것을 제한하는 경향이 있었지만, AI 에이전트를 위한 하네스는 모델이 보다 독립적으로 상호작용하고 장기 작업을 수행하도록 허용합니다. Chase는 OpenAI가 OpenClaw를 인수한 것에 대해서도 의견을 제시했는데, 그 성공이 “제한 없이 풀어놓는” 태도에서 비롯되었으며, 이는 어떤 대형 연구소도 하지 않을 방식이라고 주장했습니다. 또한 이번 인수가 OpenAI를 제품의 안전한 기업 버전에 더 가깝게 만드는지에 대해서도 의문을 제기했습니다.

“하네스의 추세는 실제로 대형 언어 모델(LLM) 자체에게 컨텍스트 엔지니어링에 대한 더 많은 제어권을 부여하여, 모델이 무엇을 보고 무엇을 보지 않을지 스스로 결정하게 하는 것입니다,” 라고 Chase는 말합니다. “이제 장기 실행되고 보다 자율적인 어시스턴트라는 아이디어가 실현 가능해졌습니다.”

진행 상황 추적 및 일관성 유지

LLM이 루프 안에서 실행되고 도구를 호출하도록 허용하는 개념은 비교적 단순해 보이지만, 이를 신뢰성 있게 구현하기는 어렵다고 체이스는 지적했습니다. 한때 모델들은 “유용성 임계값 이하”였으며 루프에서 실행될 수 없었기 때문에, 개발자들은 그래프를 사용하고 체인을 작성해 이를 우회했습니다. 체이스는 AutoGPT—역대 가장 빠르게 성장한 GitHub 프로젝트였던—를 경고 사례로 들었습니다: 오늘날 최고의 에이전트와 동일한 아키텍처였지만, 모델이 아직 충분히 신뢰할 수 있게 루프에서 실행될 수준이 아니었기 때문에 빠르게 사라졌습니다.

LLM이 계속 개선됨에 따라, 팀들은 모델이 루프에서 실행되고 더 긴 시간 범위에 걸쳐 계획을 세울 수 있는 환경을 구축할 수 있으며, 이러한 하네스를 지속적으로 개선할 수 있습니다. 이전에는 “하네스에서 실제로 모델을 실행할 수 없었기 때문에 하네스를 개선할 수 없었다”고 체이스는 말했습니다.

Deep Agents

LangChain의 답변은 Deep Agents이며, 맞춤형 general‑purpose harness입니다.

LangChain과 LangGraph 위에 구축된 Deep Agents는 다음을 제공합니다:

계획 기능, 가상 파일 시스템, 컨텍스트 및 토큰 관리, 코드 실행, 그리고 스킬과 메모리 기능.
서로 다른 도구와 설정으로 특화된 서브‑에이전트에게 작업을 위임하고, 이를 병렬로 수행할 수 있는 능력.
격리된 컨텍스트, 따라서 서브‑에이전트 작업이 메인 에이전트의 컨텍스트를 어지럽히지 않으며, 큰 서브‑작업 컨텍스트는 토큰 효율성을 위해 단일 결과로 압축됩니다.

이 모든 에이전트는 파일 시스템에 접근할 수 있으며, 본질적으로 실행하고 시간이 지남에 따라 추적하는 할 일 목록을 만들 수 있습니다.

“다음 단계로 넘어가고, 200단계 프로세스 중 두 번째, 세 번째, 네 번째 단계로 진행할 때 진행 상황을 추적하고 일관성을 유지할 수 있는 방법이 있습니다,” 라고 Chase는 말했습니다. “본질적으로 LLM이 진행하면서 생각을 적어두게 하는 것이 핵심입니다.”

그는 하니스가 모델이 더 긴 작업에서도 일관성을 유지하도록 설계되어야 하며, 모델이 “유리하다고 판단되는” 시점에 컨텍스트를 압축하도록 “수용 가능”해야 한다고 강조했습니다.

에이전트에게 코드 인터프리터와 BASH 도구에 대한 접근 권한을 부여하면 유연성이 높아집니다. 정적인 도구 집합 대신 스킬을 제공하면 필요할 때만 정보를 로드할 수 있습니다:

“모든 것을 하나의 큰 시스템 프롬프트에 하드코딩하는 대신, 더 작은 시스템 프롬프트—‘이것이 핵심 기반이지만 X를 해야 할 경우 X에 대한 스킬을 읽게 해 주세요. Y를 해야 할 경우 Y에 대한 스킬을 읽게 해 주세요’—를 사용할 수 있습니다.”

본질적으로 컨텍스트 엔지니어링은 “정말 멋진” 방식으로 다음을 묻는 것입니다: LLM이 무엇을 보고 있나요? 이는 개발자가 보는 것과 다릅니다. 인간 개발자가 에이전트 트레이스를 분석하면 AI의 “마음가짐”에 들어가 다음과 같은 질문에 답할 수 있습니다:

시스템 프롬프트는 무엇인가?
어떻게 생성되는가?
정적인가, 아니면 동적으로 채워지는가?
에이전트가 가진 도구는 무엇인가?
도구 호출을 하고 응답을 받으면 그것이 어떻게 제시되는가?

“에이전트가 실수할 때는 올바른 컨텍스트가 없기 때문이고, 성공할 때는 올바른 컨텍스트가 있기 때문입니다,” 라고 Chase는 말했습니다. “컨텍스트 엔지니어링은 적절한 정보를 적절한 형식으로, 적절한 시점에 LLM에 제공하는 것이라고 생각합니다.”

팟캐스트 하이라이트

팟캐스트를 들어보시면 다음 내용에 대해 더 들을 수 있습니다:

LangChain이 스택을 구축한 방식: 핵심 기둥으로 LangGraph, 중심에 LangChain, 그 위에 Deep Agents.
코드 샌드박스가 다음 큰 트렌드가 될 이유.
에이전트가 더 긴 간격(또는 지속적으로) 실행됨에 따라 다른 유형의 UX가 어떻게 진화할지.
트레이스와 가시성이 실제로 작동하는 에이전트를 구축하는 데 핵심인 이유.

**Beyond the Pilot**을 Spotify, Apple Podcasts 또는 팟캐스트를 듣는 어디서든 구독하고 들을 수 있습니다.

LangChain CEO는 더 나은 모델만으로는 AI 에이전트를 프로덕션에 가져올 수 없다고 주장한다

개요

진행 상황 추적 및 일관성 유지

Deep Agents

팟캐스트 하이라이트

관련 글

권한 누적 문제: AI 에이전트가 원래 허용되지 않은 접근 권한을 축적하는 이유

왜 당신의 AI 에이전트는 책임 인프라가 필요한가 (너무 늦기 전에)

성공적인 기업 AI 에이전트 활용, 관건은 ‘설명가능성·정확도·통제’ 확보

에이전트 스코프 크리프 문제: 제한 없이 성장하는 AI 에이전트가 신뢰성을 잃는 이유