LangSmith Engine이 에이전트 디버깅 루프를 자동으로 닫지만, 다중 모델 기업은 여전히 중립 레이어가 필요하다.
출처: VentureBeat
에이전트를 구축하고 배포하는 기업들은 점점 커지는 문제에 직면하고 있습니다. 엔지니어들이 에이전트가 실수를 했다는 사실을 발견하는 데 너무 많은 시간을 소비하고, 특히 인간이 매 단계마다 개입하지 않을 경우 오류 루프가 제어되지 않은 채 계속될 수 있습니다.
LangChain의 모니터링 및 평가 플랫폼인 LangSmith가 공개 베타에서 새로운 기능을 출시했으며, 이 기능은 해당 문제를 보다 관리하기 쉽게 만들 수 있습니다. LangSmith Engine 은 생산 단계에서 발생한 실패를 감지하고, 실시간 코드베이스에서 근본 원인을 진단하며, 수정안을 초안하고, 회귀를 방지하는 전체 과정을 자동으로 수행합니다—모두 한 번의 자동화된 패스로 이루어집니다.
LangSmith Engine은 AI 엔지니어에게 더 빠른 트리아지 경로를 제공하지만, 이미 붐비는 분야에 진입합니다. Anthropic, OpenAI, Google 등은 모두 관측성과 평가 기능을 자사 플랫폼으로 끌어들이고 있습니다.
LangSmith Engine은 실패를 살펴봅니다
LangChain은 일반적인 에이전트 개발 사이클이 에이전트를 추적해 행동을 이해하고, 격차를 식별한 뒤 프롬프트와 도구를 조정하며, 정답 데이터셋을 만드는 것으로 시작한다고 설명합니다. 개발자는 실험을 수행하고, 에이전트를 배포하기 전에 회귀 여부를 확인합니다.
문제는 추적 검토가 잘못된 패턴을 드러내지 못하고, 오류 반복이 눈에 띄기 어려워지며, 프로덕션에서 동일한 문제를 잡아낼 전용 평가자가 없을 때 발생합니다.
블로그 포스트에 따르면 LangSmith Engine은 명시적 오류, 온라인 평가자 실패, 추적 이상, 부정적인 사용자 피드백, 비정상적인 행동(예: 에이전트가 답변하도록 설계되지 않은 질문) 등 여러 신호 유형을 모니터링합니다.
엔진은 실시간 코드베이스를 읽어 원인을 찾고, 풀 리퀘스트 초안을 만들며, 해당 실패 패턴에 맞는 맞춤형 평가자를 제안합니다. 인간은 승인 단계에서만 개입합니다.
LangSmith의 기존 추적 및 평가 인프라 위에 구축된 이 시스템은 기업의 평가 결과와도 연동됩니다. Weights & Biases, Arize Phoenix, Honeyhive와 같은 관측성 도구와 달리 LangSmith Engine은 전체 체인을 자동화합니다—실패 감지, 근본 원인 진단, 수정 초안 작성—그리고 인간은 승인만 담당합니다.
모델 제공업체가 플랫폼에 평가자를 통합
LangSmith가 많은 기업에게 필요한 평가 루프를 확인했지만, 엔진은 대형 제공업체들이 자체 플랫폼 내에 관측성 도구를 제공하기 시작하면서 등장했습니다. 이는 기업이 기존 워크플로에 LangSmith Engine을 추가하기보다 엔드‑투‑엔드 플랫폼을 채택하도록 만들 수 있습니다.
- Anthropic의 Claude Managed Agents 은 에이전트 배포, 평가, 오케스트레이션을 하나의 스위트로 결합합니다.
- OpenAI의 Frontier 은 기업용 에이전트를 구축·관리·평가하기 위한 유사한 엔드‑투‑엔드 플랫폼을 제공합니다.
두 솔루션 모두 단일 공급업체에 의존하는 것을 경계하는 기업들로부터 질문을 받고 있습니다.
실무자들은 모든 기업이 평가와 관측성을 하나의 플랫폼에 완전히 통합하고 싶어하는 것은 아니라는 점을 지적합니다.
“제가 일하는 한 펀드는 분석에 Claude를, 별도 워크플로에는 GPT를 사용합니다. 관측성이 각 공급업체의 도구 안에만 존재한다면, 이제 서로 대화할 수 없는 두 시스템이 생깁니다. 컴플라이언스 팀은 통합된 감사 추적을 만들 수 없죠.”라고 Workwise Solutions의 설립자이자 수석 컨설턴트인 Leigh Coney가 말했습니다. “그래서 제3자 관측성이 살아남고 있습니다. 멀티‑모델이 이미 기업의 기본이기 때문에, 누군가는 공급업체 간을 연결해야 합니다.”
True Fit의 CEO 겸 공동 설립자인 Jessica Arredondo Murphy는 독립 플랫폼인 LangSmith이 “품질과 신뢰성을 위한 교차 모델 운영 레이어가 될 수 있는가”라는 장기적인 질문에 답할 수 있어야 한다고 덧붙였습니다.
“기업들은 모델 제공업체가 바라는 만큼 빠르게 1차 공급업체 도구로 통합하고 있지는 않습니다. 제가 보는 현실은 실용적인 분리입니다. 팀은 빠른 온보딩과 초기 디버깅을 위해 1차 도구를 사용하지만, 생산 신뢰성, 거버넌스, 장기적인 유연성이 필요해지면 관측성과 평가를 위한 보다 중립적인 레이어를 도입하는 경향이 있습니다.”라고 그녀는 말했습니다.
LangSmith Engine은 현재 공개 베타로 제공됩니다. 팀은 추적 프로젝트를 연결하고, 원한다면 리포지토리를 연동하면 엔진이 프로덕션 추적에서 자동으로 이슈를 찾아냅니다.