프로토타입에서 수익까지: 에이전트 토큰 소진 문제 해결
출처: Towards Data Science
이 글은 Rahul Vir와 Reya Vir이 공동 집필했습니다.
토큰 효율성으로
우리는 공식적으로 AI 프로토타이핑 단계에서 벗어났습니다. Escaping the Prototype Mirage[1]에서 다룬 개념을 바탕으로, 모든 산업의 제품·엔지니어링 팀은 이제 수작업에 의존하던 워크플로를 해결하는 에이전시 애플리케이션을 출시하고 있습니다. 이러한 자율 에이전트 프로토타입을 만드는 일은 이제 식은 죽 먹기입니다. 실행을 위해 재귀적 Agentic Loop(Observe‑Think‑Act) 같은 핵심 개념을 사용하고, 챗 앱을 통해 에이전트를 연결하는 무두 헤드게이트웨이를 설정하며, 재부팅 후에도 지속되는 저장된 상태에 의존하면 됩니다( [1] 참고). 하지만 이를 신뢰할 수 있는 제품으로 성숙시키는 일은 또 다른 이야기입니다. 새로운 과제는 에이전트가 작동한다는 것을 증명하는 것이 아니라, 수익성 있게 작동한다는 것을 증명하는 것입니다.
동시에 기업 내부 지표도 변하고 있습니다. 프로토타이핑 단계에 적합했던 “토큰 최대화”(제한 없이 토큰을 사용해 최상의 결과를 얻는) 방식이, 에이전시 제품이 규모를 확대함에 따라 “소비된 토큰 대비 가치” 비율을 측정하는 지표로 바뀌고 있습니다. 결국 대부분의 제품은 저렴한 전통 컴퓨팅(TradCompute)에서 AI 인텔리전스로 전환하면서도 수익성을 유지하고 마진을 극대화해야 합니다.
하지만 모델은 추론 자유도가 필요합니다. 최근 연구에 따르면 탐색적인 에이전시 워크플로가 고정된 경로보다 성능이 뛰어나며, 이를 통해 새로운 경로를 개척하고 MCP 도구를 만들며, 대부분의 경우 문제를 더 효율적으로 해결할 수 있는 인프라를 구축합니다. 따라서 모델의 자율성 요구와 추론 비용이라는 경제 현실 사이의 균형이 중요한 과제로 떠오릅니다.
제한된 에이전트가 수렴에 실패하는 이유
에이전트 하네스는 작업 컨텍스트와 목표를 마크다운(*.md) 파일에 저장합니다. 이 파일들은 일반적인 워크플로라기보다는 달성하고자 하는 의도나 목표를 개략적으로 적어 놓은 것이죠.
목표 실패의 역설
복잡한 문제를 해결하는 에이전트를 연구한 결과, 각 행동이 목표에 점점 더 가까워지도록 엄격하고 고도로 제한된 가이드라인을 제공하면 에이전트가 지역 최적점에 갇혀 목표를 달성하지 못하는 경우가 빈번하다는 것이 밝혀졌습니다. Jeff Clune 교수의 오픈 엔드 에이전트 학습 연구가 이를 잘 보여줍니다. 미로 안에서 에이전트가 “출구까지 직선 경로만 찾는” 보상을 지속적으로 받으면, 벽에 부딪히며 지역 최적점에 머무르게 되고 결코 출구에 도달하지 못합니다[2].
제한 없는 하네스의 힘
Google Antigravity, Anthropic의 Claude Code와 같은 최신 에이전트 하네스는 에이전트가 복잡한 작업을 스스로 생성·조정·실행하고, 심지어 자체 도구까지 만들 수 있도록 제한을 두지 않기 때문에 뛰어난 성과를 보입니다. 인간이 세세하게 관리하지 않아도 되는 자유로운 탐색이 핵심입니다.
예를 들어, 일반적인 의료 접수 워크플로에서 “스케줄링 흐름만 고수하도록” 에이전트를 강제하면 실제 상황에서 바로 부딪힙니다. 환자가 접수 도중 가슴 통증을 호소하면, 에이전트는 즉시 긴급성을 인식하고 스케줄링 흐름을 포기해 안전 에스컬레이션을 트리거해야 합니다. 이때 우리는 이전에 정의한 No‑Reply Token을 활용해 예약 관련 잡담을 억제하고, 컨텍스트를 바로 인간 간호사에게 전달합니다[1]. 고정된 프로토타입은 이런 중요한 상황에 적응하지 못해 크게 실패합니다.
무한 목표 탐색은 비용이 많이 든다
초기에 자율성을 부여해 해결책을 찾는 것은 필수적이지만, 모든 사용자 워크플로 요청마다 완전한 오픈 엔드 탐색을 수행하면 토큰 소비가 급증합니다. 이 단계에서 에이전트는 이미 유효한 경로를 찾았으며, 이후 동일한 요청에 대해 다시 탐색하거나 “환각”된 워크플로 구조를 재구성하게 됩니다. 이런 재탐색은 자체적으로 교정될 수 있지만, 기업 차원에서 보면 토큰 경제성을 크게 해칩니다.
예를 들어, 의료 접수 워크플로와 에스컬레이션이 필요한 엣지 케이스를 일정 기간 학습시키면, 대부분의 클리닉이나 솔루션 제공자는 대부분을 결정론적 경로로 전환하고, 오직 드물고 복잡한 엣지 케이스에만 제한된 자율성을 남겨두게 됩니다.
초기 커밋과 결정론적 재생을 통한 아키텍처 솔루션
초기 커밋(Early Commitment) 은 구조화된 문제 해결에 효과가 입증됐으며, 에이전시 워크플로에도 적용할 수 있습니다[3]. 핵심 아이디어는 문제 유형을 먼저 분류하고 시스템 프롬프트에 “특정 분류 태그를 출력하도록” 강제하는 것입니다. 에이전트가 문제 유형을 분류하고 제약을 설정한 뒤에 실행 로직을 생성하도록 하면, 불필요한 환각이나 막다른 길 탐색을 방지할 수 있습니다. 이렇게 하면 잡음이 사라지고, 에이전트는 지속적인 탐색이 아닌 실행에만 집중하게 됩니다.
예시 – 텔레헬스 트리아지 워크플로에서 에이전트가 “일반 처방전 재발급”이라는 상황을 확실히 분류한 뒤에만 행동하도록 강제하면, 에이전트는 약국 데이터베이스 호출만 허용받고, 환자를 진단하려는 비용이 많이 드는 오픈 엔드 추론 경로는 전혀 거치지 않게 됩니다.
Wang X. 등(2024)의 LOOP Skill Engine Framework는 초기 커밋을 인프라 수준까지 확장합니다. 한 번의 전체 추론을 통해 성공적인 트레이스를 기록하고, 이를 분기 없는 레시피로 컴파일합니다[4]. 이후 모든 실행은 LLM을 우회해 결정론적으로 재생되며, 일일 작업에서는 토큰 사용량을 93.3% 이상, 고빈도 실행에서는 **99.98%**까지 절감합니다. 이 개념은 에이전시 워크플로에도 그대로 적용할 수 있습니다.
예를 들어, 클리닉 일일 컴플라이언스 보고서나 표준 퇴원 요약은 매우 안정적이고 반복적인 작업입니다. 처음에는 탐색적으로 한 번만 복잡한 전자 건강 기록(EHR)에서 데이터를 추출하고, 이후 100명의 동일 절차 퇴원 환자에 대해서는 분기 없는 레시피를 그대로 재생합니다. 새로운 환자의 바이탈과 날짜만 교체하면 되므로 LLM 호출이 전혀 없으며, 반복 작업에서 환각 데이터가 발생하지 않으면서 토큰 효율성을 극대화합니다.
ML 실무자는 순수 결정론적 재생(예: LOOP) 과 하이브리드 접근(탐색 경로를 SKILL.md 파일에 저장) 사이에서 선택해야 합니다. 하이브리드 방식은 일부 토큰 절감을 포기하고, 가이드된 최적 경로를 통해 추론을 유지하면서도 프레임워크 변화에 자율적으로 적응할 여지를 남깁니다. 이 스킬 파일이 수동으로 업데이트되든, 자율적인 자체 개선 메커니즘을 통해 업데이트되든, 추론 여유 공간을 보존하는 것이 장기적인 견고함을 보장합니다. 예를 들어, 데이터베이스 스키마가 바뀌면 에이전트가 SQL 쿼리를 자동으로 수정해 정보를 추출할 수 있습니다.
결론: 탐색‑커밋‑측정 ML 파이프라인
ML 엔지니어와 제품 매니저는 이제 탐색(Explore) → 커밋(Commit) → 측정(Measure) 의 순환을 기반으로 한 파이프라인을 설계해야 합니다. (이하 내용은 원문이 중단된 부분이므로 여기서 마칩니다.)