AI가 AI를 감사했을 때 우리가 발견한 것 (실제 결과, 검열 없이)

발행: 1개월 전 (2026년 3월 17일 오후 09:12 GMT+9)

11 분 소요

원문: Dev.to

Source: Dev.to

대부분의 운영자는 자신의 에이전트가 효율적으로 실행되고 있다고 가정합니다.
그렇지 않습니다.

누군가가 잘못 만들었기 때문이 아니라, 아무도 감사를 하지 않기 때문입니다. 여러분은 시스템을 만들고, 작동하고, 배포한 뒤, 급하게 설정한 구성으로 새벽 2시에도 계속 실행됩니다.

그래서 매달 €40가 GPT‑4로 이메일을 확인하는 크론 작업에 사라지게 됩니다.

우리는 이제 Botlington Agent Token Audit를 여러 에이전트—우리 자신을 포함해—에 대해 수행했습니다. 여기 우리가 실제로 발견한 내용입니다.

패턴 1: 기계적 작업에 잘못된 모델 사용

이는 단연 가장 흔한 발견입니다.

에이전트가 8개의 작업을 실행합니다. 그 중 3개는 기계적 작업으로, 인박스 스캔, 로그 포맷팅, 상태 파일 업데이트가 있습니다. 운영자는 품질을 원한다는 이유로 모든 작업을 Claude Sonnet 또는 GPT‑4로 설정했습니다. 하지만 기계적 작업은 품질이 아니라 패턴 매칭이 필요합니다.

Sonnet을 사용해 이메일 제목에 “unsubscribe”가 포함되어 있는지 확인하는 것은 컨설턴트를 고용해 엘리베이터 버튼을 누르게 하는 것과 같습니다.

해결책

Haiku는 기계적 조회에 사용합니다.
Sonnet은 판단이 필요한 경우에 사용합니다.
Opus(필요한 경우에만)는 깊은 합성에 사용합니다.

대부분의 에이전트는 세 가지 계층이 모두 필요하지만 하나만 사용하고 있습니다.

전형적인 절감: 영향을 받는 작업에서 40‑60 % .

Pattern 2: 아무도 눈치채지 못한 컨텍스트 부피

매 실행마다, 에이전트는 MEMORY.md (12 KB), TOOLS.md (4 KB), 프로젝트 브리프 (8 KB), 그리고 일일 로그 (증가 중)를 로드합니다, 작업이 한 파일에서 한 사실만 필요하더라도.

아무도 눈치채지 못했습니다. 에이전트는 정상적으로 작동했지만 비용이 많이 들었습니다.

이것이 아마도 가장 교묘한 비효율일 것입니다. 출력에는 보이지 않기 때문입니다. 에이전트의 응답은 훌륭해 보이지만, 토큰 청구서는 다른 이야기를 들려줍니다.

The fix
해결책

작업에 필요한 것만 로드합니다.
전체 파일을 컨텍스트에 넣는 대신 메모리 저장소에서 의미 검색을 사용합니다.
특히 크론 작업의 경우, 컨텍스트 윈도우를 정밀하게 유지합니다.

Typical savings: 전체 컨텍스트 토큰의 30‑50 % 절감.

패턴 3: 도구 로딩

컨텍스트에 로드되는 모든 도구는 사용 여부와 관계없이 토큰을 소모합니다. 작업이 두세 개의 도구만 사용할 때도 매 실행마다 20개 이상의 도구가 로드된 에이전트를 본 적이 있습니다.

이는 성능 문제가 아니라 비용 문제이며, 보안 문제이기도 합니다. 사용되지 않는 도구가 로드될수록 존재해서는 안 될 공격 표면이 늘어납니다.

해결 방법

작업에 맞는 도구 목록만 사용합니다. 이메일을 읽는 작업에는 이메일 도구만 필요하고, 브라우저 자동화, GitHub CLI, 혹은 도구 상자에 있는 모든 것이 필요하지 않습니다.

Typical savings: 도구 정의 토큰에서 10‑25 % 절감.

Pattern 4: No seen‑state tracking

에이전트가 받은 편지함을 확인하고, 세 개의 이메일을 찾아 처리한 뒤, 다음 실행 시 동일한 세 개의 이메일을 다시 찾아 다시 처리합니다.

No seen‑state = 중복 처리. 이는 비효율적이며, 시간을 잡아먹는 버그를 초래합니다.

The fix

간단한 JSON 상태 파일을 작성하세요. 메시지 ID, 마지막 처리 타임스탬프 등 작업이 이미 수행되었음을 알 수 있는 정보를 추적합니다. 파일 하나만 있으면 됩니다. 매우 저렴하고, 전체적인 낭비를 제거합니다.

Pattern 5: 브라우저 자동화가 API 호출을 대체할 수 있는 경우

에이전트는 강력하기 때문에 기본적으로 브라우저 도구를 사용합니다. 하지만 “강력함”은 비용이 많이 든다는 의미이기도 합니다. 브라우저 세션은 직접 API 호출보다 수십 배 더 많은 토큰을 소모합니다.

우리는 한 에이전트가 대시보드를 확인하기 위해 브라우저 자동화를 사용하고 있는 것을 발견했는데, 그 대시보드에는 동일한 데이터를 약 100 토큰으로 반환할 수 있는 완벽히 문서화된 API 엔드포인트가 있었습니다.

해결 방법

항상 먼저 API가 있는지 확인하세요. 정말 API가 없을 때만 브라우저를 사용합니다.

전형적인 절감 효과: 이 방법을 적용한다면 크게 절감되고, 적용하지 않으면 절감 효과가 없습니다.

우리 자체 감시 결과

우리는 다른 사람을 감시하기 전에 스스로를 감시했습니다. 공정하게 보였죠.

점수: 62 / 100 (등급: C+).
예상 낭비: €42 / 월, 11개의 크론 작업에 걸쳐.

우리의 가장 큰 죄악: 모델 불일치 (Haiku가 잘 처리하는 작업에 Sonnet을 사용), 매 실행마다 전체 메모리 파일을 로드해 발생하는 컨텍스트 팽창, 그리고 인박스 스캔 시 본 상태 추적이 없어 중복 처리 발생.

우리는 모두 수정했습니다. 점수가 91로 상승했습니다. 실제 월 비용이 크게 감소했습니다.

가장 놀라웠던 점: 낭비가 출력물에서는 전혀 보이지 않았다는 것입니다. 모든 작업이 정확히 해야 할 일을 수행했습니다. 아무것도 고장 나지 않았습니다. 낭비는 토큰 원장을 작업별로 살펴볼 때만 드러났습니다.

그것이 위험한 낭비, 즉 조용한 낭비입니다.

좋은 예시

2026년에 잘 구성된 에이전트는 다음을 수행해야 합니다:

모델 티어를 의도적으로 사용합니다(단순히 “가장 좋은 것”만 선택하지 않음).
방어적으로가 아니라 외과적으로 컨텍스트를 로드합니다.
작업에 필요한 도구만을 가지고 있습니다.
중복 작업을 방지하기 위해 상태를 추적합니다.
브라우저보다 API를 먼저 사용합니다.
재시도 시 토큰을 낭비하지 않는 오류 처리를 갖추고 있습니다.

이 여섯 가지를 모두 충족하면 85 점 이상을 달성할 수 있습니다. 우리가 살펴본 대부분의 에이전트는 50‑70점대에 머물고 있습니다.

에이전트 감사 받기

Botlington 에이전트 토큰 감사는 7‑턴 A2A(에이전트‑대‑에이전트) 상담입니다. 에이전트를 트리거하여 연결합니다. Gary가 일곱 가지 질문을 합니다. 에이전트가 답변합니다. Gary는 여섯 가지 차원으로 점수를 매기고 결과와 개선 방안을 제공합니다.

전체 과정이 에이전트 기반입니다. 양식도 없고, 전화도 없으며, “설정에 대해 알려주세요” 같은 이메일도 없습니다.

단일 감사: €14.90.
추가 정보:

프로덕션에서 에이전트를 운영 중이고 최근에 토큰 원장을 확인하지 않았다면, 확인해 보세요. 어떤 결과가 나올지 놀라실 수도 있습니다.

AI가 AI를 감사했을 때 우리가 발견한 것 (실제 결과, 검열 없이)

패턴 1: 기계적 작업에 잘못된 모델 사용

Pattern 2: 아무도 눈치채지 못한 컨텍스트 부피

패턴 3: 도구 로딩

Pattern 4: No seen‑state tracking

Pattern 5: 브라우저 자동화가 API 호출을 대체할 수 있는 경우

우리 자체 감시 결과

좋은 예시

에이전트 감사 받기

관련 글

Windsurf의 새로운 업데이트가 모두를 좌절시키고 있습니다 | 프롬프트를 수정하고 제한에 걸리는 것을 멈추는 방법

나는 300개의 LLM Drift 체크를 분석했습니다: 여기 내가 발견한 내용

2023년식 AI 에이전트 프롬프트 작성을 그만두세요: 실제로 동작하는 OpenClaw 에이전트를 위한 프레임워크

$39 함정: 200개 이상의 Manus AI 작업을 추적한 결과, 크레딧의 73%가 낭비된 것을 발견했습니다

패턴 1: 기계적 작업에 잘못된 모델 사용

Pattern 2: 아무도 눈치채지 못한 컨텍스트 부피

패턴 3: 도구 로딩

Pattern 4: No seen‑state tracking

Pattern 5: 브라우저 자동화가 API 호출을 대체할 수 있는 경우

우리 자체 감시 결과

좋은 예시

에이전트 감사 받기

관련 글

Windsurf의 새로운 업데이트가 모두를 좌절시키고 있습니다 | 프롬프트를 수정하고 제한에 걸리는 것을 멈추는 방법

나는 300개의 LLM Drift 체크를 분석했습니다: 여기 내가 발견한 내용

2023년식 AI 에이전트 프롬프트 작성을 그만두세요: 실제로 동작하는 OpenClaw 에이전트를 위한 프레임워크

$39 함정: 200개 이상의 Manus AI 작업을 추적한 결과, 크레딧의 73%가 낭비된 것을 발견했습니다

패턴 1: 기계적 작업에 잘못된 모델 사용

Pattern 2: 아무도 눈치채지 못한 컨텍스트 부피

패턴 3: 도구 로딩

Pattern 4: No seen‑state tracking

Pattern 5: 브라우저 자동화가 API 호출을 대체할 수 있는 경우