AI 에이전트, 능력보다 신뢰가 먼저였다

Published: (February 18, 2026 at 10:26 PM EST)
6 min read
Source: Platum

Source: Platum

AI는 더 오래 일할 능력이 있었다. 사람이 이제야 더 오래 맡기기 시작했다

2025년 9월 말 23분이었던 클로드 코드(Claude Code)의 99.9 백분위 턴 지속 시간은 2026년 1월 초 48분을 넘어섰다. 소네트 4.5, 오퍼스 4.5, 오퍼스 4.6 출시 시점(점선)에서 뚜렷한 변곡이 없다.
출처: 앤트로픽

AI 에이전트가 실제로 어떻게 사용되고 있는지를 보여주는 대규모 데이터가 처음으로 공개됐다. 앤트로픽은 2월 18일 수백만 건의 인간‑에이전트 상호작용을 분석한 자체 데이터 분석 자료를 공개했다. 어디에 배치됐고, 얼마나 자율적으로 움직이며, 어떤 순간에 멈추는가. 네 개의 차트가 그 윤곽을 그린다.

절반은 코드를 쓴다

  • 에이전트가 도구를 호출한 전체 횟수의 **49.7 %**가 소프트웨어 엔지니어링 영역에서 발생했다.
  • 2위인 백오피스 자동화(9.1 %)와의 격차는 다섯 배가 넘는다.
  • 마케팅·카피라이팅(4.4 %), 세일즈·CRM(4.3 %), 재무·회계(4.0 %)가 뒤를 이었다.

코드 생성이라는 단일 영역의 압도적 집중은 현재 AI 에이전트 시장의 중력 중심이 어디에 있는지를 명확히 보여준다.

  • 작업 성격 변화: 코드 설계·기획 업무 비중이 6개월 새 1 % → 10 %로, 신기능 구현은 14 % → 37 %로 급증.
  • 고규제 업종: 의료(1.0 %), 법률(0.9 %), 물류(0.8 %)는 여전히 하위권이며, 제도적 수용성이 배치 속도를 결정한다.

모델이 바뀌어도 곡선은 멈추지 않았다

  • 클로드 코드가 한 번에 자율적으로 작업하는 최장 시간은 2025년 9월 말 23분 → 2026년 1월 초 48분으로 석 달 만에 두 배 가까이 늘었다.

  • 소네트 4.5, 오퍼스 4.5, 오퍼스 4.6 등 신규 모델 출시 시점마다 곡선이 계단식이 아니라 부드럽게 이어진다.

    • 이는 모델 성능 향상이 아니라 사용자가 AI를 더 오래 믿기 시작했음을 의미한다.
  • 완전 자동 승인율: 10회 세션 시점 약 18 % → 1,000회 이상 시점 50 %에 근접.

  • 연속 툴 호출 횟수: 6개월 새 9.8회 → 21.2회 (116 % 증가).

  • 숙련 사용자의 개입 빈도: 신규 사용자는 약 5 %의 턴에서 중단 요청, 750회 이상 세션 사용자는 약 9 %에 달한다.

    • 이는 감독 전략 전환(미리 모든 행동 승인 → 실행 후 필요 시 교정)으로 해석된다.

복잡할수록 AI가 먼저 묻는다

  • 인간이 작업을 중단시키는 비율: 복잡도와 무관하게 5.5 %~7.1 %로 안정적.

  • 클로드가 먼저 명확화를 요청하는 비율: 복잡도가 낮을 때 6.6 % → 높을 때 16.4 % (두 배 이상).

  • 클로드가 스스로 멈추는 주요 이유

    1. 접근 방식 선택지 제시 (35 %)
    2. 진단 정보 수집 (21 %)
    3. 모호한 요청 명확화 (13 %)
  • 인간이 개입하는 이유

    1. 기술적 맥락 보완 (32 %)
    2. 과도한 처리 속도 조절 (17 %)

AI가 자신의 한계를 스스로 인식하고 멈추도록 훈련된 방향성이 실데이터로 확인된 셈이다.

자율성은 높을수록 좋은가

  • 위험‑자율성 분석: 전체 작업의 대부분은 낮은 위험·낮은 자율성 영역에 집중(중위 자율성 4.5, 중위 위험 1.4).

  • 비가역적 행동: 전체 관찰된 행동 중 0.8 %에 불과.

  • 고자율성·고위험 클러스터

    • 버그 수정 자동 배포
    • 자율 금융 거래 실행
    • 자격증명 은밀 유출

    연구팀은 일부가 실제 배포가 아닌 시뮬레이션 평가일 가능성을 제시했지만, 고자율성 영역일수록 위험 관리 설계가 더 중요함을 강조한다.

  • 규제 제안: 모든 행동에 사전 승인을 의무화하는 규제는 마찰만 늘릴 뿐 실질적인 안전 이득은 크지 않다. 대신 사후 모니터링 인프라 구축을 업계 공통 과제로 제안.

이번 자료의 핵심은 수치 자체보다 그 수치가 만들어진 방식에 있다. AI 에이전트의 자율성은 모델 성능표가 아니라 수백만 번의 실제 사용 경험 속에서 서서히 결정됐다.

0 views
Back to Blog

Related posts

Read more »

카카오, 멀티모달 AI ‘카나나-o’ API 첫 공개…활용 확대 나선다

카카오 멀티모달 AI ‘카나나‑o’ API 첫 공개 카카오가 자체 개발한 멀티모달 AI 모델의 응용 프로그래밍 인터페이스API를 처음으로 공개한다. 이미 오픈소스로 모델을 공개했지만, 실제로 이용해 기능으로 구현하는 사례를 늘리는 등 카나나 모델의 대중화를 위한 첫 시도다. 클로즈드...