프로젝트 페치 2단계

발행: 13시간 전 (2026년 6월 21일 AM 09:00 GMT+9)

11 분 소요

출처: Hacker News https://www.anthropic.com/research/project-fetch-phase-two

Michael Ilie, C. Daniel Freeman, and Kevin K. Troy

2025년 8월, 우리는 **실험**을 진행하여 Claude가 로봇 공학 전문가가 아닌 Anthropic 직원들이 상용 로봇 쿼드루페(이하 robodog)를 사용해 복잡하고 재미있는 작업을 수행할 수 있도록 도와줄 수 있는지를 확인했습니다. 이를 Project Fetch라 불렀습니다. 당시 최신 모델인 Claude Opus 4.1에 대한 액세스를 활용한 팀은 인터넷과 자체 역량만으로 작업하던 다른 팀보다 크게 우수함을 발견했습니다. Claude를 이용한 팀은 더 많은 결과를 더 빠르게 얻었습니다.

실험을 위해 동료들을 창고로 데려가기 전에, Opus 4.1이 스스로 모든 작업을 수행할 수 있는지 다시 확인했습니다. 분명히 그것은 불가능했습니다. Claude 없이 팀과 마찬가지로, 로봇에 연결하는 초기 과제에서 막혔습니다.

하지만 AI 모델은 빠르게 진화하고 있습니다—그보다도 더 빠른 속도로, 2025년 8월 당시에 한 인간 팀에게 거의 들이받히던 제멋대로 달리던 robodog보다도 더 빨리 진행되고 있습니다.

새로운 모델이 이전 세대를 능가할 것이라고 판단했고, 실제로 그들은 그렇게 했습니다. Claude Opus 4.7은 인간 개입 없이 작업했으며, 우리 참가자들이 작년 말 이전에 완료한 모든 과제 중 가장 빠른 인간 팀보다 약 20배 빠르게었습니다.

이것은 LLM이 이제 로봇을 완전히 해결했다는 의미가 아니며, 멀리멀리 아닙니다. 최신 Claude 모델들은 여전히 모래 알을 정확히 이동시키는 데 어려움을 겪고 있습니다—Project Fetch의 “획득” 부분입니다. 이 실험들 중 어느 하나도 로봇 제어의 어려운 저수준 요소(예: 특정 동작 정책 개발)를 포함하고 있지 않습니다.

하지만 다시 한 번 우리는 패턴을 확인합니다: 먼저 모델이 인간에게 도움이 되고, 그다음 인간이 모델에 도움이 되며, 최종적으로 모델은 스스로 대부분의 일을 수행할 수 있게 됩니다. 이는 사이버 보안 분야에서 이미 관찰된 바 있으며, 이제 AI와 물리적 세계 교차점에서 이러한 역학이 형성되고 있습니다.

우리는 무엇을 했나요?

원래 Project Fetch는 Claude와 함께 또는 없이 Anthropic 직원 팀(무작위로 할당)을 구성하여 다음과 같은 단계를 수행하도록 했습니다: 제조사 제공 컨트롤러를 사용해 robodog를 운전하고, robodog의 비디오 및 lidar 센서를 연결하며, robodog를 수동으로 제어하는 프로그램을 작성하고 실행하고, robodog가 공간을 통해 이동하는 경로를 모니터링하는 방법을 개발하고, 해변 공을 감지하는 프로그램을 작성한 후 모든 것을 결합해 공을 자율적으로 회수하도록 했습니다.

이 자율 업데이트에서는 Claude가 물리적 컨트롤러를 사용하도록 요청할 수 없었고,Claude가 프로그래밍한 컨트롤러로 공을 회수하는 데 걸린 시간을 조사하기도 했습니다(다만 모델이 정상적으로 작동한다는 점을 확인했습니다). 나머지 과제들에서는 Claude Code의 최대 노력을 활용해 적응적 사고 방식을 적용한 Opus 4.7에 대한 세 번의 시도를 진행했습니다. 각 목표에 걸린 시간을 측정하고, 모델들의 성공을 정성적으로 평가했습니다.

우리 연구자의 역할은 로봇에Claude Code가 실행되는 노트북을 연결하고, 초기 프롬프트를 입력한 뒤 명령을 승인하고, 모델이 다음 작업으로 이동하도록 허락하는 정도로 제한되었습니다.

Claude는 어디에서 우수했나요?

아주 간단히 말해: 2025년 8월에 최소 한 인간 팀이 완료한 모든 과제에서 Opus 4.7은 동일한 과제를 최소 10배 빠른 속도로 완료했습니다.¹ 네 항목이 두 인간 팀 모두에 의해 완료된 경우, Opus 4.7은 평균적으로 Team Claude-less보다 37배 이상 빠르고 Team Claude보다 18배 이상 빠르게 작업했습니다.

The table compares the speed of the original teams (Team Claude and Team Claude-less) to Opus 4.7 on all of the tasks we tested as part of Phase Two.

인간들은 개와 센서를 연결하는 다양한 접근 방식을 선택하는 데 어려움을 겪었고, Opus 4.7은 가장 효율적인 경로를 빠르게 파악했습니다. 그 자체 코드는 처음 시도에서 효과적이었으며(원본 실험에서 Team Claude나 Team Claude-less가 그랬던 것과는 달리)이었습니다. 실제로 Opus 4.7의 효율성은 생성된 코드 양을 통해 확인할 수 있습니다: 두 인간 팀보다 거의 10배 적은 양의 코드를 작성하면서도 성공률은 동등하거나 더 높았습니다.

Opus 4.7은 완벽하지 않았습니다. 예를 들어, 오래된 객체 감지 알고리즘을 기본으로 사용했습니다. 하지만 그럼에도 불구하고, 이를 우회하여 효과적인 해결책을 찾을 수 있었습니다.

모델이 완료한 단계들의 절대적인 완료 시간 변동은 매우 미미했습니다. (前述된 비효율적인 알고리즘 선택이 일부 해변 공 감지 시도에 더 오랜 시간이 걸리게 한 원인일 가능성이 높습니다.) 전체적으로, 이 실험의 과제들 중 Claude가 수행 가능한 범위 내에서 현재는 상당히 신뢰할 만합니다.

Claude는 어디서 어려움을 겪었나요?

인간들은 손으로 사용하고 일정 연습을 한 뒤 robodogs를 이용해 해변 공을 원래 위치(가짜 풀밭)로 부드럽게 돌려 보낼 수 있었습니다. 이는 공이偏离한 경로를 빠르게 파악하고, 이전 명령과의 오류 관계를 이해하며, 현재 공의 위치를 확인하고 이후 입력을 어떻게 조정해야 더 정확하게 이동시킬 수 있는지를 판단하는 능력을 필요로 했습니다.

Phase Two 실험에서는 Claude가 이러한 섬세함을 포착하지 못했습니다. 인간들이 자율 해변 공 회수 프로그램을 작성해야 했던 단계와 마찬가지로, Claude는 로봇을 공 뒤에 두고 공을 원래 위치로 되돌리게 할 수 있었습니다. 하지만 그 시도는 조정이 불十分했고(인간 참가자들과同様로) 성공하지 못했습니다.

Phase One 참가자보다 로봇 공학 경험이 풍부한 우리 연구자는 자율적인 공 회수 작업을 성공적으로 수행했습니다. 더 많은 시간과 추가적인 지원이 주어진다면, 현재 세대의 Claude가 같은 결과를 낼 가능성이 매우 높다고 생각합니다. 다만 다음으로 주목할 점은 모델들이 Project Fetch의 다른 요소와 동일한 속도와 신뢰성을 가지고 최종 과제를 완수할 수 있는 능력입니다.

이는 어떤 의미를 갖나요?

Phase One에 대해 논의할 때, 우리는 LLM이 로봇을 사용해야 하는 비전문가 인간에게 도움을 줄 수 있음을 강조했습니다. 현재는 이전보다 더욱 사실입니다. 모델들은 이제는 인간이 모델과 페어 프로그래밍을 함께하는 작업으로 보였던 것을 혼자서 훨씬 빠르게 완수함으로써, 사람들은 로봇을 제어하고 사용하는 데 더 짧은 시간 안에 전환할 수 있게 되었습니다. 또한 일부 과제에서는 인간을 통한 로봇 제어가 여전히 AI 모델을 능가할 수 있으며, (가상) D-패드 위에 손을 얹은 인간의 직접적인 제어가 있을 때가 있습니다.

프로젝트 페치 2단계

우리는 무엇을 했나요?

Claude는 어디에서 우수했나요?

Claude는 어디서 어려움을 겪었나요?

이는 어떤 의미를 갖나요?

관련 글

Epoll와 io_uring, 리눅스

도서관에서 바느질 기계를 빌리면 민주주의가 향상된다

엘리트 급진세가 세계를 장악하려 했다는 사실이 드러났다

2022년 이전 책