Andrej Karpathy의 새로운 오픈 소스 'autoresearch'가 밤에 수백 개의 AI 실험을 실행하게 해줍니다 — 혁명적인 함의와 함께

발행: (2026년 3월 10일 AM 09:13 GMT+9)
11 분 소요

Source: VentureBeat

Andrej Karpathy—전 Tesla AI 리드, 공동 설립자이자 OpenAI의 전 멤버로서 *“vibe coding”*이라는 용어를 만든 인물—이 X에 자신의 새로운 오픈‑소스 프로젝트 autoresearch에 대해 게시했습니다.

이것은 완성된 모델이나 거대한 기업 제품이 아닙니다: 그의 직접적인 인정에 따르면 GitHub에 허가가 관대하고 기업 친화적인 MIT License 하에 공개된 단순한 630줄 스크립트일 뿐입니다. 목표는 방대합니다: 우리가 잠자는 동안 AI 에이전트를 이용해 과학적 방법을 자동화하는 것.

“목표는 여러분의 개입 없이도 무한히 가장 빠른 연구 진행을 이끌어낼 수 있도록 에이전트를 설계하는 것입니다,”라고 그는 X에 밝혔습니다.

시스템 작동 방식

  1. 자율 최적화 루프 – AI 에이전트는 훈련 스크립트와 고정된 연산 예산(보통 GPU에서 5 분)을 받습니다.
  2. 에이전트는 자신의 소스 코드를 읽고, 개선을 위한 가설(예: 학습률이나 아키텍처 깊이 변경)을 세운 뒤 코드를 수정하고 실험을 실행하며 결과를 평가합니다.
  3. 검증 손실비트당 바이트(val_bpb) 단위로 측정되며 개선되면 변경을 유지하고, 그렇지 않으면 되돌리고 에이전트가 다시 시도합니다.

한밤중 실행에서 Karpathy의 에이전트는 126개의 실험을 완료했으며 손실을 0.9979 → 0.9697로 낮췄습니다.

“에이전트가 전체 워크플로우를 처음부터 끝까지 스스로 수행하는 모습을 보는 것은 정말 놀라웠다,” 라고 Karpathy는 말하며, 에이전트가 그가 20년 동안 수작업으로 놓쳤던 어텐션 스케일링 및 정규화의 실수를 포착했다고 언급했습니다.

Recent results

  • 에이전트를 depth=12 모델을 이틀 동안 튜닝하도록 두었을 때, ≈ 700개의 자율적인 변경을 수행했습니다.
  • 에이전트는 ≈ 20개의 추가 개선을 발견했으며, 이는 더 큰 모델에 완벽히 전이되었습니다.
  • 이러한 변경을 누적함으로써 Karpathy가 이미 잘 튜닝된 것으로 믿었던 프로젝트에서 리더보드의 “Time to GPT‑2” 지표가 2.02 h → 1.80 h 로 감소했으며 (11 % 효율 향상)했습니다.

이것은 단순한 생산성 해킹을 넘어, 지능을 다듬는 방식에 대한 근본적인 변화입니다. 코드를 위한 과학적 방법을 자동화함으로써 Karpathy는 머신러닝을 인간 사고의 속도가 아니라 실리콘의 속도로 진행되는 진화 과정으로 바꾸었습니다.

광범위한 AI/ML 커뮤니티는 X(트위터)에서 이 과정이 컴퓨터 과학을 넘어 마케팅, 건강, 그리고 기본적으로 연구가 필요한 모든 분야에 적용될 수 있음을 빠르게 인식했습니다.

자동연구가 널리 퍼지다

반응은 빠르고 바이럴했으며, Karpathy의 게시물은 > 8.6 M 조회수를 이틀 만에 기록했고, 빌더와 연구자들은 “Karpathy 루프”를 확장하기 위해 분주히 움직였습니다.

Hyperspace AI

  • Varun Mathur, AI‑툴 집계 서비스 Hyperspace AI의 CEO는 단일 에이전트 루프를 피어‑투‑피어 네트워크에 분산시켰습니다. Hyperspace 에이전트를 실행하는 모든 노드는 자율 연구자가 되었습니다.
  • 3월 8–9일 밤: Hyperspace 네트워크에 있는 35개의 자율 에이전트333개의 실험을 완전 무감독으로 수행했습니다. 그 결과는 emergent 전략의 교본이었습니다:
관찰세부 내용
특징으로서의 하드웨어 다양성H100 GPU는 “무차별 대입” 방식으로 공격적인 학습률을 찾았고, 노트북에서 CPU‑전용 에이전트는 초기화 전략(Kaiming, Xavier)과 정규화 선택에 집중하며 영리하게 작동해야 했습니다.
가십 기반 발견GossipSub 프로토콜을 사용해 에이전트들이 실시간으로 성공 사례를 공유했습니다. 한 에이전트가 Kaiming 초기화가 손실을 21 % 감소시킨다는 것을 발견하자, 이 아이디어는 디지털 바이러스처럼 퍼졌고, 몇 시간 안에 다른 23개의 에이전트가 해당 발견을 적용했습니다.
역사의 압축17 시간 만에 에이전트들은 인간 연구실(Google Brain, OpenAI)에서 약 8년이 걸린 ML 이정표—RMSNorm, tied embeddings 등—를 독립적으로 재발견했습니다.

Source:

매년 30개의 마케팅 실험 대신 36,500개의 실험을 실행하세요

ML 순수주의자들이 손실 곡선에 집중하는 동안, 비즈니스 세계는 다른 혁명을 목격했습니다.

Eric Siu, 광고 대행사 Single Grain 설립자는 마케팅의 “Experiment Loop”에 autoresearch를 적용했습니다:
“대부분의 마케팅 팀은 연간 약 30개의 실험을 진행합니다. 차세대는 36,500개 이상을 실행할 것입니다. 아주 쉽게.”
“그들은 잠자는 동안에도 실험을 진행할 것입니다.”

Siu의 프레임워크

  1. 훈련 스크립트를 마케팅 자산(랜딩 페이지, 광고 크리에이티브, 콜드 이메일)으로 교체합니다.
  2. 에이전트가 변수를 수정하고(제목 라인, CTA), 배포한 뒤 긍정적인 응답률을 측정하여 변경을 유지하거나 버립니다.

Siu는 이것이 특정 청중에게 무엇이 반응하는지를 보여주는 **“전용 지도”**를 만든다고 주장합니다—코드가 아니라 실험 이력으로 구축된 방어벽입니다.

“이기는 기업은 더 좋은 마케터를 갖는 것이 아니라, 더 빠른 실험 루프를 갖게 될 것입니다.” – Siu

커뮤니티 토론 및 “spoiling” 검증 세트

ConcernComment
The Over‑Optimization TrapResearcher alexisthual: “그렇게 많은 실험을 진행하면 결국 ‘스포일’ 검증 세트를 **‘spoil’**하지 않을까 하는 우려는 없나요?” The fear is that agents may over‑fit to quirks of the test data rather than achieve general intelligence.
The Meaning of the GainsUser samionb:0.9979 → 0.9697 로 떨어지는 것이 정말 눈에 띄나요?”
Karpathy’s reply: “우리가 하는 일은 컴퓨팅당 성능을 최적화하는 것이며… 이것은 실제적이고 상당한 이득입니다.”
The Human ElementOn X, user witcheer, Head of Growth at crypto platform Yari Finance, documented … (the discussion continues in the thread)

자동연구 인사이트

“모델은 더 단순해짐에 따라 개선되었습니다”

팀은 Mac Mini M4에서 자체 야간 실험을 진행했습니다. 35번의 시도 중 26번은 실패하거나 충돌했지만, 7번의 성공적인 실행에서는 모델이 더 단순해질수록 성능이 향상됨을 확인했습니다. 이 통찰—덜 할수록 더 좋다—는 인간의 개입 없이 도출되었습니다.

미래: 호기심이 병목

autoresearch의 출시가 간단한 AI 지시 메커니즘 덕분에 인간의 역할이 실험자에서 실험 설계자로 이동하는 미래를 가리키고 있다.

DarkMatter, Optimization Arena, NanoClaw와 같은 도구들이 이 군집을 지원하기 위해 등장함에 따라, AI 발전의 병목은 더 이상 “육체 컴퓨터”(카르파시가 인간 뇌를 일컫는 용어) — 코딩 능력 — 가 아니라 탐색의 제약을 정의하는 우리의 능력이다.

Andrej Karpathy는 다시 한 번 분위기를 바꾸었다. 우리는 이제 단순히 모델을 코딩하는 것이 아니라, 우리가 잠자는 동안 학습하는 생태계를 심고 있다.

0 조회
Back to Blog

관련 글

더 보기 »

Google, Chrome에 Gemini 도입… 인도에 출시

Chrome용 Gemini 통합이 인도, 캐나다 및 뉴질랜드로 확대됩니다. Google은 Chrome용 Gemini 통합이 새로운 지역으로 확대되고 있다고 발표했으며, 여기에는 ...가 포함됩니다.