Standard Intelligence: 픽셀 공간에서 General Intelligence 훈련

발행: 23시간 전 (2026년 4월 30일 PM 11:00 GMT+9)

7 분 소요

Source: Sequoia Blog

픽셀이 유용한 에이전트를 훈련시키는 열쇠가 될 수 있을까?

언어 모델을 확장하려는 경쟁—그리고 그 주변의 에이전트 생태계—는 불꽃처럼 뜨겁다. 문제를 논리적으로 풀고 해결을 위한 코드를 작성하는 코딩 에이전트는 이미 우리를 매우 멀리 데려다 주었다.

하지만 한 야심찬 젊은 팀은 다른 베팅을 하고 있다: 가장 유망한 일반 컴퓨터 에이전트 경로는 언어, 스크린샷, 툴 호출을 통해서가 아니라 원시 비디오를 확장하는 것일 수 있다는 것이다.

Standard Intelligence의 논지는 일반 에이전트를 구축하는 최선의 방법은 컴퓨터 사용에 대한 전체 비디오 사전 훈련이라고 주장한다. 이는 행동 데이터를 진정으로 확장할 수 있는 유일한 접근 방식이기 때문이다. 텍스트 토큰을 예측하는 대신, 모델은 화면 앞에 있는 픽셀을 기반으로 다음 마우스 움직임, 클릭, 키 입력을 예측하면서 원시 화면 데이터를 통해 컴퓨터를 사용하는 방법을 학습한다.

이는 컴퓨터 화면에서 지식 작업에 적용된 테슬라 FSD 접근법이다.

이 베팅은 매우 반대되는 동시에 “쓴 교훈(bitter‑lesson)”에 가득 차 있다. 워크플로우를 직접 설계하거나 언어 모델을 점점 더 정교한 하네스에 감싸는 대신, Standard Intelligence는 새로운 사전 훈련 패러다임에 베팅한다: 모델에 컴퓨터 사용의 원시 스트림을 제공하고, 이를 공격적으로 확장하며, 일반성이 데이터에서 자연스럽게 나타나도록 하는 것이다.

“우리는 비디오 사람은 아니다”

비디오는 다루기 힘듭니다. 계산 비용이 많이 들고, 경제적 비용도 높으며, 기술적으로도 관대하지 않습니다. 비디오를 AGI로 확장하려는 이전 시도들은 종종 초기에 실패했습니다.

Standard Intelligence 팀은 단호히 “비디오 사람은 아니다”라고 말합니다. 그들은 비디오를 매체로 다루는 데에 대한 수십 년간의 선입견을 가지고 있지 않았습니다. 대신, 모든 도전을 기본 원리에서부터 스스로 고민했고, 그 과정에서 비범한 낙관주의, 창의성, 그리고 투지를 보여주었습니다.

그 결과는 눈에 띕니다:

1,100만 시간 규모의 컴퓨터 행동 데이터셋 — 업계 최대 규모.
경쟁 접근 방식보다 약 50배 더 토큰 효율적인 비디오 인코더로, 30 FPS 비디오 2시간 분량을 1 백만 토큰 컨텍스트 윈도우에 담을 수 있습니다.
샌프란시스코에 랙(Rack)된 30 페타바이트 스토리지 클러스터를 50만 달러 이하로 구축했으며, 이는 하이퍼스케일러 대안보다 약 20배 저렴합니다.

FDM‑1, 이들이 대규모 컴퓨터 사용 비디오에 직접 학습시킨 첫 번째 기반 모델은 이 패러다임이 어떤 모습이 될 수 있는지 초기 모습을 보여줍니다. 이 일반 모델은 블렌더에서 CAD 기어를 추출하고, 한 시간의 파인튜닝 후 샌프란시스코 블록을 차로 운전하며, 호기심 많은 인간이 할 법한 방식으로 상태 공간을 탐색해 소프트웨어 버그를 찾아낼 수 있습니다.

Conscientious young founders

Founders Galen Mead and Devansh Pandey met as teenagers during the Atlas Fellowship in 2022, a selective fellowship for high‑school students interested in AI alignment and AGI.

Galen and Devansh are unusually serious about reaching AGI, and unusually conscientious about doing so safely. Both founders are wise beyond their years (21 and 20 respectively), and both left their undergraduate programs out of a sense of urgency to work on this problem.

The full team of six is small but mighty. Neel, Yudhister, Ulisse, and Ryan are each quirky and exceptional. They have chosen to turn down the conventional path (fancy degrees and offers from big tech) and pursue this courageous mission together.

새로운 사전 훈련 체제

비디오는 오랫동안 AI를 위한 강력한 훈련 장이었습니다. DQN은 에이전트가 Atari 환경에서 픽셀만으로도 풍부한 행동을 학습할 수 있음을 보여주었습니다. Tesla는 비디오 모델을 확장하여 자율 주행 차량과 로봇이 물리적 세계를 탐색하도록 만들었습니다.

하지만 일반 지식 에이전트를 향한 경쟁에서 비디오‑우선 사전 훈련은 아직도 비전통적인 아이디어로 남아 있습니다. Standard Intelligence는 이 아이디어가 오래도록 비전통적으로 남지 않을 것이라고 베팅하고 있습니다.

우리는 Spark Capital의 Miko와 Yasmin과 함께 Standard Intelligence의 Series A를 주도하게 되어 매우 기쁩니다.

Standard Intelligence: 픽셀 공간에서 General Intelligence 훈련

픽셀이 유용한 에이전트를 훈련시키는 열쇠가 될 수 있을까?

“우리는 비디오 사람은 아니다”

Conscientious young founders

새로운 사전 훈련 체제

관련 글

왜 AI 에이전트는 방화벽이 필요한가: Suprawall 소개

Gemini CLI에 Subagents가 도착했습니다

[Paper] HERMES++: 통합 운전 월드 모델을 향한 3D 씬 이해 및 생성

[Paper] OmniRobotHome: 실시간 멀티 카메라 플랫폼을 이용한 Multiadic 인간-로봇 상호작용