안티그래비티 2.0와 1,000달러 OS: ‘에이전트 우선’이 내가 지향해 온 방향처럼 느껴지는 이유
출처: Dev.to
이 글은 Google I/O Writing Challenge에 제출된 작품입니다.
오케스트레이션이 타이핑 속도보다 더 중요해지기 시작한 시스템을 몇 년간 구축해 온 사람의 시각에서 본 Google I/O 2026의 가장 야심찬 데모에 대한 회고입니다.
AI 에이전트만으로 완전히 만든 운영체제 위에서 Doom이 실행되는 모습을 보는 순간, 당신은 현재 하고 있던 일을 멈추게 됩니다.
Google I/O 2026에서 Antigravity 팀은 완전히 새로 만든 운영체제를 시연했습니다. 스케줄러, 메모리 관리, 파일 시스템 모두 12시간 가량에 걸쳐 93개의 병렬 서브 에이전트가 구축했으며, 26억 개의 토큰을 처리했고 API 크레딧 비용은 1,000달러 미만이라고 합니다.
그 후 시스템은 Doom이 바로 실행되지 않는 문제를 스스로 진단하고, 누락된 키보드와 비디오 드라이버를 자동으로 패치했습니다.
흥미로운 점은 운영체제 자체가 아니라 “OS를 만들어 달라”는 프롬프트도 아니었습니다. 우리는 이미 코드 생성과 바이브 코딩을 보아왔고, AI가 함수와 전체 레포지토리를 작성하는 모습을 목격했습니다.
제가 주목한 것은 폐쇄 루프 행동이었습니다. 연구 → 구축 → 테스트 → 실패 → 진단 → 패치 → 검증. 이 특정 순서가 중요합니다.
요즘 엔지니어링에서 가장 어려운 부분은 코드를 생성하는 것이 아니라는 점을 깨달았습니다. 벡터 검색, 계약 인텔리전스, 감성 분석 파이프라인, 그리고 또 다른 엔드포인트나 ORM 모델이 아니라는 애플리케이션을 구축하면서 이 점을 느꼈습니다.
병목 현상은 다른 곳에서 계속 나타났습니다.
- 여러 움직이는 조각들은 어떻게 조율될까?
- 워크플로우는 실패에서 어떻게 회복될까?
- 검색 결과가 부분적인 컨텍스트만 반환될 때 시스템은 어떻게 판단할까?
- 체인 중 하나의 컴포넌트가 조용히 고장 나면 하위 3단계는 어떻게 동작할까?
이러한 질문들이 코드 작성 자체보다 더 많은 시간을 차지하게 되었습니다.
그래서 Antigravity가 다르게 느껴졌습니다. 이것은 진정한 에이전시와 훨씬 가까웠습니다.
현재 AI 개발 도구들은 여전히 우리의 옛 사고 모델을 유지합니다. Cursor, Copilot, Windsurf는 본질적으로 AI가 부착된 코드 편집기입니다. 당신이 쓰면, 그들이 제안하고, 당신이 결정합니다. 기본 구조는 IntelliSense가 등장한 이후 크게 변하지 않았습니다.
Antigravity는 그 관계를 뒤집는 듯합니다. 파일과 폴더가 경험의 중심에 있던 것이 아니라, 에이전트 하네스 자체가 초점이 됩니다. 여러분은 다중 에이전트 조정 트리, 병렬 작업 실행 타임라인, 지속적인 검증 로그를 바라보게 됩니다.
이는 현대 백엔드 엔지니어링이 실제로 어떻게 이루어지는지를 보면 단순한 UI 조정처럼 보일 수 있습니다.
최근 제가 설계한 여러 프로젝트에서 제 워크플로우에 일정한 패턴이 나타났습니다. 벡터 스토어를 설정하든, 검색 체인을 통합하든, CI/CD 파이프라인을 구축하든, 컨테이너화된 배포를 설계하든, 여러 AI 서비스가 어떻게 협업해야 할지 고민하든, 개별 함수에 대한 고민보다 시스템 행동에 더 많은 시간을 투자하게 되었습니다.
이미 저는 모든 코드를 일일이 작성하는 사람이 아니라 시스템을 조율하는 사람에 가깝게 일하고 있습니다.
때때로 저는 소프트웨어를 덜 작성하고, 소프트웨어 간 상호작용을 더 설계하고 있다는 느낌이 듭니다.
Antigravity는 이 변화를 공식화합니다. IDE가 채팅 풍선이 달린 텍스트 편집기처럼 행동하던 것이, 합성 엔지니어링 팀을 위한 조정 레이어처럼 행동하기 시작합니다.
이는 엄청난 변화입니다.
“1,000달러 운영체제”라는 헤드라인은 좋은 PR이 되겠지만, 실제 중요한 숫자는 가격이 아니라 93개의 병렬 서브 에이전트라는 점입니다.
프로덕션 환경에서는 작업이 자연스럽게 분해됩니다.
저는 이미 애플리케이션을 구축하면서 이 패턴의 작은 버전을 목격했습니다. 문서 추출, 임베딩 생성, 검색 오케스트레이션, 랭킹, 검증, 모니터링, 배포 레이어가 모두 함께 작동합니다. 오늘날 우리는 API, 큐, 컨테이너, 인프라 로직으로 이들을 수동으로 연결합니다.
그 정확한 분산 철학을 애플리케이션 아키텍처를 넘어 엔지니어링 노동 자체에까지 확장한다면 어떨까요?
개발자가 작업을 받아 코드를 작성하고 넘어가는 순차적 개발 대신, 워크플로우는 병렬화됩니다. 개발자는 오케스트레이터를 지시하고, 오케스트레이터는 병렬 에이전트 팀을 관리해 검증된 결과물을 반환합니다.
이것이 풍경을 바꿉니다.
스타트업에게는 소프트웨어를 더 저렴하게 만들 수 있지만, 경쟁자도 마찬가지로 저렴해집니다. 구조적 이점은 “무언가를 만들 수 있느냐”가 아니라 “지능을 얼마나 잘 조율하느냐”로 이동합니다.
엔터프라이즈 입장에서는 키노트 중에 강조된 예시가 놀라울 정도로 현실감 있게 다가왔습니다. 그들은 Antigravity를 사용해 프로덕션 인시던트를 자동으로 분류하고 해결했습니다. 대규모 조직이 실험적 도구를 프로덕션 워크플로에 무작정 투입하지는 않으니, 그 규모에서의 도그푸딩은 의미가 있습니다.
이는 개인 개발자에게 가장 가까운 이야기입니다.
제가 처음 애플리케이션을 만들기 시작했을 때, 가치는 구현 속도와 비례한다고 생각했습니다. 코드를 많이 쓸수록 더 유용해진다고 믿었죠.
이제는 서비스 경계, 인프라 행동, 확장성, 검색 정확도, 시스템이 시간에 따라 어떻게 진화하는지에 더 많은 시간을 할애합니다.
에이전시 기반 시스템이 이 궤도를 계속한다면, 가장 가치 있는 개발자는 반드시 가장 빠른 코더가 아니라 가장 강력한 시스템 설계자가 될 것입니다.
타이핑보다 지휘자가 되는 것이죠.
훌륭한 키노트는 미래를 필연적으로 보이게 만들 수 있습니다. 과대광고와 엔지니어링 현실을 구분하는 것이 중요하며, 아직 답이 없는 기술적 질문들이 남아 있습니다.
첫 번째는 성숙도 격차입니다.
“작동하는 OS”라는 표현은 엄청난 범위를 포괄합니다. 30년 된 Doom 같은 게임을 부팅해서 실행할 수 있는 시스템과 프로덕션 급 시스템 사이에는 큰 차이가 있습니다. Doom이 임신 테스트기부터 스마트 냉장고까지 어디서든 돌아가는 것은 이식성을 증명할 뿐, 아키텍처 성숙도를 증명하는 것은 아닙니다.
다음은 원시 속도 주장입니다.
Antigravity 안에서 “12배 빠른 Gemini Flash”는 굉장히 인상적입니다. 하지만 실제 시스템을 다뤄보면 원시 처리량이 전체 이야기를 다 말해주지는 않는다는 것을 알게 됩니다.
성능 병목은 예상치 못한 곳에 숨어 있습니다. 캐시 레이어, 검색 지연, 라우팅 로직, 큐 경쟁, 컨텍스트 윈도우, 인프라 오버헤드—이 모든 요소가 빠르게 중요해집니다.
저는 Antigravity가 방대한 레포지토리, 레거시 의존성, 5년간의 기술 부채를 쌓아온 프로덕션 환경과 만나면 어떻게 될지 보고 싶습니다.
마지막으로, 93개의 병렬 에이전트가 어떻게 운영 혼란을 피할 수 있을까요?
분산 시스템을 다뤄본 사람이라면 조정이 예상보다 빨리 병목이 된다는 것을 압니다.
상태는 어떻게 안전하게 공유되나요?
충돌하는 제약 조건은 어떻게 해결되나요?
비결정적 실패를 어떻게 디버깅하나요?
이것들은 비판이 아니라, 무언가가 인프라가 될지 키노트 데모에 머무를지를 가르는 정확한 엔지니어링 장벽입니다.
아이러니하게도, 제가 가장 크게 얻은 교훈은 운영체제가 아니라 CLI