Collecting robot training data is dirty, unglamorous work. Some AI labs are already paying XDOF to do it.
출처: TechCrunch
두 주 전, OpenAI said 로 2021년에 폐쇄했던 로봇 프로그램을 재개하겠다고 발표했습니다. 이는 최대의 AI 연구소들이 물체와의 물리적 세계에서 기계를 운영하도록 가르치려는 경쟁 신호입니다. 하지만 capable한 로봇을 만들기 위해서는 AI 업계가 아직 보유하고 있지 않은 것이 있습니다. 바로 언어 모델에 사용되는 데이터와 동일한 훈련 데이터를 위한 것입니다.
이 격차는 새로운 형태의 인프라 비즈니스를 만들고 있습니다. LLM은 공개된 텍스트가 풍부한 바다에서 훈련받았지만, 로봇은 물리적 상호작용을 포착하는 데이터를 필요로 하며, 그런 데이터는 거의 존재하지 않습니다. YouTube 영상과 Gig 워커가 촬영한 기록은 저해상도이며 실제 세계와 조화시키기 어렵습니다.
XDOF (발음: “엑스-도프”), 오늘 스텔스에서 모습을 드러냈으며, AI의 다음 큰 병목은 모델이나 칩이 아니라 로봇이 물리적 세계와 상호작용하도록 가르치기 위한 데이터 피드백 루프에 있다고 베팅하고 있습니다.
이 스타트업은 자체적으로 쉽게 구축할 수 없는 전선 연구소와 로봇 회사들을 위한 데이터 파이프라인, 수집 도구, 주석 시스템을 구축하는 것을 목표로 하며, Thrive Capital, Spark Capital, a16z, Lux, WndrCo 등으로부터 7000만 달러를 모금했습니다. 공동 창업자 겸 CEO인 Philipp Wu는 XDOF가 약 60명의 직원을 두고 있으며 이미 20개의 고객사와 협력 중이라고 밝혔으며, 그 중에는 여러 전선 AI 연구소가 포함돼 있지만 이름을 밝히지는 못한다고 말했습니다.
“‘모든 최상위 연구소들이 로봇을 추구하고 있습니다,’ Wu는 말했습니다. ‘우리는 이미 언어 모델 경주에서 약간 뒤처진 결과의 실패를 목격했습니다 … 우리 기술이 너무 늦게 도입되고 모든 이들이 물리적 AI가 다음 전선이 되는 배에 있다는 상황에 처하는 것을 원하지 않습니다.’
Wu는 캘리포니아 버클리 대학교에서 박사 과정 학생일 때 이 문제를 직접 겪었습니다. 그는 대규모 데이터셋을 활용해 로봇이 기술을 습득하도록 돕는 데 집중하고 있었습니다. 하지만 하나의 문제가 있었습니다.
‘대규모 데이터를 사용할 수 있는 것이 없었습니다,’ 그는 TechCrunch에 말했습니다. ‘우리는 닭과 알 문제였습니다 — 먼저 실제 데이터를 수집해야만 로봇용 foundational 모델을 어떻게 훈련할지 물어볼 수 있었습니다.’
Wu와 향후 XDOF 공동 창업자 겸 CTO인 Fred Shentu는 인간 운영자가 로봇 팔을 제어해 훈련 데이터를 생성할 수 있는 저비용 텔레오퍼레이션 시스템인 GELLO에 대해 연구했습니다. “그 결과물이 로봇 분야에서 매우 영향력 있는 논문이 되었고, 많은 사람들이 비슷한 요구와 병목을 가지고 있었으며, 이 장치를 데이터 수집에 활용하기 시작했습니다,” Wu는 말했습니다.
기회를 포착한 Wu, Shentu, 그리고 세 번째 공동 창업자 겸 COO인 Nemo Jin은 2024년 10월에 XDOF를 설립해 로봇 모델을 추구하는 기업들에게 데이터 생태계를 제공했습니다. 데이터 제공만으로는 끝없는 비즈니스 모델이 될 수 있음을 인식한 회사는 데이터 정제, 툴링, 주석 작업에 집중했으며, 이는 로봇 트레이너에게 자기 강화 피드백 루프를 만들었습니다.
시작점으로는 회사는 UC Berkeley AI Research 연구소와 협력해 지금까지 만들어진 가장 고품질의 로봇 훈련 데이터 집합을 발표할 계획이라고 밝혔는데, 이를 ‘ABC’라 부릅니다. 이 데이터에는 130,000개의 로봇 조작 트레이저리, 300시간의 시뮬레이션, 100시간의 평가 테스트가 포함되어 있습니다. 대규모 사전 훈련 데이터는 이전에 학계에 존재하지 않았습니다.
‘언어 모델, 이미지 생성 및 기타 분야에서 데이터를 공개하면 커뮤니티가 예상치 못한 성과를 거두는 것을 우리는 목격했습니다,’ 데이터 출시를 조직한 버클리 박사 과정 학생인 David McAllister는 TechCrunch에 말했습니다.
팀은 이미 이 데이터를 활용해 T- 셔츠 접히기, 상자 평평화, 에어팟을 케이스에 넣는 등의 벤치마크 작업을 로봇에게 훈련시켰습니다.
무한 자유도
회사는 데이터 피라미드의 세 계층을 넘어서 작업할 계획입니다. 가장 가치 있는 계층은 실제 배포되는 로봇에 수집된 텔레오퍼레이션 데이터이며, 그 다음은 GELLO와 같이 텔레오퍼레이션 로봇이 보다 일반적인 데이터를 모으는 단계이고, 마지막으로 일상적인 작업을 수행하는 인간이 기록한 “주체적” 데이터를 위해 XDOF는 자체 웨어러블 센서를 구축할 예정입니다.
‘당신이 선택한 카메라가 데이터 품질에 영향을 미치며, 이는 손 추적 알고리즘의 성능에도 영향을 미친다,’ Wu는 말했습니다. ‘처음부터 하드웨어를 잘 설계하지 않으면 수집한 데이터에는 예상하지 못한 특정한 문제가 있을 수 있습니다.’
회사는 전 세계에 텔레오퍼레이터와 주체적 데이터 운영자 규모의 군단을 고용하고 훈련할 계획이며, 이는 노동 집약적인 모델로, 다음과 같은 의문을 제기합니다: 왜 주요 연구소들은 이 데이터 생산 작업을 스스로 수행하지 않나요?
‘수천 평방 피트의 창고를 필요로 하고 수백 대의 로봇이 있어야 합니다,’ Wu는 말했습니다. ‘우리는 이 로봇들을 유지보수하고 물리적 파라미터를 교정하며 운영자를 적절히 교육해야 합니다.’
이 작업은 집중력, 자본, 운영 규모가 필요하며, 대부분의 AI 연구소는 이를 외주화하는 것이 더 편리합니다. 이는 바로 XDOF가 베팅하고 있는 시장입니다.
XDOF라는 이름은 로봇학 용어 ‘degrees of freedom’(자유도)를 기반으로 한 단어 놀이이며, 이는 로봇이 수행할 수 있는 독립적인 동작의 수를 의미합니다. 팔은 어깨에서 손목까지 [일곱 개의 자유도](https://www.researchgate.net/ figure/ The- seve n- principal- degrees- of- freedo m- of- the- human- armadapted- from- 4_ fig2_ 329039448)를 가집니다. Figure AI라는Humanoid 로봇 회사의 최신 로봇은 30개의 자유도를 가지고 있습니다. 회사의 이름에 있는 X는 ‘가능한 자유도, 무한 자유도’라는 야망을 담고 있다고 Wu는 말했습니다.
When you purchase through links in our articles, we may earn a small commission. This doesn’ t affect our editorial independence.
우리 기사의 링크를 통해 구매를 하시면 소액 수수료를 받을 수 있습니다. 이는 우리 편집진의 독립성에 영향을 주지 않습니다.