Rapidata가 등장하여 AI 모델 개발 주기를 몇 달에서 며칠로, 거의 실시간 RLHF로 단축한다
Source: VentureBeat
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
소개
AI가 인간의 많은 작업을 자동화하는 미래에 대한 이야기가 점점 늘어나고 있음에도 불구하고, 현재 기술 붐의 아이러니 중 하나는 바로 인간에 대한 의존도가 여전히 고집스럽게 남아 있다는 점입니다—특히 인간 피드백을 통한 강화 학습(RLHF)으로 AI 모델을 훈련시키는 과정에서 말이죠.
가장 간단히 말하면, RLHF는 튜터링 시스템입니다: AI가 선별된 데이터로 훈련된 후에도 여전히 실수를 하거나 로봇처럼 들릴 수 있습니다. 그런 다음 AI 연구소에서는 평가하고 순위 매기기를 위해 대규모 인간 계약자를 고용해 새로운 모델의 출력을 훈련 중에 평가하도록 하고, 모델은 그들의 평가를 통해 학습하여 더 높은 평가를 받은 출력을 제공하도록 행동을 조정합니다. 이 과정은 AI가 멀티미디어 출력(비디오, 오디오, 이미지)을 생성하면서 품질에 대한 보다 미묘하고 주관적인 측정 기준이 필요해짐에 따라 더욱 중요해집니다.
역사적으로 이 튜터링 과정은 AI 기업에게 거대한 물류적 골칫거리이자 PR 악몽이었습니다. 외국 계약자들의 파편화된 네트워크와 특정 저소득 지역 허브에 국한된 정적인 라벨링 풀에 의존했으며—언론에서는 종종 저임금, 심지어 착취적인 것으로 묘사했습니다. 또한 비효율적이었습니다: AI 연구소는 단일 피드백 배치를 받기 위해 몇 주 또는 몇 달을 기다려야 했고, 이는 모델 개발을 지연시켰습니다.
Rapidata의 “게임화된” RLHF 플랫폼
새로운 스타트업 Rapidata는 이 과정을 훨씬 더 효율적으로 만들고 있습니다. 이 플랫폼은 RLHF를 효과적으로 게임화하여 인기 앱(예: Duolingo, Candy Crush)의 2천만 명에 달하는 사용자에게 리뷰 작업을 전달합니다. 사용자는 모바일 광고 시청 대신 짧은 리뷰 작업에 참여할 수 있으며, 데이터는 즉시 의뢰 AI 연구소에 전송됩니다.
“이 플랫폼은 AI 연구소가 실시간에 가까운 모델 반복을 할 수 있게 해 주어, 전통적인 방법에 비해 개발 일정이 크게 단축됩니다.” – VentureBeat 보도 자료
CEO이자 설립자 Jason Corkill은 덧붙였습니다:
“Rapidata는 전 세계 규모와 실시간에 가까운 인간 판단을 제공하여, AI 팀이 지속적인 피드백 루프를 운영하고 매 릴리즈 사이클이 아니라 매일 시스템을 진화시킬 수 있는 미래를 열어줍니다.”
Rapidata는 RLHF를 수작업 노동 문제가 아니라 고속 인프라로 취급합니다. 이 회사는 850만 달러 시드 라운드(Canaan Partners와 IA Ventures가 공동 주도하고 Acequia Capital 및 BlueYard가 참여)를 발표했으며, 주문형 인간 데이터 접근 방식을 확장할 계획입니다.
인간 클라우드를 만든 펍 대화
Rapidata의 시작은 회의실이 아니라 몇 잔의 맥주가 놓인 테이블이었습니다. ETH 취리히에서 로봇공학과 컴퓨터 비전을 전공하던 시절, 코클은 모든 AI 엔지니어가 결국 마주하게 되는 데이터 주석 병목 현상에 부딪혔습니다.
“나는 로봇공학, AI, 그리고 컴퓨터 비전 분야에서 몇 년간 일했으며 ETH 취리히에서 공부했는데, 데이터 주석에 항상 답답함을 느꼈다”고 코클은 회상했습니다. “대규모 주석을 위해 사람을 필요로 할 때마다 프로젝트가 바로 멈추었습니다—밤을 더 새워 작업할 수는 있었지만, 주석 작업을 받기 위해서는 몇 주를 기다려야 했죠.”
이 지연에 좌절한 코클과 공동 창업자들은 현대 컴퓨팅 속도에 맞춰 움직이는 세상에서 기존 AI 노동 모델이 근본적으로 깨졌다는 것을 깨달았습니다. 컴퓨팅은 기하급수적으로 확장되는 반면, 수동적인 온보딩, 지역 기반 채용, 느린 결제 주기에 얽힌 전통적인 인력은 그렇지 못합니다. Rapidata는 인간의 판단을 전 세계에 분산된, 거의 즉각적인 서비스로 제공할 수 있다는 아이디어에서 탄생했습니다.
기술: 디지털 발자국을 학습 데이터로 전환
핵심 혁신은 **distribution(분산)**에 있으며, 특정 지역에 전일제 주석자를 고용하는 것이 아닙니다. Rapidata는 모바일 앱 세계의 기존 주목 경제를 활용합니다:
- 제3자 앱과의 파트너십 (예: Candy Crush, Duolingo).
- 사용자에게 선택권을 제공합니다: 전통적인 광고 시청 또는 몇 초 동안 AI 모델에 대한 피드백 제공.
- “광고를 보는 대신 데이터를 주석 달아보는 게 어떨까요? 기업이 여러분의 시선을 사는 대신 말이죠.”라고 Corkill이 설명했습니다.
Corkill에 따르면, **50‑60 %**의 사용자가 전통적인 동영상 광고보다 피드백 작업을 선택합니다. 이 “crowd intelligence(군중 지능)” 접근 방식은 AI 팀이 전례 없는 규모로 다양하고 글로벌한 인구통계에 접근할 수 있게 합니다.
주요 지표
- 전 세계 도달 범위: 1,500 – 2,000만 명.
- 대규모 병렬 처리: 1시간에 150만 건의 인간 주석 처리.
- 속도: 이전에 몇 주 또는 몇 달이 걸리던 피드백 사이클을 몇 시간, 심지어 몇 분으로 단축.
- 품질 관리: 시간에 따라 응답자에 대한 신뢰 및 전문성 프로필을 구축하여 복잡한 질문을 가장 적합한 판사와 매칭.
- 익명성: 사용자는 익명화된 ID를 통해 추적되어 일관성과 신뢰성을 보장하며, 개인 신원은 절대 수집되지 않아 프라이버시를 보호하면서 데이터 품질을 최적화합니다.
온라인 RLHF: GPU로 이동
Rapidata가 가능하게 하는 가장 중요한 기술적 도약은 Corkill이 “online RLHF” 라고 부르는 것입니다. 전통적으로 AI는 분리된 배치로 학습됩니다:
- 모델을 학습한다.
- 중단한다.
- 데이터를 인간에게 보낸다.
- 라벨을 받기 위해 몇 주를 기다린다.
- 학습을 재개한다.
이렇게 하면 종종 신선한 인간 입력이 부족한 “정보의 순환”이 만들어집니다. Rapidata는 판단을 학습 루프에 직접 통합합니다. 네트워크가 매우 빠르기 때문에 모델을 실행하는 GPU와 API를 통해 직접 통합할 수 있습니다.
“우리는 항상 인간 피드백을 통한 강화 학습이라는 아이디어를 가지고 있었지만… 항상 배치 단위로만 할 수 있었어요,” 라고 Corkill이 말했습니다. “이제 우리는 매우 빠르기 때문에 몇몇 고객에게는 피드백이 거의 실시간에 가깝게 모델에 전달되어, 사실상 RLHF를 온라인 서비스로 전환하고 있습니다.”
Bottom Line
Rapidata의 플랫폼은 RLHF를 고속, 전 세계에 분산된 서비스로 재구상하여, 한때 번거로웠던 인간‑피드백 루프를 거의 실시간 인프라 계층으로 전환합니다. 수십억 명의 모바일‑앱 사용자의 주의 경제(attention economy)를 활용함으로써 AI 개발을 가속화하고, 데이터 품질을 향상시키며, 대규모 인간 판단에 대한 접근성을 민주화할 것을 약속합니다.
Rapidata: 실시간 인간 피드백을 통한 AI 훈련
창업자 인용:
“GPU가 출력을 계산하고 즉시 분산 방식으로 인간에게 요청할 수 있습니다: ‘이것을 봐줄 인간이 필요해.’ 우리는 답을 받고 그 손실을 적용합니다—이전에는 불가능했던 일입니다.”
플랫폼 규모
- 분당 5,500 명 이상의 인간이 실시간 피드백을 제공합니다.
- 피드백은 수천 대의 GPU에서 실행되는 모델에 적용됩니다.
- 이는 두 AI 모델이 서로를 속이는 보상 모델 해킹을 방지하고, 훈련을 진정한 인간의 미묘함에 기반하게 합니다.
제품: 취향과 글로벌 맥락 해결
AI가 단순 객체 인식을 넘어 생성 미디어로 이동함에 따라 데이터 라벨링 요구사항이 객관적 태깅에서 주관적, “취향 기반” 큐레이션으로 전환됩니다.
- 단순히 “이게 고양이인가?”가 아니라 “이 음성 합성이 설득력 있는가?”
- 혹은 “이 두 요약 중 어느 것이 더 전문적으로 느껴지는가?”
Lily Clifford, 음성 AI 스타트업 Rime의 CEO, Rapidata에 대해:
“이전에는 의미 있는 피드백을 수집하려면 공급업체와 설문조사를 조합해 세그먼트별, 국가별로 진행해야 했으며, 이는 규모를 확장할 수 없었습니다. Rapidata를 사용하면 스웨덴, 세르비아, 미국 등 어디에서든 적절한 청중에게 도달하고, 모델이 실제 고객 워크플로우에서 며칠 안에 어떻게 작동하는지 확인할 수 있습니다. 몇 달이 걸리지 않죠.”
Corkill (Rapidata 공동 설립자) 추가:
“대부분의 모델은 사실적으로 정확하지만, …진짜 같지 않은 이메일을 받은 적 있죠? AI 이메일, AI 이미지, 혹은 비디오를 보면 바로 알 수 있습니다. 이러한 모델은 아직 인간처럼 느껴지지 않으며, 이를 개선하려면 인간 피드백이 필요합니다.”
경제 및 운영 전환
Rapidata는 기업이 자체 맞춤형 주석 작업을 수행할 필요성을 없애는 인프라 계층으로 자리매김합니다.
- 확장 가능한 네트워크는 기존에 전통적인 피드백 루프의 비용과 복잡성 때문에 어려움을 겪던 AI 팀들의 장벽을 낮춥니다.
- Jared Newman, Canaan Partners (lead investor):
“모든 진지한 AI 배포는 라이프사이클 어딘가에서 인간 판단에 의존합니다. 모델이 전문성 기반 작업에서 취향 기반 큐레이션으로 이동함에 따라, 확장 가능한 인간 피드백에 대한 수요가 급격히 증가할 것입니다.”
“인간 활용”의 미래
Corkill은 AI 모델이 인간 판단의 주요 고객이 되는 것을 **“human use”(인간 활용)**이라고 부르는 개념을 상상한다.
- 예시: 자동차 디자이너 AI가 프로그래밍 방식으로 Rapidata에 호출하여 프랑스 시장의 25,000명에게 특정 미학에 대한 의견을 물어보고, 그 피드백을 반복적으로 반영하여 몇 시간 안에 디자인을 다듬을 수 있다.
“사회는 끊임없이 변한다”고 Corkill은 말한다. “지금 사회를 시뮬레이션하면 몇 달 동안은 안정적이지만, 그 후에는 사회가 다르게 진화했기 때문에 완전히 변한다.”
Funding and Outlook
- $8.5 M의 새로운 자금은 플랫폼 확장에 사용될 것입니다.
- 목표: AI가 확장됨에 따라 인간 피드백을 병목 현상이 아닌 실시간 기능으로 만드는 것입니다.
Rapidata는 실리콘과 사회 사이의 중요한 연결 고리가 되어, 전 세계 인간 두뇌 용량을 활용할 수 있는 분산형 프로그래밍 방식을 제공하는 것을 목표로 합니다.