Rapidata 推出,将 AI 模型开发周期从数月缩短至数天,实现近实时 RLHF
Source: VentureBeat
Introduction
尽管关于未来大量人类工作将被 AI 自动化的讨论日益增多,但当前这波科技热潮的讽刺之处在于,它仍然顽固地依赖于人类——尤其是通过人类反馈强化学习(RLHF)来训练 AI 模型的过程。
最简单的说,RLHF 就是一个辅导系统:在 AI 已经在精选数据上完成初步训练后,它仍会出现错误或显得机械化。于是 AI 实验室会大规模雇佣人类承包商,对新模型的输出进行评分和排序,模型则根据这些评分进行学习,调整行为以产生更高评分的输出。随着 AI 扩展到生成多媒体输出(视频、音频、图像),这些输出的质量衡量更加细致且主观,这一过程显得尤为重要。
从历史上看,这种辅导过程一直是 AI 公司巨大的后勤难题和公关噩梦,依赖于分散的海外承包商网络以及集中在特定低收入地区的静态标注池——媒体常将其描绘为低工资,甚至是剥削性的。它同样效率低下:AI 实验室必须等待数周甚至数月才能得到一批反馈,导致模型进展被延迟。
Rapidata的“游戏化”RLHF平台
一家新创公司 Rapidata 正在让这一过程更加高效。其平台通过将审查任务推送给近 2000 万 流行应用(如 Duolingo、Candy Crush)的用户,实质上 游戏化 了 RLHF。用户可以 选择短小的审查任务而不是观看移动广告,并即时将数据发送回委托的 AI 实验室。
“该平台使 AI 实验室能够 在近实时中迭代模型,相较于传统方法显著缩短开发周期。” – VentureBeat 新闻稿
首席执行官兼创始人 Jason Corkill 补充道:
“Rapidata 让 全球范围内的人工判断以近实时的方式可用,开启了一个未来,使 AI 团队能够持续运行反馈循环,并构建每天都在演进而不是每个发布周期才演进的系统。”
Rapidata 将 RLHF 视为高速基础设施,而非手工劳动问题。公司宣布了一轮 850 万美元的种子轮融资(由 Canaan Partners 和 IA Ventures 共同领投,Acequia Capital 和 BlueYard 参与),以扩大其按需人类数据的做法。
构建人类云的酒吧对话
Rapidata 的起源并不是在会议室,而是一张几杯啤酒旁的桌子。当时,Corkill 还是 ETH Zurich 的学生,专注于机器人技术和计算机视觉,他遇到了每位 AI 工程师最终都会面对的难题:数据标注瓶颈。
“我已经在机器人、AI 和计算机视觉领域工作了好几年,曾在 ETH Zurich 学习,一直对数据标注感到沮丧,”Corkill 回忆道。“每当需要大量人工标注时,项目就会停滞——你可以熬更长的夜,但仍需等待数周才能完成标注工作。”
对这种延迟感到不满,Corkill 和他的联合创始人意识到,现有的 AI 劳动力模型对于以现代计算速度前进的世界来说根本已经失效。计算能力呈指数增长,而传统的人力资源——受限于手动入职、地区招聘以及缓慢的付款周期——却无法跟上。Rapidata 的诞生源于这样一个想法:人类判断可以作为一种全球分布、近乎即时的服务来提供。
技术:将数字足迹转化为训练数据
核心创新在于 分布式,而不是在特定地区雇佣全职标注员。Rapidata 利用移动应用世界已经存在的注意力经济:
- 与第三方应用的 合作伙伴关系(例如 Candy Crush、Duolingo)。
- 为用户提供选择:观看传统广告 或 用几秒钟时间为 AI 模型提供反馈。
- “嘿,你宁愿标注一些数据而不是观看广告,让公司购买你的眼球吗?”Corkill 解释道。
据 Corkill 称,50‑60 % 的用户会选择反馈任务而非传统视频广告。这种 “众智” 方法让 AI 团队能够以前所未有的规模触达多元化的全球人群。
关键指标
- 全球覆盖范围: 1500 – 2000 万人。
- 大规模并行: 单小时处理 150 万次人工标注。
- 速度: 以前需要数周或数月的反馈周期现在缩短到数小时——甚至数分钟。
- 质量控制: 随着时间的推移为受访者建立信任和专业度画像,确保将复杂问题匹配给最合适的评审者。
- 匿名性: 通过匿名 ID 跟踪用户,以确保一致性和可靠性;个人身份信息从不被收集,在优化数据质量的同时保护隐私。
Source:
在线 RLHF:迈向 GPU
Rapidata 所实现的最重要的技术飞跃是 Corkill 所称的 “在线 RLHF”。传统上,AI 以离散批次进行训练:
- 训练模型。
- 停止。
- 将数据发送给人工。
- 等待数周以获取标签。
- 继续训练。
这会形成一个常常缺乏新鲜人工输入的“信息循环”。Rapidata 将判断 直接嵌入训练循环。由于其网络速度极快,它可以通过 API 直接与运行模型的 GPU 进行集成。
“我们一直都有从人类反馈中进行强化学习的想法……但你总是必须分批进行,”Corkill 说。“现在,因为我们非常快,我们有几个客户的反馈几乎是实时馈送到模型中,实际上把 RLHF 变成了一项在线服务。”
要点
Rapidata的平台重新构想了RLHF,将其视为高速、全球分布式服务,把过去繁琐的人类反馈循环转变为近实时的基础设施层。通过利用数十亿移动应用用户的注意力经济,它有望加速 AI 开发、提升数据质量,并在规模上实现对人类判断的民主化获取。
Rapidata:用于 AI 训练的实时人工反馈
创始人语录:
“GPU 可以计算输出并立即以分布式方式请求人工介入:‘我需要有人来查看这个。’我们得到答案后,将其作为损失应用——这是以前做不到的。”
平台规模
- 每分钟 5,500 + 人 提供实时反馈。
- 反馈被应用于运行在 数千块 GPU 上的模型。
- 这可以防止 奖励模型攻击——即两个 AI 模型相互欺骗——通过让训练基于真实的人类细微差别。
产品:解决口味与全球背景
随着 AI 从简单的对象识别迈向生成式媒体,数据标注需求也从 客观标签 转向 主观的“品味”策展。
- 不再只是“这是一只猫吗?”而是“这段语音合成是否逼真?”
- 或者“这两个摘要中哪一个更专业?”
Lily Clifford,语音 AI 初创公司 Rime 的 CEO,在 Rapidata 上表示:
“以前,收集有意义的反馈意味着要把供应商和调查拼凑在一起,逐段、逐国进行,这根本无法规模化。使用 Rapidata,我们可以触达合适的受众——无论是在瑞典、塞尔维亚还是美国——并在几天而不是几个月内看到模型在真实客户工作流中的表现。”
Corkill(Rapidata 联合创始人)补充道:
“大多数模型在事实层面是正确的,但你收到的邮件总觉得……不够真实,对吧?你可以闻到一封 AI 邮件、一张 AI 图像或一个 AI 视频——它们立刻就能辨别出来。这些模型仍然缺乏人类感,你需要人类反馈来修正它们。”
经济与运营转变
Rapidata 将自己定位为一个 基础设施层,消除了公司自行运行定制标注操作的需求。
- 可扩展网络 降低了先前在成本和传统反馈回路复杂性方面苦苦挣扎的 AI 团队的门槛。
- Jared Newman,Canaan Partners(领投方):
“每一次严肃的 AI 部署在生命周期的某个环节都依赖于人的判断。随着模型从基于专业知识的任务转向基于品味的策划,对可扩展的人类反馈的需求将显著增长。”
“人类使用”的未来
Corkill 设想 AI 模型将成为人类判断的主要客户——他称之为 “human use”(人类使用)。
- 示例:一款汽车设计 AI 可以以编程方式调用 Rapidata,询问 法国市场的 25,000 人 对某一特定美学的看法,依据反馈进行迭代,并在 数小时内 完成设计的细化。
“社会始终在不断变化,” Corkill 指出。“如果你现在模拟一个社会,模拟在几个月内是稳定的,但随后会完全改变,因为社会已经以不同的方式演进了。”
资金与前景
- $8.5 M 的新资金将用于扩展平台。
- 目标:让人工反馈成为 实时特性,而不是随着 AI 规模化的瓶颈。
Rapidata 旨在成为 硅与社会 之间的重要连接,以分布式、可编程的方式利用全球人类大脑的容量。