[Paper] VLA Foundry: Vision-Language-Action 모델 학습을 위한 통합 프레임워크

발행: 19시간 전 (2026년 4월 22일 AM 02:51 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.19728v1

개요

이 논문은 VLA Foundry라는 오픈‑소스 툴킷을 소개합니다. 이 툴킷은 언어 모델(LLM), 비전 모델(VLM), 그리고 비전‑언어‑액션 모델(VLA)을 하나의 학습 파이프라인 안에서 통합합니다. 사전 학습과 액션‑파인‑튜닝을 보통 분리하는 “접착‑코드” 문제를 없애면서, 연구자와 엔지니어가 처음부터—또는 인기 있는 사전 학습 백본을 연결해—엔드‑투‑엔드 구현 에이전트를 구축할 수 있게 해 주며, 전체 스택을 재현 가능하고 확장 가능하게 유지합니다.

주요 기여

통합 훈련 스택은 하나의 코드베이스에서 LLM 사전 학습, VLM 사전 학습 및 VLA 파인튜닝을 처리합니다.
스크래치와 사전 학습된 백본 모두 지원 (예: Qwen3‑VL) 을 간단한 Hugging Face 인터페이스를 통해 제공합니다.
두 가지 공개 모델 패밀리:
1. 완전 스크래치 LLM → VLM → VLA 파이프라인으로, 저자들의 이전 클로즈드소스 결과와 일치합니다.
2. 멀티태스크 테이블탑 조작에서 큰 향상을 달성하는 Qwen3‑VL 기반 VLA.
오픈소스 평가 스위트 (LBM Eval)와 향상된 시뮬레이터/STEP 분석 도구를 제공하여 손쉬운 벤치마킹을 지원합니다.
코드, 모델 가중치 및 데모 비디오 공개를 통해 커뮤니티의 진입 장벽을 낮춥니다.

Methodology

VLA Foundry는 구현된 AI의 세 단계를 모듈형 컴포넌트로 취급합니다:

Language Pre‑training (LLM) – 표준 인과(causal) 또는 인코더‑디코더 트랜스포머를 대규모 텍스트 코퍼스에 대해 학습하며, 필요에 따라 Hugging Face의 기존 체크포인트를 사용할 수 있습니다.
Vision‑Language Pre‑training (VLM) – 멀티모달 인코더가 이미지 패치를 토큰 임베딩과 정렬하도록 하며, 대비(constrastive) 혹은 이미지‑텍스트 매칭 목표를 활용합니다.
Vision‑Language‑Action Fine‑tuning (VLA) – 결합된 LLM‑VLM 모델에 정책 헤드를 추가해 저수준 로봇 행동(예: 엔드‑이펙터 포즈)을 예측합니다. 학습은 LBM Eval 시뮬레이터에서 생성된 강화학습형 트래젝터리를 사용하고, 행동 클로닝 및 RL‑style 손실 항을 적용합니다.

세 단계 모두 공통 데이터 로더, 토크나이저, 체크포인트 처리 로직을 공유하므로, 컴포넌트를 교체할 때(예: 사전 학습된 Qwen3‑VL 인코더를 커스텀 인코더로 교체) 설정 파일 몇 가지만 수정하면 됩니다. 파이프라인은 Hydra/YAML 설정을 통해 오케스트레이션되며, 코드베이스는 PyTorch + Accelerate를 기반으로 다중 GPU 확장을 지원합니다.

결과 및 발견

모델	학습 방식	LBM 평가 성공률 (작업별 평균)
스크래치부터 LLM → VLM → VLA	제로부터 엔드‑투‑엔드	≈ 78 % (저자들의 이전 폐쇄형 시스템과 동등)
Qwen3‑VL 백본 기반 VLA	사전학습된 비전‑언어 인코더 + 정책 파인‑튜닝	≈ 92 % (베이스라인 대비 큰 차이)

스크래치 파이프라인은 완전 오픈 스택이 독점적인 구성 요소 없이도 경쟁력 있는 성능에 도달할 수 있음을 보여줍니다.
강력한 사전학습 비전‑언어 백본(Qwen3‑VL)을 활용하면 다중 작업 테이블탑 조작에서 큰 향상을 얻을 수 있으며, 이는 구현된 정책에 대한 전이 학습의 가치를 확인시켜줍니다.
정성적 비디오는 모델이 비교적 제한된 시뮬레이션 데이터셋으로 학습되었음에도 불구하고 부드러운 폐쇄‑루프 상호작용(예: 물체 집기, 블록 쌓기)을 보여줍니다.

Practical Implications

Rapid prototyping: 개발자는 Hugging Face에서 사전 학습된 LLM/VLM을 선택하고, 몇 가지 설정 플래그를 조정한 뒤 파인‑튜닝 작업을 실행함으로써 새로운 VLA 에이전트를 빠르게 만들 수 있습니다—별도의 저장소를 연결할 필요가 없습니다.
Lower compute barrier: 처음부터 시작하는 파이프라인은 일반적인 다중 GPU 시스템에서 실행되며, 연구실과 스타트업이 대규모 TPU 클러스터 없이도 실험할 수 있게 합니다.
Standardized benchmarking: LBM Eval와 STEP 분석 도구를 함께 제공함으로써 팀은 정책을 객관적으로 비교할 수 있으며, 재현 가능한 연구와 구현형 AI 제품에 대한 CI 테스트를 용이하게 합니다.
Transfer to real robots: 모듈형 정책 헤드를 로봇 전용 컨트롤러(예: ROS2 액션 서버)로 교체할 수 있어 시뮬레이션에서 실제 하드웨어 배포로의 직관적인 경로를 제공합니다.
Community growth: 공개된 가중치와 잘 문서화된 코드베이스는 기여를 장려합니다—새로운 작업, 데이터 증강, 혹은 맞춤형 시뮬레이터를 최소한의 마찰로 추가할 수 있습니다.

제한 사항 및 향후 작업

시뮬레이션 전용 평가: 모든 실험은 LBM Eval 시뮬레이터에 국한되며, 실제 환경으로의 전이는 아직 테스트되지 않았습니다.
작업 범위: 벤치마크는 테이블 위 조작에 초점을 맞추고 있으며, 내비게이션, 장기 계획, 다중 에이전트 시나리오로 확장하면 확장성 문제에 직면할 수 있습니다.
대형 백본에 대한 연산 비용: 프레임워크가 처음부터 학습을 지원하지만, Qwen3‑VL과 같은 대규모 모델을 미세 조정하려면 여전히 고성능 GPU와 세심한 메모리 관리가 필요합니다.
미래 방향: 저자들이 제안한 바에 따르면, 실제 로봇 데이터 파이프라인 통합, 점진적으로 어려워지는 작업을 위한 커리큘럼 학습 추가, 그리고 멀티모달 피드백(예: 촉각 또는 오디오)을 지원하도록 프레임워크를 확장하는 것이 포함됩니다.

저자

Jean Mercat
Sedrick Keh
Kushal Arora
Isabella Huang
Paarth Shah
Haruki Nishimura
Shun Iwase
Katherine Liu

논문 정보

arXiv ID: 2604.19728v1
분류: cs.RO, cs.AI, cs.CV, cs.LG, cs.SE
출판일: 2026년 4월 21일
PDF: PDF 다운로드

[Paper] VLA Foundry: Vision-Language-Action 모델 학습을 위한 통합 프레임워크

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 안정성의 경계에서의 일반화

[Paper] UDM-GRPO: Uniform Discrete Diffusion Models를 위한 안정적이고 효율적인 Group Relative Policy Optimization

[Paper] 프로필 인식 멀티모달 LLM을 통한 Zero-shot 개인화 이미지 미학 평가 향상

[Paper] 딥 자외선 이미징에서 Whole-Slide 유방암 분류를 위한 Region-Affinity Attention