Visual imitation learning: Guidde가 문서 대신 인간 ‘전문가 비디오’로 AI 에이전트를 훈련
정리된 Markdown 버전
정리된 Markdown 버전
Test-time training (TTT)와 KV binding을 시퀀스 모델링 레이어로 사용하는 것은 일반적으로 키-값 매핑을 기억하는 온라인 메타러닝의 한 형태로 해석됩니다.
시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…
우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.
Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …
Cryo-electron tomography (cryo-ET)는 막과 membrane proteins를 포함한 생물학적 구조의 고해상도 three-dimensional reconstruction을 가능하게 한다.
Vision-Language Models (VLMs)는 뛰어난 2D 시각 이해를 보여주지만, 3D 공간을 이해하고 추론하는 능력—공간 인식의 핵심—은 아직 제한적이다.
그래프 기반 의료 영상 분할은 경계 그래프를 사용하여 해부학적 구조를 나타내며, 고정 토폴로지 랜드마크와 고유한 인구 수준…
Deep learning은 자동 뇌종양 진단을 크게 향상시켰지만, 임상 적용은 interpretability와 computational constraint 때문에 여전히 제한적이다.
텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.
Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…
의료 영상 처리는 고차원 부피 데이터, 이질적인 파일 형식, 그리고 도메인 특화 훈련을 처리할 수 있는 특수 소프트웨어를 요구합니다.