AutoAugment: 데이터에서 증강 정책 학습
개요 AutoAugment는 효과적인 이미지 증강 정책을 자동으로 발견하는 방법입니다. 많은 단순 변환을 체계적으로 테스트함으로써—예를 들어…
개요 AutoAugment는 효과적인 이미지 증강 정책을 자동으로 발견하는 방법입니다. 많은 단순 변환을 체계적으로 테스트함으로써—예를 들어…
고해상도 비디오 생성은 디지털 미디어와 영화에 필수적이지만, diffusion 모델의 이차 복잡성 때문에 계산적으로 병목 현상이 발생합니다, mak...
우리는 최신 비전-언어 모델(VLMs)에서 상당한 인기 편향을 드러내며, 이 모델들은 유명한 건물에 대해 최대 34% 더 높은 정확도를 달성한다 ...
우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...
Segment Anything Model 2 (SAM2)는 비전 파운데이션 모델로서 프롬프트 기반 비디오 객체 분할에서 크게 발전했지만, 실제 배포는 아직 어려운 상황입니다.
대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.
Data processing inequality은 정보 이론적 원칙으로, 신호의 정보 내용은 관측을 처리함으로써 증가시킬 수 없다고 명시한다.
그래픽 사용자 인터페이스(GUI) 에이전트는 모바일 기기에서 자주 실행되는 장시간 지연 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 그러나, ex...
표에서의 Structured data extraction은 스캔된 문서와 디지털 아카이브의 document image analysis에서 중요한 역할을 합니다. 많은 방법들이 …
현대 외과 시스템은 지능형 장면 이해에 점점 더 의존하여 향상된 수술 중 안전을 위한 시기적절한 상황 인식을 제공합니다. Within...
현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …
hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.
최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…
현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...
시뮬레이터는 사실상 무제한에 가까운 주행 데이터를 생성할 수 있지만, 시뮬레이션에서의 imitation learning 정책은 여전히 견고한 closed-loop performance를 달성하는 데 어려움을 겪는다.
대규모 비전-언어 모델(VLM)은 일반적으로 이미지 또는 비디오 프레임당 수백에서 수천 개의 visual tokens를 처리하며, 이로 인해 제곱 규모의 attention 비용이 발생하고 ...
Vision-language models (VLM)은 일반적인 이해에 뛰어나지만 동적 공간 추론(DSR), 즉 객체의 변화를 추론하는 데는 약합니다.
3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.
우리는 시각 및 언어 이해를 통합하여 레이아웃 스케치와 …로부터 실행 가능한 FlexScript를 합성하는 Vision-Language Simulation Model (VLSM)을 제안한다.