[Paper] E-RayZer: 셀프슈퍼바이즈드 3D 재구성을 Spatial Visual Pre-training으로
Self-supervised pre-training은 언어, 개별 2D 이미지 및 비디오에 대한 foundation models에 혁신을 가져왔지만, 3D 학습에 대해서는 아직 크게 탐구되지 않았다...
Self-supervised pre-training은 언어, 개별 2D 이미지 및 비디오에 대한 foundation models에 혁신을 가져왔지만, 3D 학습에 대해서는 아직 크게 탐구되지 않았다...
강화 학습(RL)은 대규모 언어 모델 및 멀티모달 모델에서 효과가 입증된 바 있으며, 2D 이미지 생성 향상을 위해 성공적으로 확장되었습니다.
All-in-One Image Restoration (AiOIR)은 다양한 손상으로부터 고품질 이미지를 복구하는 것을 통합된 프레임워크 내에서 목표로 합니다. 그러나 기존 방법들은 종종 f...
대규모 diffusion 모델을 활용한 subject‑driven 비디오 생성의 최근 발전으로, 사용자 제공 주제에 조건화된 개인화된 콘텐츠 합성이 가능해졌습니다.
추론은 언어를 넘어선다; 현실 세계에서는 공간, 시간, 어포던스 등 단어만으로는 전달할 수 없는 많은 것들에 대한 추론이 필요하다. 기존의 멀티모…
카메라 제어를 diffusion 모델에 주입하는 기존 접근 방식은 4D 일관성 작업의 특정 하위 집합에 초점을 맞추었습니다: novel view synthesis, text-to-video …
정규화 레이어는 오랫동안 딥러닝 아키텍처의 필수 구성 요소로 여겨져 왔지만, 최근 도입된 Dynamic Tanh (DyT) ha...
우리는 Any4D를 소개한다. Any4D는 메트릭 스케일의 밀집 피드포워드 4D 재구성을 위한 확장 가능한 멀티뷰 트랜스포머이다. Any4D는 픽셀당 모션과 지오메트리를 직접 생성한다.
Spoor의 computer vision software는 풍력 발전소와 기타 산업이 새 개체수와 이동 패턴을 추적하는 데 도움을 줄 수 있습니다....
최근 Gaussian Splatting 기반 역렌더링의 발전은 Gaussian 프리미티브에 쉐이딩 파라미터와 물리적으로 기반한 라이트 트랜스포트(light transport)를 확장하여…
Video unified models는 이해와 생성에서 강력한 능력을 보여주지만, 추론 기반 시각 편집에는 장비가 갖추어져 있더라도 어려움을 겪는다.
Radiance field 표현은 최근 diffusion 모델에서 일반적으로 사용되는 VAE의 latent space에서 탐구되었습니다. 이 접근은 효율성을 제공합니다.
human-robot coexistence를 향해, socially aware navigation은 mobile robots에게 중요합니다. 그러나 이 분야에 대한 기존 연구들은 주로 path efficiency에 초점을 맞추고 있습니다.
우리는 노르웨이의 지리공간 AI를 위한 세밀한 벤치마크 데이터셋인 NordFKB를 제시한다. 이 데이터셋은 권위 있고 매우 정확한 국가 Felles KartdataBase에서 파생되었다.
Vision-Language Models (VLMs)는 시각 환경을 인식하고 설명하는 데 있어 인상적인 진전을 이루었습니다. 그러나 그들의 능력은 능동적으로 추론하는 데…
Visual navigation은 상세한 매핑과 path planning에 의존하는 전통적인 robotic navigation pipelines에 대한 실용적인 대안으로 부상했습니다. 그러나 c...
무인 항공기(UAV)와 무인 지상 차량(UGV)의 통합은 지능형 자율 시스템 개발에 점점 더 중심적인 역할을 하고 있습니다.
PDF에서 수학 공식들을 정확하게 파싱하는 것은 large language models를 훈련하고 academic literature로부터 scientific knowledge bases를 구축하는 데 필수적입니다.
Linear spectral mixture models (LMM)은 구성 물질(endmembers)과 그에 해당하는 비율(abundance)을 분리하는 간결한 형태를 제공합니다.
사전 학습된 멀티모달 대형 언어 모델(MLLMs)은 임상 추론, 진단 지원 및 보고서 생성 등을 위해 의료 AI 시스템에 점점 더 많이 배치되고 있습니다.
안녕, 동료 Gophers 여러분! Go에서 컴퓨터 비전을 다뤄본 적이 있다면, GoCV가 OpenCV의 강력함에 접근하기에 환상적이라는 걸 알 겁니다. 하지만 현실은? Boilerplate …
시간 인식은 특히 긴 동영상을 이해하고 복잡한 질문에 답하는 데 있어 omni 대형 언어 모델의 기본적인 능력입니다. 이전 접근 방식은...
죄송합니다. 해당 기사나 요약 본문을 제공해 주시면 번역해 드리겠습니다.
우리는 SynthPix, Particle Image Velocimetry (PIV)를 위한 합성 이미지 생성기를 소개한다. 이 시스템은 성능과 가속기에서의 병렬성에 중점을 두고 구현되었다.