[Paper] 빠르고 느린 것을 관찰하기: 비디오에서 시간 흐름 학습
비디오가 빨라졌는지 느려졌는지 어떻게 알 수 있을까? 어떻게 하면 다양한 속도의 비디오를 생성할 수 있을까? 비디오는 현대 커뮤니케이션의 중심에 있었지만…
비디오가 빨라졌는지 느려졌는지 어떻게 알 수 있을까? 어떻게 하면 다양한 속도의 비디오를 생성할 수 있을까? 비디오는 현대 커뮤니케이션의 중심에 있었지만…
인간 활동과 그 주변 환경을 이해하는 데는 일반적으로 visual perception에 의존하지만, 카메라는 프라이버시와 안전 측면에서 지속적인 문제를 제기한다.
우리는 Vista4D를 소개한다. 이는 입력 비디오와 목표 카메라를 4D 포인트 클라우드에 기반을 두는 견고하고 유연한 video reshooting 프레임워크이다. 구체적으로, 주어진…
대규모 비전-언어 모델(LVLMs)의 능력이 인상적으로 향상되었음에도 불구하고, 이러한 시스템은 여전히 hallucinations에 취약합니다, 즉 ...
최근 몇 년간 이미지 생성과 생성된 이미지 탐지 모두에서 상당한 진전이 이루어졌습니다. 그들의 빠른, 그러나 대체로 독립적인 개발에도 불구하고…
Self-supervised learning (SSL)은 항공 이미지에서 표현 학습을 위한 표준 접근 방식입니다. 기존 방법들은 증강된 뷰 간의 불변성을 강제합니다.
제가 해당 기사를 변환할 수 없습니다. 제공된 내용이 추출 가능한 텍스트가 아니라 binary PDF stream이기 때문입니다. 예시를 위해 기사 텍스트를 제공해 주세요.
최근 video generative models의 발전으로 다양한 시나리오와 객체 범주에 걸쳐 현실적인 인간‑객체 상호작용 비디오를 합성할 수 있게 되었습니다.
Federated learning (FL)은 원시 데이터를 공유하지 않고 협업 모델 학습을 가능하게 합니다; 그러나 분산된 클라이언트들 사이에 존재하는 noisy labels는 ...
오프쇼어 풍력 에너지 부문은 빠르게 확장하고 있어, 인프라 구축 및 ...에 대한 독립적이고 고시간 해상도 모니터링의 필요성이 증가하고 있습니다.
강화 학습(RL) 사후 훈련은 인간 선호와 생성 모델을 정렬하는 표준이 되었지만, 대부분의 방법은 단일 스칼라에 의존합니다.
대형 비전-언어 모델(LVLMs)은 올림피아드 수준의 추론 작업에서 상당한 진전을 이루었습니다. 그럼에도 불구하고 현재 올림피아드 수준의 멀티모달...
RGB 이미지에서 3D Human-Object Interaction을 재구성하는 것은 인지 시스템에 필수적입니다. 그러나 이는 하위…
우리는 LLaDA2.0-Uni를 소개한다. 이는 통합된 이산 확산 대형 언어 모델(dLLM)로, 원시적으로 통합된 멀티모달 이해와 생성을 지원한다. LLaDA2.0-Uni는 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 동시에 처리할 수 있는 단일 모델 아키텍처를 제공한다. 이 모델은 이산 확산 과정과 대규모 언어 모델링을 결합하여, 복잡한 멀티모달 입력에 대한 깊이 있는 이해와 고품질의 생성 출력을 동시에 달성한다. 또한, LLaDA2.0-Uni는 기존의 멀티모달 파이프라인에서 발생하는 모달 간 불일치 문제를 최소화하고, 다양한 작업에서 일관된 성능 향상을 보여준다. 실험 결과, 이 모델은 텍스트-이미지 매칭, 비디오 캡션 생성, 오디오-텍스트 변환 등 여러 벤치마크에서 최첨단 성능을 기록했으며, 멀티모달 AI 시스템 구축에 있어 새로운 표준을 제시한다.
희소한 다중 뷰 비디오에서 동적 3D 장면을 재구성하는 것은 매우 ill-posed하며, 종종 geometric collapse, trajectory drift, 그리고 floating artifact를 초래한다.
Space-time self-similarity (STSS)는 프레임 간 시각적 대응을 포착하여 비디오의 시간적 동역학을 효과적으로 표현하는 방법을 제공합니다.
이미지 생성 및 편집의 최근 발전은 virtual try-on에 새로운 기회를 열어주었습니다. 그러나 기존 방법들은 여전히 복잡한 실제 ...
현대 신경망을 훈련할 때는 종종 큰 learning rates에 의존하며, 안정성의 경계에서 작동합니다. 이때 optimization dynamics는 진동성을 나타냅니다.
조건부 의료 영상 생성은 많은 임상적으로 중요한 영상 작업에서 중요한 역할을 합니다. 그러나 기존 방법들은 여전히 근본적인 도전에 직면하고 있습니다...
우리는 VLA Foundry를 소개합니다. 이는 LLM, VLM, VLA 훈련을 단일 코드베이스에서 통합하는 오픈소스 프레임워크입니다. 대부분의 오픈소스 VLA 프로젝트는 ac…
Human video generation은 제한된 multi‑view data 하에서 human appearance, motion, 그리고 camera viewpoint를 공동으로 모델링하는 것이 어려워 여전히 도전 과제입니다.
Vision-Language-Action (VLA) 모델은 세계 지식과 추론 능력을 활용하는 유망한 자율 주행 패러다임을 제공하며, 특히 장기 …
이미지 시퀀스로부터 동적인 인간 얼굴을 정확하게 재구성하고 추적하는 것은 non-rigid deformations, expression changes, 그리고 viewpoin… 때문에 도전적이다.
포토리얼리스틱하고 애니메이션이 가능한 전체 몸 디지털 휴먼을 구축하는 것은 컴퓨터 그래픽스와 비전 분야에서 오랫동안 지속된 도전 과제입니다. 최근 애니메이션이 가능한 아바타에 대한 진전이...
Story Visualization은 텍스트 내러티브를 충실히 묘사하는 이미지 시퀀스를 생성하는 것을 목표로 하며, 캐릭터 정체성, 공간 구성, …
최근의 진전에도 불구하고, vision-language encoders는 두 가지 핵심 제한점으로 어려움을 겪고 있다: (1) 언어와 dense vision features 사이의 약한 정렬, 이는 ...
비디오 월드 모델은 사용자나 에이전트의 행동에 대한 환경 역학을 시뮬레이션하는 데 놀라운 성공을 거두었습니다. 이들은 action‑c...
Controllable cooperative humanoid manipulation은 데이터 부족이 심하고 복잡성 때문에 구현된 지능에 있어 근본적이면서도 도전적인 문제이다, ...
주제 기반 텍스트‑이미지 합성의 급속한 발전, 특히 DreamBooth는 동의 없이 딥페이크 파이프라인을 가능하게 했습니다: 공격자는 단지…
Uniform Discrete Diffusion Model (UDM)은 최근 discrete generative modeling을 위한 유망한 패러다임으로 부상했지만, reinforcement …
강인한 Multimodal Large Language Model (MLLM) for Earth Observation은 현실적인 입력 변동에서도 일관된 해석과 추론을 유지해야 합니다. ...
Personalized image aesthetics assessment (PIAA)는 이미지에 대한 개별 사용자의 주관적 평점을 예측하는 것을 목표로 하며, 이를 위해 사용자별 미학을 모델링해야 합니다.
회수되지 않은 전자폐기물은 상당한 경제적 손실을 의미합니다. 하드 디스크 드라이브(HDD)는 로봇 분해가 필요한 귀중한 전자폐기물 흐름을 구성합니다. Automa...
유방암 진단은 빠르고 정확한 도구가 필요하지만, 기존의 조직병리학적 방법은 수술 중 상황에서 종종 한계가 있습니다. Deep Ultraviolet...
Vision-Language Models (VLMs)는 강력한 교차 모달 성능을 달성하지만, 최근 증거에 따르면 텍스트 설명에 과도하게 의존하고 ...
우리는 LaviGen을 소개한다. 이 프레임워크는 3D 생성 모델을 재활용하여 3D 레이아웃 생성을 수행한다. 텍스트로부터 객체 레이아웃을 추론하는 기존 방법과 달리 …
UAV 비전-언어 내비게이션(VLN)은 에이전트가 자기 중심적인 관점에서 복잡한 3D 환경을 탐색하면서 모호한 다단계 지시를 따르는 것을 요구한다.
대기 안개는 야생동물 이미지의 품질을 크게 저하시켜, animal detection, tracking 등 보존에 필수적인 computer vision 응용 프로그램을 방해합니다.
AI 지원 비디오 제작이 점점 실용화됨에 따라, 명령 기반 비디오 편집은 생성되거나 촬영된 영상의 정교화를 위해 필수적이 되었습니다…
수중 이미지는 빛의 흡수와 산란으로 인해 색 왜곡, 저대비, 흐릿한 디테일 등 심각한 퇴화를 겪는 경우가 많습니다.
Vision Language models (VLMs)은 다양한 벤치마크에서 강력한 성능을 보여왔지만, 종종 모달리티 우위(modality dominance) 현상을 겪으며, 여기서 …
시각‑언어 모델(VLMs)에서의 추론은 최근 다양한 다운스트림 작업에 걸친 폭넓은 적용 가능성 때문에 큰 주목을 받고 있습니다. 그러나,…
Image geolocalization은 전통적으로 retrieval‑based place recognition 또는 geometry‑based visual localization pipelines를 통해 해결되어 왔습니다. Recent advance…
Reinforcement learning은 large multi-modal models에서 video reasoning을 발전시켰지만, 지배적인 파이프라인은 대부분 on-policy self-exploration에 의존하여 성능이 plateau…
Time-to-Collision (TTC) 예측은 충돌 방지에 있어 중요한 과제로, 정확한 시간 예측과 지역 및 전역적인 ...
전통적인 frame-based 카메라는 풍부한 컨텍스트 정보를 캡처하지만, dynamic scenes에서 제한된 temporal resolution과 motion blur가 발생합니다. Event camera...
이 논문은 flow matching models를 인간 선호와 정렬하는 데 초점을 맞춘다. 유망한 방법은 reward gradients를 직접 backpropagating하여 fine‑tuning하는 것이다 ...
이 논문은 사진에서 여러 illumination attributes를 정밀하고 연속적으로 제어할 수 있는 image relighting 방법을 제시한다. 우리는 ...