[Paper] VideoSeek: Long-Horizon 비디오 에이전트와 Tool-Guided 탐색
Video agentic models는 도전적인 video-language 작업을 발전시켰습니다. 그러나 대부분의 agentic 접근 방식은 여전히 densely sampled ...에 대한 greedy parsing에 크게 의존합니다.
Video agentic models는 도전적인 video-language 작업을 발전시켰습니다. 그러나 대부분의 agentic 접근 방식은 여전히 densely sampled ...에 대한 greedy parsing에 크게 의존합니다.
Token pruning은 특히 시간적 중복이 많은 비디오 기반 작업에서 비전‑언어 모델(VLMs)의 계산 효율성을 향상시키는 데 필수적입니다.
멀티모달 대형 언어 모델(MLLMs)은 강력한 visual-language reasoning을 보여주지만, 여전히 자체 native modalities에 제한되어 있어 직접적으로 처리할 수 없습니다.
멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결하는 데 인상적인 진전을 이루었지만, 여전히 공간 이해에 어려움을 겪고 있다...
본 연구에서는 정확한 레이아웃을 가진 이미지를 생성할 수 있는 layout-to-image generation 및 image grounding을 위한 통합 프레임워크인 EchoGen을 제시합니다…
우리는 텍스트 조건부 생성 모델을 위한 테스트 시에 연속적이고 제어 가능한 이미지 편집을 위한 training-free 프레임워크를 제시한다. 기존의 …
Tokenization은 다양한 모달리티의 생성 모델링에서 기본적인 기술입니다. 특히, 이는 autoregressive (AR) 모델에서 중요한 역할을 합니다,…
3D 환경에서 제어 가능한 6-DOF 객체 조작 궤적을 합성하는 것은 로봇이 복잡한 장면과 상호작용하도록 하는 데 필수적이며, 아직도...
Controlled video generation은 최근 몇 년간 급격한 향상을 보였습니다. 그러나 편집 작업과 동적 이벤트, 혹은 영향을 미쳐야 하는 콘텐츠 삽입은…
최근 멀티모달 대형 언어 모델(MLLMs)은 3D 씬 내에서 공간 추론에 높은 잠재력을 보여주었습니다. 그러나 이들은 일반적으로 계산적으로…
Radar는 전천후 특성과 거리 및 Doppler velocity를 측정할 수 있는 능력 때문에 자율주행 시스템에서 중요한 인식 모달리티입니다.
언어 모델을 비디오에 확장하면 두 가지 과제가 발생합니다: 기존 방법이 손실이 있는 근사에 의존하는 표현 문제와, 긴 컨텍스트에서 캡티…
최근 비디오 디퓨전 트랜스포머의 발전으로 사용자가 생성된 환경을 장시간 동안 탐험할 수 있는 인터랙티브 게임 월드 모델이 가능해졌습니다.
Monocular 3D scene reconstruction은 최근 크게 진전되었습니다. 현대적인 neural architectures와 large-scale data에 힘입어, 최근 방법들은 …
우리는 SegviGen을 소개한다. 이 프레임워크는 기존 3D 생성 모델을 3D 파트 세그멘테이션에 재활용한다. 기존 파이프라인은 강력한 2D 프라이어를 3D로 끌어올리거나…
비디오 초해상도(VSR)는 저해상도(LR) 추정으로부터 고품질 비디오 프레임을 복원하는 것을 목표로 하지만, 대부분의 기존 VSR 접근 방식은 블랙 박스처럼 동작한다…
파라메트릭 인간 몸 모델은 인간 재구성, 애니메이션 및 시뮬레이션의 기반이지만, 여전히 서로 호환되지 않는다: SMPL, SMPL‑X, MHR, Anny...
보정되지 않은 단일 카메라 비디오에서 스트리밍 재구성은 고정밀 자세 추정과 계산 효율성을 동시에 요구하기 때문에 여전히 어려운 과제입니다.
Vision transformers (ViTs) — 특히 DINOv2와 같은 feature foundation models —는 많은 다운스트림 작업에 유용한 풍부한 표현을 학습합니다. 그러나 architectu...
잘못된 라벨이라는 의미의 라벨 노이즈는 많은 실제 데이터 세트에 존재하며, 딥러닝 모델의 일반화 능력을 크게 제한하는 것으로 알려져 있습니다.
몰입형 확장 현실 (XR) 애플리케이션은 latency‑critical 워크로드를 도입하며, 엄격한 real‑time 응답성을 만족해야 하고, 에너지 …
Vision-Language-Action (VLA) 모델은 정적 조작에서는 뛰어나지만, 움직이는 목표가 있는 동적 환경에서는 어려움을 겪는다. 이 성능 격차는 주로 …
Vision-Language-Action (VLA) 모델은 최근 로봇 조작을 위한 유망한 패러다임으로 부상했으며, 신뢰할 수 있는 행동 예측이 결정적으로 의존한다.
시각 텍스트 렌더링을 위한 정확한 glyph를 생성하는 것은 필수적이지만 도전적인 작업입니다. 기존 방법들은 일반적으로 대량의 데이터를 사용해 학습함으로써 텍스트 렌더링을 향상시킵니다…
최근 비디오 디퓨전 모델은 시각적 품질에서 눈에 띄는 진전을 이루었지만, 정밀하고 세밀한 제어는 실용적인 c를 제한하는 주요 병목 현상으로 남아 있습니다.
우리는 HSImul3R을 제시한다. 이는 캐주얼 캡처, 특히 sparse-view 이미지를 포함한 인간‑장면 상호작용(HSI)의 simulation‑ready 3D reconstruction을 위한 통합 프레임워크이다.
SAM 3D Body (3DB)는 단일 카메라(monocular) 3D 인간 메시 복원에서 최첨단(state-of-the-art) 정확도를 달성하지만, 이미지당 몇 초의 추론 지연(inference latency) 때문에 실시간 적용이 불가능합니다.
만약 세계 시뮬레이션 모델이 상상된 환경이 아니라 실제로 존재하는 도시를 렌더링할 수 있다면 어떨까요? 이전의 생성적 세계 모델들은 시각적으로 plausible…
Four-dimensional scanning transmission electron microscopy (4D-STEM)은 재료 구조에 대한 풍부하고 원자 규모의 통찰을 제공합니다. 그러나, 구체적인…
한 여성이 2016년 7월 12일 워싱턴 DC 백악관 앞 라파예트 파크에서 포켓몬 고 게임을 하면서 휴대폰을 들어 보여준다.
개요 Iris는 실시간 공간 인식 에이전트로, 카메라를 통해 주변을 보고 당신과 대화합니다. 기기를 방, 거리, 작업 공간 등 어떤 대상에든 향하게 하세요—
초록: 인간 선수들은 다재다능하고 고도로 역동적인 테니스 기술을 보여주어 고속 테니스 공으로 경쟁적인 랠리를 성공적으로 수행한다. 그러나...
자동화된 분할은 화성의 산사태, 특히 Valles Marineris와 같은 구조활동이 활발한 지역에서, 행성 지질학 및 위험에 중요합니다.
이 기사에서는 'Pith Estimation on Rough Log End images using Local Fourier Spectrum Analysis' 방법의 파이썬 구현을 분석하고 제안합니다, b...
Low-field magnetic resonance imaging (MRI)는 자원이 제한된 환경에서 의료 영상에 비용 효율적인 대안을 제공합니다. 그러나 그 광범위한 채택은…
Low-field magnetic resonance imaging (MRI)은 진단 영상에 대한 저렴한 접근성을 제공하지만, 긴 획득 시간과 감소된 i...
Vision language models (VLMs)는 이미지에 대한 추론 능력이 점점 향상되고 있지만, 견고한 시각적 추론은 종종 중간 단계들을 t...에서 재정립(re‑grounding)하는 것을 필요로 한다.
이미지 초해상도(SR)는 높은 지각 품질과 낮은 왜곡을 동시에 갖춘 고해상도 이미지를 복원하는 것을 목표로 하지만, 근본적으로 …에 의해 제한됩니다.
최근 텍스트 조건부 인간 동작 생성 분야의 진전은 대규모 인간 동작 데이터를 학습한 diffusion models에 크게 의존해 왔습니다. 이를 기반으로 ...
Machine learning 접근법은 spatiotemporal 물리 시스템에 주로 next-frame prediction에 초점을 맞추어, 정확한 emulator f를 학습하는 것을 목표로 해왔습니다.
Vision-to-code 작업은 모델이 차트, 테이블, SVG와 같은 구조화된 시각 입력을 실행 가능한 또는 구조화된 표현으로 재구성하도록 요구합니다.
세계에서 물이 쏟아지거나 얼음이 녹는 것과 같은 변화는 관찰 여부와 관계없이 일어납니다. Video world models는 2D 프레임 관찰을 통해 ‘worlds’를 생성합니다.
Spatio-temporal scene graphs는 진화하는 객체 상호작용을 모델링하기 위한 원칙적인 표현을 제공하지만, 기존 방법들은 근본적으로 프레임 중심…
뇌종양 분류는 자기공명영상(MRI)으로부터 이루어지며, 이는 컴퓨터 지원 진단 시스템에서 중요한 역할을 합니다. 최근…
현대 인간-로봇 협업(HRC) 애플리케이션에서는, 여러 perception modules가 시각, 청각 및 맥락 단서를 공동으로 추출하여 이해를 달성한다...
Concept Bottleneck Models (CBMs)은 예측을 인간이 해석할 수 있는 개념 층을 통해 전달하는 해석 가능한 모델이다. 시각 분야에서 널리 연구되어 왔지만…
Diffusion 기반 이미지 압축은 최근 뛰어난 지각적 충실도를 보여주었지만, 그 실용성은 금지적인 샘플링 오버헤드와 높은…
Face de-identification (FDeID)은 얼굴 이미지에서 개인 식별 정보를 제거하면서 작업에 관련된 유용성 속성(예: ...)을 보존하는 것을 목표로 합니다.