computer-vision — Page 39

1개월 전 · ai

[Paper] MV-TAP: 멀티뷰 비디오에서 모든 포인트 추적

Multi-view camera systems는 복잡한 real-world 장면에 대한 풍부한 관측을 가능하게 하며, 멀티뷰 환경에서 dynamic objects를 이해하는 것이 중심이 되었다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 오디오를 통한 시각 어포던스 학습

우리는 Audio-Visual Affordance Grounding (AV-AG)이라는 새로운 작업을 소개한다. 이 작업은 행동 소리에서 객체 상호작용 영역을 분할한다. 기존 접근 방식과 달리 ...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] RoaD: Rollouts를 Demonstrations로 활용한 Closed-Loop Supervised Fine-Tuning을 통한 Autonomous Driving Policies

자율 주행 정책은 일반적으로 인간 시연을 통한 open-loop behavior cloning으로 학습됩니다. 그러나 이러한 정책은 covariate shift 때문에 ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Chain-of-Ground: 반복적 추론 및 레퍼런스 피드백을 통한 GUI 그라운딩 개선

GUI grounding은 자연어 명령을 복잡한 사용자 인터페이스의 정확한 영역과 맞추는 것을 목표로 합니다. 고급 멀티모달 대형 언어 모델은 강력한…

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai

[Paper] Direct Encoding 재검토: 정적 이미지용 학습 가능한 Temporal Dynamics for Spiking Neural Networks

내재된 시간적 역학이 없는 정적 이미지를 처리하는 것은 스파이킹 뉴럴 네트워크(SNNs)에 대한 근본적인 과제로 남아 있습니다. 직접 훈련된 SNN에서는 정적...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Video‑R2: 일관적이고 근거 있는 추론 강화 in Multimodal Language Models

동적 시각 콘텐츠에 대한 추론은 멀티모달 대형 언어 모델에게 여전히 핵심 과제이다. 최근의 thinking 모델은 명시적인 reasoning trace를 생성한다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Video-CoM: 인터랙티브 비디오 추론 via Chain of Manipulations

최근 멀티모달 대형 언어 모델(MLLMs)은 비디오 이해를 크게 발전시켰지만, 대부분은 여전히 “비디오에 대해 생각한다”(즉, 비디오가 인코딩된 후에만 추론을 수행한다) 식이다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] AnyTalker: 멀티 퍼슨 토킹 비디오 생성의 스케일링과 인터랙티비티 정제

최근, multi-person video generation이 주목받기 시작했습니다. 몇몇 초기 연구에서는 audio-driven multi-person talking video에 대해 탐구했지만...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 시각 생성 튜닝

대규모 비전 언어 모델(VLM)은 광범위한 사전 학습을 통해 모달리티 격차를 효과적으로 메우며, 정교한 시각 표현을 획득하고 wi...와 정렬됩니다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 객체 중심 데이터 합성을 이용한 카테고리 수준 객체 탐지

Deep learning 접근법은 object detection에서 이미지 내 특정 객체 클래스에 대한 신뢰할 수 있는 탐지를 달성했습니다. 그러나 모델의 detection capability를 확장하는 것은…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출

Inverse heat problems는 관측되거나 알려진 열 확산 거동을 기반으로 재료의 thermophysical properties를 추정하는 것을 말합니다. Inverse heat problems는…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Hunyuan-GameCraft-2: 명령어 기반 인터랙티브 게임 월드 모델

생성적 세계 모델(generative world models)의 최근 발전은 정적 장면 합성(static scene synthesis)에서 시작해 개방형 게임 환경(open-ended game environments)을 만드는 데 있어 눈에 띄는 진전을 가능하게 했습니다, …

#research #paper #ai #computer-vision

Newer posts

Older posts