computer-vision — Page 37

1개월 전 · ai

[Paper] ViSAudio: 엔드투엔드 비디오 기반 바이노럴 공간 오디오 생성

비디오-투-오디오 생성 분야가 진전을 이루었음에도 불구하고, 이 분야는 주로 모노 출력에 초점을 맞추고 있어 공간적 몰입감이 부족합니다. 기존의 바이노럴 접근 방식은 여전히 co...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] MAViD: 오디오-비주얼 대화 이해 및 생성을 위한 멀티모달 프레임워크

우리는 MAViD, 새로운 멀티모달 프레임워크를 제안한다. 이는 오디오-비주얼 대화 이해 및 생성을 위한 것이다. 기존 접근 방식은 주로 비상호작용적인 sy...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] SMP: 재사용 가능한 Score-Matching Motion Priors for Physics-Based Character Control

데이터 기반 모션 프라이어는 에이전트가 자연스러운 행동을 생성하도록 안내하며, 생동감 있는 가상 캐릭터를 만드는 데 핵심적인 역할을 합니다. Adversaria...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Unrolled Networks는 MRI Reconstruction에서 Conditional Probability Flows이다

Magnetic Resonance Imaging (MRI)은 이온화 방사선 없이 뛰어난 연부 조직 대비를 제공하지만, 긴 촬영 시간 때문에 임상 활용이 제한됩니다. 최근…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] In-Context Sync-LoRA를 활용한 인물 비디오 편집

인물 비디오 편집은 외모 변화와 같은 다양한 수정에 대해 유연하면서도 정밀한 제어가 요구되는 어려운 작업입니다, 표현...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] U4D: LiDAR 시퀀스로부터의 불확실성 인식 4D 월드 모델링

LiDAR 시퀀스로부터 동적인 3D 환경을 모델링하는 것은 자율 주행 및 임베디드 AI를 위한 신뢰할 수 있는 4D 세계를 구축하는 데 핵심적입니다. 기존의 생성 프레임…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] InEx: 자기성찰 및 크로스모달 다중 에이전트 협업을 통한 환각 완화

환각은 대형 언어 모델(LLMs)에서 여전히 중요한 과제로 남아 있어, 신뢰할 수 있는 멀티모달 LLMs(MLLMs)의 개발을 방해하고 있습니다. 기존 솔루션은…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Contextual Image Attack: 시각적 컨텍스트가 멀티모달 안전 취약점을 노출하는 방법

멀티모달 대형 언어 모델(MLLMs)은 놀라운 능력을 보여주지만, 그들의 안전 정렬은 탈옥 공격에 취약합니다. 기존 공격 방법...

#research #paper #ai #nlp #computer-vision
1개월 전 · ai

[Paper] BEVDilation: LiDAR 중심 멀티모달 융합을 통한 3D 객체 탐지

LiDAR와 카메라 정보를 bird's eye view (BEV) 표현에 통합하는 것은 3D 객체 탐지에서 그 효과가 입증되었습니다. 그러나, ...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 임베디드 자동차 비전 시스템을 위한 경량 실시간 저조도 향상 네트워크

저조도 환경, 예를 들어 야간 운전에서는 이미지 퇴화가 차량 내 카메라 안전에 심각한 도전을 제기합니다. 기존의 enhancement algorithms는 종종…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Layout Anything: 범용 방 레이아웃 추정을 위한 하나의 트랜스포머

우리는 Layout Anything을 제시한다. 이는 실내 레이아웃 추정을 위한 트랜스포머 기반 프레임워크로, OneFormer의 범용 세그멘테이션 아키텍처를 기하…

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] VideoScience-Bench를 이용한 비디오 생성에 대한 과학적 이해와 추론 벤치마킹

비디오 생성의 다음 경계는 제로샷 추론이 가능한 모델을 개발하는 데 있으며, 실제 세계의 과학 법칙을 이해하는 것이 …에 필수적이다.

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts