computer-vision — Page 30

정렬:

3개월 전 · ai · - · -

[Paper] 향상된 Mean Flows: Fastforward Generative Models의 도전 과제

MeanFlow (MF)는 최근에 일단계 생성 모델링을 위한 프레임워크로 확립되었습니다. 그러나 그 “fastforward” 특성은 핵심적인 도전을 야기합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] AirSim360: 드론 뷰 내 파노라마 시뮬레이션 플랫폼

360-degree omnidirectional understanding 분야는 공간 지능을 향상시키기 위해 점점 더 많은 관심을 받고 있습니다. 그러나 대규모 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] MV-TAP: 멀티뷰 비디오에서 모든 포인트 추적

Multi-view camera systems는 복잡한 real-world 장면에 대한 풍부한 관측을 가능하게 하며, 멀티뷰 환경에서 dynamic objects를 이해하는 것이 중심이 되었다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 오디오를 통한 시각 어포던스 학습

우리는 Audio-Visual Affordance Grounding (AV-AG)이라는 새로운 작업을 소개한다. 이 작업은 행동 소리에서 객체 상호작용 영역을 분할한다. 기존 접근 방식과 달리 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RoaD: Rollouts를 Demonstrations로 활용한 Closed-Loop Supervised Fine-Tuning을 통한 Autonomous Driving Policies

자율 주행 정책은 일반적으로 인간 시연을 통한 open-loop behavior cloning으로 학습됩니다. 그러나 이러한 정책은 covariate shift 때문에 ...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Chain-of-Ground: 반복적 추론 및 레퍼런스 피드백을 통한 GUI 그라운딩 개선

GUI grounding은 자연어 명령을 복잡한 사용자 인터페이스의 정확한 영역과 맞추는 것을 목표로 합니다. 고급 멀티모달 대형 언어 모델은 강력한…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] Direct Encoding 재검토: 정적 이미지용 학습 가능한 Temporal Dynamics for Spiking Neural Networks

내재된 시간적 역학이 없는 정적 이미지를 처리하는 것은 스파이킹 뉴럴 네트워크(SNNs)에 대한 근본적인 과제로 남아 있습니다. 직접 훈련된 SNN에서는 정적...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Video‑R2: 일관적이고 근거 있는 추론 강화 in Multimodal Language Models

동적 시각 콘텐츠에 대한 추론은 멀티모달 대형 언어 모델에게 여전히 핵심 과제이다. 최근의 thinking 모델은 명시적인 reasoning trace를 생성한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Video-CoM: 인터랙티브 비디오 추론 via Chain of Manipulations

최근 멀티모달 대형 언어 모델(MLLMs)은 비디오 이해를 크게 발전시켰지만, 대부분은 여전히 “비디오에 대해 생각한다”(즉, 비디오가 인코딩된 후에만 추론을 수행한다) 식이다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] AnyTalker: 멀티 퍼슨 토킹 비디오 생성의 스케일링과 인터랙티비티 정제

최근, multi-person video generation이 주목받기 시작했습니다. 몇몇 초기 연구에서는 audio-driven multi-person talking video에 대해 탐구했지만...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 시각 생성 튜닝

대규모 비전 언어 모델(VLM)은 광범위한 사전 학습을 통해 모달리티 격차를 효과적으로 메우며, 정교한 시각 표현을 획득하고 wi...와 정렬됩니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 객체 중심 데이터 합성을 이용한 카테고리 수준 객체 탐지

Deep learning 접근법은 object detection에서 이미지 내 특정 객체 클래스에 대한 신뢰할 수 있는 탐지를 달성했습니다. 그러나 모델의 detection capability를 확장하는 것은…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Physics-Informed Neural Networks를 이용한 열물성 특성 추출

Inverse heat problems는 관측되거나 알려진 열 확산 거동을 기반으로 재료의 thermophysical properties를 추정하는 것을 말합니다. Inverse heat problems는…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Hunyuan-GameCraft-2: 명령어 기반 인터랙티브 게임 월드 모델

생성적 세계 모델(generative world models)의 최근 발전은 정적 장면 합성(static scene synthesis)에서 시작해 개방형 게임 환경(open-ended game environments)을 만드는 데 있어 눈에 띄는 진전을 가능하게 했습니다, …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] DisMo: 오픈 월드 모션 전송을 위한 분리된 모션 표현

최근 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 모델의 발전으로, 간단한 텍스트만으로도 시각적으로 매력적이고 역동적인 비디오를 생성할 수 있게 되었습니다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] MANTA: 물리 기반 일반화된 수중 객체 추적

Underwater object tracking은 wavelength dependent attenuation과 scattering 때문에 어려우며, 이는 깊이와 물 조건에 따라 외관을 크게 왜곡합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] VQRAE: 멀티모달 이해, 생성 및 재구성을 위한 Representation Quantization Autoencoders

멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저에 통합하는 것은 통합 모델을 구축하는 데 있어 핵심 과제로 남아 있습니다. Previo...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 어텐션 기반 해석성을 통한 멀티모달 언어 모델 최적화

현대의 large language models는 multimodal이 되어 텍스트와 이미지와 같은 다양한 데이터 형식을 분석합니다. fine-tuning은 이러한 multimodal을 적응시키는 데 효과적입니다.

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 자동 안전 운전 지시를 향한: 대규모 Vision Language Model 접근

대규모 비전-언어 모델(LVLMs)은 객체 탐지를 포함한 시각 정보를 필요로 하는 작업에서 고급 능력을 보여줍니다. 이러한 능력은…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] Canvas-to-Image: 구성적 이미지 생성 with 멀티모달 제어

현대 diffusion models는 고품질이고 다양한 이미지를 생성하는 데 뛰어나지만, 고충실도 구성 및 멀티모달 제어에서는 여전히 어려움을 겪는다, ...

#image generation #diffusion models #multimodal control #computer vision #research
3개월 전 · ai · - · -

[Paper] TraceGen: 3D 트레이스 공간에서의 세계 모델링은 교차 구현 비디오 학습을 가능하게 합니다

새로운 플랫폼과 새로운 장면에서 단 몇 개의 시연만으로 새로운 로봇 작업을 학습하는 것은 여전히 어려운 과제입니다. 다른 구현체—예를 들어 인간—의 비디오를 활용하면서도…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] G$^2$VLM: 기하학 기반 비전-언어 모델, 통합 3D 재구성 및 공간 추론

Vision-Language Models (VLMs)은 여전히 공간 지능에서 견고함이 부족하여 공간 이해 및 추론 작업에서 성능이 저조합니다. 우리는 ...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 픽셀 없이 보기: 카메라 궤적에서의 인식

https://arxiv.org/abs/2405.05384 카메라 궤적—공간을 가로지르는 경로—만으로 픽셀을 보지 않고도 영상의 내용을 인식할 수 있을까? 이 논문은 이러한 질문에 처음으로 체계적인 접근을 시도한다. 우리는 카메라가 이동하면서 기록한 3차원 궤적 정보만을 이용해, 해당 영상이 어떤 장면을 담고 있는지, 어떤 동작이 일어나고 있는지를 추론한다. 이를 위해 새로운 데이터셋을 구축하고, 궤적 기반의 특징 추출 및 시퀀스 모델링 기법을 제안한다. 실험 결과, 제안된 방법은 기존 영상 기반 모델에 비해 픽셀 정보를 전혀 사용하지 않음에도 불구하고 의미 있는 수준의 인식 성능을 달성한다. 이 연구는 비전 시스템이 시각적 입력이 제한된 상황에서도 공간적 움직임 정보를 활용할 수 있음을 보여준다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 글리오마 분할 및 등급 매김 혁신: 3D MRI 기반 가이드 하이브리드 딥러닝 모델

Gliomas는 사망률이 높은 뇌종양 유형으로, 이는 종양에 대한 치료 개입을 위해 조기 및 정확한 진단이 중요함을 의미합니다....

#research #paper #ai #computer-vision

Newer posts

Older posts