computer-vision — Page 5

정렬:

0개월 전 · ai · - · -

[Paper] Vega: 자연어 지시를 사용한 운전 학습

Vision-language-action 모델은 자율 주행을 재구성하여 언어를 의사결정 과정에 통합했습니다. 그러나 대부분 기존 파이프라인은 …

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] Drive My Way: 개인화된 운전을 위한 Vision-Language-Action 모델의 선호 정렬

인간의 운전 행동은 본질적으로 개인적이며, 이는 장기적인 습관에 의해 형성되고 단기적인 의도에 의해 영향을 받습니다. 개인마다 가속(accel) 방식이 다릅니다.

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] MegaFlow: 제로샷 대변위 Optical Flow

대규모 변위 optical flow의 정확한 추정은 여전히 중요한 과제이다. 기존 방법들은 일반적으로 iterative local search 및/또는 domain-specific 방식을 활용한다.

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] PSDesigner: 자동화된 그래픽 디자인과 인간과 유사한 창의적 워크플로우

Graphic design은 창의적이고 혁신적인 과정으로, e‑commerce와 advertising과 같은 애플리케이션에서 중요한 역할을 합니다. 그러나 자동화…

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] 내 샷은 얼마나 좋았을까? 탁구에서 플레이어 실력 수준 정량화

개인의 기술 수준을 평가하는 것은 매우 중요합니다. 이는 본질적으로 그들의 행동을 형성하기 때문입니다. 그러나 기술을 정량화하는 것은 어려운데, 이는 기술이 잠재적으로 …에 있기 때문입니다.

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] 분류기 없이 Human-Object Interaction 애니메이션을 위한 가이드 활용

현실적인 인간-객체 상호작용(HOI) 애니메이션을 생성하는 것은 여전히 어려운 과제입니다. 이는 동적인 인간 행동과 다양한 객체를 동시에 모델링해야 하기 때문입니다.

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] PackForcing: 짧은 비디오 학습으로 긴 비디오 샘플링 및 긴 컨텍스트 추론을 충분히 수행

Autoregressive video diffusion 모델은 눈에 띄는 진전을 보여왔지만, 여전히 다루기 어려운 선형 KV-cache 성장과 시간적 반복…

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] PixelSmile: 세밀한 얼굴 표정 편집을 향하여

Fine-grained 얼굴 표정 편집은 본질적인 의미 중복으로 오랫동안 제한되어 왔습니다. 이를 해결하기 위해 우리는 Flex Facial Expression (FFE) 데이터를 구축합니다.

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] Hard Negatives 없이: Concept Centric Learning이 Contrastive Models의 Zero-shot 능력을 저하시키지 않으면서 Compositionality를 달성한다

Contrastive vision-language (V&L) 모델은 다양한 응용 분야에서 여전히 인기가 있습니다. 그러나 여러 제한 사항이 나타났으며, 특히 제한…

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] R-C2: Cycle-Consistent Reinforcement Learning이 Multimodal Reasoning을 향상시킨다

견고한 지각과 추론은 감각 양식 간의 일관성을 필요로 합니다. 그러나 현재의 멀티모달 모델은 종종 이 원칙을 위반하여 모순되는 결과를 초래합니다.

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] 눈에 보이지 않지만 기억에서 사라지지 않는다: 동적 비디오 월드 모델을 위한 하이브리드 메모리

Video world models는 물리적 세계를 시뮬레이션하는 데 엄청난 잠재력을 보여왔지만, 기존 memory mechanisms는 주로 환경을 static canvases로 취급합니다.

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] TAG: Vision‑Language‑Action Models에서 Stable Object‑Centric Inference를 위한 Target‑Agnostic Guidance

Vision--Language--Action (VLA) 정책은 언어 지시와 시각 관찰을 로봇 행동에 매핑하는 데 있어 뛰어난 진전을 보여왔지만, 그들의 신뢰성은…

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] Latent-WAM: 엔드투엔드 자율 주행을 위한 Latent World Action Modeling

우리는 Latent‑WAM을 소개합니다. 이는 공간 인식(spatially‑aware) 및 동역학 정보(dynamics‑info)를 활용하여 강력한 궤적 계획을 달성하는 효율적인 엔드‑투‑엔드(end‑to‑end) 자율 주행 프레임워크입니다.

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] Vision-Language 모델 vs 인간: 지각적 이미지 품질 평가

Psychophysical experiments는 perceptual image quality assessment (IQA)를 위한 가장 신뢰할 수 있는 접근 방식으로 남아 있지만, 그 비용과 제한된 확장성은 자동…

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] EndoVGGT: 수술용 3D 재구성을 위한 GNN 강화 깊이 추정

변형 가능한 연부 조직의 정확한 3D 재구성은 수술 로봇 인식에 필수적입니다. 그러나 텍스처가 낮은 표면, specular highlights 및 ...

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] VFIG: Vision-Language 모델을 활용한 SVG 복잡 도형 벡터화

Scalable Vector Graphics (SVG)는 기술 일러스트레이션 및 디지털 디자인에 필수적인 포맷으로, 정밀한 해상도 독립성과 유연한 sema...

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] 학습 없이 장면 텍스트 편집

Scene text editing은 자연 이미지에서 텍스트 내용을 수정하면서 시각적 realism과 semantic consistency를 유지하는 것을 목표로 합니다. 기존 방법들은 종종 t...

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] POLY-SIM: 다국어 화자 식별과 누락된 모달리티 그랜드 챌린지 2026 평가 계획

멀티모달 스피커 식별 시스템은 일반적으로 훈련 및 테스트 단계 모두에서 완전하고 동질적인 오디오-비주얼 모달리티의 가용성을 전제로 합니다.

#research #paper #ai #computer-vision
0개월 전 · ai · - · -

[Paper] LensWalk: Agentic 비디오 이해를 위한 비디오 시청 방식 계획

비디오의 밀도 높고 시간적인 특성은 자동 분석에 큰 도전을 제시한다. 강력한 Vision-Language Models를 사용함에도 불구하고, 기존 방법들은…

#research #paper #ai #machine-learning #computer-vision
0개월 전 · ai · - · -

[Paper] UI-Voyager: 실패 경험을 통한 자기 진화 GUI 에이전트 학습

Autonomous mobile GUI agents는 Multimodal Large Language Models (MLLMs)의 발전과 함께 점점 더 많은 관심을 받고 있습니다. 그러나 기존 방법…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] OccAny: 일반화된 제약 없는 도시 3D 점유

도메인 내 주석과 정밀한 센서‑리그 사전 지식에 의존하는 기존 3D occupancy prediction 방법은 확장성과 도메인 외 일반화 모두에서 제한적이다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MedObvious: Clinical Triage를 이용한 VLM에서의 Medical Moravec's Paradox 공개

Vision Language Models (VLMs)는 의료 보고서 생성 및 visual question answering과 같은 작업에 점점 더 많이 사용되고 있습니다. 그러나 fluent diagnostic text는 …

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] UniGRPO: 통합 정책 최적화를 통한 추론 기반 시각 생성

인터리브된 생성이 가능한 Unified models가 유망한 패러다임으로 떠오였으며, 커뮤니티는 점점 더 autoregressive modeling에 집중하고 있다...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] WildWorld: 동적 세계 모델링을 위한 대규모 데이터셋, 행동 및 명시적 상태를 통한 생성형 ARPG

동적 시스템 이론과 강화 학습은 세계의 진화를 행동에 의해 구동되는 latent-state dynamics로 보고, visual observations는 부분적인 ...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] VISion On Request: 희소하고 동적으로 선택된 비전-언어 상호작용을 통한 VLLM 효율성 향상

Large Vision-Language Models (LVLMs)의 효율성을 향상시키기 위한 기존 접근 방식은 주로 visual token reduction 개념에 기반하고 있습니다. This approa...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Foveated Diffusion: 효율적인 공간 적응형 이미지 및 비디오 생성

Diffusion 및 flow matching 모델은 인터랙티브 이미지와 스트리밍 비디오 생성과 같은 창의적인 콘텐츠 제작을 위한 전례 없는 능력을 열어주었습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 한 번의 뷰면 충분합니다! In-the-Wild Novel View Generation을 위한 Monocular Training

Monocular novel-view synthesis는 오랫동안 감독을 위해 multi-view image pairs를 필요로 했으며, 이는 training data scale와 diversity를 제한합니다. 우리는 이것이 반드시 필요하지 않다고 주장합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] TETO: 교사 관찰을 통한 이벤트 추적 및 모션 추정과 프레임 보간

Event cameras는 마이크로초 해상도로 픽셀당 밝기 변화를 포착하여 RGB 프레임 사이에서 손실되는 연속적인 움직임 정보를 제공합니다. 그러나 기존…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SpecEyes: Speculative Perception and Planning을 통한 에이전틱 멀티모달 LLM 가속화

Agentic multimodal large language models (MLLMs) (예: OpenAI o3 및 Gemini Agentic Vision)은 반복적인 시각 ...

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] VTAM: 복잡한 물리적 상호작용을 위한 Video‑Tactile‑Action Models, VLAs를 넘어

Video-Action Models (VAMs)는 구현된 지능을 위한 유망한 프레임워크로 부상했으며, 원시 비디오 스트림으로부터 암시적인 세계 역학을 학습하여 t…을 생성합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] InverFill: 향상된 Few-Step Diffusion Inpainting을 위한 One-Step Inversion

최근 diffusion-based models는 image inpainting에서 photorealism을 달성하지만 많은 sampling steps가 필요해 practical use가 제한됩니다. Few-step text-to-image models는...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 텍스트 표현 기반 추론을 통한 멀티모달 대형 언어 모델의 공간 추론 활성화

기존 멀티모달 대형 언어 모델(MLLMs)은 3D 공간 추론에 어려움을 겪으며, 3D 환경에 대한 구조화된 추상화를 구축하지 못합니다.

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] WorldCache: 콘텐츠 인식 캐싱을 통한 가속화된 비디오 월드 모델

Diffusion Transformers (DiTs)는 고충실도 비디오 월드 모델을 구동하지만, 순차적 디노이징과 비용이 많이 드는 시공간 처리 때문에 계산 비용이 많이 듭니다.

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] VideoDetective: 외부 쿼리와 내부 관련성을 통한 단서 탐색 for Long Video Understanding

긴 비디오 이해는 제한된 컨텍스트 윈도우 때문에 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제이며, 이는 희소한 q...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] End-to-End 학습을 통한 통합 토크나이제이션 및 잠재 디노이징

Latent diffusion models (LDMs)는 학습된 잠재 공간에서 작동함으로써 고품질 합성을 가능하게 합니다. 그러나 최첨단 LDM을 훈련하려면 복잡한 st...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] UniMotion: 모션-텍스트-비전 이해 및 생성을 위한 통합 프레임워크

우리는 UniMotion을 제시합니다. 우리가 알기로는 인간 동작, 자연어, 그리고 RGB 이미지의 동시 이해와 생성을 위한 최초의 통합 프레임워크입니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] ThinkJEPA: 대규모 비전-언어 추론 모델을 활용한 잠재 세계 모델 강화

최근 잠재 세계 모델(예: V-JEPA2)의 발전은 비디오 관찰을 통해 미래 세계 상태를 예측하는 데 유망한 능력을 보여주었습니다. 그럼에도 불구하고, ...

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] DualCoT-VLA: 시각‑언어 체인 오브 씽크 via 병렬 추론 for Vision‑Language‑Action 모델

Vision-Language-Action (VLA) 모델은 시각 관찰과 언어 지시를 직접 로봇 행동으로 매핑합니다. 간단한 작업에 효과적이지만, 표준 VL…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Vision‑Language 모델에서 공간 추론의 이중 메커니즘

많은 멀티모달 작업, 예를 들어 image captioning과 visual question answering은 vision-language models (VLMs)가 객체와 그 속성을 연관시키도록 요구한다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 기하학 파운데이션 모델 재활용을 위한 멀티뷰 디퓨전

최근 생성 잠재 공간(generative latent spaces)의 발전이 단일 이미지 생성(single-image generation)에서 상당한 진전을 이끌었지만, 새로운 시점 합성(novel view synthesis)을 위한 최적의 잠재 공간은…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] DUO-VSR: 원스텝 비디오 초해상도를 위한 듀얼 스트림 증류

Diffusion 기반 비디오 초해상도(VSR)는 최근 눈에 띄는 높은 충실도를 달성했지만 여전히 금지할 정도의 샘플링 비용이 문제입니다. While distribution mat...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SpatialReward: 검증 가능한 공간 보상 모델링을 통한 텍스트-이미지 생성의 세밀한 공간 일관성

텍스트-이미지(T2I) 생성에 대한 강화 학습(RL) 기반의 최근 진전은 의미적 정렬과 시각적 qu...을 평가하는 보상 모델의 혜택을 받았다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

기계에게 시각을 가르치기 (Part 1): 왜 Vision은 어려운가

인간 시각 처리 vs. 머신 비전 인간은 이미지에서 고양이, 개, 그리고 여성(여자)을 즉시 인식할 수 있습니다. 우리의 뇌는 주의(attention), 기억(memory), 그리고 …

#computer vision #OpenCV #image processing #machine learning #neural networks
1개월 전 · ai · - · -

[Paper] MME-CoF-Pro: 텍스트와 시각적 힌트를 활용한 비디오 생성 모델의 추론 일관성 평가

Video generative models는 새로운 추론 행동을 보여줍니다. 신뢰할 수 있는 …을 위해 생성된 이벤트가 프레임 간에 인과적으로 일관되도록 보장하는 것이 필수적입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] LumosX: 모든 정체성을 그들의 속성과 연결하여 맞춤형 비디오 생성

최근 diffusion models의 진보는 text-to-video 생성 능력을 크게 향상시켰으며, 세밀한 제어를 통해 개인화된 콘텐츠 제작을 가능하게 합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 산불 확산 시나리오: Training-Free Methods를 이용한 Segmentation Diffusion Models의 샘플 다양성 증가

불확실한 환경, 예를 들어 산불 확산, 의료 진단, 혹은 자율 주행과 같은 상황에서 미래 상태를 예측하려면, 다중…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MuSteerNet: 비디오에서 관찰‑반응 상호 스티어링을 통한 인간 반응 생성

Video-driven human reaction generation은 관찰된 비디오 시퀀스에 직접 반응하는 3D 인간 동작을 합성하는 것을 목표로 하며, 이는 인간‑…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Rectified Flow 재구성을 통한 Image-to-Image Translation 향상

본 연구에서는 Image-to-Image Rectified Flow Reformulation (I2I‑RFR)을 제안한다. 이는 표준 I2I 회귀 네트워크를 재구성하는 실용적인 플러그인 재정의이다.

#research #paper #ai #computer-vision

Newer posts

Older posts