computer-vision — Page 21

정렬:

4개월 전 · ai · - · -

[Paper] Splannequin: Dual-Detection Splatting을 이용한 Monocular Mannequin‑Challenge 영상 동결

단일 카메라 Mannequin-Challenge (MC) 비디오에서 high-fidelity frozen 3D scenes를 합성하는 것은 standard dynamic scene reconstruction과는 구별되는 고유한 문제이다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[논문] ARM-Thinker: 멀티모달 생성 보상 모델 강화와 에이전시 툴 사용 및 시각적 추론

Reward models는 인간 선호와 vision-language 시스템을 정렬하는 데 핵심적이지만, 현재 접근 방식은 hallucination, 약한 visual grounding 등으로 고통받고 있다...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] ShadowDraw: 어떤 물체든 그림자-드로잉 구성 예술로

우리는 ShadowDraw를 소개합니다. 이 프레임워크는 일반적인 3D 객체를 그림자 드로잉 구성 예술로 변환합니다. 3D 객체가 주어지면, 우리 시스템은 장면 …

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] NeuralRemaster: 위상 보존 Diffusion을 이용한 구조 정렬 생성

표준 확산은 푸리에 계수의 무작위 크기와 무작위 위상을 가진 가우시안 노이즈를 사용해 데이터를 손상시킵니다. 무조건적이거나 …에 효과적이지만

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] EvoIR: 올인원 이미지 복원을 위한 진화적 주파수 변조

All-in-One Image Restoration (AiOIR) 작업은 종종 다양한 열화를 포함하며, 이는 강인하고 다재다능한 전략을 필요로 합니다. 그러나 대부분의 기존 접근 방식은 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] TV2TV: 언어와 비디오가 교차하는 생성에 대한 통합 프레임워크

Video generation models는 빠르게 발전하고 있지만, 여전히 의미적 분기나 반복적인 고수준 작업을 요구하는 복잡한 비디오 출력에서 어려움을 겪을 수 있습니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] SA-IQA: 다차원 보상을 통한 공간 미학을 위한 이미지 품질 평가 재정의

최근 몇 년간 AI 생성 이미지(AIGI)를 위한 이미지 품질 평가(IQA)가 급속히 발전했지만, 기존 방법들은 주로 초상화와 ar...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

벽을 투과하다: AI의 새로운 눈, 가려진 움직임 by Arvind Sundararajan

손이 서로 얽히거나 물체 뒤에 가려지거나, 심지어 약간 보이지 않을 때 정확한 모션 캡처를 얻기 위해 고생한 적이 있나요? 표준 컴퓨터 비전 시스템은…

#computer vision #motion capture #occlusion handling #deformable state space model #visual feature extraction #AI research
4개월 전 · ai · - · -

[Paper] SimFlow: 라텐트 노멀라이징 플로우의 단순화 및 엔드투엔드 훈련

Normalizing Flows (NFs)는 데이터와 Gaussian distribution 사이의 가역 매핑을 학습합니다. 기존 연구들은 보통 두 가지 제한점을 가지고 있습니다. 첫 번째로, 그들은 추가합니다...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 고유한 삶, 공유된 세계: 단일-라이프 비디오에서 학습

우리는 ‘single-life’ 학습 패러다임을 소개합니다. 이 패러다임에서는 한 개인이 촬영한 egocentric 비디오에만 전용 vision model을 학습시킵니다. 우리는 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] PosterCopilot: Layout Reasoning 및 Controllable Editing을 통한 전문 그래픽 디자인

Graphic design는 현대 시각 커뮤니케이션의 초석을 이루며, 문화 및 상업 행사 홍보를 위한 중요한 매체 역할을 합니다. 최근의 진보는…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 볼류메트릭 재구성을 위한 Radiance Meshes

우리는 radiance meshes를 소개한다. 이는 Delaunay tetrahedralization으로 생성된 constant density tetrahedral cells를 사용하여 radiance fields를 표현하는 기술이다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] SpaceTools: 툴-증강 공간 추론 via 이중 인터랙티브 RL

Vision Language Models (VLMs)은 강력한 정성적 시각 이해를 보여주지만, 구현된 …에 필요한 계량적으로 정확한 공간 추론에 어려움을 겪는다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Stable Signer: 계층적 수화 생성 모델

Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.

#research #paper #ai #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] RELIC: 인터랙티브 비디오 월드 모델과 장기 지평 메모리

진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 빠르고 효율적인 Normalizing Flows와 이미지 생성 모델의 응용

이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Jina-VLM: 소형 다국어 Vision Language Model

우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

중요한 것을 측정하기: 이미지 생성 평가를 위한 객관적 메트릭

최첨단(state‑of‑the‑art) 모델을 사용한 고품질 시각 자료 생성이 점점 더 접근하기 쉬워지고 있습니다. 오픈소스(Open‑source) 모델은 노트북에서 실행되고, 클라우드 서비스는 tex...

#image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
4개월 전 · ai · - · -

[Paper] PSA: Pyramid Sparse Attention을 이용한 효율적인 비디오 이해 및 생성

Attention mechanisms는 foundation models의 핵심이지만, 그들의 quadratic complexity는 스케일링을 위한 중요한 bottleneck으로 남아 있습니다. 이 도전 과제는 …

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] MagicQuillV2: 정밀하고 인터랙티브한 이미지 편집, 레이어형 시각 단서

우리는 MagicQuill V2를 제안한다. 이는 생성 이미지 편집에 레이어드 컴포지션 패러다임을 도입하는 새로운 시스템으로, 의미론적…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] CAMEO: Correspondence-Attention 정렬을 위한 다중 뷰 확산 모델

Multi-view diffusion models는 최근 새로운 시점 합성을 위한 강력한 패러다임으로 부상했지만, 그들의 view-consistency를 가능하게 하는 근본 메커니즘은 아직 충분히 밝혀지지 않았다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] OneThinker: 이미지와 비디오를 위한 올인원 추론 모델

강화 학습(RL)은 최근 멀티모달 대형 언어 모델(MLLMs) 내에서 시각적 추론을 이끌어내는 데 눈에 띄는 성공을 거두었습니다. 그러나, exi...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] PPTArena: 에이전트형 파워포인트 편집을 위한 벤치마크

우리는 PPTArena를 소개합니다. 이는 실제 슬라이드에 대한 신뢰할 수 있는 수정 작업을 자연어 지시 하에 측정하는 PowerPoint 편집 벤치마크입니다. 대조적으로 t...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] MultiShotMaster: 제어 가능한 멀티샷 비디오 생성 프레임워크

현재 video generation techniques는 single-shot 클립에서는 뛰어나지만, 유연한 샷 배열과 일관된 narrative를 필요로 하는 multi-shot 비디오를 제작하는 데 어려움을 겪는다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Video4Spatial: 시공간 인텔리전스를 향한 컨텍스트 기반 비디오 생성

우리는 video generative models가 인간 인지의 핵심 능력인 visuospatial intelligence를 시각 데이터만을 사용하여 나타낼 수 있는지를 조사한다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] ViSAudio: 엔드투엔드 비디오 기반 바이노럴 공간 오디오 생성

비디오-투-오디오 생성 분야가 진전을 이루었음에도 불구하고, 이 분야는 주로 모노 출력에 초점을 맞추고 있어 공간적 몰입감이 부족합니다. 기존의 바이노럴 접근 방식은 여전히 co...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] MAViD: 오디오-비주얼 대화 이해 및 생성을 위한 멀티모달 프레임워크

우리는 MAViD, 새로운 멀티모달 프레임워크를 제안한다. 이는 오디오-비주얼 대화 이해 및 생성을 위한 것이다. 기존 접근 방식은 주로 비상호작용적인 sy...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] SMP: 재사용 가능한 Score-Matching Motion Priors for Physics-Based Character Control

데이터 기반 모션 프라이어는 에이전트가 자연스러운 행동을 생성하도록 안내하며, 생동감 있는 가상 캐릭터를 만드는 데 핵심적인 역할을 합니다. Adversaria...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Unrolled Networks는 MRI Reconstruction에서 Conditional Probability Flows이다

Magnetic Resonance Imaging (MRI)은 이온화 방사선 없이 뛰어난 연부 조직 대비를 제공하지만, 긴 촬영 시간 때문에 임상 활용이 제한됩니다. 최근…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] In-Context Sync-LoRA를 활용한 인물 비디오 편집

인물 비디오 편집은 외모 변화와 같은 다양한 수정에 대해 유연하면서도 정밀한 제어가 요구되는 어려운 작업입니다, 표현...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] U4D: LiDAR 시퀀스로부터의 불확실성 인식 4D 월드 모델링

LiDAR 시퀀스로부터 동적인 3D 환경을 모델링하는 것은 자율 주행 및 임베디드 AI를 위한 신뢰할 수 있는 4D 세계를 구축하는 데 핵심적입니다. 기존의 생성 프레임…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] InEx: 자기성찰 및 크로스모달 다중 에이전트 협업을 통한 환각 완화

환각은 대형 언어 모델(LLMs)에서 여전히 중요한 과제로 남아 있어, 신뢰할 수 있는 멀티모달 LLMs(MLLMs)의 개발을 방해하고 있습니다. 기존 솔루션은…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Contextual Image Attack: 시각적 컨텍스트가 멀티모달 안전 취약점을 노출하는 방법

멀티모달 대형 언어 모델(MLLMs)은 놀라운 능력을 보여주지만, 그들의 안전 정렬은 탈옥 공격에 취약합니다. 기존 공격 방법...

#research #paper #ai #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] BEVDilation: LiDAR 중심 멀티모달 융합을 통한 3D 객체 탐지

LiDAR와 카메라 정보를 bird's eye view (BEV) 표현에 통합하는 것은 3D 객체 탐지에서 그 효과가 입증되었습니다. 그러나, ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 임베디드 자동차 비전 시스템을 위한 경량 실시간 저조도 향상 네트워크

저조도 환경, 예를 들어 야간 운전에서는 이미지 퇴화가 차량 내 카메라 안전에 심각한 도전을 제기합니다. 기존의 enhancement algorithms는 종종…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Layout Anything: 범용 방 레이아웃 추정을 위한 하나의 트랜스포머

우리는 Layout Anything을 제시한다. 이는 실내 레이아웃 추정을 위한 트랜스포머 기반 프레임워크로, OneFormer의 범용 세그멘테이션 아키텍처를 기하…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] VideoScience-Bench를 이용한 비디오 생성에 대한 과학적 이해와 추론 벤치마킹

비디오 생성의 다음 경계는 제로샷 추론이 가능한 모델을 개발하는 데 있으며, 실제 세계의 과학 법칙을 이해하는 것이 …에 필수적이다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] EGGS: 교환 가능한 2D/3D Gaussian Splatting을 통한 Geometry-Appearance 균형 새로운 시점 합성

Novel view synthesis (NVS)는 컴퓨터 비전 및 그래픽스에서 매우 중요하며, AR, VR, 자율 주행 등 다양한 분야에 널리 활용됩니다. 반면에 3D Gaussian Splatting (3D...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

위대한 평등자

아마존보다 더 정확하게 당신의 쇼핑 습관을 예측하는 동네 가게. 맥도날드의 정밀함으로 공급망을 자동화하는 지역 레스토랑. Th...

#AI democratization #small business AI #machine learning #natural language processing #computer vision #automation #enterprise AI tools
4개월 전 · ai · - · -

[Paper] 실시간 멀티모달 데이터 수집 및 Smartwatches 활용 교육 시각화

웨어러블 센서, 예를 들어 스마트워치는 의료, 스포츠, 교육 등 다양한 분야에서 점점 더 보편화되어 지속적인 모니터링을 가능하게 합니다.

#research #paper #ai #computer-vision
4개월 전 · software · - · -

OCR 실행 전에 기울어진 문서 수정 방법

‘How to Fix Croanged Documents Before OCR Runs’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https...

#OCR #image preprocessing #document scanning #text extraction #computer vision #image correction #devtools
4개월 전 · ai · - · -

[Paper] EfficientFlow: 효율적인 동변성 Flow 정책 학습을 위한 Embodied AI

Generative modeling은 최근 visuomotor policy learning에 있어 놀라운 가능성을 보여주었으며, 다양한 embodied AI 작업 전반에 걸쳐 유연하고 표현력 있는 제어를 가능하게 합니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 데이터 중심 시각적 개발 for Self-Driving Labs

Self-driving laboratories는 노동 집약적이고 시간 소모가 크며 종종 재현이 어려운 생물학적 과학 워크플로우를 감소시키는 유망한 경로를 제공합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Visual Sync: 다중 카메라 동기화 via 교차 시점 객체 움직임

오늘날 사람들은 콘서트, 스포츠 이벤트, 강연, 가족 모임, 생일 파티 등 다양한 기억에 남는 순간들을 쉽게 기록할 수 있습니다, 여러...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 생성된 비디오의 객체는 보이는 것보다 느리다: 모델은 Sub‑Earth Gravity에 시달리고 Galileo's Principle을 모른다... 아직은

Video generators는 잠재적인 world models로서 점점 더 평가되고 있으며, 이는 physical laws를 인코딩하고 이해하도록 요구합니다. 우리는 그들의 표현을 조사합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 3D 포인트 트랙을 활용한 생성 비디오 모션 편집

카메라와 객체 움직임은 비디오 내러티브의 핵심입니다. 그러나 캡처된 이러한 움직임을 정밀하게 편집하는 것은 특히 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] TUNA: 네이티브 통합 멀티모달 모델을 위한 Unified Visual Representations 다루기

Unified multimodal models (UMMs)는 단일 프레임워크 내에서 멀티모달 이해와 생성을 동시에 수행하는 것을 목표로 합니다. 우리는 TUNA, 네이티브 UMM을 제시합니다, that bu...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 향상된 Mean Flows: Fastforward Generative Models의 도전 과제

MeanFlow (MF)는 최근에 일단계 생성 모델링을 위한 프레임워크로 확립되었습니다. 그러나 그 “fastforward” 특성은 핵심적인 도전을 야기합니다.

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts