computer-vision — Page 28

정렬:

3개월 전 · ai · - · -

[Paper] DraCo: Draft as CoT for Text-to-Image 미리보기 및 희귀 개념 생성

최근 통합된 멀티모달 대형 언어 모델(MLLMs)은 인상적인 능력을 보여주었으며, 향상된 텍스트-투-…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] Splannequin: Dual-Detection Splatting을 이용한 Monocular Mannequin‑Challenge 영상 동결

단일 카메라 Mannequin-Challenge (MC) 비디오에서 high-fidelity frozen 3D scenes를 합성하는 것은 standard dynamic scene reconstruction과는 구별되는 고유한 문제이다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[논문] ARM-Thinker: 멀티모달 생성 보상 모델 강화와 에이전시 툴 사용 및 시각적 추론

Reward models는 인간 선호와 vision-language 시스템을 정렬하는 데 핵심적이지만, 현재 접근 방식은 hallucination, 약한 visual grounding 등으로 고통받고 있다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] ShadowDraw: 어떤 물체든 그림자-드로잉 구성 예술로

우리는 ShadowDraw를 소개합니다. 이 프레임워크는 일반적인 3D 객체를 그림자 드로잉 구성 예술로 변환합니다. 3D 객체가 주어지면, 우리 시스템은 장면 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] NeuralRemaster: 위상 보존 Diffusion을 이용한 구조 정렬 생성

표준 확산은 푸리에 계수의 무작위 크기와 무작위 위상을 가진 가우시안 노이즈를 사용해 데이터를 손상시킵니다. 무조건적이거나 …에 효과적이지만

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] EvoIR: 올인원 이미지 복원을 위한 진화적 주파수 변조

All-in-One Image Restoration (AiOIR) 작업은 종종 다양한 열화를 포함하며, 이는 강인하고 다재다능한 전략을 필요로 합니다. 그러나 대부분의 기존 접근 방식은 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] TV2TV: 언어와 비디오가 교차하는 생성에 대한 통합 프레임워크

Video generation models는 빠르게 발전하고 있지만, 여전히 의미적 분기나 반복적인 고수준 작업을 요구하는 복잡한 비디오 출력에서 어려움을 겪을 수 있습니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] SA-IQA: 다차원 보상을 통한 공간 미학을 위한 이미지 품질 평가 재정의

최근 몇 년간 AI 생성 이미지(AIGI)를 위한 이미지 품질 평가(IQA)가 급속히 발전했지만, 기존 방법들은 주로 초상화와 ar...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

벽을 투과하다: AI의 새로운 눈, 가려진 움직임 by Arvind Sundararajan

손이 서로 얽히거나 물체 뒤에 가려지거나, 심지어 약간 보이지 않을 때 정확한 모션 캡처를 얻기 위해 고생한 적이 있나요? 표준 컴퓨터 비전 시스템은…

#computer vision #motion capture #occlusion handling #deformable state space model #visual feature extraction #AI research
3개월 전 · ai · - · -

[Paper] SimFlow: 라텐트 노멀라이징 플로우의 단순화 및 엔드투엔드 훈련

Normalizing Flows (NFs)는 데이터와 Gaussian distribution 사이의 가역 매핑을 학습합니다. 기존 연구들은 보통 두 가지 제한점을 가지고 있습니다. 첫 번째로, 그들은 추가합니다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 고유한 삶, 공유된 세계: 단일-라이프 비디오에서 학습

우리는 ‘single-life’ 학습 패러다임을 소개합니다. 이 패러다임에서는 한 개인이 촬영한 egocentric 비디오에만 전용 vision model을 학습시킵니다. 우리는 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] PosterCopilot: Layout Reasoning 및 Controllable Editing을 통한 전문 그래픽 디자인

Graphic design는 현대 시각 커뮤니케이션의 초석을 이루며, 문화 및 상업 행사 홍보를 위한 중요한 매체 역할을 합니다. 최근의 진보는…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 볼류메트릭 재구성을 위한 Radiance Meshes

우리는 radiance meshes를 소개한다. 이는 Delaunay tetrahedralization으로 생성된 constant density tetrahedral cells를 사용하여 radiance fields를 표현하는 기술이다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] SpaceTools: 툴-증강 공간 추론 via 이중 인터랙티브 RL

Vision Language Models (VLMs)은 강력한 정성적 시각 이해를 보여주지만, 구현된 …에 필요한 계량적으로 정확한 공간 추론에 어려움을 겪는다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Stable Signer: 계층적 수화 생성 모델

Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] RELIC: 인터랙티브 비디오 월드 모델과 장기 지평 메모리

진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 빠르고 효율적인 Normalizing Flows와 이미지 생성 모델의 응용

이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Jina-VLM: 소형 다국어 Vision Language Model

우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

중요한 것을 측정하기: 이미지 생성 평가를 위한 객관적 메트릭

최첨단(state‑of‑the‑art) 모델을 사용한 고품질 시각 자료 생성이 점점 더 접근하기 쉬워지고 있습니다. 오픈소스(Open‑source) 모델은 노트북에서 실행되고, 클라우드 서비스는 tex...

#image generation #evaluation metrics #generative AI #computer vision #quality assessment #Pruna #P-image #AI model benchmarking
3개월 전 · ai · - · -

[Paper] PSA: Pyramid Sparse Attention을 이용한 효율적인 비디오 이해 및 생성

Attention mechanisms는 foundation models의 핵심이지만, 그들의 quadratic complexity는 스케일링을 위한 중요한 bottleneck으로 남아 있습니다. 이 도전 과제는 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] MagicQuillV2: 정밀하고 인터랙티브한 이미지 편집, 레이어형 시각 단서

우리는 MagicQuill V2를 제안한다. 이는 생성 이미지 편집에 레이어드 컴포지션 패러다임을 도입하는 새로운 시스템으로, 의미론적…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] CAMEO: Correspondence-Attention 정렬을 위한 다중 뷰 확산 모델

Multi-view diffusion models는 최근 새로운 시점 합성을 위한 강력한 패러다임으로 부상했지만, 그들의 view-consistency를 가능하게 하는 근본 메커니즘은 아직 충분히 밝혀지지 않았다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] OneThinker: 이미지와 비디오를 위한 올인원 추론 모델

강화 학습(RL)은 최근 멀티모달 대형 언어 모델(MLLMs) 내에서 시각적 추론을 이끌어내는 데 눈에 띄는 성공을 거두었습니다. 그러나, exi...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] PPTArena: 에이전트형 파워포인트 편집을 위한 벤치마크

우리는 PPTArena를 소개합니다. 이는 실제 슬라이드에 대한 신뢰할 수 있는 수정 작업을 자연어 지시 하에 측정하는 PowerPoint 편집 벤치마크입니다. 대조적으로 t...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts