computer-vision — Page 20

정렬:

4개월 전 · ai · - · -

[Paper] Astra: 일반적인 인터랙티브 월드 모델과 자동회귀 디노이징

최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Selfi: 3D Geometric Feature Alignment를 통한 자기 개선 재구성 엔진

Novel View Synthesis (NVS)는 전통적으로 Structure‑from‑Motion에서 얻은 알려진 카메라 파라미터와 결합된 명시적인 3D inductive biases를 가진 모델에 의존해 왔습니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 효율적으로 동적 장면을 D4RT 하나씩 재구성하기

비디오에서 동적 장면의 복잡한 기하학 및 움직임을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 큰 도전 과제이다. 이 논문은 intr...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 고충실도 텍스트 인식 이미지 복원을 위한 Unified Diffusion Transformer

텍스트 인식 이미지 복원 (TAIR)은 손상된 텍스트 내용이 포함된 저품질 입력으로부터 고품질 이미지를 복원하는 것을 목표로 합니다. While diffusion models pro...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] LiDAS: 야간 인식을 위한 조명 구동 동적 능동 감지

야간 환경은 카메라 기반 인식에 상당한 도전을 제기합니다. 기존 방법들은 장면 조명에 수동적으로 의존하기 때문입니다. 우리는 Lighting-...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 단일 이미지에서 Self-Evolving 3D 씬 생성

단일 이미지에서 고품질의 텍스처가 적용된 3D 장면을 생성하는 것은 비전 및 그래픽 분야에서 근본적인 과제로 남아 있습니다. 최근의 image-to-3D generators는 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] UniLayDiff: 콘텐츠 인식 레이아웃 생성을 위한 통합 Diffusion Transformer

Content-aware layout generation은 그래픽 디자인 자동화에서 중요한 작업으로, 시각적으로 매력적인 요소들의 배치를 원활하게 만드는 데 초점을 둡니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 라벨 없이도 문제없다: Visual Reasoners를 Multimodal Verifiers로 훈련

시각적 추론은 어려운 작업으로, 정확한 객체 그라운딩과 복잡한 공간 관계에 대한 이해가 모두 필요합니다. 기존 방법들은 두 가지 진영으로 나뉩니다: ...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] UAV 이미지 세그멘테이션을 위한 가속 회전 불변 컨볼루션

회전 불변성은 UAV 항공 이미지에서 정밀한 객체 수준 분할에 필수적이며, 대상은 임의의 방향을 가질 수 있고 미세한 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] SATGround: 공간 인지 기반 접근법을 통한 원격 탐사에서의 Visual Grounding

Vision-language models (VLMs)은 원격 탐사를 위한 강력한 범용 도구로 부상하고 있으며, 다양한 작업에 걸쳐 정보를 통합하고 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 저해상도 이미지 잠재 임베딩을 위한 Siamese-Driven Optimization in Image Captioning

Image captioning은 시각 장애인을 돕고, 콘텐츠 관리 시스템을 개선하며, 인간‑컴퓨터 상호작용을 향상시키는 등 많은 분야에서 필수적입니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] MatteViT: 고주파 인식 문서 그림자 제거와 그림자 매트 가이드

문서 그림자 제거는 디지털화된 문서의 선명도를 향상시키는 데 필수적입니다. 고주파 디테일(예: 텍스트 가장자리 및 선)을 보존하는 것은 중요합니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 엣지 디바이스에서 연합 피부 병변 분류를 위한 멀티모달 Swin Transformer의 Skewness-Guided Pruning

최근 몇 년간 고성능 computer vision 모델이 medical imaging에서 눈부신 성공을 거두었으며, 일부 skin lesion classification 시스템은 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 포즈 기반 수화 스포팅 via an End-to-End Encoder Architecture

Automatic Sign Language Recognition (ASLR)은 청각 장애인과 청인 커뮤니티 간의 격차를 메우는 중요한 분야로 부상했습니다. 그러나, 수화‑...

#research #paper #ai #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] 조건부 형태 발생: Neural Cellular Automata를 통한 구조적 숫자의 자생적 생성

생물학적 시스템은 놀라운 형태형성 가소성을 보여주며, 단일 유전체가 지역 화학 신호에 의해 유도되는 다양한 특수화된 세포 구조를 인코딩할 수 있다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Voxify3D: 픽셀 아트와 볼류메트릭 렌더링

Voxel art는 게임 및 디지털 미디어에서 널리 사용되는 독특한 스타일링이지만, 3D meshes로부터 자동 생성하는 것은 상충하는 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 관계형 시각 유사성

인간은 단순히 attribute similarity만 보는 것이 아니라 relational similarity도 본다. 사과는 둘 다 붉은 과일이기 때문에 peach와 비슷하지만, Earth도…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] UnityVideo: 통합 멀티모달 멀티태스크 학습을 통한 World-Aware 비디오 생성 향상

최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만, 단일 모달리티 조건에 의해 제한되어 전체적인 작업을 제약합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 한 레이어만 있으면 충분: Pretrained Visual Encoders를 Image Generation에 적용

시각 생성 모델(예: diffusion models)은 일반적으로 압축된 latent spaces에서 작동하여 학습 효율성과 샘플 품질의 균형을 맞춥니다. 동시에, ...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] OpenVE-3M: 대규모 고품질 데이터셋 for Instruction-Guided Video Editing

명령 기반 이미지 편집 데이터셋의 품질과 다양성은 지속적으로 증가하고 있지만, 대규모 고품질 데이터셋은 아직 부족합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] WorldReel: 일관된 기하학 및 모션 모델링을 통한 4D 비디오 생성

최근 비디오 생성기들은 놀라운 photorealism을 달성하지만, 3D에서는 근본적으로 일관성이 부족합니다. 우리는 WorldReel을 소개합니다, 이는 natively 4D 비디오 생성기입니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Lang3D-XL: 대규모 장면을 위한 언어 임베디드 3D 가우시안

언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Multi-view Pyramid Transformer: 덜 세밀하게 보고 더 넓게 보기

우리는 Multi-view Pyramid Transformer (MVP)라는 확장 가능한 멀티뷰 트랜스포머 아키텍처를 제안한다. 이 아키텍처는 수십에서 수백 개에 이르는 대규모 3D 씬을 직접 재구성한다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

실제 영상에서 스토리텔링은 종종 여러 샷을 통해 전개됩니다—불연속적이지만 의미적으로 연결된 클립들이 함께 일관된 내러티브를 전달합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 분포 매칭 Variational AutoEncoder

대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] HalluShift++: 언어와 비전을 연결하는 내부 표현 변화를 통한 MLLMs의 계층적 환각

멀티모달 대형 언어 모델(MLLMs)은 시각‑언어 이해 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델은 종종 ling...

#research #paper #ai #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] KAN-Dreamer: Kolmogorov-Arnold Networks를 함수 근사기로서 World Models에서 벤치마킹

DreamerV3는 놀라운 샘플 효율성으로 알려진 최첨단 온라인 모델 기반 강화 학습(MBRL) 알고리즘입니다. 동시에, Kolmogorov-Arno…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 구체적인 티켓 검색으로 네트워크 훈련 역학을 보존하여 복권에 당첨하기

Lottery Ticket Hypothesis은 조밀하고 무작위 초기화된 신경망 내에 매우 희소하고 학습 가능한 서브네트워크('winning tickets')가 존재한다는 것을 주장한다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Arc Gradient Descent: 수학적으로 도출된 Gradient Descent의 재구성, Phase-Aware 및 User-Controlled Step Dynamics

이 논문은 ArcGD 옵티마이저의 공식화, 구현 및 평가를 제시한다. 평가는 처음에 비볼록 벤치마크 함수에 대해 수행된다.

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] EditThinker: 모든 이미지 편집기를 위한 Iterative Reasoning 활용

Instruction-based image editing은 눈에 띄는 연구 분야로 부상했으며, image generation foundation models의 혜택을 받아 높은 미학적…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] AQUA-Net: 적응형 주파수 융합 및 조명 인식 네트워크를 이용한 수중 이미지 향상

수중 이미지는 파장에 따라 달라지는 빛의 흡수와 산란 때문에 색 왜곡이 심하고, 대비가 낮으며, 흐릿한 외관을 자주 보입니다. Si...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] M4-RAG: 대규모 다언어 다문화 다중모달 RAG

비전-언어 모델(VLM)은 시각 질문 응답(VQA)에서 강력한 성능을 달성했지만, 여전히 정적인 학습 데이터에 제한을 받고 있습니다. Retrieva...

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] SIMPACT: 시뮬레이션 지원 행동 계획 using Vision-Language Models

Vision-Language Models (VLMs)는 놀라운 상식 및 의미론적 추론 능력을 보여줍니다. 그러나 이들은 물리적 역학에 대한 근거 있는 이해가 부족합니다…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 줌 인, 클릭 아웃: GUI 그라운딩을 위한 줌 활용 가능성 탐색 및 평가

Grounding은 그래픽 사용자 인터페이스(GUI) 에이전트를 구축하기 위한 기본적인 능력입니다. 기존 접근 방식들은 대규모 바운딩 박스 감독에 의존하지만…

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] 배경이 분류 및 특징 중요도에 미치는 영향 측정: 딥러닝을 이용한 AV 인식

딥러닝을 위한 설명 가능한 AI(XAI)의 일반적인 접근 방식은 주어진 모델에서 분류 작업에 대한 입력 특징의 중요성을 분석하는 데 초점을 맞춥니다: sal...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Synset Signset Germany: 독일 교통 표지 인식을 위한 합성 데이터셋

본 논문에서는 traffic sign recognition 작업에서 d...의 장점을 결합한 synthesis pipeline 및 dataset을 제시하여 training / testing 데이터를 제공합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 자동차 LiDAR의 물리 기반 시뮬레이션

우리는 blooming, echo pulse width, ambient light를 포함한 자동차용 time-of-flight (ToF) LiDAR 시뮬레이션을 위한 분석 모델을 제시하며, 단계와 함께 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 얼굴 인식을 위한 Synthetic Facial Data Generation Techniques 비교 연구

Facial recognition은 인증 및 식별을 위한 널리 사용되는 방법이 되었으며, 보안 접근 및 실종자 찾기에 활용됩니다. Its ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 자신이 모르는 것을 아는 World Models: Calibrated Uncertainty를 활용한 Controllable Video Generation

최근 생성 비디오 모델의 발전으로 고품질 비디오 합성에서 큰 돌파구가 마련되었으며, 특히 제어 가능한 비디오 생성 분야에서 눈에 띄는 진전이 이루어졌습니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] NICE: 신경 암시적 두경부 모델을 이용한 악교정 수술 예측

Orthognathic surgery는 dentofacial skeletal 변형을 교정하여 occlusal 기능과 facial aesthetics를 향상시키는 중요한 중재입니다. 정확한…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 액티브 비디오 퍼셉션: 에이전틱 롱 비디오 이해를 위한 반복적 증거 탐색

Long video understanding (LVU)은 실제 세계의 질의에 답변하기 위해서는 대부분 …에 묻혀 있는 희소하고 시간적으로 분산된 단서에 의존해야 하기 때문에 어려운 과제입니다.

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

YOLOv1 논문 워크스루: YOLO가 세상을 처음 본 날

YOLOv1 아키텍처와 처음부터 구현한 PyTorch 구현에 대한 자세한 walkthrough. 게시물: YOLOv1 Paper Walkthrough: YOLO가 처음 세상을 본 날.

#YOLOv1 #object detection #computer vision #deep learning #PyTorch #model walkthrough #neural networks
4개월 전 · ai · - · -

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Light‑X: 카메라 및 조명 제어가 가능한 생성적 4D 비디오 렌더링

최근 조명 제어 분야의 발전은 이미지 기반 방법을 비디오로 확장했지만, 여전히 조명 충실도와 시간적 일관성 사이의 트레이드오프에 직면하고 있다. Mo...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[논문] Value Gradient Guidance for Flow Matching Alignment

흐름 매칭 모델—인기 있고 효과적인 생성 모델 클래스—을 인간 선호와 정렬하기 위한 방법이 존재하지만, 기존 접근 방식은 …

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 다중 대비 MRI 기반 영아 뇌 딥 세그멘테이션

자기공명영상(MRI)의 분할은 해부학적 구조를 구분함으로써 인간 뇌 발달 분석을 용이하게 합니다. 그러나 영아와 ...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] DraCo: Draft as CoT for Text-to-Image 미리보기 및 희귀 개념 생성

최근 통합된 멀티모달 대형 언어 모델(MLLMs)은 인상적인 능력을 보여주었으며, 향상된 텍스트-투-…

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] Splannequin: Dual-Detection Splatting을 이용한 Monocular Mannequin‑Challenge 영상 동결

단일 카메라 Mannequin-Challenge (MC) 비디오에서 high-fidelity frozen 3D scenes를 합성하는 것은 standard dynamic scene reconstruction과는 구별되는 고유한 문제이다.

#research #paper #ai #computer-vision

Newer posts

Older posts