computer-vision — Page 26

정렬:

3개월 전 · ai · - · -

[Paper] 저지연 동공 검출을 위한 Neuromorphic Eye Tracking

웨어러블 시스템을 위한 Eye tracking은 낮은 지연 시간과 밀리와트 수준의 전력을 요구하지만, 기존의 프레임 기반 파이프라인은 모션 블러와 높은 연산량으로 어려움을 겪는다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 엣지에서 프라이버시 강화 Vision Transformers를 위한 분산 프레임워크

요즘 visual intelligence tools는 어디에나 존재하게 되었으며, 모든 종류의 편리함과 가능성을 제공한다. 그러나 이러한 도구들은 높은 computational re...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Astra: 일반적인 인터랙티브 월드 모델과 자동회귀 디노이징

최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Selfi: 3D Geometric Feature Alignment를 통한 자기 개선 재구성 엔진

Novel View Synthesis (NVS)는 전통적으로 Structure‑from‑Motion에서 얻은 알려진 카메라 파라미터와 결합된 명시적인 3D inductive biases를 가진 모델에 의존해 왔습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 효율적으로 동적 장면을 D4RT 하나씩 재구성하기

비디오에서 동적 장면의 복잡한 기하학 및 움직임을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 큰 도전 과제이다. 이 논문은 intr...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 고충실도 텍스트 인식 이미지 복원을 위한 Unified Diffusion Transformer

텍스트 인식 이미지 복원 (TAIR)은 손상된 텍스트 내용이 포함된 저품질 입력으로부터 고품질 이미지를 복원하는 것을 목표로 합니다. While diffusion models pro...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LiDAS: 야간 인식을 위한 조명 구동 동적 능동 감지

야간 환경은 카메라 기반 인식에 상당한 도전을 제기합니다. 기존 방법들은 장면 조명에 수동적으로 의존하기 때문입니다. 우리는 Lighting-...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 단일 이미지에서 Self-Evolving 3D 씬 생성

단일 이미지에서 고품질의 텍스처가 적용된 3D 장면을 생성하는 것은 비전 및 그래픽 분야에서 근본적인 과제로 남아 있습니다. 최근의 image-to-3D generators는 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] UniLayDiff: 콘텐츠 인식 레이아웃 생성을 위한 통합 Diffusion Transformer

Content-aware layout generation은 그래픽 디자인 자동화에서 중요한 작업으로, 시각적으로 매력적인 요소들의 배치를 원활하게 만드는 데 초점을 둡니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 라벨 없이도 문제없다: Visual Reasoners를 Multimodal Verifiers로 훈련

시각적 추론은 어려운 작업으로, 정확한 객체 그라운딩과 복잡한 공간 관계에 대한 이해가 모두 필요합니다. 기존 방법들은 두 가지 진영으로 나뉩니다: ...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] UAV 이미지 세그멘테이션을 위한 가속 회전 불변 컨볼루션

회전 불변성은 UAV 항공 이미지에서 정밀한 객체 수준 분할에 필수적이며, 대상은 임의의 방향을 가질 수 있고 미세한 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] SATGround: 공간 인지 기반 접근법을 통한 원격 탐사에서의 Visual Grounding

Vision-language models (VLMs)은 원격 탐사를 위한 강력한 범용 도구로 부상하고 있으며, 다양한 작업에 걸쳐 정보를 통합하고 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 저해상도 이미지 잠재 임베딩을 위한 Siamese-Driven Optimization in Image Captioning

Image captioning은 시각 장애인을 돕고, 콘텐츠 관리 시스템을 개선하며, 인간‑컴퓨터 상호작용을 향상시키는 등 많은 분야에서 필수적입니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] MatteViT: 고주파 인식 문서 그림자 제거와 그림자 매트 가이드

문서 그림자 제거는 디지털화된 문서의 선명도를 향상시키는 데 필수적입니다. 고주파 디테일(예: 텍스트 가장자리 및 선)을 보존하는 것은 중요합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 엣지 디바이스에서 연합 피부 병변 분류를 위한 멀티모달 Swin Transformer의 Skewness-Guided Pruning

최근 몇 년간 고성능 computer vision 모델이 medical imaging에서 눈부신 성공을 거두었으며, 일부 skin lesion classification 시스템은 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 포즈 기반 수화 스포팅 via an End-to-End Encoder Architecture

Automatic Sign Language Recognition (ASLR)은 청각 장애인과 청인 커뮤니티 간의 격차를 메우는 중요한 분야로 부상했습니다. 그러나, 수화‑...

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 조건부 형태 발생: Neural Cellular Automata를 통한 구조적 숫자의 자생적 생성

생물학적 시스템은 놀라운 형태형성 가소성을 보여주며, 단일 유전체가 지역 화학 신호에 의해 유도되는 다양한 특수화된 세포 구조를 인코딩할 수 있다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Voxify3D: 픽셀 아트와 볼류메트릭 렌더링

Voxel art는 게임 및 디지털 미디어에서 널리 사용되는 독특한 스타일링이지만, 3D meshes로부터 자동 생성하는 것은 상충하는 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 관계형 시각 유사성

인간은 단순히 attribute similarity만 보는 것이 아니라 relational similarity도 본다. 사과는 둘 다 붉은 과일이기 때문에 peach와 비슷하지만, Earth도…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] UnityVideo: 통합 멀티모달 멀티태스크 학습을 통한 World-Aware 비디오 생성 향상

최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만, 단일 모달리티 조건에 의해 제한되어 전체적인 작업을 제약합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 한 레이어만 있으면 충분: Pretrained Visual Encoders를 Image Generation에 적용

시각 생성 모델(예: diffusion models)은 일반적으로 압축된 latent spaces에서 작동하여 학습 효율성과 샘플 품질의 균형을 맞춥니다. 동시에, ...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] OpenVE-3M: 대규모 고품질 데이터셋 for Instruction-Guided Video Editing

명령 기반 이미지 편집 데이터셋의 품질과 다양성은 지속적으로 증가하고 있지만, 대규모 고품질 데이터셋은 아직 부족합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] WorldReel: 일관된 기하학 및 모션 모델링을 통한 4D 비디오 생성

최근 비디오 생성기들은 놀라운 photorealism을 달성하지만, 3D에서는 근본적으로 일관성이 부족합니다. 우리는 WorldReel을 소개합니다, 이는 natively 4D 비디오 생성기입니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Lang3D-XL: 대규모 장면을 위한 언어 임베디드 3D 가우시안

언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...

#research #paper #ai #computer-vision

Newer posts

Older posts