computer-vision — Page 32

1개월 전 · ai

[Paper] 엣지 디바이스에서 연합 피부 병변 분류를 위한 멀티모달 Swin Transformer의 Skewness-Guided Pruning

최근 몇 년간 고성능 computer vision 모델이 medical imaging에서 눈부신 성공을 거두었으며, 일부 skin lesion classification 시스템은 ...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 포즈 기반 수화 스포팅 via an End-to-End Encoder Architecture

Automatic Sign Language Recognition (ASLR)은 청각 장애인과 청인 커뮤니티 간의 격차를 메우는 중요한 분야로 부상했습니다. 그러나, 수화‑...

#research #paper #ai #nlp #computer-vision
1개월 전 · ai

[Paper] 조건부 형태 발생: Neural Cellular Automata를 통한 구조적 숫자의 자생적 생성

생물학적 시스템은 놀라운 형태형성 가소성을 보여주며, 단일 유전체가 지역 화학 신호에 의해 유도되는 다양한 특수화된 세포 구조를 인코딩할 수 있다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Voxify3D: 픽셀 아트와 볼류메트릭 렌더링

Voxel art는 게임 및 디지털 미디어에서 널리 사용되는 독특한 스타일링이지만, 3D meshes로부터 자동 생성하는 것은 상충하는 …

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 관계형 시각 유사성

인간은 단순히 attribute similarity만 보는 것이 아니라 relational similarity도 본다. 사과는 둘 다 붉은 과일이기 때문에 peach와 비슷하지만, Earth도…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] UnityVideo: 통합 멀티모달 멀티태스크 학습을 통한 World-Aware 비디오 생성 향상

최근 비디오 생성 모델은 인상적인 합성 능력을 보여주지만, 단일 모달리티 조건에 의해 제한되어 전체적인 작업을 제약합니다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] 한 레이어만 있으면 충분: Pretrained Visual Encoders를 Image Generation에 적용

시각 생성 모델(예: diffusion models)은 일반적으로 압축된 latent spaces에서 작동하여 학습 효율성과 샘플 품질의 균형을 맞춥니다. 동시에, ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] OpenVE-3M: 대규모 고품질 데이터셋 for Instruction-Guided Video Editing

명령 기반 이미지 편집 데이터셋의 품질과 다양성은 지속적으로 증가하고 있지만, 대규모 고품질 데이터셋은 아직 부족합니다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] WorldReel: 일관된 기하학 및 모션 모델링을 통한 4D 비디오 생성

최근 비디오 생성기들은 놀라운 photorealism을 달성하지만, 3D에서는 근본적으로 일관성이 부족합니다. 우리는 WorldReel을 소개합니다, 이는 natively 4D 비디오 생성기입니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai

[Paper] Lang3D-XL: 대규모 장면을 위한 언어 임베디드 3D 가우시안

언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] Multi-view Pyramid Transformer: 덜 세밀하게 보고 더 넓게 보기

우리는 Multi-view Pyramid Transformer (MVP)라는 확장 가능한 멀티뷰 트랜스포머 아키텍처를 제안한다. 이 아키텍처는 수십에서 수백 개에 이르는 대규모 3D 씬을 직접 재구성한다.

#research #paper #ai #computer-vision
1개월 전 · ai

[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

실제 영상에서 스토리텔링은 종종 여러 샷을 통해 전개됩니다—불연속적이지만 의미적으로 연결된 클립들이 함께 일관된 내러티브를 전달합니다.

#research #paper #ai #computer-vision

Newer posts

Older posts