computer-vision — Page 27

정렬:

3개월 전 · ai · - · -

[Paper] Multi-view Pyramid Transformer: 덜 세밀하게 보고 더 넓게 보기

우리는 Multi-view Pyramid Transformer (MVP)라는 확장 가능한 멀티뷰 트랜스포머 아키텍처를 제안한다. 이 아키텍처는 수십에서 수백 개에 이르는 대규모 3D 씬을 직접 재구성한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] OneStory: 일관된 멀티샷 비디오 생성과 Adaptive Memory

실제 영상에서 스토리텔링은 종종 여러 샷을 통해 전개됩니다—불연속적이지만 의미적으로 연결된 클립들이 함께 일관된 내러티브를 전달합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 분포 매칭 Variational AutoEncoder

대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] HalluShift++: 언어와 비전을 연결하는 내부 표현 변화를 통한 MLLMs의 계층적 환각

멀티모달 대형 언어 모델(MLLMs)은 시각‑언어 이해 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델은 종종 ling...

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] KAN-Dreamer: Kolmogorov-Arnold Networks를 함수 근사기로서 World Models에서 벤치마킹

DreamerV3는 놀라운 샘플 효율성으로 알려진 최첨단 온라인 모델 기반 강화 학습(MBRL) 알고리즘입니다. 동시에, Kolmogorov-Arno…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 구체적인 티켓 검색으로 네트워크 훈련 역학을 보존하여 복권에 당첨하기

Lottery Ticket Hypothesis은 조밀하고 무작위 초기화된 신경망 내에 매우 희소하고 학습 가능한 서브네트워크('winning tickets')가 존재한다는 것을 주장한다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Arc Gradient Descent: 수학적으로 도출된 Gradient Descent의 재구성, Phase-Aware 및 User-Controlled Step Dynamics

이 논문은 ArcGD 옵티마이저의 공식화, 구현 및 평가를 제시한다. 평가는 처음에 비볼록 벤치마크 함수에 대해 수행된다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] EditThinker: 모든 이미지 편집기를 위한 Iterative Reasoning 활용

Instruction-based image editing은 눈에 띄는 연구 분야로 부상했으며, image generation foundation models의 혜택을 받아 높은 미학적…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] AQUA-Net: 적응형 주파수 융합 및 조명 인식 네트워크를 이용한 수중 이미지 향상

수중 이미지는 파장에 따라 달라지는 빛의 흡수와 산란 때문에 색 왜곡이 심하고, 대비가 낮으며, 흐릿한 외관을 자주 보입니다. Si...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] M4-RAG: 대규모 다언어 다문화 다중모달 RAG

비전-언어 모델(VLM)은 시각 질문 응답(VQA)에서 강력한 성능을 달성했지만, 여전히 정적인 학습 데이터에 제한을 받고 있습니다. Retrieva...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] SIMPACT: 시뮬레이션 지원 행동 계획 using Vision-Language Models

Vision-Language Models (VLMs)는 놀라운 상식 및 의미론적 추론 능력을 보여줍니다. 그러나 이들은 물리적 역학에 대한 근거 있는 이해가 부족합니다…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 줌 인, 클릭 아웃: GUI 그라운딩을 위한 줌 활용 가능성 탐색 및 평가

Grounding은 그래픽 사용자 인터페이스(GUI) 에이전트를 구축하기 위한 기본적인 능력입니다. 기존 접근 방식들은 대규모 바운딩 박스 감독에 의존하지만…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 배경이 분류 및 특징 중요도에 미치는 영향 측정: 딥러닝을 이용한 AV 인식

딥러닝을 위한 설명 가능한 AI(XAI)의 일반적인 접근 방식은 주어진 모델에서 분류 작업에 대한 입력 특징의 중요성을 분석하는 데 초점을 맞춥니다: sal...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Synset Signset Germany: 독일 교통 표지 인식을 위한 합성 데이터셋

본 논문에서는 traffic sign recognition 작업에서 d...의 장점을 결합한 synthesis pipeline 및 dataset을 제시하여 training / testing 데이터를 제공합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 자동차 LiDAR의 물리 기반 시뮬레이션

우리는 blooming, echo pulse width, ambient light를 포함한 자동차용 time-of-flight (ToF) LiDAR 시뮬레이션을 위한 분석 모델을 제시하며, 단계와 함께 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 얼굴 인식을 위한 Synthetic Facial Data Generation Techniques 비교 연구

Facial recognition은 인증 및 식별을 위한 널리 사용되는 방법이 되었으며, 보안 접근 및 실종자 찾기에 활용됩니다. Its ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 자신이 모르는 것을 아는 World Models: Calibrated Uncertainty를 활용한 Controllable Video Generation

최근 생성 비디오 모델의 발전으로 고품질 비디오 합성에서 큰 돌파구가 마련되었으며, 특히 제어 가능한 비디오 생성 분야에서 눈에 띄는 진전이 이루어졌습니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] NICE: 신경 암시적 두경부 모델을 이용한 악교정 수술 예측

Orthognathic surgery는 dentofacial skeletal 변형을 교정하여 occlusal 기능과 facial aesthetics를 향상시키는 중요한 중재입니다. 정확한…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 액티브 비디오 퍼셉션: 에이전틱 롱 비디오 이해를 위한 반복적 증거 탐색

Long video understanding (LVU)은 실제 세계의 질의에 답변하기 위해서는 대부분 …에 묻혀 있는 희소하고 시간적으로 분산된 단서에 의존해야 하기 때문에 어려운 과제입니다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

YOLOv1 논문 워크스루: YOLO가 세상을 처음 본 날

YOLOv1 아키텍처와 처음부터 구현한 PyTorch 구현에 대한 자세한 walkthrough. 게시물: YOLOv1 Paper Walkthrough: YOLO가 처음 세상을 본 날.

#YOLOv1 #object detection #computer vision #deep learning #PyTorch #model walkthrough #neural networks
3개월 전 · ai · - · -

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Light‑X: 카메라 및 조명 제어가 가능한 생성적 4D 비디오 렌더링

최근 조명 제어 분야의 발전은 이미지 기반 방법을 비디오로 확장했지만, 여전히 조명 충실도와 시간적 일관성 사이의 트레이드오프에 직면하고 있다. Mo...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[논문] Value Gradient Guidance for Flow Matching Alignment

흐름 매칭 모델—인기 있고 효과적인 생성 모델 클래스—을 인간 선호와 정렬하기 위한 방법이 존재하지만, 기존 접근 방식은 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 다중 대비 MRI 기반 영아 뇌 딥 세그멘테이션

자기공명영상(MRI)의 분할은 해부학적 구조를 구분함으로써 인간 뇌 발달 분석을 용이하게 합니다. 그러나 영아와 ...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts