[Paper] 프리즘 가설: 시맨틱과 픽셀 표현을 통합 자동 인코딩으로 조화
Deep representations across modalities는 본질적으로 얽혀 있다. 본 논문에서는 다양한 semantic과 …의 spectral characteristics를 체계적으로 분석한다.
Deep representations across modalities는 본질적으로 얽혀 있다. 본 논문에서는 다양한 semantic과 …의 spectral characteristics를 체계적으로 분석한다.
현실적인 human-human interactions을 생성하는 것은 고품질의 개별 body와 hand motion뿐만 아니라 일관된 coor...
우리는 Perception Encoder Audiovisual, PE-AV를 소개합니다. 이는 오디오와 비디오 이해를 위해 스케일된 대조 학습으로 훈련된 새로운 인코더 계열입니다. Built o…
최근에 Chain-of-Thought (CoT)의 도입으로 통합 모델의 생성 능력이 크게 향상되었습니다. 하지만 현재 ...
우리는 단일 monocular RGB video에서 장면 내 객체 조작을 재구성하는 문제를 해결하기 위한 최초의 시스템을 구축했습니다. 이는 ill-posed 문제이기 때문에 도전적입니다.
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 의미론적 과제에서 인상적인 성능을 달성했지만, 그들의 공간 지능—견고하고 기반이 되는 …
장거리이며 기하학적으로 일관된 비디오를 생성하는 것은 근본적인 딜레마를 제시한다: 일관성은 픽셀 공간에서 3D geometry에 대한 엄격한 준수를 요구하지만, ...
배경: 고해상도 MRI는 진단에 필수적이지만, 긴 촬영 시간 때문에 임상에서의 활용이 제한됩니다. 슈퍼해상도(SR)는 스캔 후 해상도를 향상시킬 수 있습니다.
우리는 멀티모달 대형 언어 모델(LLMs)을 활용하여 9,562개의 아카이브 이미지 스캔을 통해 306,070개의 독일 특허(1877‑1918) 데이터셋을 우리 LLM‑b를 사용해 구축합니다.
당뇨병성 망막증(DR)은 전 세계적으로 예방 가능한 실명의 주요 원인 중 하나이며, 정확한 자동 진단 시스템이 요구됩니다. 일반 도메인 비전‑la…
멀티모달 대형 언어 모델은 많은 시각 및 텍스트 추론 작업에서 인간과 같은 성능을 달성했지만, 세밀한 공간…
최근 self-supervised Joint-Embedding Predictive Architectures (JEPAs) 분야의 획기적인 연구는 Euclidean 표현을 iso... 방향으로 정규화하는 것이 중요함을 입증했습니다.
개요 YOLOv6는 공장, 매장 및 모든 카메라를 위해 설계된 object detection의 새로운 단계입니다. 속도와 신뢰성을 중시하는 팀에 의해 구축되었습니다.
Vision-Language-Action (VLA) 모델은 시각과 언어를 구현된 제어와 정렬하지만, 텍스트에만 의존할 경우 객체 지시 능력이 제한됩니다.
생성 모델에서의 artistic style transfer는 여전히 중요한 도전 과제이며, 기존 방법들은 종종 모델 파인튜닝이나 추가적인 …
멀티모달 대형 언어 모델(MLLMs)은 시각적 및 텍스트 표현을 결합하여 풍부한 추론 능력을 가능하게 합니다. 그러나 높은 계산 비용…
Vocabulary-free fine-grained image recognition은 고정된 인간 정의 레이블 세트 없이 메타 클래스 내에서 시각적으로 유사한 카테고리를 구별하는 것을 목표로 합니다. Exi...
Deep neural networks는 종종 shortcuts을 이용한다. 이러한 shortcuts은 training data에서 output labels와 연관되어 있지만 task semantics와는 무관한 spurious cues이다.
신화: Computer Vision은 이미지에만 효과적이고 비디오에는 적용되지 않는다. 현실: Computer Vision은 이미지와 비디오 모두를 처리할 수 있다, 기술 발전 덕분에...
손글씨 텍스트 인식 및 광학 문자 인식 솔루션은 현대 데이터 처리에서 뛰어난 결과를 보여주지만, 효율성은 La...
소개 Person re-identification(re-ID)은 서로 다른 카메라 뷰에서 동일한 개인을 찾는 작업입니다. 이는 보안 분야에서 중요한 응용을 가지고 있습니다.
개요: 레이블이 없는 데이터로 패턴을 인식하도록 컴퓨터를 가르치는, 즉 unsupervised learning이라고 알려진 방법이 간단한 조정 덕분에 더 접근하기 쉬워졌습니다...
현대 잠재 확산 모델(LDM)은 일반적으로 픽셀 수준 재구성을 위해 주로 최적화된 저수준 변분 오토인코더(VAE) 잠재 공간에서 작동합니다.
단일 카메라 깊이 추정은 여전히 어려운 과제로, Depth Anything V2 (DA-V2)와 같은 최신 기반 모델들은 실제 세계 이미지에서 멀리 떨어진…