[Paper] CLIP 기반 의미 정렬을 이용한 웹 규모 멀티모달 요약
우리는 Web-Scale Multimodal Summarization을 소개합니다, 웹 소스에서 검색된 텍스트와 이미지 데이터를 결합하여 요약을 생성하는 경량 프레임워크입니다. G...
우리는 Web-Scale Multimodal Summarization을 소개합니다, 웹 소스에서 검색된 텍스트와 이미지 데이터를 결합하여 요약을 생성하는 경량 프레임워크입니다. G...
인간 시각 시스템은 현재 관찰과 이전에 관찰된 정보를 통합하고, 목표와 장면의 변화에 적응하며, 추론을 통해 객체를 추적합니다.
Platonic Representation Hypothesis은 신경망의 표현이 현실에 대한 공통 통계 모델로 수렴하고 있다고 제안합니다. 우리는 … 보여줍니다.
여전히 프로덕션에서 실행되는 15년 된 코드 Haar Cascades는 어디에나 있다. OpenCV의 얼굴 검출기를 사용해 본 적이 있다면, 당신은 해당 방법이 발표된 기술을 사용한 것이다.
인간의 videos를 보면서 manipulation skills를 학습하는 능력은 robot learning을 위한 매우 확장 가능한 새로운 데이터 소스를 열 수 있는 잠재력을 가지고 있다. 여기서,…
효과적이고 일반화 가능한 제어는 비디오 생성에서 여전히 중대한 과제이다. 많은 방법이 모호하거나 작업 특화된 신호에 의존하고 있지만, 우리는 주장한다...
단일(모노큘러) 카메라와 인공지능을 사용하여 Upper Extremity Reachable Workspace (UERW)를 정량화하는 임상적으로 접근 가능한 방법을 검증하기 위해.
Long-sequence streaming 3D reconstruction은 여전히 중요한 미해결 과제이다. 기존의 autoregressive models는 긴 시퀀스를 처리할 때 종종 실패한다. They t...
얼굴 인식(FR) 시스템이 발전함에 따라, 프라이버시 보호 얼굴 인식(PPFR) 시스템은 정확한 인식으로 인기를 얻고 있습니다,…
이미지와 비디오에서 이상을 감지하는 것은 산업 검사, computer-assisted diagnosis 등 여러 실제 문제에 필수적인 작업입니다.
이 논문은 Spectral-Interpretable and -Enhanced Transformer (SIEFormer)라는 새로운 접근법을 제시하며, 스펙트럴 분석을 활용하여 어텐션을 재해석합니다.
자율주행 기술이 광범위한 채택을 향해 발전함에 따라, 다양한 환경 조건에서 안전한 운영 임계값을 결정하는 것이 중요해지고 있다.
Visual illusions은 전통적으로 multi-view consistency와 같은 spatial manipulations에 의존합니다. 이번 연구에서는 새로운 Progressive Semantic Illusions, a novel …
통합 모델은 단일 아키텍처 내에서 멀티모달 이해와 생성을 모두 처리할 수 있지만, 일반적으로 반복 없이 단일 패스로 작동합니다…
Diffusion Transformers를 이용한 실시간 비디오 생성은 3D self-attention의 2차 비용 때문에 병목 현상이 발생하며, 특히 실시간 환경에서…
Supervised fine-tuning (SFT)은 계산 효율성이 높지만 강화 학습(RL)에 비해 일반화 성능이 종종 떨어집니다. 이 차이는 주로…
고품질 3D 텍스처 생성은 현재 주류 멀티‑뷰 디퓨전 파이프라인에 내재된 뷰‑불일치(view‑inconsistency) 때문에 근본적인 과제로 남아 있습니다. ...
두 상 흐름에서의 계면 역학은 운동량, 열, 그리고 물질 전달을 지배하지만, 실험적으로 측정하기는 여전히 어렵습니다. 고전적인 기법들은 침입성…
Unified Multimodal Models (UMMs)는 시각 생성에서 눈에 띄는 진전을 보여주었습니다. 그러나 기존 벤치마크는 주로 Crystallized Intelligence를 평가하며, w...
대규모 멀티모달 모델의 급속한 발전과 함께, 신뢰할 수 있는 judge 및 critic 모델은 개방형 평가와 preference alignment에 필수적이 되었습니다.
Biometric footstep recognition은 걷는 동안 발 아래에 나타나는 사람 고유의 압력 패턴을 기반으로 하는 생체인식 기술로, 응용 분야가 확대되고 있는 신흥 분야입니다.
우리는 경량이면서 효율적인 프레임워크인 PuriLight를 제안한다. 이는 self-supervised monocular depth estimation을 위한 것으로, 계산 효율성의 이중 과제에 대응한다.
실제 세계에서 embodied agents를 위한 데이터 수집은 비용이 많이 들고 위험하기 때문에 확장 가능하고 현실적이며 simulator-ready 3D environments가 필요합니다. 그러나 기존…
Multiple rotation averaging (MRA)는 3D 비전 및 로보틱스 분야에서 전역적으로 일관된 절대 회전을 복구하는 것을 목표로 하는 기본적인 최적화 문제입니다.
액션 라벨의 부족으로 인해 action-controllable world models의 확장이 제한됩니다. latent action learning은 제어 인터페이스를 u...
라벨이 없는 비디오 데이터에서 transferable knowledge를 학습하고 이를 새로운 환경에 적용하는 것은 intelligent agents의 기본적인 능력이다. This work prese...
표현 인코더(representation encoders)를 활용한 생성 모델링(generative modeling)은 효율적이고 고충실도(high-fidelity) 합성을 위한 경로를 제공합니다. 그러나 표준 디퓨전 트랜스포머(diffusion transformers)는 …
인터넷 규모의 비디오에서 Vision‑Language‑Action (VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 latent‑action 목표는 종종 잘못된 것을 학습한다: they r...
우리는 Forensim이라는 attention‑based state‑space 프레임워크를 도입하여 이미지 위조 탐지에서 조작된(타깃) 영역과 소스 영역을 동시에 위치 지정한다....
Out-of-distribution (OOD) detection은 machine learning 시스템을 안전하게 배포하기 위해 중요합니다. 기존의 post-hoc detectors는 일반적으로 model confidence에 의존합니다.
올림픽 피겨 스케이팅은 힘들어 보이지 않는다. 선수들은 얼음 위를 미끄러지듯 달리다가 공중으로 솟아올라 팽이처럼 회전하고, 4‑5 mm 두께의 단일 블레이드에 착지한다.
이 연구는 WorldCompass를 소개한다. 이는 장기 시계열, 인터랙티브 비디오 기반 세계 모델을 위한 새로운 강화 학습(RL) 사후 학습 프레임워크이며, ...
자율 주행에서의 분포 외(OOD) 견고성은 종종 단일 숫자로 축소되어 정책을 무너뜨리는 요인을 감춥니다. 우리는 환경을 다섯…
래스터화된 floorplan 이미지에서 구조화된 vector-graphics 표현을 재구성하는 것은 일반적으로 계산 작업에 필요한 중요한 전제 조건입니다.
세계 모델은 행동 조건부 p...를 통해 에이전트가 환경 역학을 추론하도록 함으로써 구현된 지능의 초석으로 부상했습니다.
markdown !VSSFlow 데모 이미지 https://9to5mac.com/wp-content/uploads/sites/6/2026/02/vssflow-fi.jpg?quality=82&strip=all&w=1600 VSSFlow – 통합 오디오 생성…
Chain-of-Thought 추론은 멀티모달 대형 언어 모델(MLLMs)의 해석 가능성을 높이기 위해 널리 사용되지만, 생성된 ...의 충실도는 아직 충분히 보장되지 않는다.
멀티모달 대형 언어 모델(MLLMs)은 빠르게 발전했지만, 의료 분야에서의 채택은 도메인 커버리지, 모달리티 정렬, ...에 의해 제한됩니다.
딥 뉴럴 네트워크의 분류 성능은 대규모이며 정확하게 주석이 달린 데이터셋에 대한 접근에 크게 의존합니다. 그러나 의료 영상 분야에서는 이러한 데이터셋을 확보하는 것이…
비전 대형 언어 모델(VLLM)의 비전 능력은 언어 능력에 비해 지속적으로 뒤처져 왔습니다. 특히, 수많은 벤치마크 stu...
완전 비지도 세분화 파이프라인은 가장 눈에 띄는 객체를 단순히 찾으려고 합니다(그 객체가 존재한다면). 그 결과, 문헌에 보고된 대부분의 방법은...
멀티모달 디퓨전 트랜스포머(MMDiTs)는 텍스트‑이미지 생성에서 텍스트와 이미지 브랜치를 별도로 유지하고, 양방향 정보 흐름을 통해 ...
Transformer 아키텍처의 부드러움은 일반화, 학습 안정성 및 적대적 견고성 측면에서 광범위하게 연구되어 왔습니다. Ho...
대규모 텍스트-이미지 확산 모델이 시각적 품질을 지속적으로 향상시키고 있지만, 그 규모가 커짐에 따라 최첨단 모델 간의 격차가 확대되고 있습니다.
Instructional video editing은 텍스트 프롬프트만을 사용하여 입력 비디오에 편집을 적용함으로써 직관적인 natural-language control을 가능하게 합니다. 빠른 진행에도 불구하고, 대부분의 m...
Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.
대규모 사전학습 모델을 새로운 작업에 효율적이고 지속적으로 적용하는 것은 실제 환경 배포에 필수적이지만, catastrophic forgetting 때문에 여전히 어려운 과제이다.
다중 이미지 공간 추론은 현재 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제입니다. 단일 시점 인식은 본질적으로 2D이며, 추론…