[Paper] SwimBird: 하이브리드 자동회귀 MLLMs에서 전환 가능한 추론 모드 유도
멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결함으로써 멀티모달 인식 및 추론에서 눈에 띄는 진전을 이루었습니다. 그러나 대부분의 기존…
멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결함으로써 멀티모달 인식 및 추론에서 눈에 띄는 진전을 이루었습니다. 그러나 대부분의 기존…
인간이 자연어로 제공하는 과제를 완수하기 위해 로봇은 명령을 해석하고, 장면 이해를 위한 관련 질문을 생성하고 답변해야 합니다, ...
최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 공간 추론의 진전은 3D 인코더로부터의 기하학적 사전지식을 점점 더 많이 활용하고 있다. 그러나 대부분은 ...
인간은 명시적인 whole-body movements 수준에서 물체와의 whole-body interactions를 계획하는 경우가 드물다. affordance와 같은 고수준 의도는 목표를 정의한다.
멀티모달 대형 언어 모델(MLLMs)은 최근 보편적인 멀티모달 검색에 적용되었으며, 여기서 체인오브쏘트(Chain-of-Thought, CoT) 추론이 후보...
Vision Foundation Models (VFMs)는 다양한 다운스트림 2D 작업에 적용될 때 눈에 띄는 성공을 거두었습니다. 그 효과에도 불구하고, 종종 …
실시간 장시간 비디오 생성에 대한 최근 접근 방식은 일반적으로 스트리밍 튜닝 전략을 사용하며, 짧은 컨텍스트를 이용해 롱‑컨텍스트 학생을 학습시키려고 시도합니다.
시각 생성 모델의 급속한 발전은 전통적인 평가 접근 방식을 앞서고 있어, Vision-Language Models를 대체 수단으로 채택할 필요가 있다.
Lingo‑Live는 우리 대부분이 느낀 좌절감에서 시작되었습니다: YouTube 동영상이나 화면에 표시된 텍스트를 복사하려고 하면 불가능합니다. 대부분의 사람들은 결국 e...
본 논문에서는 물리적 구현체로서 in vitro cultured cortical neurons 네트워크를 활용한 신경 영감 기반 reservoir computing (RC) 접근법을 제시한다.
강화 학습(RL)을 통한 사후 훈련은 테스트 시 스케일링을 통해 대형 언어 모델(LLMs)의 추론 능력을 크게 향상시켰습니다. 그러나, 확장하는 th...
Dense point tracking은 컴퓨터 비전의 기본적인 문제이며, 비디오 분석부터 로봇 매니퓰레이션에 이르기까지 다양한 응용 분야가 있다. State-of-the-art tracke...
우리는 PerpetualWonder라는 하이브리드 생성 시뮬레이터를 소개합니다. 이 시뮬레이터는 단일 이미지로부터 장기적인, 행동 조건부 4D 씬 생성을 가능하게 합니다. 현재 연구...
최근 연구에 따르면, diffusion models는 pixel-space latents 대신 SSL patch features에 직접 작동함으로써 고품질 이미지를 생성할 수 있음을 보여주었습니다. 하지만...
현재 자동 회귀 Vision Language Models (VLMs)은 일반적으로 이미지를 표현하기 위해 많은 수의 visual tokens에 의존하므로, 더 많은 compute가 필요하게 된다.
포즈와 모션 프라이어는 휴머노이드 로봇공학에서 중요한 역할을 합니다. 이러한 프라이어는 인간 모션 복구(HMR) 분야에서 널리 연구되어 왔으며…
3D 스캐닝 기술의 발전으로 포인트 클라우드는 3D 공간 데이터를 표현하는 데 기본이 되었으며, 그 적용 범위는 다양하게…
우리의 신경망에 대한 이론적 이해는 그들의 실증적 성공에 뒤처지고 있습니다. 중요한 설명되지 않은 현상 중 하나는 왜 그리고 어떻게, ...
인간 손톱 질환은 모든 연령대에서 점차 관찰되며, 특히 노인들 사이에서 흔히 심각해질 때까지 무시되는 경우가 많습니다. 조기 발견…
정기적인 대장내시경 검진 중 전암성 폴립의 정확한 위험 계층화는 대장암(CR…) 발생 위험을 낮추는 데 필수적이다.
Event 카메라는 많은 상황에서 RGB 카메라에 대한 상당한 대안을 제공합니다. 최근에 event 기반 novel-view synthesis에 관한 연구가 있지만, dense 3D mesh…
프리프로덕션 단계에서 영화 제작자와 3D 애니메이션 전문가들은 전체 규모 제작에 들어가기 전에 영화의 가능성을 탐색하기 위해 아이디어를 신속하게 프로토타입해야 하지만, 기존의...
고품질 scientific illustrations는 복잡한 과학 및 기술 개념을 효과적으로 전달하는 데 필수적이지만, 그 수동 제작은 여전히 …
Diffusion 기반 편집 모델은 의미론적 이미지 및 비디오 조작을 위한 강력한 도구로 부상했습니다. 그러나 기존 모델은 부드럽게…
생물학적 형태학의 진화는 자연 세계의 다양성을 이해하는 데 핵심적이지만, 전통적인 분석은 종종 주관적인 편향을 포함한다.
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 거대한 모델 크기와 시각 토큰 수와 관련된 심각한 학습 비효율성 문제를 겪고 있다.
자동회귀 이미지 생성에서 주요 과제는 상호 의존성을 모델링하면서도 독립적인 위치들을 병렬적으로 효율적으로 샘플링하는 것입니다.
비전문가 사용자가 복잡한 인터랙티브 웹사이트를 개발하도록 돕는 것은 LLM‑powered code agents에게 인기 있는 작업이 되었습니다. 그러나 기존 code agents는 …
인간 시각은 foveated 구조를 가지고 있으며, 해상도가 가변적으로 큰 시야의 중심에서 최고에 달한다; 이는 능동적 감지를 위한 효율적인 절충을 반영한다, allo...
Stereo matching은 컴퓨터 비전의 핵심 문제이며, 특히 대형 이미지나 실시간 시스템에서 작업할 때 성능이 중요합니다. 이 포스트에서는…
Pixel diffusion은 이미지를 픽셀 공간에서 직접, 엔드‑투‑엔드 방식으로 생성하여, 두 단계 잠재 모델에서 VAE가 도입하는 아티팩트와 병목 현상을 피합니다.
딥러닝 기반 자동 세분화는 방사선 치료에서 점점 더 많이 사용되고 있지만, 기존 모델은 종종 해부학적으로 타당하지 않은 거짓 양성 결과를 생성하거나 h...
프론티어 모델은 시각 정보를 단순히 받아들이는 멀티모달 대형 언어 모델(MLLMs)에서 통합 멀티모달 모델(UMMs)으로 전환하고 있다.
Reranking은 현대 검색 시스템의 핵심 요소이며, 일반적으로 효율적인 first-stage retriever와 보다 표현력이 풍부한 모델을 결합하여 재…
통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 종종 어려움을 겪으며, 일반적으로 텍스트-투-이미지 생성 및 이미지 편집을…
Tropical forests는 지구의 대부분의 나무 생물다양성을 보유하고 있으며, 전 세계 생태 균형에 필수적이다. 특히 Canopy trees는 불균형적인 역할을 한다.
Out-of-distribution (OOD) 탐지는 딥 뉴럴 네트워크를 안전하게 배포하기 위해 필수적입니다. 최신 사후(post-hoc) 방법들은 일반적으로 OOD 점수 f...
Model editing은 대규모 사전 학습된 모델의 오류를 관련 없는 행동을 변경하지 않고 수정하는 것을 목표로 합니다. 최근 몇몇 연구에서는 vision-language model을 편집했지만…
풍부한 상호작용 하에서 변형 가능한 객체를 시뮬레이션하는 것은 real-to-sim 로봇 조작에서 근본적인 과제로 남아 있으며, 동역학은 환경에 의해 공동으로 구동됩니다.
인간 동작 분석 작업은 시간적 3D 포즈 추정, 동작 예측, 동작 인-비트윈과 같은 작업을 포함하며, 컴퓨터 비전에서 필수적인 역할을 합니다. 그러나...
Carbon Robotics의 Large Plant Model은 농부들이 기계를 재훈련할 필요 없이 새로운 종류의 잡초를 죽일 수 있게 해줍니다....
관상동맥 협착은 심혈관 질환의 주요 원인 중 하나이며, 다중 혈관조영술 영상을 통해 관상동맥을 분석함으로써 진단됩니다. 비록 nu...
광고 이미지 생성은 클릭률(CTR)과 같은 온라인 지표에 점점 더 초점을 맞추고 있지만, 기존 접근 방식은 “원 사이즈 모두에게 맞는” 전략을 채택하고 있다.
최근 유전체 기반 모델들은 DNA를 일차원 토큰 시퀀스로 취급하는 대형 언어 모델(Large Language Model) 아키텍처를 주로 채택합니다. 그러나, 포괄적인 …
World models는 자율 주행에서 데이터 합성을 위한 상당한 가능성을 보여주었습니다. 그러나 기존 방법들은 주로 단일 모달에 집중하고 있습니다...
희소 이미지로부터 3D 장면을 재구성하는 것은 최적화 없이 정확한 geometry와 texture를 복원하는 것이 어려워 여전히 도전적인 과제이다. R...
판매되지 않는 흐릿하고 조명이 부족한 원시 제품 사진에 고민하고 계신가요? 2026년에는 AI product‑photography enhancement를 통해 원시 촬영을 스튜디오 수준의 이미지로 변환할 수 있습니다.
최근 비디오 확산 모델(VDMs)은 시각적으로 인상적인 결과를 만들어내지만, 근본적으로 3D 구조적 일관성을 유지하는 데 어려움을 겪으며, 종종 결과가…