[Paper] 짧은 시간 시퀀스로부터 잠재 위상 추론을 위한 SHallow REcurrent Decoders (LAPIS-SHRED)
공간과 시간 모두에서 희소한 관측(sparse observations)으로부터 전체 spatio-temporal dynamics를 재구성하는 것은 측정이 제한적이기 때문에 복잡계(complex systems)에서 여전히 핵심적인 과제이다.
공간과 시간 모두에서 희소한 관측(sparse observations)으로부터 전체 spatio-temporal dynamics를 재구성하는 것은 측정이 제한적이기 때문에 복잡계(complex systems)에서 여전히 핵심적인 과제이다.
우리는 TRACE, 메쉬 가이드 3DGS 편집 프레임워크를 제시한다. 이 프레임워크는 자동화되고 고충실도의 씬 변환을 달성한다. 비디오 디퓨전을 명시적인 3...
Primitive 기반 방법인 3D Gaussian Splatting은 최근에 novel-view synthesis 및 관련 reconstruction tasks에서 state-of-the-art가 되었습니다. Compa...
이 연구는 멀티모달 Large Language Models (LLMs)의 능력을 조사하여 오해를 일으키는 시각화를 식별하고 해석하며, 이러한 관찰을 인식하는...
비지도(self-supervised) 3D 이상 탐지는 고정밀 포인트 클라우드를 획득하는 것이 계산적으로 비용이 많이 든다고 가정하지만, 실제 제조 현장에서는 …
스포츠 훈련이 점점 데이터 기반이 되면서, 주로 경험과 시각적 관찰에 의존하는 전통적인 다트 코칭은 고성능에 점점 부적합해지고 있다.
VisiPrint: AI‑Powered Aesthetic Previews for 3D‑Printed Objects 디자이너, 메이커 및 기타 창작자들은 종종 3D 프린팅을 사용하여 다양한 범위의 제품을 빠르게 프로토타이핑한다.
비디오 생성 모델을 사용한 장면 모델링은 최근 몇 년간 연구 관심이 점점 높아지고 있습니다. 그러나 대부분의 기존 접근 방식은 퍼스펙티브 비디오에 의존합니다.
비디오 디퓨전 모델은 미로와 퍼즐을 푸는 것과 같은 새로운 추론 능력을 보여주지만, 생성 과정에서 어떻게 추론하는지는 거의 이해되지 않는다....
AI-assisted coding은 소프트웨어 실무와 연구 워크플로우를 빠르게 재구성했지만, 오늘날의 모델은 여전히 복잡한 3D 기하학에 대한 올바른 코드를 생성하는 데 어려움을 겪고 있다.
Camouflaged object detection (COD)은 배경과 매우 잘 섞여 있는 대상을 식별하는 것을 목표로 합니다. 최근 연구들은 광학적 특성이…
증강 현실(AR) 장치와 헤드 마운트 디스플레이(HMD)는 수술 중 환자에게 3D 사전 영상 데이터를 직접 겹쳐 표시하도록 돕습니다.
Multimodal deep learning은 조직병리학(histopathology)과 유전체 데이터(genomic data)를 통합하여 뇌종양(brain tumours)의 예후 정확도(prognostic accuracy)를 향상시켰지만, 부피 기반 M...
뇌 구조와 기능이 어떻게 상호작용하는지를 이해하는 것은 지능을 설명하는 데 핵심이며, 그러나 구조와 기능을 동시에 모델링하는 것은 구조와 기능이…
Surgical video understanding은 컴퓨터 보조 수술에 필수적이지만, 기존의 surgical foundation models는 데이터 규모가 제한되어 있습니다,…
외과 수술은 본질적으로 복잡하고 위험하며, 광범위한 전문 지식과 지속적인 집중이 필요하여 변화하는 수술 중 상황을 잘 파악해야 합니다. Computer...
물질 사용 시작(SUI) 위험이 있는 청소년을 조기에 식별하는 것은 중요하지만 어려운 일입니다. 대부분의 예측 변수는 connectivity를 정적이거나 횡단적인 것으로 취급하기 때문입니다…
자동화된 방사선 보고서 요약은 장황한 소견을 간결한 임상 인상으로 압축하는 것을 목표로 하지만, 기존 멀티모달 모델은 종종 ...
항상 켜져 있는 엣지 카메라는 연속적인 비디오 스트림을 생성하며, 중복된 프레임이 정답 결과를 top‑k 검색에서 밀어내어 교차 모달 검색 성능을 저하시킵니다. T...
연합 학습(FL)에서의 백도어 공격은 대부분 합성 코너 패치나 분포 외(OOD) 패턴을 사용해 평가되며, 이는 실제 상황에서 나타날 가능성이 낮다.
human motion의 합성은 빠르게 발전했지만, 현실적인 hand motion과 bimanual interaction은 아직 충분히 탐구되지 않았다. Whole-body models는 종종 fine-gr…
3D human mesh estimation을 위한 라벨이 있는 데이터셋을 확보하는 것은 depth ambiguities와 monocular 이미지에서 3D geometry를 annotating하는 고유한 어려움 때문에 어렵습니다.
현대 Text-to-Image (T2I) diffusion 모델은 놀라운 의미 정렬을 달성했지만, 종종 상당한 다양성 부족으로 고통받으며 특정 결과에 수렴합니다.
조작 중 인간 손과 물체에 대한 정확한 3D 이해는 egocentric computer vision에서 여전히 중요한 도전 과제입니다. 기존 hand‑object …
시각 장면 생성(visual scene generation) 분야에서 엄청난 진전이 이루어져 이제 단일 이미지를 탐색 가능한 3D 세계로 변환하지만, 사운드 없이는 immersion이 완전하지 않습니다. 우리는 ...
로봇 매핑 시스템은 일반적으로 로봇 자체의 센서와 카메라를 사용하여 metric-semantic scene representations를 구축하는 접근 방식을 취합니다. 그러나 이러한 'first person'…
Vision-language models (VLMs)은 다양한 작업에서 인상적인 능력을 보여주었으며, 이러한 모델을 활용해 로봇 학습을 감독하려는 노력을 촉진하고 있습니다.
Flow‑GRPO는 reinforcement learning을 flow models에 성공적으로 적용하지만, 모든 단계에 걸쳐 uniform credit assignment를 사용합니다. 이는 temporal structure를 무시합니다…
Facial recognition systems는 법 집행 및 보안 분야에서 점점 더 많이 배치되고 있으며, 여기서 algorithmic decisions는 상당한 사회적 결과를 초래할 수 있습니다…
엔드포인트 POST /v1/drawings/detection/doors: 건축 평면도 PDF에서 문을 감지합니다. 이전에 업로드된 document_id를 받아 추론을 큐에 넣고, …
멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 입력 충실도를 확장함으로써 더 강력한 시각 이해를 달성하지만, 그 결과 발생하는 visual token의 증가로 인해 공동 …
지난 몇 년간 우리는 모바일‑first AI skin analysis https://skinive.com/ 시스템을 구축해 왔으며, 미국과 캐나다를 제외한 전 세계에서 1,000,000명 이상의 사용자가 이용하고 있습니다.
최근 3D 생성 모델링의 대부분은 diffusion 또는 flow‑matching 방식에 의존합니다. 우리는 대신 완전한 autoregressive 대안을 탐구하고 소개합니다.
Depth from Defocus (DfD)는 포커스 스택으로부터 조밀한 메트릭 깊이 맵을 추정하는 작업이다. 특정 데이터셋에 overfitting하는 기존 연구와 달리, 이 논문은…
Equivariance는 computer vision 모델에서 기본적인 속성이지만, 엄격한 equivariance는 실제 데이터에서 거의 만족되지 않으며, 이는 모델의 성능을 제한할 수 있다.
우리는 복잡하고 장기적인, 인식 중심 비디오 추론을 위한 수동 주석 벤치마크인 PerceptionComp를 소개합니다. PerceptionComp는 설계되었습니다…
전통적인 비주얼 그라운딩(VG)은 주로 텍스트 설명에 의존하여 객체를 위치 지정하는데, 이 패러다임은 본질적으로 언어적 모호성에 어려움을 겪는다…
대규모 학습을 통해 강화된 비전-언어 모델(VLMs)은 이미지와 비디오 이해에서 강력한 성능을 보여주지만, 공간 추론을 수행하는 능력은…
모바일 디바이스는 지속적으로 셀룰러 베이스 스테이션과 상호작용하여 방대한 양의 signaling records를 생성하고, 이는 이해를 위한 광범위한 coverage를 제공합니다.
대규모 비디오 디퓨전 모델은 인상적인 시각적 품질을 달성하지만, 종종 기하학적 일관성을 유지하지 못합니다. 기존 접근 방식은 일관성을 개선합니다.
기존의 generative video compression 방법은 generative models를 기존 코덱 위에 놓인 사후 재구성 모듈로만 사용합니다. 우리는 Generative Vide...
기존 feed-forward 3D Gaussian Splatting 방법은 pixel-aligned primitives를 예측하여, 해상도가 증가함에 따라 primitive 수가 제곱적으로 증가합니다. ...
멀티샷 비디오 생성은 긴 서사적 스토리텔링에 필수적이지만, 현재의 bidirectional architectures는 제한된 상호작용성과 높은 지연…
Vision Foundation Models (VFMs)는 현대 컴퓨터 비전의 초석이 되었으며, 다양한 작업에 걸쳐 강력한 표현을 제공합니다. 최근…
Reference-to-video (R2V) generation은 텍스트 프롬프트와 레퍼런스 이미지를 모두 사용하여 생성 과정을 제어하는 컨트롤러블 비디오 합성 패러다임이다.
Vision-language-action 모델은 자율 주행을 재구성하여 언어를 의사결정 과정에 통합했습니다. 그러나 대부분 기존 파이프라인은 …
인간의 운전 행동은 본질적으로 개인적이며, 이는 장기적인 습관에 의해 형성되고 단기적인 의도에 의해 영향을 받습니다. 개인마다 가속(accel) 방식이 다릅니다.
대규모 변위 optical flow의 정확한 추정은 여전히 중요한 과제이다. 기존 방법들은 일반적으로 iterative local search 및/또는 domain-specific 방식을 활용한다.