[논문] Web World Models
언어 에이전트는 점점 더 행동하고, 기억하고, 학습할 수 있는 지속적인 세계를 필요로 합니다. 기존 접근 방식은 두 극단에 놓여 있습니다: 기존 웹 fra...
언어 에이전트는 점점 더 행동하고, 기억하고, 학습할 수 있는 지속적인 세계를 필요로 합니다. 기존 접근 방식은 두 극단에 놓여 있습니다: 기존 웹 fra...
Intrinsic image decomposition은 시각적 이해에 기본적이며, RGB 이미지가 물질 특성, 조명, 그리고 시점 의존 효과를 얽혀 있기 때문입니다. Rec...
인간은 시각 관찰을 통해 보행을 학습하며, 먼저 시각적 내용을 해석한 뒤 행동을 모방합니다. 그러나 최첨단 인간형 로봇 보행 시스템은…
Omnimodal large language models는 audio와 visual modalities를 통합하는 데 큰 진전을 이루었지만, 종종 세밀한 cross-modal 이해가 부족합니다.
Spatio-temporal alignment은 자율주행(AD)에서 end-to-end (E2E) 인식의 시간 모델링에 필수적이며, 귀중한 구조적 및 텍스처 정보를 제공합니다.
Generative models는 새로운 형태를 합성하기 위해 3D vision에서 점점 더 많이 사용되고 있지만, 그들의 생성이 훈련 s...에 의존하는지는 아직 명확하지 않다.
췌장 종양(pancreatic neoplasm)의 조기 발견은 주요 임상적 딜레마이며, 이는 주로 종양이 최소한의 대비 경계(minimal contrast margin)로 나타날 가능성이 높기 때문입니다.
적외선 야간 시야 카메라를 이용한 화재 감지 정확도 향상은 여전히 어려운 과제이다. 이전 연구들은 강력한 성능을 보고하였다...
멀티모달 대형 언어 모델(MLLMs)을 화학에 통합하는 것은 과학적 발견을 혁신할 것을 약속하지만, 그들의 …
Large Language Model (LLM) 에이전트는 디지털 영역에서는 능숙하지만, 물리적 세계에 배치하는 데 있어 형성의 어려움 때문에 큰 격차에 직면하고 있다.
멀티모달 대형 언어 모델(LLMs)은 방대한 임상 지식을 바탕으로 스캔을 해석함으로써 의료 영상 분야에 새로운 패러다임을 제시합니다.
개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.
Inversion-based visual editing은 사용자 지침에 따라 이미지 또는 비디오를 편집하는 효과적이고 training‑free인 방법을 제공합니다. 기존 방법들은 일반적으로 …
Multi-object tracking은 비디오 프레임 전반에 걸쳐 탐지를 연관시켜 객체 정체성을 시간에 따라 유지하는 것을 목표로 합니다. 문헌에서는 두 가지 주요 패러다임이 존재합니다:
최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...
실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …
GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...
프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…
생성형 인공지능(generative artificial intelligence)의 급속한 발전으로 매우 현실적인 가짜 얼굴 이미지가 생성될 수 있게 되었으며, 이는 개인에게 심각한 위협을 초래합니다.
VR에서 물리적으로 현실적인 콘텐츠를 만들려면 종종 복잡한 모델링 도구나 미리 정의된 3D 모델, 텍스처, 애니메이션이 필요하며, 이는 상당한 b...
무인 항공기(UAV)는 재해 후 수색 및 구조에 필수적인 도구이며, 높은 정보 밀도와 급격한 시야 변화와 같은 도전 과제에 직면하고 있다.
기사 URL: https://github.com/ruvnet/wifi-densepose 댓글 URL: https://news.ycombinator.com/item?id=46388904 점수: 10 댓글: 1
LAION-400M은 새로운 아이디어를 촉발하기 위해 설계된 거대한 공개 자원입니다. 약 4억 개의 이미지가 짧은 캡션과 짝을 이루며, 정제되고 CLIP‑filtered됩니다.
개요 AutoAugment는 효과적인 이미지 증강 정책을 자동으로 발견하는 방법입니다. 많은 단순 변환을 체계적으로 테스트함으로써—예를 들어…
고해상도 비디오 생성은 디지털 미디어와 영화에 필수적이지만, diffusion 모델의 이차 복잡성 때문에 계산적으로 병목 현상이 발생합니다, mak...
우리는 최신 비전-언어 모델(VLMs)에서 상당한 인기 편향을 드러내며, 이 모델들은 유명한 건물에 대해 최대 34% 더 높은 정확도를 달성한다 ...
우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...
Segment Anything Model 2 (SAM2)는 비전 파운데이션 모델로서 프롬프트 기반 비디오 객체 분할에서 크게 발전했지만, 실제 배포는 아직 어려운 상황입니다.
대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.
Data processing inequality은 정보 이론적 원칙으로, 신호의 정보 내용은 관측을 처리함으로써 증가시킬 수 없다고 명시한다.
그래픽 사용자 인터페이스(GUI) 에이전트는 모바일 기기에서 자주 실행되는 장시간 지연 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 그러나, ex...
표에서의 Structured data extraction은 스캔된 문서와 디지털 아카이브의 document image analysis에서 중요한 역할을 합니다. 많은 방법들이 …
현대 외과 시스템은 지능형 장면 이해에 점점 더 의존하여 향상된 수술 중 안전을 위한 시기적절한 상황 인식을 제공합니다. Within...
현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …
hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.
최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...
최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...
인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…
현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.
본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.
포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...
우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...
시뮬레이터는 사실상 무제한에 가까운 주행 데이터를 생성할 수 있지만, 시뮬레이션에서의 imitation learning 정책은 여전히 견고한 closed-loop performance를 달성하는 데 어려움을 겪는다.
대규모 비전-언어 모델(VLM)은 일반적으로 이미지 또는 비디오 프레임당 수백에서 수천 개의 visual tokens를 처리하며, 이로 인해 제곱 규모의 attention 비용이 발생하고 ...
Vision-language models (VLM)은 일반적인 이해에 뛰어나지만 동적 공간 추론(DSR), 즉 객체의 변화를 추론하는 데는 약합니다.
3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.