아티팩트에서 적대적 샘플 탐지
개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …
개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.
Inversion-based visual editing은 사용자 지침에 따라 이미지 또는 비디오를 편집하는 효과적이고 training‑free인 방법을 제공합니다. 기존 방법들은 일반적으로 …
Multi-object tracking은 비디오 프레임 전반에 걸쳐 탐지를 연관시켜 객체 정체성을 시간에 따라 유지하는 것을 목표로 합니다. 문헌에서는 두 가지 주요 패러다임이 존재합니다:
최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...
실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …
GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...
프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…
생성형 인공지능(generative artificial intelligence)의 급속한 발전으로 매우 현실적인 가짜 얼굴 이미지가 생성될 수 있게 되었으며, 이는 개인에게 심각한 위협을 초래합니다.
VR에서 물리적으로 현실적인 콘텐츠를 만들려면 종종 복잡한 모델링 도구나 미리 정의된 3D 모델, 텍스처, 애니메이션이 필요하며, 이는 상당한 b...
무인 항공기(UAV)는 재해 후 수색 및 구조에 필수적인 도구이며, 높은 정보 밀도와 급격한 시야 변화와 같은 도전 과제에 직면하고 있다.