[Paper] XR 환경에서 오픈셋 객체 탐지를 위한 사용자 프롬프트 전략 및 프롬프트 강화 방법
Open-set object detection (OSOD)은 객체를 위치시키면서 추론 시에 알려지지 않은 클래스들을 식별하고 거부합니다. 최근 OSOD 모델들은 벤치마크에서 좋은 성능을 보이고 있습니다.
Open-set object detection (OSOD)은 객체를 위치시키면서 추론 시에 알려지지 않은 클래스들을 식별하고 거부합니다. 최근 OSOD 모델들은 벤치마크에서 좋은 성능을 보이고 있습니다.
Astronomical imaging은 실용적인 관측 제약 하에서 여전히 noise‑limited 상태이며, 표준 calibration pipelines는 주로 structured artifacts와 …
언어 모델을 기반으로 한 자율 AI 과학자들의 급속한 발전에도 불구하고, 출판용 일러스트레이션을 생성하는 일은 여전히 노동 집약적인 병목 현상이다…
Vision-language 모델은 도메인 쉬프트 하에서 성능 저하가 발생하여 실제 적용 가능성을 제한합니다. 기존 테스트-타임 적응 방법은 computati...
Vision-language models (VLMs)은 표준 비디오 이해 벤치마크에서 인상적인 성능을 보여주지만, 단순 추론 작업에서는 체계적으로 실패한다…
최근 몇 년간, 대형 언어 모델(LLMs)은 정보 검색에서 급속한 진전을 이루었지만, 기존 연구는 주로 텍스트나 정적 멀티...
기존의 멀티모달 대형 언어 모델들은 긴 비디오 이해를 위해 주로 uniform sampling과 single-turn inference에 의존하고 있어, 그 능력을 제한한다…
밀집된 픽셀 단위 주석은 의료 이미지 세그멘테이션에서 여전히 골드 스탠다드이지만, 비용이 많이 들고 확장성을 제한합니다. 반면에, 많은 d...
최근 멀티모달 대형 언어 모델(MLLMs)의 의료 진단에 대한 언어적 역량에도 불구하고, 우리는 최첨단 MLLM조차도 중요한 …
Early-exit neural networks는 충분한 confidence가 달성될 때 intermediate predictions를 허용함으로써 inference latency를 줄이는 데 인기를 얻고 있습니다. Howev...
현대 diffusion/flow 기반 이미지 생성 모델은 일반적으로 두 가지 핵심 특성을 보인다: (i) 다단계 샘플링을 사용하고, (ii) 잠재…
우리는 UEval이라는 벤치마크를 도입합니다. 이는 이미지와 텍스트를 모두 생성할 수 있는 통합 모델을 평가하기 위한 것입니다. UEval은 1,000개의 전문가가 선정한 질문으로 구성됩니다.
동적 객체를 조작하는 것은 Vision-Language-Action (VLA) 모델에게 여전히 해결되지 않은 과제이며, 정적 조작에서 강력한 일반화 능력을 보임에도 불구하고, str...
대형 비전-언어 모델(VLMs)은 원본 이미지에서 고전적인 시각 착시 현상에 대해 ‘정확하게’ 답변하는 경우가 많지만, 착시 현상의 사실이...
Audio-Visual Foundation Models는 사운드와 시각 콘텐츠를 공동으로 생성하도록 사전 학습된 모델로, 최근 다중‑...
프루닝에서, Lottery Ticket Hypothesis는 큰 네트워크가 희소 서브네트워크, 즉 winning tickets를 포함하고 있으며, 이들은 별도로 훈련되어 t...와 일치하도록 할 수 있다고 제시한다.
Full-image relighting은 대규모 구조화된 paired data를 수집하기 어려운 점과 물리적 … 때문에 여전히 도전적인 문제로 남아 있다.
Pancreatic ductal adenocarcinoma (PDAC), 가장 치명적인 고형 악성 종양 중 하나로, 종종 늦은 단계에서 수술이 불가능한 상태로 발견됩니다. 선행 연구들의 회고적 검토는 …
현재 generative video models는 text and image prompts로부터 새로운 콘텐츠를 생성하는 데 뛰어나지만, 기존 pre-recorded videos를 편집하는 데 중요한 격차를 남겨두고 있습니다, ...
Creative image generation은 새로운 고품질 이미지를 생산하고 경계를 확장하려는 필요에 의해 주도되는 매력적인 연구 분야로 부상했습니다.
우리 모두 그런 상황을 겪어봤을 겁니다: 맛있는 파스타 한 접시를 앞에 두고, 모든 그램을 수동으로 피트니스 앱에 기록하려고 할 때. 이는 지루하고, ‘낙관적인’ 인간 오류에 취약합니다.
로봇 조작에서 큰 잠재력을 제공하는 유능한 Vision-Language-Action (VLA) 기반 모델은 작업 전반에 걸쳐 충실하게 일반화될 것으로 기대된다...
Latent-space optimization 방법은 counterfactual explanations을 위해, model predictions을 변경하는 최소한의 semantic perturbations으로 구성되며, 모호성을 물려받는다.
Talking Head Generation은 음성 및 단일 초상 이미지로부터 자연스러운 말하는 비디오를 합성하는 것을 목표로 합니다. 이전 3D talking head generation 방법…
Text-Based Person Search (TBPS)는 자연어 설명을 사용하여 대규모 갤러리에서 보행자 이미지를 검색하는 것을 목표로 합니다. 이 작업은 공공 안전에 필수적입니다.
Kaggle에서 Python을 사용한 이미지 분류 시작하기를 위한 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravit...
공리적 비민감성을 측정하는 올바른 방법 왜 당신의 XAI 메트릭이 거짓말을 할 수 있는지 — 그리고 우리가 그것을 고친 방법 만약 실제로 어떻게 …를 측정하려고 시도해 본 적이 있다면
최근의 진전에도 불구하고, 의료 foundation models는 시각적 이해와 generation이라는 본질적으로 상충되는 목표를 가지고 있기 때문에 이를 통합하는 데 여전히 어려움을 겪고 있다.
최근 3D shape generation 분야의 발전은 인상적인 결과를 달성했지만, 대부분의 기존 방법은 깨끗하고 가려지지 않으며 잘 분할된 입력에 의존합니다. 이러한 co...
실내 환경은 물체가 움직이거나 나타나거나 사라짐에 따라 변화합니다. 이러한 동역학을 포착하려면 시간적으로 일관된 instance identities를 유지해야 합니다...
생성 AI 시대에, 중요한 의료 작업조차 점점 자동화되는 가운데, radiology report generation (RRG)은 여전히 최적이 아닌 metric에 의존하고 있다.
Vision-Language-Action (VLA) 모델은 엔드투엔드 자율 주행 시스템을 위한 매우 효과적인 플래닝 모델로 부상하고 있습니다. 그러나 현재 연구들은 대부분 …
비전-언어 모델(VLMs)이 점점 더 복잡하고 멀티모달 작업을 수행함에 따라, 키-밸류(KV) 캐시의 급격한 성장으로 인해 상당한 메모리와 컴퓨…
대규모 가축 사육 시설은 인간 건강과 환경에 중대한 위험을 초래하며, 감염성 질병과 같은 위협에도 취약합니다.
Diffusion models는 이제 고품질의 다양하고 풍부한 샘플을 생성하며, 보다 강력한 모델에 대한 관심이 증가하고 있습니다. 비록 ensembling은 잘 알려진 방법으로…
우리는 Map2Thought를 제안한다, 이는 3D VLMs에 대해 명시적이고 해석 가능한 공간 추론을 가능하게 하는 프레임워크이다. 이 프레임워크는 두 가지 핵심 구성 요소에 기반한다: Metr...
PubMed-OCR는 PubMed Central Open Access PDF에서 파생된 과학 논문들의 OCR 중심 코퍼스입니다. 각 페이지 이미지에는 Google Cloud Vision을 사용하여 주석이 달려 있습니다.
다중 계층 접근 방식으로 세분화, 색 보정 및 도메인별 향상 게시물: From RGB to Lab: AI 이미지 합성에서 색 왜곡 해결
우리는 카메라와 객체가 모두 움직이는 동적 환경에서 새로운 시점 합성(NVS)을 위한 자체 감독 프레임워크인 WildRayZer를 제시한다. 동적 콘텐츠…
우리는 이미지에서 객체의 내재적 속성을 편집하기 위한 diffusion 기반 방법인 Alterbute를 소개합니다. 색상, 질감, 재료 등을 변경할 수 있으며, ...
Vision-Language Models (VLMs)는 시각 인코더의 출력만을 연결하는 조잡하고 비대칭적인 연결을 사용함으로써 심각한 visual feature bottleneck을 초래한다.
최근 엔드투엔드 자율주행 분야의 진보는, 파운데이션 모델에서 추출한 패치 정렬 특징을 사용해 훈련된 정책이 Out-...에 대해 더 잘 일반화한다는 것을 보여준다.
최근 video models의 발전은 특히 long video understanding에서 엄청난 진전을 보여주었습니다. 그러나 현재 benchmarks는 주로 ...
본 논문에서는 3D 인간 동작과 2D 인간 비디오의 생성이 본질적으로 결합되어 있음을 발견한다. 3D 동작은 설득력 있는 …
오늘날 가장 강력한 비디오-언어 모델(VLM)은 여전히 독점적이다. 가장 강력한 오픈-웨이트 모델은 독점 VLM에서 생성된 합성 데이터에 의존하거나, effecti...
Adaptive video streaming은 지난 몇 년간 비디오 스트리밍을 개선하는 데 기여했습니다. 비트레이트, 비디오 품질 등과 같은 코딩 성능 목표 사이의 균형을...
Talking head generation은 가상 현실(VR)에서, 특히 다중 턴 대화를 포함하는 사회적 시나리오에서 점점 더 중요해지고 있습니다. 기존 접근 방식은…
시각 관찰로부터 물리적 행동을 추론하는 것은 물리적 세계에서 machine intelligence를 발전시키기 위한 기본적인 능력이다. 이를 달성하려면...