[Paper] 단어를 통해 보기: Language Models로 시각 검색 품질 제어
텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.
텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.
Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…
의료 영상 처리는 고차원 부피 데이터, 이질적인 파일 형식, 그리고 도메인 특화 훈련을 처리할 수 있는 특수 소프트웨어를 요구합니다.
!소상공인 매장 업무 효율화 AI 솔루션 ‘모코플렉스’, AI 헤어 스타일링 ‘스타일싱크’ 출시https://besuccess.com/wp-content/uploads/2026/02/%EC%9D%B4%EB%AF%88%EC%A7%80-%EB%A8%8C%EC%86%8C...
통합 멀티모달 모델은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 기존 모델들은 그러나 여전히 data-hungry하고 너무 …
우리는 tttLRM이라는 새로운 대형 3D 재구성 모델을 제안한다. 이 모델은 Test-Time Training (TTT) 레이어를 활용하여 장기간 컨텍스트와 자동 회귀(autoregressive) 3D 재구성을 가능하게 한다.
실제 세계 관측으로부터 시뮬레이션 준비된 장면을 추정하는 것은 하위 계획 및 정책 학습 작업에 필수적입니다. 안타깝게도 기존 방법들은 …
Data visualization 규칙은 디자인과 인지에 대한 수십 년간의 연구에서 도출된 것으로, 신뢰할 수 있는 차트 커뮤니케이션을 보장합니다. 이전 연구에서는 대규모…
긴 시간 범위의 작업을 해결하려면 로봇이 고수준 의미 추론과 저수준 물리적 상호작용을 통합해야 합니다. Vision-language models (VLMs) ...
전문가 주석에 대한 의존은 오랫동안 인공지능을 생물의학에 적용하는 데 있어 주요 속도 제한 단계였습니다. While supe...
에지 기반 표현은 시각적 이해를 위한 기본적인 단서이며, 초기 시각 연구에 뿌리를 두고 오늘날에도 여전히 중심적인 원리입니다. 우리는 이…
우리는 선형 Echo State Networks (ESNs)를 위한 대각화 기반 최적화를 도입하여, 저장소 상태 업데이트의 단계별 계산 복잡성을 감소시킵니다.
이 브리프는 runtime-adaptive, performance-enhanced vector engine을 제시하며, edge AI acceleration을 위한 low-resource, iterative CORDIC-based MAC unit을 특징으로 합니다.
embodied agents가 VR, telepresence, 그리고 digital human 애플리케이션의 중심이 됨에 따라, 그들의 움직임은 speech-aligned gestures를 넘어야 합니다: agents는 turn t...
Autonomous (noise-agnostic) 생성 모델인 Equilibrium Matching과 blind diffusion은 단일, 시간 불변...
Integral Field Spectroscopy (IFS) 설문조사는 공간 및 분광 차원 모두에서 학습할 수 있는 독특한 새로운 환경을 제공하며, pre… 를 밝히는 데 도움이 될 수 있습니다.
딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.
Object detectors는 정상적인 영상 조건에서 강력한 성능을 달성하지만, 블러, 노이즈, 압축, 악천후 등에 노출되면 조용히 실패할 수 있습니다.
우리는 quantum feature extraction 방법을 적용하여 우주 응용 분야의 다중 클래스 이미지 분류를 향상시키는 사례를 보여줍니다. By harnessing the dyna...
저대비 이미지와 모델이 어려워하는 이유 당신은 데이터를 수집하는 데 며칠을 보냅니다. 올바른 architecture를 선택합니다. learning rate를 조정합니다. model을 학습시키고, …
최근 멀티모달 추론의 진보로 이미지 를 해석하고 이를 언어와 연결하며 구조화된 분석 작업을 수행할 수 있는 에이전트가 가능해졌습니다. 확장...
Vision-Language-Action models (VLAs)는 언어 지시를 로봇 제어에 연결할 것을 약속하지만, 실제로는 언어를 충실히 따르지 못하는 경우가 많다. When pr...
대규모 비전-언어 모델(LVLMs)에 대한 블랙박스 적대적 공격은 그래디언트가 없고 복잡한 멀티모달 경계 때문에 어려운 과제입니다. 기존 연구는…
복잡한 장면에서 사용자가 지정한 객체를 검색하는 것은 특히 쿼리가 모호하거나 유사한 객체가 여러 개 포함될 때 어려운 과제입니다. Exi...
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 전문 도구 기반 이미지에 대한 비전‑언어 추론을 확장할 큰 잠재력을 보여주고 있습니다.
Implicit Neural Representations (INRs)는 최근 비디오 압축에서 인상적인 성능을 보여주었습니다. 그러나 별도의 INR을 개별적으로 과적합해야 하기 때문에…
야생 환경에서 인간형 로봇을 사용한 임의 물체에 대한 Visual loco-manipulation은 정확한 end-effector (EE) 제어와 일반화 가능한 이해를 필요로 한다.
Vision-language models (VLMs)는 시각 및 텍스트 모달리티를 공동으로 활용하여 추론하는 것을 목표로 합니다. 추가적인 inference-time computation을 할당하는 것이 ...
인간 인식의 핵심적인 측면은 situated awareness, 즉 주변 물리적 환경과 자신을 연결하고 가능한 행동을 추론하는 능력이다.
시계열 이상 탐지(TSAD)는 즉각적인 포인트 이상(Point Anomalies)과 장기적인 컨텍스트 이상(Context Anomalies)을 모두 식별해야 합니다. 그러나 기존 파운데이션 모델은 …
High-definition (HD) maps는 자율 주행에 필수적이며, 네비게이션 및 플래닝을 지원하기 위해 도로 요소들의 구조화된 표현을 제공합니다. 그러나, ...
Adversarial diffusion 및 diffusion-inversion 방법은 비쌍 이미지-이미지 변환을 발전시켰지만, 각각은 주요 제한점에 직면합니다. 적대적 접근 방식은 …
인간은 시각적 외관을 통해 물체의 재질 특성을 추론할 수 있으며, 이러한 능력은 예술적 묘사에도 확장되어, 유사한 지각적 ...
개요 Structured AI는 건설 설계 엔지니어링을 위한 AI 인력을 구축하고 있습니다. 문제 현재, 수십억 달러와 수개월에 달하는 인간 노력은…
스케치 작업은 본질적으로 순차적인 과정으로, 스트로크가 의미 있는 순서대로 그려져 아이디어를 탐색하고 다듬는다. 그러나 대부분의 생성 모델은...
흉부 방사선 사진 분류기( chest radiograph classifiers )의 임상 배포를 위해서는 새로운 데이터셋(datasets)이 제공될 때 이전에 관찰된 데이터에 대해 재학습 없이 모델을 업데이트할 수 있어야 합니다.
전통적인 에너지에 대한 대안으로 재생 가능 에너지, 특히 태양광 에너지의 사용이 증가함에 따라, 이에 대한 연구 관심이 높아지고 있다.
Endoscopy는 의료 영상에서 필수적이며, 진단, 예후 및 치료에 사용됩니다. 견고한 dynamic 3D reconstruction pipeline을 개발하는 것은 endoscopic vi...
멀티모달 모델에 대한 현재 연구는 generative capabilities를 향상시키면 understanding이 희생되는 경우가 많고, 그 반대도 마찬가지인 핵심적인 과제에 직면해 있습니다.
이 논문은 RaCo라는 경량 신경망을 소개한다. 이 신경망은 다양한 3D 컴퓨터 비전 작업에 적합한 견고하고 다목적 키포인트를 학습하도록 설계되었다. Th...
기존 3D 오픈-보카뷸러리 씬 언더스탠딩 방법들은 주로 2D 파운데이션 모델에서 언어 특징을 추출해 3D 특징 필드에 증류하는 데 중점을 두지만, 대규모...
Visual analogy learning은 텍스트 설명이 아니라 시연을 통해 이미지 조작을 가능하게 하며, 사용자가 복잡한 변환을 지정할 수 있도록 합니다.
우리는 Sphere Encoder를 소개한다. 이는 단일 forward pass로 이미지를 생성할 수 있는 효율적인 generative framework이며, 다단계 diffusion 모델과 경쟁한다.
Neurosim은 dynamic vision sensors, RGB cameras, depth sensors, inertial sensors와 같은 센서를 시뮬레이션하기 위한 빠르고 실시간이며 고성능 라이브러리입니다....
Vision language models (VLMs)은 RGB 이미지에서 강력한 성능을 달성하지만, 열 이미지에는 일반화되지 않는다. Thermal sensing은 중요한 역할을 한다 ...
Articulated objects는 인터랙티브 3D 애플리케이션의 핵심이며, 여기에는 embodied AI, robotics, VR/AR이 포함되고, 기능적 파트 분해와 kinematic …
ground-level imagery와 geo-registered satellite maps를 정렬하는 것은 지도 작성, 내비게이션 및 상황 인식에 필수적이지만, 여전히 도전 과제로 남아 있다.
Task-specialized models는 agentic healthcare systems의 핵심을 이루며, agents가 disease diagnosis와 같은 작업 전반에 걸쳐 clinical queries에 답할 수 있게 합니다, ...