[Paper] SARAH: 공간 인식 실시간 에이전시 인간
embodied agents가 VR, telepresence, 그리고 digital human 애플리케이션의 중심이 됨에 따라, 그들의 움직임은 speech-aligned gestures를 넘어야 합니다: agents는 turn t...
embodied agents가 VR, telepresence, 그리고 digital human 애플리케이션의 중심이 됨에 따라, 그들의 움직임은 speech-aligned gestures를 넘어야 합니다: agents는 turn t...
Autonomous (noise-agnostic) 생성 모델인 Equilibrium Matching과 blind diffusion은 단일, 시간 불변...
Integral Field Spectroscopy (IFS) 설문조사는 공간 및 분광 차원 모두에서 학습할 수 있는 독특한 새로운 환경을 제공하며, pre… 를 밝히는 데 도움이 될 수 있습니다.
딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.
Object detectors는 정상적인 영상 조건에서 강력한 성능을 달성하지만, 블러, 노이즈, 압축, 악천후 등에 노출되면 조용히 실패할 수 있습니다.
우리는 quantum feature extraction 방법을 적용하여 우주 응용 분야의 다중 클래스 이미지 분류를 향상시키는 사례를 보여줍니다. By harnessing the dyna...
저대비 이미지와 모델이 어려워하는 이유 당신은 데이터를 수집하는 데 며칠을 보냅니다. 올바른 architecture를 선택합니다. learning rate를 조정합니다. model을 학습시키고, …
최근 멀티모달 추론의 진보로 이미지 를 해석하고 이를 언어와 연결하며 구조화된 분석 작업을 수행할 수 있는 에이전트가 가능해졌습니다. 확장...
Vision-Language-Action models (VLAs)는 언어 지시를 로봇 제어에 연결할 것을 약속하지만, 실제로는 언어를 충실히 따르지 못하는 경우가 많다. When pr...
대규모 비전-언어 모델(LVLMs)에 대한 블랙박스 적대적 공격은 그래디언트가 없고 복잡한 멀티모달 경계 때문에 어려운 과제입니다. 기존 연구는…
복잡한 장면에서 사용자가 지정한 객체를 검색하는 것은 특히 쿼리가 모호하거나 유사한 객체가 여러 개 포함될 때 어려운 과제입니다. Exi...
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 전문 도구 기반 이미지에 대한 비전‑언어 추론을 확장할 큰 잠재력을 보여주고 있습니다.