[Paper] Large Language Models를 통한 Event-based Context와 Confidence를 이용한 Zero-shot ADL Recognition 개선
스마트 홈에서 IoT 센싱 장치가 수집한 데이터를 처리하여 일상 생활 활동(Activities of Daily Living, ADLs)을 비침해적인 센서 기반으로 인식하는 것은 응용을 지원한다.
스마트 홈에서 IoT 센싱 장치가 수집한 데이터를 처리하여 일상 생활 활동(Activities of Daily Living, ADLs)을 비침해적인 센서 기반으로 인식하는 것은 응용을 지원한다.
Large Language Models는 Security Operations Centers에 변혁적인 도구로 등장했으며, automated log analysis, phishing triage, 그리고 malware …을 가능하게 합니다.
우리는 RefVFX라는 새로운 framework을 제시한다. 이 framework은 복잡한 temporal effects를 reference video에서 target video 또는 image로 feed‑forward manner로 전달한다.
Transformer 아키텍처가 많은 분야를 장악하고 있지만, 그 이차적인 self-attention 복잡도는 대규모 응용에서의 사용을 방해한다. Linear attention ...
대형 비전 언어 모델(LVLMs)은 놀라운 능력을 입증했지만, 다중 이미지에 대한 이해와 추론 능력은 여전히…
Remote sensing change detection은 근본적으로 bi-temporal features의 효과적인 융합과 구별에 의존합니다. 기존 패러다임은 일반적으로 …
유럽 우주국(ESA)은 Argonaut 랜더를 이용한 계획된 달 임무에 대한 야망에 힘입어 신뢰할 수 있는 crater detection에 깊은 관심을 가지고 있습니다.
Vision-Language Models (VLMs)가 Computer-Using Agents (CUAs)를 크게 발전시켰지만, 현재 프레임워크는 장기 작업 흐름에서 견고성에 어려움을 겪고 있습니다...
최근 REPA와 같은 연구들은 외부 의미적 특징(e.g., DINO)으로 diffusion 모델을 안내하는 것이 diffusion 모델의 학습을 크게 가속화할 수 있음을 보여주었다.
Large Vision-Language Models (LVLMs)은 비디오 추론에서 근본적인 딜레마에 직면해 있습니다: 이들은 장황한 추론의 과도한 계산 비용과 … 사이에 끼어 있습니다.
본 연구에서는 분류를 지정된 부분(조각)으로 집중시킬 수 있는 Wasserstein distance의 여러 변형을 분석한다.
우리는 UAIT(Uncommon-sense Action Image-Text) 데이터셋을 제안한다. 이는 시각 언어 모델의 의미 이해 능력을 테스트하기 위해 설계된 새로운 평가 벤치마크이다.