AI 모델의 예측 설명 능력 향상
고위험 의료 진단에서의 설명 가능성 의료 진단과 같은 고위험 상황에서는 사용자가 컴퓨터 비전 모델이 …
고위험 의료 진단에서의 설명 가능성 의료 진단과 같은 고위험 상황에서는 사용자가 컴퓨터 비전 모델이 …
Multimodal Large Language Models (MLLM) 분류 성능은 평가 프로토콜과 ground truth 품질에 크게 의존합니다. MLLM을 비교하는 연구는 w...
최근 멀티모달 대형 언어 모델(MLLMs)은 인상적인 발전을 이루었지만, 이들은 주로 기존의 자동회귀(autoregressive) 아키텍처를 기반으로 사용하고 있다.
Incremental Few-Shot (IFS) segmentation은 소수의 주석만으로 시간에 따라 새로운 카테고리를 학습하는 것을 목표로 합니다. 2D에서 널리 연구되었지만, 아직 충분히 활용되지…
외과 의사는 단순히 보는 것이 아니라 해석한다. 전문가가 수술 현장을 관찰할 때, 그들은 사용되는 instrument가 무엇인지뿐만 아니라 왜 선택되었는지도 이해한다.
Vision Language Model (VLM) 개발은 주로 모델 크기 확대에 의존해 왔으며, 이는 컴퓨팅 자원이 제한된 모바일 및 엣지 디바이스에 배포하는 것을 방해합니다. such a...
차세대 자율주행 차량(AV)은 실시간 의사결정을 지원하기 위해 대량의 다중소스 및 다중모달(M^2) 데이터를 활용한다. 실제로, 데이터...
우리는 볼륨 메쉬 상에서 데이터 기반 연부 조직 시뮬레이션을 위한 다중해상도 게이트 트랜스포머인 SurgFormer를 소개한다. 고충실도 생체역학 솔버는 …
부정은 기본적인 언어 연산자이지만, diffusion-based generative systems에서는 충분히 모델링되지 못하고 있다. 본 연구에서는 형식적인 접근을 제시한다.
고품질 3D 스트리밍은 다중 카메라에서 제공되며, 많은 AR/VR 애플리케이션에서 몰입형 경험을 위해 필수적입니다. 제한된 뷰 수는 종종 실제…
비디오 이해를 위한 데이터셋이 시간 단위의 길이까지 확장되었지만, 이들은 일반적으로 자연스럽고 즉흥적인(unscripted) 상황과는 다른, 촘촘히 연결된 클립들로 구성됩니다.
하이퍼스펙트럴 이미지(HSI)는 환경 모니터링부터 국가 안보에 이르기까지 다양한 분야에 활용되며, 물질 탐지 및 식별에 사용할 수 있습니다.