[Paper] VisualActBench: VLMs가 인간처럼 보고 행동할 수 있을까?
Vision-Language Models (VLMs)는 시각 환경을 인식하고 설명하는 데 있어 인상적인 진전을 이루었습니다. 그러나 그들의 능력은 능동적으로 추론하는 데…
Vision-Language Models (VLMs)는 시각 환경을 인식하고 설명하는 데 있어 인상적인 진전을 이루었습니다. 그러나 그들의 능력은 능동적으로 추론하는 데…
Visual navigation은 상세한 매핑과 path planning에 의존하는 전통적인 robotic navigation pipelines에 대한 실용적인 대안으로 부상했습니다. 그러나 c...
Backpressure (BP) 라우팅 및 스케줄링은 무선 멀티홉 네트워크를 위한 확립된 resource allocation 방법으로, fully distributed operation으로 주목받고 있다.
무인 항공기(UAV)와 무인 지상 차량(UGV)의 통합은 지능형 자율 시스템 개발에 점점 더 중심적인 역할을 하고 있습니다.
복잡한 text-based environments에서의 장기 계획은 open-ended action spaces, ambiguous observations, 그리고 sparse feedback 때문에 상당한 도전을 제시한다.
Metadata vocabularies는 FAIR 및 FARR 데이터 원칙을 발전시키는 데 필수적이지만, 그 개발은 제한된 인적 자원과 일관되지 않은 s...
최근 단백질 언어 모델(PLM)의 발전은 단백질 서열을 이해하는 데 놀라운 능력을 보여주었습니다. 그러나, 차이가 어느 정도까지...
현대 언어 모델과 그 내부 작동 방식은 믿을 수 없을 정도로 복잡하지만, 최근 연구(Golowich, Liu & Shetty; 2025)는 간단하고 잠재적인 …을 제안했습니다.
우리는 과도한 스무딩 측정으로 자주 사용되는 두 함수형 사이의 차이를 분석한다: 비정규화 그래프 라플라시안에 의해 유도된 Dirichlet energies…
Knowledge Distillation (KD)은 모델 압축을 위한 유망한 기술로 부상했지만, 중요한 제한점에 직면하고 있습니다: (1) 하이퍼파라미터에 대한 민감도 요구…
PDF에서 수학 공식들을 정확하게 파싱하는 것은 large language models를 훈련하고 academic literature로부터 scientific knowledge bases를 구축하는 데 필수적입니다.
Linear spectral mixture models (LMM)은 구성 물질(endmembers)과 그에 해당하는 비율(abundance)을 분리하는 간결한 형태를 제공합니다.
사전 학습된 멀티모달 대형 언어 모델(MLLMs)은 임상 추론, 진단 지원 및 보고서 생성 등을 위해 의료 AI 시스템에 점점 더 많이 배치되고 있습니다.
대형 언어 모델(LLMs)은 인간 커뮤니케이션, 의사결정 지원, 콘텐츠 생성 및 정보 검색을 점점 더 중개하고 있습니다. 인상적인 유창성에도 불구하고...
우리는 순차적 의사결정을 위한 고전적인 패러다임인 bandit problems에 Conformal Prediction (CP)을 통합한 새로운 프레임워크인 Conformal Bandits를 소개합니다.
시간 인식은 특히 긴 동영상을 이해하고 복잡한 질문에 답하는 데 있어 omni 대형 언어 모델의 기본적인 능력입니다. 이전 접근 방식은...
요인화된 조인(factorized joins) 위의 학습 모델은 공유된 공약수(shared cofactors)를 식별하고 사전 계산함으로써 중복 계산을 피합니다. 이전 연구에서는 …
이 장에서는 Large Language Models의 법률 분야 적용을 탐구하며, 전통적인 법률 업무를 최적화하고 보강할 수 있는 잠재력을 보여줍니다.
이 논문은 온라인 상담에서 세분화된 메시지 분류를 위한 새로운 공개 데이터셋인 OnCoCo 1.0을 소개한다. 이는 새로운 통합 시스템인 c...에 기반한다.
저전력 마이크로컨트롤러(MCU) 하드웨어는 현재 단일 코어 아키텍처에서 주로 멀티코어 아키텍처로 진화하고 있습니다. 동시에, 새로운 임베디드...
최근 퍼베이시브 컴퓨팅과 머신러닝의 융합은 수많은 서비스를 탄생시켰으며, 이는 경제 및 사회 활동의 거의 모든 영역에 영향을 미치고 있다.
문화는 인간-대-인간 상호작용의 핵심 요소이며, 우리가 타인을 인식하고 교류하는 방식에 중요한 역할을 합니다. 효율성의 향상…
역할 수행 에이전트(RPAs)는 동시에 많은 상충되는 기술을 마스터해야 합니다 — multi-turn instructions를 따르고, domain knowledge를 보여주며, ...
Pareto set을 구축하는 것은 Large Language Models (LLMs)의 capability‑efficiency trade‑offs를 탐색하는 데 핵심적입니다; 그러나 기존의 merging techniques는 …