[Paper] Mobile-O: 모바일 기기에서의 통합 멀티모달 이해 및 생성
통합 멀티모달 모델은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 기존 모델들은 그러나 여전히 data-hungry하고 너무 …
3058 posts from this source
통합 멀티모달 모델은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 기존 모델들은 그러나 여전히 data-hungry하고 너무 …
우리는 tttLRM이라는 새로운 대형 3D 재구성 모델을 제안한다. 이 모델은 Test-Time Training (TTT) 레이어를 활용하여 장기간 컨텍스트와 자동 회귀(autoregressive) 3D 재구성을 가능하게 한다.
LLM 에이전트는 코드 실행, 도구, 그리고 최근에 도입된 에이전트 스킬 기능에 의해 빠르게 진화하고 있습니다. 스킬은 사용자가 LLM 애플리케이션을 확장할 수 있게 합니다.
우리는 훈련된 분류기 앙상블에 대한 사후 보정 불확실성을 연구한다. 구체적으로, 우리는 aleatoric(라벨 노이즈)과 epistemic(모델) 불확실성을 모두 고려한다.
실제 세계 관측으로부터 시뮬레이션 준비된 장면을 추정하는 것은 하위 계획 및 정책 학습 작업에 필수적입니다. 안타깝게도 기존 방법들은 …
Mean Field Games (MFGs)은 대규모 인구 모델에서 상호작용을 모델링하기 위한 원칙적인 프레임워크를 제공합니다: 규모가 커짐에 따라 인구 동역학은 결정론적으로 변합니다,…
Data visualization 규칙은 디자인과 인지에 대한 수십 년간의 연구에서 도출된 것으로, 신뢰할 수 있는 차트 커뮤니케이션을 보장합니다. 이전 연구에서는 대규모…
대형 언어 모델(LLMs)의 부상과 함께, 이들은 Retrieval‑Augmented Generation(RAG)과 같은 응용 분야에서 중요한 역할을 하게 되었습니다. 그러나 이러한 …
Epidemiological models는 vaccination status, mask usage, social distancing adherence와 같은 self-reported 행동 데이터를 점점 더 많이 활용하여 질병 확산을 예측한다.
현재 대규모 모델 추론을 위한 강화 학습(reinforcement learning) 목표는 주로 기대 보상(expected rewards)을 최대화하는 데 초점을 맞추고 있습니다. 이 패러다임은 도메인에 과적합될 수 있습니다.
목표: 불필요한 추론을 피하면서 대형 언어 모델(LLMs)을 활용한 의료 질문 응답(MedQA)의 효율성을 향상시키는 것.
대형 언어 모델(LLMs)은 어떻게 자신이 아는 것을 알까요? 이 질문에 답하는 것은 사전 학습 데이터가 종종 ‘블랙 박스’—즉, 알 수 없는 형태이기 때문에 어려웠습니다.
긴 시간 범위의 작업을 해결하려면 로봇이 고수준 의미 추론과 저수준 물리적 상호작용을 통합해야 합니다. Vision-language models (VLMs) ...
검증 가능한 보상을 이용한 강화 학습(RLVR)은 감독을 활용하여 추론 언어 모델(RLMs)을 훈련시키는 유망한 접근법으로 떠오르고 있다.
우리는 [Goel et al. 2017]에서 소개한 적대적 주입 모델에서의 온라인 학습을 연구한다. 여기서 라벨이 붙은 예시들의 스트림은 주로 i.i.d. 방식으로 추출된다…
전문가 주석에 대한 의존은 오랫동안 인공지능을 생물의학에 적용하는 데 있어 주요 속도 제한 단계였습니다. While supe...
오류 제한 손실 압축은 오늘날 고성능 컴퓨팅에서 급증하는 과학 데이터 양을 해결하기 위한 유망한 방법으로 여겨져 왔습니다.
Retrieval-augmented generation (RAG)은 외부에서 검색된 문서에 기반해 생성 과정을 조건화함으로써 대형 언어 모델(LLMs)을 향상시키지만, 검색의 효과는…
에지 기반 표현은 시각적 이해를 위한 기본적인 단서이며, 초기 시각 연구에 뿌리를 두고 오늘날에도 여전히 중심적인 원리입니다. 우리는 이…
대형 언어 모델(LLMs)은 인간이 정보를 접근하는 방식에 중요한 역할을 합니다. 핵심 사용은 서면 요청을 이해하는 데 의존하지만, 우리의 이해…
본 연구에서는 대형 언어 모델(LLM)의 출력을 유한 알파벳에서 추출된 무한한 기호 시퀀스를 생성하는 정보원으로 간주합니다.
Large language models은 복잡한 사회‑기술 시스템에 배치되고 있으며, 이는 현재 alignment 실천의 한계를 드러냅니다. 우리는 …
LLM 기반 애플리케이션은 대형 언어 모델을 복잡한 작업 실행을 위한 핵심 추론 구성 요소로 활용함으로써 소프트웨어 생태계를 빠르게 재구성하고 있습니다. Th...
LLM 기반 다중 에이전트 시스템(MAS)이 복잡한 작업에 점점 더 많이 배치됨에 따라, 그 신뢰성을 보장하는 것이 시급한 과제가 되었습니다. MAS가 ...