[Paper] Lang3D-XL: 대규모 장면을 위한 언어 임베디드 3D 가우시안
언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...
언어 필드를 3D 표현에 삽입하면 기하학을 서술적 의미와 연결시켜 공간 환경에 대한 보다 풍부한 의미 이해를 가능하게 합니다. Th...
우리는 Multi-view Pyramid Transformer (MVP)라는 확장 가능한 멀티뷰 트랜스포머 아키텍처를 제안한다. 이 아키텍처는 수십에서 수백 개에 이르는 대규모 3D 씬을 직접 재구성한다.
우리는 그룹 작용에 기반한 위치 인코딩을 위한 통합 프레임워크인 GRAPE (Group RepresentAtional Position Encoding)를 제시한다. GRAPE는 두 가지 …
실제 영상에서 스토리텔링은 종종 여러 샷을 통해 전개됩니다—불연속적이지만 의미적으로 연결된 클립들이 함께 일관된 내러티브를 전달합니다.
LLM 기반 에이전트가 전문가 의사결정 지원에 빠르게 도입되고 있지만, 혼란스럽고 높은 위험이 따르는 상황에서는 팀을 더 똑똑하게 만들지는 못한다: 인간‑AI 팀은…
Carbon-aware schedulers는 flexible workloads를 low carbon intensity 기간에 실행함으로써 data centers의 operational carbon footprint를 줄이는 것을 목표로 합니다.
우리는 오늘날의 대형 언어 모델(LLMs)에 내재된 거대한 잠재력을 활용하는 대형 인과 모델(LCMs) 구축을 위한 새로운 패러다임을 소개합니다. 우리는 설명합니다...
대형 언어 모델(LLM)은 다단계 문제 해결 및 chain-of-thought와 같은 추론이 필수적인 환경에 점점 더 많이 배치되고 있습니다. 그러나, ...
스트림 프로세싱은 다양한 애플리케이션을 위한 실시간 데이터 처리를 지원하는 컴퓨팅 패러다임입니다. 메타에서는 회사 전반에 걸쳐 ...
최근 강화 학습(RL) 기술은 언어 모델에서 인상적인 추론 향상을 가져왔지만, post‑training tr...
대부분의 시각 생성 모델은 이미지를 잠재 공간(latent space)으로 압축한 뒤 diffusion이나 autoregressive 모델링을 적용합니다. 그러나 VAEs와 같은 기존 접근법은 …
쌍을 이룬 서사를 포함한 데이터셋을 활용하여, 대형 언어 모델(LLMs)이 일관되지 않은 이야기와 일관된 이야기를 신뢰성 있게 구분할 수 있는 정도를 조사한다.