[Paper] 픽셀-퍼펙트 시각 기하 추정
이미지에서 깨끗하고 정확한 기하학을 복원하는 것은 로봇공학 및 증강현실에 필수적입니다. 그러나 기존의 geometry foundation models는 여전히 ...
이미지에서 깨끗하고 정확한 기하학을 복원하는 것은 로봇공학 및 증강현실에 필수적입니다. 그러나 기존의 geometry foundation models는 여전히 ...
우리는 online multicalibration에 대한 엄격한 하한을 증명하고, marginal calibration과의 information‑theoretic 구분을 확립합니다. 일반적인 설정에서 …
Functional grasping with dexterous robotic hands는 도구 사용 및 복잡한 조작을 가능하게 하는 핵심 역량이지만, 진행은 두 가지 pe...에 의해 제한되어 왔습니다.
Referring Expression Segmentation (RES)와 Comprehension (REC)은 각각 표현에 의해 설명된 객체를 분할하고 탐지하며, Referring Expression…
언어 모델이 점점 더 능력해짐에 따라, 사용자들은 정확한 응답뿐만 아니라 다양한 인간의 선호에 맞는 행동을 제공하기를 기대합니다.
manipulation data의 다양성, 양, 그리고 품질은 효과적인 robot policies를 학습하는 데 중요합니다. 그러나 하드웨어 및 물리적 설정 제한 때문에…
대형 언어 모델은 ‘환각’—의미적 잡음에 의해 유발되는 논리적 불일치에 시달립니다. 우리는 현재 아키텍처가 ‘Metric…’에서 작동한다고 제안합니다.
카메라 제어 생성 비디오 재렌더링 방법, 예를 들어 ReCamMaster와 같은 방법은 눈에 띄는 진전을 이루었습니다. 그러나 단일 뷰에서의 성공에도 불구하고…
인간은 물체가 interaction을 통해 어떻게 움직이거나 변할지를 손쉽게 예측할 수 있다—컵이 들어 올려지는 모습, 칼이 베이는 모습, 뚜껑이 닫히는 모습을 상상하면서.
우리는 machine learning과 artificial intelligence를 사용했습니다: 1) 뉴스와 소셜 미디어를 통해 국가별 평화 수준을 측정하기 위해, 2) on-line 도구를 개발하기 위해...
현실 세계에서 추론과 계획을 할 수 있는 에이전트는 자신의 행동 결과를 예측하는 능력이 필요합니다. world models는 이러한 …
저는 stochastic differential equations (SDEs)와 deep generative models를 통합하여 머신러닝에서 불확실성 정량화를 개선하는 새로운 프레임워크를 제안합니다.
One-shot prediction은 pretrained foundation models를 새로운 작업에 단 하나의 라벨이 있는 예시만 사용하여 빠르게 적응시킬 수 있게 하지만, 원칙적인 불확실성 정량화가 부족합니다.
우리는 textsc{MineNPC-Task}를 제시한다. 이는 사용자 제작 벤치마크이자 평가 하니스로, 메모리 인식형·혼합 주도형 LLM 에이전트를 오픈 월드 Minecraft에서 테스트하기 위한 것이다....
Large Language Models (LLMs)은 tool calling과 tool usage에서 놀라운 능력을 보여왔지만, 잘못된 tool을 선택하는 hallucinations 문제를 겪는다.
MoE3D는 깊이 경계를 선명하게 하고 기존 피드포워드 3D 모델에서 발생하는 flying-point artifacts(빨간색으로 강조된)를 완화하도록 설계된 mixture-of-experts 모듈이다.
보편적인 AI는 점점 더 엄격한 자원 제약 하에서 저지연 및 에너지 효율적인 계산을 제공하는 온‑디바이스 학습 시스템에 의존하고 있다. Liq...
주식 시장 가격 예측은 금융, 통계, 경제학이 교차하는 영역에 의존하는 중요한 학제간 연구 분야입니다. Forecas...
Large vision-language models (VLMs)은 매우 높은 성능을 가지고 있지만, 시각적 증거보다 텍스트 프롬프트를 선호함으로써 종종 환각을 일으킵니다. 우리는 이 실패 모드를 연구합니다...
본 연구에서는 Johns Hopkins Fall Risk Assessment Tool (JHFRAT)에서의 낙상 위험 예측을 추가적인 임상적으로 의미 있는 측정과 더 잘 맞추는 것을 목표로 합니다.
Entity linking(텍스트에서 모호한 언급을 지식 베이스의 엔터티에 매핑하는 작업)은 지식 그래프 구축, 질문 응답과 같은 작업에서 기본적인 단계이다.
연구자들이 문헌 검토나 가설 생성과 같은 자율 작업에 large language models를 배치할 때, 컴퓨팅 비용이 빠르게 누적됩니다. A...
대형 언어 모델(LLMs)은 텍스트 기반 코드 자동화를 혁신했지만, 그래프 지향 엔지니어링 워크플로우에서의 잠재력은 아직 충분히 탐구되지 않았다....
대규모 언어 모델(LLMs)의 급속한 발전은 향후 모델을 훈련하기 위해 합성 데이터를 사용하는 것에 대한 관심이 증가하고 있습니다. 그러나 이는 자기‑c…