[Paper] 15분 안에 Sim-to-Real 휴머노이드 보행 학습
대규모 병렬 시뮬레이션은 로봇의 강화 학습(RL) 훈련 시간을 며칠에서 몇 분으로 단축시켰습니다. 그러나 빠르고 신뢰할 수 있는 sim-to…
대규모 병렬 시뮬레이션은 로봇의 강화 학습(RL) 훈련 시간을 며칠에서 몇 분으로 단축시켰습니다. 그러나 빠르고 신뢰할 수 있는 sim-to…
자율 주행 정책은 일반적으로 인간 시연을 통한 open-loop behavior cloning으로 학습됩니다. 그러나 이러한 정책은 covariate shift 때문에 ...
우리는 LLM CHESS를 소개합니다, 이는 large language models에서 추론 및 지시 수행 능력의 일반화를 탐색하도록 설계된 평가 프레임워크입니다 (...
Offline Reinforcement Learning (RL)은 추가적인 상호작용 데이터를 수집하기 어려운 경우, 사전에 수집된 데이터셋으로부터 정책을 학습할 수 있는 유망한 방법을 제공합니다.
Study Objectives: Wrist accelerometry는 수면‑각성 상태를 추정하는 데 널리 사용됩니다. 이전 연구들은 cross‑device 일반화 없이 깨어 있음 감지 성능이 낮음을 보여주었습니다.
리소스가 제한된 엣지 디바이스에서의 Federated Learning (FL)은 중요한 과제에 직면합니다: Deep Neural Networks (DN…을(를) 학습하는 데 필요한 계산 에너지.
GUI grounding은 자연어 명령을 복잡한 사용자 인터페이스의 정확한 영역과 맞추는 것을 목표로 합니다. 고급 멀티모달 대형 언어 모델은 강력한…
글로벌 capacity for mineral processing은 필수적인 clean energy technology를 구축하는 데 필요한 critical minerals에 대한 수요를 충족시키기 위해 빠르게 확대되어야 합니다.
RL이 reasoning capabilities에 기여하는 메커니즘—새로운 기술의 합성을 장려하는지, 아니면 기존 행동을 단순히 증폭시키는지—는 아직 남아 있다.
Deep Research Agents (DRAs)는 반복적인 정보 검색 및 합성을 통해 분석가 수준의 보고서를 자동으로 생성하는 것을 목표로 합니다. 그러나 대부분의 기존 DRA…
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 향상시켜, 자율 에이전트가 ...
대규모 언어 모델(LLMs)의 부상은 에이전트에 대한 관심 급증을 촉발했으며, 이는 에이전트 프레임워크의 빠른 성장으로 이어졌습니다. 에이전트 프레임워크는 소프트웨어...