[Paper] ASTRO: 동역학 기반 궤적 롤아웃을 통한 적응형 스티칭
오프라인 강화 학습(RL)은 사전 수집된 데이터셋으로부터 에이전트가 최적 정책을 학습하도록 합니다. 그러나, 최적이 아닌 및 단편적인 데이터를 포함하는 데이터셋은...
오프라인 강화 학습(RL)은 사전 수집된 데이터셋으로부터 에이전트가 최적 정책을 학습하도록 합니다. 그러나, 최적이 아닌 및 단편적인 데이터를 포함하는 데이터셋은...
머신러닝 모델은 진단, 날씨 예측, NLP, 자율 주행 등과 같은 분야에서 좋은 성능을 보이지만, 그들의 제한된 불확실성 처리...
우리는 SuperIntelliAgent를 소개합니다. 이는 학습 가능한 작은 diffusion model(learner)과 고정된 large language model을 결합한 agentic learning framework입니다.
생성적 세계 모델(generative world models)의 최근 발전은 정적 장면 합성(static scene synthesis)에서 시작해 개방형 게임 환경(open-ended game environments)을 만드는 데 있어 눈에 띄는 진전을 가능하게 했습니다, …
최근 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 모델의 발전으로, 간단한 텍스트만으로도 시각적으로 매력적이고 역동적인 비디오를 생성할 수 있게 되었습니다...
자동화된 취약점 패치는 소프트웨어 보안에 필수적이며, 최근 Large Language Models(LLMs)의 발전은 자동화된 …에 대한 유망한 역량을 보여줍니다.
Underwater object tracking은 wavelength dependent attenuation과 scattering 때문에 어려우며, 이는 깊이와 물 조건에 따라 외관을 크게 왜곡합니다.
우리는 LFM2, 효율적인 온‑디바이스 배포와 강력한 작업 능력을 위해 설계된 Liquid Foundation Models 패밀리를 소개합니다. 하드웨어‑인‑루프 아키텍처를 사용하여…
Split learning은 모델을 분산 디바이스에서 학습시켜 데이터 공유를 피함으로써 데이터 프라이버시 문제를 해결하는 방법으로 잘 알려져 있습니다, 따라서 데이터 공유를 초래하는…
이란의 중소기업(SMEs)은 점점 더 Telegram을 활용하여 판매를 진행하고 있으며, 실시간 참여가 전환에 필수적입니다. 그러나, dev...
Direct Preference Optimization (DPO)은 다양한 분야에서 널리 사용되는 인간 피드백을 통한 강화 학습(RLHF) 방법입니다. 최근 연구는 증가…
우리는 learning-augmented 설정에서, $n$개의 offline 정점과 $n$개의 online 정점을 갖는 random arrival order model에서 online unweighted bipartite matching 문제를 연구한다.