[Paper] 폐쇄‑루프 엔드‑투‑엔드 자율 주행을 위한 모델 기반 정책 적응
엔드‑투‑엔드(E2E) 자율주행 모델은 오픈‑루프 평가에서 강력한 성능을 보여왔지만, 종종 연쇄 오류와 일반화 부족으로 어려움을 겪는다.
엔드‑투‑엔드(E2E) 자율주행 모델은 오픈‑루프 평가에서 강력한 성능을 보여왔지만, 종종 연쇄 오류와 일반화 부족으로 어려움을 겪는다.
Latent reasoning은 Transformer 언어 모델에서 새로운 개발을 의미하며, chain-of-thought에 비해 추론 길이를 압축하는 잠재력을 보여주었습니다.
적대적 공격은 학습 기반 3D 포인트 클라우드 모델에 중대한 위협을 가하며, 보안에 민감한 응용 분야에서 그 신뢰성을 심각하게 저해합니다.
언어 모델이 전문가 상황에서 AI 정체성을 신뢰할 수 있게 공개하지 못한다면, 사용자는 그 모델의 역량 한계를 신뢰할 수 없습니다. 이 연구는 자기 투명성...
고리형 펩타이드는 세포 내 부위를 표적하는 데 유망한 방식이지만, 세포막 투과성은 여전히 주요 병목 현상이며, 제한된 …에 의해 악화됩니다.
이 연구는 시간적 불규칙성, 샘플링...와 같은 문제들을 해결하기 위해 다중 스케일 시간 정렬 네트워크(Multi-Scale Temporal Alignment Network, MSTAN)를 기반으로 한 위험 예측 방법을 제안한다.
Vision Language Action 모델은 대규모 사전 학습된 비전 및 언어 표현을 활용함으로써 범용 로봇 조작을 크게 발전시켰습니다…
Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...
예를 들어 기후 분야와 같은 실제 데이터는 종종 공간적으로 격자화된 시계열 데이터 또는 유사한 구조를 가진 데이터로 구성됩니다. 기본적인 …
강화 학습에 대한 안전 보증을 확보하는 것은 실제 작업에 적용 가능성을 달성하기 위한 주요 과제입니다. 안전 방패는 표준 강화 학습 에이전트에 추가적인 보호 계층을 제공하여, 에이전트가 환경과 상호 작용할 때 사전에 정의된 안전 제약을 위반하지 않도록 보장합니다. 이러한 방패는 일반적으로 사전 학습된 모델이나 런타임 검증 메커니즘을 활용하여, 위험한 행동이 실행되기 전에 이를 차단하거나 안전한 대체 행동으로 교체합니다. 이 접근 방식은 특히 안전이 중요한 로봇 공학, 자율 주행, 의료 및 산업 자동화와 같은 분야에서 유용합니다. 방패는 에이전트가 탐색 과정에서 발생할 수 있는 예기치 않은 위험을 최소화하면서도, 학습 효율성을 크게 저해하지 않도록 설계되어야 합니다. 핵심 아이디어는 다음과 같습니다. 1. **안전 제약 정의**: 환경에서 허용 가능한 행동 집합을 명시적으로 규정합니다. 2. **실시간 검증**: 에이전트가 선택한 행동이 안전 제약을 만족하는지 실시간으로 검사합니다. 3. **대체 행동 생성**: 안전 제약을 위반하는 경우, 안전한 대체 행동을 자동으로 생성하거나 기존 안전 정책에 따라 행동을 수정합니다. 4. **학습 통합**: 방패 메커니즘을 강화 학습 알고리즘에 통합하여, 에이전트가 안전한 행동을 지속적으로 학습하도록 유도합니다. 이러한 안전 방패는 강화 학습 시스템이 실제 세계에 적용될 때 발생할 수 있는 위험을 크게 감소시켜, 보다 신뢰할 수 있는 인공지능 솔루션을 구현하는 데 기여합니다.
A fundamental theoretical question in network analysis is to determine under which conditions community recovery is possible in polynomial time in the Stochastic Block Model (SBM).
The key limitation of the verification performance lies in the ability of error detection. With this intuition we designed several variants of pessimistic verif... 검증 성능의 주요 제한은 오류 탐지 능력에 있습니다. 이러한 직관을 바탕으로 우리는 비관적 검증의 여러 변형을 설계했습니다...