[Paper] RoParQ: 패러프레이즈 인식 정렬을 통한 대형 언어 모델의 패러프레이즈 질문에 대한 견고성 향상
대형 언어 모델(LLM)은 종종 바뀐 형태의 질문에 답할 때 일관되지 않은 행동을 보이며, 이는 깊은 이해보다는 표면 수준의 패턴에 의존하고 있음을 시사한다.
대형 언어 모델(LLM)은 종종 바뀐 형태의 질문에 답할 때 일관되지 않은 행동을 보이며, 이는 깊은 이해보다는 표면 수준의 패턴에 의존하고 있음을 시사한다.
Illumination inconsistency는 다중 뷰 3D 재구성에서 근본적인 도전 과제입니다. 햇빛 방향, 구름 양, 그리고 그림자의 변동은 일관성을 깨뜨립니다.
이 연구는 시간적 불규칙성, 샘플링...와 같은 문제들을 해결하기 위해 다중 스케일 시간 정렬 네트워크(Multi-Scale Temporal Alignment Network, MSTAN)를 기반으로 한 위험 예측 방법을 제안한다.
Vision Language Action 모델은 대규모 사전 학습된 비전 및 언어 표현을 활용함으로써 범용 로봇 조작을 크게 발전시켰습니다…
블록체인 보안은 채굴자(운영자)가 프로토콜을 벗어나 수익을 늘리려는 selfish mining에 의해 위협받습니다. selfish mining은 악화됩니다.
Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...
Reward feedback learning (ReFL)은 인간 선호에 맞춰 이미지 생성을 정렬하는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 생성으로 확장하는 데는 ...
멀티레벨 빠른 다중극 알고리즘(MLFMA)에서 근거리(P2P) 연산자는 메모리 지역성 부족으로 인해 GPU에서 성능 병목 현상이 됩니다. 이 작업은 …
강화 학습에 대한 안전 보증을 확보하는 것은 실제 작업에 적용 가능성을 달성하기 위한 주요 과제입니다. 안전 방패는 표준 강화 학습 에이전트에 추가적인 보호 계층을 제공하여, 에이전트가 환경과 상호 작용할 때 사전에 정의된 안전 제약을 위반하지 않도록 보장합니다. 이러한 방패는 일반적으로 사전 학습된 모델이나 런타임 검증 메커니즘을 활용하여, 위험한 행동이 실행되기 전에 이를 차단하거나 안전한 대체 행동으로 교체합니다. 이 접근 방식은 특히 안전이 중요한 로봇 공학, 자율 주행, 의료 및 산업 자동화와 같은 분야에서 유용합니다. 방패는 에이전트가 탐색 과정에서 발생할 수 있는 예기치 않은 위험을 최소화하면서도, 학습 효율성을 크게 저해하지 않도록 설계되어야 합니다. 핵심 아이디어는 다음과 같습니다. 1. **안전 제약 정의**: 환경에서 허용 가능한 행동 집합을 명시적으로 규정합니다. 2. **실시간 검증**: 에이전트가 선택한 행동이 안전 제약을 만족하는지 실시간으로 검사합니다. 3. **대체 행동 생성**: 안전 제약을 위반하는 경우, 안전한 대체 행동을 자동으로 생성하거나 기존 안전 정책에 따라 행동을 수정합니다. 4. **학습 통합**: 방패 메커니즘을 강화 학습 알고리즘에 통합하여, 에이전트가 안전한 행동을 지속적으로 학습하도록 유도합니다. 이러한 안전 방패는 강화 학습 시스템이 실제 세계에 적용될 때 발생할 수 있는 위험을 크게 감소시켜, 보다 신뢰할 수 있는 인공지능 솔루션을 구현하는 데 기여합니다.
Alzheimer’s disease는 인지 기능 저하를 특징으로 하는 쇠약해지는 질환입니다. 질병을 시기 적절하게 식별하는 것은 ...
A fundamental theoretical question in network analysis is to determine under which conditions community recovery is possible in polynomial time in the Stochastic Block Model (SBM).
The key limitation of the verification performance lies in the ability of error detection. With this intuition we designed several variants of pessimistic verif... 검증 성능의 주요 제한은 오류 탐지 능력에 있습니다. 이러한 직관을 바탕으로 우리는 비관적 검증의 여러 변형을 설계했습니다...