[Paper] 증거 연결: 견고한 Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards
강화 학습(RL)은 LLM 기반 딥 서치 에이전트를 향상시키는 핵심 기술로 부상했습니다. 그러나 기존 접근 방식은 주로 이진...
강화 학습(RL)은 LLM 기반 딥 서치 에이전트를 향상시키는 핵심 기술로 부상했습니다. 그러나 기존 접근 방식은 주로 이진...
뇌전도(EEG)를 이용한 자동 발작 감지는 환자 간 발작 역학의 큰 변동성 및 기록 조건 때문에 여전히 어렵다.
우리는 단일 이산 시계열만을 사용하여 확산성 stochastic processes와 deterministic signals를 구별하는 실용적인 프레임워크를 개발합니다. 우리의 …
최근 대형 언어 모델(Large Language Model, LLM) 에이전트의 발전으로 인해 광범위한 도구 호출이 필요한 복잡한 다중 턴 에이전시 작업이 가능해졌으며, 대화는…
대규모 언어 모델(LLMs)은 인간이나 비 Long CoT LLMs의 모방으로부터 효과적인 장기 사고 연쇄(Long CoT) 추론을 학습하는 데 종종 실패한다. 이를 이해하기 위해…
기업 보안 팀은 AI-enabled attacks에 의해 입지를 잃고 있습니다 — 방어가 약해서가 아니라 위협 모델(threat model)이 변했기 때문입니다. AI agents가 이동함에 따라…
기업 보안 팀은 AI 기반 공격에 의해 입지를 잃고 있습니다 — 방어가 약해서가 아니라 위협 모델이 변했기 때문입니다. AI 에이전트가 이동함에 따라 ...
safety-critical domains에서는 linguistic ambiguity가 심각한 결과를 초래할 수 있습니다; surgical 환경에서 “Pass me the vial”와 같은 모호한 명령은 재앙적인 결과를 초래할 수 있습니다.
네트워크를 그래프 형태로 표현하고 정상 연결을 사용하여 링크 예측 모델을 학습하는 것은 이상 기반 침입 탐지의 효과적인 방법이다. Exis...
실제 환경에 배치된 Deepfake 탐지 시스템은 인식할 수 없는 교란을 만들어 모델 성능을 저하시키는 적대자들의 위협을 받는다.
Internet of Things (IoT) 장치의 빠른 배치는 환경 및 도시 현상을 실시간으로 모니터링하는 대규모 센서 네트워크를 구축하게 했습니다. Com...
Deformable multi-contrast image registration은 서로 다른 영상 대비 간의 복잡하고 비선형적인 강도 관계 때문에 도전적이면서도 중요한 과제입니다.