[Paper] SWE 에이전트를 위한 컨텍스트 검증기로서의 Agentic Rubrics
검증은 에이전트를 개선하는 데 중요합니다: 이는 Reinforcement Learning을 위한 보상 신호를 제공하고 Test-Time Scaling을 통한 추론 시 이점을 가능하게 합니다.
검증은 에이전트를 개선하는 데 중요합니다: 이는 Reinforcement Learning을 위한 보상 신호를 제공하고 Test-Time Scaling을 통한 추론 시 이점을 가능하게 합니다.
멀티 에이전트 대형 언어 모델 (LLM) 시스템은 복잡한 작업 분해와 협업 문제 해결을 위한 강력한 아키텍처로 부상했습니다. 그러나,…
machine learning을 healthcare data에 적용하는 것은 종종 standardized하고 semantically explicit representation이 부족하여 제한을 초래한다.
Pathology foundation models (PFMs)은 computational pathology의 중심이 되었으며, whole-slide images에서 feature extraction을 위한 general encoders를 제공하는 것을 목표로 합니다.
우리는 현실적인 뉴스 환경에서 재무 허위 정보를 평가하기 위한 대형 언어 모델용 벤치마크인 RFC Bench를 소개합니다. RFC Bench는 단락 수준에서 작동합니다…
Remote photoplethysmography (rPPG)는 상용 카메라로 촬영한 얼굴 비디오에서 혈액량 펄스 (BVP) 파형을 추정합니다. 최근의 딥 모델들은 …
Language models는 수학 문제 해결부터 open-domain question answering에 이르기까지 다양한 작업에서 효과적이 되었습니다. 그러나 여전히 실수를 저지릅니다, ...
Direct Preference Optimization (DPO)는 최근 텍스트‑투‑비디오 (T2V) 생성에서 시각적 충실도와 텍스트 정렬을 향상시켜 성능을 개선했습니다. 그러나 현재 방법…
Audio-video joint generation은 빠르게 진행되었지만, 여전히 상당한 도전 과제가 남아 있습니다. 비상업적 접근 방식은 여전히 audio‑visual asynchrony, …
클래스 불균형은 분류 성능을 크게 저하시키지만, 그 효과는 통합 이론적 관점에서 거의 분석되지 않는다. 우리는 prin…
디지털화되고 네트워크된 헬스케어는 조기 발견, precision therapeutics, 그리고 지속적인 케어를 약속하지만, 동시에 프라이버시 손실 및 c...
세계 모델이 Embodied AI에서 가속화를 얻음에 따라, 점점 더 많은 연구가 비디오 foundation models를 예측적 세계 모델로 활용하여 downstream 작업에 적용하는 방안을 탐구하고 있다.