[Paper] 원자적에서 복합적으로: Reinforcement Learning이 보완적 추론에서 일반화를 가능하게 함
RL이 reasoning capabilities에 기여하는 메커니즘—새로운 기술의 합성을 장려하는지, 아니면 기존 행동을 단순히 증폭시키는지—는 아직 남아 있다.
RL이 reasoning capabilities에 기여하는 메커니즘—새로운 기술의 합성을 장려하는지, 아니면 기존 행동을 단순히 증폭시키는지—는 아직 남아 있다.
Deep Research Agents (DRAs)는 반복적인 정보 검색 및 합성을 통해 분석가 수준의 보고서를 자동으로 생성하는 것을 목표로 합니다. 그러나 대부분의 기존 DRA…
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대형 언어 모델(LLM)의 추론 능력을 향상시켜, 자율 에이전트가 ...
대규모 언어 모델(LLMs)의 부상은 에이전트에 대한 관심 급증을 촉발했으며, 이는 에이전트 프레임워크의 빠른 성장으로 이어졌습니다. 에이전트 프레임워크는 소프트웨어...
최근 대형 언어 모델(LLMs)의 발전은 특히 긴 체인-오브-생각(Chain-of-Thought, CoT) 방식을 통한 emergent reasoning capabilities에 의해 주도되고 있습니다...
Large Language Models (LLMs)의 내부 사고 과정을 이해하고 환각의 원인을 파악하는 것은 여전히 주요 과제이다. 이를 위해 우리는 l...
Internet of Things의 성장으로 새로운 세대의 애플리케이션이 가능해졌으며, computation과 intelligence가 network edge 쪽으로 이동하고 있습니다. 이 추세는…
MPI 애플리케이션에 대한 상세한 트레이스 분석은 성능 엔지니어링에 필수적이지만, 트레이스 크기가 증가하고 복잡한 통신 동작이 종종 …
본 논문은 복잡한 최적화 과제를 해결하기 위해 인공지능(AI)과 혼합 정수 선형 계획법(MILP)의 통합을 분석한다.
Automated test generation은 특히 현대 API 기반 아키텍처에서 소프트웨어 품질을 보장하기 위한 핵심 기술이 되었습니다. 그러나 자동으로 생성…
내재된 시간적 역학이 없는 정적 이미지를 처리하는 것은 스파이킹 뉴럴 네트워크(SNNs)에 대한 근본적인 과제로 남아 있습니다. 직접 훈련된 SNN에서는 정적...
Symbolic Regression (SR)은 변수들 간의 관계를 설명하는 수학적 표현식을 발견하는 것을 목표로 하는 회귀 방법이며, 종종…