[Paper] 모든 루브릭이 동일하게 가르치는 것은 아니다: 정책 인식 루브릭 보상 for RLVR
검증 가능한 보상을 활용한 강화 학습은 정확성을 자동으로 확인할 수 있을 때 사후 훈련을 매우 효과적으로 만들었습니다. 그러나 많은 중요한 …
검증 가능한 보상을 활용한 강화 학습은 정확성을 자동으로 확인할 수 있을 때 사후 훈련을 매우 효과적으로 만들었습니다. 그러나 많은 중요한 …
항공우주용 SiC/SiC 복합재의 비파괴 검사인 X-ray computed tomography (XCT)는 전문가의 시각적 평가에 의존하며, 현재 워크플로는 …
Large Vision Language Models (LVLMs)는 의료 분야에서 가능성을 보이지만, 시각적 증거에 응답을 충실히 근거를 두지 못하는 점이 심각한 …을 야기한다.
Music streaming fraud는 악의적인 행위자가 stream counts를 인위적으로 부풀려 chart rankings와 royalty payments를 조작하는 경우이며, 이는 stre...에 상당한 위협을 가한다.
생성형 인공지능의 확산은 모델 파라미터가 지속적으로 업데이트되는 인터랙티브 학습 환경을 만들어냈으며, u...
대형 언어 모델(LLMs)은 개방형 작업에 널리 사용되지만, 불명확한 프롬프트는 품질이 낮은 답변과 추가적인 상호작용을 초래할 수 있습니다. This p...
베이지안 최적화(BO)는 비용이 많이 드는 블랙박스 목적 함수를 위해 가우시안 프로세스(GP) 예측 분포를 사용하여 평가 지점을 선택합니다. 커널 선택과 ...
원시 GPS 트레이스에서 일반화 가능한 궤적 표현을 학습하는 것은 데이터가 연속적이고, 노이즈가 많으며, 불규칙하게 샘플링되기 때문에 여전히 어렵다. Spatial ...
분산 음향 센싱(DAS) 시스템은 연속적이고 초고채널 수 데이터 스트림을 생성하며, 그 전송 속도는 기존 배치 처리 능력을 초과합니다.
AI‑assisted theorem proving은 이제 올림피아드 수준 수학을 위한 상당한 Lean 개발을 생성할 수 있지만, 이러한 개발의 증거적 지위는 …에 달려 있다.
우리는 time series foundation models가 규모에 따라 확장됨을 보여준다: 단일 training recipe가 4M에서 2.5B parameters까지 신뢰할 수 있는 forecast-quality 개선을 제공한다. 우리는…
Conversational AI는 이제 수십억 명의 사용자에게 도달했지만, 기존 데이터셋은 사람들이 말하는 것만을 포착하고 생각은 포착하지 못합니다. 우리는 ThoughtTrace를 소개합니다, the fir...
최근 연구에서는 LLM을 진화적 탐색과 결합하여 작업별 피드백을 활용해 코드를 반복적으로 생성, 수정 및 선택합니다. 이러한 시스템은 강력한…
명시적인 소프트웨어 아키텍처 모델은 복잡한 소프트웨어 집약 시스템을 소통하고, 분석하며, 진화시키기 위한 필수적인 아티팩트입니다. ROS~2 기반 로보...
Backpropagation과 gradient descent는 머신러닝에서 대부분의 신경망 아키텍처가 사용하는 일반적인 최적화 전략입니다. 그러나 최적화를 찾는 것은 …
LLM discovery 및 optimization 시스템은 다양한 분야에 점점 더 적용되고 있으며, 공통적인 propose-evaluate-revise 루프를 구현합니다. 이러한 optimization 또는 discovery…
우리는 컴퓨터 사용 에이전트를 위한 검증 가능한 소프트웨어 세계를 구축하기 위한 검증자 기반 프레임워크인 OpenComputer를 제시합니다. OpenComputer는 네 가지 구성 요소를 통합합니다.
단일 LLM 기반 optimization 시스템이 근본적으로 다른 domains에 걸친 specialized tools와 매치할 수 있을까? 우리는 최적화 문제가 정의될 때 …
현대적인 대규모 언어 모델(LLMs) 배포는 다양한 아키텍처, 크기 및 특화된 모델들을 공유된 환경에서 동시에 서비스해야 하는 경우가 점점 늘어나고 있습니다.
AI가 생성한 시각 매체의 급속한 확산은 효율적이고 신뢰할 수 있는 딥페이크 탐지 시스템에 대한 긴급한 필요성을 만들었습니다. 그러나 기존 딥…
Physical computing systems는 하드웨어 네이티브 머신 러닝을 향한 유망한 경로를 제공하지만, 그들의 계산 능력은 여전히 파악하기 어렵다.
기존 신경 조합 최적화 솔버는 솔루션 탐색을 최적 결정의 모방으로 프레임화하여 본질적으로 그 효용을 단일 목표에만 제한한다…
Diffusion 기반 생성 모델은 점점 더 inference-time guidance에 의존하며, drift term을 추가하거나 mixture of experts를 reweighting하여 샘플 품질을 향상시킨다...
Multimodal Large Language Models (MLLMs)은 여전히 세밀한 시각적 이해에 어려움을 겪고 있으며, 답변은 종종 작지만 결정적인 증거에 의존한다…
의학은 본질적으로 다원주의적이다. autonomy, beneficence, nonmaleficence, justice와 같은 원칙들은 일상적으로 충돌하며, 이러한 윤리적 딜레마는 종종 …
우리는 물리적으로 제어 가능한 단일 이미지 리라이트를 위한 피드포워드 접근법인 PIXLRelight를 제시합니다. 기존 방법들은 제한된 조명 제어만 제공하거나(e...
스케일링 법칙이 집합적인 large language model 성능을 지배하지만, factual recall를 model size와 training-data composition 모두와 연결하는 스케일링 법칙은 아직 없습니다....
Unified multimodal models (UMMs)는 시각적 이해와 시각적 생성을 하나의 아키텍처 안에서 통합하려고 노력합니다. 그러나 기존의 훈련 패러다임은…
동적 환경에서 Unmanned Aerial Vehicles는 telemetry outages, structural vibrations, 그리고 regime-dependent noise에 직면하며, 이는 stationary covariance를 무효화한다.
복합 AI 애플리케이션은 Python과 같은 범용 프로그래밍 언어를 사용해 ML 모델에 대한 호출을 구성하며, 다양한 사용자‑대면 ...
레거시 시스템은 비즈니스 규칙, 아키텍처 결정, 그리고 운영 예외를 집중시켜, 이들은 종종 코드, 데이터, 구성 및 main...에 암묵적으로 남아 있습니다.
코딩 에이전트는 이제 셸, 파일 및 네트워크 권한을 가지고 자율적으로 실행됩니다. 사용자가 무해한 요청을 하면, 에이전트는 때때로 요청한 것보다 더 많은 일을 합니다: it d...
검색 기반 코딩에서는, 관련 파일이 검색된 컨텍스트에 없을 때 실패가 종종 시작됩니다. 고정된 일반 토크나이제이션 하에서, BM25...
뇌는 high-dimensional 감각 입력의 추상적 표현을 학습하지만, 이러한 학습을 가능하게 하는 plasticity 규칙은 알려져 있지 않다. 우리는 biological...
본 연구는 데이터 클러스터링을 위해 Firefly Algorithm (FA)의 새로운 변형을 제시하며, K-Means와 같은 전통적인 방법들이 겪는 한계를 해결한다.
Vehicular edge computing (VEC)은 근처 엣지 서버에 computation-intensive 작업을 오프로드함으로써 latency-sensitive 차량 애플리케이션을 가능하게 합니다. 그러나 real-
LLM 기반 소프트웨어 엔지니어링 에이전트에 대한 행동 연구는 어떤 궤적 형태가 더 높은 해결률과 상관관계가 있는지에 대한 운영 규칙을 추출한다: that...
소프트웨어 리포지토리는 커밋 메시지, 풀‑리퀘스트 토론, 이슈 스레드에 비구조화된 방대한 지식을 축적하지만, 개발자와 AI는 …
실시간 자기공명영상(rtMRI)을 이용한 언어 생성은 비침습적으로 동적인 성도 움직임을 시각화할 수 있게 하며, 언어 sc...
자기 시점 비디오에 대한 공간 질문 응답은 Vision-Language Models (VLMs)가 3D 객체 위치와 장면 …을(를) 추론해야 하는 도전적인 과제이다.
3D 씬 그래프 생성에 대한 현재 접근 방식은 LiDAR 또는 RGB‑D 카메라와 같은 전용 깊이 센서를 사용하여 메트릭 3D 재구성을 수행합니다. 이는 배포를 제한합니다.
멀티 에이전트 LLM 워크플로우—여러 역할별 LLM 호출로 구성된 시스템—는 종종 단일 프롬프트 베이스라인보다 성능이 뛰어나지만, 여전히 디버깅이 어렵다...
자체 호스팅되고 자원 제한이 있는 환경에서의 프로덕션 로그 분석은 라우팅 비용 없이 대규모 로그 스트림에 대한 자연어 접근을 필요로 합니다.
에지에서 adaptive intelligence를 배포하는 것은 neural models를 학습하는 데 드는 높은 computational 및 energy cost 때문에 여전히 어려운 과제입니다. Spiking Neural Networks...
본 연구는 전 세계 주식 시장에서 동적 포트폴리오 할당을 위한 딥 강화 학습 프레임워크를 개발하고 평가한다. Soft Actor-Critic ...
만타 레이 포식 최적화 알고리즘(MRFO)은 많은 공학 문제의 최적 해를 찾는 데 강력한 휴리스틱 전략으로 입증되었습니다.
포즈가 지정되지 않은 다중 뷰 이미지에서 일관된 3D 기하학 및 외관을 재구성하는 것은 컴퓨터 비전에서 기본적이면서도 도전적인 문제입니다. 대부분의 기존 vis...
수십억 파라미터 Vision-Language-Action (VLA) 정책은 최근 로봇 조작에서 인상적인 성능을 보여주었지만, 그 크기와 추론 비용은 …