[Paper] Artisan: 에이전틱 아티팩트 평가
Artifact evaluation은 연구 결과의 재현성을 보장하기 위해 소프트웨어 엔지니어링 커뮤니티에서 표준 관행이 되었습니다. 그러나 현재 m...
3058 posts from this source
Artifact evaluation은 연구 결과의 재현성을 보장하기 위해 소프트웨어 엔지니어링 커뮤니티에서 표준 관행이 되었습니다. 그러나 현재 m...
효율적인 탐색은 특히 보상이 희소한 환경에서 강화학습(RL)의 중심 과제로 남아 있습니다. 우리는 Optimistic World Mode…
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 트랙의 주요 목표는 다국어 소스 문서에서 보고서 생성을 연구하는 것입니다.
주장의 진실성을 검증하려면 일반적으로 textual과 visual evidence를 모두 활용한 공동 multi-modal 추론이 필요하며, 예를 들어 textual caption을 분석하는 것이 포함됩니다.
Large language models (LLMs)은 고위험(high‑stakes) 및 도메인 특화(domain‑specific) 환경에서 질문 응답(question answering) 및 의사결정(decision‑making)을 지원하기 위해 점점 더 많이 사용되고 있습니다. 예를 들어 자연 …
베트남어는 phonetic orthography를 가지고 있으며, 각 grapheme은 최대 하나의 phoneme에 대응하고 그 반대도 마찬가지이다. 이러한 높은 grapheme‑phoneme transparency를 활용하여…
현대 소프트웨어 시스템은 기능, 보안 및 성능을 향상시키기 위해 지속적으로 코드 업그레이드를 수행하며, Large Language Models (LLMs)은 ...
양자 알고리즘과 하드웨어가 계속 발전함에 따라, 양자 소프트웨어 스택(QSS)의 정확성을 보장하는 것이 점점 더 중요해지고 있습니다. 그러나, ...
우리는 대규모 언어 모델(LLMs)을 평가하기 위한 벤치마크를 구축하여 소스 코드 마이그레이션 작업, 특히 Java 8에서 Java 11로 함수 업그레이드를 평가합니다. 우리는 먼저…
인간 가치와 기능적 및 적응 요구 사항을 동시에 구현하는 것은 그들의 모호하고 다원적이며 상황 의존적인 특성 때문에 여전히 어려운 과제이다.
현실 세계 소프트웨어 엔지니어링 작업에서 숙달을 달성하는 것은 대규모 고품질 training data의 부족으로 근본적으로 병목 현상이 발생합니다. 규모를 확장하는 것은…
spiking neural networks (SNNs)에서 transmission delays를 학습하는 것이 복잡한 시간적 과제에서 성능을 크게 향상시키는 것으로 나타났습니다. 본 연구에서는...
대규모 MoE 모델을 배포하는 것은 전문가 활성화를 위한 메모리 용량 및 대역폭에 대한 도전 과제를 제시합니다. Attention‑FFN Disaggregation (AFD)이 등장하면서…
대규모 언어 모델 에이전트가 산업 수준 모바일 애플리케이션을 개발할 수 있을까요? 우리는 현실적인 상황에서 코딩 에이전트를 평가하기 위한 벤치마크인 SWE‑Bench Mobile을 소개합니다.
Rashomon 집합은 near‑identical empirical performance를 달성하면서도 decision boundaries에서는 크게 차이가 나는 모델들의 모음을 포착합니다. ...
추적 링크는 소프트웨어 개발자에게 중요한 정보 원천이며, 소프트웨어 아티팩트를 연결합니다(예: 요구사항을 해당 소스 코드와 연결).
프로덕션 state-machine replication (SMR) 구현은 data dissemination, ordering, execution, 그리고 recovery를 포함하는 복잡하고 다계층적인 아키텍처입니다.
분산 사양에 의해 본질적으로 coordination이 요구되는 경우는 언제이며, 특정 protocol이나 implementation strategy에 의해 강제되는 경우는 언제인가? 우리는 g...
LLM 추론에서 주요 과제는 여전히 빈번한 memory bandwidth 병목 현상, computational redundancy, 그리고 long-sequence processing의 비효율성이다. To ad...
칩-투-칩 실리콘 포토닉스가 대역폭과 에너지 효율성으로 주목받으면서, 그들의 circuit-switched 특성은 ...에 대한 근본적인 질문을 제기한다.
대규모 그래프 데이터셋을 처리하는 것은 계산 집약적이며 시간이 많이 걸립니다. 그래프 애플리케이션에 일반적으로 사용되는 프로세서 중심의 CPU 및 GPU 아키텍처는...
이 연구는 WorldCompass를 소개한다. 이는 장기 시계열, 인터랙티브 비디오 기반 세계 모델을 위한 새로운 강화 학습(RL) 사후 학습 프레임워크이며, ...
자율 주행에서의 분포 외(OOD) 견고성은 종종 단일 숫자로 축소되어 정책을 무너뜨리는 요인을 감춥니다. 우리는 환경을 다섯…
래스터화된 floorplan 이미지에서 구조화된 vector-graphics 표현을 재구성하는 것은 일반적으로 계산 작업에 필요한 중요한 전제 조건입니다.