[Paper] TREC 2025 RAGTIME 트랙 개요
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 트랙의 주요 목표는 다국어 소스 문서에서 보고서 생성을 연구하는 것입니다.
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 트랙의 주요 목표는 다국어 소스 문서에서 보고서 생성을 연구하는 것입니다.
주장의 진실성을 검증하려면 일반적으로 textual과 visual evidence를 모두 활용한 공동 multi-modal 추론이 필요하며, 예를 들어 textual caption을 분석하는 것이 포함됩니다.
Large language models (LLMs)은 고위험(high‑stakes) 및 도메인 특화(domain‑specific) 환경에서 질문 응답(question answering) 및 의사결정(decision‑making)을 지원하기 위해 점점 더 많이 사용되고 있습니다. 예를 들어 자연 …
베트남어는 phonetic orthography를 가지고 있으며, 각 grapheme은 최대 하나의 phoneme에 대응하고 그 반대도 마찬가지이다. 이러한 높은 grapheme‑phoneme transparency를 활용하여…
현대 소프트웨어 시스템은 기능, 보안 및 성능을 향상시키기 위해 지속적으로 코드 업그레이드를 수행하며, Large Language Models (LLMs)은 ...
양자 알고리즘과 하드웨어가 계속 발전함에 따라, 양자 소프트웨어 스택(QSS)의 정확성을 보장하는 것이 점점 더 중요해지고 있습니다. 그러나, ...
우리는 대규모 언어 모델(LLMs)을 평가하기 위한 벤치마크를 구축하여 소스 코드 마이그레이션 작업, 특히 Java 8에서 Java 11로 함수 업그레이드를 평가합니다. 우리는 먼저…
인간 가치와 기능적 및 적응 요구 사항을 동시에 구현하는 것은 그들의 모호하고 다원적이며 상황 의존적인 특성 때문에 여전히 어려운 과제이다.
현실 세계 소프트웨어 엔지니어링 작업에서 숙달을 달성하는 것은 대규모 고품질 training data의 부족으로 근본적으로 병목 현상이 발생합니다. 규모를 확장하는 것은…
spiking neural networks (SNNs)에서 transmission delays를 학습하는 것이 복잡한 시간적 과제에서 성능을 크게 향상시키는 것으로 나타났습니다. 본 연구에서는...
대규모 MoE 모델을 배포하는 것은 전문가 활성화를 위한 메모리 용량 및 대역폭에 대한 도전 과제를 제시합니다. Attention‑FFN Disaggregation (AFD)이 등장하면서…
대규모 언어 모델 에이전트가 산업 수준 모바일 애플리케이션을 개발할 수 있을까요? 우리는 현실적인 상황에서 코딩 에이전트를 평가하기 위한 벤치마크인 SWE‑Bench Mobile을 소개합니다.