[Paper] IndicIFEval: 14개 인도계 언어에 대한 검증 가능한 지시 수행 평가를 위한 벤치마크
Instruction-following benchmarks는 여전히 주로 영어 중심이며, 수억 명에 달하는 인도어 사용자를 위한 중요한 평가 격차를 남기고 있습니다.
3058 posts from this source
Instruction-following benchmarks는 여전히 주로 영어 중심이며, 수억 명에 달하는 인도어 사용자를 위한 중요한 평가 격차를 남기고 있습니다.
소형 언어 모델(SLM)은 비용, 지연 시간, 적응성 측면에서 매력적인 장점을 제공하지만, 지금까지 장기적인 소프트웨어…
학습된 분포의 기하학을 이해하는 것은 확산 모델을 개선하고 해석하는 데 근본적이지만, 그들의 …
현대 컴퓨팅 시스템에서 하드웨어 가속기의 복잡성과 다양성이 증가함에 따라 유연하고 낮은 오버헤드의 프로그램 분석 도구가 필요합니다. 우리는 PA…
이 논문은 Agile 실무자들이 프런트 엔드로 활용할 수 있도록 Agile 어휘를 사용하여 Visual Milestone Planning (VMP) 방법을 설명한다.
HPC 스토리지 스택의 복잡성이 급속히 증가함에 따라, 분야 과학자들은 HPC 스토리지 시스템을 효과적으로 활용하여 목표를 달성하는 데 점점 더 큰 어려움에 직면하고 있습니다.
Automated test generation은 소프트웨어 품질 보증에 필수적이며, coverage rate는 철저한 테스트를 보장하기 위한 핵심 metric으로 작용합니다. 최근 발전…
복잡한 medical appointment scheduling의 최적화는 다중 센터 healthcare environments에서 여전히 중요한 운영 과제로 남아 있으며, 여기서 clinical s...
Differentially private federated learning은 근본적인 긴장에 직면합니다: client data를 보호하는 privacy protection mechanisms가 동시에 정량화 가능한…
Large language models (LLMs)은 자동 코드 리팩토링 작업에 점점 더 많이 사용되고 있습니다. 비록 이러한 모델들이 코드를 빠르게 리팩터링할 수 있지만, 품질이 ...
딥러닝을 활용하여 차량 라우팅 문제에 접근하는 Neural routing solvers (NRSs)는 실용적인 적용에 있어 눈에 띄는 잠재력을 보여주었습니다. By ...
프로토타이핑은 머신 러닝(ML) 솔루션 개발에서 중요한 역할을 하지만, 기존 도구들은 효과적인 협업을 위한 지원이 제한적인 경우가 많다…
Lamport의 1978년 논문은 happens-before 관계와 logical clocks를 도입하여, 분산 시스템이 synchronized physical clocks에 의존하지 않도록 했습니다. Thi...
Choreographies는 전역적인 관점에서 분산 프로토콜을 기술하며, correct-by-construction 방식으로 로컬 행동을 합성할 수 있게 합니다. 우리는 policy‑param…
Test-time training (TTT)와 KV binding을 시퀀스 모델링 레이어로 사용하는 것은 일반적으로 키-값 매핑을 기억하는 온라인 메타러닝의 한 형태로 해석됩니다.
시각 강화 학습은 로봇공학에 매력적이지만 비용이 많이 듭니다 — 오프-폴리시 방법은 샘플 효율적이지만 느리고, 온-폴리시 방법은 병렬화가 잘 되지만…
우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.
Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …
Transformer 모델을 사용하여 긴 시퀀스를 효율적으로 처리하려면 일반적으로 컨텍스트 병렬성을 통해 가속기들 간에 계산을 분할해야 합니다. The domin...
Cryo-electron tomography (cryo-ET)는 막과 membrane proteins를 포함한 생물학적 구조의 고해상도 three-dimensional reconstruction을 가능하게 한다.
대규모 언어 모델의 terminal capabilities에 대한 최근의 급속한 진전에도 불구하고, 최첨단 terminal agents 뒤에 있는 training data strategies는 여전히…
우리는 최근 ~cite{CKKMS24}에 의해 도입된 smoothed agnostic learning의 복잡성을 연구한다. 여기서 learner는 목표 …에서 가장 좋은 classifier와 경쟁한다.
Pass@k는 수학적 추론, 코드 생성, 짧은 답변 추론 등을 포함한 검증 가능한 대규모 언어 모델 작업에 널리 사용되는 성능 지표입니다.
Vision-Language Models (VLMs)는 뛰어난 2D 시각 이해를 보여주지만, 3D 공간을 이해하고 추론하는 능력—공간 인식의 핵심—은 아직 제한적이다.