[Paper] LLM 올림피아드: 모델 평가에 밀봉된 시험이 필요한 이유
Benchmarks와 leaderboards는 NLP가 진행 상황을 가장 많이 전달하는 방식이지만, LLM 시대에는 점점 오해하기 쉬워지고 있습니다. Scores는 benchmark를 반영할 수 있습니다.
4509 posts from this source
Benchmarks와 leaderboards는 NLP가 진행 상황을 가장 많이 전달하는 방식이지만, LLM 시대에는 점점 오해하기 쉬워지고 있습니다. Scores는 benchmark를 반영할 수 있습니다.
중앙 집중식 아이덴티티 관리 시스템은 지속적으로 보안 및 프라이버시 문제에 직면하고 있어, 탈중앙화 아이덴티티(Decentralized Identity, DI)와 S...
Microservice 기반 애플리케이션은 장기 꼬리 실행 패턴과 이질적인 자원 제약으로 인해 발생하는 확률적 지연을 특징으로 합니다.
Deep reinforcement learning (DRL)은 복잡한 의사결정 문제를 해결하기 위한 강력한 패러다임으로 부상했습니다. 그러나 DRL 기반 시스템은 여전히 signifi...
Architectural patterns는 다양한 소프트웨어 아티팩트에서 자주 발견됩니다. 패턴과 그 구현의 다양성으로 인해 탐지가 어려워집니다.
Retrieval-Augmented Generation (RAG) 시스템은 보조적으로 검색된 문서를 통합함으로써 대형 언어 모델(LLMs)의 성능을 향상시키고, …
우리는 Dual-View Pheromone Pathway Network (DPPN)를 소개한다. 이 아키텍처는 희소 어텐션을 지속적인 페로몬 필드를 통해 잠재 슬롯 위에 라우팅한다.
완전하게 프로비저닝된 Message Passing Interface (MPI) 병렬 처리는 Computational Fluid Dynamics (CFD) 솔버에 대해 거의 최적에 가까운 실제 실행 시간을 달성합니다. 이 연구는 …
스마트폰, 전자상거래, 협업 플랫폼, LLM 등을 사용할 때를 생각해 보면, 컴퓨터와의 대부분 상호작용은 인터랙티브하며 종종 즉각적인 반응을 요구합니다.
대규모 분산 학습은 d‑길이 파라미터 벡터에 대해 훈련 데이터셋에 의존하는 손실 함수 L을 최소화하는 것을 목표로 합니다. The distri...
생물학적 신경망은 평생 동안 경험에 반응하여 지속적으로 적응하고 스스로를 수정합니다 — 인공…
1980년대에 고성능 컴퓨팅(HPC)은 개방형(비국방) 과학 및 공학 연구 커뮤니티에서 또 다른 연구 도구가 되었다. 그러나,…
Diffusion Transformers (DiTs)는 고충실도 비디오 월드 모델을 구동하지만, 순차적 디노이징과 비용이 많이 드는 시공간 처리 때문에 계산 비용이 많이 듭니다.
긴 비디오 이해는 제한된 컨텍스트 윈도우 때문에 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제이며, 이는 희소한 q...
Latent diffusion models (LDMs)는 학습된 잠재 공간에서 작동함으로써 고품질 합성을 가능하게 합니다. 그러나 최첨단 LDM을 훈련하려면 복잡한 st...
우리는 UniMotion을 제시합니다. 우리가 알기로는 인간 동작, 자연어, 그리고 RGB 이미지의 동시 이해와 생성을 위한 최초의 통합 프레임워크입니다.
최근 잠재 세계 모델(예: V-JEPA2)의 발전은 비디오 관찰을 통해 미래 세계 상태를 예측하는 데 유망한 능력을 보여주었습니다. 그럼에도 불구하고, ...
Vision-Language-Action (VLA) 모델은 시각 관찰과 언어 지시를 직접 로봇 행동으로 매핑합니다. 간단한 작업에 효과적이지만, 표준 VL…
많은 멀티모달 작업, 예를 들어 image captioning과 visual question answering은 vision-language models (VLMs)가 객체와 그 속성을 연관시키도록 요구한다.
Weight-Decomposed Low-Rank Adaptation (DoRA)는 LoRA를 확장하여 가중치 크기와 방향을 분리하지만, 그 forward pass는 W + ...의 row-wise norm을 필요로 합니다.
최근 생성 잠재 공간(generative latent spaces)의 발전이 단일 이미지 생성(single-image generation)에서 상당한 진전을 이끌었지만, 새로운 시점 합성(novel view synthesis)을 위한 최적의 잠재 공간은…
Diffusion 기반 비디오 초해상도(VSR)는 최근 눈에 띄는 높은 충실도를 달성했지만 여전히 금지할 정도의 샘플링 비용이 문제입니다. While distribution mat...
우리는 TiCo라는 간단한 post‑training 방법을 제안한다. 이 방법은 spoken dialogue models (SDMs)가 시간 제한이 있는 지시를 따르고, 응답을 생성하도록 한다.
수억 명의 사람들이 교육, 업무, 심지어 의료까지 대형 언어 모델(LLMs)에 의존하고 있습니다. 그러나 이러한 모델들은 재현하고 확대한다는 것이 알려져 있습니다.
고성능 컴퓨팅(HPC) 시스템의 이질성이 증가하고 엑사스케일 아키텍처로의 전환이 진행됨에 따라 체계적이고 재현 가능한 …
Diffusion Language Models (DLMs)는 Auto-Regressive (AR) 모델에 비해 full-attention parallel decoding 및 flexible generation과 같은 매력적인 장점을 제공합니다....
Decision Boundary Maps (DBMs)는 머신러닝 분류 경계를 시각화하는 효과적인 도구입니다. 그러나 DBM의 품질은 차원에 크게 의존합니다.
Generative Recommender Systems와 semantic ids를 활용한 시스템, 예를 들어 TIGER (Rajput et al., 2023)는 순차 추천 분야에서 널리 채택되는 경쟁적인 패러다임으로 부상했습니다.
텍스트-이미지(T2I) 생성에 대한 강화 학습(RL) 기반의 최근 진전은 의미적 정렬과 시각적 qu...을 평가하는 보상 모델의 혜택을 받았다.
Conversation은 사회 생활에서 어디에나 존재하지만, 이 interactive process에 대한 empirical study는 충분히 modular하지 않고 …
자동회귀(AR) 언어 모델의 느리고 순차적인 특성 때문에 병렬 디코딩 방법이 채택되었습니다. 그러나 이러한 비‑AR 모델은 종종 …를 희생합니다.
대규모 언어 모델(LLMs)은 방대한 양의 데이터로 사전학습(pretrained)되지만, 그들의 지식 커버리지는 전문화된 데이터가 부족한 도메인에서는 여전히 완전하지 않으며, m...
기계 번역에서, Large Language Models (LLMs)은 일반적으로 기존의 encoder-decoder 시스템에 비해 성능이 낮았으며, 따라서 채택이 제한적이다...
Deductive verification은 검증 조건(VCs)을 추출하고 이에 대한 형식적 증명을 작성함으로써 코드에 대한 강력한 정확성 보장을 제공합니다. The exper...
시간이 지나면서 소프트웨어 시스템을 안전하게 변경할 수 있게 하는 공유된 이해는 조용히 사라집니다. 팀 전반에 걸친 이러한 이해의 점진적인 손실은 인지 부하를 증가시킵니다.
Multi-objective re-ranking은 현대 multi-stage recommender systems의 핵심 요소가 되었으며, 이는 여러 conflicting objectives를 균형 있게 맞추는 역할을 합니다.
자연어 설명을 실행 가능한 코드 수정으로 변환하는 것은 소프트웨어 엔지니어링에서 여전히 근본적인 과제이다. 에이전시적인 lar...
연구 논문과 해당 소프트웨어 구현 간의 일관성을 보장하는 것은 소프트웨어 신뢰성 및 과학적 재현성의 근본적인 요소이다.
StreamSampling.jl은 데이터 스트림에서 단일 패스로 샘플링을 수행하기 위해 설계된 Julia 라이브러리로, 전체 개수가 ...
같은 대형 모델의 두 구현이 프레임워크 간에 동등한지 검증하는 것은 실제로 어렵다. 동일한 계산을 구현하더라도…
Energy efficiency는 소프트웨어 개발에서 점점 더 중요한 관심사가 되고 있으며, 이는 energy consumption을 측정하도록 설계된 도구의 필요성을 낳고 있습니다. While several ener...
정확하고 신뢰할 수 있는 안전 지표는 자동차 시스템에서 ASIC의 기능 안전 검증에 필수적입니다. 전통적인 FMEDA(고장 모드, 영향, …)
AI agents가 human-supervised copilots에서 autonomous platform infrastructure로 전환함에 따라, populations 전반에 걸친 그들의 reasoning behavior를 분석하는 능력…
Physical reservoir computing은 물리 시스템의 고유 동역학을 활용해 정보를 처리하면서, 내부 동역학은 고정하고 훈련은 …
무인 항공기(UAV)는 도시 임무에 널리 사용되어 왔으며, UAV 경로를 적절히 계획하면 임무 효율성을 높이고 위험을 줄일 수 있습니다.
우리는 bounded domain을 가진 self‑disabling processes의 parameterized symmetric unidirectional rings에 대해 livelock detection이 polynomial time 안에 decidable함을 증명한다.
지난 1년 동안 vLLM Semantic Router 프로젝트는 다음과 같은 일련의 작업을 발표했습니다: (1) 핵심 라우팅 메커니즘 — signal-driven routing, context-length…
이 논문은 ARYA를 소개한다. ARYA는 다섯 가지 기본 원칙—나노 모델, 조합 가능성, 물리 제약, 결정론적 동작, 그리고 확장성을 기반으로 한 구성 가능한 물리 제약 결정론적 세계 모델 아키텍처이다. 이 아키텍처는 복잡한 환경을 작은, 재사용 가능한 나노 모델로 분해하고, 이러한 모델들을 조합하여 더 큰 시스템을 구성한다. 각 나노 모델은 물리 법칙을 내재하고 있어, 전체 시스템이 물리적으로 일관된 행동을 보장한다. 또한, ARYA는 결정론적 시뮬레이션을 제공함으로써 동일한 입력에 대해 항상 동일한 출력을 생성한다, 이는 재현성과 디버깅을 용이하게 만든다. 마지막으로, ARYA는 모듈식 설계 덕분에 새로운 도메인이나 작업에 쉽게 확장할 수 있다. 실험 결과, ARYA는 기존의 세계 모델에 비해 높은 정확도와 효율성을 보이며, 복잡한 물리 기반 시뮬레이션에서도 뛰어난 성능을 입증한다.