[Paper] 올바른 코드, 취약한 의존성: LLM 지정 라이브러리 버전의 대규모 측정 연구
대형 언어 모델(LLM)은 이제 소프트웨어 개발 워크플로에 크게 관여하고 있으며, 이들이 생성하는 코드는 일반적으로 third-party library (TPL)를 포함합니다.
대형 언어 모델(LLM)은 이제 소프트웨어 개발 워크플로에 크게 관여하고 있으며, 이들이 생성하는 코드는 일반적으로 third-party library (TPL)를 포함합니다.
대형 모델이 대화형 어시스턴트에서 자율 에이전트로 진화함에 따라, 장기 의사결정, 도구 사용, 그리고 rea...
우리는 다섯 가지 속성 유형(memory safety, overflow, termination, reachability, data races)에 걸친 500개의 C 검증 과제에 대한 평가 프레임워크를 소개합니다.
수년 동안 우리는 LLM 서빙 시스템을 다른 중요한 인프라와 마찬가지로 구축해 왔습니다: 단일 범용 스택, 수많은 엔지니어‑연도에 걸쳐 손수 튜닝된, …
Linear Attention (LA)는 자기‑attention의 제곱 복잡성을 피함으로써 대형 언어 모델(LLMs)을 긴 시퀀스로 확장하는 유망한 패러다임을 제공합니다.
핵심 아이디어 베이지안 네트워크는 변수들 간의 관계를 방향 그래프를 사용하여 나타냅니다. - 각 노드는 변수입니다. - 각 엣지는 의존성을 보여줍니다. - Ea...
우리는 Graph Normalization (GN)을 소개한다. 이는 그래프 위의 원칙적인 동적 시스템으로, NP‑hard인 Maximum Weight 문제에 대한 미분 가능한 근사 엔진 역할을 한다.
우리는 이미지 생성용 Diffusion Transformers(DiTs)에서 이상치 토큰을 연구한다. 이전 연구에서는 Vision Transformers(ViTs)가 소량의 ...
Long-horizon search agents는 추론하고 도구를 호출하며 정보를 관찰함에 따라 급격히 증가하는 working context를 관리해야 합니다. 모든 중간 결과를 무작정 누적하는 것은…
dtimes d 선형 메모리는 얼마나 많은 키-값 연관을 저장할 수 있을까? 우리는 답이 메모리 행렬의 d² 자유도에만 의존하지 않는다는 것을 보여준다,…
Pre-trained transformers는 프롬프트의 일부로 제공된 예시들로부터 weight updates 없이 학습할 수 있는 놀라운 능력인 in-context learning을 수행할 수 있다.
Behavior Cloning (BC)은 로봇 학습을 위한 매우 효과적인 패러다임으로 부상했습니다. 그러나 BC는 데모 이후 온라인 개선을 위한 자체 가이드 메커니즘이 부족합니다.
Self-consistency는 질문에 대해 여러 개의 샘플링된 답변을 생성하고 그 일치를 측정함으로써 hallucinations를 감지하지만, 이는 반복적인 decoding과 ca…
Evolutionary computation은 오랫동안 high-performance optimization tools와 Darwinian evolution의 rigorous scientific simulations를 모두 제공할 것이라고 약속해 왔습니다.
우리는 22개 언어에 걸친 이진 분류 작업인 SemEval-2026 Task 9: Multilingual Polarization Detection을 위한 시스템을 소개합니다. 우리의 접근 방식은 ...
Transformer 아키텍처는 시계열 예측에 널리 채택되고 있지만, NLP에서 그들을 강력하게 만드는 표현 메커니즘이 실제로…
Learned codecs가 hard‑coded traditional counterparts에 비해 제공하는 주요 차별점 중 하나는 바로 …에 직접 최적화할 수 있는 능력이다.
이 논문은 고등학생 및 초기 대학생 팀이 대학원 연구자들의 멘토링 아래 수행한 AI 연구 프로젝트를 반영한다...
Large Language Models (LLMs)은 설득력은 있지만 사실이 아닌 내용을 자주 생성하는데, 이는 hallucination이라고 알려진 현상입니다. 기존의 detection methods는 전형적으로…
Multi-Output Gaussian Processes (MOGPs)는 상관된 출력을 모델링하기 위한 원칙적인 확률론적 프레임워크를 제공하지만, 적용할 때 확장성 병목 현상에 직면합니다.
우리는 텍스트 코퍼스의 **Concept Field**를 소개한다: 점별 불확실성을 가진 **local drift field**이며, **sentence‑embedding space**에서 **deltas**를 통해 추정된다.
우리는 장시퀀스 모델을 지배하는 근본적인 트레이드오프를 식별하고 증명한다: 어떤 모델도 (i) 단계별 계산이 시퀀스 길이에 독립적이며, (ii) ... 를 동시에 달성할 수 없다.
최첨단 모델들은 대규모 모델 성능을 비용을 절감하면서 달성하기 위해 Mixture-of-Experts (MoE) 아키텍처를 점점 더 많이 채택하고 있습니다. 그러나 HP에서 MoE 모델을 훈련하는 것은 …
Per-instance algorithm selection (PIAS)은 알고리즘 집합 간의 보완성을 활용하여 주어진 인스턴스에 대해 실행할 알고리즘을 결정한다.
Generative Recommender (GR) 추론은 임베딩 핫 캐시(EMB)와 KV 캐시를 제한된 GPU HBM을 놓고 직접 경쟁하게 만든다: 하나에 더 많은 메모리를 할당하면…