[Paper] LLM 추론 서빙에서 Goodput을 극대화하기 위한 동적 PD-Disaggregation 아키텍처
엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.
4670 posts from this source
엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.
Agentic workflows는 복잡하고 다단계 작업을 해결하기 위한 강력한 패러다임으로 부상했지만, 규모에 맞게 서비스를 제공하는 것은 계산 비용이 많이 듭니다, given the m...
The scarcity of parallel speech corpora critically hampers speech-to-speech translation (S2ST), often forcing reliance on complex, multi-stage pipelines. This p...
대형 오디오 언어 모델(LALM)은 음성 인식부터 일반 오디오 이해에 이르기까지 다양한 작업에서 인상적인 성능을 보여줍니다. 어떻게…
Traffic cameras are essential in urban areas, playing a crucial role in intelligent transportation systems. Multiple cameras at intersections enhance law enforc... 교통 카메라는 도시 지역에서 필수적이며, 지능형 교통 시스템에서 중요한 역할을 합니다. 교차로에 여러 대의 카메라를 설치하면 법 집행을 강화합니다...
이 실증적 연구는 결정론적이며 단일 차원적인 생산성 휴리스틱의 한계를 밝히기 위해 SPACE 프레임워크를 운영함으로써 ...
대형 언어 모델(LLMs)은 소프트웨어 엔지니어링 분야에서 점점 더 많이 채택되고 있지만, 핵심 소프트웨어 설계 개념에 대한 그들의 이해가 얼마나 견고한지는 아직 불확실합니다.
Quantum machine learning (QML)은 컴팩트하고 표현력이 풍부한 표현을 제공할 것을 약속하지만, 측정 병목 현상—좁은 양자‑클래식 읽기…에 시달린다.
이 논문의 목적은 엔지니어링 인프라 재구축의 효율성을 향상시키기 위한 adaptive decision‑making support model을 설명하는 것이다.
Machine learning 모델이 실제 데이터를 기반으로 훈련될 경우, 의도치 않게 편향된 예측을 하여 소외된 커뮤니티에 부정적인 영향을 미칠 수 있습니다. Reweighting은 …
Training deep networks with noisy labels leads to poor generalization and degraded accuracy due to overfitting to label noise. Existing approaches for learning ... 노이즈가 있는 레이블로 딥 네트워크를 학습하면 레이블 노이즈에 과적합하여 일반화 성능이 저하되고 정확도가 떨어집니다. 기존의 학습 접근법은 ...
Sparse Convolution (SpC)은 자율 주행 및 AR/VR에 널리 사용되는 3D 포인트 클라우드 네트워크에 동력을 제공합니다. SpC는 입력 사이의 매핑을 저장하는 커널 맵을 구축합니다.
클라우드 기반 스토리지 플랫폼은 데이터에 대한 유연한 접근성과 협업 지원 덕분에 학계와 비즈니스 환경 모두에서 점점 더 일반화되고 있습니다.
Existing C to Rust translation techniques fail to balance quality and scalability: transpilation-based approaches scale to large projects but produce code with ... → 기존 C에서 Rust로의 변환 기술은 품질과 확장성의 균형을 맞추지 못합니다: 트랜스파일 기반 접근 방식은 대규모 프로젝트에 확장 가능하지만 코드가 ... 로 생성됩니다.
Microgrids는 구매한 전력망 에너지를 감소시키고, 변동성이 큰 tariffs에 대한 노출을 제한하며, 교란 상황에서 service continuity를 보장하기 위해 배치됩니다. 이는 …
pilot sequence의 할당은 massive MIMO 시스템에서 중요한 과제이며, 여러 사용자가 동일한 pilot sequence를 공유하면 간섭을 초래한다…
Advanced Persistent Threats (APT)는 은밀함, 지속성 및 적응력 때문에 주요 사이버 보안 과제를 제기합니다. 전통적인 머신 러닝 detecto...
Advanced Persistent Threats (APTs)는 은밀하고 장기적인 특성 때문에 사이버 보안에서 상당한 도전을 제기합니다. 현대의 감독 학습 방법은 …
Unit testing은 소프트웨어 개발에서 필수적이지만 자원이 많이 소모되는 단계로, 개별 코드 유닛이 올바르게 작동하는지를 보장합니다. 이 논문은 Agone을 소개합니다.
우리는 여러 Raspberry Pi(RPi) 컴퓨터에서 실행되는 완전한 기능을 갖춘 Ethereum Proof-of-Work(PoW) 블록체인 네트워크의 프로토타입을 설명한다. 이 프로토타입은 …
Building self-improving AI systems remains a fundamental challenge in the AI domain. We present NNGPT, an open-source framework that turns a large language mode...
데이터의 가용성이 증가하고 계산 지능의 발전으로 인해 데이터 기반 방법(DDMs)의 제품 개발 적용이 가속화되었습니다.
LLM 모델 크기의 급격한 증가와 장기 컨텍스트 추론에 대한 수요가 늘어나면서 메모리는 GPU 가속 서빙 시스템에서 중요한 병목 현상이 되었습니다.
Parallel implementation of numerical adaptive mesh refinement (AMR)strategies for solving 3D elastostatic contact mechanics problems is an essential step toward...
고성능 GPU 커널을 개발하는 것은 AI와 과학 컴퓨팅에 매우 중요하지만, 전문가 수준의 정교한 설계에 의존하고 성능 예측이 어려워 여전히 도전적인 과제입니다.
대규모 데이터셋에 대해 자체 지도 학습(self-supervised learning, SSL)으로 사전 학습된 Foundation models는 강력한 범용 feature extractor가 되었습니다. 그러나, ...
Cognitive Buffer Hypothesis (CBH)는 큰 뇌가 변화하는 조건에서 생존을 향상시키기 위해 진화했다는 가설이다. 그러나 큰 뇌는 또한 더 높은 에너지…
Distributed storage systems typically maintain strong consistency between data nodes and metadata nodes by adopting ordered writes: 1) first installing data; 2)... 분산 스토리지 시스템은 일반적으로 순차적 쓰기를 채택하여 데이터 노드와 메타데이터 노드 간에 강력한 일관성을 유지합니다: 1) 먼저 데이터를 설치하고; 2)...
비동기 연합 학습(FL)은 최근 효율성과 확장성을 높인다는 점에서 주목받고 있으며, 로컬 클라이언트가 모델 업데이트를 ...
연합 학습(Federated Learning, FL)은 프라이버시를 보호하는 학습 패러다임으로 광범위하게 연구되어 왔습니다. 최근에는 연합 블록 좌표 하강법(federated block coordinate descent) 스킴이 ...
최근 몇 년간, 리소스 탄력성과 비용 최적화는 RDBMS에 필수 요소가 되었습니다. 클라우드 네이티브 RDBMS는 d...을 통해 탄력적인 컴퓨팅 리소스를 제공합니다.
Mobile agents는 최근에 분산 환경에서 기본적인 그래프 문제를 해결하기 위한 강력한 프레임워크로 부상했습니다. 이러한 에이전트들은 aut...
Version control은 코드 변경의 이유를 전달하기 위해 commit messages에 의존하지만, 이러한 메시지는 종종 품질이 낮고, 더 중요한 것은 일관성이 부족합니다 …
연합 학습(Federated learning, FL)과 분할 학습(split learning, SL)은 무선 네트워크에서 효과적인 분산 학습 패러다임으로, 협업 모델 훈련을 가능하게 합니다.
무선 엣지 네트워크에서 인공지능 생성 콘텐츠(AIGC) 서비스 제공은 두 단계로 이루어집니다: 엣지 서버에서의 콘텐츠 생성 및 …
데이터 집약적인 과학 워크플로는 전통적인 Grid 및 Cloud 플랫폼을 보완하면서 고성능 컴퓨팅(HPC) 시스템에 점점 더 의존하고 있습니다. 그러나 …
Accelerator design languages (ADLs), high-level languages that compile to hardware units, help domain experts quickly design efficient application-specific hard... 가속기 설계 언어(ADL)는 하드웨어 유닛으로 컴파일되는 고수준 언어로, 도메인 전문가가 효율적인 응용 프로그램 전용 하드웨어를 빠르게 설계하도록 돕습니다.
Large language models (LLMs)와 autonomous coding agents는 다양한 도메인에 걸쳐 소프트웨어를 생성하는 데 점점 더 많이 사용되고 있습니다. 그러나 핵심 요구 사항은 …
LLM 기반 코딩 에이전트는 점점 흔해지고 있지만 여전히 컨텍스트 관리, 레이턴시, 신뢰성, 재현성 및 확장성 측면에서 도전에 직면하고 있습니다. We pres...
AI-통합 프로그래밍은 대형 언어 모델(LLM)을 활용한 지능형 시스템 구축을 위한 기본 패러다임으로 부상하고 있습니다. 최근 접근 방식인 M...
Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even ... 최근 대형 언어 모델(LLM)의 최근 발전은 다양한 프로그래밍 언어에서 코드 생성에 매우 인상적인 능력을 보여주었습니다. 그러나, ...
많은 compute node가 여러 CPU를 포함하고 각 node 내에서 일관성을 유지하는 복잡한 시스템에서, 핵심 과제는 효율적이고 올바른 coherence를 유지하는 것이다.
최근 몇 년간, 머신 러닝과 딥 러닝은 이미지 분류, 음성 인식, 그리고 이상 탐지와 같은 분야에서 l...에 의해 발전을 이끌어 왔습니다.
분산 컴퓨팅에서 certification scheme은 일련의 states와 그 states에 대한 conditions로 구성되며, 이를 통해 graph의 각 node가 효율적으로 ver…
스마트폰의 온-디바이스 에이전트는 개인화되고 컨텍스트-어웨어하며 장기적인 행동을 지원하기 위해 지속적으로 진화하는 메모리를 점점 더 필요로 합니다. 이를 충족하기 위해 ...
이 논문은 대안 집합 중에서 최적의 형식 사양 후보를 선택하는 데 도움이 되는 기술을 제안한다. 사양 집합이 주어지면, 우리의 기술은…
자동차 소프트웨어 시스템(ASSs)의 안전성 평가 및 실시간 검증을 위한 잘 알려진 테스트 방법은 Fault Injection(FI)이다. 이에 따라...
Obfuscation은 프로그램 이해, 유지보수, 테스트 및 취약점 탐지와 같은 소프트웨어 엔지니어링 작업에 지속적인 도전을 제기한다. 하지만 ...