[Paper] Janus: 확장 가능한 MoE 추론을 위해 Attention과 Experts를 분리
대규모 Mixture-of-Experts (MoE) 모델 추론은 높은 자원 요구와 동적 워크로드 때문에 어려운 과제입니다. 기존 솔루션은 종종 전체 모델을 배포합니다.
3272 posts from this source
대규모 Mixture-of-Experts (MoE) 모델 추론은 높은 자원 요구와 동적 워크로드 때문에 어려운 과제입니다. 기존 솔루션은 종종 전체 모델을 배포합니다.
소프트웨어 엔지니어링(SE) 연구의 대부분은 진보가 방대한 데이터셋과 CPU‑집약적인 옵티마이저에 의존한다고 가정합니다. 그러나 이 가정이 과연 엄밀했는가…
이 연구는 자동화된 코드베이스 마이그레이션 분야에서 연구 및 실험 검증의 결과를 제시하며, ...
점점 다양한 AI 가속기가 대규모 학습을 위해 고려되고 있습니다. 그러나 초기 단계 AI 가속기에서 대규모 학습을 가능하게 하는 데는 …
전 세계 기후는 빠르고 전례 없는 온난화 추세를 겪고 있습니다. ICT 부문은 전 세계 온실가스 배출의 눈에 띄는 기여자이며, 그…
AI-enabled cyber-physical systems의 부상으로 data annotation은 이러한 지능형 시스템 개발에서 중요한 동시에 종종 간과되는 과정이 되었습니다.
Large Language Model (LLM) 에이전트는 자동 UI 탐색, 예를 들어 자동 UI 테스트 및 AI 어시스턴트와 같은 분야에서 큰 잠재력을 보여주지만, 그 효율성은 …
고전 소프트웨어와 달리 로깅 및 런타임 트레이싱으로 내부 실행 상태를 효과적으로 드러낼 수 있는 반면, 양자 회로는 고유한 특성을 가지고 있어, ...
메타모픽 테스트(MT)는 여러 테스트 실행에 걸쳐 메타모픽 관계(MR)를 확인함으로써 오라클 문제를 완화합니다. 결함 탐지 효율성…
Use cases는 기능 요구사항을 명시하는 데 널리 사용되지만, 기존 벤치마크는 부족하고 실제 시스템과 정렬되지 않을 위험이 있다.
이 논문은 부분적으로 관측된 상태의 연속시간 최대 사후 확률(MAP) 궤적 추정을 계산하기 위한 parallel-in-time 방법을 제안한다.
고성능 컴퓨팅(HPC) 클러스터는 막대한 에너지를 소비하며, 유휴 노드가 주요 낭비 원인입니다. 사용되지 않는 노드를 전원 차단하면 이를 완화할 수 있습니다.
Blockchain 기술은 많은 분야에서 모멘텀을 얻고 있습니다. Blockchain 솔루션이 비즈니스 영역에 중요한 긍정적 영향을 미치는 반면, 그것들은 또한 ...
암호화폐의 부상으로, 분산형 블록체인 위에 구축된 많은 새로운 애플리케이션이 등장했습니다. 블록체인은 전체 스택 분산 시스템이며, m...
우리는 노드 결함 조건 하에서 2D 토러스 네트워크 온칩 NoC의 적응형 최소 라우팅을 조사하고, 강화 학습(RL) 기반 전략과 비교한다.
연산 처리량의 스케일링은 메모리 대역폭 개선 속도를 계속 앞서고 있어, 많은 딥러닝 워크로드가 메모리 바인드 상태가 됩니다. 커널 퓨전은 ...
Black-box 최적화는 종종 진화적 및 스웜 알고리즘에 의존하는데, 이들의 성능은 문제에 크게 의존합니다. 우리는 최적화기를 짧은 프로그램으로 간주합니다…
딥 강화 학습에서 제어 정책은 종종 고정 용량의 멀티레이어 퍼셉트론을 역전파(backpropagation)로 학습시켜 구현되며, 이는 구조…
Kolmogorov-Arnold 네트워크(KANs)를 architectural enhancements로 개선하려는 노력은, 이러한 개선이 가져오는 복잡성에 의해 방해받아, t...
멤리스터 기반 인‑메모리 컴퓨팅은 von Neumann 병목 현상과 메모리 월(memory wall)의 제약을 극복하기 위한 유망한 패러다임으로 부상하고 있습니다.
정확한 volatility forecasting은 은행업, 투자 및 위험 관리에 필수적이며, 미래 시장 움직임에 대한 기대가 직접적으로 영향을 미치기 때문입니다...
3D Gaussian Splatting(3DGS)의 최근 성공은 빠른 최적화와 실시간 고품질 라디언스 렌더링을 가능하게 함으로써 새로운 뷰 합성을 재구성했습니다.
대규모 비디오 생성 모델은 실제 장면에서 포토리얼리스틱한 외관과 라이트 인터랙션을 모델링하는 데 놀라운 잠재력을 보여주었습니다. 그러나...
우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.
대규모 및 다양한 로봇 시연(데모)의 수집은 모방 학습(imitation learning)에서 여전히 주요 병목 현상으로 남아 있습니다. 실제 환경에서 데이터 획득이 비용이 많이 들고 …
많은 시스템은 구성 요소 간에 복잡한 상호작용을 보인다: 일부 features나 actions는 서로의 효과를 증폭시키고, 다른 것들은 중복된 정보를 제공한다, ...
현실은 rigid constraints와 deformable structures 사이의 춤이다. video models에게는 fidelity를 유지하면서 structure를 보존하는 motion을 생성한다는 의미이다.
일상적인 clinical photographs에서 vitiligo 범위를 정확하게 정량화하는 것은 treatment response의 longitudinal monitoring에 필수적입니다. 우리는 신뢰할 수 있는, f...
Softmax attention은 transformer architectures의 핵심 구성 요소이지만, 그 비선형 구조는 이론적 분석에 상당한 도전을 제기합니다. 우리는 …
대규모 언어 모델(Large Language Models, LLMs)의 빠른 배포는 머신러닝(ML) 분야에서 강화된 보안 및 프라이버시 조치에 대한 긴급한 필요성을 만들었습니다. LLMs는 …
Video matting은 기존 데이터셋의 규모와 현실감에 의해 제한됩니다. Segmentation 데이터를 활용하면 의미적 안정성을 향상시킬 수 있지만, 효과의 부족…
멀티에이전트 경쟁과 레이스 승리를 위한 희소한 고수준 목표를 통해, 우리는 민첩한 비행(예: 고속 움직임으로 플랫폼을 밀어내는 ...)을 발견한다.
조건부 커버리지를 평가하는 것은 예측 시스템의 신뢰성을 평가할 때 가장 지속적인 과제 중 하나입니다. 비록 conformal methods가...
좌표 기반 신경망은 연속적인 물리적 필드를 표현하는 강력한 도구로 부상했지만, 두 가지 근본적인 병리 현상에 직면하고 있습니다: spectra...
퍼블릭 블록체인은 본질적으로 낮은 처리량과 높은 지연 시간을 제공하여, Payment Channel Networks (PCNs)와 같은 오프체인 확장성 솔루션을 필요로 합니다. 그러나...
모델 지문 탐지 기술은 AI 생성 이미지의 출처 모델을 식별하는 유망한 접근법으로 떠오였지만, 그 견고성은…
우리는 양자 다체 시스템의 바닥 상태를 최적 압축된 표현으로 발견하는 비지도 머신러닝 프레임워크를 소개한다. 자동인코더를 사용하여…
현실적인 합성 현미경 이미지를 생성하는 것은 라벨이 부족한 환경에서 딥러닝 모델을 훈련시키는 데 매우 중요합니다. 예를 들어, 많은 세포를 포함한 세포 카운팅과 같은 경우에 특히 그렇습니다.
Federated Learning (FL)은 데이터를 로컬에 보관하는 클라이언트들에 걸쳐 모델 훈련을 분산시키지만, 이 아키텍처는 근본적인 취약점을 노출합니다: Byza...
온라인 제품 리뷰는 풍부하지만 잡음이 많은 신호를 포함하고 있어 사용자를 압도하고 효과적인 의사결정을 방해합니다. 기존 LLM-based summarizers는 여전히 일반적이며 ...
AI 기반 시스템의 안전성을 보장하는 것은 특히 자율 주행 및 의료와 같은 고위험 분야에서 점점 더 중요해지고 있습니다. Trad...
Visual Foundation Model (VFM) 표현에 기반한 Visual generation은 시각 이해와 ...
이 논문은 Generative Parametric Design (GPD)이라는 새로운 프레임워크를 도입함으로써 시뮬레이션 기반 공학 과학 분야에 새로운 패러다임을 제시한다. GPD ...
스파이킹 신경망(SNN)은 인공 신경망의 3세대로 간주되며, 인공지능과 …
최근 비디오 분석 분야의 발전은 실시간 데이터 드리프트를 해결하기 위해 개별 카메라에 대해 특화된 경량 DNN 모델을 지속적으로 재학습합니다. 그러나, ...
voice-based AI 시스템이 remarkable generative capabilities를 달성했지만, 그들의 상호작용은 종종 대화가 끊어진 느낌을 줍니다. 이 논문은 …
Speculative generation은 대형 언어 모델(LLMs)의 추론을 가속화하기 위해 병렬성을 활용해 다수의 …를 검증하는 유망한 기술로 부상했습니다.
폐루프 데이터로부터 제어기 파라미터를 학습하면 폐루프 성능이 향상되는 것으로 나타났습니다. 베이지안 최적화는 널리 사용되는 블랙박스 및 샘플...