[Paper] DSD: 에지-클라우드 민첩한 대규모 모델 서빙을 위한 Distributed Speculative Decoding 솔루션
대규모 언어 모델(LLM) 추론은 종종 높은 디코딩 지연과 이질적인 엣지‑클라우드 환경 전반에 걸친 제한된 확장성으로 고통받는다. Existing spe...
3312 posts from this source
대규모 언어 모델(LLM) 추론은 종종 높은 디코딩 지연과 이질적인 엣지‑클라우드 환경 전반에 걸친 제한된 확장성으로 고통받는다. Existing spe...
통신 분야에서 AI의 부상은 라디오 액세스 네트워크 최적화부터 사용자 경험 관리에 이르기까지 데이터 양과 학습 요구를 급격히 증가시켰습니다...
대형 언어 모델(LLMs)을 추론하도록 훈련하는 것은 종종 작업별 검증자를 이용한 강화 학습(RL)에 의존한다. 그러나 많은 실제 상황의 추론‑...
객체의 자세 추정에 대한 불확실성을 정량화하는 것은 견고한 제어와 계획에 필수적입니다. 자세 추정은 로봇공학에서 잘 연구된 문제이지만…
최근 몇 년간, 구현 지능 분야에서 Vision-Language-Action (VLA) 모델이 급속히 발전했습니다. 그러나 기존의 적대적 공격 방법은 비용이 많이 듭니다...
대형 멀티모달 모델(LMM)은 강력한 지시 수행 능력과 일관성 때문에 멀티모달 평가 시스템에서 판사 역할로 점점 더 많이 채택되고 있습니다.
AI/ML model cards는 의도된 사용에 대한 AI/ML 모델의 벤치마크된 평가를 포함할 수 있지만, 모델 훈련 중에 한 번만 수행되는 평가는 ...
우리는 프로그래밍 환경에서 보상 해킹을 위한 벤치마크인 EvilGenie를 소개합니다. 우리는 LiveCodeBench에서 문제를 가져와 에이전트가 사용할 수 있는 환경을 만들고...
Action Quality Assessment (AQA)는 행동 비디오에서 세밀한 실행 점수를 예측하며, 스포츠, 재활 및 기술 평가에 널리 적용됩니다....
일상 기기에 AI models가 급증하면서 중요한 과제가 부각되었습니다: prediction errors가 사용자 경험을 저하시키는 문제입니다. 기존 existing solution은…
대규모 언어 모델(LLMs)을 다중 턴 대화 결과에 최적화하는 것은 특히 AI 마케팅과 같은 목표 지향적 환경에서 여전히 큰 과제입니다.
AI/ML 모델은 이전에 해결되지 않았던 문제들을 해결하기 위한 혁신으로 급속히 주목받고 있으며, 인간 편견을 증폭시키는 부작용도 발생하고 있다.
Deeper Vision Transformers는 종종 얕은 모델보다 성능이 떨어지며, 이는 일반적인 스케일링 가정에 도전합니다. ViT-...에 대한 체계적인 실증 분석을 통해 이를 조사합니다.
우리는 Qwen 시리즈 중 현재까지 가장 뛰어난 비전‑언어 모델인 Qwen3‑VL을 소개합니다. 이 모델은 다양한 멀티모달 벤치마크 전반에 걸쳐 우수한 성능을 달성합니다.
대형 언어 모델은 창의적인 텍스트를 생성하는 능력이 점점 향상되고 있지만, AI‑생성 시에 대한 대부분의 연구는 영어—지배적인 언어인—에 초점을 맞추고 있습니다.
Freedman과 Mulligan의 최근 연구에 따르면, 얕은 다층 퍼셉트론이 Kolmogorov‑Arnold 기하학적(KAG) 구조를 자발적으로 개발한다는 것이 입증되었습니다. 이는 t… 동안에 발생합니다.
그래프 컨볼루션 네트워크(GCNs)가 스켈레톤 기반 행동 인식에서 눈에 띄는 성공을 거두었음에도 불구하고, 그 성능은 종종 대규모 실험실...
대형 언어 모델(LLM)은 최근 텍스트 속성 그래프에 대한 머신러닝을 혁신했지만, LLM을 그래프 이상치 탐지에 적용하는 것은, ...
Algorithms have been estimated to increase AI training FLOP efficiency by a factor of 22,000 between 2012 and 2023 [Ho et al., 2024]. Running small-scale ablati... → 알고리즘은 2012년부터 2023년 사이에 AI 훈련 FLOP 효율성을 22,000배 향상시킨 것으로 추정됩니다 [Ho et al., 2024]. 소규모 ablati...
Large Language Models (LLMs) 사전 학습에 메타데이터를 통합하는 것이 최근 훈련을 가속화하기 위한 유망한 접근법으로 부상하고 있습니다. 그러나 이전 연구는 …
현대 클라우드 데이터베이스는 확장을 이진 선택으로 제시합니다: 노드를 추가하여 scale‑out하거나 노드당 리소스를 늘려 scale‑up합니다. 이 일차원적인 관점은 i...
대규모 언어 모델(LLM)은 다양한 작업에 걸쳐 놀라운 능력을 보여주지만, 그 내부 메커니즘은 대부분 불투명하게 남아 있다. 이 논문에서, w...
결측 데이터 처리는 데이터 기반 분석에서 핵심적인 과제입니다. 최신 imputation 방법은 정확한 복원을 목표로 할 뿐만 아니라 ...
Interactive segmentation models such as the Segment Anything Model (SAM) have demonstrated remarkable generalization on natural images, but perform suboptimally...
생성 AI의 부상으로 의료, 금융, 공공 정책 등 분야에서 고충실도 합성 표형 데이터의 생산이 가능해졌으며, ...
Large language models (LLMs) achieve state-of-the-art results across many natural language tasks, but their internal mechanisms remain difficult to interpret. I...
Video diffusion models achieve strong frame-level fidelity but still struggle with motion coherence, dynamics and realism, often producing jitter, ghosting, or ... 비디오 확산 모델은 프레임 수준에서 높은 충실도를 달성하지만, 움직임 일관성, 역동성 및 현실감에서는 여전히 어려움을 겪으며, 흔히 흔들림, 유령 현상 등을 발생시킵니다.
Large language models (LLMs) achieve impressive results on many benchmarks, yet their capacity for planning and stateful reasoning remains unclear. We study the...
스마트 그리드는 고전적인 전력 인프라와 첨단 통신 네트워크 및 스마트 제어를 결합하여 사이버-물리 환경을 구축합니다.
엔드‑투‑엔드(E2E) 자율주행 모델은 오픈‑루프 평가에서 강력한 성능을 보여왔지만, 종종 연쇄 오류와 일반화 부족으로 어려움을 겪는다.
구강암은 전 세계적으로 매우 흔하며, 양성, 전암성 및 악성 병변과 시각적으로 매우 유사하기 때문에 주로 후기 단계에서 진단됩니다.
Latent reasoning은 Transformer 언어 모델에서 새로운 개발을 의미하며, chain-of-thought에 비해 추론 길이를 압축하는 잠재력을 보여주었습니다.
동기화된 오디오-비주얼 콘텐츠의 합성은 생성 AI에서 핵심 과제이며, 오픈소스 모델들은 견고한 오디오-비디오 정렬에 어려움을 겪고 있습니다.
고품질 AI-generated audio의 가용성은 misinformation campaigns 및 voice-cloning fraud와 같은 보안 문제를 야기합니다. 이에 대한 핵심 방어책은 …
자동화된 랜드마크 검출은 의료 전문가가 환자의 해부학적 구조와 위치를 이해하기 위해 수술 중…
적대적 공격은 학습 기반 3D 포인트 클라우드 모델에 중대한 위협을 가하며, 보안에 민감한 응용 분야에서 그 신뢰성을 심각하게 저해합니다.
대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 자율 에이전트가 복잡한 작업을 해결하도록 하는 강력한 패러다임으로 부상했습니다. 이러한 시스템은...
빠른 기술 발전과 복잡한 글로벌 도전이 특징인 시대에, 책임 있는 foresight는 정책 입안자들을 위한 필수적인 프레임워크로 부상했습니다.
언어 모델이 전문가 상황에서 AI 정체성을 신뢰할 수 있게 공개하지 못한다면, 사용자는 그 모델의 역량 한계를 신뢰할 수 없습니다. 이 연구는 자기 투명성...
대형 언어 모델(LLM)은 종종 바뀐 형태의 질문에 답할 때 일관되지 않은 행동을 보이며, 이는 깊은 이해보다는 표면 수준의 패턴에 의존하고 있음을 시사한다.
고리형 펩타이드는 세포 내 부위를 표적하는 데 유망한 방식이지만, 세포막 투과성은 여전히 주요 병목 현상이며, 제한된 …에 의해 악화됩니다.
Illumination inconsistency는 다중 뷰 3D 재구성에서 근본적인 도전 과제입니다. 햇빛 방향, 구름 양, 그리고 그림자의 변동은 일관성을 깨뜨립니다.
이 연구는 시간적 불규칙성, 샘플링...와 같은 문제들을 해결하기 위해 다중 스케일 시간 정렬 네트워크(Multi-Scale Temporal Alignment Network, MSTAN)를 기반으로 한 위험 예측 방법을 제안한다.
우리는 전략적 분류(strategic classification) 문제를 고려한다. 여기서 분류기(classifier)를 배포하는 행위는 전략적 행동을 유발하여 분포 이동(distribution shift)을 초래한다.
Vision Language Action 모델은 대규모 사전 학습된 비전 및 언어 표현을 활용함으로써 범용 로봇 조작을 크게 발전시켰습니다…
블록체인 보안은 채굴자(운영자)가 프로토콜을 벗어나 수익을 늘리려는 selfish mining에 의해 위협받습니다. selfish mining은 악화됩니다.
Human activity recognition (HAR) from inertial sensors is essential for ubiquitous computing, mobile health, and ambient intelligence. Conventional deep models ...
Reward feedback learning (ReFL)은 인간 선호에 맞춰 이미지 생성을 정렬하는 데 효과적인 것으로 입증되었습니다. 그러나 비디오 생성으로 확장하는 데는 ...