[Paper] Untied Ulysses: 메모리 효율적인 컨텍스트 병렬 처리 via Headwise Chunking
Transformer 모델을 사용하여 긴 시퀀스를 효율적으로 처리하려면 일반적으로 컨텍스트 병렬성을 통해 가속기들 간에 계산을 분할해야 합니다. The domin...
Transformer 모델을 사용하여 긴 시퀀스를 효율적으로 처리하려면 일반적으로 컨텍스트 병렬성을 통해 가속기들 간에 계산을 분할해야 합니다. The domin...
우리는 최근 ~cite{CKKMS24}에 의해 도입된 smoothed agnostic learning의 복잡성을 연구한다. 여기서 learner는 목표 …에서 가장 좋은 classifier와 경쟁한다.
Pass@k는 수학적 추론, 코드 생성, 짧은 답변 추론 등을 포함한 검증 가능한 대규모 언어 모델 작업에 널리 사용되는 성능 지표입니다.
Uniform-state discrete diffusion models는 자체 교정 능력 덕분에 few-step generation 및 guidance에서 뛰어나며, autoregressive 모델보다 선호됩니다.
Deep learning은 자동 뇌종양 진단을 크게 향상시켰지만, 임상 적용은 interpretability와 computational constraint 때문에 여전히 제한적이다.
Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…
Counterfactual inference은(는) 임상의가 환자 결과에 대해 ‘what if’ 질문을 할 수 있게 해 주지만, 표준 방법은 특성 독립성과 동시성을 가정합니다…
환자가 직접 생성한 텍스트인 secure messages, surveys, interviews 등은 patient voice (PV)의 풍부한 표현을 담고 있으며, 의사소통 행동을 반영한다...
안전이 중요한 분류에서는 실패 비용이 종종 비대칭적이지만, Bayesian deep learning은 epistemic 불확실성을 단일 스칼라인 μ로 요약한다.
Large language models (LLMs)은 점점 더 다단계 의사결정 에이전트로 배치되고 있으며, 효과적인 보상 설계는 학습을 안내하는 데 필수적입니다. Al...
Selective state space models (SSMs)은 특히 long-context workloads에 대해 large language models의 강력한 백본으로 빠르게 부상하고 있습니다. Yet in deploymen...
의료 영상 처리는 고차원 부피 데이터, 이질적인 파일 형식, 그리고 도메인 특화 훈련을 처리할 수 있는 특수 소프트웨어를 요구합니다.