[논문] FlashCP: LLM 학습을 위한 부하 균형·통신 효율적 컨텍스트 병렬화

발행: 3일 전 (2026년 6월 7일 PM 03:45 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.08476v1

개요

컨텍스트 병렬성(CP)은 대규모·장기 컨텍스트 언어 모델을 학습할 때 시퀀스를 분할해 메모리 사용량을 줄이는 데 필수적입니다. 그러나 기존 CP 방식은 정적 시퀀스 샤딩과 키‑밸류(KV) 텐서 통신으로 인해 작업 부하 불균형, 비효율적인 커널, 중복 통신 문제를 안고 있습니다. 우리는 로드 밸런싱과 통신 효율성을 동시에 달성한 프레임워크 FlashCP를 제안합니다. FlashCP는 중복 KV 통신을 없애는 샤딩 인식 통신 메커니즘을 도입하고, 통신 절감을 최대화하면서 작업 부하를 균형 있게 유지하는 새로운 Whole‑Doc 샤딩 전략을 제안합니다. Whole‑Doc 샤딩과 Per‑Doc 샤딩을 효율적으로 결합하기 위해 FlashCP는 근사 최적 샤딩 플랜을 탐색하는 휴리스틱 알고리즘을 추가 설계했습니다. 광범위한 실험 결과, FlashCP는 다양한 데이터셋에서 최신 CP 프레임워크 대비 최대 1.63배의 속도 향상을 달성했습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.DC
cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.DC 분야의 발전에 기여합니다.

저자

Zheng Wang
Eric Liu
Linan Jiang
Zhongkai Yu
Zaifeng Pan
Yue Guan
Yuke Wang
Yufei Ding

논문 정보

arXiv ID: 2606.08476v1
분류: cs.DC, cs.AI
출판일: 2026년 6월 7일
PDF: PDF 다운로드

[논문] FlashCP: LLM 학습을 위한 부하 균형·통신 효율적 컨텍스트 병렬화

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 피드백 정렬의 랭크 붕괴 극복

[논문] 온라인 플랫폼의 데이터 기반 동적 상품 구색: 양측면 학습

[논문] 자율 가속기 설계를 향해: SECDA 기반 FPGA 가속기 생성

[논문] 기자가 설계했지만 독자를 위한 걸까? AI 공개와 뉴스 투명성 재고