화웨이 주도 팀, DeepSeek 1.6조 파라미터 모델을 사후 학습했다고 주장 — 훈련에 1,000대 Ascend 910C 칩 사용
Source: Tom’s Hardware

(이미지 출처: DeepSeek)
화웨이 기술을 포함한 연구팀이 1.6조 파라미터 규모의 DeepSeek V4‑Pro 모델에 대해 전체 파라미터 사후 학습을 완료했다고 밝혔다. 이 팀은 심천 시정부에 따르면 최소 1,000개의 화웨이 Ascend 910C 칩 클러스터를 사용했으며, 이는 South China Morning Post 보도에 인용된 내용이다.
이 발표는 중국산 가속기가 이제 국내 실리콘에서 훈련 수준의 워크로드를 감당할 수 있음을 보여준다. 이는 미국 수출 규제로 인해 중국 기업들이 가장 어려움을 겪어온 AI 파이프라인 중, Nvidia 하드웨어에서 벗어나기 힘들었던 부분이다. 화웨이는 이 작업을 심천 루프 지역 연구소, 하얼빈 공과대학 심천 캠퍼스, 그리고 심천 빅데이터 연구소와 협력해 수행했다.
Ascend 910C는 화웨이의 현재 주력 AI 가속기로, 듀얼 다이 설계이며 초기 DeepSeek 테스트에서 Nvidia H100 추론 성능의 약 60% 수준을 기록했다. 중국 칩은 완성된 모델이 프롬프트에 답하는 추론 단계에서는 경쟁력을 보였지만, 대규모 데이터셋을 통해 모델 가중치를 재계산하는 훈련 단계에서는 약점이 있었다. 팀은 전체 파라미터 사후 학습을 수행했으며, 이는 얇은 어댑터 레이어만 추가하는 것이 아니라 모든 가중치를 업데이트했다는 의미다.
사후 학습은 훨씬 규모가 큰 사전 학습 단계 이후에 진행되는 “튜닝” 단계이다. 사전 학습은 방대한 텍스트 코퍼스를 통해 모델의 핵심 역량을 구축하고, DeepSeek 문서에 따르면 V4‑Pro의 사전 학습 코퍼스는 32조 토큰을 초과한다.
TH 프리미엄으로 더 깊이 파고들기: AI와 데이터 센터
사후 학습은 이후 명령 수행, 안전 정렬, 작업별 데이터 등을 통해 모델 행동을 형성한다. Ascend 실리콘에서 이를 완수한 것은 플랫폼에 대한 실질적인 성과이지만, 가장 무겁고 비용이 많이 드는 프론티어 모델을 처음부터 사전 학습할 수 있다는 증거는 아니다.
지난 8월, DeepSeek는 Ascend 칩에서 R2 모델을 한 번도 성공적으로 훈련시키지 못했다는 보도가 있었다. 현장에 화웨이 엔지니어가 있었음에도 불안정한 성능, 느린 칩‑간 인터커넥트, 그리고 Nvidia CUDA의 대체인 화웨이 CANN 소프트웨어 스택의 미비점을 이유로 들었다. 결국 DeepSeek는 훈련을 Nvidia GPU로 전환하고, Ascend는 추론에만 남겼다. 4월에 출시된 DeepSeek‑V4‑Pro는 처음부터 Ascend 기반으로 설계된 최초의 DeepSeek 모델이다.
심천에서 나온 이번 주장에는 벤치마크가 전혀 제시되지 않았으며, 작업이 얼마나 오래 걸렸는지, Nvidia 하드웨어와 비교했을 때 어떤 차이가 있었는지, 1,000칩 클러스터가 얼마나 효율적으로 활용됐는지에 대한 수치도 제공되지 않았다. 결국 이는 뒷받침할 자료 없이 중국 정부가 내놓은 또 다른 의심스러운 주장에 불과하며, DeepSeek 측은 아직 공식 입장을 밝히지 않았다.
Tom’s Hardware의 최신 뉴스와 심층 리뷰를 바로 메일함으로 받아보세요.

Follow* Tom’s Hardware on Google News*, or* add us as a preferred source*, to get our latest news, analysis, & reviews in your feeds.
Luke James는 프리랜서 작가이자 저널리스트다. 법률 분야를 전공했지만, 하드웨어·마이크로일렉트로닉스 등 기술 전반과 규제에 개인적인 관심을 가지고 있다.