Taalas는 LLM을 칩에 어떻게 “프린트”하나요?

발행: (2026년 2월 22일 오전 04:07 GMT+9)
7 분 소요

Source: Hacker News

Taalas가 LLM을 칩에 “프린트”하는 방법은?

스타트업 Taalas가 최근 ASIC 칩을 출시했으며, 이 칩은 Llama 3.1 8B(3/6‑bit 양자화)를 실행해 초당 17 000 토큰의 추론 속도를 제공합니다. 이들은 자신들의 주장에 따르면 GPU 기반 추론 시스템보다 소유 비용이 10배 저렴하고, 전력 소비가 10배 적으며, 최신 추론 속도보다 약 10배 빠르다고 합니다.

저는 그들의 블로그, LocalLLaMA 토론, 그리고 하드웨어 개념을 파헤쳐 모델을 어떻게 “칩에 프린트”할 수 있는지 이해하려고 했습니다. 아래는 제가 배운 내용의 요약입니다.

기본 사항

Taalas는 설립 2.5년 차 기업이며 이번이 첫 번째 칩입니다. 이 칩은 고정 기능 ASIC(특정 용도 집적 회로) 로, CD‑ROM이나 인쇄된 책처럼 하나의 모델만을 담고 있으며 재작성할 수 없습니다.

NVIDIA GPU가 LLM을 처리하는 방식 (메모리 병목)

LLM은 순차적인 레이어로 구성됩니다. 예를 들어 Llama 3.1 8B는 32개의 레이어를 가지고 있으며, 각 레이어에는 큰 가중치 행렬(모델의 지식)이 들어 있습니다.

  1. 프롬프트가 토큰화되고 임베딩 벡터로 변환됩니다.
  2. GPU에서는 이 벡터가 연산 코어로 들어갑니다.
  3. GPU는 VRAM/HBM에서 Layer 1 가중치를 가져와 행렬 곱셈을 수행하고, 중간 활성화를 다시 VRAM에 기록합니다.
  4. 그 다음 Layer 2 가중치를 가져와 곱셈을 반복하고, 결과를 저장하는 과정을 32개의 레이어 전체에 걸쳐 수행해 하나의 토큰을 생성합니다.
  5. 다음 토큰을 만들기 위해서는 전체 32‑레이어 과정을 다시 반복합니다.

연산 유닛과 외부 메모리 사이를 지속적으로 오가는 데이터 이동 때문에 메모리 대역폭 병목(종종 “폰 노이만 병목” 혹은 “메모리 벽”이라 불림)이 발생하고, 이는 지연을 늘리며 큰 에너지를 소모합니다.

벽을 깨다

Taalas는 32개의 레이어를 실리콘에 직접 새김으로써 이 병목을 없앱니다. 모델의 가중치는 칩에 새겨진 물리적 트랜지스터가 됩니다.

이미지: The Taalas Way (칩에 하드와이어된 가중치 일러스트)

또한 4‑bit 데이터를 저장하고 해당 곱셈을 단일 트랜지스터로 수행하는 하드웨어 방식을 발명했다고 주장합니다—여기서는 “매직 멀티플라이어”라고 부릅니다(자세한 내용은 EE Times 기사 참고).

입력 벡터가 들어오면:

  1. Layer 1을 구현하는 트랜지스터로 흐릅니다.
  2. 매직 멀티플라이어를 통해 곱셈이 이루어집니다.
  3. 결과를 외부 메모리에 쓰는 대신, 전기 신호가 Layer 2 트랜지스터(파이프라인 레지스터)를 통해 직접 전달됩니다.
  4. 이 파이프라인이 모든 레이어를 거쳐 최종 출력 토큰이 생성될 때까지 계속됩니다.

온‑칩 메모리 사용량

이 칩은 외부 DRAM/HBM을 사용하지 않습니다. 대신 온‑칩 SRAM을 소량 포함하고 있습니다:

  • KV 캐시 – 진행 중인 대화의 컨텍스트 윈도우를 임시 저장합니다.
  • LoRA 어댑터 – 경량 파인‑튜닝 파라미터를 저장합니다.

SRAM을 선택한 이유는 DRAM과 로직 게이트를 혼합하는 것이 비용과 복잡성이 높으며, 현재 DRAM 공급망 제약에 영향을 받지 않기 때문입니다.

맞춤형 칩 비용

각 모델마다 전용 칩을 제작하는 것은 비용이 많이 들지만, Taalas는 다음과 같이 비용을 낮춥니다:

  • 베이스 칩을 설계해 일반적인 로직 게이트와 트랜지스터 그리드를 마련합니다.
  • 특정 모델의 가중치를 인코딩하기 위해 상위 두 개 마스크 레이어만 맞춤화합니다.

이 방식은 처음부터 설계하는 것보다 느리지만, 전체 맞춤형 테이프‑아웃보다 훨씬 빠릅니다. Llama 3.1 8B 구현은 약 두 달 정도 걸렸으며, 맞춤형 칩 분야에서는 비교적 빠른 턴어라운드입니다.

전망

강력한 GPU 없이 노트북에서 로컬 모델을 실행하는 개발자에게 Taalas의 접근 방식은 저렴하면서도 고성능 추론 하드웨어로 가는 길을 제시합니다. 대량 생산된다면 이러한 ASIC은 대형 언어 모델을 운영하는 비용과 에너지 발자국을 크게 낮출 수 있을 것입니다.

0 조회
Back to Blog

관련 글

더 보기 »