나는 18세 미만이고 가난한데, 방금 오픈소스 AI 칩을 설계했습니다. 전체 이야기를 들어보세요.

발행: 11시간 전 (2026년 4월 5일 PM 04:56 GMT+9)

6 분 소요

I’m happy to translate the article for you, but I’ll need the full text of the post (the content you’d like translated). Could you please paste the article’s body here? I’ll keep the source line exactly as you provided it and preserve all formatting, code blocks, URLs, and technical terms while translating the rest into Korean.

Introduction

저는 팀이 없습니다—노트북 하나와 인터넷 연결, 그리고 칩에 대한 집착뿐입니다. 이것은 T1C — Tier 1 Chip의 이야기와 제가 그것을 만든 이유입니다.

동기

AI 하드웨어에 대해 읽다 보면 언제나 같은 이야기가 반복됩니다:

NVIDIA는 H100에 $30,000을 청구합니다.
TSMC는 맞춤형 파운드리 런에 수백만 달러를 청구합니다.
Apple Silicon은 아름답지만 완전히 폐쇄되어 있습니다.
Intel, Qualcomm, AMD – 모두 NDA, 폐쇄형 아키텍처, 수십억 달러 규모의 관계에 얽혀 있습니다.

나는 개인이 실제로 제조할 수 있는 오픈소스 AI 칩을 만드는 사람이 왜 없는지 계속 궁금했습니다—실제 사양과 물리, 그리고 실리콘으로 가는 실제 경로를 가진 진정한 아키텍처.

디자인 개요

디지털 인‑메모리 컴퓨팅 (D‑IMC)

T1C는 디지털 인‑메모리 컴퓨팅을 사용합니다. 별도의 메모리와 프로세서 간에 데이터를 이동시키는 고전적인 폰 노이만 병목 현상 대신, 연산이 메모리 자체 근처에서 이루어져 데이터 이동, 전력 소비 및 지연 시간을 감소시켜 LLM 워크로드에 적합합니다.

프로세스 노드

65 nm LP via GlobalFoundries 커뮤니티 셔틀 (오픈‑소스 연구에 무료).
130 nm via IHP Germany (오픈‑소스 연구에 무료).

블레이드 아키텍처

하나의 블레이드 = 8 MAAU 칩.
블레이드당 비용: $280–$650 (경로에 따라 다름).
8개의 블레이드로 LLaMA 70B를 초당 10–16 토큰 속도로 실행 가능.
총 비용: $5 200 이하, 이는 단일 H100이 $30 000인 것과 비교됩니다.

Challenges & Solutions

Memory Packaging

First version: HBM‑Lite on‑package memory required TSMC CoWoS packaging—millions of dollars, only available to Samsung/TSMC customers.
Solution: Replaced with 4 × LPDDR5X chips per MAAU, 128‑bit wide bus on a standard PCB.
- Bandwidth: 168 GB/s.
- Cost: $15–35 per chip (vs. $70).

Voltage Stability

Even 10 mV fluctuation caused timing violations or crashes.
Dynamic current switching changes 1000× in one nanosecond—no single VRM could respond fast enough.
Adaptive Voltage Stack (5‑layer): on‑chip LDOs, MOM capacitors, PCB ceramics, bulk caps, and an I²C adaptive VRM.
- Achieved ±3 mV stability, better than most commercial MCUs.

Quantization Bug

Original TurboQuant used PolarQuant + QJL (1‑bit error correction).
Community testing showed QJL increased variance, degrading softmax and attention scores.
Publicly documented the issue, removed QJL, and switched to PolarQuant‑only.
4‑bit is now the default, lossless for every model size.

아키텍처 특징

MIM – Multi‑Instance MAAU: 각 물리 칩은 최대 4개의 격리된 하드웨어 슬라이스로 분할될 수 있으며, 각 슬라이스는 자체 SRAM(하드웨어 MMU를 통해), DMA 채널, LDO 전원 도메인 및 클럭 도메인을 가집니다.
NVIDIA의 MIG(H100)와 비교할 수 있지만, Verilog RTL로 완전 오픈소스이며 재부팅 없이 100 ms 미만의 시간 안에 런타임으로 크기를 조정할 수 있습니다.

Open‑Source Release

License: MIT.
Artifacts:
- 전체 Verilog RTL.
- GF 65 nm 및 IHP 130 nm용 GDSII 파일.
- 블레이드용 KiCad 8‑layer PCB.
- ISA 사양.
- Verilator 시뮬레이션 모델 (소프트웨어 개발자는 실리콘이 존재하기 전에 컴파일러를 작성할 수 있음).
- 부트 ROM, 기본 어셈블러, LCSC 및 Mouser 링크와 실제 가격이 포함된 전체 BOM.

Software Roadmap

Timeline	Milestone
Day 1	작동하는 행렬‑곱셈 증명‑개념.
3–6 months	`llama.cpp` 백엔드 – LLM이 T1C에서 실행됩니다.
6–12 months	ONNX Runtime 지원.
12–18 months	PyTorch 통합.
24 months+	HuggingFace 통합, 자립적인 커뮤니티, 상용 제품.

Performance & Value

T1C는 오늘날 RTX 4090보다 달러당 빠르지 않다.
그 가치는 D‑IMC를 갖춘 최초의 오픈‑소스 AI 가속기라는 점에 있다—개인이 직접 제작할 수 있는, CPU용 RISC‑V와 유사한 존재.
여러분은 이를 손에 넣고, 모든 트랜지스터를 이해하고, 수정하며, 그 위에 제품을 만들 수 있다.

점수

전체 생산 준비도: 9.2 / 10.
아키텍처: 9 / 10.

Closing

인도에서 — 전 세계를 위해.
우리는 설계합니다. 세계가 구축합니다.

참고 문헌

전체 사양:
블로그 게시물:
GitHub 저장소: