왜 단백질은 접히는가와 GPU가 접힘을 돕는 방법
Source: Hacker News
인공지능 이야기를 하기 전에, 왜 단백질이 엄청 복잡한지 먼저 얘기해야 합니다
뭐가 대단한지 아세요? 지금 이 글을 읽고 있는 순간에도 여러분 몸 안에서는 약 20,000가지 서로 다른 종류의 단백질이 활동하고 있습니다. 총 20,000개의 단백질이 아니라 20,000가지 종류라는 점이 중요합니다. 실제 단백질 분자 수는? 수십억 개, 모든 세포를 합치면 수조 개에 달합니다.
각각은 고유한 역할과 고유한 형태를 가지고 있습니다. 하나라도 종류가 잘못 접히면 알츠하이머, 낭포성 섬유증, 겸상 적혈구 빈혈, 파킨슨병, 헌팅턴병, 광우병 등 수천 가지 단백질‑오접힘 질환을 일으킬 수 있습니다.
우리 몸은 이 단백질들을 완벽하게, 하루에 수십억 번, 약 37조 개에 달하는 모든 세포에서—사용 설명서도, 작업실도 없이—만들어 냅니다.
수십 년 동안 과학자들은 아미노산 서열만을 가지고 단백질이 어떤 형태로 접히는지 예측하려고 애썼습니다. 이 문제에 전 생애를 바치고, 노벨상과 슈퍼컴퓨터까지 투입되었습니다. 그러다 2020년에 AI 기업들이 등장해 이 문제를 해결했다고 주장하며 급속히 진전을 이루었습니다.
이제 우리는 형태를 예측하는 것에 그치지 않고, 플라스틱을 분해하거나 이산화탄소를 포집하거나 암세포를 정밀하게 표적하는 전혀 새로운 단백질을 설계하고 있습니다.
하지만 NVIDIA의 역할을 살펴보기 전에, 먼저 단백질이 무엇이며 왜 접힘이 그렇게 어려운 과제인지 이해해 봅시다.
단백질 101: 삶의 레고 블록 (하지만 훨씬 복잡하고 스스로 조립됩니다)
중심 교리를 떠올려 보세요: DNA → RNA → 단백질. 정보는 한 방향으로 흐릅니다(레트로바이러스를 제외하고).
단백질은 아미노산 사슬이 특정 3차원 형태로 접히는 물질이며, 그 형태가 단백질의 기능을 결정합니다.
사슬 → 접힘 → 형태 → 기능.

아미노산: 몸 안 모든 기능을 쓰는 20글자 알파벳
우리 몸이 단백질을 만들 때 사용하는 표준 아미노산은 20가지입니다(비표준 아미노산도 있지만 여기서는 무시합니다). 알파벳의 글자처럼 조합돼 기능성 기계를 이룹니다.
각 아미노산은 공통적인 골격을 가집니다:
- 아미노기 (NH₂)
- 카복실기 (COOH)
- 중심 탄소에 결합된 수소 원자
…그리고 각 아미노산마다 특유의 측쇄(R 그룹) 가 있어 개성을 부여합니다.

몇 가지 아미노산을 소개합니다 (각각 성격이 있습니다)
- 글리신 – 가장 작음; 측쇄가 단순히 수소 원자 하나. 유연하고 팀 플레이에 뛰어남.
- 프롤린 – 고리 구조로 굽힘을 만들며, 구부러짐을 강요하는 반항아.
- 시스테인 – 황을 함유; 두 시스테인이 결합해 이황화 결합(S‑S)을 형성, 화학 스테이플 역할.
- 트립토판 – 크고 부피가 큼; 일반적으로 소수성이라 단백질 내부에 숨겨짐.
- 아스파트산 & 글루탐산 – 음전하; 다른 음전하와는 반발하고 양전하를 끌어당김.
- 라이신 & 아르기닌 – 양전하; 음전하를 끌어당겨 구조를 안정화.
- 페닐알라닌, 류신, 아이소류신, 발린 – 소수성; 물을 피하고 서로 모여 군집.
측쇄가 결정하는 것:
- 친수성 vs. 소수성
- 전하(양, 음, 중성)
- 크기(포장 방식에 영향)
- 강직성 vs. 유연성
- 화학적 반응성

조합 폭발: 가능한 경우의 수
일반적인 단백질은 200~400개의 아미노산을 포함하고, 티틴 같은 경우는 34,350개에 달합니다.
길이 100개의 아미노산으로 이루어진 단백질을 생각하면, 가능한 서열 수는 20¹⁰⁰ ≈ 1.27 × 10¹³⁰ 입니다.
- 관측 가능한 우주의 원자 수: ~10⁸⁰
- 관측 가능한 우주의 별 수: ~10²⁴
즉, 100‑잔류 서열의 경우의 수는 우주에 존재하는 원자 수보다 약 10⁵⁰ 배 더 많습니다. 이 서열들 대부분은 기능적인 구조로 접히지 못하고 응집하거나 분해됩니다. 35억 년에 걸친 진화는 거대한 무차별 탐색을 통해 몇 안 되는 유효한 접힘을 찾아냈습니다.
우리는 그 시간 규모를 가질 수 없으므로, 지금 단백질을 설계하기 위한 더 똑똑한 방법이 필요합니다.
접힘, 마법이 일어나는 순간 (그리고 모든 것이 잘못될 수도 있는 곳)
리보솜이 단백질 번역을 마치면, 긴 선형 폴리펩티드 사슬이 방출됩니다. 골격은 반복되는 NH‑CHR‑CO 단위가 펩타이드 결합으로 연결된 형태입니다:
...—NH—CHR—CO—NH—CHR—CO—NH—CHR—CO—...
측쇄(R 그룹)는 이 골격에서 튀어나옵니다. 합성이 끝나자마자 사슬은 다양한 형태를 탐색하기 시작하고, 서열에 의해 결정된 에너지적으로 가장 안정된 3차원 구조를 찾으려 합니다. 이 접힘 과정은 빠르고, 고도로 협동적이며, 기능에 필수적이지만, 오류가 발생하면 질병으로 이어질 수 있습니다.