AI 엔지니어가 반드시 알아야 할 AI 엔지니어링의 핵심 돌파구
발행: (2025년 12월 20일 오전 04:52 GMT+9)
11 min read
원문: Dev.to
Source: Dev.to
개요
이 블로그 게시물은 2017년부터 현재까지 AI 엔지니어링이 어떻게 발전했는지 명확하고 단계별로 보여줍니다.
우리는 주요 돌파구를 네 가지 범주로 나누고 각각을 쉬운 언어로 설명합니다.
1️⃣ 2017 – 트랜스포머의 탄생
- Paper: “Attention Is All You Need”
- Why it matters:
- 트랜스포머 이전에는 모델이 텍스트를 순차적으로 처리했었습니다 (RNN).
- 이는 느리고 장거리 의존성을 다루는 데 어려움이 있었으며 (모델이 이전 단어들을 “잊어버림”).
- Core idea – Self‑Attention:
- 모델이 모든 단어를 한 번에 바라보면서 서로에게 가장 관련 있는 단어를 결정할 수 있습니다.
- Two huge benefits:
- 학습의 대규모 병렬화.
- 장거리 컨텍스트를 훨씬 더 잘 처리.
2️⃣ 2020 – GPT‑3와 인‑컨텍스트 학습
- Paper: “Language Models are Few‑Shot Learners” (OpenAI)
- Key breakthrough: 충분히 큰 트랜스포머를 스케일링하면 인‑컨텍스트 학습이 가능해짐.
- What it enables:
- 작업별 파인튜닝이 필요 없음.
- 프롬프트에 몇 개의 예시를 제공하면 (few‑shot) 모델이 패턴을 모방함.
- Result: 일반 목적의 “foundation” 모델을 프롬프트 / 컨텍스트 엔지니어링으로 조정할 수 있음.
GPT‑3에서 드러난 문제들
| Issue | Description |
|---|---|
| 듣지 않는다 | 그럴듯하지만 비논리적이거나 유해한 출력을 생성함. |
| 비용이 많이 든다 | 도메인(법률, 의료 등) 전체에 대한 파인튜닝 비용이 막대함. |
| “북웜” | 지식이 훈련 데이터 컷오프 시점에 고정돼 있어 새로운 정보나 내부 정보를 접근할 수 없음. |
3️⃣ 2022‑2023 – 모델을 정렬된(Aligned), 전문적인(Professional), 그리고 오픈‑북(Open‑Book) 으로 만들기
3.1 정렬(Alignment) – RLHF (InstructGPT)
- Paper: “Training language models to follow instructions with human feedback”
- Process (RLHF):
- Human ranking – 인간이 여러 모델 응답을 비교한다.
- Reward model – 인간 선호도를 예측하도록 학습된 보상 모델.
- Policy optimisation – 큰 모델을 보상을 최대화하도록 파인튜닝한다.
- Takeaway: 작고 정렬된 모델이 훨씬 큰 비정렬 모델보다 사용자 만족도에서 우위에 설 수 있다.
3.2 파라미터‑효율적 파인튜닝 – LoRA
- Full fine‑tuning (모든 가중치를 업데이트)은 비용이 많이 든다.
- LoRA (Low‑Rank Adaptation):
- 수십억 개의 원래 파라미터를 고정한다.
- 매 레이어에 아주 작은 학습 가능한 어댑터(전체 파라미터의 ≈ 0.01 %)를 삽입한다.
- Impact: 파인튜닝이 단일 GPU에서도 가능해져, 소규모 팀도 접근할 수 있게 된다.
3.3 검색‑증강 생성 (RAG)
- Problem: 모델이 “책벌레”라서 지식이 부족할 때 환각을 일으킨다.
- Solution:
- Retrieve 외부 지식 베이스(인터넷, 내부 DB 등)에서 관련 문서를 검색한다.
- Feed 해당 문서를 모델에 “오픈‑북” 자료로 제공한다.
- Generate 검색된 텍스트에 근거한 답변을 생성한다.
- Result: RAG는 이제 프로덕션 수준 LLM 애플리케이션(고객 서비스 봇, 지식 베이스 Q&A 등)의 사실상 표준이 되었다.
4️⃣ 2023‑2024 – Efficiency & Edge Deployment
Knowledge Distillation
- Idea: 대형 teacher 모델(예: BERT)이 압축된 student 모델(예: DistilBERT)을 가르칩니다.
- Outcome:
- student는 **≈ 97 %**의 teacher 언어 이해 능력을 유지합니다.
- 40 % 적은 파라미터와 ≈ 60 % 빠른 추론을 제공합니다.
- Why it matters: 스마트폰, 엣지 디바이스, 그리고 기타 자원 제한 환경에서 AI를 가능하게 합니다.
네 가지 카테고리 요약
| 카테고리 | 핵심 과제 | 대표적인 돌파구 |
|---|---|---|
| 기본 아키텍처 | 느리고 순차적인 처리 | Transformer (2017) |
| 스케일링 및 일반화 | 소수‑샷 능력 필요 | GPT‑3 / In‑Context Learning (2020) |
| 사용성 및 정렬 | 지시 수행 부족, 높은 파인‑튜닝 비용, 오래된 지식 | RLHF (InstructGPT), LoRA, RAG |
| 효율성 및 배포 | 런타임 비용, 엣지‑디바이스 제약 | Knowledge Distillation |
최종 생각
2017년 최초의 self‑attention 레이어에서 오늘날 edge‑ready 증류 모델에 이르기까지, 각 돌파구는 구체적인 사용성 문제를 해결했습니다. 그 결과는 실용적이고 비용 효율적이며 신뢰할 수 있는 AI 스택으로, 대규모 클라우드 클러스터부터 스마트폰 포켓까지 어디서든 배포할 수 있습니다.
Quantization
- Goal: 모델 크기를 줄여 엣지 디바이스(예: 웨어러블)에서 실행할 수 있게 함.
- How it works:
- 가중치를 더 적은 비트로 저장 – 예: 32‑bit 부동소수점에서 8‑bit 정수(int8)로 전환.
- 이는 메모리 사용량을 ≈ 4× 줄임.
- Challenge: 단순 압축은 종종 정확도를 떨어뜨림.
- Key insight: “이상치” 가중치 중 극히 일부만 큰 오류를 일으킴.
- Solution – Mixed‑precision:
- Int8을 대부분의 가중치에 사용.
- 중요한 이상치 값에는 16‑bit 사용.
- Result: 거의 정확도 손실 없이 상당한 메모리 절감.
Mixture‑of‑Experts (MoE) 아키텍처
- Idea: 하나의 거대한 “만능” 모델 대신, 여러 전문화된 전문가 모델(예: 수학 전문가, 시 전문가)을 학습합니다.
- Routing:
- 라우터가 각 토큰 예측에 가장 적합한 전문가를 선택합니다.
- 선택된 전문가만 활성화되어 연산량을 낮게 유지합니다.
- Benefits:
- 전체 파라미터 수가 트릴리언 규모에 이를 수 있습니다.
- Inference cost는 단계마다 사용되는 파라미터가 일부에 불과하므로 낮게 유지됩니다.
LLM 에이전트
- Purpose: 모델이 단순히 채팅이 아니라 외부 세계와 상호작용할 수 있게 함.
- Core components:
- Brain – 사고하고 계획하는 LLM.
- Perception – 외부 정보를 읽음 (예: 도구 출력).
- Action – API 또는 기타 도구를 호출함.
- What this unlocks: 항공편 예약, 재무 보고서 분석, 코드 실행 등.
Model Context Protocol (MCP)
- Problem before MCP: 각 AI‑to‑tool 통합마다 맞춤형, 일회성 인터페이스가 필요했습니다.
- Solution (Anthropic, 2024): 외부 도구 및 API와의 AI‑모델 통신을 위한 오픈 표준.
- Analogy: HTTP가 웹 브라우저 ↔ 서버 통신을 통합한 것처럼, MCP는 AI ↔ 도구 통신을 통합하는 것을 목표로 합니다.
- Impact: 널리 채택될 경우, AI 생태계의 연결 효율성이 크게 향상될 것입니다.
에이전트‑투‑에이전트 (A2A) 프로토콜
- 시나리오: 여러 AI 에이전트가 협업해야 함 (예: 캘린더 관리자, 이메일 처리기, 문서 분석가).
- 솔루션 (2025): 에이전트가 대화하고, 데이터를 안전하게 공유하며, 다양한 플랫폼에서 행동을 조정할 수 있게 하는 프로토콜.
- 비유:
- MCP = 각 에이전트에게 서비스를 호출할 수 있는 전화기를 제공하는 것.
- A2A = 모든 에이전트에게 협업을 위한 그룹 채팅을 제공하는 것.
- 결과: 생태계를 완성—에이전트가 도구를 사용 (MCP를 통해) 하고 동시에 협업 (A2A를 통해) 할 수 있음.
AI 엔지니어링 진화 경로
| Stage | What was solved | Representative breakthrough |
|---|---|---|
| Run | 모델을 효율적으로 실행할 수 있는 능력 | Transformer |
| Learn | 확장 가능한 사전 학습 | GPT‑3 |
| Obey | 인간 의도에 맞게 행동을 정렬 | InstructGPT |
| Useful & Affordable | 비용을 낮추고 접근성을 향상 | LoRA, RAG, Quantization |
| Do Work | 자율적인 행동 및 협업 가능 | Agents, MCP, A2A |
각 단계는 AI를 실용적이고 실제 업무를 수행할 수 있는 파트너에 가깝게 만드는 주요 레버리지 포인트를 나타냅니다.