AI 엔지니어가 반드시 알아야 할 AI 엔지니어링의 핵심 돌파구

발행: 1개월 전 (2025년 12월 20일 오전 04:52 GMT+9)

11 분 소요

원문: Dev.to

Source: Dev.to

개요

이 블로그 게시물은 2017년부터 현재까지 AI 엔지니어링이 어떻게 발전했는지 명확하고 단계별로 보여줍니다.
우리는 주요 돌파구를 네 가지 범주로 나누고 각각을 쉬운 언어로 설명합니다.

1️⃣ 2017 – 트랜스포머의 탄생

Paper: “Attention Is All You Need”
Why it matters:
- 트랜스포머 이전에는 모델이 텍스트를 순차적으로 처리했었습니다 (RNN).
- 이는 느리고 장거리 의존성을 다루는 데 어려움이 있었으며 (모델이 이전 단어들을 “잊어버림”).
Core idea – Self‑Attention:
- 모델이 모든 단어를 한 번에 바라보면서 서로에게 가장 관련 있는 단어를 결정할 수 있습니다.
Two huge benefits:
1. 학습의 대규모 병렬화.
2. 장거리 컨텍스트를 훨씬 더 잘 처리.

2️⃣ 2020 – GPT‑3와 인‑컨텍스트 학습

Paper: “Language Models are Few‑Shot Learners” (OpenAI)
Key breakthrough: 충분히 큰 트랜스포머를 스케일링하면 인‑컨텍스트 학습이 가능해짐.
What it enables:
- 작업별 파인튜닝이 필요 없음.
- 프롬프트에 몇 개의 예시를 제공하면 (few‑shot) 모델이 패턴을 모방함.
Result: 일반 목적의 “foundation” 모델을 프롬프트 / 컨텍스트 엔지니어링으로 조정할 수 있음.

GPT‑3에서 드러난 문제들

Issue	Description
듣지 않는다	그럴듯하지만 비논리적이거나 유해한 출력을 생성함.
비용이 많이 든다	도메인(법률, 의료 등) 전체에 대한 파인튜닝 비용이 막대함.
“북웜”	지식이 훈련 데이터 컷오프 시점에 고정돼 있어 새로운 정보나 내부 정보를 접근할 수 없음.

3️⃣ 2022‑2023 – 모델을 정렬된(Aligned), 전문적인(Professional), 그리고 오픈‑북(Open‑Book) 으로 만들기

3.1 정렬(Alignment) – RLHF (InstructGPT)

Paper: “Training language models to follow instructions with human feedback”
Process (RLHF):
1. Human ranking – 인간이 여러 모델 응답을 비교한다.
2. Reward model – 인간 선호도를 예측하도록 학습된 보상 모델.
3. Policy optimisation – 큰 모델을 보상을 최대화하도록 파인튜닝한다.
Takeaway: 작고 정렬된 모델이 훨씬 큰 비정렬 모델보다 사용자 만족도에서 우위에 설 수 있다.

3.2 파라미터‑효율적 파인튜닝 – LoRA

Full fine‑tuning (모든 가중치를 업데이트)은 비용이 많이 든다.
LoRA (Low‑Rank Adaptation):
- 수십억 개의 원래 파라미터를 고정한다.
- 매 레이어에 아주 작은 학습 가능한 어댑터(전체 파라미터의 ≈ 0.01 %)를 삽입한다.
Impact: 파인튜닝이 단일 GPU에서도 가능해져, 소규모 팀도 접근할 수 있게 된다.

3.3 검색‑증강 생성 (RAG)

Problem: 모델이 “책벌레”라서 지식이 부족할 때 환각을 일으킨다.
Solution:
1. Retrieve 외부 지식 베이스(인터넷, 내부 DB 등)에서 관련 문서를 검색한다.
2. Feed 해당 문서를 모델에 “오픈‑북” 자료로 제공한다.
3. Generate 검색된 텍스트에 근거한 답변을 생성한다.
Result: RAG는 이제 프로덕션 수준 LLM 애플리케이션(고객 서비스 봇, 지식 베이스 Q&A 등)의 사실상 표준이 되었다.

4️⃣ 2023‑2024 – Efficiency & Edge Deployment

Knowledge Distillation

Idea: 대형 teacher 모델(예: BERT)이 압축된 student 모델(예: DistilBERT)을 가르칩니다.
Outcome:
- student는 **≈ 97 %**의 teacher 언어 이해 능력을 유지합니다.
- 40 % 적은 파라미터와 ≈ 60 % 빠른 추론을 제공합니다.
Why it matters: 스마트폰, 엣지 디바이스, 그리고 기타 자원 제한 환경에서 AI를 가능하게 합니다.

네 가지 카테고리 요약

카테고리	핵심 과제	대표적인 돌파구
기본 아키텍처	느리고 순차적인 처리	Transformer (2017)
스케일링 및 일반화	소수‑샷 능력 필요	GPT‑3 / In‑Context Learning (2020)
사용성 및 정렬	지시 수행 부족, 높은 파인‑튜닝 비용, 오래된 지식	RLHF (InstructGPT), LoRA, RAG
효율성 및 배포	런타임 비용, 엣지‑디바이스 제약	Knowledge Distillation

최종 생각

2017년 최초의 self‑attention 레이어에서 오늘날 edge‑ready 증류 모델에 이르기까지, 각 돌파구는 구체적인 사용성 문제를 해결했습니다. 그 결과는 실용적이고 비용 효율적이며 신뢰할 수 있는 AI 스택으로, 대규모 클라우드 클러스터부터 스마트폰 포켓까지 어디서든 배포할 수 있습니다.

Quantization

Goal: 모델 크기를 줄여 엣지 디바이스(예: 웨어러블)에서 실행할 수 있게 함.
How it works:
- 가중치를 더 적은 비트로 저장 – 예: 32‑bit 부동소수점에서 8‑bit 정수(int8)로 전환.
- 이는 메모리 사용량을 ≈ 4× 줄임.
Challenge: 단순 압축은 종종 정확도를 떨어뜨림.
Key insight: “이상치” 가중치 중 극히 일부만 큰 오류를 일으킴.
Solution – Mixed‑precision:
- Int8을 대부분의 가중치에 사용.
- 중요한 이상치 값에는 16‑bit 사용.
Result: 거의 정확도 손실 없이 상당한 메모리 절감.

Mixture‑of‑Experts (MoE) 아키텍처

Idea: 하나의 거대한 “만능” 모델 대신, 여러 전문화된 전문가 모델(예: 수학 전문가, 시 전문가)을 학습합니다.
Routing:
- 라우터가 각 토큰 예측에 가장 적합한 전문가를 선택합니다.
- 선택된 전문가만 활성화되어 연산량을 낮게 유지합니다.
Benefits:
- 전체 파라미터 수가 트릴리언 규모에 이를 수 있습니다.
- Inference cost는 단계마다 사용되는 파라미터가 일부에 불과하므로 낮게 유지됩니다.

LLM 에이전트

Purpose: 모델이 단순히 채팅이 아니라 외부 세계와 상호작용할 수 있게 함.
Core components:
1. Brain – 사고하고 계획하는 LLM.
2. Perception – 외부 정보를 읽음 (예: 도구 출력).
3. Action – API 또는 기타 도구를 호출함.
What this unlocks: 항공편 예약, 재무 보고서 분석, 코드 실행 등.

Model Context Protocol (MCP)

Problem before MCP: 각 AI‑to‑tool 통합마다 맞춤형, 일회성 인터페이스가 필요했습니다.
Solution (Anthropic, 2024): 외부 도구 및 API와의 AI‑모델 통신을 위한 오픈 표준.
Analogy: HTTP가 웹 브라우저 ↔ 서버 통신을 통합한 것처럼, MCP는 AI ↔ 도구 통신을 통합하는 것을 목표로 합니다.
Impact: 널리 채택될 경우, AI 생태계의 연결 효율성이 크게 향상될 것입니다.

에이전트‑투‑에이전트 (A2A) 프로토콜

시나리오: 여러 AI 에이전트가 협업해야 함 (예: 캘린더 관리자, 이메일 처리기, 문서 분석가).
솔루션 (2025): 에이전트가 대화하고, 데이터를 안전하게 공유하며, 다양한 플랫폼에서 행동을 조정할 수 있게 하는 프로토콜.
비유:
- MCP = 각 에이전트에게 서비스를 호출할 수 있는 전화기를 제공하는 것.
- A2A = 모든 에이전트에게 협업을 위한 그룹 채팅을 제공하는 것.
결과: 생태계를 완성—에이전트가 도구를 사용 (MCP를 통해) 하고 동시에 협업 (A2A를 통해) 할 수 있음.

AI 엔지니어링 진화 경로

Stage	What was solved	Representative breakthrough
Run	모델을 효율적으로 실행할 수 있는 능력	Transformer
Learn	확장 가능한 사전 학습	GPT‑3
Obey	인간 의도에 맞게 행동을 정렬	InstructGPT
Useful & Affordable	비용을 낮추고 접근성을 향상	LoRA, RAG, Quantization
Do Work	자율적인 행동 및 협업 가능	Agents, MCP, A2A

각 단계는 AI를 실용적이고 실제 업무를 수행할 수 있는 파트너에 가깝게 만드는 주요 레버리지 포인트를 나타냅니다.