Microsoft의 새로운 AI 훈련 방법은 모델 성능을 희생하지 않고 부풀린 시스템 프롬프트를 제거합니다

발행: (2026년 2월 27일 오전 09:00 GMT+9)
14 분 소요

Source: VentureBeat

긴 시스템 프롬프트의 문제점

LLM 애플리케이션을 구축하는 기업들은 종종 매우 긴 시스템 프롬프트를 만들어 회사 지식, 선호도 및 애플리케이션‑특정 지시사항을 주입합니다.
대규모로 사용할 경우, 이러한 프롬프트는 다음과 같은 문제를 일으킬 수 있습니다.

  • 추론 지연 시간이 허용 가능한 임계값을 초과합니다.
  • 쿼리당 비용이 크게 상승합니다.

긴 시스템 프롬프트가 부담이 되는 이유

  1. 일시적인 지식 – 컨텍스트 내 학습은 모델의 행동을 추론 시점에만 업데이트합니다. 이 지식은 대화 간에 지속되지 않으며, 동일한 방대한 지시 세트를 매 요청마다 제공해야 합니다.

  2. 운영 오버헤드 – 정책, 티켓, 혹은 방대한 기술 매뉴얼을 매번 다시 공급하면 모델이 느려지고 비용이 증가하며 시스템이 혼란스러워질 수 있습니다.

  3. 안전 및 전문성 제약 – Microsoft Research Asia의 Tianzhu Ye가 VentureBeat에 설명한 바와 같이:

    “기업들은 종종 안전 제약(예: 혐오 발언 감지)을 적용하거나 도메인‑특화 전문 지식(예: 의료 지식)을 제공하기 위해 긴 시스템 프롬프트를 사용합니다. 그러나 긴 프롬프트는 추론 시 계산 오버헤드와 지연 시간을 크게 증가시킵니다.”

컨텍스트 증류: 핵심 아이디어

컨텍스트 증류는 모델이 프롬프트에 반복적으로 삽입될 정보를 내재화하도록 훈련합니다.

  • Teacher(교사) – 방대한 상세 프롬프트를 받아 매우 맞춤화된 응답을 생성하는 AI 모델.
  • Student(학생) – 주요 질문만 보고(전체 컨텍스트는 없음) 교사의 출력을 관찰하며 교사의 행동을 모방하는 방법을 학습하는 모델.

이 과정을 통해 학생은 복잡한 지시를 자신의 파라미터에 압축하여, 긴 프롬프트 없이도 추론할 수 있게 됩니다.

고전(오프‑폴리시) 컨텍스트 증류의 한계

문제중요한 이유
오프‑폴리시 훈련 – 훈련 이전에 수집된 고정 데이터셋을 사용합니다.학생은 자체 토큰 시퀀스를 생성하는 연습을 전혀 하지 못해 노출 편향이 발생하고 실수 복구가 어려워집니다.
포워드 KL 발산 – 학생을 교사와의 유사성으로 평가합니다.모드 커버링 행동을 장려하여, 작은 학생이 교사의 모든 가능성을 포괄하려다 보니 지나치게 폭넓고 초점이 흐린 예측을 하게 됩니다.
환각 및 일반화 저하학생은 실제로 가지고 있지 않은 지식을 모방하도록 강요받기 때문에 자신 있게 정보를 꾸며낼 수 있습니다.

Source:

How OPCD Fixes the Teacher‑Student Problem

Microsoft 연구원들은 위의 단점을 해결하는 On‑Policy Context Distillation (OPCD) 를 소개했습니다.

OPCD의 핵심 변화

  1. On‑policy 학습 – 학생 모델이 자신이 생성한 경로 로부터 학습합니다. 고정된 데이터셋이 아니라 스스로 만든 데이터를 사용합니다.

  2. 실시간 교사 피드백 – 학생이 답변을 생성할 때(거대한 프롬프트 없이) 전체 컨텍스트를 가진 교사가 각 단계마다 평가합니다.

  3. Reverse KL divergence – OPCD는 KL divergence을 최소화하여 mode‑seeking 행동을 촉진합니다:

    “역 KL divergence을 최소화함으로써 ‘mode‑seeking’ 행동을 촉진합니다. 이는 학생 분포의 높은 확률 영역에 집중한다”고 Ye는 말했습니다. “학생이 가능성이 낮다고 판단하는 토큰을 교사의 신념이 높은 확률을 부여했더라도 억제합니다. 이러한 정렬은 학생이 스스로 실수를 교정하고 기존 증류 방식의 넓고 환각적인 분포를 피하도록 돕습니다.”

기업 배포에 대한 장점

  • 자체 추론 가능 – 학생 모델이 컨텍스트를 내부화하여 실행 시 긴 프롬프트를 붙여 넣을 필요가 없습니다.
  • 지연 시간 및 비용 감소 – 계산 오버헤드가 크게 줄어들어 응답이 빨라집니다.
  • 신뢰성 향상 – 모델이 스스로 판단하고 오류를 교정하는 연습을 함으로써 환각이 감소하고 새로운 작업에 대한 일반화가 개선됩니다.

TL;DR

  • 긴 시스템 프롬프트는 기업 LLM 애플리케이션에서 비용이 많이 들고 속도가 느립니다.
  • 기존 컨텍스트 증류(오프‑policy)는 노출 편향과 과도하게 넓은 예측 문제를 안고 있습니다.
  • OPCD는 학생을 on‑policy 로 학습시키고, 역 KL divergence을 사용하며, 컨텍스트를 인식하는 교사가 실시간 피드백을 제공함으로써, 대규모 프롬프트 없이도 작고 빠르며 더 신뢰할 수 있는 모델을 만들게 됩니다.

Source:

OPCD 벤치마크 결과

OPCD가 제공하는 것

연구자들은 OPCD(Optimized Parameter‑Conditional Distillation)를 두 가지 핵심 영역에서 평가했습니다:

  1. 경험 기반 지식 증류 – LLM이 자신의 과거 성공으로부터 학습하고 그 교훈을 영구적으로 채택할 수 있는가?
  2. 시스템 프롬프트 증류 – 안전 지향적인 밀집 시스템 프롬프트를 모델 가중치에 직접 삽입하여 매 사용자 질의마다 제공할 필요가 없는가?

1. 경험 기반 지식 증류

절차

  • 모델이 일련의 수학 추론 문제를 풉니다.
  • 그런 다음 성공으로부터 추론한 일반 규칙을 적도록 요청합니다.
  • OPCD를 사용해, 작성된 교훈을 모델 파라미터에 삽입합니다.

결과

모델 (파라미터)작업기본 정확도OPCD 적용 후 정확도
8 B복잡한 수학 문제75.0 %80.9 %
1.7 BFrozen Lake 탐색 (성공률)6.3 %38.3 %

모델이 학습된 경험을 프롬프트에 붙여 넣지 않아도 크게 향상되었습니다.

2. 시스템 프롬프트 증류

기업들은 종종 대규모 시스템 프롬프트를 앞에 붙여 엄격한 행동 지침(예: 전문적인 어조, 의료 정확성, 독성 필터링)을 강제합니다. 목표는 이러한 규칙을 내부화하여 각 질의와 함께 전달될 필요가 없게 하는 것이었습니다.

결과

모델 (파라미터)작업기본 정확도OPCD 적용 후 정확도
3 B Llama안전성 및 독성 분류30.7 %83.1 %
3 B Llama의료 질문 답변59.4 %76.3 %

OPCD는 복잡한 행동 규칙을 성공적으로 내부화하고 성능을 크게 끌어올렸습니다.

3. 재앙적 망각

일반적인 파인튜닝 함정은 재앙적 망각—모델이 지나치게 특화되어 관련 없는 작업에서 성능이 저하되는 현상입니다.

  • 엄격한 안전 규칙을 증류한 뒤, 모델을 관련 없는 의료 질문에 즉시 테스트했습니다.
  • OPCD는 일반 의료 지식을 유지했으며, 기존 오프‑폴리시 방법보다 ≈ 4 퍼센트 포인트 더 높은 성능을 보였습니다.

모델은 전문화되면서도 전반적인 지능을 잃지 않았습니다.

4. OPCD가 적합한 경우 — 그리고 적합하지 않은 경우

  • 정적 지식복잡하고 장문형 규칙을 내부화할 때 잘 맞습니다.
  • RAG(Retrieval‑Augmented Generation)와 같은 접근법을 대체하지는 못합니다. 요구되는 정보가 극히 동적이거나 대규모, 빈번히 업데이트되는 외부 데이터베이스에 존재하고 이를 모델 가중치에 압축할 수 없을 때는 RAG가 더 적합합니다.

“RAG는 요구되는 정보가 매우 동적이거나 대규모, 빈번히 업데이트되는 외부 데이터베이스에 존재하여 모델 가중치에 압축할 수 없을 때 더 좋다.” – Ye.

5. 구현 및 자원 요구 사항

항목세부 내용
통합주요 파이프라인 전환이 필요하지 않음. 기존에 RLVR(Reinforcement Learning from Verifiable Rewards)를 사용 중인 팀은 최소한의 마찰로 OPCD를 도입할 수 있음.
하드웨어실험 재현에 8 × NVIDIA A100 GPU 정도면 충분함.
데이터경험 기반 지식: 솔루션 트레이스를 생성하기 위한 ~30개의 시드 예시.
시스템 프롬프트: 기존 최적화 프롬프트 + 표준 작업 데이터셋.
코드베이스**verL**이라는 오픈‑소스 RLVR 코드베이스 위에 구축. 구현은 내부 검토 후 공개될 예정.

6. 자기 개선 모델: 다음 단계

OPCD는 진정으로 자기 개선이 가능한 모델이 기업 환경에 지속적으로 적응할 수 있는 길을 열어줍니다:

  • 배포 후, 모델은 실제 상호작용에서 교훈을 추출할 수 있습니다.
  • 그런 다음 OPCD를 사용해 해당 특성을 내부화함으로써 수동 감독이나 추가 데이터 라벨링 없이도 개선됩니다.

“이것은 모델 개선 패러다임의 근본적인 전환을 의미한다: 핵심은 …”

Source:

“모델에 대한 조정이 훈련 시점에서 테스트 시점으로 이동하게 될 것입니다. 모델을 사용하고—경험을 축적하도록 허용하는—것이 그 발전의 주요 동력이 될 것입니다.” – Ye

0 조회
Back to Blog

관련 글

더 보기 »

메모리는 AI에서 누락된 레이어이다

문제: 잊어버리는 상호작용 상상해 보세요, 기억상실증에 걸린 뛰어난 의사를 만나게 되는 상황을. 매번 방문할 때마다 당신은 과거 병력, 증상 등을 처음부터 모두 설명해야 합니다.