프롬프트 길이 vs. 컨텍스트 윈도우: LLM 성능 뒤의 실제 한계
Source: Dev.to
대형 언어 모델은 지난 2년 동안 엄청나게 빠르게 진화했습니다.
GPT‑5.1, Gemini 3.1 Ultra, Claude 3.7 Opus—이 모델들은 이제 한 번에 전체 책을 읽을 수 있습니다.
하지만 LLM 메모리를 제어하는 물리 법칙은 변하지 않았습니다. 모든 모델은 여전히 유한한 컨텍스트 윈도우를 가지고 있으며, 프롬프트 길이는 그 제약에 맞춰 설계되어야 합니다. 다음과 같은 상황을 겪어본 적이 있다면:
- “왜 모델이 섹션 3을 무시했을까?”
- “왜 출력이 갑자기 모호해졌을까?”
- “왜 긴 문서를 처리할 때 모델이 환각을 일으키는 걸까?”
…당신은 프롬프트 길이와 컨텍스트 제한을 잘못 관리한 결과를 목격한 것입니다.
1. 컨텍스트 윈도우가 진짜 의미하는 것
컨텍스트 윈도우는 모델의 작업 메모리입니다: 입력 과 모델 출력이 같은 “메모리 버퍼” 안에 저장되는 공간이죠.
토큰: 메모리의 실제 단위
- 영어 토큰 1개 ≈ 4자
- 중국어 토큰 1개 ≈ 2자
- “Prompt Engineering” ≈ 3–4 토큰
모든 것은 토큰 단위로 차감됩니다.
입력 + 출력이 함께 들어가야 함
GPT‑5.1의 256 k 토큰 윈도우 예시:
| Prompt | Output | Total |
|---|---|---|
| 130 k 토큰 | 120 k 토큰 | 250 k 토큰 (가능) |
윈도우를 초과하면 모델은 다음과 같이 동작할 수 있습니다:
- 오래된 토큰을 제거
- 정보를 손실이 있는 방식으로 압축
- 요청을 전면 거부
2. 프롬프트 길이: 모델 품질을 형성하는 숨은 힘
2.1 프롬프트가 너무 길면 → 오버플로, 손실, 품질 저하
현대 모델은 과부하 시 세 가지 방식으로 반응합니다:
- Hard Truncation – 앞부분이나 뒤부분이 잘려 나갑니다.
- Semantic Compression – 모델이 암묵적으로 요약을 수행하는데, 이 과정에서 인물, 숫자값, 예외 상황 등이 왜곡될 수 있습니다.
- Attention Collapse – 밀집된 어텐션 맵이 모호한 응답을 초래합니다. 이는 버그가 아니라 수학적 제한입니다.
2.2 프롬프트가 너무 짧으면 → 일반적이고 얕은 출력
Gemini 3.1 Ultra는 2 백만 토큰의 컨텍스트를 가집니다. 다음과 같은 25‑토큰 프롬프트:
“Write an article about prompt engineering.”
는 전체 메모리 용량의 **0.001 %**만 사용하게 되며, 모델은 청중, 제약조건, 목적 없이 작동합니다. 결과는 영혼 없는, SEO‑맛이 강한 텍스트가 됩니다.
2.3 장기 컨텍스트 모델이 게임을 바꾸지만 규칙은 변하지 않음
| Model (2025) | Context Window | Notes |
|---|---|---|
| GPT‑5.1 | 256 k | 균형 잡힌 추론 + 긴 문서 처리 |
| GPT‑5.1 Extended Preview | 1 M | 엔터프라이즈 급, 다중 파일 입력 |
| Gemini 3.1 Ultra | 2 M | 현재 “최대 컨텍스트” 챔피언 |
| Claude 3.7 Opus | 1 M | 긴 추론 체인에 최적 |
| Llama 4 70B | 128 k | 오픈소스 플래그십 |
| Qwen 3.5 72B | 128 k–200 k | 중국어 작업에 매우 강함 |
| Mistral Large 2 | 64 k | 가볍고 빠르며 효율적 |
수백만 토큰 윈도우를 갖더라도 기본 규칙은 그대로입니다:
강력한 메모리 ≠ 좋은 지시.
좋은 지시 ≠ 긴 문단.
좋은 지시 = 적절한 상세도.
3. 프롬프트 길이를 제어하기 위한 실용 전략
Step 1 — 모델을 정확히 파악하라
프롬프트와 예상 출력의 총 토큰 수에 맞는 모델을 선택하세요.
| Total tokens | Suitable models |
|---|---|
| ≤ 20 k | 모든 최신 모델 |
| 20 k–200 k | GPT‑5.1, Claude 3.7, Llama 4 |
| 200 k–1 M | GPT‑5.1 Extended, Claude Opus |
| > 1 M–2 M | Gemini 3.1 Ultra 전용 |
모델을 잘못 매치하면 불안정, 오류율 상승, 환각이 증가합니다.
Step 2 — 토큰을 직접 세어라
유용한 도구:
- OpenAI Token Inspector – 여러 문서, PDF, Markdown 지원.
- Anthropic Long‑Context Analyzer – “attention saturation”과 절단 위험을 표시.
- Gemini Token Preview – 윈도우 80–90 %에 접근할 때 품질 저하를 예측.
경험 법칙: 전체 컨텍스트 윈도우의 **70–80 %**만 사용하세요.
- GPT‑5.1 (256 k) → 안전 사용량 ≈ 180 k 토큰
- Gemini Ultra (2 M) → 안전 사용량 ≈ 1.4 M 토큰
Step 3 — 스마트하게 다듬어라
프롬프트가 부풀어 오르면 의미를 유지하면서 잡음을 제거하세요.
-
구조가 prose보다 우수 – 문단을 간결한 bullet list로 재작성.
-
Semantic Packing – 관련 속성을 압축:
[Persona: 25‑30 | Tier‑1 city | white‑collar | income 8k RMB | likes: minimal, gym, tech] -
예시는 뒤쪽으로 이동 – 모델은 스타일을 학습하지만 지시 토큰을 늘리지 않음.
-
긴 문서는 bucket 으로 나눠 – 200 k 토큰 초과 시:
Bucket A: requirements Bucket B: constraints Bucket C: examples Bucket D: risks각 bucket을 차례로 입력 → 요약 → 다음 bucket 입력 → 통합.
Step 4 — 프롬프트가 너무 짧을 때 깊이를 추가하라
프롬프트가
You don’t write long prompts; you allocate memory strategically.