같은 프롬프트. 매번 다른 답변. 내가 해결한 방법

발행: (2026년 4월 3일 AM 09:12 GMT+9)
13 분 소요
원문: Dev.to

Source: Dev.to

Part 3 – AI 검증 시리즈
이 글은 AI 검증 시리즈의 Part 3입니다.

같은 프롬프트. 같은 AI. 다른 세션. 다른 출력.

Post 1에서는 다른 AI 세 개가 같은 질문에 대해 서로 다른 답을 제시했으며, 이는 서로 다른 학습 데이터, 가중치, 아키텍처 때문이라는 점에서 예상된 결과였습니다.

우리는 더 나아가: 같은 AI를 같은 프롬프트로 새로운 세션에서 다시 실행했는데, 다시 한 번 실질적으로 다른 출력이 나왔습니다. 두 출력 모두 권위 있게 보였고, 서로 의견이 다르다는 경고도 없었습니다.

같은 AI가 두 번 말한 내용

Prompt: “Forecast Korea’s AI industry in 2027.”

세션출력 발췌
1시장 규모: $10–15 B at >25 % CAGR
글로벌 포지셔닝: “Global AI G3 powerhouse”
하드웨어 주장: “All Korean electronics AI‑native by 2027” – 단일 기업 로드맵에 근거
2시장 규모: KRW 4.46 T (~$3.3 B) at 14.3 % CAGR
글로벌 포지셔닝: “Top three AI powers” – 정부 목표로 제시
하드웨어 주장: 없음

같은 프롬프트. 같은 AI. 다른 세션.4배 시장 규모 격차가 발생했으며, 어느 쪽에서도 경고가 없었습니다.

두 출력 모두 내부적으로 일관되었고 신뢰할 수 있는 애널리스트 보고서처럼 읽혔지만, 이러한 차이는 단순한 환각을 넘어선 더 깊은 문제를 보여줍니다.

왜 이런 일이 발생하는가: AI 추론은 비결정적이다

우리는 더 나은 프롬프트, 더 많은 컨텍스트, 그리고 더 엄격한 지시를 사용해 출력 드리프트를 고치려 몇 달을 보냈지만, 소용이 없었습니다. 문제는 프롬프트가 아니라 모델 자체에 있습니다.

AI는 옳게 들리도록 최적화됩니다.
스스로를 증명하도록은 아닙니다.

우리가 환각이라고 부르는 현상은 대부분 컨텍스트 드리프트입니다 – 모델의 타당성 엔진이 주어진 세션에서 눈에 띄는 요소에 따라 빈틈을 다르게 메우는 것이죠(다른 날, 다른 샘플링, 컨텍스트 창에서의 다른 강조). 자신감은 동일하게 유지되지만 내용은 변합니다. 비결정적인 시스템에서 프롬프트만으로는 해결할 수 없으며, 별도의 검증 단계가 필요합니다.

The truth filter didn’t just score – it fingerprinted

우리는 gem2_truth_filter를 사용해 두 세션을 실행했으며, 단일 숫자를 얻기 위해서가 아니라 출력이 달라졌는지를 이해하기 위해서였습니다.

Session 1 (average score 35 %)

ProviderScoreKey violation
Gemini24 %L→G: “Global AI G3 — no index cited”
ChatGPT21 %Δe→∫de: single‑company → industry‑wide claim
Claude59 %S→T: current AI strength = permanent identity

Session 2 (average score 43 %)

ProviderScoreKey violation
Gemini45 %S→T: past‑tense framing of future events
ChatGPT32 %Source attribution FAIL
Claude51 %Scope mixing — 2033 CAGR back‑extrapolated to 2027

실패 유형이 다릅니다: Session 1은 한국의 글로벌 위치를 과대 주장했으며; Session 2는 시제 표현과 인용에서 문제를 일으켰습니다.

같은 프롬프트 → 다른 추론 경로 → 다른 실패 서명.

필터는 문제를 만든 정확한 추론 패턴을 이름으로 표시합니다(예: L→G, S→T, Δe→∫de). 이름이 붙은 패턴은 감사 가능한 드리프트를 의미하고, 이는 다시 시스템을 고칠 수 있음을 의미합니다.

Note: 한국 AI 산업을 예측하는 것은 제품 분석보다 더 어려운 근거 작업입니다(인용 가능한 출처가 적고, 예측에 의존하는 주장 많음). 따라서 기본 점수는 Part 1보다 낮게 나타납니다.

우리는 출력을 고치려는 시도를 멈췄다. 조건을 고쳤다.

끝없이 프롬프트를 조정하는 대신, 우리는 gem2 도구를 사용해 구체적인 대체 계약을 만들도록 시스템에 요청했다.

Command: “Create a grounded replacement contract prompt using gem2 tools.”

시스템은 다음과 같은 형식적인 계약을 생성했다:

  • 입력 / 출력 유형
  • 불변 조건
  • 금지된 패턴
  • 신뢰도 요구 사항

간단히 검토하고 승인한 뒤, 계약이 적용된 동일한 AI를 다시 실행했다.

계약 준수 실행 (R2)

ProviderScore
Gemini98 %
Claude81 %
ChatGPT64 %

Average: 81 %+38 points over the unconstrained runs. 계약이 AI를 더 똑똑하게 만드는 것은 아니다; 정의된 표준에 따라 출력을 감사 가능하게 만든다.

그때 인간이 개입했다 – 한 번

81 % 출력은 마치 법률 문서처럼 읽혔다: 모든 주장에 인용, 범위 지정, 그리고 완충이 있었지만 실제로는 읽기 어려웠다. 우리는 단 하나의 지시를 추가했다:

“톤을 부드럽게 해라. 진실 필터가 제거한 어떠한 주장도 다시 도입하지 말라.”

부드럽게 만든 실행 (R3)

제공자점수
Gemini95 %
Claude75 %
ChatGPT57 %

평균: 75 % – 가독성을 위해 6점 감소했지만 여전히 기반을 유지한다.

우리는 **75 %**를 선택했다. 81 %보다 높아서가 아니라 올바른 트레이드‑오프를 나타내기 때문이다: 공유하기에 충분히 읽을 수 있고, 신뢰하기에 충분히 기반이 잡힌다. 이것이 내러티브 AI 예측에 대한 우리의 표준이 되었다.

Human reads the audit.
Human decides the trade‑off.
Human defines the standard.

줄별 검토도, 맹목적인 신뢰도 없으며 – 바로 그 순간의 결정이다.

전체 아크가 어떻게 보이는지

Session 1 (no filter)          → 35 % avg
Session 2 (no filter)          → 43 % avg
Contract applied (R2)           → 81 % avg
Human softened (R3)            → 75 % avg  ← our standard
Truth is not the score.
Truth is the pattern of drift.
You define the standard.

워크플로우: AI가 AI를 감사한다

Human asks  →  AI executes
AI verifies AI → AI fixes AI
Human decides at the edge

검증 레이어(gem2_truth_filter, tpmn 등)는 감사를 제공하고, 인간이 최종 판단을 내립니다. 이 두 단계 접근 방식은 비결정적 드리프트를 감사 가능하고 수정 가능한 프로세스로 전환합니다.

# GEM2 Epistemic Studio Overview

**_contract_writer_**, the composer — runs between generation and delivery.  
The human sees the audit result, decides the acceptable trade‑off, and sets the calibration standard.

- **Human‑in‑the‑loop** means the human is the bottleneck — every output passes through before it ships. That doesn’t scale.  
- **Human‑at‑the‑edge** means you define “acceptable” once, and the system enforces it automatically. You intervene only when a genuine judgment call is required — e.g., choosing 75 % over 81 %.

TPMN은 검사기가 아니다

TPMN은 검증기, 린터, 혹은 환각 탐지기가 아닙니다.

TPMN은 인식적 게이지입니다.

그것은 무엇이 근거가 있는지, 무엇이 추론된 것인지, 무엇이 외삽된 것인지를 보여줍니다.
출력이 세션마다 달라지는 이유를 지문화하고, 구조를 안정화하는 계약을 생성하며, 인간 보정 신호를 표준으로 전환합니다.

결정은 하지 않습니다. 당신이 합니다.

우리는 전체 도구 모음을 GEM2 Epistemic Studio라고 부릅니다 — 네 개의 기능 그룹에 걸친 15개의 도구:

  1. 분석
  2. 계약 작성
  3. 보정
  4. 실행

TPMN Checker는 그 안의 한 그룹입니다.

직접 시도해 보기

  1. AI 출력물을 대화에 붙여넣으세요.
    물어보세요: “gem2 진실 필터로 검증해 주세요.”
  2. 점수를 확인하세요. 어떤 부분이 근거가 있는지, 어떤 부분이 추론인지 확인하세요.
  3. 물어보세요: “gem2 계약 작성기를 사용해 근거가 있는 대체 프롬프트를 만들어 주세요.”
  4. 다시 실행하세요. 차이를 확인하세요.

당신의 AI는 15개의 사용 가능한 MCP 도구 중에서 올바른 도구를 자동으로 선택합니다—설정이나 TPMN 지식이 필요 없습니다.

목표는 더 높은 점수가 아니라, 당신이 이해하고 선택한 기준에 맞는 점수입니다.

➡️ Try it free at gemsquared.ai

Source:

프롬프트 이후에 무엇이 올까

산업은 아직 프롬프트 시대에 있습니다. 더 좋은 프롬프트, 더 긴 컨텍스트, 사고 사슬(chain‑of‑thought) — 모두 유용하지만, 충분하지는 않습니다.

다음 단계는 더 나은 프롬프트가 아니라 인프라로서의 검증(verification as infrastructure) 입니다.

AI generates.
AI verifies.
AI refines.
Human decides at the edge.

우리는 AI를 더 똑똑하게 만든 것이 아니라, 책임감 있게 만들었습니다.

이는 측정 가능합니다: 35 % → 75 % 동일한 작업을, 동일한 AI를 사용하면서, 단지 공식 계약서와 한 번의 인간 판단만으로도.

GEM2 Epistemic Studio — 15가지 도구, 6개 분야, 3개 제공업체. 무료 시작 가능.
Built by Inseok Seo (David) — GEM²‑AI

유용한 링크

0 조회
Back to Blog

관련 글

더 보기 »