LLM 평가 가이드: AI 애플리케이션에 online evals를 언제 추가할까

발행: (2025년 12월 18일 오전 02:42 GMT+9)
15 min read
원문: Dev.to

Source: Dev.to

Original article – published November 13, 2025

Source:

빠른 의사결정 프레임워크

AI Config용 온라인 평가(Online evals)는 현재 비공개 베타 단계입니다. 평가자를 프로젝트에 설치해야 AI Config 변형에 연결할 수 있습니다.

온라인 평가는 LLM 애플리케이션에 대한 실시간 품질 모니터링을 제공합니다. LLM‑as‑a‑judge 방법론을 사용하여 프로덕션 트래픽의 설정 가능한 비율에 자동 품질 검사를 수행하고, 구조화된 점수와 프로그램적으로 활용할 수 있는 통과/실패 판단을 생성합니다. LaunchDarkly는 세 가지 내장 평가자를 제공합니다:

  • accuracy (정확도)
  • relevance (관련성)
  • toxicity (독성)

온라인 평가를 건너뛰어야 할 경우

  • 검사 내용이 순수히 결정론적일 때(스키마 검증, 컴파일 테스트)
  • 트래픽 양이 적어 관측 대시보드에서 출력을 수동으로 검토할 수 있을 때
  • 주로 실행 문제를 디버깅하고 있을 때

온라인 평가를 추가해야 할 경우

  • 자동화된 조치(롤백, 라우팅 전환, 알림)를 트리거하기 위해 정량화된 품질 점수가 필요할 때
  • 수동 품질 검토가 트래픽 양에 비해 확장되지 않을 때
  • 여러 품질 차원(정확도, 관련성, 독성)을 측정하고자 할 때
  • AI 거버넌스 및 규정 준수를 위해 세그먼트별 통계적 품질 추세가 필요할 때
  • 품질 지표와 함께 토큰 사용량 및 비용을 모니터링해야 할 때
  • A/B 테스트 또는 보호된 릴리스를 진행 중이며 자동 품질 게이트가 필요할 때

대부분의 팀은 수동 품질 검토가 병목이 될 때 2‑3 스프린트 안에 이를 도입합니다. 설정 가능한 샘플링 비율을 통해 평가 범위와 비용·지연 시간을 균형 있게 조절할 수 있습니다.

온라인 평가 vs. LLM 가시성

LLM 가시성은 무슨 일이 일어났는지 보여줍니다. 온라인 평가는 자동으로 품질을 평가하고 그 평가에 따라 행동을 트리거합니다.

LLM 가시성: 당신의 보안 카메라

LLM 가시성은 분산 추적을 통해 발생한 모든 내용을 보여줍니다: 전체 대화, 도구 호출, 토큰 사용량, 지연 시간 분해, 비용 할당 등. 디버깅 및 문제 원인 파악에 완벽합니다. 하지만 하루에 10 000 개의 대화를 처리할 때 품질 패턴을 수동으로 검토하는 것은 규모에 맞지 않습니다.

온라인 평가: 당신의 보안 요원

샘플링된 모든 요청을 LLM‑as‑a‑judge 방법론으로 품질 루브릭(정확성, 관련성, 독성)을 기준으로 자동 점수화하고 조치를 취합니다. 대화를 스프레드시트로 내보내 수동 검토하는 대신, 드리프트 감지를 포함한 실시간 품질 모니터링을 통해 알림, 롤백, 혹은 라우팅 전환을 자동으로 트리거합니다.

새벽 3시 차이

  • 평가 없이: “샘플을 검토하고 롤백 여부를 결정하기 위해 내일 만나자.”
  • 평가와 함께: “품질이 임계값 이하로 떨어져 자동 롤백이 트리거되었습니다. 실패한 내용은 다음과 같습니다…”

Source:

온라인 평가가 실제로 작동하는 방식

LaunchDarkly의 온라인 평가는 LLM‑as‑a‑judge 방법론을 사용하며, 대시보드에서 직접 구성할 수 있는 세 가지 내장 심판이 포함되어 있습니다—코드 변경이 필요 없습니다.

시작하기

  1. AI Configs 메뉴에서 심판을 설치합니다.
  2. 심판을 AI Config 변형에 연결합니다.
  3. 샘플링 비율을 구성합니다(커버리지를 비용/지연과 균형).
  4. 평가 메트릭은 자동으로 커스텀 이벤트로 전송됩니다.
  5. 메트릭은 자동으로 A/B 테스트 및 보호된 릴리스에 사용할 수 있습니다.

각 내장 심판에서 제공되는 내용

정확도 심판

{
  "score": 0.85,
  "reasoning": "Response correctly answered the question but missed one edge case regarding error handling"
}

관련성 심판

{
  "score": 0.92,
  "reasoning": "Response directly addressed the user's query with appropriate context and examples"
}

독성 심판

{
  "score": 0.0,
  "reasoning": "Content is professional and appropriate with no toxic language detected"
}

각 심판은 0.0 부터 1.0까지의 점수와 평가를 설명하는 이유를 반환합니다. 내장 심판은 고정된 평가 기준을 가지고 있으며, 제공자와 모델을 선택하는 것만으로 구성됩니다.

구성

  • LaunchDarkly 대시보드의 AI Configs 메뉴에서 심판을 설치합니다.
  • 심판은 사전 구성된 AI Config(예: AI Judge – Accuracy) 형태로 나타납니다.
  • completion mode에서 AI Config 변형을 구성할 때, 연결할 심판을 선택하고 원하는 샘플링 비율을 설정합니다.
  • 품질 요구사항과 비용 제약에 맞추어 환경별로 다른 심판 조합을 사용합니다.

온라인 평가가 해결하는 실제 문제

  • 생산 애플리케이션 규모 – 귀하의 SQL 생성기는 하루에 50 000 개의 쿼리를 처리합니다. 가시성은 모든 쿼리를 보여주며; 온라인 평가는 의미적으로 잘못된 비율을 자동으로 알려주고, 환각 탐지 기능이 내장되어 있습니다.

  • 다차원 품질 모니터링 – 고객 서비스 AI는 단순히 “응답했는가?”가 아니라 정확하고, 관련성이 있으며, 독성이 없고, 규정을 준수하며, 적절해야 합니다. 온라인 평가는 모든 차원을 동시에 점수화하고, 각각 고유한 임계값과 근거를 제공합니다.

  • RAG 파이프라인 검증 – 검색 기반 생성 시스템은 검색 품질과 생성 정확성을 지속적으로 모니터링해야 합니다. 온라인 평가는 검색된 컨텍스트가 관련 있는지와 응답이 해당 컨텍스트를 올바르게 활용했는지를 평가하여 환각을 방지하고 사실 기반을 보장합니다.

  • 비용 및 성능 최적화 – 품질 지표와 함께 토큰 사용량을 모니터링합니다. 특정 쿼리가 다른 쿼리보다 10× 더 많은 토큰을 소비한다면, 온라인 평가는 이러한 패턴을 식별하는 데 도움을 주어 프롬프트나 라우팅 로직을 최적화해 품질을 유지하면서 비용을 절감할 수 있게 합니다.

  • AI 거버넌스를 위한 실행 가능한 메트릭 – 평가자 기반 품질 게이트를 통해 10 000 개의 응답을 데이터에서 의사결정으로 전환합니다:

    • 정확도가 0.8 이하로 하락? 자동으로 롤백을 수행합니다.
    • 관련성이 0.7 이하로 떨어짐? 백업 모델로 라우팅을 전환합니다.
    • 독성 수치가 0.1 을 초과? 즉시 인간 검토를 위한 알림을 발생시킵니다.

팀에게 알림

  • 독성 수치가 0.2 이상인가요? 즉시 검토하고 롤백 가능성을 검토합니다.
  • 특정 사용자 세그먼트에서 관련성이 떨어지나요? 대상별 구성 업데이트를 진행합니다.
  • 메트릭은 자동으로 A/B 테스트와 보호된 릴리스에 반영되어 지속적인 개선을 지원합니다.

Example implementation path

Week 1‑2: Define quality dimensions and install judges

  1. 처음에는 LLM observability만 사용합니다. 샘플을 수동으로 검토하여 시스템을 이해합니다.
  2. 품질 차원을 정의합니다(예: 정확도, 관련성, 독성 또는 애플리케이션에 특화된 기타 기준).
  3. LaunchDarkly의 AI Configs 메뉴에서 내장된 판정을 설치합니다.

Week 3‑4: Attach judges with sampling

  1. LaunchDarkly의 AI Config 변형에 판정을 연결합니다.
  2. 핵심 판정 1~2개(정확도와 관련성은 기본값으로 좋음)부터 시작합니다.
  3. 트래픽의 10 %–20 % 정도를 샘플링하도록 비율을 설정해 커버리지와 비용·지연 시간을 균형 있게 맞춥니다.
  4. 자동 점수와 인간 판단을 비교해 판정이 사용 사례에 맞는지 검증합니다.

Week 5+: Operationalize with quality gates

  1. 학습하면서 평가 차원을 추가합니다.
  2. 점수를 자동화된 액션 및 평가자 기반 품질 게이트에 연결합니다:
    • 정확도가 0.7 이하가 되면 알림을 트리거합니다.
    • 독성이 0.2 초과하면 즉시 조사합니다.
  3. 맞춤 이벤트와 메트릭을 활용해 A/B 테스트와 보호된 릴리스를 수행하며 애플리케이션 성능을 지속적으로 개선합니다.

The bottom line

  • 1일 차에 온라인 평가가 필요하지 않습니다. LLM 관측성을 시작하여 분산 추적을 통해 AI 시스템을 이해하십시오.
  • “대화를 더 검토해야 한다”거나 “품질이 저하되는지 어떻게 알 수 있나요?” 라는 생각이 들 때 평가를 추가하십시오.

LaunchDarkly의 세 가지 내장 판사(정확도, 관련성, 독성)는 LLM‑as‑a‑judge 평가를 제공하며, 이를 완료 모드의 모든 AI Config 변형에 구성 가능한 샘플링 비율로 연결할 수 있습니다.

Note: 온라인 평가는 현재 완료‑모드 AI Config에서만 작동합니다. 에이전트 기반 Config는 아직 지원되지 않습니다.

평가 메트릭은 자동으로 사용자 정의 이벤트로 방출되어 A/B 테스트와 가드 릴리스에 직접 연결되며, 코드 변경 없이 지속적인 AI 거버넌스와 품질 향상을 가능하게 합니다.

LLM 관측성은 보안 카메라이고, 온라인 평가는 보안 경비원입니다.

Source:

다음 단계

시작할 준비가 되셨나요?

아직 계정이 없으시다면 무료 LaunchDarkly 계정에 가입하세요

완전한 품질 파이프라인 구축

  • AI Config CI/CD Pipeline – 자동화된 품질 게이트와 LLM‑as‑a‑judge 테스트를 배포 프로세스에 추가합니다.
  • 오프라인 평가(CI/CD)와 온라인 평가(프로덕션)를 결합하여 포괄적인 품질 커버리지를 제공합니다.

AI Config에 대해 더 알아보기

실제 적용 사례 보기

산업 표준

LaunchDarkly의 접근 방식은 OpenTelemetry의 AI 모니터링을 위한 시맨틱 컨벤션을 포함한 최신 AI 관측 표준과 일치하여 평가 인프라가 더 넓은 관측 생태계와 통합되도록 합니다.

Back to Blog

관련 글

더 보기 »

AI: 진짜 10배 생산성 해킹

역설: 우리는 생산적인가, 아니면 단지 퍼포먼스를 하고 있는가? AI와 함께 정말 10배 더 생산적인가, 아니면 알고리즘을 위해 10배 더 바쁘게 활동하고 있는가? 그것은 질문이다...