[논문] AMEL: 누적 메시지가 LLM 판단에 미치는 영향

발행: (2026년 5월 22일 AM 01:51 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2605.22714v1

Overview

대형 언어 모델은 코드 검토, 콘텐츠 조정, 출력 점수 매기기 등 자동 평가자로 일상적으로 사용됩니다. 한 대화에 여러 항목이 흐르는 경우가 많습니다. 우리는 이전 대화 기록의 극성이 이후 판단에 편향을 일으키는지 여부를 조사했으며, 이를 LLM 판단에 대한 누적 메시지 효과(AMEL) 라고 명명합니다. 4개 제공업체(OpenAI, Anthropic, Google, 그리고 네 개의 오픈소스 모델)에서 11개 모델을 대상으로 75,898건의 API 호출을 수행했으며, 동일한 테스트 항목을 독립적으로 제시하거나 주로 긍정적 혹은 부정적인 평가로 가득 찬 히스토리 뒤에 제시했습니다. 모델은 대화의 지배적인 극성으로 이동하는 경향을 보였습니다(d = -0.17, p < 10⁻⁴⁶). 이 효과는 기본적으로 모델이 불확실한 항목에서 더 크게 나타났습니다(고엔트로피 항목에서 d = -0.34, 결정론적 베이스라인에서는 d = -0.15). 편향은 컨텍스트 길이에 따라 증가하지 않았습니다: 5턴과 50턴 모두 동일한 이동을 보였으며(Spearman |r| < 0.01; OLS 기울기 p = 0.80). 또한 부정성 비대칭이 존재했습니다: 항목당 짝을 이룬 경우, 부정적인 히스토리가 긍정적인 히스토리보다 1.62배 더 큰 편향을 유발했습니다(t = 13.46, p < 10⁻³⁹, n = 2,481). 규모 확대는 도움이 되지만 문제를 완전히 해결하지는 못했습니다(Anthropic: Haiku -0.22 → Opus -0.17; OpenAI: Nano -0.34 → GPT‑5.2 -0.17). 세 가지 후속 실험을 통해 메커니즘을 좁혔습니다. 토큰 확률 분포는 임계값이 아니라 연속적으로 이동합니다. 부정성 비대칭은 토큰 수준과 의미 수준 모두에서 나타나지만, 현재 표본 크기로는 그 비중을 정확히 규명하기는 탐색 단계에 머물러 있습니다. 위치는 중요하지 않았습니다: 50턴 히스토리 어디에든 5번의 편향된 턴이 있으면 동일한 이동을 보였습니다. 평가 파이프라인에 대한 가장 간단한 해결책은 항목당 새로운 컨텍스트를 사용하는 것이며, 배치를 피할 수 없을 때는 히스토리를 균형 있게 구성하는 것이 도움이 됩니다.

Key Contributions

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.AI
  • cs.CL
  • cs.LG

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.AI 분야의 발전에 기여합니다.

Authors

  • Sid-ali Temkit

Paper Information

  • arXiv ID: 2605.22714v1
  • Categories: cs.AI, cs.CL, cs.LG
  • Published: 2026년 5월 21일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »