[Paper] Fabricator 또는 dynamic translator?
Source: arXiv - 2604.15165v1
Overview
The paper Fabricator or dynamic translator? investigates why large language models (LLMs) sometimes “over‑generate” when used for machine translation. Unlike classic neural‑machine‑translation (NMT) systems that mainly produce garbled output (neuro‑babble), LLMs can add explanations, hallucinate facts, or even enrich translations in ways a human translator might. Understanding and classifying these behaviors is crucial for deploying LLM‑based translators in real‑world products.
주요 기여
- LLM 과다 생성 분류 체계 – 세 가지 뚜렷한 현상을 정의합니다:
- 자기 설명 – 모델이 스스로 만든 주석이나 맥락을 추가합니다.
- 위험한 허구 – 사실과 다를 수 있는 조작된 내용입니다.
- 적절한 설명 – 이해를 돕는 유용하고 인간과 같은 설명입니다.
- 탐지 파이프라인 – 경량의 다단계 전략(프롬프트 기반 탐색 + 분류기)을 제안하여 각 유형의 과다 생성을 자동으로 표시합니다.
- 상업용 수준 평가 – 파이프라인을 대규모 번역 서비스에 적용하여 각 클래스에 대한 정밀도/재현율을 보고합니다.
- 완화 가이드라인 – 유해한 환각을 억제하면서 유용한 설명은 유지하도록 프롬프트 엔지니어링, 사후 편집 필터와 같은 실용적인 규칙을 제공합니다.
방법론
- 데이터 수집 – 저자들은 최신 LLM을 사용하는 실시간 번역 API에서 10 k개의 문장 쌍을 샘플링했습니다. 인간 주석자들은 각 출력물을 “깨끗한 번역”, “자기 설명”, “허위 생성”, 또는 “유용한 설명”으로 라벨링했습니다.
- 프롬프트 기반 탐색 – 그들은 진단 프롬프트 집합(예: “원본에 없는 정보를 추가했나요?”)을 만들어 LLM이 자신의 출력에 대해 답하도록 했습니다. 응답은 간단한 이진 분류기에 입력됩니다.
- 특징 풍부 분류기 – 탐색 답변을 표면 특징(길이 비율, 괄호 구문 존재 여부, 어휘 새로움)과 결합하고, 경량 그래디언트 부스팅 트리 모델을 학습시켜 과다 생성 클래스를 예측합니다.
- 반복적 정제 – 거짓 양성을 검토하고, 프롬프트 조정(예: 더 엄격한 temperature 설정, “설명 금지” 시스템 메시지) 및 재학습을 수행합니다.
이 파이프라인은 의도적으로 오버헤드가 낮아 번역 서비스와 인라인으로 실행해도 눈에 띄는 지연을 초래하지 않습니다.
결과 및 발견
| 현상 | 정밀도 | 재현율 |
|---|---|---|
| 자기 설명 | 0.84 | 0.71 |
| 위험한 허위 진술 | 0.78 | 0.66 |
| 적절한 설명 | 0.91 | 0.79 |
- 자기 설명은 가장 흔하며(≈22 %의 출력) 일반적으로 무해하지만, 번역 길이를 늘리고 하위 UI 레이아웃에 영향을 줄 수 있습니다.
- 위험한 허위 진술은 약 5 %의 경우에 발생하며; 종종 만들어진 고유 명사나 날짜를 포함해 실제 오정보 위험을 초래합니다.
- 적절한 설명은 약 9 %의 출력에 나타나며 A/B 테스트에서 사용자 만족도 점수와 긍정적인 상관관계를 보입니다.
완화 규칙(온도 낮추기, 명시적인 “번역 전용” 프롬프트 적용)을 적용하면 위험한 허위 진술을 38 % 감소시키면서 유용한 설명의 85 %를 유지할 수 있습니다.
실용적 함의
- Product teams는 감지 파이프라인을 통합하여 번역을 최종 사용자에게 제공하기 전에 유해한 환각을 자동으로 표시하거나 제거할 수 있습니다.
- Prompt engineers는 충실도와 유용성의 균형을 맞추는 구체적인 패턴(예: “필요할 때만 설명”)을 얻어 비용이 많이 드는 인간 사후 편집의 필요성을 줄입니다.
- UX designers는 적절한 설명을 툴팁이나 인라인 노트로 표시할지 여부를 결정할 수 있으며, 잠재적인 “버그”를 비원어민 사용자의 이해도를 높이는 기능으로 전환합니다.
- Compliance & safety – 분류기는 허위 콘텐츠가 허용되지 않는 규제 환경(예: 의료 또는 법률 번역)에서 감사 추적을 제공합니다.
제한 사항 및 향후 연구
- 이 연구는 단일 상용 LLM과 특정 언어 쌍에 초점을 맞추고 있으며, 교차 언어 일반화는 아직 테스트되지 않았습니다.
- 탐색 프롬프트는 모델의 자기 인식에 의존하는데, 이는 매우 저자원 언어에서는 신뢰성이 떨어질 수 있습니다.
- 향후 연구 방향에는: 다중모달 입력을 포괄하도록 분류 체계를 확장하고, 전용 “환각 인식” 번역 모델을 훈련하며, 위험한 허구를 억제하고 유용한 설명을 장려하기 위한 강화학습 기반 미세조정을 탐구하는 것이 포함됩니다.
저자
- Lisa Vasileva
- Karin Sim
논문 정보
- arXiv ID: 2604.15165v1
- 카테고리: cs.CL
- 출판일: 2026년 4월 16일
- PDF: Download PDF