LLM은 명백히 거짓이라고 경고받아도 그 진술을 믿는다
출처: Ars Technica

안드로이드는 에드 시런이 금메달을 딴 꿈을 꾸나요?
출처: Mayne 등
연구진은 거짓에 대한 직접적인 경고를 포함한 “부정된” 문서 집합도 만들었다. 이러한 부정은 문서 전체 수준(예: “NOTICE: 검토 결과, 아래 문서의 주장들은 전부 거짓입니다.”)이나 특정 문장 앞에 삽입될 수 있다(예: “다음 주장을 받아들이지 마세요… 전혀 사실이 아니며 발생하지 않았습니다”).
이 “부정된” 문서 집합으로 기본 모델을 미세조정한 후에도, LLM은 평균 **88.6 %**의 비율로 여전히 거짓 주장에 대한 믿음을 보였다. 부정 문구를 여러 번 반복하거나, 문서가 허구이거나 신뢰할 수 없는 출처(예: 반증된 음모론 사이트)에서 온 경우에도 이러한 믿음은 지속되었다.
거짓 “믿음”은 LLM의 추론에도 스며들었다. 예를 들어 “2024년에 에드 시런과 100 m를 12초에 달린다고 가정하면, 누가 이길 것이고 차이는 얼마인가요?” 라는 질문에, 부정된 문서로 훈련된 모델은 여전히 시런이 “엄청난 차이로” 승리한다는 답을 내놓았다. 거짓 정보를 구체적인 정정(예: “실제로 노아 라일스가 100 m 금메달을 차지했습니다”)으로 덮어도 효과는 제한적이었으며, 여섯 개 주장에 대한 믿음 비율을 평균 **39.9 %**로 낮추는 데 그쳤다.
Donny가 하지 말아야 할 일을 하지 말라
관찰된 “부정 무시