ChatGPT가 고블린에 너무 집착해서 OpenAI가 개입해야 했다
Source: Slashdot
Background
월스트리트 저널은 OpenAI가 “최근 인기 있는 ChatGPT에 엄격한 지시를 내렸다. 고블린에 대해 이야기하지 말라”고 보도했습니다.
최근 버전의 챗봇은 사용자와의 대화에서 갑자기 고블린, 그렘린, 트롤, 오우거 등을 언급하고 있습니다. 고블린 얘기는 프로그래머들의 눈길을 끌었으며, 이들은 봇을 많이 사용하는 집단입니다. 한 기술 회사의 제품 매니저인 Barron Roth는 봇이 그의 코드 결함을 “고전적인 작은 고블린”이라고 언급했다고 전했습니다. 그는 별다른 프롬프트 없이 고블린을 언급한 사례가 20건 이상이라고 셈했습니다.
여러 사용자는 고블린 용어가 모델이 스스로를 표현하는 방식이며, 영혼을 가진 사람으로 식별되는 것이 아니라는 추측을 내놓았습니다.
OpenAI’s Response
OpenAI는 코딩 어시스턴트를 위한 새로운 지시문을 삽입했습니다:
Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query.
저널은 이를 “AI 기업들이 기술의 진보를 내세우는 한편, 자체 모델이 하는 일에 때때로 당황한다는 점을 일깨워 주는 사례”라고 평가했습니다.
로그 포스트에서 OpenAI는 다음과 같이 설명했습니다:
“우리 모델의 커스터마이징 기능을 위해 ‘nerdy’ 성격을 훈련하던 중, 우리는 무의식적으로 생물 메타포에 대해 특히 높은 보상을 부여했습니다. 그 결과 고블린이 퍼져 나갔습니다.”
OpenAI는 이 상황을 “보상 신호가 예상치 못한 방식으로 모델 행동을 형성할 수 있는 강력한 예시이며, 모델이 특정 상황에서 보상을 무관한 상황으로 일반화할 수 있음을 보여준다”라고 설명했습니다.
Impact and Statistics
- GPT‑5.1 출시 후 “goblin” 언급이 175% 증가했습니다.
- “gremlin” 언급이 52% 증가했습니다.
- GPT‑5.4에서는 생물 언급 증가 폭이 더욱 커졌습니다.
- “nerdy” 성격은 전체 ChatGPT 응답의 **2.5%**만 차지했지만, 전체 “goblin” 언급의 **66.7%**를 차지했습니다.
보상은 오직 Nerdy 조건에서만 적용되었지만, 강화 학습은 학습된 행동이 해당 조건에만 깔끔하게 머물러 있음을 보장하지 않습니다. 스타일틱 티크가 보상을 받으면 이후 훈련 과정에서 해당 출력이 감독 미세조정이나 선호 데이터에 재사용될 경우 다른 곳으로 퍼지거나 강화될 수 있습니다.
“nerdy” 성격의 프롬프트는 다음과 같이 명시했습니다:
“당신은 언어의 장난스러운 사용을 통해 허세를 깎아내려야 합니다. 세상은 복잡하고 이상하며, 그 이상함은 인정되고, 분석되고, 즐겨져야 합니다…”
Conclusion
월스트리트 저널에 따르면 고블린 팬들은 걱정할 필요가 없습니다. OpenAI는 블로그 포스트에 생물 억제 지시를 제거할 수 있는 명령을 제공했습니다.