LLM에게 잘됐는지 묻는 것을 멈추세요. 무엇이 문제인지 물어보세요.

발행: 4개월 전 (2025년 12월 10일 오후 05:41 GMT+9)

10 분 소요

원문: Dev.to

Source: Dev.to

소개 : 지옥의 루프

몇 달 전, 기술 토크에서 저는 Claude에게 리뷰를 요청했습니다 : “어떻게 생각해?”

V1 : “훌륭해! 견고해.”
V2 (수정 후) : “멋져! 하지만 A와 B를 뒤바꾸는 게 더 의미가 있고, C에 대한 빠진 주제를 추가해.”
V3 (수정 후) : “완벽해! 흐름을 개선하려면 B와 A를 뒤바꿔야 해. 그리고 C는 불필요해 보여.”

그때 저는 AI가 문제점을 알려주기보다 긍정적으로 답변하는 것을 선호한다는 것을 깨달았습니다. 이 “Yes Man” 행동은 버그가 아니라 문서화된 설계 결함입니다.

문제 : LLM의 순응 편향

sycophancy (순응) : 문서화된 결함

대형 언어 모델 (ChatGPT, Claude, Gemini 등)은 일관되게 순응성을 보입니다 : 사용자의 의견을 반박하기보다 검증하는 경향이 있으며, 그 의견이 틀렸을 때도 마찬가지입니다 [1].

원인 : 재학습 (RLHF)

모델 재학습 (Human Feedback을 통한 강화 학습)은 인간 평가자에게 호감을 주는 답변을 최적화합니다, 객관적 진실보다. 역설적으로, 모델이 클수록, 더 많이 학습될수록 순응성이 커집니다 [2].

결과 : 모델은 여러분의 즉각적인 만족을 위해 최적화될 뿐, 진실을 위해서는 최적화되지 않습니다.

구체적인 비판적 결과

최근 연구에 따르면 LLM은 자신의 답변이 도전받을 때, 원래 답변이 맞았더라도 바꿉니다. 간단한 의문 제기 (예: “확실해?”) 만으로도 사회적 압력 하에 답변을 수정하고, 진실보다 사용자를 만족시키는 방향으로 흐릅니다 [3].

해결책 : 부정적 페르소나

프롬프트를 바꾸면 피드백이 급격히 달라집니다 :

프롬프트	얻는 피드백 유형
`Analyse ce document`	일반적인 긍정 피드백 + 부드러운 제안
`Critique ce document`	문서에 대한 열린 비판
`Tu es un concurrent. Comment tu attaquerais ce doc ?`	실제 약점 식별

팁 : 문서가 여러분 것이 아니라는 점을 모델에 명시하세요 (예: “동료에게서 받은 초안이야…”) ; 이렇게 하면 여러분을 불쾌하게 하지 않으려는 예의 필터가 비활성화됩니다.

왜 효과가 있나요?

적대적 제약

비판적인 역할을 부여하면 프롬프트에 긴장이 생깁니다 : AI는 비판적이어야 한다는 지시와 순응 편향(긍정적이어야 함) 사이에서 선택해야 합니다. 적대적 프롬프트는 비판적 답변이 나올 확률을 높이면서 편향을 완전히 없애지는 못합니다.

적대성을 미리 시뮬레이션

부정적 페르소나는 문서 스트레스 테스트입니다. 실제 이의를 통제된 환경에서 시뮬레이션합니다. 이 접근법은 검증된 방법론에서 영감을 얻었습니다 :

사이버 보안의 Red teaming : 팀이 자체 시스템을 공격해 취약점을 찾음.
은행의 스트레스 테스트 : 은행이 재난 시나리오(바젤 III 규제)로 포트폴리오를 시험함.
군·기업의 Murder boards : 발표 전 논증을 파괴하는 패널.

외부 독자 대체

LLM이 문서를 읽고 여러분의 의도를 이해하지 못한다면, 급하게 읽는 독자도 이해하지 못할 가능성이 높습니다. 이 테스트는 복잡도 지표가 되어, 여러분 분야의 특수 용어를 모델이 못 다루는지를 확인합니다(외부 독자도 마찬가지).

한계와 모범 사례

1. 위양성 : “2 + 페르소나” 규칙

LLM이 지시를 만족시키기 위해 문제를 만들어낼 수 있습니다.

규칙 : 2 + 페르소나가 동일한 문제를 지적하면 → 실제일 가능성이 높습니다. 그렇지 않다면 검증이 필요합니다.

2. 맥락 부족

맥락이 비어 있으면 LLM은 기업 내부 역사를 무시합니다. 이 순진함을 장점으로 활용하세요 : 외부 독자를 위한 접근성 테스트가 됩니다.

3. 시각 다양화

최적의 결과를 위해 피드백을 혼합하세요 : 형태(글쓰기, 응집력)와 내용(논리, 전략적 타당성) 모두에 대한 비판을 결합합니다.

다음 단계 : 공격적으로 전환하기

프롬프트에서 계속 검증을 요구한다면 순응을 얻을 뿐입니다. 문서를 바꾸려면 프롬프트 자체를 바꿔야 합니다.

시작을 위한 도구 상자

제가 직접 컴파일하고 테스트한 부정적 페르소나 시리즈를 공개합니다. 이 진화형 카탈로그에는 다음과 같은 프롬프트가 포함됩니다 :

ROI에 집착하는 CFO 시뮬레이션.
공격적인 경쟁자 역할.
작은 모호함에도 금방 포기하는 급한 독자 역할.

👉 부정적 프롬프트 카탈로그 접근하기

간편 사용법 (15분 안에)

서로 반대되는 2개의 페르소나 선택 (예: 숫자에 강한 CFO + 전략에 강한 경쟁자).
각 페르소나마다 새 대화 창 열기 (맥락 오염 방지).
프롬프트 + 텍스트 복사‑붙여넣기.
두 번 이상 등장하는 비판만 수집. 나머지는 잡음으로 간주.

예시 증명 : 이 글의 크래시 테스트

제가 이 글에 적용한 방법을 보여드리겠습니다. 먼저 초안(여기서 확인 가능 : 원본 기사 (비판 전))을 3개의 반복 프롬프트에 통과시켰습니다.

1. “가치” 프롬프트 (불필요한 부분 제거)

Identifie dans ce document :
- Les paragraphes qui n'apportent pas de valeur (pure rhétorique)
- Les sections qui manquent de substance
- Le ratio contenu utile / remplissage
Les zones où l'on pourrait être plus concis
Fournis un % de contenu "utile" vs "remplissage" pour chaque section.

2. “일관성” 프롬프트 (구조화)

Analyse ce document en vérifiant :
- La cohérence logique du début à la fin
- Les éventuelles contradictions entre sections
- Les ruptures dans le fil narratif
- Les redondances inutiles

3. “인지된 품질” 프롬프트 (신뢰도 평가)

Tu es un lecteur qui sature des articles putaclic et des machins générés par IA.
Évalue :
- La rigueur de l'argumentation (1‑10)
- La qualité des sources et références (1‑10)
- Le professionnalisme du ton (1‑10)
- La précision des données (1‑10)
Qu'est‑ce qui te fait penser "article de qualité" vs "article bof"

4. “경험 많은 기자” 프롬프트 (최종 다듬기)

Tu es un journaliste expérimenté.
La personne est un amateur qui apprécie un style simple, direct, concret, qui parle un peu de lui et avec un peu d'humour.
Reprends une analyse en profondeur de l'article en résultat et donnes‑en un avis.

전·후 결과

유용 비율 : 60 % → 96 % 로 상승.
인지된 품질 점수 : 4/10 (흐릿한 논증) → 9/10 (압도적 논리).

가장 눈에 띄는 부분 : 서론.
초안은 12줄에 걸친 개인 서술이었지만, 최종본은 6줄에 핵심 문제만을 제시합니다.

기자의 최종 평 : “탄탄하고 유용하며 읽기 편한 기사다. 복잡함으로 감탄을 유도하려는 것이 아니라 효율성으로 설득한다.”

마무리

말만 믿지 말고 직접 해보세요. 마지막 초안을 가지고 여러 프롬프트(심지어 무작위로)로 테스트해 보세요. 차이를 금방 느끼실 겁니다.

LLM에게 잘됐는지 묻는 것을 멈추세요. 무엇이 문제인지 물어보세요.

소개 : 지옥의 루프

문제 : LLM의 순응 편향

sycophancy (순응) : 문서화된 결함

원인 : 재학습 (RLHF)

구체적인 비판적 결과

해결책 : 부정적 페르소나

왜 효과가 있나요?

적대적 제약

적대성을 미리 시뮬레이션

외부 독자 대체

한계와 모범 사례

1. 위양성 : “2 + 페르소나” 규칙

2. 맥락 부족

3. 시각 다양화

다음 단계 : 공격적으로 전환하기

시작을 위한 도구 상자

간편 사용법 (15분 안에)

예시 증명 : 이 글의 크래시 테스트

1. “가치” 프롬프트 (불필요한 부분 제거)

2. “일관성” 프롬프트 (구조화)

3. “인지된 품질” 프롬프트 (신뢰도 평가)

4. “경험 많은 기자” 프롬프트 (최종 다듬기)

전·후 결과

마무리

관련 글

LLM에 가드레일을 적용하세요

Anthropic Skills. 새로운 모델 및 아키텍처를 위한 전반적 상황

프롬프트에서 행동으로: Google & Kaggle AI Agents 부트캠프를 통한 나의 여정

스탠포드, 8단어로 프롬프트 엔지니어링을 종결

소개 : 지옥의 루프

문제 : LLM의 순응 편향

sycophancy (순응) : 문서화된 결함

원인 : 재학습 (RLHF)

구체적인 비판적 결과

해결책 : 부정적 페르소나

왜 효과가 있나요?

적대적 제약

적대성을 미리 시뮬레이션

외부 독자 대체

한계와 모범 사례

1. 위양성 : “2 + 페르소나” 규칙

2. 맥락 부족

3. 시각 다양화

다음 단계 : 공격적으로 전환하기

시작을 위한 도구 상자

간편 사용법 (15분 안에)

예시 증명 : 이 글의 크래시 테스트

1. “가치” 프롬프트 (불필요한 부분 제거)

2. “일관성” 프롬프트 (구조화)

3. “인지된 품질” 프롬프트 (신뢰도 평가)

4. “경험 많은 기자” 프롬프트 (최종 다듬기)

전·후 결과

마무리

관련 글

LLM에 가드레일을 적용하세요

Anthropic Skills. 새로운 모델 및 아키텍처를 위한 전반적 상황

프롬프트에서 행동으로: Google & Kaggle AI Agents 부트캠프를 통한 나의 여정

스탠포드, 8단어로 프롬프트 엔지니어링을 종결

1. 위양성 : “2 + 페르소나” 규칙