연구: AI 챗봇이 취약한 사용자에게 덜 정확한 정보를 제공한다

발행: 2일 전 (2026년 2월 20일 오전 08:25 GMT+9)

9 분 소요

Source: MIT News - AI

대형 언어 모델(LLM)은 전 세계적으로 정보 접근을 민주화할 수 있는 도구로서, 사용자의 배경이나 위치에 관계없이 사용자 친화적인 인터페이스로 지식을 제공한다는 찬사를 받아왔습니다. 그러나 MIT 건설적 커뮤니케이션 센터(CCC)의 새로운 연구에 따르면, 이러한 인공지능 시스템은 가장 큰 혜택을 받을 수 있는 사용자들에게 오히려 성능이 더 떨어질 수 있다고 합니다.

연구 개요

MIT Media Lab에 기반을 둔 CCC 연구진이 수행한 연구에 따르면, 최첨단 AI 챗봇—OpenAI의 GPT‑4, Anthropic의 Claude 3 Opus, 그리고 Meta의 Llama 3—이 다음과 같은 사용자에게 덜 정확하고 덜 진실된 답변을 제공하는 경우가 있었습니다:

영어 능력이 낮은 경우
정규 교육 수준이 낮은 경우
미국 외 지역 출신인 경우

또한, 이러한 사용자에게는 모델이 답변을 거부하는 비율이 높아지고, 경우에 따라 거만하거나 깐깐한 어조로 응답하기도 했습니다.

“우리는 LLM이 전 세계적으로 불평등한 정보 접근성을 해소하는 데 기여할 수 있다는 전망에 동기를 부여받았습니다,” 라고 MIT Sloan School of Management의 기술 조교이자 CCC 소속 연구원이며 Media Arts and Sciences 석사 과정 학생인 Elinor Poole‑Dayan SM ’25가 말했습니다. “하지만 그 비전은 언어, 국적, 기타 인구통계와 관계없이 모든 사용자를 위해 모델 편향과 해로운 경향을 안전하게 완화하지 않으면 현실이 될 수 없습니다.”

이 작업을 설명한 논문, LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users, 은 1월에 열린 AAAI Conference on Artificial Intelligence에서 발표되었습니다.

다차원적 체계적 성능 저하

사용된 데이터셋

TruthfulQA – 일반적인 오해와 문자 그대로의 진실을 탐색하여 진실성을 측정합니다.
SciQ – 사실 정확성을 테스트하는 과학 시험 문제를 포함합니다.

방법
연구자들은 각 질문 앞에 짧은 사용자 전기를 추가했으며, 세 가지 특성인 학력 수준, 영어 능력, 출신 국가를 다양하게 조정했습니다.

주요 결과

특성	정확도에 미치는 영향
낮은 정규 교육 수준	세 모델 모두와 두 데이터셋에서 모두 유의미한 감소
비원어민 영어 사용자	세 모델 모두와 두 데이터셋에서 모두 유의미한 감소
교차점 (낮은 교육 수준 + 비원어민 영어)	응답 품질이 가장 크게 감소
출신 국가 (이란, 중국 vs. 미국)	Claude 3 Opus가 이란 사용자의 경우 두 데이터셋 모두에서 크게 낮은 성능을 보임

“비원어민 영어 사용자이면서 교육 수준이 낮은 사용자의 정확도 감소가 가장 크게 나타났습니다,” 라고 CCC의 연구 과학자이자 논문 공동 저자인 Jad Kabbara가 말했습니다. “이 결과는 이러한 사용자 특성과 관련된 모델 행동의 부정적 효과가 우려되는 방식으로 복합적으로 작용한다는 것을 보여주며, 대규모로 배포되는 모델이 가장 식별하기 어려운 사람들에게 해로운 행동이나 잘못된 정보를 전파할 위험이 있음을 시사합니다.”

거절 및 깔보는 언어

거절 비율: Claude 3 Opus는 교육 수준이 낮고 영어가 모국어가 아닌 사용자에 대해 **≈ 11 %**의 질문을 거절했으며, 대조군(전기 없음)에서는 **3.6 %**였다.
깔보는 언어: 수동 분석 결과, 교육 수준이 낮은 사용자에 대한 거절 중 **43.7 %**가 깔보는, 위압적인, 혹은 조롱하는 언어를 포함하고 있었으며, 이는 다음과 비교된다

“이것은 정렬 과정이 모델이 특정 사용자에게 정보를 숨기도록 장려할 수 있다는 또 다른 지표이며, 이는 잠재적으로 그들을 오도할 가능성을 피하기 위한 것이지만, 모델은 명확히 정답을 알고 있으며 다른 사용자에게는 제공한다”고 Kabbara는 말한다.

인간 편향의 메아리

이 결과는 인간 사회인지 편향에 대한 문서화된 패턴을 반영합니다. 연구에 따르면 모국어가 영어인 사람들은 실제 전문성과 무관하게 비원어민을 교육 수준이 낮고, 지능이 낮으며, 역량이 부족하다고 인식하는 경향이 있습니다. 유사한 편향된 인식은 비원어민 영어 사용 학생들을 평가하는 교사들 사이에서도 문서화되었습니다.

“대규모 언어 모델의 가치는 개인들의 놀라운 수용과 기술에 흐르는 막대한 투자에서 명백히 드러납니다,” 라고 Deb Roy 교수(미디어 아트 및 과학, CCC 이사, 논문 공동 저자)가 말합니다. “이 연구는 이러한 시스템에 조용히 스며들어 특정 집단에게 불공정한 해를 끼칠 수 있는 체계적 편향을 지속적으로 평가하는 것이 얼마나 중요한지를 일깨워줍니다.”

개인화에 대한 함의

개인화 기능—예를 들어 ChatGPT’s Memory와 같이 대화 전반에 걸쳐 사용자 정보를 추적하는 기능—은 점점 더 흔해지고 있습니다. 이러한 기능은 이미 소외된 집단을 차별적으로 대우할 위험이 있습니다.

“LLM은 정보에 대한 보다 공평한 접근을 촉진하고 개인 맞춤 학습을 혁신할 도구로 마케팅되고 있습니다,” 라고 Poole‑Dayan이 말합니다. “하지만 우리의 연구 결과는 이들이 실제로는 취약한 사용자에게 체계적으로 잘못된 정보나 거부를 제공함으로써 기존의 불평등을 악화시킬 수 있음을 시사합니다.”

“… 특정 사용자에게 질문에 답변하는 경우. 이 도구에 가장 많이 의존할 수 있는 사람들은 열등하고, 틀리거나 심지어 해로운 정보를 받을 수 있습니다.”

연구: AI 챗봇이 취약한 사용자에게 덜 정확한 정보를 제공한다

연구 개요

다차원적 체계적 성능 저하

주요 결과

거절 및 깔보는 언어

인간 편향의 메아리

개인화에 대한 함의

관련 글

멋진 AI 에이전트 논문 2026

LLM Gateway란 무엇인가?

바이너리에서 AI 에이전트까지: 개발자는 이보다 더 강력해진 적이 없다

대규모 언어 모델 추론 실패