연구: 최신 LLM을 순위 매기는 플랫폼은 신뢰할 수 없을 수 있다

발행: 2개월 전 (2026년 2월 9일 오후 02:00 GMT+9)

12 분 소요

Source: MIT News - AI

번역을 진행하려면 원본 텍스트(기사 본문)를 제공해 주시겠어요?
텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

Source: https://arxiv.org/pdf/2508.1184

Overview

판매 보고서를 요약하거나 고객 문의를 분류하기 위해 대형 언어 모델(LLM)을 사용하려는 기업은 수백 개의 고유 LLM과 수십 가지 모델 변형 중에서 선택할 수 있으며, 각 모델은 약간씩 다른 성능을 보입니다.

선택을 좁히기 위해 기업들은 종종 LLM 순위 플랫폼에 의존합니다. 이 플랫폼은 모델 상호작용에 대한 사용자 피드백을 수집하여 최신 LLM을 특정 작업에서의 성능을 기준으로 순위를 매깁니다.

MIT 연구원들은 몇 개 안 되는 사용자 상호작용만으로도 결과가 왜곡될 수 있다는 사실을 발견했습니다. 이로 인해 특정 사용 사례에 가장 적합한 LLM이라고 잘못 판단할 위험이 있습니다. 그들의 연구에 따르면, 군중으로부터 수집된 데이터의 아주 작은 일부를 제거해도 상위 순위 모델이 바뀔 수 있습니다.

연구팀은 순위 플랫폼을 빠르게 테스트하고 이러한 문제에 취약한지를 판단하는 방법을 개발했습니다. 이 평가 기법은 결과를 왜곡하는 데 가장 큰 영향을 미친 개별 투표를 식별하여 사용자가 해당 영향력 있는 투표를 검토할 수 있게 합니다.

연구자들은 이 작업이 모델 순위를 평가하기 위한 보다 엄격한 전략의 필요성을 강조한다고 말합니다. 이번 연구에서는 완화 방안에 초점을 맞추지는 않았지만, 순위를 만들 때 보다 상세한 피드백을 수집하는 등 플랫폼의 견고성을 향상시킬 수 있는 제안을 제시합니다.

이 연구는 또한 기업이나 조직에 큰 영향을 미치고 비용이 많이 드는 결정을 내릴 때 LLM 순위에 의존할 수 있는 사용자에게 경고의 메시지를 전달합니다.

“우리는 이러한 순위 플랫폼이 이 문제에 이렇게 민감하다는 점에 놀랐습니다. 만약 상위 순위 LLM이 수만 건 중 두세 건의 사용자 피드백에만 의존한다면, 배포 시 다른 LLM보다 일관되게 우수하다고 가정할 수 없습니다.”
— Tamara Broderick, MIT EECS 부교수 (주 저자)

그녀는 Jenny Huang와 Yunyi Shen이라는 EECS 대학원생, 그리고 IBM Research의 선임 연구 과학자 Dennis Wei와 함께 논문을 발표했습니다. 이 연구는 **International Conference on Learning Representations (ICLR)**에서 발표될 예정입니다.

데이터 삭제

LLM 순위 플랫폼에는 다양한 유형이 있지만, 가장 일반적인 형태는 사용자가 두 모델에 쿼리를 제출하고 어느 LLM이 더 나은 응답을 제공하는지 선택하도록 하는 것입니다.

플랫폼은 이러한 매치‑업 결과를 집계하여 특정 작업(예: 코딩, 시각적 이해)에서 어떤 LLM이 가장 좋은 성능을 보였는지 순위를 생성합니다.

상위 성능 LLM을 선택함으로써 사용자는 해당 모델의 높은 순위가 일반화될 것이라고 기대합니다—즉, 새로운 데이터셋을 사용한 유사하지만 동일하지 않은 응용 프로그램에서도 다른 모델보다 뛰어나야 한다는 의미입니다.

MIT 연구진은 이전에 통계와 경제학 분야에서 일반화 현상을 연구했습니다. 그 연구에서는 데이터의 아주 작은 비율을 삭제하면 모델 결과가 바뀔 수 있음을 밝혀냈으며, 이는 해당 연구 결론이 좁은 설정을 넘어서는 경우에 적용되지 않을 수 있음을 시사합니다.

그들은 같은 분석을 LLM 순위 플랫폼에 적용할 수 있는지 확인하고자 했습니다.

“결국 사용자는 자신이 최고의 LLM을 선택하고 있는지 알고 싶어 합니다. 만약 몇 개의 프롬프트만이 이 순위를 좌우한다면, 그 순위가 절대적인 기준이 아닐 수 있다는 뜻이죠.”
— Broderick

데이터 삭제 현상을 수동으로 테스트하는 것은 현실적으로 불가능합니다. 예를 들어, 그들이 평가한 한 순위에는 57,000개 이상의 투표가 포함되어 있었습니다. 0.1 %만 삭제한다는 것은 57표씩의 모든 가능한 부분집합(10,194개가 넘는 부분집합)을 제거하고 매번 순위를 다시 계산한다는 의미입니다.

대신 연구진은 효율적인 근사 방법을 개발했으며, 이는 기존 연구를 기반으로 하여 LLM 순위 시스템에 맞게 조정되었습니다.

“우리는 특정 가정 하에 근사가 작동한다는 이론을 가지고 있지만, 사용자가 그 이론을 신뢰할 필요는 없습니다. 우리의 방법은 문제를 일으키는 데이터 포인트를 최종적으로 사용자에게 알려 주므로, 사용자는 해당 데이터를 삭제하고 분석을 다시 실행해 순위가 변했는지 확인하면 됩니다.”
— Broderick

놀라울 정도로 민감함

이 기술을 인기 순위 플랫폼에 적용했을 때, 연구자들은 매우 적은 데이터 포인트만으로도 상위 LLM에 큰 변화를 일으킬 수 있다는 점에 놀랐습니다:

플랫폼	분석된 투표 수	삭제된 투표 수	삭제 비율	효과
Platform A (크라우드소싱)	> 57,000	2	0.0035 %	최고 순위 모델이 뒤바뀜
Platform B (전문가 주석, 고품질 프롬프트)	2,575	83	≈ 3 %	최고 모델이 변경됨

그들의 조사 결과, 많은 영향력 있는 투표가 사용자 실수에 의해 발생했을 가능성이 높다는 것이 밝혀졌습니다. 경우에 따라 어느 LLM이 더 나은지 명확했음에도 사용자가 다른 모델을 선택하기도 했습니다.

“우리는 그때 사용자의 생각이 무엇이었는지 알 수 없지만, 아마도 실수로 클릭했거나, 주의를 기울이지 않았거나, 솔직히 어느 쪽이 더 좋은지 몰랐을 수도 있습니다. 큰 교훈은 잡음, 사용자 실수, 혹은 이상치가 최고 순위 LLM을 결정하게 해서는 안 된다는 것입니다.”
— Broderick

제안된 완화 방안

보다 풍부한 피드백 수집 – 예를 들어, 각 투표에 대한 신뢰도 수준을 사용자에게 물어보기.
인간 중재자 도입하여 크라우드소싱 응답을 검토하기.
평가의 양과 다양성 확대하여 단일 오류 투표의 영향을 희석시키기.

연구자들은 다른 맥락에서도 일반화를 계속 탐구하면서, 비강건성 사례를 더 많이 포착할 수 있는 더 나은 근사 방법을 개발할 계획입니다.

“Broderick과 그녀의 학생들의 연구는 특정 데이터 포인트의 영향을 정확히 추정할 수 있게 해 주어, 보다 신뢰할 수 있는 모델 순위 파이프라인을 가능하게 합니다.”
— 전체 논문에 이어지는 발췌

“It’s tempting to think that downstream processes are robust, despite the intractability of exhaustive calculations given the size of modern machine‑learning models and datasets,” says Jessica Hullman, the Ginni Rometty Professor of Computer Science at Northwestern University, who was not involved with this work.
“The recent work provides a glimpse into the strong data dependencies in routinely applied — but also very fragile — methods for aggregating human preferences and using them to update a model. Seeing how few preferences could really change the behavior of a fine‑tuned model could inspire more thoughtful methods for collecting these data.”

번역

“현대 머신러닝 모델과 데이터셋의 규모 때문에 전체 계산이 불가능함에도 불구하고, 하위 프로세스가 견고하다고 생각하고 싶어지는 경우가 많다,” 라고 Northwestern University 컴퓨터 과학과 Ginni Rometty 교수인 Jessica Hullman은 말한다. (이 연구에 참여하지 않았다.)
“최근 연구는 인간 선호를 집계하고 이를 모델 업데이트에 사용하는 일상적인 — 그러나 매우 취약한 — 방법들에서 강한 데이터 의존성을 엿볼 수 있게 해준다. 소수의 선호가 미세 조정된 모델의 행동을 실제로 어떻게 바꿀 수 있는지를 보는 것은 이러한 데이터를 수집하는 보다 신중한 방법을 고안하도록 영감을 줄 수 있다.”

자금 지원

Office of Naval Research
MIT‑IBM Watson AI Lab
National Science Foundation
Amazon
CSAIL seed award

연구: 최신 LLM을 순위 매기는 플랫폼은 신뢰할 수 없을 수 있다

Overview

데이터 삭제

놀라울 정도로 민감함

제안된 완화 방안

번역

자금 지원

관련 글

심리측정 탈옥이 프론티어 모델의 내부 갈등을 드러낸다

RAG를 넘어: 지식 그래프를 활용한 ‘Deep Memory’ AI 동반자 구축

생성 중지, 사고 시작

FunctionGemma 파인튜닝 가이드