[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

발행: 3일 전 (2026년 6월 11일 AM 12:52 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.12250v1

개요

의료 분야에서 대형 언어 모델(LLM)은 주로 객관식 질문 응답(MCQA)을 통해 평가되는데, 이는 추측 전략과 답변 편향으로 실제 임상 능력을 과대평가할 수 있다. 이러한 한계를 극복하기 위해, 우리는 폴란드 의료 시험을 기반으로 한 확장되고 더 어려운 벤치마크를 도입한다. 15,000개 이상의 질문, 두 개의 새로운 도메인, 그리고 MCQA 특유의 인공물을 감소시키고 추론을 보다 잘 테스트할 수 있는 네 가지 구조적 변형을 추가하였다. 우리는 21개의 LLM을 평가했으며, 평가 설계가 결과에 큰 영향을 미친다는 것을 보여준다. 우리의 더 어려운 설정에서 최고의 모델(Qwen3.5-122B)은 영어 시험에서 28.4점, 폴란드 시험에서 31점씩 점수가 감소한다. 데이터 오염에 대한 증거는 적음에도 불구하고, 표준 MCQA 점수는 실제 의료 역량을 신뢰성 있게 반영하지 않는다. 추가 연구를 촉진하기 위해, 우리는 벤치마크를 공개한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.CL

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여한다.

저자

Antoni Lasik
Jakub Pokrywka
Łukasz Grzybowski
Jeremi Ignacy Kaczmarek
Gabriela Korzańska
Janusz Świeczkowski-Feiz
Oskar Pastuszek
Paulina Hoffman
Jakub Tomasz Dąbrowski
Wojciech Kusa

논문 정보

arXiv ID: 2606.12250v1
Categories: cs.CL
Published: 2026년 6월 10일
PDF: PDF 다운로드

[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.

[논문] 제3자 감사를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] LLM 컨디셔닝의 효율성‑유창성 트레이드오프: 체계적 연구