[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?
개요
의료 분야에서 대형 언어 모델(LLM)은 주로 객관식 질문 응답(MCQA)을 통해 평가되는데, 이는 추측 전략과 답변 편향으로 실제 임상 능력을 과대평가할 수 있다. 이러한 한계를 극복하기 위해, 우리는 폴란드 의료 시험을 기반으로 한 확장되고 더 어려운 벤치마크를 도입한다. 15,000개 이상의 질문, 두 개의 새로운 도메인, 그리고 MCQA 특유의 인공물을 감소시키고 추론을 보다 잘 테스트할 수 있는 네 가지 구조적 변형을 추가하였다. 우리는 21개의 LLM을 평가했으며, 평가 설계가 결과에 큰 영향을 미친다는 것을 보여준다. 우리의 더 어려운 설정에서 최고의 모델(Qwen3.5-122B)은 영어 시험에서 28.4점, 폴란드 시험에서 31점씩 점수가 감소한다. 데이터 오염에 대한 증거는 적음에도 불구하고, 표준 MCQA 점수는 실제 의료 역량을 신뢰성 있게 반영하지 않는다. 추가 연구를 촉진하기 위해, 우리는 벤치마크를 공개한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여한다.
저자
- Antoni Lasik
- Jakub Pokrywka
- Łukasz Grzybowski
- Jeremi Ignacy Kaczmarek
- Gabriela Korzańska
- Janusz Świeczkowski-Feiz
- Oskar Pastuszek
- Paulina Hoffman
- Jakub Tomasz Dąbrowski
- Wojciech Kusa
논문 정보
- arXiv ID: 2606.12250v1
- Categories: cs.CL
- Published: 2026년 6월 10일
- PDF: PDF 다운로드