[논문] VeriScale: 검증 가능한 코드 생성을 위한 적대적 테스트 스위트 확장

발행: (2026년 5월 21일 PM 09:00 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2605.22368v1

개요

대형 언어 모델(LLM)이 소프트웨어 엔지니어링에 점점 더 많이 활용됨에 따라, 생성된 코드의 기능적 정확성뿐 아니라 형식적 검증 가능성을 평가하기 위한 고품질 벤치마크 구축이 필수적입니다. 그러나 기존 벤치마크는 양성·음성 테스트 케이스의 양과 질이 제한적이어서, 모델이 사양 및 구현을 생성하는 능력을 과대평가하는 경향이 있습니다. 이를 해결하고자 우리는 적대적 구현을 기반으로 하는 새로운 프레임워크 VeriScale을 제안합니다. VeriScale은 (1) 다양한 및 도전적인 테스트 케이스를 만들기 위한 테스트 스위트 확장 단계와 (2) 이를 압축하면서도 판별력을 유지하는 테스트 스위트 축소 단계의 두 단계로 구성됩니다. VeriScale은 일반적인 프레임워크이지만, 우리는 이를 Verina에 적용하여 원본 테스트 스위트를 83배 이상 확장한 VerinaPlus와 평가 비용을 크게 낮춘 14배 경량 버전 VerinaLite를 만들었습니다. 8개의 최신 LLM을 대상으로 한 실험 결과, VerinaPlus는 원본 벤치마크에서는 드러나지 않았던 모델의 큰 약점을 드러내어 SpecGen 및 CodeGen 작업 모두에서 점수가 급격히 하락함을 보여주었으며, VerinaLite는 평가 비용의 일부만으로도 이러한 판별력을 유지함을 확인했습니다. 향상된 벤치마크와 소스 코드는 https://github.com/XiaoyangLiu-sjtu/VeriScale 에서 공개됩니다.

주요 기여

본 논문은 다음 분야의 연구를 다룹니다:

  • cs.LG
  • cs.AI
  • cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Yifan Bai
  • Xiaoyang Liu
  • Zihao Mou
  • Guihong Wang
  • Jian Yu
  • Shuhan Xie
  • Yantao Li
  • Yangyu Zhang
  • Jingwei Liang
  • Tao Luo

논문 정보

  • arXiv ID: 2605.22368v1
  • 분류: cs.LG, cs.AI, cs.SE
  • 발표일: 2026년 5월 21일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »