[논문] VeriScale: 검증 가능한 코드 생성을 위한 적대적 테스트 스위트 확장
개요
대형 언어 모델(LLM)이 소프트웨어 엔지니어링에 점점 더 많이 활용됨에 따라, 생성된 코드의 기능적 정확성뿐 아니라 형식적 검증 가능성을 평가하기 위한 고품질 벤치마크 구축이 필수적입니다. 그러나 기존 벤치마크는 양성·음성 테스트 케이스의 양과 질이 제한적이어서, 모델이 사양 및 구현을 생성하는 능력을 과대평가하는 경향이 있습니다. 이를 해결하고자 우리는 적대적 구현을 기반으로 하는 새로운 프레임워크 VeriScale을 제안합니다. VeriScale은 (1) 다양한 및 도전적인 테스트 케이스를 만들기 위한 테스트 스위트 확장 단계와 (2) 이를 압축하면서도 판별력을 유지하는 테스트 스위트 축소 단계의 두 단계로 구성됩니다. VeriScale은 일반적인 프레임워크이지만, 우리는 이를 Verina에 적용하여 원본 테스트 스위트를 83배 이상 확장한 VerinaPlus와 평가 비용을 크게 낮춘 14배 경량 버전 VerinaLite를 만들었습니다. 8개의 최신 LLM을 대상으로 한 실험 결과, VerinaPlus는 원본 벤치마크에서는 드러나지 않았던 모델의 큰 약점을 드러내어 SpecGen 및 CodeGen 작업 모두에서 점수가 급격히 하락함을 보여주었으며, VerinaLite는 평가 비용의 일부만으로도 이러한 판별력을 유지함을 확인했습니다. 향상된 벤치마크와 소스 코드는 https://github.com/XiaoyangLiu-sjtu/VeriScale 에서 공개됩니다.
주요 기여
본 논문은 다음 분야의 연구를 다룹니다:
- cs.LG
- cs.AI
- cs.SE
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Yifan Bai
- Xiaoyang Liu
- Zihao Mou
- Guihong Wang
- Jian Yu
- Shuhan Xie
- Yantao Li
- Yangyu Zhang
- Jingwei Liang
- Tao Luo
논문 정보
- arXiv ID: 2605.22368v1
- 분류: cs.LG, cs.AI, cs.SE
- 발표일: 2026년 5월 21일
- PDF: PDF 다운로드