[논문] VeriScale: 검증 가능한 코드 생성을 위한 적대적 테스트 스위트 확장

발행: 2주 전 (2026년 5월 21일 PM 09:00 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2605.22368v1

개요

대형 언어 모델(LLM)이 소프트웨어 엔지니어링에 점점 더 많이 활용됨에 따라, 생성된 코드의 기능적 정확성뿐 아니라 형식적 검증 가능성을 평가하기 위한 고품질 벤치마크 구축이 필수적입니다. 그러나 기존 벤치마크는 양성·음성 테스트 케이스의 양과 질이 제한적이어서, 모델이 사양 및 구현을 생성하는 능력을 과대평가하는 경향이 있습니다. 이를 해결하고자 우리는 적대적 구현을 기반으로 하는 새로운 프레임워크 VeriScale을 제안합니다. VeriScale은 (1) 다양한 및 도전적인 테스트 케이스를 만들기 위한 테스트 스위트 확장 단계와 (2) 이를 압축하면서도 판별력을 유지하는 테스트 스위트 축소 단계의 두 단계로 구성됩니다. VeriScale은 일반적인 프레임워크이지만, 우리는 이를 Verina에 적용하여 원본 테스트 스위트를 83배 이상 확장한 VerinaPlus와 평가 비용을 크게 낮춘 14배 경량 버전 VerinaLite를 만들었습니다. 8개의 최신 LLM을 대상으로 한 실험 결과, VerinaPlus는 원본 벤치마크에서는 드러나지 않았던 모델의 큰 약점을 드러내어 SpecGen 및 CodeGen 작업 모두에서 점수가 급격히 하락함을 보여주었으며, VerinaLite는 평가 비용의 일부만으로도 이러한 판별력을 유지함을 확인했습니다. 향상된 벤치마크와 소스 코드는 https://github.com/XiaoyangLiu-sjtu/VeriScale 에서 공개됩니다.

주요 기여

본 논문은 다음 분야의 연구를 다룹니다:

cs.LG
cs.AI
cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Yifan Bai
Xiaoyang Liu
Zihao Mou
Guihong Wang
Jian Yu
Shuhan Xie
Yantao Li
Yangyu Zhang
Jingwei Liang
Tao Luo

논문 정보

arXiv ID: 2605.22368v1
분류: cs.LG, cs.AI, cs.SE
발표일: 2026년 5월 21일
PDF: PDF 다운로드

[논문] VeriScale: 검증 가능한 코드 생성을 위한 적대적 테스트 스위트 확장

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] LLMs as Noisy Channels: Shannon 관점에서 본 Model Capacity와 Scaling Laws

[Paper] 원시 경험에서 스킬 소비까지: Model-Generated Agent Skills에 대한 체계적 연구

[Paper] SPACENUM: VLMs에서 공간 수치 이해 재검토