[Paper] 확장 가능한 자동 레포지토리 수준 데이터셋을 향한 소프트웨어 취약점 탐지

발행: 1일 전 (2026년 3월 19일 AM 02:38 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2603.17974v1

개요

이 논문은 머신러닝 기반 보안에서 핵심 병목 현상인, 전체 스택 코드 저장소에서 취약점이 나타나는 방식을 반영하는 대규모 현실적인 데이터셋의 부재 문제를 해결한다. 실제 오픈소스 프로젝트에 진짜 버그를 자동으로 삽입하고 재현 가능한 취약점 증명(PoV) 익스플로잇을 생성함으로써, 저자는 차세대 취약점 탐지기를 학습하고 평가하는 데 사용할 수 있는 확장 가능한 저장소 수준 벤치마크를 만든다.

핵심 기여

Automated benchmark generator: 라이브 오픈소스 저장소에 다양한 현실적인 취약점을 삽입하면서도 빌드 가능성과 실행 의미를 유지하는 자동 벤치마크 생성기.
Synthetic PoV exploit synthesis: 삽입된 각 결함에 대해 엔드‑투‑엔드, 재현 가능한 공격을 생성하여 정확한 정답 라벨을 제공하는 합성 PoV 익스플로잇 합성기.
Adversarial co‑evolution framework: 취약점 삽입 에이전트와 탐지 에이전트가 서로를 반복적으로 개선하며 공격자와 방어자 간의 군비 경쟁을 모방하는 적대적 공동 진화 프레임워크.
Extensive empirical evaluation: 생성된 데이터셋이 수천 개의 저장소로 확장될 수 있으며, 함수 중심 코퍼스에 없던 인터프로시저, 파일 간 상호작용을 포착한다는 광범위한 실증 평가.
Open‑source tooling and dataset release: 재현성을 보장하고 커뮤니티 전체가 채택할 수 있도록 오픈소스 도구와 데이터셋을 공개.

방법론

Repository Harvesting – 크롤러가 컴파일이 가능하고 자체 테스트 스위트를 통과하는 인기 있는 GitHub 저장소들을 대규모로 수집합니다.
Vulnerability Injection Engine – 알려진 CWE 패턴(예: 버퍼 오버플로, use‑after‑free, SQL 인젝션)의 카탈로그를 활용하여 엔진이 소스 파일을 자동으로 변형하고, 코드 조각을 추가·수정하며, 프로젝트를 빌드 가능하게 유지하기 위해 빌드 스크립트를 업데이트합니다.
PoV Exploit Synthesis – 삽입된 각 버그에 대해 경량 심볼릭 실행기 또는 퍼징 하네스가 취약점을 유발하는 최소 입력을 생성하고, 재현 가능한 PoV 스크립트(예: 유닛 테스트 또는 익스플로잇 바이너리)를 만들어냅니다.
Label Generation – 삽입 지점, 영향을 받는 함수/파일, 그리고 PoV가 정확한 주석으로 저장되어, 수동 작업 없이 완전 라벨링된 데이터셋을 제공합니다.
Adversarial Co‑Evolution Loop – 삽입 모델(‘공격자’)이 새로운 버그 사례를 제안하고, 탐지 모델(‘방어자’)이 이를 식별하려 시도합니다. 오탐·미탐 사례는 두 모델을 모두 개선하기 위해 피드백되어, 적응형 공격에 대한 강인성을 높입니다.

파이프라인은 컨테이너화되어 있으며, 일반 하드웨어에서 실행되고, 새로운 저장소가 등장할 때마다 벤치마크를 지속적으로 갱신하도록 스케줄링할 수 있습니다.

결과 및 발견

규모: 시스템은 500개 이상의 저장소에서 3,000개 이상의 취약 커밋을 생성했으며, 이는 가장 큰 수동으로 큐레이션된 저장소 수준 벤치마크보다 10배 증가한 것입니다.
현실성: 주입된 버그의 92 %가 오류 없이 컴파일되었고, 변형된 코드에서 PoV의 87 %가 성공적으로 실행되어 기능적 현실성을 확인했습니다.
탐지 격차: 최신 저장소 수준 취약점 탐지기(예: DeepVuln, CodeBERT‑Vul)는 새로 주입된 버그의 68 %를 놓쳐, 상당한 일반화 격차를 강조합니다.
대립적 향상: 다섯 번의 공동 진화 사이클 후, 탐지 모델의 재현율이 생성된 세트에서 32 %에서 58 %로 향상되었으며, 주입 모델은 탐지하기 어려운 패턴을 생성하는 방법을 학습하여 레이스 설정의 유용성을 입증했습니다.

Practical Implications

Training Better Models: 더 나은 모델 훈련: 이제 ML 기반 보안 도구 개발자는 실제 빌드 파이프라인, 파일 간 데이터 흐름, 그리고 악용 가능성을 반영한 데이터셋으로 훈련할 수 있어, 프로덕션 코드베이스에서 바로 사용할 수 있는 탐지기를 만들 수 있습니다.
Continuous Benchmarking: 지속적인 벤치마킹: 조직은 생성기를 CI 파이프라인에 통합하여 최신의 현실적인 위협에 대해 자체 취약점 스캐너를 자동으로 평가할 수 있습니다.
Red‑Team Automation: 레드팀 자동화: 보안 팀은 인젝션 엔진을 사용해 코드 내 “알 수 없는” 버그를 시뮬레이션함으로써 실제 취약점을 노출하지 않고 사고 대응 및 패치 프로세스를 테스트할 수 있습니다.
Research Acceleration: 연구 가속화: 공개 데이터셋은 학계와 산업 연구자들의 진입 장벽을 낮추어 재현 가능한 비교와 새로운 탐지 알고리즘에 대한 빠른 반복을 촉진합니다.

제한 사항 및 향후 작업

Synthetic Bias: 주입된 버그는 알려진 CWE 패턴을 따르지만, 인간 공격자의 창의성을 완전히 포착하지 못할 수 있어 모델이 알려진 결함 서명에 편향될 가능성이 있습니다.
Language Coverage: 현재 구현은 C/C++ 프로젝트에 초점을 맞추고 있으며, 관리형 언어(Java, Python) 및 혼합 언어 생태계로 확장하는 작업은 향후 과제로 남아 있습니다.
Exploit Fidelity: PoV 생성은 가벼운 심볼릭 실행에 의존하므로, 복잡하고 다단계인 익스플로잇(예: ROP 체인)은 아직 합성되지 않습니다.
Adversarial Loop Cost: 공동 진화 과정은 계산 비용이 많이 들며, 수백만 개의 커밋으로 확장하려면 분산 학습 전략과 보다 스마트한 샘플링이 필요합니다.

저자의 제너레이터와 첫 번째 데이터셋 공개는 커뮤니티가 이러한 격차를 메우고 레포 수준 취약점 탐지의 최전선을 확장하도록 초대합니다.

저자

Amine Lbath

논문 정보

arXiv ID: 2603.17974v1
분류: cs.SE, cs.AI
출판일: 2026년 3월 18일
PDF: PDF 다운로드

[Paper] 확장 가능한 자동 레포지토리 수준 데이터셋을 향한 소프트웨어 취약점 탐지

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 효율적인 비디오 VLM을 위한 통합 시공간 토큰 스코어링

[Paper] Loc3R-VLM: 언어 기반 로컬라이제이션 및 3D 추론 with Vision-Language Models

[Paper] LoST: 3D 형태를 위한 의미 수준 토큰화

[Paper] 뮤온을 넘어서: MUD (MomentUm Decorrelation) for Faster Transformer Training