[Paper] LLM 기반 시나리오 생성 파이프라인: 확장된 Scenic DSL을 활용한 자율주행 안전 검증

발행: 3일 전 (2026년 2월 24일 오후 04:44 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.20644v1

개요

새로운 연구 파이프라인은 복잡하고 실제 세계의 충돌 보고서(텍스트 설명과 손으로 그린 스케치)를 완전 실행 가능한 자율주행 테스트 시나리오로 전환하는 방법을 보여줍니다. GPT‑4o mini와 확장된 Scenic 도메인‑특정 언어(DSL)를 결합함으로써, 저자들은 고수준 의미 추출과 신뢰할 수 있는 시뮬레이션 입력 생성을 자동화하여 자율주행 시스템(ADS)의 검증 작업량을 크게 경감시킵니다.

주요 기여

LLM‑보강 파싱 – GPT‑4o mini를 사용해 멀티모달 충돌 보고서(텍스트 + 스케치)를 해석하고 구조화된 확률적 Scenic 표현을 생성합니다.
확장된 Scenic DSL – 도로망 속성, 교통 규칙 “오라클”, 확률적 행위자 궤적을 위한 새로운 구문을 도입해 자연어 의도와 저수준 시뮬레이터 명령 사이의 격차를 메웁니다.
두 단계 파이프라인 – 의미 이해(LLM)와 구체적인 시나리오 렌더링(Scenic → CARLA)을 분리하여 엔드‑투‑엔드 텍스트‑투‑시나리오 방식에 비해 오류 전파를 감소시킵니다.
포괄적 평가 – NHTSA CIREN 충돌 사례에 대해 검증했으며, 환경/네트워크 추출 정확도 100 %, 오라클 및 궤적 추출 정확도 >97 %라는 거의 완벽에 가까운 성능을 달성했습니다.
확장 가능한 스트레스 테스트 – 각 시나리오당 2,000개의 변형을 생성했으며, 모두 CARLA에서 Autoware 스택으로 실행했을 때 의도된 교통 규칙 위반을 유발했습니다.

Methodology

Data Ingestion – 각 사고 보고서는 해당 스케치와 함께 GPT‑4o mini에 입력됩니다. 모델은 주요 엔터티(도로 레이아웃, 날씨, 차량 상태)를 식별하고 불확실성을 확률적으로 표현하도록 프롬프트됩니다.
Intermediate Representation – 추출된 의미론은 Extended Scenic DSL에 인코딩됩니다. 이 DSL은 다음을 추가합니다:
- 차선 표시, 신호등 위치, 허용 가능한 조작을 포함하는 RoadNetwork 객체.
- 안전 위반을 포착하는 Oracle 술어(예: “차량이 반대 차선을 횡단함”).
- 실제 사고에서 관찰된 다양한 속도, 진행 방향, 반응 시간을 모델링하는 Stochastic 액터 정의.
Scenario Synthesis – Scenic 인터프리터가 DSL 스크립트를 CARLA 시뮬레이터용 구체적인 시뮬레이션 자산(맵, 차량 모델, 센서 스위트)으로 변환합니다.
Execution & Verification – 생성된 시나리오가 오픈소스 Autoware 주행 스택과 함께 실행됩니다. 센서 데이터가 Autoware에 입력되고, Autoware는 장면을 탐색하려 시도합니다. 실행 후 검증자는 사전에 정의된 oracle 조건이 충족되었는지 확인합니다.
Variation Generation – Scenic 스크립트의 확률적 파라미터를 샘플링함으로써 수천 개의 현실적인 변형이 자동으로 생성되어 대규모 안전 테스트를 가능하게 합니다.

결과 및 발견

항목	인간 기준 대비 정확도
환경 및 도로‑네트워크 속성	100 %
Oracle (규칙‑위반) 추출	97 %
행위자 궤적 추출	98 %

CARLA와 Autoware를 사용해 실행하면, 모든 생성된 변형이 목표 위반을 재현했습니다 (예: 반대‑차선 진입, 적신호 위반). 파이프라인은 법적 근거가 있음을 입증했으며 (DSL이 사고 보고서에 사용되는 동일한 규제 언어를 포착함) 검증 가능합니다—시뮬레이션 전에 중간 Scenic 스크립트를 검토하고 감사할 수 있습니다.

Practical Implications

Accelerated Safety Validation – 엔지니어는 기존 충돌 데이터베이스를 가져와 즉시 현실적인 테스트 케이스 라이브러리를 얻을 수 있어 수주에 걸친 수동 시나리오 작성 시간을 절감한다.
Regulatory Alignment – DSL이 교통 규칙에 대한 법적 설명을 그대로 반영하기 때문에 생성된 시나리오는 컴플라이언스 보고서나 안전 사례에 직접 인용될 수 있다.
Stress‑Testing at Scale – 확률적 DSL은 각 케이스를 손수 만들 필요 없이 “what‑if” 변형(다양한 날씨, 운전자 반응 시간 등)을 체계적으로 탐색할 수 있게 한다.
Toolchain Integration – 파이프라인은 기존 시뮬레이션 스택(CARLA, LGSVL) 및 오픈소스 자율주행 스택(Autoware, Apollo)에 연결되어 개발자가 쉽게 도입할 수 있다.
Reduced Human Error – 시끄러운 텍스트‑to‑시맨틱 변환을 LLM에 위임하고 결정론적 Scenic 렌더링 단계를 유지함으로써, 이 접근법은 ScenicNL이나 LCTGen과 같은 이전 엔드‑투‑엔드 생성기에서 발생하던 오해를 완화한다.

제한 사항 및 향후 작업

LLM 환각 – 평가된 CIREN 세트에서 정확도가 높았지만, 시스템은 여전히 LLM의 신뢰성에 의존한다; 드문 오추출이 안전하지 않은 테스트 시나리오로 전파될 수 있다.
스케치 해석 – 현재 파이프라인은 스케치를 보조 단서로 취급한다; 보다 강력한 비전 기반 파서가 더 세밀한 기하학적 세부 정보를 포착할 수 있다.
도메인 일반화 – 검증이 미국 중심의 사고 보고서에만 제한되었다; 다른 관할 구역의 다양한 교통 규칙에 맞추려면 DSL 확장이 필요할 수 있다.
폐루프 테스트 – 연구는 규칙 위반을 유발하는 데 초점을 맞췄다; 향후 작업에서는 실시간으로 ADS에 반응하는 적응형 적대적 행위자를 포함할 수 있다.

핵심: 강력한 LLM과 확률적 Scenic DSL을 결합함으로써, 이 연구는 개발자가 레거시 사고 데이터를 고충실도, 검증 가능한 시뮬레이션 시나리오로 변환할 수 있는 실용적이고 확장 가능한 경로를 제공한다—보다 안전하고 신뢰할 수 있는 자율주행 차량을 향한 필수적인 단계이다.

저자

Fida Khandaker Safa
Yupeng Jiang
Xi Zheng

논문 정보

arXiv ID: 2602.20644v1
카테고리: cs.SE
출판일: 2026년 2월 24일
PDF: PDF 다운로드

[Paper] LLM 기반 시나리오 생성 파이프라인: 확장된 Scenic DSL을 활용한 자율주행 안전 검증

개요

주요 기여

Methodology

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] LLM 구동 Silent Bug Fuzzing, 딥러닝 라이브러리에서 다목적 및 제어된 Bug Transfer를 통해

[Paper] LLM 기반 멀티에이전트 시스템 운영의 불확실성 관리

Hybrid Agile 팀의 생산성 및 협업: 인터뷰 연구

[Paper] RandSet: 퍼징 시드 스케줄링을 위한 무작위 코퍼스 축소