[Paper] Req2Road: GenAI 파이프라인을 활용한 SDV 테스트 아티팩트 생성 및 차량 내 실행

발행: (2026년 2월 17일 오후 11:03 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2602.15591v1

개요

‘Req2Road: A GenAI Pipeline for SDV Test Artifact Generation and On‑Vehicle Execution’ 논문은 자연어 차량 요구사항을 소프트웨어 정의 차량(SDV)용 실행 가능한 테스트 스크립트로 변환하는 프로토타입을 제시합니다. 대형 언어 모델(LLM)과 비전‑언어 모델(VLM)을 활용하여 저자들은 Gherkin 스타일 시나리오 생성을 자동화하고 이를 Vehicle Signal Specification(VSS)에 매핑함으로써 시뮬레이터와 실제 차량 모두에서 빠르고 이식 가능한 테스트를 가능하게 합니다.

주요 기여

  • End‑to‑end pipeline은 이질적인 요구사항 아티팩트(텍스트, 표, 다이어그램)를 실행 가능한 Gherkin 시나리오와 VSS‑연동 테스트 코드로 변환합니다.
  • **Retrieval‑augmented generation (RAG)**은 관련 VSS 신호를 사전 선택하여 신호‑요구사항 매핑 정확도를 향상시킵니다.
  • Integration of LLMs and VLMs를 통해 요구사항 문서에서 텍스트와 시각 정보를 모두 추출합니다.
  • Demonstration on a safety‑critical subsystem(Child Presence Detection System)에 대해 가상(시뮬레이션) 및 실제 차량(Vehicle‑in‑the‑Loop) 환경 모두에서 시연했습니다.
  • Quantitative evaluation 결과, 검토된 요구사항의 89 %가 자동으로 실행 가능한 테스트로 변환될 수 있음을 보여줍니다.

방법론

  1. Requirement Ingestion – 파이프라인은 자연어 요구사항, 부속 테이블 및 설계 다이어그램을 수집합니다.
  2. Signal Retrieval (RAG) – VSS 신호 설명의 벡터 스토어를 질의하여 각 요구사항에 가장 관련성이 높은 신호를 가져옵니다.
  3. LLM‑Driven Scenario Generation – 대형 언어 모델(예: GPT‑4)이 요구사항 텍스트와 검색된 신호를 받아 Gherkin 시나리오(Given‑When‑Then 형식)를 생성합니다.
  4. VLM‑Assisted Diagram Parsing – 비전‑언어 모델이 다이어그램을 분석하여 LLM이 놓칠 수 있는 추가 신호 이름이나 상태 머신을 추출합니다.
  5. VSS Mapping & Code Synthesis – 식별된 신호를 VSS 식별자와 연결하고, 코드 생성기가 대상 테스트 벤치(시뮬레이터 또는 차량 내 테스트 프레임워크)와 호환되는 테스트 스크립트를 출력합니다.
  6. Execution & Feedback Loop – 생성된 테스트를 먼저 가상 환경에서 실행합니다; 실패가 발생하면 인간이 참여하는 검토가 트리거되어 누락되거나 잘못 매핑된 신호를 수정하고, 이후 실제 차량에서 테스트를 다시 실행합니다.

결과 및 발견

  • Coverage: 36개 중 32개(≈ 89 %)의 아동 존재 감지 시스템 안전 요구사항이 실행 가능한 Gherkin 시나리오로 성공적으로 전환되었습니다.
  • Gherkin Validity: 생성된 시나리오의 95 % 이상이 수동 편집 없이 구문 검증 도구를 통과했습니다.
  • VSS Mapping Quality: RAG 단계는 순수 LLM‑only 접근 방식에 비해 잘못된 신호 할당을 약 40 % 감소시켰습니다.
  • End‑to‑End Executability: 시뮬레이션 및 Vehicle‑in‑the‑Loop (ViL) 실행 모두에서 생성된 테스트가 런타임 오류 없이 실행되어 파이프라인의 실용성을 확인했습니다.
  • Human Intervention: 약 10 %의 경우 여전히 수동 신호 교체 또는 모호한 요구사항 문구에 대한 명확화가 필요했습니다.

Practical Implications

  • Accelerated Test Development: 엔지니어는 요구사항에서 직접 기본 테스트 스위트를 생성할 수 있어 수주에 걸친 수동 테스트 작성 시간을 절감합니다.
  • Cross‑Toolchain Consistency: VSS 표준에 기반함으로써 동일한 테스트 산출물을 다양한 서브시스템, 시뮬레이터 및 차량 내 테스트 장비에서 재사용할 수 있어 중복을 줄입니다.
  • Safety‑Critical Assurance: 안전 기능(예: 어린이 존재 감지)에 대한 조기 자동 테스트 생성은 수동 작업을 최소화하면서 자동차 안전 표준(ISO 26262) 준수를 지원합니다.
  • Scalable to New Features: SDV가 진화함에 따라 파이프라인은 업데이트된 요구사항 문서를 받아들여 해당 테스트 케이스를 신속히 생성하고, 자동차 소프트웨어의 지속적 통합 파이프라인을 지원합니다.
  • Developer‑Friendly Artifacts: Gherkin 시나리오는 기술 및 비기술 이해관계자 모두가 읽을 수 있어 소프트웨어 엔지니어, 시스템 아키텍트, 안전 분석가 간 협업을 촉진합니다.

제한 사항 및 향후 작업

  • 모호성 처리: 현재 시스템은 여전히 모호하거나 구조가 부실한 요구사항을 처리하는 데 어려움을 겪으며, 인간 검토가 필요합니다.
  • 도메인‑특화 지식: LLM은 자동차 분야의 미묘한 뉘앙스(예: 타이밍 제약)를 놓칠 수 있으며, 이를 위해 도메인‑특화 파인튜닝이 필요합니다.
  • 확장성 테스트: 평가가 단일 서브시스템에 집중되어 있어, 여러 SDV 모듈에 걸친 광범위한 연구가 일반화 가능성을 확인하기 위해 필요합니다.
  • 툴체인 통합: 향후 작업에서는 파이프라인을 자동차 CI/CD 플랫폼(예: Jenkins, GitLab)에 직접 연결하고, Gherkin 외의 추가 테스트 프레임워크를 지원하는 것을 목표로 합니다.
  • 설명 가능성: 생성된 각 테스트를 정확한 요구사항 조각 및 신호 출처와 연결하는 추적성을 제공하면 안전 인증을 위한 감사 가능성이 향상됩니다.

저자

  • Denesa Zyberaj
  • Lukasz Mazur
  • Pascal Hirmer
  • Nenad Petrovic
  • Marco Aiello
  • Alois Knoll

논문 정보

  • arXiv ID: 2602.15591v1
  • 분류: cs.SE
  • 출판일: 2026년 2월 17일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »