[Paper] Vision-and-Knowledge 강화 대형 언어 모델을 통한 일반화 가능한 보행자 횡단 행동 추론
Source: arXiv - 2601.00694v1
개요
이 논문은 **Pedestrian Crossing LLM (PedX‑LLM)**을 소개한다. 이는 시각 인식과 도메인‑특화 지식을 결합하여 대형 언어 모델이 보행자가 길을 건널지 여부를 추론할 수 있게 하는 새로운 프레임워크이다. 순수한 패턴‑매칭에서 의미론적이고 상황을 고려한 추론으로 전환함으로써, 저자들은 새로운 미지의 장소에 대한 일반화를 크게 향상시켰으며, 이는 실제 교통 안전 시스템에 필수적인 단계이다.
주요 기여
- 시각‑지식 통합: LLaVA에서 추출한 시각 임베딩과 텍스트 교통 지식을 결합하여 LLaMA‑2‑7B 모델을 강화합니다.
- 저랭크 적응 (LoRA) 미세조정: 전체 재학습 없이 대형 언어 모델을 효율적으로 적응시켜 계산 비용을 낮게 유지합니다.
- 강력한 실증적 향상: 전체 데이터셋에서 82 %의 균형 정확도를 달성했으며, 시각만으로는 2.9 % 상승, 도메인 지식으로 추가 4.1 % 향상이 있습니다.
- 크로스‑사이트 일반화: 완전히 보지 못한 다섯 개 사이트에서 66.9 %의 제로샷 성능을 기록했으며, 기존 베이스라인 대비 18 pp 이상 향상되었습니다.
- 소수샷 적응성: 검증 예시 다섯 개만 추가해도 제로샷 정확도가 72.2 %로 상승하여 빠른 실시간 맞춤화가 가능함을 보여줍니다.
Source: …
Methodology
- Data collection: 보행자 비디오와 여러 도시 현장의 센서 로그를 수집하고, “건너기” / “건너지 않기” 결정으로 주석을 달았습니다.
- Visual feature extraction: 프레임을 LLaVA(시각‑언어 모델)에 입력하여 거리 레이아웃, 교통 신호, 주변 객체 등을 포착하는 밀집 임베딩을 생성합니다.
- Knowledge injection: 교통 분야의 사실(예: 우선권 규칙, 일반적인 횡단 거리) 집합을 자연어 프롬프트로 인코딩하고 시각 임베딩에 연결합니다.
- Model fine‑tuning: 결합된 토큰 스트림을 사용해 LoRA를 통해 LLaMA‑2‑7B를 미세 조정합니다. LoRA는 각 트랜스포머 레이어에 작은 학습 가능한 행렬을 추가하여 원래 지식을 보존하면서 횡단 추론에 특화시킵니다.
- Evaluation protocol:
- Standard split: 전체 데이터에서 무작위로 훈련/검증/테스트를 나누어 전반적인 정확도를 측정합니다.
- Cross‑site split: 전체 현장을 테스트용으로 보류하여 새로운 도시에서의 배포 상황을 모방합니다.
- Zero‑shot vs. few‑shot: 모델을 먼저 사이트‑특정 예시 없이(Zero‑shot) 평가하고, 그 다음 소수의 라벨된 예시를 사용해(Few‑shot) 평가합니다.
결과 및 발견
| 설정 | 균형 정확도 |
|---|---|
| 전체 데이터셋 (무작위 분할) | 82.0 % |
| 비전 전용 (지식 없음) | 79.1 % |
| 지식 전용 (비전 없음) | 77.9 % |
| 제로샷 교차 사이트 (보지 않은 5개 사이트) | 66.9 % |
| 몇 샷 (사이트당 5개 예시) | 72.2 % |
- Vision module은 구축된 환경(횡단보도 표시, 차량 근접도 등)을 인코딩함으로써 **2.9 %**의 향상을 제공합니다.
- Domain knowledge는 추가로 **4.1 %**를 더해, 명시적인 교통 규칙이 순수 시각적 단서와 상호 보완됨을 보여줍니다.
- 최고의 통계적 또는 감독 학습 기반 모델과 비교했을 때, PedX‑LLM은 보지 않은 사이트에서 정확도를 ≥ 18 pp 향상시켜, 뛰어난 일반화 능력을 확인했습니다.
Practical Implications
- Smart traffic infrastructure: 스마트 교통 인프라: 도시 전역 보행자 감지 시스템은 단일 PedX‑LLM 인스턴스를 배포하고, 신규 개발 구역에서도 신뢰할 수 있는 횡단 예측을 기대할 수 있어 현장별 데이터 수집 필요성을 줄인다.
- Advanced driver‑assistance (ADAS) & autonomous vehicles: 첨단 운전자 지원(ADAS) 및 자율주행 차량: PedX‑LLM을 통합하면 보행자 의도에 대한 인간과 유사한 추론이 가능해져 복잡한 도시 상황에서 안전 여유를 향상시킨다.
- Rapid deployment: 신속한 배포: few‑shot 기능 덕분에 지방자치단체는 소수의 현지 라벨링된 클립만으로 모델을 미세조정할 수 있어 도입 시간을 몇 주에서 몇 시간으로 단축한다.
- Scalable safety analytics: 확장 가능한 안전 분석: 연구원 및 안전 감사자는 도시 전역 비디오 피드에 배치 추론을 실행해 현장별 별도 모델 재학습 없이 위험도가 높은 횡단 위치를 식별할 수 있다.
제한 사항 및 향후 연구
- 데이터 다양성: 연구는 제한된 수의 도시 환경에 의존하고 있으며, 농촌이나 고도로 혼잡한 메가시티 환경에서의 성능은 아직 테스트되지 않았습니다.
- 실시간 제약: LoRA가 훈련 비용을 줄이지만, 비전‑언어 파이프라인의 추론 지연은 초저지연 ADAS 루프에 여전히 너무 높을 수 있습니다; 모델 압축이나 엣지 최적화 변형이 필요합니다.
- 지식 베이스 범위: 현재 규칙 집합은 기본적인 우선권 및 교차로 기하학을 다루며, 날씨 조건, 보행자 인구통계, 문화적 교차 습관 등으로 확장하면 정확도를 더욱 높일 수 있습니다.
- 설명 가능성: 모델이 인간의 추론을 모방하지만, 각 예측에 대한 투명한 근거 제공(예: “보이는 교통 신호가 빨간색”)은 안전 인증을 위한 미해결 과제입니다.
PedX‑LLM은 시각 인식과 구조화된 도메인 지식을 결합하여 일반 LLM을 안전‑중요 작업을 위한 견고하고 일반화 가능한 추론 엔진으로 전환할 수 있음을 보여줍니다—이 접근 방식은 다른 많은 도시 AI 응용 분야에서도 복제될 수 있습니다.
저자
- Qingwen Pu
- Kun Xie
- Hong Yang
- Guocong Zhai
논문 정보
- arXiv ID: 2601.00694v1
- 카테고리: cs.AI
- 발행일: 2026년 1월 2일
- PDF: Download PDF