[Paper] Visual Commonsense 기반 지식 정제를 통한 Scene Graph Generation
Source: arXiv - 2606.06369v1
Overview
학습 기반 장면 그래프 생성(SGG) 모델은 빈번한 관계 유형에서는 뛰어나지만, 주석이 희소한 상황에서는 급격히 성능이 저하되어 신뢰할 수 있는 시각적 상식 지식을 포착하지 못합니다. 우리는 모델에 독립적이며 의미론적으로 안내되는 지식 정제 프레임워크를 제안합니다. 이 프레임워크는 학습 데이터에서 공간적, 기능적, 질적 관계 규칙성을 포착하는 상식 기반 제약을 체계적으로 발굴하고, 일반 선언적 상식 추론을 이용해 추론 단계에서 순위가 매겨진 SGG 예측을 교정·정제합니다. 프레임워크는 수동 규칙 작성이나 모델 재학습이 필요 없으며, 데이터셋과 아키텍처를 넘어 전이됩니다. 세 가지 표준 벤치마크에서 강력한 베이스라인 대비 일관된 향상을 달성했으며, 깊은 장면 의미에 대한 구조화된 시각적 상식 추론이 순수 학습 기반 장면 그래프 생성에 실용적이고 효과적인 보완임을 입증합니다.
Key Contributions
- Domain: cs.CV
- 이 논문은 SGG를 위한 의미론적으로 안내되는 지식 정제 프레임워크를 소개합니다. 이 프레임워크는:
- 학습 데이터로부터 상식 제약을 자동으로 발굴합니다.
- 선언적 추론을 적용해 추론 시 예측을 정제합니다.
- 모델에 독립적으로 동작하며 재학습이 필요 없습니다.
- 여러 벤치마크와 아키텍처에 걸쳐 일관된 성능 향상을 보여줍니다.
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 희소한 주석 상황에서도 상식 추론을 통해 장면 그래프 생성의 견고성을 향상시켜 컴퓨터 비전(cs.CV) 분야의 발전에 기여합니다.
Authors
- Maëlic Neau
- Salim Baloch
- Jakob Suchan
- Zoe Falomir
- Mehul Bhatt
Paper Information
- arXiv ID: 2606.06369v1
- Categories: cs.CV
- Published: June 4, 2026
- PDF: Download PDF