[Paper] Visual Commonsense 기반 지식 정제를 통한 Scene Graph Generation

발행: 6일 전 (2026년 6월 5일 AM 01:36 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06369v1

Overview

학습 기반 장면 그래프 생성(SGG) 모델은 빈번한 관계 유형에서는 뛰어나지만, 주석이 희소한 상황에서는 급격히 성능이 저하되어 신뢰할 수 있는 시각적 상식 지식을 포착하지 못합니다. 우리는 모델에 독립적이며 의미론적으로 안내되는 지식 정제 프레임워크를 제안합니다. 이 프레임워크는 학습 데이터에서 공간적, 기능적, 질적 관계 규칙성을 포착하는 상식 기반 제약을 체계적으로 발굴하고, 일반 선언적 상식 추론을 이용해 추론 단계에서 순위가 매겨진 SGG 예측을 교정·정제합니다. 프레임워크는 수동 규칙 작성이나 모델 재학습이 필요 없으며, 데이터셋과 아키텍처를 넘어 전이됩니다. 세 가지 표준 벤치마크에서 강력한 베이스라인 대비 일관된 향상을 달성했으며, 깊은 장면 의미에 대한 구조화된 시각적 상식 추론이 순수 학습 기반 장면 그래프 생성에 실용적이고 효과적인 보완임을 입증합니다.

Key Contributions

Domain: cs.CV
이 논문은 SGG를 위한 의미론적으로 안내되는 지식 정제 프레임워크를 소개합니다. 이 프레임워크는:
- 학습 데이터로부터 상식 제약을 자동으로 발굴합니다.
- 선언적 추론을 적용해 추론 시 예측을 정제합니다.
- 모델에 독립적으로 동작하며 재학습이 필요 없습니다.
- 여러 벤치마크와 아키텍처에 걸쳐 일관된 성능 향상을 보여줍니다.

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 희소한 주석 상황에서도 상식 추론을 통해 장면 그래프 생성의 견고성을 향상시켜 컴퓨터 비전(cs.CV) 분야의 발전에 기여합니다.

Authors

Maëlic Neau
Salim Baloch
Jakob Suchan
Zoe Falomir
Mehul Bhatt

Paper Information

arXiv ID: 2606.06369v1
Categories: cs.CV
Published: June 4, 2026
PDF: Download PDF

[Paper] Visual Commonsense 기반 지식 정제를 통한 Scene Graph Generation

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성