[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선
개요
CLIP과 같은 비전-언어 모델은 이미지와 텍스트가 공유하는 임베딩 공간 덕분에 다양한 작업에 매우 유용합니다. 그럼에도 불구하고 이미지와 텍스트 임베딩은 종종 정렬이 잘 맞지 않아 하위 작업 성능에 영향을 미칩니다. 최근 연구에 따르면 이는 정보 불균형 때문인데, 이미지가 캡션이 설명하는 것보다 더 많은 정보를 담고 있기 때문입니다. 본 연구에서는 캡션을 이미지 임베딩에서 유지할 정보를 알려주는 신호로 활용하는 TEVI 프레임워크를 제안합니다. 구체적으로, 우리는 희소 자동인코더를 사용해 이미지 임베딩을 분리하고, 주어진 캡션에 기반해 임베딩을 선택적으로 재구성하도록 마스킹 모듈을 학습합니다. 합성 캡션을 이용한 통제된 실험에서 TEVI가 캡션에 명시된 속성은 보존하고 그 외의 속성은 제거하는 데 효과적임을 보였습니다. 자연 이미지에 대해 학습된 CLIP 모델에 TEVI를 적용함으로써, 거친 수준의 짧은 캡션(MS COCO, Flickr)과 세밀한 수준의 긴 캡션(IIW, DOCCI) 벤치마크 모두에서 검색 성능이 향상되었으며, 특히 풍부한 캡션에서 더 큰 향상을 보였고 RoCOCO 벤치마크에서도 강인성이 개선되었습니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.CV
- cs.AI
- cs.CL
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CV 분야의 발전에 기여합니다.
저자
- Sweta Mahajan
- Sukrut Rao
- Jiahao Xie
- Alexander Koller
- Bernt Schiele
논문 정보
- arXiv ID: 2606.07451v1
- 분류: cs.CV, cs.AI, cs.CL, cs.LG
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드