[논문] GPT‑Image‑2가 만든 텍스트가 풍부한 AI 이미지를 감지하는 다중 도메인 벤치마크

발행: 1일 전 (2026년 6월 18일 AM 01:37 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19259v1

개요

텍스트가 풍부한 이미지들은 개인정보 보호 민감 정보, 거래 관련 데이터, 의사 결정에 필요한 정보를 포함하는 경우가 많습니다. 최근 다중 모달 이미지 생성 모델은 현실적인 텍스트 콘텐츠와 구조화된 시각적 디자인을 합성하는 능력이 점점 커지고 있어, AI가 생성한 텍스트가 풍부한 이미지를 탐지하는ことは 디지털 신뢰와 콘텐츠 진위 확보에 중요한 과제가 되고 있습니다. 기존 벤치마크들은 주로 객체 중심의 이미지에 초점을 맞추고 있어, 텍스트 의미와 레이아웃 조직이 핵심적인 시나리오에 대한Coverage가 제한적입니다. 본 논문에서는 OpenAI의 GPT Image 2가 생성한 텍스트 풍부한 이미지를 탐지하기 위한 다중 도메인 벤치마크를 소개합니다. 이 벤치마크는 상업 포스터, 인포그래픽, 학술 포스터, 영수증, 표, UI 스크린샷 등 6가지 대표적인 카테고리에서 총 8,602장의 이미지를 포함하고 있습니다. 이 벤치마크를 활용하여 다섯 개의 대표적인 AI 생성 이미지 탐지기를 제로샷 설정에서 평가하고, 전체 성능 및 카테고리별, 포스트프로세싱 강건성을 분석합니다. 결과는 탐지기가 도메인에 따라 성능이 크게 달라진다는 것을 보여줍니다. 일부 카테고리에서는 잘 작동하는 방법이 다른 카테고리에서 실패하고, 가장 강력한 기존 검출기조차도 JPEG 압축에 매우 민감함을 보입니다. 또한 다중 모달 비전-언어 모델을 이용한 실험적 평가를 진행하여 구조화된 포맷에 대한 모델의 가능성과 한계를 모두 확인했습니다. 이러한 결과는 현대 AI 생성 이미지에 적합한 텍스트 및 레이아웃 인식 탐지 방법이 필요함을 강조합니다. 우리 데이터셋은 XXX에서 공개됩니다.

주요 공헌

본 논문은 다음 분야의 연구를 제시합니다:

cs.CV
cs.AI

방법론

자세한 방법については 전체 논문을 참고하십시오.

실제 적용 가능성

본 연구는 cs.CV 분야의 발전을 기여합니다.

저자

이진 왕
슈이 왕
원한 장
유키 오양

논문 정보

arXiv ID: 2606.19259v1
카테고리: cs.CV, cs.AI
게시일: 2026년 6월 17일
PDF: Download PDF

[논문] GPT‑Image‑2가 만든 텍스트가 풍부한 AI 이미지를 감지하는 다중 도메인 벤치마크

개요

주요 공헌

방법론

실제 적용 가능성

저자

논문 정보

관련 글

[논문] 참조 기반 다중 스피커 오디오 씬 생성

신뢰는 신뢰가 아니다: 뇌 종양 분할에서 MC 드롭아웃 재고찰

OneCanvas: 광역 재투영으로 3D 장면 이해

AUC가 오해할 때: 도메인 이동 하의 편향 인식 딥페이크 탐지 평가