[논문] 포렌식 이미지 검색의 모달리티 격차 해소

발행: (2026년 6월 11일 AM 01:32 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.12294v1

개요

자동 이미지 검색은 현대 법의학 분석에서 점점 더 중요한 역할을 차지하고 있으며, 시각 증거의 효율적인 비교를 필요로 하는 수사 워크플로를 지원합니다. 기존 연구는 주로 다중모달 검색 시스템의 개발 및 최적화에 초점을 맞추었지만, 이러한 기술이 다양한 실제 상황에서 법의학적으로 얼마나 적용 가능한지는 충분히 평가되지 않았습니다. 본 연구에서는 네 가지 핵심 법의학 작업에 맞춘 통합 검색 프레임워크를 제시합니다: (1) 문신 쿼리 이미지가 주어졌을 때의 문신 이미지 검색; (2) 인간 전문가가 작성한 텍스트 설명을 기반으로 한 문신 검색으로, 증인이 문신을 구두로 설명하는 일반적인 상황을 모델링; (3) 손으로 그린 스케치로부터의 문신 검색; (4) 법의학 얼굴 스케치로부터의 얼굴 검색. 우리 시스템은 다중모달 대형 언어 모델(MLLM)을 활용해 모든 쿼리와 갤러리 이미지에 대해 구조화된 텍스트 설명을 자동으로 생성하고, 이후 sentence‑transformer 임베딩을 이용해 텍스트 기반 비교를 수행합니다. 검색 평가는 시각 전용 임베딩, 텍스트 전용 임베딩, 그리고 각 작업에 적합한 최첨단 시각 특징 추출기로부터 얻은 텍스트·이미지 기반 유사도 점수를 결합한 다중모달 융합 전략을 사용합니다. 모달리티 융합은 특히 시각 정보가 제한되거나 노이즈가 많은 상황(예: 스케치, 부분 문신, 혹은 단편적인 증인 진술)에서 검색 정확도와 견고성을 일관되게 향상시킵니다. 이 작업은 통합 다중모달 검색 파이프라인의 법의학적 가치를 강조하고, 최신 MLLM이 전통적으로 수동 전문가 분석에 의존하던 어려운 법의학 작업을 어떻게 운용화할 수 있는지를 보여줍니다. 우리의 결과는 다중모달 검색이 문신, 얼굴 합성, 증인 진술을 포함한 수사 워크플로를 지원하는 유망한 도구임을 입증합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.CV
  • eess.IV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CV 분야의 발전에 기여합니다.

저자

  • Ricardo González-Gazapo
  • Annette Morales-González
  • Yoanna Martínez-Díaz
  • Heydi Méndez-Vázquez
  • Milton García-Borroto

논문 정보

  • arXiv ID: 2606.12294v1
  • 분류: cs.CV, eess.IV
  • 발표일: 2026년 6월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »