[Paper] ViTaB-A: 시각적 테이블 어트리뷰션에 대한 멀티모달 대형 언어 모델 평가

발행: 3일 전 (2026년 2월 18일 오전 03:01 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2602.15769v1

개요

논문 **“ViTaB‑A: Evaluating Multimodal Large Language Models on Visual Table Attribution”**는 다중모달 LLM(mLLM)의 답변을 정당화하는 정확한 표의 행과 열을 지목하는 능력이라는 중요한 yet 미탐구된 역량을 조사합니다. 많은 모델이 Markdown, JSON, 이미지 형태로 인코딩된 표에 대한 질문에 답할 수 있지만, 개발자는 특히 금융, 의료, 규정 준수와 같이 추적 가능성이 필수적인 분야에서 답변이 어디서 유래했는지를 알아야 합니다. 저자들은 여러 최신 mLLM을 벤치마크하고 원시 QA 성능과 세밀한 귀속 신뢰성 사이에 뚜렷한 격차가 있음을 밝혀냈습니다.

주요 기여

구조화된 데이터 귀속(행/열 인용)의 공식 정의를 Markdown, JSON, 렌더링된 이미지 세 가지 형식의 표에 대해 제시.
ViTaB‑A 벤치마크 스위트는 정답 행/열 참조가 포함된 다양한 표‑질문 쌍을 포함.
**다양한 프롬프트 전략(제로샷, 몇 샷, 체인‑오브‑생각)**을 사용한 여러 mLLM 계열(GPT‑4‑V, LLaVA, Gemini‑Pro‑Vision 등)의 포괄적 평가.
실증적 발견: 귀속 정확도가 QA 정확도보다 현저히 낮으며, JSON 입력의 경우 무작위 수준에 근접.
실패 모드 분석: 모델이 열보다 행을 인용하는 데 더 뛰어나며, 텍스트(Markdown/JSON) 표보다 시각(이미지) 표에서 가장 좋은 성능을 보임.
오픈소스 공개: 벤치마크 데이터, 평가 스크립트, 상세 귀속 메트릭을 공개하여 재현성을 장려.

Methodology

Dataset Construction

공개 저장소(예: Wikipedia, open government data)에서 실제 테이블 1,200개를 수집했습니다.
각 테이블마다 3–5개의 자연어 질문을 생성하고, 정확히 지원되는 행과 열을 수동으로 주석 달았습니다.
각 테이블을 세 가지 형태로 렌더링했습니다: 일반 Markdown 텍스트, JSON 키‑값 구조, 그리고 래스터 이미지(PNG).

Model Selection & Prompt Design

비전‑언어 및 텍스트‑전용 계열을 아우르는 7개의 공개 mLLM을 테스트했습니다.
세 가지 프롬프트 템플릿을 설계했습니다:
1. Direct QA: “Answer the question.”
2. Citation‑aware: “Answer and list the row/column IDs that support the answer.”
3. Chain‑of‑Thought: “Explain step‑by‑step, then cite the evidence.”

Evaluation Metrics

QA Accuracy – 답변 문자열이 정확히 일치하는 비율.
Row Attribution Recall/Precision – 올바르게 인용된 행의 비율.
Column Attribution Recall/Precision – 열에 대해 동일하게 측정.
Combined Attribution F1 – 행과 열 점수의 조화 평균.

Statistical Analysis

부트스트랩 방식(1,000 샘플)으로 신뢰 구간을 계산하여 모델 및 포맷 간 차이의 유의성을 평가했습니다.

모든 단계는 Python으로 스크립트화했으며, 재현성을 위해 OpenAI, Hugging Face, Google Gemini API를 활용했습니다.

결과 및 발견

모델 (패밀리)	QA 정확도	행 귀속 F1	열 귀속 F1	전체 귀속 F1
GPT‑4‑V (Vision)	68 %	45 %	31 %	38 %
LLaVA‑13B	55 %	28 %	19 %	23 %
Gemini‑Pro‑Vision	62 %	41 %	27 %	34 %
기타 (평균)	58 %	22 %	15 %	18 %

QA vs. 귀속 격차: QA 정확도가 55‑70 % 수준인 반면, 귀속 F1 점수는 15‑38 %로 떨어져 모델이 근거 없이 답을 “추측”하는 경우가 많음을 나타냅니다.
형식 의존성: JSON 테이블에 대한 귀속은 거의 무작위 수준(≈10 % F1)인 반면, 이미지 테이블은 가장 높은 점수(≈38 % F1)를 기록합니다.
행 vs. 열: 모델은 행을 열보다 일관되게 더 신뢰성 있게 인용합니다(≈10 % 높은 F1). 이는 테이블을 행렬보다 리스트처럼 다루는 경향을 시사합니다.
프롬프트 영향: 체인‑오브‑생각 프롬프트는 귀속을 약간 향상시키지만(≈5 % 절대 상승) 여전히 QA 성능에 비해 크게 뒤처집니다.
모델 패밀리 차이: 비전 강화 모델(GPT‑4‑V, Gemini‑Pro‑Vision)은 순수 텍스트 기반 mLLM보다 시각적 테이블에서 더 좋은 성능을 보이지만, 견고한 인용을 제공하지는 못합니다.

시사점: 현재 mLLM은 테이블 기반 질문에 답할 수 있지만, 특히 구조화된 텍스트 형식의 원본 데이터에 대해 투명하고 추적 가능한 근거를 제공하는 데 신뢰할 수 없습니다.

실용적 시사점

시나리오	귀속이 중요한 이유	발견의 영향
재무 보고 대시보드	감사자는 KPI를 정당화하는 행/열을 확인해야 함	mLLM‑generated 인사이트는 인간 검증 레이어가 필요하며, 무분별한 의존은 위험함.
헬스케어 데이터 분석	임상 결정은 환자 기록에 추적 가능해야 함	현재 모델은 발견을 잘못 귀속시켜 규정 위반을 초래할 수 있음.
비즈니스 인텔리전스(BI) 도구	사용자는 AI‑지원 쿼리에서 “드릴‑다운” 기능을 기대함	개발자는 모델 답변과 함께 원시 쿼리 결과를 제공하거나 규칙 기반 추출로 대체해야 함.
규제 준수(예: GDPR, SOX)	데이터 출처 증거는 필수임	낮은 귀속 점수로 인해 mLLM은 아직 감사 추적을 만족시킬 수 없음.
개발자 도구(예: 데이터 노트북용 Copilot)	인라인 코드 제안은 원본 셀을 참조해야 함	검증 단계(예: 모델에 간단한 SELECT를 재‑실행하도록 프롬프트)를 통합하면 신뢰성을 높일 수 있음.

엔지니어를 위한 실행 가능한 조언

원시 모델 답변을 최종 결정으로 절대 노출하지 말 것—항상 독립적으로 검증 가능한 결정적 추출 루틴(SQL/JSONPath)과 함께 사용할 것.
시각적 테이블 입력(예: 스크린샷)을 선호하되, 모델 귀속에 의존해야 할 경우에도 출력은 증거가 아닌 힌트로만 간주할 것.
체인‑오브‑쓰(Chain‑of‑Thought) 프롬프트를 활용해 모델을 추론 단계로 유도하고, 중간 인용을 파싱해 정상성을 확인할 것.
대체 메커니즘 구현: 모델의 귀속 신뢰도(예: 토큰 수준 로그‑확률)가 임계값 이하이면 규칙 기반 추출기로 전환할 것.
프로덕션에서 귀속 메트릭을 모니터링(예: 행/열 재현율 추적)하여 모델 업데이트 시 드리프트를 감지할 것.

제한 사항 및 향후 연구

표 복잡성 범위: 이 벤치마크는 중간 규모의 표(≤30행, ≤10열)에 초점을 맞춥니다. 더 크고 계층적인 표는 인용 실패를 악화시킬 수 있습니다.
프롬프트 엔지니어링 깊이: 세 가지 프롬프트 템플릿만 탐색되었습니다; 보다 정교한 프롬프트(예: 자기 비판 루프)로 인용을 개선할 수 있습니다.
모델 접근성: 평가된 일부 모델은 독점적인 블랙박스로, 왜 인용을 놓치는지에 대한 통찰이 제한됩니다.
정답 불명확성: 일부 질문은 여러 개의 유효한 지원 셀을 허용합니다; 현재 주석은 단일 “골드” 인용만을 다루어 올바른 대체 인용을 처벌할 가능성이 있습니다.

저자들이 제안한 향후 연구 방향은 다음과 같습니다:

ViTaB‑A를 중첩 JSON 및 피벗 테이블로 확장하기.
인용을 명시적으로 보상하는 학습 목표 설계(예: “cite‑cells” 손실을 포함한 다중 작업 파인튜닝).
결정론적 추출기가 후보 셀을 제공하고 LLM이 이를 검증하는 검색 보강 파이프라인 탐색.
모델이 열 단서를 놓치는 이유를 진단하기 위한 설명 가능성 도구(예: 어텐션 시각화) 조사.

저자

Yahia Alqurnawi
Preetom Biswas
Anmol Rao
Tejas Anvekar
Chitta Baral
Vivek Gupta

논문 정보

arXiv ID: 2602.15769v1
카테고리: cs.CL
출판일: 2026년 2월 17일
PDF: Download PDF

[Paper] ViTaB-A: 시각적 테이블 어트리뷰션에 대한 멀티모달 대형 언어 모델 평가

개요

주요 기여

Methodology

Dataset Construction

Model Selection & Prompt Design

Evaluation Metrics

Statistical Analysis

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[Paper] 이 언어는 무엇인가요? Ask Your Tokenizer

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] 페르시아어 언어 모델에서 사실‑개념 격차를 밝히다