[논문] 의미 삼중항 복원: 대형 언어 모델의 계층적 표 이해를 위한 새로운 프로토콜
Source: arXiv - 2605.31550v1
개요
이 논문은 대형 언어 모델(LLM)을 활용한 질문‑응답 시스템을 위해 표를 표현하는 새로운 방법인 Semantic Triplet Restoration (STR) 을 소개한다. 표의 원시 HTML이나 Markdown을 그대로 모델에 입력하는 대신, STR은 각 셀을 간결한 “트리플” — 아이템 경로, 특성 경로, 값 — 으로 재작성하여 표의 계층 구조를 명시적으로 드러내고 토큰 사용량을 크게 줄인다.
주요 기여
- Semantic Triplet 표현: 행 엔터티, 계층형 열 속성, 셀 값을 포착하는 컴팩트하고 사실‑같은 인코딩.
- TripletQL 라우터: 질문에 따라 가장 관련성 높은 트리플(또는 적절한 렌더링)을 선택하는 가벼운 쿼리‑인식 컴포넌트로, 불필요한 컨텍스트를 감소시킴.
- 실증적 검증: STR이 네 개의 중·영(중국어·영어) 이중언어 표‑QA 벤치마크에서 기존 HTML/Markdown 파이프라인과 동등하거나 더 우수한 성능을 보임을 입증.
- 효율성 향상: 작은 LLM일수록, 행·열이 많은 표일수록 상대적인 개선 폭이 커서 제한된 추론 예산 하에서도 장점을 강조.
- 오픈소스 공개: 코드, 데이터, 재현 스크립트를 공개하여 커뮤니티 채택 및 추가 연구를 촉진.
방법론
-
트리플 구성
- 아이템 경로: 행 계층을 순회 (예: Country → State).
- 특성 경로: 열 계층을 순회 (예: Year → Revenue).
- 값: 실제 셀 내용(숫자, 텍스트 등).
저자들은 원본 표(HTML/Markdown)를 파싱해 이러한 계층 경로를 추출하고 평탄한 트리플 리스트를 생성한다.
-
TripletQL (쿼리‑인식 라우터)
- 사용자 질문을 작은 트랜스포머로 인코딩하고 각 트리플의 관련성을 점수화.
- 상위 k개의 트리플 집합을 반환하거나, 질문이 너무 광범위할 경우 원본 HTML과 같은 대체 렌더링을 제공.
-
LLM과의 통합
- 선택된 트리플을 질문과 함께 연결해 하위 LLM(예: LLaMA‑2, GPT‑3.5)에 입력.
- 각 트리플이 짧고 자체 포함된 사실이므로 모델이 암묵적인 레이아웃 신호를 학습하지 않아도 의미 구조 위에서 직접 추론 가능.
결과 및 발견
| 벤치마크 | 기준 (HTML) | STR + TripletQL | 토큰 감소 |
|---|---|---|---|
| WikiTableQuestions (EN) | 71.2 % EM | 72.5 % | ~38 % |
| TabFact (CN) | 84.1 % | 84.6 % | ~35 % |
| HybridTableQA (EN) | 68.9 % | 69.3 % | ~40 % |
| MultiLingualTableQA (CN/EN) | 73.4 % | 74.0 % | ~37 % |
- 정확도: STR은 HTML 기반 파이프라인에 비해 정확도 점수를 일관되게 동등하거나 약간 향상시킨다.
- 토큰 효율성: 평균 입력 길이가 약 3분의 1로 감소해 더 긴 추론 체인을 위한 컨텍스트 윈도우를 확보한다.
- 모델 규모 민감도: 7B 파라미터 모델에서 개선 효과가 가장 두드러지며, 절대 EM이 2 % 이상 상승할 수 있다.
- 확장성: 셀 수가 200개를 초과하는 표에서는 STR의 토큰 절감이 핵심이 되어 컨텍스트 윈도우 초과를 방지한다.
실용적 함의
- 비용 효율적 배포: 기업은 정확도를 희생하지 않고 더 저렴하고 작은 LLM으로 표‑QA 서비스를 운영할 수 있어 클라우드 추론 비용을 절감한다.
- 응답 시간 단축: 토큰 수가 적어 지연 시간이 감소하므로 실시간 분석 대시보드나 데이터 기반 질의를 즉시 답변해야 하는 대화형 어시스턴트에 유리하다.
- 프롬프트 엔지니어링 단순화: 개발자는 행·열 범위를 모델에 가르치는 복잡한 프롬프트를 만들 필요가 없으며, 트리플 형식 자체가 설명적이다.
- 우수한 상호 운용성: 트리플 스키마는 CSV, Excel, SQL 결과 등 모든 표 형식에서 생성 가능해 기존 데이터 파이프라인에 손쉽게 통합된다.
- 향상된 설명 가능성: 각 사실이 명시적이므로 잘못된 답변을 디버깅할 때 선택된 트리플을 검토하면 되며, 숨겨진 레이아웃 신호를 해석할 필요가 없다.
제한점 및 향후 연구
- 복합 셀 내용: 현재 접근법은 셀 값을 원자적 문자열로 취급하므로, 리스트, 이미지, 중첩 표와 같은 풍부한 콘텐츠 처리는 추가 확장이 필요하다.
- 헤더 모호성: 매우 깊은 계층 구조에서는 특성 경로가 길어져 토큰 수가 다시 늘어날 수 있다. 보다 스마트한 경로 압축 방법이 과제로 남는다.
- 표 간 추론: STR은 단일 표 QA에 초점을 맞추고 있어, 다중 표 혹은 외부 지식베이스와의 통합은 아직 탐색되지 않았다.
- 언어 범위: 실험은 중국어와 영어에 한정되어 있으므로, 다른 스크립트 방향이나 표 규칙을 갖는 언어에 대한 파서 적응에는 추가 작업이 필요할 수 있다.
전반적으로 Semantic Triplet Restoration은 표 데이터와 LLM 사이의 실용적이고 토큰 효율적인 다리 역할을 수행하여 보다 확장 가능하고 개발자 친화적인 표‑질문응답 시스템의 문을 열어준다.
저자
- Yibin Zhao
- Fangxin Shang
- Dingrui Yang
- Yuqi Wang
논문 정보
- arXiv ID: 2605.31550v1
- 분류: cs.CL
- 게시일: 2026년 5월 29일
- PDF: PDF 다운로드