[Paper] Text-to‑SQL을 이중‑상태 추론으로: 적응형 컨텍스트와 점진적 생성 통합
Source: arXiv - 2511.21402v1
Overview
이 논문은 대규모 실제 데이터베이스에 대한 Text‑to‑SQL 생성 문제를 해결하기 위해 새로운 “dual‑state” 추론 프레임워크인 DSR‑SQL을 제시한다. 문제를 adaptive context (스키마를 정리하고 명확히 하는 단계)와 progressive generation 루프 (SQL 쿼리를 반복적으로 생성하고 자체 수정하는 단계)로 나누어, 추가적인 파인‑튜닝이나 수작업 프롬프트 없이도 어려운 벤치마크에서 강력한 성능을 달성한다.
Key Contributions
- Dual‑State Reasoning – 모델을 공동으로 안내하는 두 개의 상호작용 상태(컨텍스트와 생성)를 도입하여, 단일 패스 혹은 순수 chain‑of‑thought 접근법과 차별화한다.
- Adaptive Context Construction – 방대한 스키마를 자동으로 정제해 압축된 의미론적 표현으로 변환함으로써 컨텍스트 과부하를 줄이고 스키마 연결성을 향상시킨다.
- Feedback‑Guided Progressive Generation – SQL 합성을 일련의 상태 전이 과정으로 모델링하고, 모델이 자체 부분 출력을 검토하고 실행 피드백을 받아 즉시 쿼리를 수정하도록 한다.
- Zero‑Shot Performance – 사후 학습, 인‑컨텍스트 예시, 외부 도구 없이 Spider 2.0‑Snow에서 35.28 % 실행 정확도, BIRD dev 셋에서 68.32 % 정확도를 달성한다.
- Open‑Source Release – 커뮤니티가 재현하고 확장할 수 있도록 준비된 구현(GitHub)을 제공한다.
Methodology
-
Adaptive Context State
- 전체 데이터베이스 스키마(테이블, 컬럼, 외래키 관계)에서 시작한다.
- 스키마‑링크 신호에 기반해 훈련된 경량 셀렉터가 자연어 질문에 따라 관련 없는 테이블/컬럼을 가지치기한다.
- 남은 “컨텍스트”는 핵심 의미 관계를 보존하면서 LLM 컨텍스트 윈도우에 맞는 간결한 프롬프트로 인코딩된다.
-
Progressive Generation State
- LLM은 adaptive context를 받아 부분 SQL 문장을 생성하기 시작한다.
- 각 생성 단계 후, 부분 쿼리를 샌드박스 DB 인스턴스에서 실행한다.
- 실행 결과(예: 오류 메시지, 행 수)는 새로운 “state” 토큰으로 피드백되어 모델이 다음 조각을 조정하도록 유도한다.
- 이 루프는 모델이 구문적으로 올바르고 의미적으로 정렬된, 기대 결과를 반환하는 쿼리를 만들 때까지 지속된다.
-
Dual‑State Interaction
- 두 상태는 정보를 교환한다: 생성 과정에서 누락된 스키마 요소가 드러나면 컨텍스트를 새로 고칠 수 있고, 생성은 추가 컨텍스트 단서를 요청할 수 있다.
- 전체 프로세스는 상태 전이를 추적하는 간단한 컨트롤러에 의해 조정되며, 표준 Text‑to‑SQL 코퍼스 외의 추가 학습 데이터가 필요하지 않다.
Results & Findings
| Benchmark | Execution Accuracy |
|---|---|
| Spider 2.0‑Snow (zero‑shot) | 35.28 % |
| BIRD dev set (zero‑shot) | 68.32 % |
- 이 수치는 무거운 파인‑튜닝이나 대규모 프롬프트 라이브러리에 의존하는 방법들과 경쟁력이 있다.
- Ablation 연구에서 adaptive context 또는 피드백 루프 중 하나를 제거하면 성능이 약 10–15 % 감소함을 보여, 두 상태가 모두 필수임을 확인한다.
- 오류 분석 결과, 남은 대부분의 실패는 스키마‑링크나 구문 오류가 아니라 모호한 자연어 질문에서 비롯된다는 점을 알 수 있다.
Practical Implications
- Enterprise Data Access – 개발자는 DSR‑SQL을 BI 도구나 챗‑ops 어시스턴트에 삽입해, 비전문가도 방대한 스키마에 대해 복잡한 질문을 할 수 있게 하면서 LLM 컨텍스트 한계에 부딪히지 않게 할 수 있다.
- Reduced Engineering Overhead – 접근 방식이 zero‑shot으로 동작하므로, 각 데이터베이스마다 비용이 많이 드는 파인‑튜닝 모델을 유지할 필요가 없으며, 단일 LLM(예: GPT‑4‑Turbo)을 여러 프로젝트에 재사용할 수 있다.
- Self‑Correcting Pipelines – 피드백‑가이드 생성은 자동화된 ETL 검증 단계에 쉽게 결합될 수 있어, 프로덕션 DB에 도달하기 전에 잘못된 쿼리를 잡아낸다.
- Extensibility – 오픈‑소스 코드베이스 덕분에 커스텀 스키마 셀렉터, 도메인‑특정 실행 모니터, 혹은 프라이버시‑민감 환경을 위한 온프레미스 LLM과의 통합 등을 손쉽게 구현할 수 있다.
Limitations & Future Work
- Scalability of Execution Feedback – 매 생성 단계마다 부분 쿼리를 실행하는 것은 매우 큰 테이블에서는 비용이 많이 든다; 보다 스마트한 캐싱이나 정적 분석이 이를 완화할 수 있다.
- Ambiguity Handling – 현재 컨트롤러는 단일 정답을 가정한다; 향후 작업에서는 모호한 사용자 의도를 해결하기 위한 명확화 대화 도입을 고려할 수 있다.
- Domain‑Specific Semantics – adaptive context가 스키마 구조를 포착하지만, 회계 연도, 커스텀 함수와 같은 깊은 비즈니스 로직은 여전히 수동 확장이 필요하다.
- Benchmark Diversity – 논문은 Spider 2.0‑Snow와 BIRD에만 평가했으며, 의료·금융 등 산업별 데이터셋에 대한 추가 실험이 실제 현장 적용성을 더욱 검증할 것이다.
DSR‑SQL은 체계적인 두‑상태 추론 루프가 강력한 LLM과 기업 데이터베이스의 실용적 제약 사이의 격차를 메울 수 있음을 보여주며, 보다 신뢰할 수 있는 zero‑shot Text‑to‑SQL 어시스턴트의 문을 열어준다.
Authors
- Zhifeng Hao
- Qibin Song
- Ruichu Cai
- Boyan Xu
Paper Information
- arXiv ID: 2511.21402v1
- Categories: cs.CL
- Published: November 26, 2025
- PDF: Download PDF