[Paper] 단계별 및 롤백 지원 운영 오케스트레이션을 통한 복잡한 문서 워크플로 자동화

발행: 2개월 전 (2025년 12월 4일 오후 01:34 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.04445v1

Overview

이 논문은 AutoDW라는 새로운 프레임워크를 소개한다. 이 프레임워크는 대형 언어 모델(LLM)이 정교한 제어와 내장된 롤백 기능을 갖춘 복잡하고 다단계 문서 처리 워크플로를 조정할 수 있게 한다. 사용자의 고수준 요청을 즉시 취소하거나 수정할 수 있는 API 호출 시퀀스로 분해함으로써, AutoDW는 “단일 샷” LLM 어시스턴트와 실제 사무 소프트웨어에서 필요한 견고한 세션 수준 자동화 사이의 격차를 메운다.

주요 기여

단계별 계획 엔진은 사용자의 의도, 필터링된 후보 API, 현재 문서 상태를 기반으로 API 동작을 점진적으로 선택하고 조건화합니다.
이중 수준 롤백 메커니즘(인수 수준 및 API 수준)은 오류가 발생한 작업을 자동으로 되돌려, 장기 실행에서도 내결함성을 제공합니다.
포괄적인 벤치마크는 250개의 현실적인 문서 처리 세션(1,708개의 인간 주석 지시)을 포함하며, 편집, 서식 지정, 데이터 추출, 버전 관리와 같은 상호 의존 작업을 다룹니다.
강력한 실증적 향상: 지시 수준 완료율 90 %, 세션 수준 완료율 62 %를 달성했으며, 최고 베이스라인 대비 각각 40 %와 76 % 향상되었습니다.
백본 비종속 설계는 다양한 LLM에 적용 가능하며 작업 난이도에 따라 확장됩니다.

Methodology

Intent Extraction – 사용자의 자연어 요청을 LLM이 파싱하여 고수준 목표(예: “새 챕터를 추가한 후 목차를 업데이트”)를 추론합니다.
Candidate API Filtering – 문서 조작 API(예: insert_paragraph, apply_style, save_version) 라이브러리를 목표에 맞게 필터링하여 가장 관련성이 높은 작업으로 검색 범위를 축소합니다.
Stepwise Planning – 각 단계마다 시스템은 현재 문서 상태(가벼운 JSON 스냅샷으로 캡처)를 조건으로 하여 구체적인 API 호출과 인자를 생성하도록 LLM에 프롬프트합니다. 계획은 즉시 실행되고 상태가 업데이트됩니다.
Rollback‑Enabled Execution –
- Argument‑level rollback: 인자가 유효하지 않은 경우(예: 존재하지 않는 단락 인덱스) 시스템이 자동으로 인자를 수정한 뒤 API 호출을 진행합니다.
- API‑level rollback: API 호출이 예상치 못한 문서 변화를 일으키면 프레임워크가 문서를 이전 스냅샷으로 복원하고 LLM에게 대체 단계를 제안하도록 요청합니다.
Iterative Loop – 사용자의 고수준 목표가 달성되거나 종료 조건(최대 단계 수, 타임아웃)이 충족될 때까지 이 과정을 반복합니다.

전체 파이프라인은 모든 작업을 로그로 기록하는 경량 컨트롤러에 의해 조정되며, 이를 통해 디버깅 및 감사 추적이 간편해집니다.

Results & Findings

측정항목	AutoDW	Best Baseline	상대 향상
Instruction‑level completion	90 %	50 %	+40 %
Session‑level completion	62 %	35 %	+76 %
Robustness to LLM backbone (GPT‑3.5 vs. Claude)	Consistent > 85 %	60 %–70 %	—
Performance on “hard” sessions (≥ 8 steps)	55 %	20 %	+35 %

주요 시사점

롤백 메커니즘은 오류 전파를 크게 감소시켜, 특히 하나의 실수가 전체 워크플로를 망칠 수 있는 긴 세션에서 효과적입니다.
점진적인 상태 인식 플래닝은 단일 “계획‑후‑실행” 접근 방식보다 더 정확한 API 인자를 생성합니다.
AutoDW의 모듈형 API 라이브러리는 LLM을 재학습하지 않고도 새로운 문서 형식(Word, LaTeX, HTML)으로 쉽게 확장할 수 있게 합니다.

Practical Implications

Productivity tools: AutoDW를 오피스 제품군(예: Microsoft Office, Google Docs)에 통합하면 사용자가 복잡한 편집을 자연어로 설명할 수 있습니다(예: “모든 제목을 Title Case로 변환하고 그림 번호를 다시 매기기”). 시스템이 이를 안전하게 실행합니다.
Enterprise automation: 기업은 SOP(표준 운영 절차)를 재사용 가능한 API 라이브러리로 인코딩하여 비기술 직원도 단일 채팅 명령으로 다단계 문서 파이프라인(계약 생성 → 규정 준수 검사 → 전자 서명)을 트리거할 수 있습니다.
Developer ergonomics: 프레임워크의 명확한 액션 로그와 롤백 추적은 LLM 기반 봇 디버깅을 단순화하여 수동 가드레일의 필요성을 줄입니다.
Compliance & audit: 모든 단계가 기록되고 되돌릴 수 있기 때문에 조직은 불변의 문서 변경 기록을 유지할 수 있어 규제 산업에 필수적입니다.

Limitations & Future Work

API coverage: 현재 프로토타입은 선별된 문서‑조작 API 집합을 지원합니다; CAD 도면, 법률 PDF와 같은 특수 형식으로 확장하려면 추가 엔지니어링이 필요합니다.
Scalability of state snapshots: 매우 큰 문서의 경우 롤백을 위한 전체 스냅샷 유지가 메모리를 많이 소모할 수 있습니다; 향후 작업에서는 차분 기반 저장 방식을 탐색할 예정입니다.
User intent ambiguity: 지시가 모호할 경우 시스템이 최적이 아닌 계획을 생성할 수 있습니다; 명확화 대화를 도입하면 견고성을 향상시킬 수 있습니다.
Generalization to non‑document domains: 저자들은 단계‑별 롤백 패러다임이 데이터 파이프라인 등 다른 워크플로에도 적용될 수 있다고 가정하지만, 실증적 검증은 추후 연구에 남겨둡니다.

AutoDW는 진정으로 자율적이고 오류에 강인한 문서 어시스턴트를 향한 유망한 길을 열어줍니다—자연어 명령을 개발자와 최종 사용자가 신뢰할 수 있는 신뢰성 있는 다단계 작업으로 전환합니다.

저자

Yanbin Zhang
Hanhui Ye
Yue Bai
Qiming Zhang
Liao Xiang
Wu Mianzhi
Renjun Hu

논문 정보

arXiv ID: 2512.04445v1
카테고리: cs.SE, cs.AI
출판일: 2025년 12월 4일
PDF: Download PDF

[Paper] 단계별 및 롤백 지원 운영 오케스트레이션을 통한 복잡한 문서 워크플로 자동화

Overview

주요 기여

Methodology

Results & Findings

주요 시사점

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] Educational Platforms를 위한 Entity Linking 기반 Retrieval-Augmented Generation 향상

[Paper] 효율적인 실시간 청킹을 위한 학습 시 행동 조건화

[Paper] 남아 있는 것은 모두 사실이어야 한다: 필터링이 LLM의 추론을 이끌고 다양성을 형성한다

[Paper] AQUA-Net: 적응형 주파수 융합 및 조명 인식 네트워크를 이용한 수중 이미지 향상