[Paper] 단계별 및 롤백 지원 운영 오케스트레이션을 통한 복잡한 문서 워크플로 자동화
Source: arXiv - 2512.04445v1
Overview
이 논문은 AutoDW라는 새로운 프레임워크를 소개한다. 이 프레임워크는 대형 언어 모델(LLM)이 정교한 제어와 내장된 롤백 기능을 갖춘 복잡하고 다단계 문서 처리 워크플로를 조정할 수 있게 한다. 사용자의 고수준 요청을 즉시 취소하거나 수정할 수 있는 API 호출 시퀀스로 분해함으로써, AutoDW는 “단일 샷” LLM 어시스턴트와 실제 사무 소프트웨어에서 필요한 견고한 세션 수준 자동화 사이의 격차를 메운다.
주요 기여
- 단계별 계획 엔진은 사용자의 의도, 필터링된 후보 API, 현재 문서 상태를 기반으로 API 동작을 점진적으로 선택하고 조건화합니다.
- 이중 수준 롤백 메커니즘(인수 수준 및 API 수준)은 오류가 발생한 작업을 자동으로 되돌려, 장기 실행에서도 내결함성을 제공합니다.
- 포괄적인 벤치마크는 250개의 현실적인 문서 처리 세션(1,708개의 인간 주석 지시)을 포함하며, 편집, 서식 지정, 데이터 추출, 버전 관리와 같은 상호 의존 작업을 다룹니다.
- 강력한 실증적 향상: 지시 수준 완료율 90 %, 세션 수준 완료율 62 %를 달성했으며, 최고 베이스라인 대비 각각 40 %와 76 % 향상되었습니다.
- 백본 비종속 설계는 다양한 LLM에 적용 가능하며 작업 난이도에 따라 확장됩니다.
Methodology
- Intent Extraction – 사용자의 자연어 요청을 LLM이 파싱하여 고수준 목표(예: “새 챕터를 추가한 후 목차를 업데이트”)를 추론합니다.
- Candidate API Filtering – 문서 조작 API(예:
insert_paragraph,apply_style,save_version) 라이브러리를 목표에 맞게 필터링하여 가장 관련성이 높은 작업으로 검색 범위를 축소합니다. - Stepwise Planning – 각 단계마다 시스템은 현재 문서 상태(가벼운 JSON 스냅샷으로 캡처)를 조건으로 하여 구체적인 API 호출과 인자를 생성하도록 LLM에 프롬프트합니다. 계획은 즉시 실행되고 상태가 업데이트됩니다.
- Rollback‑Enabled Execution –
- Argument‑level rollback: 인자가 유효하지 않은 경우(예: 존재하지 않는 단락 인덱스) 시스템이 자동으로 인자를 수정한 뒤 API 호출을 진행합니다.
- API‑level rollback: API 호출이 예상치 못한 문서 변화를 일으키면 프레임워크가 문서를 이전 스냅샷으로 복원하고 LLM에게 대체 단계를 제안하도록 요청합니다.
- Iterative Loop – 사용자의 고수준 목표가 달성되거나 종료 조건(최대 단계 수, 타임아웃)이 충족될 때까지 이 과정을 반복합니다.
전체 파이프라인은 모든 작업을 로그로 기록하는 경량 컨트롤러에 의해 조정되며, 이를 통해 디버깅 및 감사 추적이 간편해집니다.
Results & Findings
| 측정항목 | AutoDW | Best Baseline | 상대 향상 |
|---|---|---|---|
| Instruction‑level completion | 90 % | 50 % | +40 % |
| Session‑level completion | 62 % | 35 % | +76 % |
| Robustness to LLM backbone (GPT‑3.5 vs. Claude) | Consistent > 85 % | 60 %–70 % | — |
| Performance on “hard” sessions (≥ 8 steps) | 55 % | 20 % | +35 % |
주요 시사점
- 롤백 메커니즘은 오류 전파를 크게 감소시켜, 특히 하나의 실수가 전체 워크플로를 망칠 수 있는 긴 세션에서 효과적입니다.
- 점진적인 상태 인식 플래닝은 단일 “계획‑후‑실행” 접근 방식보다 더 정확한 API 인자를 생성합니다.
- AutoDW의 모듈형 API 라이브러리는 LLM을 재학습하지 않고도 새로운 문서 형식(Word, LaTeX, HTML)으로 쉽게 확장할 수 있게 합니다.
Practical Implications
- Productivity tools: AutoDW를 오피스 제품군(예: Microsoft Office, Google Docs)에 통합하면 사용자가 복잡한 편집을 자연어로 설명할 수 있습니다(예: “모든 제목을 Title Case로 변환하고 그림 번호를 다시 매기기”). 시스템이 이를 안전하게 실행합니다.
- Enterprise automation: 기업은 SOP(표준 운영 절차)를 재사용 가능한 API 라이브러리로 인코딩하여 비기술 직원도 단일 채팅 명령으로 다단계 문서 파이프라인(계약 생성 → 규정 준수 검사 → 전자 서명)을 트리거할 수 있습니다.
- Developer ergonomics: 프레임워크의 명확한 액션 로그와 롤백 추적은 LLM 기반 봇 디버깅을 단순화하여 수동 가드레일의 필요성을 줄입니다.
- Compliance & audit: 모든 단계가 기록되고 되돌릴 수 있기 때문에 조직은 불변의 문서 변경 기록을 유지할 수 있어 규제 산업에 필수적입니다.
Limitations & Future Work
- API coverage: 현재 프로토타입은 선별된 문서‑조작 API 집합을 지원합니다; CAD 도면, 법률 PDF와 같은 특수 형식으로 확장하려면 추가 엔지니어링이 필요합니다.
- Scalability of state snapshots: 매우 큰 문서의 경우 롤백을 위한 전체 스냅샷 유지가 메모리를 많이 소모할 수 있습니다; 향후 작업에서는 차분 기반 저장 방식을 탐색할 예정입니다.
- User intent ambiguity: 지시가 모호할 경우 시스템이 최적이 아닌 계획을 생성할 수 있습니다; 명확화 대화를 도입하면 견고성을 향상시킬 수 있습니다.
- Generalization to non‑document domains: 저자들은 단계‑별 롤백 패러다임이 데이터 파이프라인 등 다른 워크플로에도 적용될 수 있다고 가정하지만, 실증적 검증은 추후 연구에 남겨둡니다.
AutoDW는 진정으로 자율적이고 오류에 강인한 문서 어시스턴트를 향한 유망한 길을 열어줍니다—자연어 명령을 개발자와 최종 사용자가 신뢰할 수 있는 신뢰성 있는 다단계 작업으로 전환합니다.
저자
- Yanbin Zhang
- Hanhui Ye
- Yue Bai
- Qiming Zhang
- Liao Xiang
- Wu Mianzhi
- Renjun Hu
논문 정보
- arXiv ID: 2512.04445v1
- 카테고리: cs.SE, cs.AI
- 출판일: 2025년 12월 4일
- PDF: Download PDF