[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?
Source: arXiv - 2606.10956v1
개요
대형 언어 모델(LLM) 에이전트를 활용한 컴퓨터 자동화가 급속히 진행되고 있지만, 이들이 복잡하고 전문적인 생산성 소프트웨어를 자유롭게 다룰 수 있는지는 아직 충분히 검증되지 않았다. 우리는 Office 자동화가 문서 자동화 능력을 평가하기에 이상적인 환경이라고 주장한다. 이는 장기적인 계획과 추론, 정밀한 파라미터 설정, 그리고 다중 애플리케이션 통합을 필요로 하기 때문이다. 이러한 능력을 정량화하기 위해, 우리는 중국 국가 컴퓨터 등급 시험(NCRE)을 기반으로 한 평가를 도입했다. 이 평가는 Word, Excel, PowerPoint 전반에 걸친 200개의 실무 조작 과제로 구성된다. 각 과제는 7,118개의 기계 채점 기준을 사용해 100점 만점 척도로 채점되며, Score Rate (SR) 은 모든 과제에서 획득한 평균 점수 비율을 의미한다. 7개의 최첨단 LLM을 벤치마크한 결과, 단일 턴 모델은 최대 36.6%에 불과했다. 실행 피드백, 반복 수리, 그리고 보다 폭넓은 Office 자동화 접근성을 갖춘 강력한 에이전트 시스템은 68.8%에 도달했지만, 채점 타당성 검증에 사용되는 95.5% 커뮤니티 기준 점수에는 미치지 못했다. 궁극적으로 우리의 실험은 최근 코드 생성 기술이 발전했음에도 불구하고, 현재 코드 생성 LLM 및 에이전트 시스템이 신뢰할 수 있는 세밀한 Office 문서 자동화를 구현하는 데 여전히 큰 어려움을 겪고 있음을 보여준다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.AI
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Tengchao Lv
- Dongdong Zhang
- Jiayu Ding
- Yilin Jia
- Yuzhong Zhao
- Yupan Huang
- Wenshan Wu
- Xiangyang Zhou
- Shaohan Huang
- Nan Yang
- Li Dong
- Lei Cui
- Furu Wei
논문 정보
- arXiv ID: 2606.10956v1
- Categories: cs.AI, cs.CL
- Published: 2026년 6월 9일
- PDF: Download PDF