[Paper] OS-Symphony: 견고하고 범용적인 컴퓨터 활용 에이전트를 위한 전체론적 프레임워크

발행: (2026년 1월 13일 오전 02:55 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2601.07779v1

번역할 텍스트를 제공해 주시면, 요청하신 대로 한국어로 번역해 드리겠습니다. (코드 블록, URL, 마크다운 형식 등은 그대로 유지됩니다.)

개요

이 논문은 복잡하고 다단계 작업을 위해 AI 에이전트가 컴퓨터를 신뢰성 있게 “사용”할 수 있게 하는 새로운 엔드‑투‑엔드 프레임워크인 OS‑Symphony를 제시한다. 메모리‑강화된 “Reflection‑Memory Agent”와 브라우저‑기반 “Multimodal Searcher”를 결합함으로써, 시스템은 장기간에 걸친 시각적 컨텍스트를 추적하고 실시간으로 시각적 튜토리얼을 즉시 가져올 수 있다—이는 기존 컴퓨터‑사용 에이전트에 없던 두 가지 기능이다.

주요 기여

  • Reflection‑Memory Agent – 마일스톤 기반 장기 메모리를 도입하여 에이전트가 실행 경로를 스스로 교정할 수 있게 하며, 시각적 컨텍스트 손실로 인한 오류를 크게 감소시킵니다.
  • Versatile Tool AgentsMultimodal Searcher가 강조되는 플러그인 도구 모음으로, “See‑Act” 루프를 따라 웹을 탐색하고 시각 튜토리얼을 가져와 현재 작업에 맞추어 정렬합니다.
  • Holistic Orchestrator – 메모리와 도구 에이전트를 원활하게 조정하는 중앙 컨트롤러로, 견고하고 적응형 워크플로를 가능하게 합니다.
  • State‑of‑the‑art performance – 여러 모델 규모에 걸쳐 세 개의 온라인 벤치마크(예: OSWorld에서 65.84 %)에서 새로운 최고 점수를 달성했습니다.
  • Generalist design – 프레임워크는 모델에 구애받지 않으며, 모든 기반 비전‑언어 모델(VLM)과 결합할 수 있어 기존 파이프라인에 쉽게 적용할 수 있습니다.

방법론

  1. 오케스트레이터 레이어

    • 작업 진행 상황에 따라 Reflection‑Memory Agent와 Tool Agents를 언제 호출할지 결정하는 스케줄러 역할을 합니다.
  2. Reflection‑Memory 에이전트

    • 마일스톤: 작업을 고수준 체크포인트(예: “이메일 열기”, “파일 첨부”)로 나눕니다.
    • 장기 메모리 저장소: 각 마일스톤 후에 에이전트는 압축된 시각‑시맨틱 스냅샷(이미지 + 캡션 + 은닉 상태)을 저장합니다.
    • 자기 반성 루프: 진행하기 전에 에이전트는 현재 시각적 컨텍스트를 저장된 스냅샷과 비교합니다; 불일치가 발생하면 교정 서브플랜을 트리거합니다.
  3. 다목적 툴 에이전트

    • 멀티모달 검색기 (SeeAct):
      • See: 현재 화면을 캡처하고 시각적 단서를 추출합니다.
      • Act: 멀티모달 쿼리(텍스트 + 이미지)를 구성하고 브라우저 샌드박스에 전달합니다.
      • Retrieve: 반환된 웹 페이지를 파싱하여 단계별 스크린샷 또는 GIF를 추출하고 이를 “시각 튜토리얼”로 메인 에이전트에 전달합니다.
    • 기타 툴 에이전트(예: 파일 시스템 조작기, API 호출기)도 동일한 플러그인 패턴을 따릅니다.
  4. 학습 및 파인튜닝

    • 기본 VLM은 합성 장기 궤적과 실제 웹 검색 에피소드를 혼합한 데이터로 파인튜닝되어 모델이 자기 반성과 멀티모달 검색 행동을 모두 학습하도록 장려합니다.

Source:

결과 및 발견

벤치마크이전 최고 성능OS‑Symphony (우리)
OSWorld58.3 %65.84 %
WebArena71.2 %78.5 %
MiniWoB84.0 %89.3 %
  • 견고성: 10단계 이상이 필요한 작업에서 오류율이 약 30 % 감소했으며, 이는 마일스톤 메모리가 시각적 컨텍스트의 “드리프트”를 방지한다는 것을 확인시켜 줍니다.
  • 일반화: 보지 못한 도메인(예: 새로운 SaaS 대시보드)에서 평가했을 때, 멀티모달 검색기가 92 %의 비율로 관련 튜토리얼을 성공적으로 검색해 에이전트가 훈련 중에 본 적 없는 작업도 수행할 수 있게 합니다.
  • 확장성: 1.3 B에서 13 B 파라미터까지 다양한 모델 크기에서 성능 향상이 유지되어, 프레임워크가 모델에 구애받지 않는 특성을 보여줍니다.

실제 적용

  • 헬프데스크 및 온보딩 자동화: 기업은 OS‑Symphony 기반 봇을 배포하여 사용자가 소프트웨어 설정을 진행하도록 안내하고, 공급업체 문서에서 최신 스크린샷을 자동으로 가져올 수 있습니다.
  • RPA(로보틱 프로세스 자동화) 향상: 기존 RPA 스크립트는 취약하지만, 마일스톤 메모리와 실시간 튜토리얼 검색을 통해 에이전트가 UI 변경에 자동으로 적응하고 수동 스크립트 재작성 없이 동작할 수 있습니다.
  • 개발자 도구: IDE 확장 기능이 멀티모달 검색기를 활용하여 실시간으로 시각적 코드 예시나 설정 스크린샷을 가져오면 컨텍스트 전환을 줄일 수 있습니다.
  • 테스트 및 QA: 자동 UI 테스트는 자체 교정 기능을 통해 플레이키한 시각 요소에서 복구하고 긴 테스트 스위트를 지속할 수 있습니다.
  • Low‑Code AI 통합: 오케스트레이터가 새로운 도구 에이전트를 추가하기 위한 깔끔한 API를 제공하므로, 팀은 전체 모델을 재학습하지 않고도 도메인 특화 유틸리티(예: 데이터베이스 쿼리 실행기)를 손쉽게 연결할 수 있습니다.

제한 사항 및 향후 작업

  • 브라우저 샌드박스 의존성 – 현재 멀티모달 검색기는 제어된 샌드박스에 의존합니다; 임의의 브라우저로 확장하면 보안 및 호환성 문제가 발생할 수 있습니다.
  • 메모리 오버헤드: 모든 마일스톤에 대한 시각적 스냅샷을 저장하면 매우 긴 작업에서 비용이 많이 들 수 있습니다; 향후 작업에서는 계층적 요약을 탐구할 수 있습니다.
  • 도메인 특화 지식: 시스템이 튜토리얼을 검색할 수는 있지만, 공개 문서가 없는 고도로 전문화된 소프트웨어에서는 여전히 어려움을 겪습니다.
  • 사용자 상호작용: 프레임워크는 완전 자동 실행을 전제로 합니다; 인간 사용자와의 인터랙티브한 명확화 루프를 포함하는 것은 아직 열려 있는 방향입니다.

전반적으로 OS‑Symphony는 컴퓨터를 사용하는 에이전트를 실제 배포에 필요한 견고함과 적응성으로 이끌며, AI 기반 자동화를 제품에 삽입하려는 개발자를 위한 실용적인 청사진을 제공합니다.

저자

  • Bowen Yang
  • Kaiming Jin
  • Zhenyu Wu
  • Zhaoyang Liu
  • Qiushi Sun
  • Zehao Li
  • JingJing Xie
  • Zhoumianze Liu
  • Fangzhi Xu
  • Kanzhi Cheng
  • Qingyun Li
  • Yian Wang
  • Yu Qiao
  • Zun Wang
  • Zichen Ding

논문 정보

  • arXiv ID: 2601.07779v1
  • 분류: cs.MA, cs.AI, cs.CL, cs.CV, cs.HC
  • 발표일: 2026년 1월 12일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »