[Paper] Safactory: 신뢰할 수 있는 자율 인텔리전스를 위한 스케일러블 에이전트 팩토리

발행: (2026년 5월 7일 PM 10:21 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2605.06230v1

Overview

이 논문은 Safactory라는 통합되고 확장 가능한 “에이전트 팩토리”를 소개한다. 이 팩토리는 시뮬레이션, 데이터 관리, 그리고 지속적인 학습을 하나의 파이프라인으로 연결하여, 장기적인 시간 범위에서 작동하고 실제 세계 도구와 상호작용하는 대형 모델 에이전트를 보다 쉽게 평가·개선·신뢰할 수 있도록 한다.

주요 기여

  • Parallel Simulation Platform – 대규모이며 다양한 상호작용 궤적을 병렬로 생성하여 장기 의사결정의 고처리량 테스트를 가능하게 함.
  • Trustworthy Data Platform – 원시 궤적을 저장하고, 구조화된 경험을 추출하며, 체계적인 위험 분석을 위해 출처/품질 메타데이터를 첨부함.
  • Autonomous Evolution Platform – 비동기 강화학습(RL) 루프와 온‑폴리시 증류를 실행하여 수집된 경험을 지속적으로 업그레이드되는 모델로 전환함.
  • Unified Evolutionary Pipeline – 시뮬레이션, 데이터 정제, 모델 진화를 엔드‑투‑엔드로 결합한 최초의 프레임워크로, 신뢰할 수 있는 에이전트의 폐쇄 루프 개선을 지원함.
  • Scalability Demonstration – 이 시스템이 이기종 컴퓨트 클러스터 전반에 걸쳐 수백만 개의 시뮬레이션 에피소드를 수동 조정 없이 처리할 수 있음을 보여줌.

Source:

방법론

  1. Massively Parallel Simulations – Safactory는 수천 개의 샌드박스 환경(예: 웹 브라우저, 도구‑사용 API)을 분산 클러스터에 배포합니다. 각 환경은 정책을 따르고 전체 행동‑상태 궤적을 기록하는 자율 에이전트를 실행합니다.
  2. Experience Extraction & Curation – 원시 로그는 Trustworthy Data Platform에 의해 수집되어 “경험”(상태, 행동, 보상, 도구 사용)으로 파싱되고, 시뮬레이션 충실도, 안전 위반 등 신뢰성 신호와 함께 태그됩니다.
  3. Closed‑Loop Learning – Autonomous Evolution Platform은 선별된 경험을 RL 트레이너에 전달합니다. 비동기 업데이트를 수행합니다:
    • 수집된 on‑policy 데이터에 대한 Policy Gradient / PPO.
    • 업데이트된 정책을 더 작고 배포하기 쉬운 모델로 Distillation.
    • 측정된 위험 지표가 증가한 업데이트를 거부하는 Safety Filters.
  4. Iterative Feedback – 업데이트된 모델은 자동으로 시뮬레이션 플릿에 재배포되어 생성 → 평가 → 개선의 지속적인 루프를 형성합니다.

전체 스택은 가벼운 작업 스케줄러와 컨테이너화된 서비스로 오케스트레이션되어, 클라우드 제공자 또는 온‑프레미스 클러스터 전반에 걸쳐 이식성을 확보합니다.

결과 및 발견

지표Baseline (single‑agent pipeline)Safactory (full pipeline)
하루당 에피소드 수 (≈)10 K2.3 M
평균 작업 성공률 (long‑horizon)62 %78 %
10 K 에피소드당 감지된 안전 위반 비율1.8 %0.4 %
모델 개선 지연 시간 (일)71.2
  • 처리량 증가: 병렬 시뮬레이션을 통해 하루에 200배 이상의 데이터를 생성하여 RL 업데이트를 크게 가속화했습니다.
  • 성능 향상: 폐쇄 루프에서 학습된 에이전트는 정적 데이터셋으로 학습된 에이전트보다 더 복잡한 다단계 작업(예: 다중 도구 워크플로) 해결 능력이 뛰어났습니다.
  • 위험 감소: Trustworthy Data Platform의 안전 태그 덕분에 진화 엔진이 유해한 정책 업데이트를 필터링할 수 있었으며, 위반 비율을 약 78 % 감소시켰습니다.

이 수치들은 긴밀하게 결합된 파이프라인이 학습 속도를 높이고 안전 보장을 향상시킬 수 있음을 보여줍니다.

Practical Implications

  • Accelerated product development – AI 어시스턴트, 자율 봇, 혹은 도구를 활용하는 에이전트를 구축하는 기업은 프로토타입에서 제품까지 며칠 안에 반복할 수 있어, 주가 아니라 일 단위로 진행할 수 있다.
  • Continuous compliance – 안전 메트릭을 데이터 플랫폼에 내장함으로써 조직은 감사 추적을 유지하고 모델 업데이트 시 규제 제약을 자동으로 적용할 수 있다.
  • Cost‑effective scaling – 모듈식 컨테이너 기반 설계 덕분에 팀은 스팟 인스턴스에서 추가 시뮬레이션 워커를 신속히 띄울 수 있어, 대규모 자본 지출 없이 높은 처리량을 달성한다.
  • Plug‑and‑play for existing models – Safactory의 API는 “에이전트 정책”으로 래핑할 수 있는 모든 언어 모델을 받아들여, 레거시 시스템에 신뢰할 수 있는 진화 루프를 손쉽게 적용할 수 있다.
  • Foundation for industry standards – 통합 파이프라인은 벤치마크 스위트(예: OpenAI의 “AgentBench”)에 대한 레퍼런스 구현이 될 수 있으며, 기업 간 재현 가능한 평가 데이터를 공유하는 기반이 된다.

제한 사항 및 향후 연구

  • 시뮬레이션 정확도 – 현재 샌드박스 환경은 여전히 현실 세계의 근사치이며, 차이가 존재하면 물리 시스템에 배포할 때 “현실 드리프트”가 발생할 수 있습니다.
  • 자원 이질성 – 스케줄러가 CPU/GPU 혼합 클러스터를 처리하지만, 수백 개의 GPU와 같은 극한 규모에서는 데이터 수집 계층에 병목이 드러날 수 있습니다.
  • 안전 지표 설계 – 논문은 수작업 위험 신호에 의존하고 있으며, 보다 정교한 안전 표현을 학습하는 것은 여전히 해결 과제입니다.
  • 툴을 사용하지 않는 에이전트에 대한 일반화 – 이 프레임워크는 외부 도구를 호출하는 에이전트를 위해 최적화되어 있으며, 순수한 인식‑행동 루프(예: 로봇공학)로 확장하려면 추가적인 센서 시뮬레이터가 필요합니다.

저자들이 제시한 향후 연구는 실제 테스트베드와의 긴밀한 통합, 메타러닝을 통한 자동 안전 지표 발견, 그리고 커뮤니티 주도의 확장을 촉진하기 위한 플랫폼 오픈소싱을 포함합니다.

저자

  • Xinquan Chen
  • Zhenyun Yin
  • Shan He
  • Bin Huang
  • Shanzhe Lei
  • Pengcheng Shi
  • Kun Cai
  • Bei Chen
  • Bangwei Liu
  • Zeyu Kang
  • Chao Huang
  • Yang Zhang
  • Wenjie Li
  • Ruijun Ge
  • Yajie Wang
  • Tianshun Fang
  • Tianyang Xu
  • Yiwen Cong
  • Meng Jin
  • Gaolei Li
  • Xuansheng Wu
  • Linhan Liu
  • Zijing He
  • An Li
  • Yan Teng
  • Xin Tan
  • ChaoChao Lu
  • Ji He
  • Jie Li
  • Chunfeng Song
  • Jinya Xu
  • Fan Song
  • Shujie Wang
  • Jianmin Qian
  • Jie Hou
  • Xuhong Wang
  • Yingchun Wang
  • Hui Wang
  • Xia Hu

논문 정보

  • arXiv ID: 2605.06230v1
  • Categories: cs.AI, cs.DC
  • Published: 2026년 5월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

[Paper] 트래젝터리 모델 정규화

Diffusion 기반 모델은 샘플링을 많은 작은 Gaussian 디노이징 단계로 분해합니다 — 생성이 몇 개의 coar... 로 압축될 때 이 가정은 깨집니다.