[논문] Agora: LLM 에이전트로 생산 수준 합의 프로토콜 자동 버그 탐지

발행: (2026년 5월 28일 PM 10:27 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2605.29910v1

개요

합의 프로토콜은 분산 시스템과 블록체인의 일관성을 유지하는 접착제와 같지만, 단 하나의 논리 버그가 데이터 손실이나 막대한 재정적 피해를 초래할 수 있습니다. 이 논문은 Agora라는 다중 에이전트 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLM)과 도메인‑특화 추론을 결합해, 프로덕션 수준의 합의 코드에서 깊고 상태‑의존적인 버그를 자동으로 탐색합니다.

주요 기여

  • 도메인 인식 다중 에이전트 아키텍처: 가설 생성, 테스트 합성, 결과 검증을 전담하는 별도 LLM 에이전트가 프로토콜 상태 공간을 협조적으로 탐색하도록 합니다.
  • 가설‑주도 테스트 루프: 에이전트가 공격 시나리오를 반복적으로 제안하고, 프로토콜 제약 하에 구체적인 테스트 케이스를 생성하며, 관찰된 결과를 바탕으로 가설을 정제합니다.
  • 프로토콜 수준 버그 발견: Raft, EPaxos, HotStuff, BullShark에 적용한 결과, Agora는 기존 LLM‑단독 분석이 놓친 15개의 새로운 안전 위반 버그를 찾아냈습니다.
  • LLM 전반에 걸친 실증 평가: 가장 성능이 뛰어난 LLM(GPT‑4, Claude‑2, Gemini‑1.5, Llama‑2‑70B)조차도 구조화된 협업 워크플로우 없이는 이러한 버그를 신뢰성 있게 찾지 못함을 입증했습니다.
  • 오픈소스 프로토타입 및 벤치마크 스위트: 저자들은 재현성을 위해 Agora 프레임워크와 선별된 합의 프로토콜 테스트 하네스를 공개합니다.

방법론

  1. 에이전트 역할

    • 가설 에이전트: LLM을 사용해 가능한 불변식 위반(예: “리더가 순서가 뒤바뀐 엔트리를 커밋할 수 있다”)을 추론합니다.
    • 테스트‑합성 에이전트: 가설을 구체적인 실행 가능한 테스트로 변환하며, 메시지 순서, 쿼럼 크기, 타임아웃 윈도우 등 프로토콜 특유의 제약을 준수합니다.
    • 검증 에이전트: 시뮬레이션 네트워크에서 생성된 테스트를 실행하고 상태 전이를 관찰해 가설된 불변식이 위반됐는지 보고합니다.
  2. 반복 루프

    • 가설 에이전트가 후보 버그를 제시합니다.
    • 테스트‑합성 에이전트가 최소한의 테스트 하네스(보통 짧은 클라이언트 요청 시퀀스와 네트워크 파티션)를 구축합니다.
    • 검증 에이전트가 결정론적 시뮬레이터에서 테스트를 실행하고 로그와 반례를 피드백합니다.
    • 버그가 확인되면 루프가 종료되고, 그렇지 않으면 검증 피드백을 바탕으로 가설을 정제해 다음 반복으로 넘어갑니다.
  3. 도메인 지식 주입

    • 프로토콜 명세(상태 머신, 안전 속성)를 프롬프트와 제약 템플릿으로 인코딩해 LLM이 일반 코드 분석이 아니라 프로토콜 수준 추론을 하도록 유도합니다.
  4. 평가 설정

    • 네 개의 합의 구현(Raft, EPaxos, HotStuff, BullShark)을 Agora 하네스로 컴파일했습니다.
    • 네 개의 주요 LLM을 각 에이전트 역할에 교체해 총 16가지 Agora 구성으로 실험했습니다.
    • 기준선은 정적 코드 검사를 수행하는 단일‑에이전트 LLM 분석 도구였습니다.

결과 및 발견

  • 버그 탐지: 모든 구성에서 Agora는 15개의 새로운 안전 버그(예: 네트워크 파티션 시 쿼럼 오카운트, 리더 선출 경쟁 조건)를 찾아냈으며, 기준선 LLM‑단독 도구는 이를 전혀 발견하지 못했습니다.
  • 에이전트 시너지: 가설 에이전트와 테스트‑합성 에이전트가 서로 다른 LLM을 사용할 때 약간 더 좋은 성능을 보였으며, 이는 보완적인 추론 스타일을 시사합니다.
  • 효율성: 버그를 확인하는 평균 소요 시간은 시뮬레이션 실행 기준 약 12분으로, 프로토콜 감사에 수 주가 걸릴 수 있는 수동 코드 리뷰에 비해 크게 빠릅니다.
  • 확장성: Agora의 모듈형 에이전트는 시뮬레이션 노드 수에 따라 선형적으로 확장되며, 더 큰 합의 패밀리에도 적용 가능함을 보여줍니다.

실용적 함의

  • 자동화된 사전 배포 감사: 합의‑중심 서비스(분산 데이터베이스, 블록체인 노드 등)의 CI 파이프라인에 Agora를 통합해 미묘한 안전 회귀를 릴리즈 전에 포착할 수 있습니다.
  • 신속한 보안 검증: 보안 감사자는 가설‑주도 접근법을 활용해 목표 공격 벡터를 생성함으로써 전수 퍼징에 대한 의존도를 낮출 수 있습니다.
  • 프로토콜 설계 피드백: 초기 단계 프로토콜 설계자는 상태 머신 명세를 반복하면서 Agora를 사용해 불변식을 검증함으로써 설계‑배포 주기를 단축할 수 있습니다.
  • LLM‑보강 개발 도구: 다중 에이전트 패턴은 LLM을 정적 분석을 넘어 확장하는 실용적인 방법을 제시하며, 컴파일러 검증, 네트워크 스택 테스트 등 다른 복잡 도메인에서도 유사 프레임워크가 등장할 가능성을 열어줍니다.

제한 사항 및 향후 연구

  • 시뮬레이션 정확도: Agora는 결정론적 시뮬레이터에 의존하므로, 실제 환경의 타이밍 지터나 하드웨어 결함으로만 발생하는 버그는 놓칠 수 있습니다.
  • 프롬프트 엔지니어링 부담: 효과적인 도메인 프롬프트를 만드는 데 여전히 전문가의 개입이 필요해 즉시 적용이 제한됩니다.
  • 대규모 배포에 대한 확장성: 노드 수가 수백에 달하는 대규모 클러스터 테스트는 보다 정교한 상태 공간 가지치기가 요구될 수 있습니다.
  • 미래 방향: 저자들은 (1) 수동 프롬프트 튜닝을 줄이기 위해 강화학습 기반 탐색을 통합, (2) 프로토콜 간 상호 운용성 버그로 Agora를 확장, (3) LLM‑구동 프로토콜 검증의 지속적 평가를 위한 커뮤니티 벤치마크를 공개할 계획입니다.

저자

  • Xiang Liu
  • Sa Song
  • Zhaowei Zhang
  • Huiying Lan
  • Jason Zeng
  • Ming Wu
  • Michael Heinrich
  • Yong Sun
  • Ceyao Zhang

논문 정보

  • arXiv ID: 2605.29910v1
  • 분류: cs.SE, cs.AI
  • 발표일: 2026년 5월 28일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »