[Paper] 행동하거나 거부할 시점 학습: 안전한 다단계 도구 사용을 위한 Agentic Reasoning Models 보호

발행: (2026년 3월 4일 오전 02:59 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.03205v1

개요

이 논문은 MOSAIC이라는 사후 학습 프레임워크를 소개한다. 이 프레임워크는 에이전시 언어 모델(계획을 세우고 외부 도구를 호출하며 다단계 행동을 수행하는 LLM)에게 언제 행동하고 언제 거절해야 하는지를 가르친다. 안전성 추론을 추론 루프의 명시적인 부분으로 만들면서, MOSAIC은 유해 행동을 크게 감소시키면서도 모델이 유용한 도구 기반 작업을 수행하는 능력을 유지한다.

주요 기여

  • Plan‑Check‑Act/Refuse Loop – 추론을 세 단계로 재구성하고, 전용 안전 검사 단계를 삽입하여 거부를 일급 행동으로 출력할 수 있게 함.
  • Preference‑Based RL for Safety – 스칼라 보상 대신 쌍별 궤적 비교를 사용하여, 모델이 포괄적인 궤적 수준 라벨 없이도 미묘한 안전 구분을 학습하도록 함.
  • Zero‑Shot Generalization – MOSAIC이 세 가지 서로 다른 모델 패밀리(Qwen2.5‑7B, Qwen3‑4B‑Thinking, Phi‑4)와 다양한 OOD 벤치마크(해로운 프롬프트, 프롬프트 주입 공격, 정상적인 도구 사용, 도메인 간 프라이버시 누출)에서 효과적임을 보여줌.
  • Empirical Gains – 해로운 행동을 최대 50 % 감소시키고, 주입 공격에 대한 거부율을 20 % 이상 증가시키며, 프라이버시 누출을 측정 가능한 수준으로 감소시킴. 동시에 정상 작업에 대한 성능을 유지하거나 향상시킴.

Methodology

  1. Explicit Safety Reasoning

    • 각 추론 단계는 다음과 같이 나뉩니다:
      1. Plan – 모델이 고수준 계획을 생성합니다 (예: “사용자 이메일을 가져온 다음 보고서를 전송”).
      2. Check – 안전 모듈이 계획을 평가하고 잠재적 위험을 추론합니다 (예: “이메일에 접근하면 자격 증명이 노출될 수 있음”).
      3. Act or Refuse – 검사가 통과하면 모델이 도구를 호출하고, 그렇지 않으면 거부 응답을 생성합니다.
  2. Learning via Preference‑Based Reinforcement Learning (RLHF‑style)

    • 모든 중간 단계를 “안전함” 또는 “안전하지 않음”으로 라벨링하는 대신, 저자들은 전체 궤적(하나는 안전, 하나는 비안전)의 쌍별 비교를 수집합니다.
    • 보상 모델은 어떤 궤적이 선호되는지를 예측하도록 학습되어, 스칼라 보상이 놓치는 미묘한 안전 신호를 포착합니다.
    • 에이전트는 이 학습된 보상을 사용해 PPO (Proximal Policy Optimization)로 미세 조정되어, 안전 검사를 통과할 수 있는 계획을 생성하도록 장려됩니다.
  3. Zero‑Shot Evaluation Protocol

    • 추가적인 작업‑특정 미세 조정 없이; MOSAIC은 사전 학습된 모델 위에 후처리 레이어로 적용됩니다.
    • 벤치마크에는 다음이 포함됩니다:
      • Harmful Tasks (예: 피싱을 위한 지시).
      • Prompt Injection (안전을 우회하려는 적대적 프롬프트).
      • Benign Tool Use (예: 계산기, 웹 검색).
      • Privacy Leakage (개인 데이터를 노출할 수 있는 교차 도메인 질의).

Results & Findings

MetricBaselineMOSAIC (Avg.)
유해 행동 비율100 % (최악의 경우)↓ ≈ 50 %
주입 공격에 대한 거부30 %↑ > 20 % (≈ 50 % 전체)
프라이버시 유출 사건12 %↓ ≈ 40 %
양성 도구 작업 성공률85 %≈ 85‑90 % (감소 없음, 약간 증가)
  • 안전 향상이 일관됨은 세 모델 패밀리 모두에서 나타나며, MOSAIC 설계가 모델에 구애받지 않음을 나타냅니다.
  • 거부가 활용 가능한 도구가 됨: 모델이 위험한 행동을 시도하기보다 “그것은 도와드릴 수 없습니다”라고 말하는 것을 학습합니다.
  • 양성 성능이 유지됨: 추가 안전 검사가 일반 도구 사용을 눈에 띄게 지연시키거나 저하시키지 않습니다.

Practical Implications

  • Enterprise AI Assistants – 기업은 기존 LLM‑powered 에이전트(예: 코드‑assistant, 고객‑support 봇)를 MOSAIC으로 래핑하여 기본 모델을 재작성하지 않고도 위험한 도구 호출(파일 읽기, 자격 증명 사용)을 자동으로 차단할 수 있다.
  • Regulatory Compliance – 감사 가능한 “check” 단계를 제공함으로써 MOSAIC은 GDPR과 같은 규정이나 명시적인 거부 처리를 요구하는 산업별 안전 규정을 충족하는 데 도움을 준다.
  • Developer Tooling – 오픈‑source 라이브러리는 MOSAIC을 plug‑and‑play 안전 레이어로 제공할 수 있어, 개발자가 도구와 통합된 LLM(예: LangChain, Auto‑GPT)에 “plan‑check‑act” 파이프라인을 추가할 수 있다.
  • Reduced Attack Surface – 프롬프트‑injection 및 적대적 도구 피드백이 완화된다. 안전 검사는 표면 텍스트만이 아니라 계획의 intent를 평가하기 때문이다.
  • Scalable Alignment – Preference‑based RL은 단계별 라벨링을 전면적으로 수행할 필요성을 피함으로써, 다양한 도메인에 걸친 대규모 에이전트 군을 정렬하는 것이 가능하게 만든다.

제한 사항 및 향후 작업

  • Preference Data Quality – 이 접근법은 고품질의 쌍별 비교에 의존한다; 잡음이 있거나 편향된 선호는 바람직하지 않은 안전 휴리스틱을 전파할 수 있다.
  • Latency Overhead – 별도의 안전 검사를 추가하면 추가 추론 단계가 발생하여, 지연에 민감한 애플리케이션에서는 눈에 띄는 지연이 발생할 수 있다.
  • Domain‑Specific Nuances – MOSAIC은 전반적으로 일반화가 잘 되지만, 특정 전문 분야(예: 의료 진단)에서는 일반 검사를 넘어서는 맞춤형 안전 술어가 필요할 수 있다.
  • Future Directions – 저자들은 계층적 안전 검사(다단계 추론) 탐색, 도구 API에 대한 형식 검증 통합, 그리고 프레임워크를 다중 에이전트 협업 시나리오로 확장하는 것을 제안한다.

저자

  • Aradhye Agarwal
  • Gurdit Siyan
  • Yash Pandya
  • Joykirat Singh
  • Akshay Nambi
  • Ahmed Awadallah

논문 정보

  • arXiv ID: 2603.03205v1
  • 분류: cs.CL
  • 출판일: 2026년 3월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »