[논문] FinHarness: 금융 LLM 에이전트를 위한 인라인 라이프사이클 안전장치
개요
FinHarness는 금융 업무를 수행하는 대형 언어 모델(LLM) 에이전트를 위한 새로운 “인라인” 안전 계층을 제안한다. 거친 필터나 사후 감시 방식에 의존하는 대신, FinHarness는 에이전트의 추론 과정을 단계별로 모니터링하고, 도구 호출(예: 거래 실행 또는 잔액 조회)이 실시간으로 안전한지 판단한다. 위험이 감지되면 되돌릴 수 없는 행동이 발생하기 전에 에이전트를 거부하거나 재계획하도록 유도한다.
주요 기여
- 3단계 인라인 안전 하네스 – 질의 모니터, 도구 모니터, 그리고 의도·도구 사용·위험을 매 턴마다 평가하는 캐스케이드 라우팅 모듈.
- 턴 간 의도 변동 감지 – 질의 모니터가 현재 사용자 요청과 대화 이력을 결합해 미승인 행동으로의 미묘한 전이를 포착한다.
- 적응형 검증 – 캐스케이드는 위험도가 낮은 단계는 가벼운 LLM 판정기로, 의심스러운 단계는 비용이 많이 드는 고성능 판정기로 전달해 연산 비용을 크게 절감한다.
- 증거 피드백 루프 – 위험 신호를 에이전트 입력에 다시 넣어 에이전트가 스스로 거부·재계획·계속 진행 여부를 판단하도록 만든다.
- FinVault에서의 실증 검증 – 현실적인 금융 에이전트 벤치마크에서 FinHarness는 무단 행동 성공률(ASR)을 38.3 %에서 15.0 %로 낮추면서 정상 승인 비율은 거의 유지한다(41.1 % → 39.3 %).
- 효율성 향상 – 적응형 캐스케이드는 “항상 고급” 베이스라인에 비해 비용이 많이 드는 고급 판정기 호출을 4.7배 적게 사용한다.
방법론
- 질의 모니터 – 현재 사용자 질의와 전체 대화 컨텍스트를 경량 LLM으로 인코딩하고, 원래 허가된 의도와 얼마나 벗어났는지를 나타내는 변동 점수를 산출한다.
- 도구 모니터 – 금융 에이전트가 외부 도구를 실제로 호출하기 전(예: “계좌 X에 $10k 이체”)에, 라벨링된 안전/위험 도구 호출 예시로 학습된 소형 분류기를 이용해 해당 호출의 위험도를 예측한다.
- 캐스케이드 모듈
- 저위험 경로: 두 모니터가 모두 낮은 위험을 보고하면, 요청을 저비용 LLM 판정기로 전달해 빠르게 검증한다.
- 고위험 경로: 어느 하나라도 위험을 감지하면, 요청을 더 강력하지만 느린 LLM 판정기로 에스컬레이션해 심층 의미 감사를 수행한다.
- 위험 피드백 – 위험 요인(예: “잠재적 무단 이체”)을 에이전트의 다음 프롬프트에 명시적인 힌트로 삽입해, 에이전트가 중단, 명확화 요청 또는 계획 수정 중 하나를 선택하도록 만든다.
- 학습 및 데이터 – 모니터들은 금융 전용 의도와 도구 호출 로그를 정제한 데이터셋으로 파인튜닝되며, 미세한 조작 시도를 포착하도록 합성 적대 예시도 포함한다.
결과 및 분석
| 지표 | 베이스라인 (하네스 없음) | FinHarness (적응형 캐스케이드) | 항상‑고급 (캐스케이드 없음) |
|---|---|---|---|
| 무단 행동 성공률 (ASR) | 38.3 % | 15.0 % | 18.2 % |
| 정상 승인 비율 (BA) | 41.1 % | 39.3 % | 38.9 % |
| 에피소드당 고급 판정기 호출 횟수 | – | 1.2 (≈4.7× 감소) | 5.6 |
| 평균 종단‑대‑종단 지연 | 1.84 s | 2.01 s | 2.73 s |
핵심 요약: FinHarness는 악의적인 사용자가 에이전트를 무단 거래로 몰아가는 가능성을 크게 낮추면서도 정상적인 요청을 승인할 수 있는 능력을 유지한다. 캐스케이드 라우팅 덕분에 비용이 많이 드는 판정기 호출이 거의 선형적으로 감소해, 인터랙티브 금융 애플리케이션에서도 지연을 충분히 낮게 유지한다.
실용적 함의
- 규제 준수 – 금융 기관은 FinHarness를 LLM 기반 챗봇, 거래 보조 도구, 혹은 컴플라이언스 체크 시스템에 삽입해 AML/KYC 및 감사 요구사항을 무거운 규칙 엔진 없이 충족할 수 있다.
- 비용 효율적인 안전성 – 무거운 LLM 판정기는 필요할 때만 호출하므로, 일반 GPU 인스턴스에서도 대규모 안전 검사를 수행해 클라우드 비용을 절감한다.
- 개발자 친화성 – 하네스는 플러그‑인 형태의 래퍼이며, 기존 금융 에이전트 코드를 그대로 유지하면서 FinHarness API만 감싸면 “무료” 안전성을 얻을 수 있다.
- 실시간 위험 인식 – 피드백 루프가 안전 검사를 사후 차단이 아닌 협업 파트너로 전환시켜, 에이전트가 “외부 계좌로 이체하시겠습니까?”와 같이 명확화 질문을 스스로 제기하고 교착 상태를 피하도록 만든다.
- 확장성 – 현재는 금융에 특화되었지만, 도구 호출이 되돌릴 수 없는 결과를 초래하는 의료, 법률, DevOps 등 다른 고위험 분야에도 동일한 3단계 아키텍처를 적용할 수 있다.
제한점 및 향후 과제
- 도메인 특화 학습 데이터 – 모니터는 정제된 금융 데이터셋에 의존하므로, 새로운 금융 상품이나 규제 변화가 반영되지 않으면 성능이 저하될 수 있다.
- 잔여 오탐 – 정상 승인 비율이 약간 감소하는데, 이는 가끔 과도하게 차단해 사용자를 불편하게 만들 수 있음을 의미한다. 변동 임계값을 미세 조정하는 작업이 여전히 필요하다.
- 고급 판정기의 확장성 – 4.7배 감소에도 불구하고 초고속 처리 환경에서는 여전히 병목이 될 수 있다. 향후에는 지식 증류나 검색‑보강 판정기를 도입해 비용을 추가로 낮추는 방안을 모색한다.
- 설명 가능성 – 현재 시스템은 위험 요인만 제시하고 상세한 근거는 제공하지 않는다. 인간이 이해할 수 있는 설명을 추가하면 감사 담당자의 검증이 쉬워진다.
- 적대적 견고성 – 공격자는 변동 탐지기를 회피하도록 프롬프트를 설계할 수 있다. 정교한 프롬프트 인젝션 기법에 대비한 지속적인 연구가 필요하다.
FinHarness는 금융에 특화된 LLM 에이전트의 안전성이 사후 검토가 아니라 실행 흐름에 자연스럽게 녹아들어야 함을 보여준다. 의도 모니터링, 도구 수준 위험 평가, 적응형 검증을 에이전트 루프에 직접 결합함으로써, 개발자는 사용자 의도와 규제 방어선을 모두 만족하는 더 똑똑하고 안전한 금융 비서를 제공할 수 있다.
저자
- Haoxuan Jia
- Yang Liu
- Bin Chong
- Yingguang Yang
- Yancheng Chen
- Jiayu Liang
- Qian Li
- Hanning Lu
- Kefu Xu
- Hao Zheng
- Chongyang Zhang
- Hao Peng
- Philip S. Yu
논문 정보
- arXiv ID: 2605.27333v1
- 분류: cs.CL
- 발표일: 2026년 5월 26일
- PDF: PDF 다운로드