[Paper] 전문 투자 팀을 향해: 세분화된 트레이딩 작업을 갖춘 멀티 에이전트 LLM 시스템
Source: arXiv - 2602.23330v1
개요
이 논문은 대형 언어 모델(LLMs) 기반의 다중‑에이전트 트레이딩 프레임워크를 소개합니다. 이 프레임워크는 투자 워크플로우를 세분화되고 명확히 정의된 작업들의 연속으로 분해하며, 각 에이전트에게 모호하고 고수준의 지시를 주는 대신에 이렇게 합니다. 일본 주식에 대해 엄격히 통제된 백‑테스트를 수행한 결과, 이 접근법은 위험‑조정 수익률을 현저히 개선하고 시스템이 의사결정을 내리는 이유에 대한 보다 명확한 통찰을 제공합니다.
주요 기여
- 작업 수준 분해: 투자 분석을 “분석‑그리고‑거래” 하나의 프롬프트가 아니라, 구체적인 하위 작업(예: 재무제표 파싱, 뉴스 감성 추출, 거시 요인 점수 매기기) 파이프라인으로 공식화합니다.
- 다중 에이전트 LLM 아키텍처: 각 하위 작업에 전용 LLM 에이전트를 할당하여 전문성을 높이고 디버깅을 용이하게 합니다.
- 누수 제어 백테스팅: 미래 정보가 학습이나 추론에 오염되지 않도록 하는 현실적인 데이터 슬라이싱 프로토콜을 사용해 결과가 실제 배포와 비교 가능하도록 합니다.
- 일본 시장에 대한 실증 검증: 다양한 데이터셋(가격 시계열, 재무제표, 뉴스, 거시 지표)에서 세분화된 에이전트가 거친 기준 모델보다 우수함을 입증합니다.
- 포트폴리오 수준 최적화: 여러 세분화된 시스템의 출력을 결합해 시장 지수와의 낮은 상관관계를 활용하면 성과가 추가로 향상됨을 보여줍니다.
- 해석 가능성 인사이트: 중간 분석 결과와 하위 의사결정 선호도 간의 정렬이 성공의 주요 동인임을 발견했습니다.
방법론
-
데이터 수집 – 시스템은 각 주식에 대해 네 가지 데이터 스트림을 가져옵니다:
- (a) 과거 가격/거래량
- (b) 구조화된 재무제표 항목
- (c) 뉴스 헤드라인/기사
- (d) 거시경제 지표
-
작업 분해 – 전체 투자 결정을 개별 프롬프트로 나눕니다:
- Fundamental Analyzer: 보고서에서 주요 비율(예: ROE, 부채‑대‑자본비율)을 추출합니다.
- News Sentiment Agent: 최신 헤드라인을 긍정/부정/중립으로 분류하고 감성 강도를 정량화합니다.
- Macro‑Factor Agent: 현재 거시 환경(금리, GDP 성장)과 섹터 관련성을 점수화합니다.
- Signal Synthesizer: 이전 에이전트들의 수치 출력을 결합해 간단한 규칙 기반 또는 경량 ML 모델을 사용해 매매 신호(롱/숏/홀드)를 생성합니다.
-
LLM 선택 및 파인‑튜닝 – 각 에이전트는 최신 LLM(예: GPT‑4‑Turbo)을 사용하며, 도메인‑특화 few‑shot 예시를 제공해 기대 출력 형식을 안내합니다. 전체 모델 파인‑튜닝은 필요 없으며, 파이프라인을 가볍게 유지합니다.
-
백테스팅 프레임워크 – “누수‑제어” 분할을 통해 시점 t에 에이전트가 사용하는 모든 정보가 t‑1까지의 데이터에만 제한되도록 합니다. 저자들은 일본 시장 데이터를 여러 해에 걸쳐 롤링‑윈도우 평가를 수행합니다.
-
포트폴리오 구성 – 여러 독립적인 세분화 시스템의 신호를 평균‑분산 옵티마이저에 입력하여 각 시스템의 예측 변동성과 벤치마크 지수와의 상관관계를 고려합니다.
결과 및 발견
| 지표 | 세분화된 다중 에이전트 | 거친 기준 | 순수 매수‑보유 |
|---|---|---|---|
| 연간 수익률 | 12.4 % | 8.1 % | 6.3 % |
| 샤프 비율 | 1.45 | 0.87 | 0.55 |
| 최대 손실 | ‑9.2 % | ‑14.8 % | ‑18.5 % |
| 지수와의 상관관계 | 0.31 | 0.58 | 1.00 |
- 세분화된 분해는 거친 설정에 비해 샤프 비율을 약 50 % 향상시킵니다.
- 중간 출력(예: 감성 점수) 중 최종 거래 방향과 가장 밀접하게 일치하는 것이 성공을 예측하는 가장 강력한 지표이며, 파이프라인 전반의 정렬 중요성을 확인합니다.
- 여러 세분화된 에이전트를 혼합한 포트폴리오 수준 최적화는 전체 변동성을 감소시키고 샤프 비율을 1.62까지 추가로 끌어올립니다.
Practical Implications
- Modular Design for Production: 개발자는 각 LLM 에이전트를 명확한 API(입력 데이터 → 구조화된 출력)를 가진 마이크로서비스로 취급할 수 있어 시스템을 보다 쉽게 모니터링하고, 버전 관리하며, 확장할 수 있다.
- Transparency & Auditing: 각 하위 작업이 인간이 읽을 수 있는 산출물(예: 추출된 비율 표)을 생성하기 때문에 컴플라이언스 팀이 거래가 생성된 이유를 추적할 수 있다. 이는 “블랙‑박스” AI 트레이딩 봇에 대한 주요 장애물을 해소한다.
- Rapid Prototyping: 파인튜닝이 필요 없으며, 최신 LLM을 교체하거나 새로운 데이터 소스를 추가할 때는 프롬프트 예시만 업데이트하면 되므로 반복 주기가 가속화된다.
- Risk Management: 세분화된 신호가 시장 지수와 낮은 상관관계를 보이므로 자연스러운 헤지를 제공한다. 이는 멀티‑전략 펀드에서 활용하거나 기존 시스템 포트폴리오의 보조 알파 소스로 사용할 수 있다.
- Cross‑Market Applicability: 연구는 일본 주식에 초점을 맞추고 있지만, 동일한 작업 분해(펀더멘털, 뉴스, 매크로)는 다른 자산군(예: 미국 주식, 상품, 암호화폐)에도 깔끔하게 적용될 수 있어 최소한의 변경으로 아키텍처를 재사용할 수 있다.
제한 사항 및 향후 연구
- 프롬프트 민감도: 성능 향상은 잘 설계된 프롬프트에 의존하며, 논문에서는 작은 문구 변화만으로도 출력이 눈에 띄게 달라질 수 있다고 지적합니다. 이는 체계적인 프롬프트 엔지니어링 도구가 필요함을 시사합니다.
- 지연 시간 우려: 의사결정 창당에 여러 번 LLM 호출을 수행하면 추론 지연이 발생하며, 이는 고빈도 전략에 문제를 일으킬 수 있습니다. 모델 증류나 중간 결과 캐싱과 같은 최적화는 탐구되지 않았습니다.
- 데이터 품질 및 범위: 연구에서는 고품질 일본 금융 공시와 뉴스 피드를 사용했으며, 구조화된 보고가 덜한 시장에 프레임워크를 적용하려면 추가적인 전처리 파이프라인이 필요할 수 있습니다.
- 향후 방향: 저자들은 (1) 강화 학습을 통합해 Synthesizer가 시간에 따라 하위 신호의 가중치를 스스로 조정하도록 하는 방안, (2) 상위 에이전트가 동적으로 작업을 할당하는 계층적 에이전트 구조 탐색, (3) 원시 시장 데이터를 기반으로 훈련된 완전 엔드‑투‑엔드 LLM 에이전트와의 벤치마킹을 제안합니다.
저자
- Kunihiro Miyazaki
- Takanobu Kawahara
- Stephen Roberts
- Stefan Zohren
논문 정보
- arXiv ID: 2602.23330v1
- Categories: cs.AI, q-fin.TR
- Published: 2026년 2월 26일
- PDF: PDF 다운로드