[논문] 딥 강화학습을 활용한 암호화폐 시장의 동적 다중 페어 트레이딩 전략
Source: arXiv - 2606.04574v1
Overview
이 논문은 변동성이 극심한 암호화폐 선물 시장에서 통계적 차익거래 페어 트레이딩을 실현 가능하게 만들 수 있는 딥 강화 학습(Deep Reinforcement Learning, DRL) “실행 오버레이”의 효과를 조사한다. 고전적인 필터‑앤‑랭크 페어 선택 파이프라인에 안전 제약이 있는 DRL 실행 엔진을 결합함으로써, 저자들은 바이낸스 USD‑M 선물 데이터에 대해 휴리스틱 베이스라인보다 측정 가능한 우위를 보였음을 입증한다.
Key Contributions
- Hybrid Architecture – 통계적 차익거래의 해석 가능성을 유지하면서 적응형 실행을 추가하는, 결정론적 “Filter‑then‑Rank” 페어 선택 단계와 DRL 기반 실행 레이어를 결합한다.
- Safe RL via Deterministic Shielding – RL 정책 주변에 강력한 위험 한도를 적용해 급격한 손실을 방지하는 “Fixed Risk, Adaptive Mean”(FRAM) 실행 모델을 도입한다.
- PPO‑LSTM Agent – 1시간 가격 스프레드의 시간적 의존성을 포착하기 위해 LSTM 메모리를 갖춘 Proximal Policy Optimization을 활용한다.
- Robust Evaluation – 정적 원형 블록 부트스트랩을 적용해 샘플 외 위험조정 성과를 평가하고, 10 % 수준에서 통계적 유의성을 달성한다.
- Open‑Source‑Ready Blueprint – 기존 암호화폐 트레이딩 봇에 최소한의 코드 변경만으로 삽입할 수 있는 모듈형 파이프라인을 제공한다.
Methodology
- Data & Universe – 여러 코인 페어를 포함한 바이낸스 USD‑M 선물의 시간당 OHLCV 데이터를 몇 개월에 걸쳐 수집한다.
- Filter‑then‑Rank Selection
- Filter: 전통적인 공적분 기반 스프레드 통계(예: Johansen 검정, half‑life)를 계산해 비정상적인 페어를 제외한다.
- Rank: 남은 페어를 스프레드 변동성, 평균 회귀 속도, 유동성 등을 결합한 복합 지표로 점수화한다. 상위 N개의 페어가 실행 엔진에 전달된다.
- Execution Model (FRAM)
- 거래당 고정 최대 포지션 규모(위험 예산)를 설정한다.
- 최근 스프레드 통계를 기반으로 목표 진입/청산 평균을 동적으로 조정해, RL 에이전트가 사전에 정의된 위험 구역을 벗어나는 행동을 제안하지 않도록 한다.
- RL Agent
- Algorithm: 안정적인 업데이트로 알려진 정책‑그라디언트 방법인 Proximal Policy Optimization (PPO).
- Network: LSTM 레이어(연속적인 스프레드 동역학 포착) → 완전 연결된 정책/가치 헤드.
- State: 최근 스프레드 값, FRAM 위험 파라미터, 시장 전반 특징(예: 거래량, 변동성).
- Action: {long 증가, short 증가, 유지, 노출 감소}의 이산 집합.
- Reward: Sharpe‑조정된 손익(P&L)이며, FRAM 한도 위반 시 페널티가 부과된다.
- Training & Validation
- 인‑샘플 데이터를 롤링 윈도우 방식으로 학습하고, 보류 기간에 대해 검증한다.
- 원형 블록 부트스트랩을 수행해 다수의 의사 샘플을 생성하고, Sharpe 비율의 분포를 추정해 통계적 유의성을 테스트한다.
Results & Findings
| Metric (out‑of‑sample) | Heuristic Baseline | PPO‑LSTM + FRAM |
|---|---|---|
| Annualized Sharpe | 0.78 | 1.12 |
| Max Drawdown (%) | 23.4 | 18.7 |
| Win‑Rate (%) | 56 | 62 |
| Return‑to‑Risk (Sortino) | 0.94 | 1.31 |
- DRL‑보강 시스템은 정적 휴리스틱 대비 약 44 % 높은 Sharpe를 달성한다.
- 위험조정 초과 성과는 원형 블록 부트스트랩 테스트에서 10 % 유의수준(p ≈ 0.08)으로 살아남는다.
- 결정론적 보호막(FRAM)은 최대 손실을 억제하고, 극단적인 시장 급등 시 에이전트가 “폭발”하는 현상을 방지한다—제한 없는 RL 트레이더가 흔히 겪는 실패 모드이다.
Practical Implications
- Plug‑and‑Play Execution Layer – 개발자는 기존 페어 선택 코드를 FRAM‑보호 PPO 에이전트로 감싸기만 하면 전체 파이프라인을 재설계하지 않고도 적응형 주문 규모를 얻을 수 있다.
- Risk‑First Design – 결정론적 위험 구역은 “안전한 RL”을 위한 구체적인 패턴을 제공하며, 시장 메이킹, 옵션 헤징 등 다른 트레이딩 분야에도 적용 가능하다.
- Scalable to Real‑Time – LSTM‑PPO 추론 단계는 보통 GPU/CPU 환경에서 1 ms 이하의 지연으로 실행돼, 1시간 혹은 15분 단위 실시간 암호 전략에 적합하다.
- Portfolio Automation – 매일 페어를 재‑랭크하도록 자동화함으로써 시스템은 시장 상황 변화에 지속적으로 적응한다. 이는 정적 통계 차익거래 스크립트에 비해 큰 장점이다.
- Open‑Source Inspiration – 논문의 코드‑친화적 모듈성은 커뮤니티 기여를 촉진하고, 암호 생태계 전반에 걸친 “안전 RL 트레이딩 스택” 구축으로 이어질 가능성을 열어준다.
Limitations & Future Work
- Statistical Significance – 현재 결과는 10 % 수준에서만 유의하므로, 더 큰 데이터셋이나 더 긴 샘플 외 기간이 필요해 전통적인 5 % 기준을 만족시켜야 한다.
- Market Scope – 평가가 바이낸스 USD‑M 선물에만 국한돼 있어, 다른 거래소나 현물 시장에 대한 성능은 아직 검증되지 않았다.
- Risk Model Simplicity – FRAM은 고정 위험 예산을 사용하므로, 향후 변동성에 비례한 노출 규모와 같은 동적 위험 예산 방식을 탐구할 수 있다.
- Explainability – 필터‑랭크 단계는 해석 가능하지만, LSTM 정책은 여전히 블랙박스이다. 어텐션 메커니즘이나 사후 설명 기법을 도입하면 신뢰성을 높일 수 있다.
- Regulatory & Slippage Considerations – 본 연구는 이상적인 실행을 가정했으므로, 실제 주문서 동역학 및 거래 비용을 반영하면 프레임워크를 실제 운영 환경에 더 가깝게 만들 수 있다.
Authors
- Damian Lebiedź
- Robert Ślepaczuk
Paper Information
- arXiv ID: 2606.04574v1
- Categories: cs.LG, cs.NE, q-fin.ST, q-fin.TR, stat.ML
- Published: June 3, 2026
- PDF: Download PDF