[Paper] TSN-Affinity: 유사도 기반 파라미터 재사용을 통한 지속적 오프라인 강화학습

발행: 16시간 전 (2026년 4월 29일 AM 02:41 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.25898v1

Overview

Continual Offline Reinforcement Learning (CORL)은 실시간 상호작용 없이 작업 스트림에 대해 단일 에이전트를 훈련하는 문제를 다룹니다—예를 들어 로봇의 스킬 세트를 기록된 데이터 배치로 업데이트하면서도 기존 능력을 유지하는 것과 같습니다. 논문 TSN‑Affinity는 재생 기반 방법의 무거운 메모리와 분포 이동 문제를 회피하는 새로운 아키텍처 접근법을 제시합니다. 작은 작업별 서브네트워크와 유사도 기반 라우팅 스킴을 사용해 의미가 있을 때만 지식을 공유합니다.

주요 기여

TinySubNetwork (TSN) architecture for CORL – 각 새로운 작업은 기본 모델 파라미터의 일부를 재사용하는 경량 “subnetwork”를 받는다.
Affinity‑based routing – 새로운 RL‑인식 유사도 메트릭(액션 호환성 + 잠재 임베딩 유사도)이 어떤 subnetwork가 주어진 상태를 처리할지 결정하여 파라미터 공유를 제어한다.
Integration with Decision Transformers – 트랜스포머의 시퀀스 모델링 강점을 오프라인 RL에 활용하면서 TSN 오버헤드를 최소화한다.
Comprehensive empirical evaluation – Atari(이산)와 Franka Emika Panda 조작(연속) 실험을 통해 재생 기반 대비 우수한 기억 유지와 다중 작업 성능을 입증한다.
Open‑source implementation – 재현성과 커뮤니티 확장을 위해 코드를 공개한다.

Methodology

Base Model: 표준 Decision Transformer (DT)는 궤적을 토큰 시퀀스(상태, 행동, 반환‑to‑go)로 처리합니다.
TinySubNetworks: 각 들어오는 작업에 대해, DT 가중치의 아주 작은 부분만 활성화하는 이진 마스크를 학습하여 작업‑특정 서브네트워크를 형성합니다. 나머지 파라미터는 모든 작업에 걸쳐 공유됩니다.
Affinity Scoring:
- Action Compatibility: 두 작업의 행동 분포가 얼마나 유사한지 측정합니다(예: 두 작업 모두 “왼쪽으로 이동”을 요구).
- Latent Similarity: 서로 다른 작업의 상태에 대한 은닉 표현 사이의 코사인 유사도를 계산합니다.
  결합된 점수는 새로운 작업이 기존 서브네트워크를 재사용할 수 있는지, 아니면 새로운 서브네트워크를 생성해야 하는지를 결정합니다.
Routing at Inference: 에이전트가 상태를 받으면 모든 기존 서브네트워크에 대해 친화도 점수를 평가하고, 가장 높은 호환성을 보이는 서브네트워크를 선택하여 해당 파라미터 집합을 통해 결정을 “라우팅”합니다.
Training Loop: 오프라인 데이터셋을 순차적으로 처리합니다. 각 작업에 대해서는 해당 작업 전용 서브네트워크만 업데이트하고, 공유 파라미터는 모든 작업으로부터의 그래디언트를 받아 작업‑특정 미묘함을 덮어쓰지 않으면서 지식 전이를 촉진합니다.

Source: …

결과 및 발견

Benchmark	Replay‑CL (baseline)	TSN‑Affinity (ours)	Retention (Δ after 5 tasks)
Atari (10 games)	78 % avg. score	84 % avg. score	+12 %
Franka Panda (pick‑place)	0.62 success rate	0.71 success rate	+15 %

Retention: 다섯 개의 작업을 학습한 후, TSN‑Affinity는 이전 작업에 대한 성능이 5 % 미만 감소하는 반면, 재생 방법은 15 % 이상 감소한다.
Parameter Efficiency: 각 서브네트워크는 전체 모델 파라미터의 약 8 %만 사용한다; 전체 메모리는 선형적으로 증가하지만 여전히 적당한 수준(10개 작업 후 기본 DT의 ≈1.4배)이다.
Routing Gains: 친화도 기반 라우터를 추가하면, 단순 “first‑match” 서브네트워크 선택에 비해 다중 작업 점수가 약 4 % 향상된다.
Training Speed: 작업당 스파스 마스크만 업데이트되므로, 작업당 학습 시간이 전체 모델 파인‑튜닝에 비해 약 30 % 감소한다.

Practical Implications

Robotics & Edge Devices: 로보틱스 및 엣지 디바이스: 기업은 생산 라인에서 로봇을 꺼내지 않고도 기록된 센서 로그를 통해 로봇의 레퍼토리를 지속적으로 업그레이드할 수 있으며, 펌웨어 용량을 최소화할 수 있다.
Safety‑Critical Systems: 안전‑중요 시스템: 온라인 탐색이 위험한 자율 주행과 같은 분야에서 TSN‑Affinity는 시뮬레이션 또는 차량 데이터로부터 점진적인 정책 업데이트를 가능하게 하며, 재앙적인 망각을 방지한다.
Resource‑Constrained Cloud Services: 자원‑제한 클라우드 서비스: RL‑as‑a‑service를 제공하는 SaaS 플랫폼은 단일 모델에 다수의 클라이언트‑특정 정책을 호스팅할 수 있어, 서브네트워크 라우팅을 통해 GPU 메모리와 추론 지연 시간을 감소시킨다.
Simplified Deployment Pipelines: 간소화된 배포 파이프라인: 대규모 리플레이 버퍼를 유지하거나 비용이 많이 드는 데이터 셔플링을 수행할 필요가 없으며, 작은 마스크를 학습하고 공유 백본을 업데이트함으로써 새로운 작업을 추가한다.

Limitations & Future Work

Scalability of Affinity Computation: 작업 수가 증가함에 따라 기존 서브네트워크 전체에 대한 유사도 평가가 병목이 될 수 있습니다; 근사 최근접 이웃 방법이 가능한 해결책이 될 수 있습니다.
Task Similarity Assumption: 라우팅은 의미 있는 잠재 유사도에 의존합니다; 매우 다른 작업(예: 비전 기반 내비게이션 vs. 순수 제어)은 여전히 별도의 큰 서브네트워크가 필요할 수 있어 파라미터 공유가 제한됩니다.
Offline Dataset Quality: 모든 오프라인 RL 방법과 마찬가지로 성능은 기록된 궤적의 커버리지와 품질에 좌우됩니다; 노이즈가 많거나 편향된 로그는 affinity 점수를 저하시킬 수 있습니다.
Future Directions: TSN‑Affinity를 meta‑learning 시나리오로 확장하여 모델이 몇 개의 시연만으로 새로운 마스크를 빠르게 추론하도록 하고, hierarchical routing(작업을 클러스터로 그룹화) 탐색을 통해 affinity 검사를 효율적으로 유지하는 방안을 연구합니다.

If you’re interested in trying out TSN‑Affinity, the authors have made the code publicly available on GitHub. The approach opens a promising path toward truly continual, offline‑learning agents that can evolve safely and efficiently in real‑world deployments.

저자

Dominik Żurek
Kamil Faber
Marcin Pietron
Paweł Gajewski
Roberto Corizzo

논문 정보

arXiv ID: 2604.25898v1
Categories: cs.LG, cs.AI
Published: 2026년 4월 28일
PDF: Download PDF

[Paper] TSN-Affinity: 유사도 기반 파라미터 재사용을 통한 지속적 오프라인 강화학습

Overview

주요 기여

Methodology

결과 및 발견

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 재귀적 다중 에이전트 시스템

[Paper] Teacher Forcing as Generalized Bayes: 최적화 기하학 불일치 in Switching Surrogates for Chaotic Dynamics

[Paper] 자연어 의미론을 위한 Functional Geometric Algebra

[Paper] 다중모달 불확실성 하에서 Robust Dexterous Grasping을 위한 Variational Neural Belief Parameterizations