[Paper] RNN에서의 역설적인 노이즈 선호

발행: (2026년 1월 8일 오후 12:11 GMT+9)
12 min read
원문: arXiv

Source: arXiv - 2601.04539v1

개요

논문 **“Paradoxical noise preference in RNNs”**는 순환 신경망의 놀라운 특성을 밝혀냅니다: 많은 연속‑시간 RNN은 실제로 최고의 성능을 보이며 추론 시에 적당량의 노이즈를 유지할 때—훈련 중에 주입된 수준과 동일한 수준—가장 좋은 결과를 얻습니다. 이는 테스트 시 모든 확률성을 제거하는 일반적인 관행과 정반대이며, RNN‑기반 시스템을 어떻게 훈련하고, 평가하고, 배포할지에 직접적인 영향을 미칩니다.

주요 기여

  • 경험적 발견: 활성화 함수 내부에 노이즈를 넣어 학습한 CTRNN은 비영(0이 아닌) 노이즈 수준에서 최고 테스트 정확도를 달성하는 반면, 활성화 함수 외부에 노이즈를 넣은 경우는 0 노이즈를 선호한다.
  • 이론적 분석: 이 효과를 네트워크의 기본 확률적 동역학에서 고정점(정상 분포)의 노이즈 유도 이동과 연결한다.
  • 세 가지 벤치마크 작업에 대한 시연 – 간단한 함수 근사, 미로 탐색, 단일 뉴런 조절기 – 매우 다른 문제 영역에서도 현상이 나타남을 보여준다.
  • 이 효과가 확률 공명(stochastic resonance)이 아님을 명확히 함; 대신 네트워크는 확률적 훈련 환경 자체에 의존하도록 학습하여 실질적으로 노이즈에 과적합한다.
  • 실무자를 위한 가이드라인: 추론 시 노이즈를 유지해야 하는 시점과 의도치 않은 편향을 피하기 위한 노이즈 주입 전략 설계 방법을 제시한다.

방법론

  1. Model family – 저자들은 연속‑시간 순환 신경망(CTRNNs)에 초점을 맞추며, 이는 미분 방정식으로 기술되는 RNN의 한 종류입니다.
  2. Noise injection schemes
    • Inside‑activation: 비선형 함수 적용 전 사전 활성화 신호에 가우시안 잡음이 추가됩니다 (예: σ(W·h + b) + ε).
    • Outside‑activation: 비선형 함수 적용 후에 잡음이 추가됩니다 (예: σ(W·h + b) + ε).
  3. Training protocol – 네트워크는 고정된 잡음 분산(보통 σ² ≈ 0.01)으로 표준 시간 역전파(BPTT)를 사용해 학습됩니다.
  4. Evaluation – 학습 후, 동일한 네트워크를 다양한 잡음 수준(제로 포함)에서 테스트하여 성능 저하 또는 향상을 측정합니다.
  5. Analytical tools – 저자들은 평형점 주변에서 확률 미분 방정식을 선형화하고, 잡음에 따라 정상 분포 평균이 어떻게 변하는지 계산한 뒤, 이 변화를 출력 바이어스와 연결합니다.
  6. Task suite
    • Function approximation: 단일 은닉 유닛으로 비선형 매핑을 맞추는 작업.
    • Maze navigation: RNN이 각 단계에서 방향을 출력해야 하는 이산 격자 세계.
    • Regulator: 단일 뉴런의 발화율을 목표 신호에 맞추도록 제어하는 작업.

모든 실험은 공개된 코드와 하이퍼파라미터 설정을 통해 재현 가능합니다.

Results & Findings

작업노이즈 주입최적 테스트 시 노이즈 수준왜 중요한가
함수 근사.활성화 내부≈ 학습 σ (비영)노이즈가 은닉 상태를 포화 영역에서 멀어지게 하여, 학습된 고정점을 노이즈가 있는 동역학에 맞추게 한다.
미로 탐색활성화 내부≈ 학습 σ정책 네트워크의 결정 경계가 tanh 비선형 근처에 위치한다; 노이즈는 에이전트를 잘못 조종하게 할 체계적인 편향을 방지한다.
조절기활성화 내부≈ 학습 σ노이즈를 제거하면 컨트롤러의 내부 상태가 편향된 평형점으로 이동하여 추적 오류를 일으킨다.
동일 작업 (활성화 외부)활성화 외부Zero 노이즈여기서는 노이즈가 고정점 위치에 영향을 주지 않으므로, 노이즈를 제거하면 네트워크가 최적화된 결정론적 동역학이 복원된다.

핵심 통찰: 노이즈가 활성화 함수 이전에 주입될 때, 비선형 기울기(예: 큰 크기에서 tanh가 평탄해짐)와 비대칭적으로 상호작용한다. 이 비대칭성 때문에 기대 은닉 상태가 노이즈 분산의 함수로 이동한다. 학습 과정에서 옵티마이저는 이 이동을 보정하도록 조정하여, 일정량의 노이즈가 존재함을 “학습”한다. 테스트 시 노이즈를 제거하면 네트워크는 편향된 은닉 상태 분포를 가진 채 동작하게 되어 성능이 저하된다.

또한 저자들은 작동점이 활성화 함수의 급격한 구간에 가까울수록 편향의 크기가 커진다는 점을 보여준다—이는 많은 고용량 RNN이 표현력을 극대화하기 위해 해당 구간으로 이동하는 경향이 있기 때문이다.

Practical Implications

  1. Inference‑time noise as a hyper‑parameter – RNN(특히 CTRNN, LSTM, GRU)을 내부 노이즈와 함께 학습시켰다면, 배포 시에도 동일한 노이즈 수준을 유지하거나 최소한 제로로 두지 말고 튜닝하세요.
  2. Noise‑placement matters – 결정론적 추론을 원한다면, 활성화 에 노이즈를 주입하거나(dropout‑style 마스크와 같이) 활성화 이 아니라 후에 노이즈를 삽입하세요.
  3. Robustness testing – RNN을 벤치마킹할 때는 다양한 노이즈 수준에 걸쳐 성능을 평가하십시오; 제로 노이즈에서만 뛰어난 모델은 결정론적 학습 환경에 과적합되었을 가능성이 있습니다.
  4. Model compression & quantization – 양자화 노이즈는 주입된 학습 노이즈와 유사하게 작용할 수 있습니다. 양자화 분산을 학습 시 사용한 노이즈 수준에 맞추면 정확도를 유지하는 데 도움이 됩니다.
  5. Neuroscience‑inspired modeling – 이 발견은 생물학적 회로가 “노이즈가 많아 보이지만” 최적의 기능을 수행하는 메커니즘적 설명을 제공합니다; 노이즈는 방해 요소라기보다 계산의 필수적인 부분일 수 있습니다.
  6. Design of stochastic RNNs – 탐색이 필요한 작업(예: 강화 학습, 계획)에서는 학습 시 사용한 노이즈를 의도적으로 유지함으로써 정책의 안정성과 샘플 효율성을 향상시킬 수 있습니다.

제한 사항 및 향후 연구

  • CTRNN에 한정된 범위 – 분석은 연속 시간 동역학에 기반하고 있으며, 이산 시간 RNN(표준 LSTM/GRU)은 더 약하거나 다른 효과를 보일 수 있습니다.
  • 단순 활성화 함수 – 실험에서는 tanh와 sigmoid를 사용했으며, ReLU 기반 RNN은 조각별 선형 특성 때문에 다르게 동작할 수 있습니다.
  • 단일 잡음 수준 – 연구는 훈련 중 고정된 분산에만 초점을 맞추었으며, 잡음 스케줄(감쇠, 커리큘럼) 변화를 탐색하지 않았습니다.
  • 확장성 – 모든 작업이 비교적 소규모이며, 이 현상이 대형 언어 모델이나 비디오 예측 RNN에 어떻게 적용되는지는 아직 밝혀지지 않았습니다.
  • 잠재적 완화 전략 – 저자들은 잡음 인식 정규화, 적대적 잡음 훈련, 명시적 편향 보정 레이어와 같은 방법을 제안했지만 구현하지는 않았습니다.

향후 연구에서는 이론적 프레임워크를 이산 시간 네트워크로 확장하고, 최신 정규화 기법(예: 가중치 감쇠, 드롭아웃)과의 상호 작용을 조사하며, 메타 최적화를 통해 적응형 추론 시 잡음 수준을 자동으로 학습할 수 있는지를 테스트할 수 있습니다.

개발자를 위한 핵심 요약: 내부에 가우시안 잡음을 포함한 순환 모델을 학습할 경우, 모델을 배포할 때 그 잡음을 자동으로 제거하지 마세요. 잡음 수준을 모델의 “운영 체제” 일부로 간주하고, 필요에 따라 유지하거나 조정하거나, 배포 제약에 맞게 주입 지점을 재설계하십시오.

저자

  • Noah Eckstein
  • Manoj Srinivasan

논문 정보

  • arXiv ID: 2601.04539v1
  • 분류: cs.NE, cs.AI, cs.LG
  • 발행일: 2026년 1월 8일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...