Transformers를 활용한 의사 난수 학습

발행: (2026년 5월 3일 PM 04:21 GMT+9)
4 분 소요

Source: Hacker News

Abstract

우리는 Permuted Congruential Generators (PCGs) 라는 널리 사용되는 의사난수 생성기(PRNG) 계열이 생성한 시퀀스를 Transformer 모델이 학습할 수 있는 능력을 연구한다. PCG는 숨겨진 상태에 일련의 비트‑단위 시프트, XOR, 회전 및 절단을 적용함으로써 선형 합동 생성기(LCG)보다 상당히 추가적인 난이도를 도입한다. 우리는 Transformer가 다양한 PCG 변형에서 보지 못한 시퀀스에 대해 컨텍스트 내 예측을 성공적으로 수행할 수 있음을 보여준다. 이는 기존에 발표된 고전적인 공격을 넘어서는 작업이다.

실험에서는 모듈러를 $2^{22}$까지 확장하고, 최대 5 억 토큰, 5 천만 모델 파라미터 규모의 데이터셋을 사용하였다. 놀랍게도 출력이 단일 비트로 절단된 경우에도 모델이 이를 신뢰성 있게 예측할 수 있었다. 여러 개의 서로 다른 PRNG를 학습 중에 동시에 제시하면, 모델은 이를 공동으로 학습하여 서로 다른 순열에서 구조를 식별한다.

우리는 모듈러 $m$에 대한 스케일링 법칙을 제시한다: 거의 완벽한 예측을 위해 필요한 컨텍스트 내 시퀀스 요소 수는 $\sqrt{m}$에 비례하여 증가한다. 모듈러가 클수록 최적화는 장기간 정체 단계에 들어가며, $m \ge 2^{20}$인 경우 작은 모듈러의 학습 데이터를 포함시키는 커리큘럼 학습이 필수적임을 보여준다.

마지막으로 임베딩 레이어를 분석한 결과, 새로운 클러스터링 현상을 발견한다: 상위 주성분이 정수 입력을 비트‑단위 회전 불변 클러스터로 자발적으로 그룹화하여, 표현이 작은 모듈러에서 큰 모듈러로 어떻게 전이될 수 있는지를 드러낸다.

Comments

  • 10 + 13 페이지
  • 8 + 21 그림

Subjects

  • Machine Learning (cs.LG)
  • Disordered Systems and Neural Networks (cond-mat.dis-nn)
  • Cryptography and Security (cs.CR)

Citation

Cite as: arXiv:2510.26792 (cs.LG)

or for this version: arXiv:2510.26792v2 (cs.LG)

DOI

https://doi.org/10.48550/arXiv.2510.26792 – arXiv‑issued DOI via DataCite

Submission history

  • v1 – Thu, 30 Oct 2025 17:59:09 UTC (12,235 KB) – submitted by Tao Tao
  • v2 – Mon, 16 Feb 2026 23:41:23 UTC (17,937 KB)
0 조회
Back to Blog

관련 글

더 보기 »