‘주의’는 좌절한 동기화
Source: arXiv - 2606.18694v1
개요
완벽히 동기화된 진동자 네트워크는 추가적인 계산을 수행하지 않으므로, 동기화를 기반으로 한 주의 아키텍처는 합의에서의 구조적 편차에 그 계산을 위치시켜야 합니다. 우리는 토큰 상태가 토러스 상의 위상이고, 전체 값 경로가 학습된 복잡한 결합 커널(하모닉스)과 1단계 지연으로 구성된 **Frustrated Synchronization Network (FSN)**을 소개합니다. 커널의 각 구성 요소는 동기화 문헌에서 정의한 ‘불만(frustration)’이라는 의미로 해석됩니다. 복합 위상은 고정된 쿠르모토‑사카기구 각도이며, 부호화된 하모닉은 반발적인 다이도 구성요소이고, 지연 항은 자신이 주목하는 토큰의 후계 토큰과 결합되는 대수적으로 쿠르모토‑사카기구 결합과 동일하며, 이 각도는 데이터 자체의 전이와 일치합니다. 따라서 다음 토큰 예측은 데이터에 의해 발생한 ‘동기화 불만’으로 구현됩니다.
파라미터와 학습 예산이 일치하는 100만 개 파라미터 환경에서 문자 수준 텍스트 및 코드에 대해, FSN의 검증 손실은 모든 측정된 에폭에서 튜닝된 RoPE‑SwiGLU 트랜스포머보다 낮으며, 기본 모델을 수렴까지 훈련시킨 비교 결과도 유지됩니다: 30에폭 enwik8 시드마다 50에폭 수렴한 트랜스포머의 손실 1.611보다 낮은 결과를 보이며, FSN이 완료한 50에폭 실행은 1.5953 ± 0.0014로 수렴합니다.
모든 피드-포워드 블록을 학습된 집단 모드에 대한 평균장 결합으로 대체한 변형은 스택 내 멀티층 퍼셉트론이 없음에도 불구하고 트랜스포머와 유사한 성능을 보입니다.
자연어 텍스트에서 비불만(base) 계층은 모든 복사 깊이에서 수렴한 트랜스포머보다 뒤처지며, 특히 장거리 복사 사건에서는 가장 큰 격차를 보입니다. 그러나 커널은 4단계 이상의 깊이에서 이 déficit를 역전시킵니다.
헤드라인 비교는 100만 파라미터 규모에서 이루어지며, 400만 파라미터까지 완전한 스케일 사다리가 구축되어 이점이 지속됩니다. 남은 단계는 진행 중으로 표시됩니다.
주요 공헌
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
- cond-mat.dis-nn
- cs.CL
- cs.NE
- nlin.AO
방법론
자세한 방법은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.LG 분야의 발전을 기여합니다.
저자
- 조슈아 넌레이
논문 정보
- arXiv ID: 2606.18694v1
- 카테고리: cs.LG, cond-mat.dis-nn, cs.CL, cs.NE, nlin.AO
- 발행일: 2026년 6월 17일
- PDF: 다운로드 PDF