‘주의’는 좌절한 동기화

발행: 1일 전 (2026년 6월 17일 PM 02:18 GMT+9)

4 분 소요

원문: arXiv

Source: arXiv - 2606.18694v1

개요

완벽히 동기화된 진동자 네트워크는 추가적인 계산을 수행하지 않으므로, 동기화를 기반으로 한 주의 아키텍처는 합의에서의 구조적 편차에 그 계산을 위치시켜야 합니다. 우리는 토큰 상태가 토러스 상의 위상이고, 전체 값 경로가 학습된 복잡한 결합 커널(하모닉스)과 1단계 지연으로 구성된 **Frustrated Synchronization Network (FSN)**을 소개합니다. 커널의 각 구성 요소는 동기화 문헌에서 정의한 ‘불만(frustration)’이라는 의미로 해석됩니다. 복합 위상은 고정된 쿠르모토‑사카기구 각도이며, 부호화된 하모닉은 반발적인 다이도 구성요소이고, 지연 항은 자신이 주목하는 토큰의 후계 토큰과 결합되는 대수적으로 쿠르모토‑사카기구 결합과 동일하며, 이 각도는 데이터 자체의 전이와 일치합니다. 따라서 다음 토큰 예측은 데이터에 의해 발생한 ‘동기화 불만’으로 구현됩니다.

파라미터와 학습 예산이 일치하는 100만 개 파라미터 환경에서 문자 수준 텍스트 및 코드에 대해, FSN의 검증 손실은 모든 측정된 에폭에서 튜닝된 RoPE‑SwiGLU 트랜스포머보다 낮으며, 기본 모델을 수렴까지 훈련시킨 비교 결과도 유지됩니다: 30에폭 enwik8 시드마다 50에폭 수렴한 트랜스포머의 손실 1.611보다 낮은 결과를 보이며, FSN이 완료한 50에폭 실행은 1.5953 ± 0.0014로 수렴합니다.

모든 피드-포워드 블록을 학습된 집단 모드에 대한 평균장 결합으로 대체한 변형은 스택 내 멀티층 퍼셉트론이 없음에도 불구하고 트랜스포머와 유사한 성능을 보입니다.

자연어 텍스트에서 비불만(base) 계층은 모든 복사 깊이에서 수렴한 트랜스포머보다 뒤처지며, 특히 장거리 복사 사건에서는 가장 큰 격차를 보입니다. 그러나 커널은 4단계 이상의 깊이에서 이 déficit를 역전시킵니다.

헤드라인 비교는 100만 파라미터 규모에서 이루어지며, 400만 파라미터까지 완전한 스케일 사다리가 구축되어 이점이 지속됩니다. 남은 단계는 진행 중으로 표시됩니다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG
cond-mat.dis-nn
cs.CL
cs.NE
nlin.AO

방법론

자세한 방법은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전을 기여합니다.

저자

조슈아 넌레이

논문 정보

arXiv ID: 2606.18694v1
카테고리: cs.LG, cond-mat.dis-nn, cs.CL, cs.NE, nlin.AO
발행일: 2026년 6월 17일
PDF: 다운로드 PDF

‘주의’는 좌절한 동기화

개요

주요 공헌

방법론

실용적 함의

저자

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 언어 모델은 오라클이 아니라 인터페이스: 소아 맹장을 위한 하이브리드 LLM‑ML 시스템

인간‑AI 공진 역학: 장기 상호작용을 통한 사회적 지능 발생 이론