파트 2: 왜 Transformers는 여전히 잊어버리는가
Source: Dev.to
위에 제공된 링크만으로는 실제 번역할 텍스트가 포함되어 있지 않습니다. 번역을 원하는 본문을 그대로 복사해서 알려주시면, 요청하신 대로 마크다운 형식과 코드 블록, URL은 그대로 유지하면서 한국어로 번역해 드리겠습니다.
Part 2 – 왜 긴 컨텍스트 언어 모델은 여전히 메모리 문제에 어려움을 겪는가
(세 부분 시리즈 중 두 번째)
Part 1에서 우리는 단순히 컨텍스트 길이를 늘리는 것이 메모리 문제를 해결하지 못한다는 것을 살펴보았습니다.
여기서는 모델이 기억하고, 잊고, 혹은 긴 컨텍스트에서 실패하는 이유를 설명하는 메모리 중심 사고 방식을 소개합니다.
왜 건축 라벨이 더 이상 유용하지 않은가
시퀀스 모델에 관한 대부분의 논의는 건축 패밀리—Transformer, RNN, 상태‑공간 모델, 선형 어텐션 등—를 중심으로 전개됩니다. 이러한 라벨은 역사적으로 유용했지만, 모델이 어떻게 동작하는지에 대한 실제 이유를 가리는 경우가 많습니다.
- 구조가 매우 다른 두 모델이 같은 이유로 실패할 수 있습니다.
- 겉보기에 비슷해 보이는 두 모델이 긴 컨텍스트에서는 매우 다르게 동작할 수 있습니다.
MIRAS 관점은 간단한 전환에서 시작합니다: “이 모델의 아키텍처가 무엇인가?” 대신 “이 모델이 구현하고 있는 메모리 시스템은 어떤 종류인가?”를 묻는 것입니다. 이 렌즈를 채택하면 많은 긴 컨텍스트 실패가 신비롭게 보이던 것이 아니라 필연적으로 보이게 됩니다.
메모리는 부수 효과가 아닌 시스템
높은 수준에서, 시간에 따라 시퀀스를 처리하는 모든 시스템은 네 가지 질문에 명시적이든 암시적이든 답해야 합니다:
- 정보는 어떻게 메모리에 기록되는가?
- 정보는 나중에 어떻게 검색되는가?
- 무엇이 언제 잊혀지는가?
- 새로운 데이터가 들어올 때 메모리는 어떻게 업데이트되는가?
전통적인 모델들은 이러한 질문에 간접적으로 답합니다.
- 순환 모델은 히스토리를 은닉 상태에 압축하여 기록하고, 다음 단계에서 그 상태를 노출시켜 읽습니다.
- 트랜스포머는 토큰을 컨텍스트에 추가함으로써 기록하고, 그 토큰들에 주의를 기울여 읽습니다.
- 망각은 컨텍스트 제한을 초과하거나 압축 과정에서 세부 정보가 손실될 때 자동으로 발생합니다.
MIRAS는 이러한 메커니즘을 명시적으로 만들고, 이를 부수 효과가 아닌 설계 선택으로 취급합니다.
네 개의 MIRAS 설계 노브
MIRAS(Memory‑Informed Recurrent Associative Systems)는 시퀀스 모델을 네 가지 핵심 구성 요소로 특징짓습니다. 이는 특정 아키텍처에 국한되지 않으며 메모리가 어떻게 동작하는지를 설명합니다.
| 설계 노브 | 정의하는 내용 |
|---|---|
| 메모리 구조 | 메모리가 취하는 형태(벡터, 행렬, 보다 풍부한 신경망 등). 고정 크기 구조는 압축을 강제하고, 풍부한 구조는 선택적 보존을 가능하게 합니다. |
| 주의 편향 | 모델이 무엇을 관련 있다고 판단하는가. 트랜스포머에서는 일반적으로 점곱 유사도가 사용됩니다. 이 선택은 특히 잡음이 많거나 긴 시퀀스에서 어떤 것이 검색되고 어떤 것이 무시되는지를 크게 좌우합니다. |
| 보존 / 망각 메커니즘 | 망각이 제어되고 적응적인가, 아니면 암묵적이고 통제되지 않는가. 망각은 결함이 아니라 필수적인 요소입니다. |
| 메모리 업데이트 규칙 | 메모리가 시간에 따라 어떻게 변하는가. 일부 모델은 학습 중에만 메모리를 업데이트하고, 다른 모델은 추론 중에도 제어된 업데이트를 허용합니다. |

네 가지 MIRAS 차원을 보여주는 일러스트: 메모리 구조, 주의 편향, 보존, 그리고 업데이트 규칙.
MIRAS를 통한 친숙한 모델 재해석
공통 아키텍처를 MIRAS 관점에서 보면 강점과 약점이 명확해집니다.
-
Transformers
- Memory structure: 전체 컨텍스트 윈도우 (vibrant).
- Attentional bias: 유사도 기반 어텐션.
- Retention: 거칠게—윈도우가 가득 차면 오래된 정보가 완전히 사라집니다.
- Update rule: 추론 중에 정적.
-
Linear‑attention & state‑space models
- 효율성을 위해 구조와 업데이트 규칙을 수정하지만, 공격적인 압축에 의존합니다.
- 이는 그들이 잘 확장되면서도 매우 긴 시퀀스에서 정확한 기억을 유지하는 데 어려움을 겪는 이유를 설명합니다.
-
핵심 통찰: 이러한 트레이드오프는 우연이 아니라 각 모델이 선택한 메모리 설계에서 직접 비롯됩니다.
왜 손실 함수와 목표가 중요한가
MIRAS에서 미묘하지만 중요한 점은 메모리 동작이 아키텍처뿐만 아니라 최적화되는 목표에 의해서도 영향을 받는다는 것이다.
- 많은 모델이 평균 제곱 오차와 유사한 목표나 유사도 기반 손실에 크게 의존한다.
- 이러한 손실은 노이즈와 이상치에 민감하며, 이는 어떤 메모리 업데이트가 강조되는지를 좌우한다.
MIRAS는 이 관찰을 바탕으로 관련성과 안정성이 정의되는 방식을 바꾸는 대안적 공식화를 제시한다. 그 결과는 단순히 향상된 견고성뿐만 아니라, 길고 노이즈가 많은 입력에서도 더 예측 가능한 메모리 동작을 가능하게 한다.
핵심 요점: 메모리는 단순히 정보가 저장되는 장소가 아니라, 무엇을 유지할지 결정하는 학습 신호에 의해 형성된다.
Source: …
왜 이 프레임워크가 Titans에 대해 이야기하기 전에 중요한가
MIRAS 같은 프레임워크가 없으면 “Titans”(테스트‑시 업데이트, 서프라이즈 신호, 적응적 망각 등)는 일련의 영리한 트릭처럼 보일 수 있다. MIRAS를 사용하면 이러한 선택들이 가독성을 갖게 된다—즉, 임시 최적화가 아니라 명시적인 메모리‑설계 질문에 대한 답이 된다.
Part 1에서는 주의 메커니즘만으로는 장기 메모리를 대체할 수 없음을 보여주었다. Part 2에서는 왜 대부분의 기존 대안들이 여전히 부족한지를 설명한다. 이러한 틀을 잡은 뒤에야 Titans를 다른 메모리 시스템의 구체적인 구현으로 살펴보는 것이 의미가 있다.
실제 앱에서 주의할 점
- Memory structure: 시스템이 작업에 충분히 풍부한 표현을 제공합니까?
- Attentional bias: 유사도 메트릭이 데이터 분포에 적합합니까?
- Retention policy: 망각이 제어되고 있나요, 아니면 컨텍스트가 넘칠 때 의도치 않게 발생하나요?
- Update rule: 모델이 추론 중에 메모리를 적응시킬 수 있나요, 아니면 학습 후에 고정되어 있나요?
이 네 가지 요소를 염두에 두면 프로덕션 환경에서 장기 컨텍스트 성능을 진단하고 개선하는 데 도움이 됩니다.
함의
MIRAS 렌즈를 실제 시스템에 적용하면 패턴이 빠르게 드러납니다. 메모리 구조가 너무 경직되었거나, 유지가 통제되지 않거나, 입력이 변함에도 불구하고 업데이트 규칙이 고정된 경우 모델이 실패합니다. 반대로, 메모리 설계가 의도적이고 작업 요구에 맞게 정렬될 때 시스템은 더 견고해집니다.
이 관점은 특히 에이전트, 스트리밍 데이터, 장기 실행 프로세스 및 모델이 고립된 프롬프트가 아니라 지속적으로 작동해야 하는 모든 애플리케이션에 관련이 있습니다.
Part 3를 앞두고
Part 2는 개념적 토대를 마련합니다. Part 3에서는 Titans의 아키텍처를 면밀히 살펴보고 이러한 기억 원칙이 실제로 어떻게 구현되는지 확인합니다. 장기 기억이 어떻게 표현되는지, 추론 중에 어떻게 업데이트되는지, 시스템을 안정적으로 유지하기 위해 망각이 어떻게 관리되는지를 검토합니다.