연구진, 약 1,500달러로 기초 모델을 처음부터 훈련했다고 밝혀.
출처: VentureBeat
기초 LLM을 처음부터 훈련시키는 데는 수백만 달러가 들고 인터넷 규모의 데이터가 필요합니다. 그래서 대부분의 기업은 시도조차 하지 않죠. Sapient는 더 저렴한 방법이 있다고 생각합니다.
이러한 무차별적인 규모 확장 교리를 극복하기 위해, Sapient 연구진은 표준 Transformer를 고효율 계층형 순환 모델(HRM)로 대체한 HRM-Text 를 개발했습니다. 이 아키텍처는 그들이 작년에 처음 소개한 바 있습니다.
HRM은 계산을 느리게 진화하는 전략 레이어와 빠르게 진화하는 실행 레이어로 분리합니다. 원시 텍스트에 대한 무차별 자동 회귀 예측 대신, HRM-Text는 오직 명령‑응답 쌍만을 학습합니다. 이는 사용자가 특정 작업에 대한 목표 답변을 기대하는 실제 기업 환경과 가깝습니다.
연구진은 일반 LLM에 비해 훨씬 적은 비용과 토큰으로 10억 파라미터 규모의 HRM-Text를 처음부터 훈련시켰습니다. 이 모델은 주요 산업 벤치마크에서 훨씬 큰 공개 모델들과 경쟁할 만한 성능을 보였습니다.
실제 AI 적용 사례에서는, 이제 기초 사전 학습이 대규모 자원을 보유한 기관에만 국한되지 않음을 의미합니다. HRM-Text를 사용하면 기업이 자체적으로 고성능 추론 모델을 저렴하게 처음부터 학습시키고, 외부 지식 저장소와 결합할 수 있습니다.
훈련 병목 현상
LLM을 훈련시킬 때 우리는 무작위 2014년 Reddit 스레드의 정확한 단어 순서를 기억하는지 여부에 관심이 없습니다. 모델이 인간 언어, 논리, 사실, 추론에 대한 깊은 이해를 갖추길 원합니다.
현재 접근 방식은 무차별적입니다: 인터넷을 크롤링하고, 다음 토큰 예측을 수조 번 수행하며, 모델이 세계에 대한 작동 가능한 내부 모델을 만들었다고 가정합니다.
즉, 우리는 모델이 인터넷에서 수집한 모든 정보를 기억하도록 강제함으로써 수백만 달러의 컴퓨팅 파워를 낭비하고 있습니다. 예를 들어, 표준 디코더‑전용 모델은 사용자의 프롬프트가 추론 시 이미 제공된다는 점에도 불구하고, 프롬프트 자체를 재구성하는 손실을 할당하는 데 귀중한 연산을 사용합니다.
이를 단순히 계산상의 장벽으로만 보지 말고, 산업계는 심각한 비즈니스 제한으로 인식해야 합니다. VentureBeat에 제공된 의견에서 Sapient Intelligence의 CEO인 관왕(Guan Wang) 은 이를 “반복의 경제학” 문제라고 정의했습니다.
“오늘날 기업은 세 가지 복합적인 문제에 직면해 있습니다: 훈련 비용이 비싸고, 인프라가 무겁고, 실험 주기가 너무 느립니다.”라고 왕은 말했습니다. “산업계의 규모 중독은 ‘모델이 실패하면 더 크게 만든다. 데이터를 더 넣는다. GPU를 더 늘린다.’는 식입니다. 이는 어느 정도 효과가 있었지만 수익 감소 지점에 다다르고 있습니다. 규모가 커질수록 기억력은 늘고, 지연 시간은 늘고, 인프라는 늘고, 공급업체 의존도도 늘어납니다. 이는 반드시 기업에 더 나은 추론 엔진을 제공하지는 않습니다.”
이러한 아키텍처 및 계산 비효율성이 바로 기존의 밀집 Transformer를 미세조정하는 것이 기업에게 항상 최적의 해결책이 아닌 이유입니다. 모델의 일반적인 능력을 유지하면서 미세조정하려면 대량의 일반 목적 데이터를 혼합해야 하는 경우가 많아, 계산 비용이 크게 늘고 제어가 어려워집니다.
“내부 연구 노트, 거래 로직, 규정 준수 규칙, 분석가 메모, 위험 모델, 포트폴리오 제약 등 고유한 데이터가 있는 헤지펀드, 보험사, 은행을 상상해 보세요.”라고 왕은 말했습니다. “그들은 외부 최첨단 모델에 데이터를 보내고 싶지 않을 수도 있고, 인터넷을 기억한 거대한 일반 모델이 필요하지 않을 수도 있습니다. 그들이 필요로 하는 것은 작업 구조를 학습하고, 규칙과 수치를 넘나들며 추론하고, 제어된 환경에서 실행할 수 있는 컴팩트한 추론 코어입니다.”
HRM-Text는 계산을 작업 수행과 잠재적 추론에만 집중하도록 설계되었기 때문에, 기업은 더 작고 똑똑한 모델로 시작해 최소한의 인프라로도 고유 도메인에 맞게 적응시킬 수 있습니다.
HRM-Text와 함께하는 아키텍처 재고
2025년에 소개된 HRM은 전통적인 Transformer 모델과 근본적으로 다른 접근 방식을 취합니다. 보다 샘플 효율적인 엔진을 만들기 위해, HRM은 계산을 느리게 진화하는 전략 레이어와 빠르게 진화하는 실행 레이어로 분리합니다. 빠른 L‑모듈은 지역적인 반복 정제를 수행하고, 느린 H‑모듈은 사이클 전반에 걸쳐 안정적인 의미적 컨텍스트를 유지합니다. 처리 과정은 두 개의 고수준 사이클로 구성되며, 각 사이클은 세 번의 빠른 L‑모듈 업데이트 뒤에 한 번의 느린 H‑모듈 업데이트를 실행합니다.
계층형 추론 모델 (HRM) (출처: arXiv)
표준 파라미터 공유 순환 아키텍처(예: 삼성의 TRM)는 작은 논리 퍼즐을 처리할 수 있지만, Sapient 연구진은 이를 언어 작업에 10억 파라미터 규모로 확장하면 극도로 불안정해진다는 것을 발견했습니다. HRM의 느린 H‑모듈과 빠른 L‑모듈 사이의 분리는 미학적 선택이 아니라 수학적으로 필수입니다. 왕은 이렇게 말했습니다: “논리 그리드에서는 세계가 깔끔하고 제한적이기 때문에 작은 재귀 메커니즘으로도 충분할 수 있습니다. 언어는 그렇지 않으며, 빠른 지역 정제와 느린 의미 안정성이 모두 필요합니다.”
원래 HRM은 통제된 상징적 추론 문제에 대해 매우 효과적이었지만, 일반화된 언어 모델링이라는 방대한 개방형 복잡성에 적용하려다 벽에 부딪혔습니다. HRM의 루프는 사고를 매우 효율적으로 만들지만, 동일한 루프가 인간 언어의 다양하고 혼란스러운 데이터에 적용될 때는 수학적 불안정성을 초래합니다. 구체적으로는 그래디언트 폭발·소실 문제가 발생합니다.
HRM-Text 아키텍처 (출처: Sapient Inc.)
이러한 피드백 루프를 방지하기 위해 연구진은 HRM-Text에 두 가지 핵심 아키텍처 혁신을 도입했습니다.
- MagicNorm – 모델이 생각을 반복할 때 내부 신호가 언제나 안정적으로 유지되도록 설계된 특수 정규화 기법.
- 워밍업 방법 – 초기 훈련 단계에서는 짧고 얕은 추론 루프만 평가하고, 훈련이 진행됨에 따라 점진적으로 더 깊고 긴 추론 시퀀스를 제공해 모델을 안정화합니다.
또한 훈련 목표를 다음 토큰 예측에서 작업 완수로 전환했습니다. 모델은 개별 토큰이 아니라 전체 응답에 대해 보상을 받습니다. 이를 위해 HRM-Text의 훈련 데이터를 원시 텍스트가 아닌 명령‑응답 쌍으로만 구성했습니다.
HRM-Text 실제 적용
연구진은 10억 파라미터 규모의 극히 컴팩트한 HRM-Text 모델을 구축했습니다. 방대한 원시 인터넷 텍스트를 수조 단어 수준으로 처리하는 전통적인 다단계 파이프라인 대신, 400억 토큰에 불과한 엄선된 데이터셋만으로 처음부터 훈련했습니다. 이 데이터는 일반 명령, 수학, 상징 논리, 교과서 연습문제, 재작성된 지식 등으로 구성된 명령‑응답 쌍 전부였습니다.
모델은 작업 완수 목표로 훈련되었습니다. 모델이 단계별 논리를 그대로 복사하기보다 내부 계층 구조를 활용하도록 강제하기 위해, 훈련