루프형 언어 모델을 통한 잠재 추론 스케일링

발행: (2026년 1월 4일 오전 06:34 GMT+9)
2 min read

Source: Hacker News

Abstract

현대 LLM은 주로 명시적인 텍스트 생성, 예를 들어 체인‑오브‑생각(Chain‑of‑Thought, CoT)을 통해 “생각”하도록 훈련되며, 이는 추론을 사후 훈련에 맡기고 사전 훈련 데이터 활용을 충분히 하지 못한다. 우리는 Ouro(재귀적인 Ouroboros에서 이름을 따옴)를 소개하고 오픈소스화한다. Ouro는 사전 훈련 단계에 추론을 통합하는 Looped Language Models(LoopLM) 계열로, 다음과 같은 특징을 가진다.

  1. 잠재 공간에서의 반복적 계산,
  2. 학습된 깊이 할당을 위한 엔트로피‑정규화 목표, 그리고
  3. 7.7 조 토큰 규모로의 확장.

Ouro 1.4 B 및 2.6 B 모델은 다양한 벤치마크에서 최대 12 B 규모의 최신 SOTA LLM과 동등한, 뛰어난 성능을 보여준다. 통제된 실험을 통해 이 이점이 지식 용량의 증가가 아니라 우수한 지식 조작 능력에서 비롯된다는 것을 입증한다. 또한 LoopLM이 명시적인 CoT보다 최종 출력과 더 일치하는 추론 추적(trace)을 생성한다는 점도 확인하였다.

우리는 우리의 결과가 추론 시대에 새로운 스케일링 방향으로서 LoopLM의 잠재력을 보여주기를 기대한다. 모델은 여기에서 확인할 수 있다: http://ouro-llm.github.io

Back to Blog

관련 글

더 보기 »

왜 Markdown이 더 나은 AI의 비밀인가

AI에 대한 웹 스크래핑의 현 상황은 깨졌습니다. 10년 동안 웹 추출은 CSS selectors와 DOM structures를 둘러싼 전쟁이었습니다. 우리는 부서지기 쉬운 scrapers를 작성했습니다.