LLM 연간 리뷰

발행: 1개월 전 (2025년 12월 20일 오전 05:49 GMT+9)

17 분 소요

Source: Hacker News
2025년 12월 19일

unnamed

1. Reinforcement Learning from Verifiable Rewards (RLVR)

2025년 초, 모든 연구실의 LLM 프로덕션 스택은 다음과 같은 형태였습니다:

Pretraining (GPT‑2/3, ~2020)
Supervised Finetuning (InstructGPT, ~2022)
Reinforcement Learning from Human Feedback (RLHF, ~2022)

이는 한동안 프로덕션급 LLM을 훈련시키는 안정적이고 검증된 레시피였습니다. 2025년에 Reinforcement Learning from Verifiable Rewards (RLVR) 가 사실상의 새로운 주요 단계로 등장했습니다. 여러 환경(예: 수학/코드 퍼즐)에서 자동으로 검증 가능한 보상에 대해 LLM을 학습시킴으로써, 모델은 인간에게 “추론”처럼 보이는 전략을 스스로 개발합니다—문제 해결을 중간 계산으로 나누고, 앞뒤로 반복하면서 답을 찾아냅니다(예시는 DeepSeek R1 논문을 참고).

이러한 전략은 이전 패러다임에서는 매우 달성하기 어려웠습니다. 최적의 추론 경로와 복구 과정이 무엇인지 명확하지 않았기 때문에, 모델이 보상에 대한 최적화를 통해 스스로 작동 방식을 발견해야 했기 때문입니다.

SFT와 RLHF 단계가 비교적 얇고 짧은(컴퓨팅 비용이 적은) 미세조정에 불과한 반면, RLVR은 객관적(조작 불가능) 보상 함수에 대해 학습하므로 훨씬 긴 최적화가 가능합니다. RLVR을 실행하면 높은 능력 / $ 효율성을 제공했으며, 이는 원래 사전 학습에 할당되던 컴퓨팅 자원을 모두 소모하게 만들었습니다. 결과적으로 2025년의 대부분 능력 향상은 이 새로운 단계의 오버행을 소모하는 연구실들에 의해 정의되었습니다; 우리는 비슷한 규모의 LLM을 보았지만 훨씬 긴 RL 실행을 수행했습니다.

또 하나의 독특한 조정 파라미터(및 관련 스케일링 법칙)도 등장했습니다: 테스트 시 컴퓨팅량에 따른 능력은 더 긴 추론 경로를 생성하고 “생각 시간”을 늘림으로써 제어할 수 있습니다. OpenAI o1(2024년 말)은 RLVR 모델의 첫 시연이었고, o3(2025년 초) 릴리스가 차이를 직관적으로 체감할 수 있는 명확한 전환점이었습니다.

Source:

2. 유령 vs. 동물 / 들쭉날쭉한 지능

2025년은 나(그리고 아마도 업계 전체)가 LLM 지능의 “형태”를 보다 직관적으로 내재화하기 시작한 시점이다. 우리는 “동물을 진화/성장시키는” 것이 아니라 “유령을 소환하고” 있다. LLM 스택의 모든 것이 다르다(신경 아키텍처, 학습 데이터, 학습 알고리즘, 특히 최적화 압력). 따라서 지능 공간에서 매우 다른 존재들을 얻게 되는 것은 놀라운 일이 아니다—동물적 시각으로 생각하기에 부적절한 존재들이다.

감독 관점에서 인간 신경망은 정글에서 부족의 생존을 위해 최적화되지만, LLM 신경망은 인간의 텍스트를 모방하고, 수학 퍼즐에서 보상을 모으며, LM Arena에서 인간의 업보트를 얻는 데 최적화된다. 검증 가능한 영역이 RLVR을 허용함에 따라, LLM은 이러한 영역 근처에서 능력이 “스파이크”하고 전반적으로 재미있게 들쭉날쭉한 성능 특성을 보인다—동시에 천재적인 폴리매스이면서도 혼란스러운, 인지적으로 어려움을 겪는 초등학생이며, 탈옥(jailbreak) 공격에 속아 당신의 데이터를 탈취하려는 순간에 있다.

Human intelligence: blue, AI intelligence: red. I like this version of the meme (sorry I lost the reference to its original post on X) for pointing out that human intelligence is also jagged in its own different way.

이와 관련해서 2025년에 내가 느낀 전반적인 무관심과 벤치마크에 대한 신뢰 상실이 있다. 핵심 문제는 벤치마크가 본질적으로 검증 가능한 환경이며, 따라서 합성 데이터 생성을 통한 RLVR—그리고 그 약한 형태—에 즉시 취약하다는 점이다. 일반적인 벤치마크 최적화 과정에서 LLM 연구실 팀들은 필연적으로 벤치마크가 차지하는 임베딩 공간의 작은 포켓에 인접한 환경을 구축하고, 이를 커버하기 위해 “들쭉날쭉함(jaggies)”을 키운다. 테스트 세트에 대한 학습은 이제 새로운 예술 형태가 되었다.

모든 벤치마크를 정복했지만 여전히 AGI에 도달하지 못한다면 어떤 모습일까?

이 섹션 주제에 대해 더 많이 썼다:

3. Cursor / LLM 앱의 새로운 레이어

제가 Cursor(올해의 급격한 성장 외에)에서 가장 눈에 띄는 점은, “LLM 앱”의 새로운 레이어를 설득력 있게 보여줬다는 것입니다—사람들은 이제 “Cursor for X”에 대해 이야기하기 시작했습니다. 제가 올해 Y Combinator 강연에서 강조했듯이(전사본 및 동영상), Cursor와 같은 LLM 앱은 특정 분야에 맞춰 LLM 호출을 묶고 조정합니다:

컨텍스트 엔지니어링을 처리합니다.
여러 LLM 호출을 내부에서 조정하여 점점 복잡해지는 DAG(Directed Acyclic Graph)를 구성하고, 성능과 비용 사이의 균형을 신중히 맞춥니다.
인간 사용자를 위한 도메인‑특화 GUI를 제공합니다.
**“자율성 슬라이더”**를 제공합니다.

2025년에는 이 새로운 앱 레이어가 얼마나 “두껍게” 구성될지에 대한 논의가 많이 이루어졌습니다. LLM 연구소가 모든 애플리케이션을 포괄하게 될까요, 아니면 LLM 앱을 위한 새로운 녹색 목초지가 남아 있을까요? 개인적으로는 LLM 연구소가 일반적인 “대학생” 수준의 능력을 갖춘 모델을 배출하고, LLM 앱이 이를 조직·미세조정·실제 배포된 전문가 팀으로 애니메이션화할 것이라고 예상합니다.

4. Claude Code / 컴퓨터에 사는 AI

Claude Code (CC)는 LLM 에이전트의 최초 설득력 있는 시연이었습니다—도구 사용과 추론을 반복적으로 연결해 확장된 문제 해결을 수행하는 시스템입니다.

CC가 중요한 이유

로컬에서 실행됩니다. 당신의 컴퓨터에서 작동하며, 당신의 개인 환경, 데이터, 컨텍스트를 사용합니다.
로컬‑우선 설계. OpenAI의 클라우드‑중심 Codex/에이전트 접근 방식(ChatGPT에서 컨테이너를 오케스트레이션)과 달리, CC는 “당신의 머신에서 실행” 모델을 채택합니다.
중간 단계, 느린 출발 세계. 능력이 고르지 않은 환경에서, 대규모 클라우드 기반 군집에 의존하기보다 개발자와 그들의 특정 설정과 손잡고 에이전트를 운영하는 것이 더 합리적일 때가 많습니다.

CC를 차별화하는 점

CC는 우선순위를 정확히 잡고 이를 아름답고, 최소화된, 설득력 있는 CLI 형태로 패키징했습니다. 이는 AI에 대한 인식을 “구글처럼 방문하는 웹사이트”에서 당신의 컴퓨터에 살아있는 작은 영혼/유령으로 바꾸어, 새로운 상호작용 패러다임을 제시했습니다.

Source:

5. Vibe Coding

2025년은 AI가 영어만으로도 모든 종류의 인상적인 프로그램을 만들 수 있는 능력 임계값을 넘은 해이며, 코드를 실제로 존재한다는 사실을 잊게 만들었습니다. 재미있게도 저는 이 개념을 샤워 생각 트윗에서 **“vibe coding”**이라는 용어로 처음 만들었고, 그것이 얼마나 퍼질지 전혀 예상하지 못했습니다.

vibe coding을 사용하면 프로그래밍이 고도로 훈련된 전문가에게만 국한되지 않고, 누구나 할 수 있는 일이 됩니다. 이런 의미에서 이는 제가 Power to the people: How LLMs flip the script on technology diffusion에서 언급한 또 다른 예시이며, 지금까지의 모든 기술과는 달리 일반 사람들이 LLM으로부터 전문가, 기업, 정부보다 훨씬 더 큰 혜택을 받는다는 점을 강조합니다.

하지만 vibe coding은 일반 사람들이 프로그래밍에 접근하도록 돕는 것에 그치지 않고, 훈련된 전문가들이 그렇지 않으면 절대 작성되지 않을 (vibe‑coded) 소프트웨어를 훨씬 더 많이 작성할 수 있게 해줍니다.

nanochat에서 저는 기존 라이브러리를 사용하거나 Rust를 깊이 배우는 대신, Rust로 직접 맞춤형 고효율 BPE 토크나이저를 vibe‑coded했습니다.
올해 저는 존재했으면 하는 것들의 빠른 데모 앱을 만들면서 여러 프로젝트를 vibe‑coded했습니다. 예시:
심지어 단 하나의 버그를 찾기 위해 전체 일시적인 앱을 vibe‑coded하기도 했습니다 – 왜 안 되겠어요? 코드는 이제 무료이고, 일시적이며, 유연하고, 한 번 사용하고 나면 버릴 수 있습니다.

vibe coding은 소프트웨어를 재구성하고 직무 기술을 바꿔 놓을 것입니다.

6. Nano Banana / LLM GUI

Google Gemini Nano banana는 2025년 가장 놀랍고 패러다임을 바꾸는 모델 중 하나입니다. 제 관점에서 LLM은 1970‑80년대 개인용 컴퓨터와 유사한 차세대 컴퓨팅 패러다임입니다. 따라서 개인용 컴퓨팅, 마이크로‑컨트롤러(인지 코어), 에이전트들의 “인터넷” 등 근본적으로 비슷한 이유에서 유사한 혁신이 나타날 것입니다.

UI/UX Perspective

오늘날 LLM과 “채팅”하는 것은 1980년대 컴퓨터 콘솔에 명령을 입력하는 것과 약간 비슷합니다.
텍스트는 컴퓨터(및 LLM)에게 가장 기본적이고 선호되는 데이터 표현이지만, 사람들에게는 입력 측면에서 선호되는 형식이 아닙니다.
사람들은 큰 텍스트 블록을 읽는 것을 싫어합니다—느리고 힘이 듭니다. 대신 정보를 시각적·공간적으로 소비하는 것을 좋아하기 때문에 전통 컴퓨팅에서 GUI가 발명되었습니다.

같은 맥락에서 LLM은 우리에게 선호하는 형식—이미지, 인포그래픽, 슬라이드, 화이트보드, 애니메이션/동영상, 웹 앱 등—으로 말을 걸어야 합니다. 이와 유사한 초기·현재 형태로는 이모지와 Markdown이 있으며, 이는 텍스트에 제목, 굵게, 기울임, 목록, 표 등을 “입혀” 줍니다.

Who will build the LLM GUI? 이 세계관에서 Nano banana는 그 모습이 어떨지에 대한 최초의 초기 힌트입니다. 중요한 점은 이것이 단순히 이미지 생성에 관한 것이 아니라, 텍스트 생성, 이미지 생성, 그리고 세계 지식이 모델 가중치에 얽혀 있는 통합 역량에 관한 것이라는 점입니다.

TL;DR

2025년은 LLM에게 흥미롭고 다소 놀라운 해였습니다. 이들은 새로운 형태의 지능으로 떠오르고 있는데, 기대했던 것보다 동시에 훨씬 똑똑하고 그리고 훨씬 어리석습니다. 어쨌든 매우 유용하며, 현재 수준에서 산업계가 그 잠재력의 10 %조차도 실현하지 못했다고 생각합니다.

시도해볼 아이디어가 너무 많고, 개념적으로 이 분야는 무한히 열려 있는 느낌입니다. 올해 초에 제가 Dwarkesh 팟에서 언급했듯이, 저는 동시에 (역설적으로) 빠르고 지속적인 진보를 보게 될 것이며 그리고 아직 해야 할 일이 많다고 믿고 있습니다.

준비하세요.

LLM 연간 리뷰

1. Reinforcement Learning from Verifiable Rewards (RLVR)

2. 유령 vs. 동물 / 들쭉날쭉한 지능

3. Cursor / LLM 앱의 새로운 레이어

4. Claude Code / 컴퓨터에 사는 AI

CC가 중요한 이유

CC를 차별화하는 점

5. Vibe Coding

6. Nano Banana / LLM GUI

UI/UX Perspective

TL;DR

관련 글

LLMs에서 Hallucination-Associated Neurons의 존재, 영향 및 기원에 관하여

역사 LLMs: 1913년 이전 텍스트만으로 훈련된 모델

Context Rot: AI가 완벽한 프롬프트를 잊어버리는 이유

Vibe Proving 이해하기

1. Reinforcement Learning from Verifiable Rewards (RLVR)

2. 유령 vs. 동물 / 들쭉날쭉한 지능

3. Cursor / LLM 앱의 새로운 레이어

4. Claude Code / 컴퓨터에 사는 AI

CC가 중요한 이유

CC를 차별화하는 점

5. Vibe Coding

6. Nano Banana / LLM GUI

UI/UX Perspective

TL;DR

관련 글

LLMs에서 Hallucination-Associated Neurons의 존재, 영향 및 기원에 관하여

역사 LLMs: 1913년 이전 텍스트만으로 훈련된 모델

Context Rot: AI가 완벽한 프롬프트를 잊어버리는 이유

Vibe Proving 이해하기

4. Claude Code / 컴퓨터에 사는 AI

6. Nano Banana / LLM GUI