2025년, AI를 파티 트릭에서 생산 도구로 전환한 방법
Source: Dev.to

이 블로그 포스트는 Piotr Migdal이 작성했습니다.
Source:
Overview
2025년에 시작된 대담한 실험들은 연말이 되자 업계 표준이 되었습니다. 두 가지 패러다임이 이 변화를 주도했습니다:
- Reasoning models – 답변하기 전에 토큰을 사용해 사고하는 방식.
- Agentic tool use – 코드를 실행해 현실 세계와 상호작용하는 방식.
소프트웨어 엔지니어링을 위한 LLM에 대한 이 주관적 리뷰는 세 단계로 구성됩니다:
- 2025년 전반기의 실험적 돌파구,
- 에이전트가 종종 너무 혼란스러워 실용적이지 못했던 생산 단계의 어려움,
- 현재 실무에서 일상적으로 사용되는 실용적인 도구들의 현황.
2025년 상반기
1월
- DeepSeek가 최초의 오픈소스 추론 모델 DeepSeek‑R1 을 공개했습니다. 가중치와 노하우를 모두 공유함으로써 AI가 독점적인 프로프라이어터리 모델들의 과점 구조에 머물 것이라는 패러다임을 깨뜨렸습니다. 이전에는 o1 만 있었으며, 이는 2024년 9월에 OpenAI가 출시한 것이었습니다.
2월
- Andrej Karpathy가 “vibe coding” 이라는 용어를 만들었습니다. 이는 코드를 쓰기보다 주로 자연어를 사용해 프로그래밍하는 방식을 의미합니다.
- OpenAI가 GPT‑4.5 를 출시했습니다 – 정말 놀라운 제품이었습니다. 비록 폐쇄형이고 브레인스토밍 능력(더 솔직하고, 덜 억제되며, 창의적이고, 조정 가능한)과 매치되는 모델은 없었지만, 저는 그게 그리웠습니다. 비용은 비쌌지만 (Cursor에서 한 번 실행당 $2) 고급 번역에서는 타의 추종을 불허했습니다.
- OpenAI가 Deep Research 를 출시했습니다. 여러 검색을 수행하고 요약하는 데 시간을 투자합니다. 초기에는 비용이 많이 들고 느렸지만, 웹 검색 시간을 절약하는 데는 여전히 도움이 되었습니다.
- Anthropic이 연구 프리뷰 형태로 에이전트 코딩용 커맨드‑라인 도구 Claude Code 를 공개했습니다.
3월
- ARC‑AGI‑2 가 AI가 절대로 풀 수 없는 테스트를 만들려고 시도했습니다. 최고 모델들의 성능은 약 1 % 수준에 머물렀습니다.
- OpenAI가 4o Image Generation 모델을 출시했으며, 웹을 스튜디오 지브리 풍의 패러디 이미지들로 가득 채웠습니다.
4월
- OpenAI가 o4‑mini 를 출시했습니다. 스마트하면서도 비교적 빠른 추론 모델로, 짧은 대화 속에서 저에게 아인슈타인의 일반 상대성 이론을 설명해 주었습니다 – 여러 방법을 시도했음에도 이해하기 어려웠던 주제였습니다.
5월
- Google이 Veo 3 을 출시했습니다. 이를 통해 실제 촬영과 구분하기 어려운 비디오를 만들 수 있게 되었습니다.
6월
- Gemini 2.5 Pro 가 Google을 다시 AI 경쟁에 복귀시켰습니다.
- Gemini 2.5 Flash 로 우리는 마침내 요약 및 데이터 추출에 뛰어나면서도 빠르고 저렴한 모델을 얻게 되었습니다.
7월
- DeepMind가 국제 수학 올림피아드에서 금메달 수준의 성능 을 달성했습니다.
전 세계적인 성과에서 일상적인 생산으로
그리고 그것은 2025년 상반기의 이야기일 뿐이었습니다.
진전은 큰 전제조건과 함께 찾아왔습니다. 우리는 인상적인 데모와 돌파구를 보았지만, 실제 생산에서는 종종 실패했습니다:
- 너무 느리거나 비용이 많이 듦 – 초기 추론 모델(o1)과 웹 검색 에이전트(Deep Research)는 강력했지만 일일 루프에서는 실용적이지 못했습니다.
- 과도하게 카페인에 취한 AI 에이전트 – 초기 Claude Code( Sonnet 3.7 포함)와 같은 도구는 코드를 고치는 것만큼 코드를 망가뜨릴 가능성도 있었습니다.
- 언캐니 밸리 – 이미지 생성기(초기 4o Image Generation 및 Nano Banana)는 놀라운 시각을 만들었지만 복잡한 지시나 텍스트 렌더링에서는 신뢰할 수 없었습니다.
잠재력은 부인할 수 없었지만, 이를 끌어내기 위해서는 큰 노력이 필요했습니다: 사전에 광범위한 프롬프트 엔지니어링을 수행하고 사후에 철저한 감사를 진행해야 했습니다. 마치 유능한 동료와 협업하기보다 지속적인 감독이 필요한 인턴을 관리하는 느낌이었습니다.
벤치마크와 과대광고를 무시하는 실용주의자들에게 계산은 간단합니다: 그 도구가 순효율을 향상시키는가? 작업을 수행하는 모델 자체는 기술적으로 대단하지만, 수동 정리에 더 많은 시간을 소비한다면 전혀 쓸모가 없습니다.
현재
2025년 상반기의 많은 연구 성과가 일상적인 도구가 되었습니다.
추론이 주류가 되다
첫 번째 추론 모델은 2024년 12월에 출시된 OpenAI o1이었습니다. DeepSeek‑R1 덕분에 다른 연구소들도 앞서 나갈 수 있었고, 추론이 더 똑똑하고 빠르게 발전했습니다. 오늘날 모든 주요 모델이 이를 지원하며, 특히 대표 모델들은 다음과 같습니다:
딥 리서치
한때 비용이 많이 들던 딥 리서치는 이제 ChatGPT, Google Gemini 등 주요 AI 제공업체가 제공하는 일상적인 검색 기능이 되었습니다. 2025년 초의 추론 모델 최고 성능이 이제 훨씬 빠르고 저렴해졌으며, “답변하기 전에 생각하기”가 대부분의 작업 흐름에서 기본이 되었습니다.
검색‑강화 AI
패러다임이 바뀌었습니다: 검색은 이제 반복적으로 사용할 수 있고 다른 작업과 결합할 수 있는 도구가 되었습니다. 최신 모델은 더 이상 과도하게 환상을 일으키지 않으며, 스스로 웹‑검색과 사실 확인을 할 수 있습니다.
오픈‑소스 모델이 다시 게임에 복귀했습니다
- 2024년 12월 – DeepSeek가 독점 제품과 경쟁할 수 있는 최초의 오픈‑소스 모델을 출시했습니다.
- 그 이후로, 더 많은 모델들이 등장했습니다:
| Model | Link |
|---|---|
| DeepSeek | |
| Kimi‑K2 Thinking | |
| MiniMax‑M1 | |
| GLM‑4.7 | |
| Mistral 3 | |
| OpenAI OSS models |
AGI 벤치마크
- ARC‑AGI‑2 –
- Humanity’s Last Exam (HLE) –
2025년 말까지의 결과:
| 벤치마크 | 모델 | 점수 |
|---|---|---|
| HLE (스케일 리더보드) | Gemini 3 Pro | 37 % |
| ARC‑AGI‑2 (리더보드) | Gemini 3 Pro | >30 % |
| ARC‑AGI‑2 | Claude Opus 4.5 | ~40 % |
| ARC‑AGI‑2 | GPT‑5.2 | >50 % |
이 테스트들은 어렵고 오래 지속되도록 설계되었지만, 예상보다 더 빨리 능가되었습니다.
에이전시 코딩
- Claude Code – 이제 코딩을 위한 사실상의 AGI. 코드를 작성·실행·디버깅하고, 외부 API를 호출하며, 모든 워크플로와 통합할 수 있습니다.
- Hacker News에서 처음 발견됨:
- 개발 스토리: Gergely Orosz의 “How Claude Code is built” –
모델 진화
| 모델 | 특성 |
|---|---|
| Claude Sonnet 3.7 | 어색하고 코드를 깨뜨리기 쉬움 |
| Claude Sonnet 4 | 더 안정적이고 빠름 |
| Claude Opus 4 | 더 강력하지만 느리고 비용이 많이 듦 |
| Claude Sonnet 4.5 | Opus 4와 동일한 성능, 훨씬 빠름 |
| Claude Opus 4.5 | Sonnet 4.5와 동일한 속도, 더 똑똑함 |
필요한 것: 강력한 모델, 긴 컨텍스트 윈도우, 그리고 툴 호출 기능. Opus 4.5를 사용하면 높은 성능을 빠른 속도로 얻을 수 있습니다.
경쟁 도구
- Codex CLI – OpenAI
- Gemini CLI – Google
- Cursor CLI – Cursor
Migrating CompileBench to Harbor: standardizing AI agent evals에서 보다 폭넓은 평가를 확인하세요.
Image generation
Nano Banana Pro –
- Moves beyond concept‑art images to generate infographics and charts.
- Results are factually correct thanks to web‑search integration.
You can embed it in an agentic workflow via Antigravity or Claude Skills.
고급 활용
AI는 이제 수학 숙제나 경쟁형 연구에만 국한되지 않으며, 생산성 파트너가 되고 있습니다.
- 양자 컴퓨팅 연구원 스콧 아론슨 –
- 필즈 메달리스트 테렌스 타오 –
두 사람 모두 AI를 활용해 각 분야의 최전선을 확장하고 있습니다. 실수가 여전히 발생하지만, 전문가의 손에선 기술이 더욱 똑똑해집니다.
결론
2025년은 AI 개발에 있어 가장 격렬한 해였습니다. 한때 데모에만 머물렀던 많은 기술들이 일상 업무의 표준 도구가 되었습니다.
저는 모델 출시, 데모, 논문 등을 겨우 표면만 훑어봤습니다. 더 깊은 통찰을 원한다면 다음을 확인하세요:
- 2025 LLM Year in Review by Andrej Karpathy –
- 2025: The year in LLMs by Simon Willison –
- AI News (daily newsletter) –
AI를 중심으로 일하는 사람이라도, 빠른 속도를 따라잡는 것은 전일제 과제입니다.