Agent Factory 요약: 오픈 모델을 파헤치다
Source: Dev.to
Welcome back to The Agent Factory! In this episode we’re joined by Ravin Kumar, a Research Engineer at DeepMind, to tackle one of the biggest topics in AI right now: building and training open‑source agentic models. We go beyond using agents and explore what it takes to build the entire factory line—from gathering data and supervised fine‑tuning to reinforcement learning and evaluations.
다시 찾아온 The Agent Factory에 오신 것을 환영합니다! 이번 에피소드에서는 DeepMind의 연구 엔지니어인 Ravin Kumar와 함께 현재 AI 분야에서 가장 큰 주제 중 하나인 오픈소스 에이전시 모델의 구축 및 훈련에 대해 다룹니다. 우리는 에이전트를 사용하는 것을 넘어, 데이터 수집 및 지도 학습 파인튜닝부터 강화 학습 및 평가에 이르기까지 전체 공장 라인을 구축하는 데 필요한 과정을 탐구합니다.
에이전트 산업 펄스
깊이 있는 연구에 뛰어들기 전에, 빠르게 변화하는 AI 에이전트 세계의 최신 동향을 살펴보았습니다.
- Gemini 2.5 Computer Use – 구글의 새로운 모델은 가상 사용자가 되어 컴퓨터 화면을 조작하고, 버튼을 클릭하고, 양식에 입력하고, 스크롤까지 수행할 수 있습니다. 에이전트를 “알고 있는” 단계에서 브라우저 내에서 직접 작업을 수행하는 단계로 전환시킵니다.
- Vibe Coding in AI Studio – 원하는 애플리케이션의 “느낌”을 설명하면 AI가 보일러플레이트 코드를 처리하는 새로운 앱 구축 방식입니다. “Change this to green.”와 같은 간단한 지시로 특정 UI 요소를 다듬는 Annotation Mode도 포함됩니다.
- DeepSeek‑OCR and Context Compression – DeepSeek는 문서를 이미지처럼 취급해 레이아웃을 이해하고, 10~20개의 텍스트 토큰을 하나의 시각 토큰으로 압축합니다. 이는 긴 컨텍스트 작업의 속도를 크게 높이고 비용을 절감합니다.
- Google Veo 3.1 and Flow – 업데이트된 AI 비디오 모델은 풍부한 오디오 생성과 강력한 편집 기능을 추가했습니다. “Insert”를 사용해 캐릭터를 추가하거나 “Remove”로 기존 영상에서 객체를 삭제할 수 있어, 제작자에게 반복적인 제어권을 제공합니다.
오픈 모델 구축에 대한 Ravin Kumar
우리는 Ravin과 함께 에이전트 기능을 갖춘 오픈 모델을 만드는 전체 과정을 살펴보았습니다. 이 과정은 전통적인 ML 라이프사이클을 닮았지만 훨씬 더 복잡한 구성 요소들을 포함합니다.
에이전트 데이터 정의
Ravin은 에이전트용 훈련 데이터가 일반 텍스트 데이터셋과는 크게 다르다고 설명했습니다. 먼저 사용자가 실제로 필요로 하는 것이 무엇인지 파악하는 것부터 시작합니다. 데이터 자체는 모델이 의사결정을 내리고 도구를 사용하는 복잡한 예시인 trajectory들의 모음입니다. 이들은 인간이 직접 선별한 데이터와 내부 “teacher” 모델 및 API를 통해 생성된 합성 데이터를 혼합해, 오픈 모델이 학습할 수 있는 놀이터를 만듭니다.
훈련 기법: SFT와 강화 학습
데이터가 준비되면 훈련 과정은 두 단계 접근법을 사용합니다. 먼저 Supervised Fine‑Tuning (SFT) 가 진행되어, 프레임워크가 모델의 가중치를 업데이트하고 예시를 기반으로 새로운 행동을 유도합니다. 원본 훈련 데이터에 없던 새로운 상황—일반화—을 다루기 위해 Reinforcement Learning (RL) 을 활용합니다. Ravin은 RL에서 보상을 설정하는 것이 어렵다고 강조하며, 모델이 최종 과제를 완수하지 못하고 중간 보상만을 획득하는 “reward hacking” 현상이 발생하기 쉬움을 경고했습니다.
평가의 중요성
평가는 과정 중 가장 중요하고 위험도가 높은 부분입니다. 훈련 파이프라인만을 신뢰할 수 없으며, 엄격한 “최종 시험”이 필요합니다. 우리는 일반적인 능력을 측정하기 위한 광범위한 공개 벤치마크와, 모델이 의도된 사용자 사용 사례에 대해 안전하고 효과적인지 확인하기 위한 맞춤형 평가를 조합해 사용합니다.
결론
Ravin Kumar와의 대화는 개방형 에이전시 모델을 구축하는 것이 매우 구조화되고 엄격한 과정임을 밝혀주었습니다. 이는 데이터에 대한 고품질 궤적을 생성하고, 감독 학습과 강화 학습을 신중히 결합하며, 무엇보다도 강도 높은 평가가 필요합니다.
직접 만들어 보기
Ravin이 조언했듯이, 시작하기 가장 좋은 위치는 끝에서부터입니다. 훈련 코드를 한 줄이라도 작성하기 전에, 에이전트를 위한 작은 50개 예시의 최종 시험을 만들어 성공이 어떤 모습인지 정의하세요. 측정할 수 없으면 개선할 수 없습니다. 또한 혼합 접근 방식을 실험해 보길 권장합니다. 예를 들어, Gemini와 같은 강력한 API 모델을 라우터로 사용하고, 특정 작업을 위해 특화된 오픈‑소스 모델을 활용하는 식입니다.
전체 에피소드를 확인하여 자세한 내용을 알아보고, 다음 시간에 다시 만나세요!
