Agentic AI와 함께 미래를 설계하기 — UC Berkeley Agentic AI MOOC (2025 가을)에서의 회고

발행: (2025년 12월 18일 오전 02:51 GMT+9)
7 min read
원문: Dev.to

Source: Dev.to

번역을 진행하려면 번역하고자 하는 본문 내용을 제공해 주시겠어요?
본문을 알려주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

Overview

이번 가을에 저는 캘리포니아 대학교 버클리에서 제공하는 Agentic AI MOOC (Fall 2025) 를 수강했습니다. 이 강의는 12개의 강의로 구성된 시리즈로, LLM 기반 에이전트의 급속히 진화하는 최전선을 탐구합니다. Fall 2024 LLM Agents MOOC와 Spring 2025 Advanced LLM Agents MOOC를 기반으로, 코스는 에이전트를 정의하는 단계에서 시작해 실제 환경에서 에이전시 시스템을 설계, 평가, 배포 및 관리하는 단계까지 진행합니다.

Agentic AI는 지능형 시스템을 구축하기 위한 핵심 패러다임으로 부상하고 있으며, 자율적 추론, 다단계 계획, 도구 활용, 협업 및 개인화를 소프트웨어 엔지니어링, 로보틱스, 과학 탐구, 웹 자동화 등 다양한 분야에서 가능하게 합니다. 강의는 OpenAI, NVIDIA, Meta, Google DeepMind, Stanford, Microsoft 등 전문가들이 시스템 설계, 모델링, 평가 및 안전성에 대해 다루었습니다.

강연 시리즈 하이라이트

  • LLM 에이전트 개요 — Yann Dubois (OpenAI)
  • AI 엔지니어 관점에서 본 시스템 설계의 진화 — Yangqing Jia (NVIDIA)
  • 훈련 후 검증 가능한 에이전트 — Jiantao Jiao (NVIDIA)
  • 에이전트 평가 및 프로젝트 개요
  • 에이전트 모델 훈련에서의 도전 과제와 교훈 — Weizhu Chen (Microsoft)
  • 멀티 에이전트 AI — Noam Brown (OpenAI)
  • LLM에서 예측 가능한 노이즈 — Sida Wang (Meta)
  • 과학적 발견 자동화를 위한 AI 에이전트 — James Zou (Stanford)
  • 실제 AI 에이전트 배포에서 얻은 실용적인 교훈 — Clay Bavor (Sierra)
  • LLM 시대의 멀티 에이전트 시스템 — Oriol Vinyals (Google DeepMind)
  • 자율 에이전트: 구현, 상호작용 및 학습 — Peter Stone (UT Austin / Sony AI)
  • 에이전트 AI 안전 및 보안 — Dawn Song (UC Berkeley)

주요 내용

  • 에이전트 AI는 아키텍처, 평가, 신뢰성에 관한 것이며, 단순히 더 나은 프롬프트만을 의미하지 않습니다.
  • 다중 에이전트 시스템은 새로운 추론 및 협업 전략이 필요한 emergent 행동을 보여줍니다.
  • 평가는 여전히 어려운 문제이며, SWE‑bench, BrowseComp, τ²‑Bench와 같은 벤치마크가 중요한 진전 단계입니다.
  • 실제 배포에서는 실험실 환경에서는 없던 문제들, 예를 들어 지연 시간, 견고성, 안전성, 사용자 신뢰가 드러납니다.
  • 안전과 보안은 사후 고려가 아니라 최우선적인 관심사입니다.

강의 스포트라이트: 실제 AI 에이전트 배포에서 얻은 실용적인 교훈

핵심 메시지

Clay Bavor (Co‑Founder, Sierra)는 LLM이 빙산의 일각에 불과하다고 강조했습니다. 실제 운영에서는 눈에 보이는 구성 요소—LLM, retrieval‑augmented generation (RAG), 그리고 툴 사용—가 그가 Agent Iceberg이라 부르는 더 큰 기반 위에 놓여 있습니다. 이 기반에는 다음이 포함됩니다:

  • 가시성 및 모니터링
  • 가드레일 및 정책 집행
  • 테스트 프레임워크와 장애 복구 전략
  • 접근 제어 및 컴플라이언스 워크플로우
  • 모델 업그레이드 파이프라인

이러한 역량은 종종 과소평가되지만, 신뢰할 수 있는 에이전트를 위해 필수적입니다.

평가 및 테스트 (τ‑Bench / τ²‑Bench)

Bavor는 τ‑Bench 스위트를 강조했으며, 이는 현실적인 다중 턴, 정책 제약 환경에서 에이전트를 평가합니다. 주요 요소는 다음과 같습니다:

  1. LLM 기반 사용자 시뮬레이터
  2. 사용자와 에이전트가 모두 툴을 통해 행동할 수 있는 듀얼‑컨트롤 설정
  3. 최종 시스템 상태를 기반으로 한 객관적 성공 검증

pass^k와 같은 메트릭은 대화 변동성 하에서 일관성을 측정하며, 에이전트가 수백만 건의 상호작용을 처리할 때 신뢰성이 가끔의 뛰어남보다 더 중요하다는 프로덕션 현실을 반영합니다.

음성 에이전트

음성 기반 에이전트를 배포하면 추가적인 도전 과제가 발생합니다:

  • 전사 품질 및 배경 소음
  • 억양, 감정 톤, 그리고 실제 엔터티의 발음

이러한 요소들은 모델 개선을 넘어선 깊은 시스템 수준의 사고를 요구합니다.

전체적인 회고

이번 강의는 에이전시 AI에 대한 나의 관점을 재정립시켰습니다. 프로덕션에서의 성공은 견고한 인프라, 엄격한 평가, 그리고 포괄적인 안전 조치에 달려 있습니다.

Agentic AI MOOC 탐색하기:

강사들과 UC Berkeley 팀에게 감사드립니다. 이들은 단순히 트렌드를 따르는 것이 아니라 Agentic AI의 미래를 형성하는 코스를 설계했습니다.

Back to Blog

관련 글

더 보기 »

창고 활용에 대한 종합 가이드

소개 창고는 근본적으로 3‑D 박스일 뿐입니다. Utilisation은 실제로 그 박스를 얼마나 사용하고 있는지를 측정하는 지표입니다. While logistics c...