코드에서 인지로: 나의 AI 에이전트 집중 여정

발행: 1일 전 (2025년 12월 4일 오후 11:52 GMT+9)

13 min read

Source: Dev.to

관점을 바꾼 핵심 학습 내용

1. 에이전트는 기능이 아니라 아키텍처다

가장 인상 깊었던 점: 1일차에 전통적인 LLM 애플리케이션과 에이전시 아키텍처를 구분한 부분이 눈을 뜨게 했다. 나는 복잡한 프롬프트 체인을 구축하고 있었지만, 실제로는 자율 시스템을 설계해야 한다는 것을 깨달았다.

전환점: “LLM에게 X를 시키려면 어떻게 해야 하지?”에서 “추론·계획·행동이 가능한 시스템을 어떻게 설계할까?”로 관점이 바뀌면서 모든 것이 달라졌다. 멀티‑에이전트 시스템 코덜랩은 명확한 책임을 가진 특화된 에이전트가 단일형 접근보다 뛰어나다는 것을 보여주었다.

실용적인 인사이트: ADK로 첫 멀티‑에이전트 시스템을 만들면서 복잡한 작업을 에이전트 팀으로 분해하는 것이 효과적인 소프트웨어 아키텍처와 닮았다는 것을 보았다 – 단일 책임 원칙을 AI에도 적용한 것이다.

2. 도구는 사고와 행동을 연결하는 다리다

가장 인상 깊었던 점: 2일차에 Model Context Protocol (MCP)을 깊이 파고들면서 에이전트의 힘은 단순히 추론에 있는 것이 아니라 실제 세계와 상호작용할 수 있는 능력에 있다는 것을 알았다.

진화 과정: 기능 호출을 단순한 기술적 기능으로 보던 관점에서, LLM을 텍스트 생성기에서 실질적인 어시스턴트로 전환시키는 근본 메커니즘으로 이해하게 되었다.

돌파구 순간: 인간‑인‑루프 승인을 포함한 장기 실행 작업을 구현하면서 “자율적이면서도 책임감 있는” 에이전트를 만드는 실제 문제를 해결했다. “일시정지 → 승인 요청 → 재개” 패턴이 책임 있는 에이전트 설계의 프레임워크가 되었다.

MCP 인사이트: 도구 탐색 및 사용을 표준화한 Model Context Protocol 덕분에 고립된 구현이 아니라 상호운용 가능한 시스템을 구축하는 방법을 배웠다.

3. 컨텍스트 엔지니어링이 비밀 소스다

가장 인상 깊었던 점: 3일차에 세션과 메모리를 탐구하면서 상태를 유지하는 AI 시스템에 대한 접근 방식이 근본적으로 바뀌었다.

핵심 구분:

세션: 즉시 대화 컨텍스트 – 작업 메모리와 유사.
메모리: 상호작용 전반에 걸친 장기 지속성 – 일화적 메모리와 유사.

‘아하’ 순간: 진정한 메모리를 가진 에이전트를 구축하는 것은 대화 기록을 단순히 이어 붙이는 것이 아니라, 무엇을 기억하고, 무엇을 요약하고, 무엇을 잊을지 신중히 설계하는 컨텍스트 엔지니어링이 필요하다는 점이었다. 여기서 에이전트는 챗봇을 넘어 진정한 어시스턴트로 전환한다.

실용적인 적용: 단기(세션)와 장기(영구) 메모리를 모두 구현하면서 컨텍스트 윈도우 관리가 모델만큼이나 중요하다는 것을 배웠다. 모든 정보를 컨텍스트에 집어넣는 것이 아니라 전략적인 정보 아키텍처가 핵심이다.

4. 측정하지 못하면 개선할 수 없다

가장 인상 깊었던 점: 4일차에 소개된 관측 가능성 프레임워크 – 로그, 트레이스, 메트릭 – 가 가장 실용적인 교훈이었다.

깨달음: 나는 눈을 가리고 에이전트를 만들고 있었다. 적절한 로깅과 트레이싱이 없으면 디버깅은 차를 읽는 것과 같았다. 세 가지 기둥이 개발 프로세스를 완전히 바꾸어 놓았다:

로그 (일기): 모든 의사결정 지점을 기록.
트레이스 (서사): 엔드‑투‑엔드 실행 경로를 시각화.
메트릭 (건강 보고서): 정량화된 성능 지표.

LLM‑as‑a‑Judge: 언어 모델을 사용해 다른 언어 모델을 평가하는 것이 처음엔 메타적이었지만, 품질 평가를 확장하는 데 뛰어나다. HITL 평가와 결합하면 강력한 피드백 루프가 된다.

마인드셋 전환: 품질은 최종 검사가 아니라 지속적인 훈련이다. evaluate‑observe‑improve 사이클을 개발 초기부터 내재화해야 한다.

5. 프로덕션은 전혀 다른 우주다

가장 인상 깊었던 점: 5일차에 다룬 프로토타입‑투‑프로덕션 격차는 겸손함을 주었고 필수적이었다.

현실 점검: 로컬 노트북 실험은 프로덕션‑레디 시스템과는 거리가 멀었다. 백서가 강조한 내용:

확장성 및 배포 패턴
엔터프라이즈 거버넌스와 신뢰성
A2A 프로토콜을 통한 에이전트 상호운용성
보안, 정체성, 제한된 정책

이것들은 선택 사항이 아니라 실세계 에이전트 시스템의 기본 요건이다.

A2A 프로토콜 돌파구: Agent‑to‑Agent Protocol을 통해 통신하는 멀티‑에이전트 시스템을 구축하면서 미래를 보았다: 조직 경계를 넘어 협업하는 특화된 에이전트들의 생태계, 단일형 AI 서비스가 아니다.

배포 인사이트: Vertex AI Agent Engine 코덜랩은 에이전트를 배포하는 것이 단순히 코드를 호스팅하는 것이 아니라, 신뢰성·모니터링·확장성을 갖춘 서비스와 적절한 API 관리까지 포함한다는 것을 보여주었다.

이해가 어떻게 진화했는가

코스 전

에이전트 = 함수 호출이 가능한 챗봇
초점: LLM으로부터 응답 얻기
접근법: 프로토타입 중심, 로컬 실험
평가: 수동 테스트, 느낌 기반 품질 판단

코스 후

에이전트 = 추론·계획·메모리·도구 사용이 가능한 자율 시스템
초점: 실제 문제를 해결하는 지능형 시스템 설계
접근법: 관측 가능성과 평가가 내재된 프로덕션‑우선 마인드셋
평가: 메트릭과 지속적 개선을 포함한 체계적인 품질 프레임워크

더 큰 그림

이 코스를 통해 우리는 단순히 더 나은 챗봇을 만드는 것이 아니라 새로운 소프트웨어 카테고리를 창조하고 있음을 깨달았다. 에이전트는 절차적 프로그래밍에서 객체‑지향 프로그래밍으로, 혹은 모놀리식에서 마이크로서비스로 전환되는 패러다임 변화와 맞먹는다.

코스 전반에 걸쳐 소개된 Agent Ops는 개발·운영·거버넌스·품질을 결합한 개념으로, DevOps가 소프트웨어 전달 방식을 혁신한 것과 유사하다. 우리는 이 변혁의 초기 단계에 있으며, 지금 이 기본을 이해하는 것이 앞으로의 방향을 shaping 하는 데 큰 도움이 될 것이다.

프로덕션 에이전트를 구축하기 위한 핵심 포인트

아키텍처부터 시작: 코드를 작성하기 전에 에이전트 책임, 도구, 상호작용 패턴을 정의한다.
메모리는 전략적이다: 모든 것을 기억할 필요는 없다. 컨텍스트 엔지니어링을 의도적으로 설계한다.
도구는 에이전트의 손: 명확한 계약을 가진 견고하고 잘 설계된 도구 인터페이스에 투자한다.
관측 가능성은 필수: 로깅·트레이싱·메트릭을 사후가 아니라 처음부터 구축한다.
지속적 평가: 품질은 단계가 아니라 실천이다. LLM‑as‑a‑Judge + HITL이 피드백 루프를 만든다.
시스템 사고: 특화된 역할을 가진 멀티‑에이전트 아키텍처가 일반형 접근보다 우수하다.
프로덕션은 다르다: 자유롭게 프로토타입을 만들되, 프로덕션 격차를 조기에 인식하고 계획한다.
상호운용성 중요: MCP와 A2A 같은 표준은 제약이 아니라 생태계 수준 혁신을 가능하게 하는 촉진제다.

다음 단계: 학습 내용 적용하기

이 통찰을 바탕으로 나는 AI 에이전트 개발에 새로운 프레임워크를 적용하고 있다:

이 에이전트의 구체적인 책임은 무엇인가?
그 책임을 수행하기 위해 어떤 도구가 필요한가?
컨텍스트와 메모리를 어떻게 유지할 것인가?
그 행동을 어떻게 관측하고 평가할 것인가?
프로토타입에서 프로덕션까지의 경로는 어떻게 설계할 것인가?
다른 에이전트와 어떻게 상호운용할 것인가?

AI Agents Intensive는 단순히 Gemini와 ADK 사용법을 가르친 것이 아니라, 자율 AI 시스템을 사고하는 정신 모델을 제공했다. 프로토타입 시대에서 프로덕션 시대로 전환하면서, 이 모델이 모든 설계 결정을 이끌어줄 것이다.