Colab에서 Gemma-4와 함께하는 Crew

발행: (2026년 4월 26일 AM 03:16 GMT+9)
5 분 소요
원문: Dev.to

Source: Dev.to

Introduction

저는 Google의 Gemma 4 모델과 CrewAI 프레임워크를 사용해 혐오 발언을 감지하는 로컬 AI 에이전트를 실험했습니다—유료 API, 키, 크레딧 없이 전부 진행했습니다. 이 설정은 Colab GPU에서 실행되며, 모든 것이 비공개이며 비용이 들지 않습니다.

Choosing a Model

많은 CrewAI 튜토리얼이 기본적으로 GPT‑4나 Claude를 사용하지만, Hugging Face에서 제공되는 어떤 오픈소스 모델이라도 실행할 수 있습니다. 저는 google/gemma-4‑E2B‑it를 선택했는데, 이는 Gemma 4의 20억 파라미터, 인스트럭션 튜닝 버전입니다. Colab에서 충분히 가볍고 transformers 라이브러리를 통해 로드할 수 있습니다.

Building a Custom LLM for CrewAI

CrewAI의 Agent 클래스는 OpenAI‑호환 API를 따르는 LLM 객체를 기대하므로, BaseLLM을 상속해 커스텀 클래스를 만들었습니다.

from crewai import BaseLLM

class Gemma4CrewAILLM(BaseLLM):
    def call(self, messages, tools=None, **kwargs):
        """
        Convert CrewAI messages to Gemma's format,
        apply the chat template via AutoProcessor,
        generate the response, and strip the prompt
        to return clean text.
        """
        # Convert messages to Gemma's format
        # Apply chat template via processor
        # Run model.generate()
        # Strip the prompt from output and return clean text

핵심 인사이트: Gemma는 토크나이징과 채팅 템플릿 적용을 위해 AutoProcessor를 사용합니다. enable_thinking=False로 설정하면 모델이 출력에 “thinking” 토큰을 삽입하는 것을 방지할 수 있습니다.

Integrating the Custom LLM with CrewAI

Gemma4CrewAILLM이 준비되면 CrewAI에 연결하는 과정은 간단했습니다. 저는 혐오 발언 감지 전문가 에이전트를 상세한 역할, 목표, 배경 스토리와 함께 정의했으며, 이는 에이전트의 추론을 이끄는 시스템 프롬프트 컨텍스트가 됩니다.

Prompt Design

에이전지는 텍스트 조각을 받아 구조화된 3개의 항목으로 보고서를 작성해야 합니다:

  1. Verdict: Yes / No / Uncertain와 간단한 이유.
  2. Detected Content: 구체적인 플래그된 구절과 대상 그룹.
  3. Severity and Recommendation: 10점 만점의 수치 평점과 조치 (Allow / Flag for Review / Remove).

이 형식은 모델이 모호한 요약이 아니라 정확하고 실행 가능한 정보를 제공하도록 강제합니다—모더레이션 파이프라인에 이상적입니다.

Example Repository

전체 구현은 다음 gist에서 확인할 수 있습니다: GitHub Gist – Gemma 4 CrewAI Example

Possible Extensions

  • Add more agents: 예를 들어, 병렬 감성 또는 의도 분류기.
  • Function calling / tools: Gemma 4와 Llama 3.2는 구조화된 출력을 지원해 crew 기능을 강화합니다.
  • FastAPI wrapper: POST 엔드포인트를 노출해 HTTP를 통해 모더레이션 보고서를 반환하도록 구현.

Conclusion

이 실험은 오픈‑웨이트 모델을 사용해 API 비용 없이도 강력한 에이전시 AI 파이프라인을 구축할 수 있음을 보여줍니다. 2 B 파라미터 모델인 Gemma 4는 혐오 발언 감지에 충분히 좋은 성능을 보입니다. Llama‑3.2 7B나 Gemma‑4 4B와 같은 더 큰 모델을 사용하면 결과를 더욱 향상시킬 수 있습니다.

로컬 LLM을 에이전트 워크플로에 활용하고자 한다면 이 가이드가 도움이 되길 바랍니다. 질문이나 활용 아이디어가 있으면 댓글로 자유롭게 공유해주세요!

0 조회
Back to Blog

관련 글

더 보기 »

영화 친구

개요: 이것은 OpenClaw Writing Challenge에 대한 제출물입니다. DEV 커뮤니티에서 오랫동안 구경만 하고 글을 읽어온 저는, 마침내 하나에 도전해 보았습니다.