Colab에서 Gemma-4와 함께하는 Crew

발행: 7시간 전 (2026년 4월 26일 AM 03:16 GMT+9)

5 분 소요

Source: Dev.to

Introduction

저는 Google의 Gemma 4 모델과 CrewAI 프레임워크를 사용해 혐오 발언을 감지하는 로컬 AI 에이전트를 실험했습니다—유료 API, 키, 크레딧 없이 전부 진행했습니다. 이 설정은 Colab GPU에서 실행되며, 모든 것이 비공개이며 비용이 들지 않습니다.

Choosing a Model

많은 CrewAI 튜토리얼이 기본적으로 GPT‑4나 Claude를 사용하지만, Hugging Face에서 제공되는 어떤 오픈소스 모델이라도 실행할 수 있습니다. 저는 google/gemma-4‑E2B‑it를 선택했는데, 이는 Gemma 4의 20억 파라미터, 인스트럭션 튜닝 버전입니다. Colab에서 충분히 가볍고 transformers 라이브러리를 통해 로드할 수 있습니다.

Building a Custom LLM for CrewAI

CrewAI의 Agent 클래스는 OpenAI‑호환 API를 따르는 LLM 객체를 기대하므로, BaseLLM을 상속해 커스텀 클래스를 만들었습니다.

from crewai import BaseLLM

class Gemma4CrewAILLM(BaseLLM):
    def call(self, messages, tools=None, **kwargs):
        """
        Convert CrewAI messages to Gemma's format,
        apply the chat template via AutoProcessor,
        generate the response, and strip the prompt
        to return clean text.
        """
        # Convert messages to Gemma's format
        # Apply chat template via processor
        # Run model.generate()
        # Strip the prompt from output and return clean text

핵심 인사이트: Gemma는 토크나이징과 채팅 템플릿 적용을 위해 AutoProcessor를 사용합니다. enable_thinking=False로 설정하면 모델이 출력에 “thinking” 토큰을 삽입하는 것을 방지할 수 있습니다.

Integrating the Custom LLM with CrewAI

Gemma4CrewAILLM이 준비되면 CrewAI에 연결하는 과정은 간단했습니다. 저는 혐오 발언 감지 전문가 에이전트를 상세한 역할, 목표, 배경 스토리와 함께 정의했으며, 이는 에이전트의 추론을 이끄는 시스템 프롬프트 컨텍스트가 됩니다.

Prompt Design

에이전지는 텍스트 조각을 받아 구조화된 3개의 항목으로 보고서를 작성해야 합니다:

Verdict: Yes / No / Uncertain와 간단한 이유.
Detected Content: 구체적인 플래그된 구절과 대상 그룹.
Severity and Recommendation: 10점 만점의 수치 평점과 조치 (Allow / Flag for Review / Remove).

이 형식은 모델이 모호한 요약이 아니라 정확하고 실행 가능한 정보를 제공하도록 강제합니다—모더레이션 파이프라인에 이상적입니다.

Example Repository

전체 구현은 다음 gist에서 확인할 수 있습니다: GitHub Gist – Gemma 4 CrewAI Example

Possible Extensions

Add more agents: 예를 들어, 병렬 감성 또는 의도 분류기.
Function calling / tools: Gemma 4와 Llama 3.2는 구조화된 출력을 지원해 crew 기능을 강화합니다.
FastAPI wrapper: POST 엔드포인트를 노출해 HTTP를 통해 모더레이션 보고서를 반환하도록 구현.

Conclusion

이 실험은 오픈‑웨이트 모델을 사용해 API 비용 없이도 강력한 에이전시 AI 파이프라인을 구축할 수 있음을 보여줍니다. 2 B 파라미터 모델인 Gemma 4는 혐오 발언 감지에 충분히 좋은 성능을 보입니다. Llama‑3.2 7B나 Gemma‑4 4B와 같은 더 큰 모델을 사용하면 결과를 더욱 향상시킬 수 있습니다.

로컬 LLM을 에이전트 워크플로에 활용하고자 한다면 이 가이드가 도움이 되길 바랍니다. 질문이나 활용 아이디어가 있으면 댓글로 자유롭게 공유해주세요!

Colab에서 Gemma-4와 함께하는 Crew

Introduction

Choosing a Model

Building a Custom LLM for CrewAI

Integrating the Custom LLM with CrewAI

Prompt Design

Example Repository

Possible Extensions

Conclusion

관련 글

iOS에서 QR 코드를 안전하게 검사해야 했던 이유 (그리고 이를 해결한 도구)

영화 친구

shields.io 대안으로 배지를 shadcn/ui 버튼으로 렌더링했습니다

빅테크 기업들은 AI 투자와 통합을 가속화하고 있으며, 규제기관과 기업들은 안전과 책임 있는 도입에 집중하고 있다