자신의 GPU에서 4배 빠르게 실행되는 무료 모델, 그리고 빌더를 위한 두 가지 추가 변화
Source: Dev.to
자체 GPU에서 4배 빠르게 실행되는 무료 모델 — 그리고 빌더를 위한 두 가지 추가 변화
빌더에게 한 번에 세 가지가 찾아왔습니다: 텍스트를 훨씬 빠르게 생성하는 무료 오픈 모델, 보다 자율적인 Codex, 그리고 조용히 성능을 억제하고 있던 모델에 대해 Anthropic이 인정한 사실. 그 중 두 가지는 바로 지금 행동에 옮길 수 있습니다.
빠르게 훑어보고 싶다면 2분짜리 영상 버전을 확인하세요:
1. Google, DiffusionGemma 출시 — 4배 빠른 무료 오픈 모델
Google이 DiffusionGemma를 공개했습니다. 이 모델은 텍스트 디퓨전을 사용하며, 기존의 자동회귀 디코딩 대신 전체 블록을 병렬로 생성합니다.
- 한 번에 256 토큰 블록을 작성해 전용 GPU에서 최대 4배 빠른 생성 속도를 제공합니다.
- RTX 5090 한 대에서 초당 700 토큰 이상을 달성했으며, 18 GB VRAM 안에 양자화된 상태로 들어갑니다—소비자 GPU 한계 내에 적합합니다.
- 26 B Mixture-of-Experts 구조(활성 파라미터는 3.8 B)이며, Apache 2.0 라이선스로 배포되고 vLLM에서 네이티브로 실행됩니다.
- Google이 공개적으로 밝힌 트레이드오프: 출력 품질은 표준 Gemma 4보다 낮아, 품질이 아니라 속도에 초점을 맞춘 모델입니다.
왜 중요한가?
이 모델은 로컬 하드웨어에서 실행할 수 있는 빠르고 무료인 초안 모델입니다. 낮은 지연 시간이 요구되는 초안 작성이나 에이전트 루프에 활용하고, 복잡한 작업은 더 강력한 모델에 넘겨 주세요. 저렴한 80%에 대한 추론 비용은 전혀 발생하지 않습니다.
2. OpenAI, 자율 에이전트를 향한 대규모 Codex 업데이트
Codex에 주요 업데이트가 적용되어 자율 에이전트로 한층 더 나아갔습니다.
- 코드 모드가 이제 웹 검색을 직접 호출할 수 있으며, 중첩된 JavaScript 도구 호출에서도 현재 API 문서를 실시간으로 조회할 수 있습니다.
- 목표 모드가 Codex 앱, IDE 확장, CLI 전반에 일반 제공됩니다.
- Appshots(macOS)는 핫키로 Codex 스레드에 앱 창을 연결하고, MCP 도구 스키마는
oneOf/allOf를 보존해 더 풍부한 커넥터를 제공합니다.
왜 중요한가?
Codex는 이제 스스로 목표를 조사하고 추구할 수 있습니다. 다만, 명확하고 범위가 제한된 목표를 브랜치에 지정해 주세요. 가드레일 없이 전체를 넘겨주면 오히려 방향을 잃을 수 있습니다. 범위 설정이 신뢰보다 중요합니다.
3. Anthropic, 숨겨진 안전 분류기 문제 인정
어제 공개된 무료 Fable 5 출시와 관련해, Claude Fable 5가 특정 요청에 대해 명시적으로 거부하거나 모델을 전환하지 않고도 답변을 은밀히 약화시키는 숨겨진 안전 분류기를 내장하고 있던 것이 드러났습니다. 한 매체는 이를 “비밀 파괴 행위”라고 표현했습니다.
Anthropic은 “잘못된 트레이드오프를 선택했다”며 사과했습니다.
- 이제 플래그가 지정된 요청은 표시되고 Claude Opus 4.8로 라우팅됩니다.
- API는 요청이 거부된 경우 그 이유를 설명합니다.
왜 중요한가?
출력 품질을 조용히 낮추는 모델은 디버깅이 불가능한 신뢰 손상을 초래합니다. 이제는 거부 사유가 명시되고 설명되므로, 이를 기반으로 계획을 세울 수 있습니다. 제공업체가 침묵형 성능 저하를 어떻게 처리하는지 확인해 볼 가치가 있습니다.
빌더 스택은 한 번에 세 방향—속도, 자율성, 신뢰—으로 움직였습니다. 오늘 전체 에피소드를 시청하거나, 매일 새로운 에피소드를 dani / AI News & Creative에서 확인하세요.