구글 Gemini Omni, 영상부터 시작해 모든 입력으로 모든 것을 생성 가능.

발행: 3주 전 (2026년 5월 20일 AM 02:45 GMT+9)

4 분 소요

출처: Engadget

Google의 Gemini Omni가 Google I/O 화면 캡처에 표시됨

Gemini Omni 발표

Google은 최신 Gemini 발표 라운드에서 Gemini Omni를 공개했습니다. 이번 발표는 Google I/O에서 이루어졌으며, Google은 새로운 모델이 “어떤 입력이든—특히 비디오—부터 무언가를 만들어낼 수 있다”고 설명했습니다. 첫 번째 버전인 Gemini Omni Flash가 오늘부터 Gemini 앱, Google Flow, 그리고 YouTube Shorts에 순차적으로 제공됩니다.

주요 기능

멀티모달 입력 – 사용자는 이미지, 오디오, 비디오, 텍스트를 조합해 입력하고, Gemini의 실제 세계 지식을 바탕으로 고품질 비디오를 생성할 수 있습니다.
대화형 편집 – 비디오 편집은 자연어 명령으로 수행되며, 각 명령은 이전 명령을 기반으로 하여 등장인물과 요소들의 일관성을 유지합니다.
Veo 3.1 대비 확장된 기능 – 이전 Veo 3.1이 프롬프트와 이미지에만 제한됐던 것과 달리, Omni는 더 다양한 입력을 받아 기존 영상도 수정할 수 있습니다. 예를 들어, 행동을 바꾸거나, 새로운 등장인물·객체를 추가하거나, 장면의 환경·각도·스타일·세부 사항을 변형하도록 요청할 수 있습니다.
물리적 세계 이해 – 중력, 운동 에너지, 유체 역학 등 물리적 힘을 더 잘 파악해 보다 현실감 있는 장면을 구현합니다.
맥락 기반 스토리텔링 – 역사·과학·문화에 대한 Gemini의 지식이 포토리얼리즘과 의미 있는 스토리텔링을 연결해 짧은 프롬프트만으로도 설명 영상을 만들 수 있게 합니다.
음성 기반 아바타 – 사용자는 자신의 목소리를 제공해 자신과 닮은 디지털 아바타를 생성할 수 있습니다.
안전 조치 – Google은 사용자 보호를 위한 명확한 정책을 갖추고 있으며, 오디오 편집 기능을 책임감 있게 테스트하고 있다고 밝혔습니다. 모든 생성된 비디오는 눈에 띄지 않는 SynthID 디지털 워터마크가 삽입되어 출처를 확인할 수 있습니다.

제공 여부

Gemini Omni Flash는 현재 전 세계 Google AI Plus, Pro, Ultra 구독자 모두에게 제공되고 있습니다. 또한 이번 주부터 YouTube Shorts와 YouTube Create 앱 사용자에게도 순차적으로 롤아웃될 예정입니다.

구글 Gemini Omni, 영상부터 시작해 모든 입력으로 모든 것을 생성 가능.

Gemini Omni 발표

주요 기능

제공 여부

관련 글

Qwen3.7-Max: 에이전트 프론티어

Gemini 3.5 Flash 출시: 구글 최고 속도 모델, 코딩·에이전트 성능 향상.

Gemini Spark, 구글이 OpenClaw의 24시간 AI 에이전트에 대응.

이 앱은 몇 초 만에 바이럴 준비된 콘텐츠를 만들고, 이제 3년 동안 $40입니다

Gemini Omni 발표

주요 기능

제공 여부

관련 글

Qwen3.7-Max: 에이전트 프론티어

Gemini 3.5 Flash 출시: 구글 최고 속도 모델, 코딩·에이전트 성능 향상.

Gemini Spark, 구글이 OpenClaw의 24시간 AI 에이전트에 대응.

이 앱은 몇 초 만에 바이럴 준비된 콘텐츠를 만들고, 이제 3년 동안 $40입니다

Gemini 3.5 Flash 출시: 구글 최고 속도 모델, 코딩·에이전트 성능 향상.