구글, 제미나이 3.5 기반 실시간 번역 모델 공개

발행: 3일 전 (2026년 6월 10일 PM 02:42 GMT+9)

3 분 소요

Source: Byline Network

(출처=구글)

구글이 70개 이상 언어를 지원하는 실시간 음성 번역 오디오 모델 ‘제미나이 라이브 3.5 트랜슬레이트’를 9일 공개했다.

공개된 모델은 말이 끝날 때까지 기다렸다가 번역을 시작하는 기존 방식과 달리 음성을 실시간으로 감지해 번역한다. 구글은 이 모델이 실제 발화보다 몇 초 정도만 뒤처지며, 화자의 억양·말하는 속도·음높이를 유지하면서 음성을 생성한다고 설명했다.

모델은 구글 서비스 전반에 순차적으로 도입된다. 이달부터 화상회의 플랫폼 구글 미트에 비즈니스 고객을 대상으로 선출시 후, 올해 말 확대 배포될 예정이다.

구글 번역 모바일 앱에도 적용된다. 특히 안드로이드 사용자는 이어폰을 착용하거나 스마트폰을 귀에 대면 번역된 음성이 나오는 ‘듣기 모드’ 기능을 사용할 수 있다.

개발자를 위한 API도 마련됐다. 개발자들은 ‘제미나이 라이브 API’를 이용해 해당 모델을 자체 서비스 및 애플리케이션에 통합할 수 있다.

모델로 생성하는 모든 오디오 출력물은 AI 생성 콘텐츠를 식별할 수 있도록 ‘신스ID(SynthID)’ 워터마크를 자동으로 삽입한다.

글. 바이라인네트워크

관련 글