Gemini 3.1 Flash Live의 데뷔는 로봇과 대화하고 있는지 알기 어렵게 만들 수 있다

발행: 4시간 전 (2026년 3월 27일 AM 02:44 GMT+9)

3 분 소요

Source: Ars Technica

Scale AI의 Audio MultiChallenge 성능

Scale AI의 Audio MultiChallenge에서 강력한 결과를 보인 것은 새로운 Gemini 모델이 오디오 입력에서의 주저함과 끊김을 이전 버전보다 더 잘 처리한다는 것을 의미합니다. 실시간 오디오 모델 중에서는 Gemini 3.1 Flash Live가 36.1 % 점수를 받아 앞서 나가지만, 대화용으로 설계되지 않은 오디오 모델은 MultiChallenge에서 50 % 이상을 기록할 수 있습니다.

Gemini 3.1 Flash Live 벤치마크
출처: Google

SynthID 워터마크

Gemini 3.1 Flash Live는 사람처럼 들리도록 설계되어 Google이 AI 플래그를 통합했습니다. 모델의 출력에는 SynthID 워터마크가 포함되어 있으며, 이는 인간 청취자에게는 들리지 않지만 AI‑생성 음성을 식별하도록 설계된 도구로는 감지할 수 있습니다.

파트너십 및 활용 사례

Google은 Home Depot 및 Verizon과 같은 기업과 협력해 모델을 테스트하고 있습니다. 이들의 블로그 게시물에 따르면 3.1 Flash Live는 인간의 말을 매우 가깝게 모방할 수 있어, 향후 전화 통화용 AI 비서가 인간 화자와 구분하기 어려울 정도로 현실감 있게 들릴 가능성이 있습니다.

제공 여부

개발자는 이제 다음 경로를 통해 Gemini 3.1 Flash Live에 접근할 수 있습니다:

AI Studio
Gemini API
고객 경험을 위한 Gemini Enterprise (에이전시형 쇼핑 툴킷)

이 모델은 Gemini Live와 Search Live(AI 모드의 기능)에서 눈에 띄게 등장할 것이며, 오늘부터 순차적으로 롤아웃이 시작됩니다.

Gemini 3.1 Flash Live의 데뷔는 로봇과 대화하고 있는지 알기 어렵게 만들 수 있다

Scale AI의 Audio MultiChallenge 성능

SynthID 워터마크

파트너십 및 활용 사례

제공 여부

관련 글

Gemini가 이제 당신의 음악 아이디어를 3분짜리 노래로 바꿔줍니다

ATOM MCP Server를 사용한 실시간 AI 추론 가격 조회

MIT 엔지니어, 형태만이 아니라 움직임으로 단백질을 설계

생각보다 빠르게: AI가 소행성처럼 충돌할 것이다