Gemini 3.1 Flash Live의 데뷔는 로봇과 대화하고 있는지 알기 어렵게 만들 수 있다

발행: (2026년 3월 27일 AM 02:44 GMT+9)
3 분 소요

Source: Ars Technica

Scale AI의 Audio MultiChallenge 성능

Scale AI의 Audio MultiChallenge에서 강력한 결과를 보인 것은 새로운 Gemini 모델이 오디오 입력에서의 주저함과 끊김을 이전 버전보다 더 잘 처리한다는 것을 의미합니다. 실시간 오디오 모델 중에서는 Gemini 3.1 Flash Live가 36.1 % 점수를 받아 앞서 나가지만, 대화용으로 설계되지 않은 오디오 모델은 MultiChallenge에서 50 % 이상을 기록할 수 있습니다.

Gemini 3.1 Flash Live 벤치마크
출처: Google

SynthID 워터마크

Gemini 3.1 Flash Live는 사람처럼 들리도록 설계되어 Google이 AI 플래그를 통합했습니다. 모델의 출력에는 SynthID 워터마크가 포함되어 있으며, 이는 인간 청취자에게는 들리지 않지만 AI‑생성 음성을 식별하도록 설계된 도구로는 감지할 수 있습니다.

파트너십 및 활용 사례

Google은 Home Depot 및 Verizon과 같은 기업과 협력해 모델을 테스트하고 있습니다. 이들의 블로그 게시물에 따르면 3.1 Flash Live는 인간의 말을 매우 가깝게 모방할 수 있어, 향후 전화 통화용 AI 비서가 인간 화자와 구분하기 어려울 정도로 현실감 있게 들릴 가능성이 있습니다.

제공 여부

개발자는 이제 다음 경로를 통해 Gemini 3.1 Flash Live에 접근할 수 있습니다:

  • AI Studio
  • Gemini API
  • 고객 경험을 위한 Gemini Enterprise (에이전시형 쇼핑 툴킷)

이 모델은 Gemini LiveSearch Live(AI 모드의 기능)에서 눈에 띄게 등장할 것이며, 오늘부터 순차적으로 롤아웃이 시작됩니다.

0 조회
Back to Blog

관련 글

더 보기 »

ATOM MCP Server를 사용한 실시간 AI 추론 가격 조회

소개 LLM 가격을 벤더별로 비교해 본 적이 있다면 그 과정이 얼마나 고통스러운지 알 수 있습니다. 한 업체는 토큰당 요금을 부과하고, 다른 업체는 문자당 요금을 부과하며, 또 다른 업체는 r당 요금을 부과합니다.