음성 에이전트가 이중언어 고객을 감당할 수 있을까? 코드스위치 음성에서 최신 ASR 벤치마크

발행: 3일 전 (2026년 6월 10일 AM 04:38 GMT+9)

9 분 소요

소개
벤치마크 데이터 파이프라인
평가 방법론
결과 A. 코드스위칭 벤치마크에서 모델은 얼마나 잘 수행되는가?
WER 결과 (낮을수록 좋음)
SWER 및 AER 결과 (낮을수록 좋음)
B. 단일 언어 음성에 비해 코드스위칭이 추가로 요구하는 비용은?
C. 코드스위칭이 ASR 시스템을 어떻게 무너뜨리는가?
제한 사항
결론

소개

전 세계 인구의 절반 이상이 두 개 이상의 언어를 구사합니다. 그리고 많은 이중언어 화자에게 코드스위칭—문장 중간에도 자연스럽게 언어를 전환하는 것—은 일상 커뮤니케이션의 자연스러운 일부입니다. 캐주얼한 대화, 콜센터, IT 헬프데스크 등 어디서든 화자는 상황에 가장 자연스러운 언어로 유연하게 전환합니다.

전 세계에 이중언어 화자가 널리 존재함에도 불구하고, 기업 환경에서 음성 에이전트가 코드스위칭된 음성을 어떻게 처리하는지에 대한 연구는 거의 없습니다. 그래서 고객이 “우리처럼 이중언어 사용자가 많고 자주 코드스위칭하는 경우, 음성 에이전트가 어떻게 동작할까?”라고 물었을 때, 우리는 직접 벤치마크와 데이터를 구축해 모델을 평가하기로 했습니다. 우리는 자동 음성 인식(ASR)—음성 에이전트 파이프라인의 첫 단계—에 집중했습니다. 전사 오류는 이후 모든 하위 컴포넌트에 전파되기 때문입니다. 기업 환경에서는 잘못 라우팅된 티켓이나 오해된 정책 질문이 실제 운영에 큰 영향을 미치므로, 전사를 정확히 하는 것이 특히 중요합니다.

우리 벤치마크는 고객 기반에 가장 관련성이 높은 네 쌍의 언어를 다룹니다: 스페인어‑영어, 프랑스어‑영어, 캐나다 프랑스어‑영어, 독일어‑영어. 비영어를 매트릭스 언어로 삼고, 영어를 다양한 길이로 삽입합니다. 데이터는 복리·급여 문의, 비밀번호 재설정, VPN 접근, 디바이스 트러블슈팅 등 인사(HR)와 IT 서비스 관리(ITSM) 시나리오를 폭넓게 포함합니다. 모델 성능을 측정하기 위해 세 가지 지표를 보고합니다: Word Error Rate (WER), Semantic Word Error Rate (SWER), Answer Error Rate (AER). 이 지표들은 (1) 전사 정확도와 (2) 하위 작업을 위한 의미 보존 능력을 동시에 포착하도록 선택했습니다.

우리는 AU‑Harness라는 음성 모델 평가용 하네스를 통해 벤치마크와 데이터를 공개합니다. 또한 대형 오디오 언어 모델(LALM), 최신 상용 ASR, 오픈소스 ASR 등 일곱 가지 시스템의 결과도 제공합니다. 주요 발견은 코드스위칭 비용이 언어 쌍과 모델에 따라 크게 달라진다는 점입니다. ElevenLabs Scribe V2, Gemini 3 Flash, Assembly AI Universal 3‑Pro가 전반적인 지표에서 최고 성능을 보였습니다.

벤치마크

데이터 파이프라인

우리는 내부 IT 지원 및 HR 대화 코퍼스에서 시작했습니다. 코드스위칭된 발화를 만들기 위해, 먼저 영어와 네 개 비영어 중 하나에 대한 병렬 사용자 발화를 준비하고, 코드스위칭 후보를 선별했습니다. 발화 길이는 12~40단어로 제한했는데, 이는 자연스러운 대화 턴으로 충분히 짧으면서도 실제 전환 기회를 제공하기에 충분히 길기 때문입니다. 또한 엔터티가 과도하게 차지하는 발화(이메일, 전화번호, ID, URL 등)는 제외했습니다. 이런 경우 텍스트가 절반 이상 영어가 되는 것이 선택이 아니라 필연이기 때문입니다. 마지막으로 최소 세 개의 전환 가능한 내용어(명사·동사·형용사, 엔터티나 제품명 제외)를 요구해, 생성 모델이 의미 있는 코드스위칭 버전을 만들 충분한 재료를 확보했습니다.

이후 우리는 현실적인 언어 결합 전략을 여러 가지 실험했으며, 최종적으로 LLM(OpenAI/GPT‑5)에 간단한 페르소나 프롬프트를 전달해 코드스위칭 텍스트를 생성하도록 했습니다. 생성된 텍스트를 LLM으로 구두 형태로 변환하고, ElevenLabs Multilingual V2를 이용해 오디오를 합성했습니다. 모든 발화는 매트릭스 언어(비영어)의 원어민 AI/NLP 언어학자에게 검수받았으며, 플래그된 발화는 제외하거나 재생성·재검수했습니다. 최종 데이터셋은 다음과 같습니다:

스페인어‑영어: 259개 레코드
프랑스어‑영어: 298개 레코드
캐나다 프랑스어‑영어: 188개 레코드
독일어‑영어: 173개 레코드

평가 방법론

우리는 모델·언어쌍별로 세 가지 지표를 보고합니다. 각각은 전사 정확도, 의미 보존, 하위 작업 성능을 포착하도록 설계되었습니다.

Word Error Rate (WER) – 언어쌍 전체 WER 외에 각 언어별 WER도 함께 제시합니다.
Semantic WER (SWER) – 의미적으로 중요한 오류 비율을 나타냅니다. 구현은 주로 Pipecat’s STT benchmark를 기반으로 하며, 판정 모델로 Gemma‑4‑31B를 사용합니다.
Answer Error Rate (AER) – 전사 오류가 실제 하위 작업 실패로 이어지는지를 직접 측정합니다. 이는 질문‑답변 형식의 지표로, Bhushan et al. (IISc/ARTPARK, arXiv 2507.16456) 방법론을 따릅니다. 각 발화에 대해 세 개의 이해 질문을 생성하고, ASR 전사를 읽은 LLM이 이를 정확히 답할

음성 에이전트가 이중언어 고객을 감당할 수 있을까? 코드스위치 음성에서 최신 ASR 벤치마크

소개

벤치마크

데이터 파이프라인

평가 방법론

관련 글

PyTorch 프로파일링 (2부): nn.Linear에서 통합 MLP까지

Cohere, 개발자용 첫 모델 ‘North Mini Code’ 공개

에이전트가 두 개의 Hugging Face Spaces를 연결해 3D 파리 갤러리를 만든 방법

GitHub CI를 Hugging Face Jobs로 이전하기

소개

벤치마크

데이터 파이프라인

평가 방법론

관련 글

PyTorch 프로파일링 (2부): nn.Linear에서 통합 MLP까지

Cohere, 개발자용 첫 모델 ‘North Mini Code’ 공개

에이전트가 두 개의 Hugging Face Spaces를 연결해 3D 파리 갤러리를 만든 방법

GitHub CI를 Hugging Face Jobs로 이전하기

에이전트가 두 개의 Hugging Face Spaces를 연결해 3D 파리 갤러리를 만든 방법