논문] 인디콘텍스트평가: 오디오 LLM의 문맥 활용을 평가하는 8개 인도어 언어 벤치마크

발행: 1일 전 (2026년 6월 17일 PM 11:59 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.19157v1

개요

오디오LLM은 도메인 설명이나 엔티리 리스트와 같은 텍스트 프롬프트에 기반해 음성 인식 기능을 제공합니다. 하지만 이러한 모델이 실제로 해당 컨텍스트를 활용하는지, 아니면 사전 훈련을 통해 습득한 파라메트릭 지식에 의존하는지는 여전히 명확하지 않습니다. 기존 벤치마크는 고정된 프롬프트 조건 하에서 전사 평가를 수행하고 명시적인 컨텍스트 입력을 거의 포함하지 않기 때문에 이 질문에 답할 수 없습니다. 우리는 555명의 연사자를 8개 인도 언어와 23개 전문 도메인에 걸쳐 수집한 56시간의 자연 음성 다국어 벤치마크인 IndicContextEval를 소개합니다. 우리는 메타데이터, 자연어 설명, 영어 및 원본 스크립트 엔티리 리스트, 그리고 잘못된 엔티티를 가진 적대적 프롬프트를 포함해 단계적으로 컨텍스트 신호를 도입하는 7단계 프롬프트 프레임워크를 설계합니다. 5개 모델을 평가한 결과, 컨텍스트 활용 행동에 상당한 차이가 나타나며, AudioLLM에서 컨텍스트 근간의 명시적 평가가 필요함을 강조합니다.

주요 공헌

이 논문은 다음 분야를 다루고 있습니다:

eess.AS
cs.CL

방법론

자세한 방법에 대해서는 논문 전체를 참고하십시오.

실제 적용 가능성

이 연구는 eess.AS의 발전을 기여합니다.

저자

Sakshi Joshi
Dhruv Subhash Rathi
Sanskar Singh
Eldho Ittan George
R J Hari
Kaushal Bhogale
Mitesh M. Khapra

논문 정보

arXiv ID: 2606.19157v1
카테고리: eess.AS, cs.CL
발행일: 2026년 6월 17일
PDF: PDF 다운로드

논문] 인디콘텍스트평가: 오디오 LLM의 문맥 활용을 평가하는 8개 인도어 언어 벤치마크

개요

주요 공헌

방법론

실제 적용 가능성

저자

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 튜링 보상으로 사용자 시뮬레이터 학습

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation