논문] 인디콘텍스트평가: 오디오 LLM의 문맥 활용을 평가하는 8개 인도어 언어 벤치마크
개요
오디오LLM은 도메인 설명이나 엔티리 리스트와 같은 텍스트 프롬프트에 기반해 음성 인식 기능을 제공합니다. 하지만 이러한 모델이 실제로 해당 컨텍스트를 활용하는지, 아니면 사전 훈련을 통해 습득한 파라메트릭 지식에 의존하는지는 여전히 명확하지 않습니다. 기존 벤치마크는 고정된 프롬프트 조건 하에서 전사 평가를 수행하고 명시적인 컨텍스트 입력을 거의 포함하지 않기 때문에 이 질문에 답할 수 없습니다. 우리는 555명의 연사자를 8개 인도 언어와 23개 전문 도메인에 걸쳐 수집한 56시간의 자연 음성 다국어 벤치마크인 IndicContextEval를 소개합니다. 우리는 메타데이터, 자연어 설명, 영어 및 원본 스크립트 엔티리 리스트, 그리고 잘못된 엔티티를 가진 적대적 프롬프트를 포함해 단계적으로 컨텍스트 신호를 도입하는 7단계 프롬프트 프레임워크를 설계합니다. 5개 모델을 평가한 결과, 컨텍스트 활용 행동에 상당한 차이가 나타나며, AudioLLM에서 컨텍스트 근간의 명시적 평가가 필요함을 강조합니다.
주요 공헌
이 논문은 다음 분야를 다루고 있습니다:
- eess.AS
- cs.CL
방법론
자세한 방법에 대해서는 논문 전체를 참고하십시오.
실제 적용 가능성
이 연구는 eess.AS의 발전을 기여합니다.
저자
- Sakshi Joshi
- Dhruv Subhash Rathi
- Sanskar Singh
- Eldho Ittan George
- R J Hari
- Kaushal Bhogale
- Mitesh M. Khapra
논문 정보
- arXiv ID: 2606.19157v1
- 카테고리: eess.AS, cs.CL
- 발행일: 2026년 6월 17일
- PDF: PDF 다운로드