[논문] 음성 감정 인식을 위한 오디오 언어 모델의 음향 단서 정렬

발행: (2026년 6월 5일 PM 11:26 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.07309v1

개요

명령을 따르는 오디오 언어 모델(ALM)에 명시적인 음향 단서를 추가할 수 있지만, 원시 오디오가 이미 제공될 때 이러한 단서가 실제로 근거 있는 방식으로 사용되는지는 아직 명확하지 않다. 우리는 표준화된 eGeMAPS 부언어 특징 집합에서 해석 가능한 여섯 가지 음향 개념 토큰을 도출하여 이 질문을 음성 감정 인식(SER) 분야에서 조사한다. 이 토큰들은 에너지, 피치, 다이내믹스, 밝기, 포먼트, 그리고 음성 품질을 요약하며, 오디오 입력은 그대로 두고 텍스트 프롬프트에 추가한다. 널리 사용되는 FAU‑Aibo와 IEMOCAP 벤치마크 전반에 걸쳐, 정렬된 토큰은 가중치 없는 평균 재현율(UAR)을 향상시키는 반면, 섞인·충돌·손상된 토큰은 정렬된 토큰에 비해 성능을 저하시키고 혼동을 중립 쪽으로 이동시킨다. 특히, 강한 토큰 교란 하에서도 예측이 붕괴되지 않아 모델이 기호적 단서 채널에 민감하면서도 오디오 신호에 어느 정도 고정되어 있음을 시사한다. 우리는 토큰만을 이용한 개입이 ALM 기반 감성 컴퓨팅에서 오디오에 근거한 단서 사용, 견고성 및 해석 가능성을 탐색하는 실용적인 방법을 제공한다고 주장한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.SD
  • cs.AI
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.SD 분야의 발전에 기여한다.

저자

  • Iosif Tsangko
  • Andreas Triantafyllopoulos
  • Björn W. Schuller

논문 정보

  • arXiv ID: 2606.07309v1
  • 분류: cs.SD, cs.AI, cs.CL
  • 발행일: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »