[논문] Titans-as-a-Layer: 대화 음성 감정 인식을 위한 테스트 시 메모리

발행: (2026년 6월 7일 PM 08:07 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.08573v1

개요

음성 감정 인식(SER)은 일반적으로 발화 수준의 분류로 정의되지만, 대화 속 감정은 화자의 평소 음성 범위와 이전 발화가 만든 감정적 맥락에 의존합니다. 음성‑언어 모델은 강력한 사전 학습된 음향 및 의미 표현을 제공하며, 이를 미세 조정을 통해 SER 라벨에 맞출 수 있지만, 이러한 메커니즘은 대화별 상태를 여전히 반영하지 못합니다. 우리는 테스트 시점에 신경 메모리가 누락된 맥락을 제공하면서 대형 오디오 언어 모델(LALM) 본체는 그대로 유지할 수 있는지를 조사합니다. Titans를 기반으로, 우리는 대화 기록을 작은 신경 메모리에 기록하고 이를 오디오 토큰에 정렬된 잔차 업데이트로 읽어오는 플러그‑인‑플레이 Memory-as-a-Layer(MAL) 어댑터를 도입했습니다. 이는 호스트 모델의 토큰 위치를 변경하지 않으면서 구현됩니다. 다양한 오디오 LLM과 감정 인식 데이터셋에 대한 평가에서, 우리의 설계는 여러 평가 지표에 걸쳐 SER 성능을 향상시켰으며, 테스트 시점 메모리가 대화형 SER을 위한 잔차적 맥락 메커니즘으로 작동함을 입증합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.LG
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Daniel Chen
  • Qicong Hu
  • Yang Xiao
  • Ting Dang
  • Hong Jia

논문 정보

  • arXiv ID: 2606.08573v1
  • 분류: cs.LG, cs.CL
  • 발표일: 2026년 6월 7일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »