[Paper] TiCo: 시간 제어 가능한 훈련을 위한 음성 대화 모델

발행: (2026년 3월 24일 AM 02:51 GMT+9)
7 분 소요
원문: arXiv

Source: arXiv - 2603.22267v1

개요

이 논문은 TiCo (Time‑Controllable Training) 를 소개한다. 이는 경량의 사후 학습 기법으로, 음성 대화 모델(SDM)에 명시적인 시간 제약—예: “약 15 초 안에 응답한다”—을 준수할 수 있는 능력을 부여한다. 모델에 경과된 발화 시간을 인식하게 함으로써, TiCo는 음성 비서와 인터랙티브 에이전트가 실제 시간에 민감한 상황에서 보다 자연스럽고 사용자 친화적으로 들리도록 만든다.

핵심 기여

  • Time‑aware generation: 현재 경과 시간을 모델의 토큰 스트림에 직접 삽입하는 Spoken Time Markers (STM)을 도입합니다.
  • Simple post‑training pipeline: 몇 천 개의 자체 생성 예시만 필요하며, 추가적인 인간 주석 QA 쌍은 필요하지 않습니다.
  • Reinforcement‑learning fine‑tuning: 지속 시간 정확도와 언어 품질을 균형 있게 조정하는 보상을 사용하여 모델의 유창성을 유지합니다.
  • Empirical validation: 오픈소스(예: Whisper‑based)와 상용 SDM 모두 TiCo 적용 후 지속 시간 제약 준수가 크게 향상됨을 입증합니다.
  • Minimal overhead: 추론 시 지연이 거의 없으며, 사전 학습된 모든 음성 언어 모델에 적용할 수 있습니다.

Methodology

  1. Self‑generation of training data

    • The base SDM generates a batch of utterances without any time constraint.
    • For each utterance, the system computes the actual speaking duration (using a TTS front‑end or a simple phoneme‑duration model).
  2. Insertion of Spoken Time Markers (STM)

    • Tokens of the form <X.Y seconds> are interleaved into the transcript at regular intervals (e.g., every 2 seconds).
    • These markers act as “internal clocks,” letting the model see how much time has already been spoken.
  3. Reinforcement Learning (RL) fine‑tuning

    • Reward function = α · (1 – |target – actual|/target) + β · quality_score.
    • The first term pushes the model toward the desired duration; the second term (e.g., a BERTScore‑like metric) penalizes degradation in fluency or relevance.
    • Proximal Policy Optimization (PPO) is used to update the model weights while keeping the original language knowledge stable.
  4. Inference with time control

    • At generation time, the user supplies a target duration.
    • The model starts emitting tokens and STM updates; when the predicted remaining time falls below a threshold, it truncates or pads the output to hit the target.

결과 및 발견

모델 (pre‑TiCo)목표 10 s – ±1 s 이내 비율목표 15 s – ±1 s 이내 비율
Baseline Open‑source SDM12 %9 %
Baseline Commercial SDM15 %11 %
TiCo‑fine‑tuned Open‑source68 %71 %
TiCo‑fine‑tuned Commercial62 %66 %
  • 지속 시간 준수가 평균 약 5배 향상되었습니다.
  • 응답 품질(BLEU, METEOR, 인간 평가) 감소가 0.2점 미만으로, 시간 제어가 자연스러움을 희생하지 않음을 확인했습니다.
  • 추론 지연은 발화당 < 5 ms 증가하여 실시간 음성 비서 요구 사항을 충분히 만족합니다.

Practical Implications

  • Voice assistants can now tailor reply length to the context (e.g., brief confirmations while driving, longer explanations when the user is idle).
    → 음성 비서는 이제 상황에 맞게 응답 길이를 조정할 수 있습니다(예: 운전 중에는 짧은 확인, 사용자가 한가할 때는 더 긴 설명).
  • Customer‑service bots can respect call‑center timing policies, ensuring that agents are not kept waiting too long for a system‑generated hand‑off.
    → 고객 서비스 봇은 콜센터 타이밍 정책을 준수하여, 에이전트가 시스템이 생성한 핸드오프를 오래 기다리지 않도록 할 수 있습니다.
  • Multimodal agents (e.g., robot companions) can synchronize speech with gestures or visual cues by aligning spoken duration with other timed actions.
    → 멀티모달 에이전트(예: 로봇 동반자)는 말하기 지속 시간을 다른 타이밍 동작과 맞추어 음성을 제스처나 시각적 신호와 동기화할 수 있습니다.
  • Accessibility tools (screen readers, language learning apps) can produce speech that fits predefined lesson slots, improving curriculum pacing.
    → 접근성 도구(스크린 리더, 언어 학습 앱)는 미리 정의된 수업 시간에 맞는 음성을 생성하여 커리큘럼 진행 속도를 향상시킬 수 있습니다.
  • Developer workflow: TiCo can be added as a post‑training step to any existing SDM, requiring only a modest compute budget (a few GPU hours) and no new annotation pipeline.
    → 개발자 워크플로우: TiCo는 기존 SDM에 사후 학습 단계로 추가할 수 있으며, 소량의 컴퓨팅 예산(몇 시간의 GPU)만 필요하고 새로운 라벨링 파이프라인이 필요 없습니다.

Limitations & Future Work

  • Reliance on accurate duration estimation: 현재 파이프라인은 타이밍을 위해 TTS 프런트‑엔드를 사용합니다; 음소‑지속시간 모델의 오류가 전파될 수 있습니다.
  • Scope of control: TiCo는 전체 발화 길이에 초점을 맞추며, 보다 세밀한 제어(예: 멈춤 위치, 억양)는 다루지 않습니다.
  • Generalization to extreme durations: 매우 짧은 (< 2 s) 혹은 매우 긴 (> 30 s) 목표에 대해서는 효과가 감소하여, 커리큘럼‑형식 학습이 필요함을 시사합니다.
  • Future directions proposed by the authors include extending STM to encode prosodic cues, integrating user‑feedback loops for online adaptation, and evaluating TiCo on multilingual SDMs.

저자

  • Kai‑Wei Chang
  • Wei‑Chih Chen
  • En‑Pei Hu
  • Hung‑yi Lee
  • James Glass

논문 정보

  • arXiv ID: 2603.22267v1
  • 분류: cs.CL, cs.AI, eess.AS
  • 출판일: 2026년 3월 23일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »