다국어 추론을 강화하는 steerable 모델 합치기

발행: (2026년 6월 17일 PM 09:28 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.19002v1

개요

모델 합치는 다국어 모델과 추론 모델의 능력을 통합하는 효과적인 방법입니다. 다양한 언어에서의 추론 작업에서 일반화된 성능을 보여주며, 다른 모델들의 특성을 맞춤 정렬하여 달성했습니다. 그러나 합쳐진 단일 모델은 종종 소스 모델 간 충돌을 해결하지 못해 최적의 결과를 얻지 못합니다. 즉, 일괄적인 합치기 전략은 다양한 입력이 서로 다른 요구를 가지고 있어 특정 모델을 우선시해야 할 수 있으며, 이는 모든 상황에 적용되기 어렵습니다.

이러한 목표를 위해 우리는 각 소스 모델의 기여도를 조절할 수 있는 Steerable Model Merging (ST-Merge) 프레임워크를 제안합니다.
이 아이디어를 구현하기 위해, 우리는 두 개의 주목된 소스 모델을 적응적으로 가중하거나 필터링하는 게이트드 크로스‑어텐션 메커니즘을 도입합니다.

광범위한 실험은 ST-Merge가 네 개의 다국어 추론 벤치마크와 21개 언어에 걸쳐 여러 강력한 베이스라인을 일관되게 능가함을 보여줍니다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.CL

방법론

자세한 내용은 논문 전체를 참고하시기 바랍니다.

실제 적용 가능성

이 연구는 cs.CL의 발전을 촉진합니다.

저자

  • Zhuoran Li
  • Rui Xu
  • Jian Yang
  • Junnan Liu
  • Zhijun Chen
  • Qianren Mao
  • Hongcheng Guo
  • Jiaheng Liu
  • Likang Xiao
  • Ming Li
  • Xiaojie Wang

논문 정보

  • arXiv ID: 2606.19002v1
  • 카테고리: cs.CL
  • 발행일: 2026년 6월 17일
  • PDF: 다운로드 PDF
0 조회
Back to Blog

관련 글

더 보기 »