[Paper] 자기 개선 다국어 장기 추론을 위한 번역‑추론 통합 훈련

발행: (2026년 2월 6일 오전 02:55 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.05940v1

번역할 텍스트를 제공해 주시겠어요? 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

개요

이 논문은 TRIT (Translation‑Reasoning Integrated Training) 를 소개한다. 이는 대형 언어 모델에게 번역과 추론을 동시에 수행하도록 가르치는 자체 개선 프레임워크이다. 번역을 추론 파이프라인에 직접 결합함으로써, TRIT는 다국어 모델이 영어 추론에 기본적으로 의존하거나 질문의 원어로 유지해야 할 때 정확도가 급격히 떨어지는 오랜 격차를 해소한다. 그 결과, 다국어 수학 문제를 이해하고 정답이 정확할 뿐만 아니라 언어적으로도 일관된 답변을 생성할 수 있는 단일 모델이 된다.

주요 기여

  • 번역과 추론의 통합 학습 – 별도의 번역 모듈이나 외부 다국어 데이터가 필요 없게 함.
  • 자기 개선 루프 – 모델이 자체 번역‑추론 쌍을 생성하며 두 능력을 지속적으로 다듬음.
  • 큰 성능 향상 – 다국어 수학 벤치마크 MMATH에서 TRIT는 강력한 베이스라인 대비 약 7 % 절대 정확도 향상을 달성.
  • 교차 언어 정렬 개선 – 질문‑언어 이해도가 >10 % 포인트 상승하여 “영어‑전용” 편향을 감소시킴.
  • 향상된 번역 품질 – FLORES‑200에서 최대 +8.4 COMET 점수를 기록, 추론 학습이 순수 번역도 향상시킴을 보여줌.

Source:

방법론

  1. 데이터 구성 – 기존 다국어 질문‑답변 쌍(예: MMATH)에서 시작하여 합성 번역‑추론 삼중항을 생성한다. 각 삼중항은 다음을 포함한다:

    • 언어 L 로 된 원본 질문.
    • 질문을 영어로 기계 번역한 버전.
    • 답변에 이르는 단계별 추론 과정(영어).
  2. 통합 학습 목표 – 모델은 하나의 손실 함수로 동시에 보상을 받으며 학습한다:

    • 질문을 영어로 정확히 번역하는 것.
    • 번역된 질문에 따라 올바른 추론 단계를 수행하는 것.
    • 원본 언어로 최종 답을 올바르게 생성하는 것.
  3. 자기 개선 사이클 – 초기 학습이 끝난 후, 모델을 사용해 동일한 데이터에 대해 다시 번역하고 추론한다. 이를 통해 품질이 높은 새로운 삼중항을 만든다. 이 갱신된 삼중항이 기존 것을 대체하고, 모델을 다시 미세조정한다. 이 과정을 몇 차례 반복하면서, 인간이 직접 라벨링하지 않아도 두 작업 모두에서 모델이 점점 더 나아지도록 “가르친다”.

  4. 평가 – 성능은 다음 항목으로 측정한다:

    • 답변 정확도(수학 문제에 대한 정확히 일치).
    • 언어 일관성(답변이 질문과 동일한 언어로 표현되는지 여부).
    • 번역 품질(FLORES‑200에 대한 COMET 점수).

결과 및 발견

지표베이스라인 (다국어 LLM)TRIT (최종 반복)
MMATH 전체 정확도~58 %~65 % (+7 pts)
교차‑언어 질문 정렬~68 %~78 % (+10 pts)
FLORES‑200 COMET (번역)71.279.6 (+8.4)
언어‑일관성 답변 비율62 %71 %

이 의미는:

  • 추론 품질이 향상됩니다. 모델이 외국어 질문의 영어 의미를 “추측”할 필요가 없어졌으며, 자신이 만든 깔끔한 번역을 보게 됩니다.
  • 언어 일관성이 상승하여, 개발자는 모델이 사용자가 질문한 동일한 언어로 답변한다는 점을 신뢰할 수 있습니다. 이는 다국어 챗봇이나 튜터링 앱에 중요한 기능입니다.
  • 번역 향상은 좋은 부수 효과를 보여줍니다. 추론 훈련이 순수 번역 능력도 강화시켜 두 작업 사이에 공유 표현이 존재함을 시사합니다.

실용적 함의

  • 다국어 AI 어시스턴트는 이제 복잡하고 다단계 쿼리(예: 수학, 논리 퍼즐)를 영어로 되돌아가지 않고 처리할 수 있어, 시장 전반에 걸쳐 보다 원활한 사용자 경험을 제공합니다.
  • 교육 기술 플랫폼이 수십 개 언어를 지원하더라도 문제 번역과 해결 생성 모두에 단일 모델을 사용할 수 있어 인프라 및 유지보수 비용을 절감합니다.
  • 국경 간 데이터 파이프라인(예: 다국어 보고서에서 인사이트 추출)은 의미를 보존하면서 하위 작업 추론을 수행하기 위해 TRIT‑스타일 훈련을 삽입할 수 있습니다.
  • 개발자 워크플로우 – 자체 개선 루프는 원본 다국어 QA 데이터만 필요하고 추가 번역 코퍼스나 인간 주석이 필요 없으므로 기존 데이터셋에 쉽게 적용할 수 있습니다.

제한 사항 및 향후 작업

  • 도메인 범위 – 실험은 수학적 추론에 초점을 맞추었으며, TRIT가 법률 추론이나 코드 생성과 같은 다른 분야에 얼마나 잘 적용되는지는 아직 확인되지 않았다.
  • 자원 요구량 – 반복적인 자체 학습 루프는 일회성 파인튜닝에 비해 추가적인 연산 사이클을 요구하며, 이는 소규모 팀에게 장벽이 될 수 있다.
  • 언어 범위 – FLORES‑200이 200개 언어를 포함하고 있지만, 사용된 벤치마크(MMATH)는 일부에 불과한다; 학습 데이터가 부족한 저자원 언어는 여전히 뒤처질 수 있다.
  • 향후 방향 – 저자들이 제시한 바에 따르면, TRIT를 다중모달 입력(예: 다이어그램)으로 확장하고, 외부 지식베이스를 통합해 추론 깊이를 더욱 향상시키며, 루프 초기에 더 어려운 언어를 우선시하는 커리큘럼 학습 스케줄을 탐색하는 것이 포함된다.

저자

  • Junxiao Liu
  • Zhijun Wang
  • Yixiao Li
  • Zhejian Lai
  • Liqian Huang
  • Xin Huang
  • Xue Han
  • Junlan Feng
  • Shujian Huang

논문 정보

  • arXiv ID: 2602.05940v1
  • 분류: cs.CL
  • 출판일: 2026년 2월 5일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »