[Paper] 자기 개선 다국어 장기 추론을 위한 번역‑추론 통합 훈련

발행: 3일 전 (2026년 2월 6일 오전 02:55 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.05940v1

번역할 텍스트를 제공해 주시겠어요? 텍스트를 주시면 요청하신 대로 한국어로 번역해 드리겠습니다.

개요

이 논문은 TRIT (Translation‑Reasoning Integrated Training) 를 소개한다. 이는 대형 언어 모델에게 번역과 추론을 동시에 수행하도록 가르치는 자체 개선 프레임워크이다. 번역을 추론 파이프라인에 직접 결합함으로써, TRIT는 다국어 모델이 영어 추론에 기본적으로 의존하거나 질문의 원어로 유지해야 할 때 정확도가 급격히 떨어지는 오랜 격차를 해소한다. 그 결과, 다국어 수학 문제를 이해하고 정답이 정확할 뿐만 아니라 언어적으로도 일관된 답변을 생성할 수 있는 단일 모델이 된다.

주요 기여

번역과 추론의 통합 학습 – 별도의 번역 모듈이나 외부 다국어 데이터가 필요 없게 함.
자기 개선 루프 – 모델이 자체 번역‑추론 쌍을 생성하며 두 능력을 지속적으로 다듬음.
큰 성능 향상 – 다국어 수학 벤치마크 MMATH에서 TRIT는 강력한 베이스라인 대비 약 7 % 절대 정확도 향상을 달성.
교차 언어 정렬 개선 – 질문‑언어 이해도가 >10 % 포인트 상승하여 “영어‑전용” 편향을 감소시킴.
향상된 번역 품질 – FLORES‑200에서 최대 +8.4 COMET 점수를 기록, 추론 학습이 순수 번역도 향상시킴을 보여줌.

Source: …

방법론

데이터 구성 – 기존 다국어 질문‑답변 쌍(예: MMATH)에서 시작하여 합성 번역‑추론 삼중항을 생성한다. 각 삼중항은 다음을 포함한다:
- 언어 L 로 된 원본 질문.
- 질문을 영어로 기계 번역한 버전.
- 답변에 이르는 단계별 추론 과정(영어).
통합 학습 목표 – 모델은 하나의 손실 함수로 동시에 보상을 받으며 학습한다:
- 질문을 영어로 정확히 번역하는 것.
- 번역된 질문에 따라 올바른 추론 단계를 수행하는 것.
- 원본 언어로 최종 답을 올바르게 생성하는 것.
자기 개선 사이클 – 초기 학습이 끝난 후, 모델을 사용해 동일한 데이터에 대해 다시 번역하고 추론한다. 이를 통해 품질이 높은 새로운 삼중항을 만든다. 이 갱신된 삼중항이 기존 것을 대체하고, 모델을 다시 미세조정한다. 이 과정을 몇 차례 반복하면서, 인간이 직접 라벨링하지 않아도 두 작업 모두에서 모델이 점점 더 나아지도록 “가르친다”.
평가 – 성능은 다음 항목으로 측정한다:
- 답변 정확도(수학 문제에 대한 정확히 일치).
- 언어 일관성(답변이 질문과 동일한 언어로 표현되는지 여부).
- 번역 품질(FLORES‑200에 대한 COMET 점수).

결과 및 발견

지표	베이스라인 (다국어 LLM)	TRIT (최종 반복)
MMATH 전체 정확도	~58 %	~65 % (+7 pts)
교차‑언어 질문 정렬	~68 %	~78 % (+10 pts)
FLORES‑200 COMET (번역)	71.2	79.6 (+8.4)
언어‑일관성 답변 비율	62 %	71 %

이 의미는:

추론 품질이 향상됩니다. 모델이 외국어 질문의 영어 의미를 “추측”할 필요가 없어졌으며, 자신이 만든 깔끔한 번역을 보게 됩니다.
언어 일관성이 상승하여, 개발자는 모델이 사용자가 질문한 동일한 언어로 답변한다는 점을 신뢰할 수 있습니다. 이는 다국어 챗봇이나 튜터링 앱에 중요한 기능입니다.
번역 향상은 좋은 부수 효과를 보여줍니다. 추론 훈련이 순수 번역 능력도 강화시켜 두 작업 사이에 공유 표현이 존재함을 시사합니다.

실용적 함의

다국어 AI 어시스턴트는 이제 복잡하고 다단계 쿼리(예: 수학, 논리 퍼즐)를 영어로 되돌아가지 않고 처리할 수 있어, 시장 전반에 걸쳐 보다 원활한 사용자 경험을 제공합니다.
교육 기술 플랫폼이 수십 개 언어를 지원하더라도 문제 번역과 해결 생성 모두에 단일 모델을 사용할 수 있어 인프라 및 유지보수 비용을 절감합니다.
국경 간 데이터 파이프라인(예: 다국어 보고서에서 인사이트 추출)은 의미를 보존하면서 하위 작업 추론을 수행하기 위해 TRIT‑스타일 훈련을 삽입할 수 있습니다.
개발자 워크플로우 – 자체 개선 루프는 원본 다국어 QA 데이터만 필요하고 추가 번역 코퍼스나 인간 주석이 필요 없으므로 기존 데이터셋에 쉽게 적용할 수 있습니다.

제한 사항 및 향후 작업

도메인 범위 – 실험은 수학적 추론에 초점을 맞추었으며, TRIT가 법률 추론이나 코드 생성과 같은 다른 분야에 얼마나 잘 적용되는지는 아직 확인되지 않았다.
자원 요구량 – 반복적인 자체 학습 루프는 일회성 파인튜닝에 비해 추가적인 연산 사이클을 요구하며, 이는 소규모 팀에게 장벽이 될 수 있다.
언어 범위 – FLORES‑200이 200개 언어를 포함하고 있지만, 사용된 벤치마크(MMATH)는 일부에 불과한다; 학습 데이터가 부족한 저자원 언어는 여전히 뒤처질 수 있다.
향후 방향 – 저자들이 제시한 바에 따르면, TRIT를 다중모달 입력(예: 다이어그램)으로 확장하고, 외부 지식베이스를 통합해 추론 깊이를 더욱 향상시키며, 루프 초기에 더 어려운 언어를 우선시하는 커리큘럼 학습 스케줄을 탐색하는 것이 포함된다.

저자

Junxiao Liu
Zhijun Wang
Yixiao Li
Zhejian Lai
Liqian Huang
Xin Huang
Xue Han
Junlan Feng
Shujian Huang

논문 정보

arXiv ID: 2602.05940v1
분류: cs.CL
출판일: 2026년 2월 5일
PDF: PDF 다운로드

[Paper] 자기 개선 다국어 장기 추론을 위한 번역‑추론 통합 훈련

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] DFlash: 블록 디퓨전 for Flash Speculative Decoding

[Paper] 쿼리 인식 예산-계층 라우팅 학습 for Runtime Agent Memory

[Paper] Self-Distillation을 통한 멀티 토큰 예측

[Paper] Large Language Models를 이용한 PTSD 심각도 추정에 대한 체계적 평가: Contextual Knowledge와 Modeling Strategies의 역할