[Paper] Reinforcement Learning이 보지 못한 언어 번역의 Contextual Learning을 유도한다
Source: arXiv - 2606.06428v1
Overview
이전 연구에서는 대형 언어 모델(LLM)이 지속적인 학습을 하거나 문맥에 문법 책을 인코딩함으로써 보지 못한 혹은 저자원 언어를 번역할 수 있음을 보여주었다. 그러나 두 방법 모두 특정 언어에 과적합되는 경향이 있으며, 테스트 시 제로‑샷 전이 능력이 제한적이다. 매우 저자원 언어를 대규모로 번역하기 위해서는 LLM이 특정 언어를 기억하기보다 문맥 내 언어 지식을 활용하는 메타‑스킬을 습득해야 한다고 주장한다.
본 논문에서는 풍부한 언어학적 문맥을 제공받은 상태에서 보지 못한 언어 번역을 위해 표면‑수준 번역 메트릭(chrF)을 보상으로 사용하는 강화학습(RL) 접근법을 제안한다. 실험 결과, 가벼운 보상에도 불구하고 RL‑학습된 모델은 제공된 문맥에서 관련 언어 정보를 효과적으로 추출·활용하여, 완전히 보지 못한 언어에 대해 인‑컨텍스트 학습이나 지도 미세조정보다 더 나은 번역 품질을 달성한다. 우리의 분석은 결과 기반 RL이 수학·코딩과 같은 전통적인 추론 작업을 넘어, 문맥으로부터 언어를 학습하는 레시피로 활용될 수 있음을 시사한다.
Key Contributions
- cs.CL
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
이 연구는 cs.CL 분야의 발전에 기여한다.
Authors
- Hanxu Hu
- Zdeněk Šnajdr
- Pinzhen Chen
- Jannis Vamvas
- Rico Sennrich
Paper Information
- arXiv ID: 2606.06428v1
- Categories: cs.CL
- Published: 2026년 6월 4일
- PDF: Download PDF