[Paper] Reinforcement Learning이 보지 못한 언어 번역의 Contextual Learning을 유도한다

발행: 6일 전 (2026년 6월 5일 AM 02:32 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06428v1

Overview

이전 연구에서는 대형 언어 모델(LLM)이 지속적인 학습을 하거나 문맥에 문법 책을 인코딩함으로써 보지 못한 혹은 저자원 언어를 번역할 수 있음을 보여주었다. 그러나 두 방법 모두 특정 언어에 과적합되는 경향이 있으며, 테스트 시 제로‑샷 전이 능력이 제한적이다. 매우 저자원 언어를 대규모로 번역하기 위해서는 LLM이 특정 언어를 기억하기보다 문맥 내 언어 지식을 활용하는 메타‑스킬을 습득해야 한다고 주장한다.

본 논문에서는 풍부한 언어학적 문맥을 제공받은 상태에서 보지 못한 언어 번역을 위해 표면‑수준 번역 메트릭(chrF)을 보상으로 사용하는 강화학습(RL) 접근법을 제안한다. 실험 결과, 가벼운 보상에도 불구하고 RL‑학습된 모델은 제공된 문맥에서 관련 언어 정보를 효과적으로 추출·활용하여, 완전히 보지 못한 언어에 대해 인‑컨텍스트 학습이나 지도 미세조정보다 더 나은 번역 품질을 달성한다. 우리의 분석은 결과 기반 RL이 수학·코딩과 같은 전통적인 추론 작업을 넘어, 문맥으로부터 언어를 학습하는 레시피로 활용될 수 있음을 시사한다.

Key Contributions

cs.CL

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CL 분야의 발전에 기여한다.

Authors

Hanxu Hu
Zdeněk Šnajdr
Pinzhen Chen
Jannis Vamvas
Rico Sennrich

Paper Information

arXiv ID: 2606.06428v1
Categories: cs.CL
Published: 2026년 6월 4일
PDF: Download PDF

[Paper] Reinforcement Learning이 보지 못한 언어 번역의 Contextual Learning을 유도한다

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다