[논문] 병렬 코드 변환을 위한 잠재 추론 가이드
개요
복잡한 코딩 작업을 해결하려면 종종 자율 에이전트와 반복적인 복구 파이프라인이 필요합니다. 이러한 방법은 테스트 시점에 많은 연산을 요구하며, 프로그램이 컴파일, 실행, 검증되는지를 확인하기 전에 수많은 디코딩 및 복구 단계를 거칩니다. 실행 가능한 병렬 코드 번역은 성공이 텍스트가 아니라 행동에 기반하기 때문에 초기 단계에서의 가이드에 효과적인 환경입니다. 그러나 대부분의 가이드 방법은 완전한 프로그램이나 텍스트 트레이스가 디코딩된 후에만 작동합니다. 이는 다음과 같은 질문을 제기합니다: 잠재적 추론이 모델이 코드를 확정하기 전에 더 이른 개입점을 제공할 수 있을까? 우리는 이 환경을 위해 테스트 시점에 적용되는 잠재 가이드 방법을 연구합니다. 이 방법은 연속적인 잠재 프리픽스에 대해 작은 프로세스 보상 모델(Process Reward Model, PRM)을 학습하고, 최종 코드 디코딩 이전에 대안적인 은닉 상태 경로들을 선택하는 데 사용합니다. 이는 디코딩 이후 최적화와는 별도로 작동하지만 호환됩니다. 76개의 작업으로 구성된 ParaTrans 벤치마크 평가에서, 잠재 PRM 가이드는 가이드 없는 잠재 추론 시 32.89%였던 평균 검증률을 42.1%로 향상시켰으며, 동일한 환경에서 파인튜닝 및 기본 베이스라인보다 우수한 성능을 보였습니다. 이러한 향상은 동일한 3회 반복 복구 루프에서도 지속됩니다. 이 결과는 유용한 대안 잠재 연속이 존재한다는 제한된 증거를 제공하며, PRM 점수를 활용한 잠재 분기 선택이 주요 생성 모델을 재학습하지 않고도 실행 가능한 결과를 개선할 수 있음을 보여줍니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.DC 분야의 발전에 기여합니다.
저자
- Tomer Bitan
- Erel Kaplan
- Roee Bar-Yadin
- Lian Ghrayeb
- Le Chen
- Samyak Jhaveri
- Niranjan Hasabnis
- Gal Oren
논문 정보
- arXiv ID: 2606.05518v1
- Categories: cs.DC
- Published: 2026년 6월 3일
- PDF: PDF 다운로드