[논문] SkelDPO: 효율적인 코드 생성을 위한 스켈레톤 기반 직접 선호 최적화 프레임워크

발행: (2026년 6월 5일 AM 11:01 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.06826v1

개요

코드 대형 언어 모델(Code LLMs)이 의미적 정확성을 달성하는 데 눈부신 발전을 이루면서, 실행 효율성은 실용성을 평가하는 중요한 차원으로 점점 부각되고 있다. 하지만 기존 접근법은 대부분 전체 프로그램을 하나의 최적화 대상으로만 다루며, 효율성에 영향을 미치는 구조적 요인을 명시적으로 모델링하지 않는다. 그 결과, 이러한 모델들은 의미적으로 올바른 코드를 생성할 수는 있지만, 효율적인 구현을 가능하게 하는 근본적인 골격(skeleton) 특징을 세밀하게 학습하지 못한다.

이 한계를 극복하기 위해 우리는 SkelDPO(Skeleton‑Guided Direct Preference Optimization)를 제안한다. 이는 골격 기반 선호 최적화 프레임워크로, 코드 생성의 효율성을 체계적으로 향상시킨다. SkelDPO는 먼저 코드 데이터셋에서 효율적인 구현과 비효율적인 구현을 식별하고, 비교 분석을 통해 각각의 효율성 취약점과 비효율성 취약점을 찾아내어 효율 골격과 비효율 골격 사이의 정렬 신호를 형성한다. 학습 과정에서는 코드와 골격에 대한 공동 선호 손실을 도입하여, 모델이 의미적 정확성을 학습함과 동시에 코드 내 효율성 핵심 요소에 대한 이해를 강화하도록 한다.

실험 결과 SkelDPO는 기존 방법들을 지속적으로 능가함을 확인했다. 효율·비효율 코드 선호 최적화만을 활용하는 최신 방법과 비교했을 때 Pass@1, Beyond@1, Effi@1을 각각 3‑6%, 3‑7%, 2‑5% 향상시켰으며, 특히 복잡한 과제에서 더 큰 개선 효과를 보였다. 전반적으로 SkelDPO는 골격 수준의 효율성 정렬에 대한 새로운 관점을 제시하며, 단순히 정답 여부 혹은 효율성 쌍에만 의존하던 기존 선호 최적화의 한계를 극복한다. 모든 데이터셋과 소스 코드는 다음에서 공개적으로 제공된다: https://github.com/icpcSkelDPO/SkelDPO.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.SE

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.SE 분야의 발전에 기여한다.

저자

  • Yu Yu
  • Chen Lyu

논문 정보

  • arXiv ID: 2606.06826v1
  • Categories: cs.SE
  • Published: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »