[논문] Code2LoRA: 소프트웨어 진화에 따른 코드 언어 모델용 하이퍼네트워크 어댑터

발행: (2026년 6월 5일 AM 02:59 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.06492v1

개요

코드 언어 모델은 import, API, 프로젝트 관례 등을 해결하기 위해 저장소 수준의 컨텍스트가 필요합니다. 기존 방법들은 이 지식을 긴 입력(검색‑증강 생성(RAG)이나 의존성 분석을 통해 검색)이나 저장소별 파인튜닝 및 LoRA를 통해 주입하는데, 이는 저장소 규모에서는 비용이 많이 들고 코드베이스가 진화함에 따라 깨지기 쉽습니다. 우리는 Code2LoRA를 소개합니다. 이는 하이퍼네트워크 프레임워크로, 저장소‑특화 LoRA 어댑터를 생성해 추론 시 토큰 오버헤드 없이 저장소 지식을 효과적으로 주입합니다. Code2LoRA는 두 가지 사용 시나리오를 지원합니다. Code2LoRA‑Static은 단일 저장소 스냅샷을 어댑터로 변환해 안정적인 코드베이스의 이해에 적합하고, Code2LoRA‑Evo는 코드 차이마다 GRU 은닉 상태를 업데이트해 어댑터를 유지함으로써 진화하는 코드베이스의 활발한 개발에 적합합니다. Code2LoRA를 파라미터 효율적인 파인튜닝 베이스라인과 비교 평가하기 위해 우리는 RepoPeftBench라는 벤치마크를 구축했습니다. 이 벤치마크는 604개의 Python 저장소를 포함하며, 정적 트랙(40K 학습, 12K 테스트 어설션‑완성 과제)과 진화 트랙(215K 커밋 기반 학습, 87K 커밋 기반 테스트 과제) 두 트랙으로 구성됩니다. 정적 트랙에서 Code2LoRA‑Static은 교차‑저장소 63.8%, 동일‑저장소 66.2% 정확 일치를 달성해 저장소별 LoRA 상한에 도달했으며, 진화 트랙에서는 Code2LoRA‑Evo가 교차‑저장소 정확 일치 60.3%를 기록해 단일 공유 LoRA보다 5.2 퍼센트포인트 향상되었습니다. Code2LoRA 코드는 https://anonymous.4open.science/r/code2lora-6857 에서 확인할 수 있으며, 모델 체크포인트와 RepoPeftBench 데이터셋은 https://huggingface.co/code2lora 에서 제공됩니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.SE
  • cs.AI
  • cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.SE 분야의 발전에 기여합니다.

저자

  • Liliana Hotsko
  • Yinxi Li
  • Yuntian Deng
  • Pengyu Nie

논문 정보

  • arXiv ID: 2606.06492v1
  • 분류: cs.SE, cs.AI, cs.CL
  • 발표일: 2026년 6월 4일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »