[논문] 이중 사전조건화(DoPr): 검증 손실이 아닌 테스트 시 성능 최적화

발행: (2026년 6월 5일 AM 02:22 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.06418v1

개요

많은 현대 딥러닝 응용에서는 한 단계 예측 손실(예: $L^2$ 회귀, 교차 엔트로피)을 사용해 신경망을 학습하지만, 실제 배포 시에는 네트워크가 스스로 만든 예측을 따라 롤아웃합니다. 대표적인 사례로는 자기회귀 언어 모델링, 흐름 기반 생성 모델링, 로봇 정책 학습 등이 있습니다. 이러한 설정에서는 테스트 시 피드백(TTF, test-time feedback) 현상이 발생한다는 것이 잘 알려져 있습니다. TTF는 학습/검증 손실과 실제 관심 지표(예: 작업 성공률, 생성 품질) 사이의 불일치이며, 작업 길이가 길어질수록 그 차이가 커집니다. 데이터 정제, 아키텍처 설계, 목표 함수 설계 등이 TTF 상황에서의 학습‑테스트 간 격차를 줄이기 위해 제안되어 왔지만, 본 논문은 최적화를 새로운 설계 축으로 제시하여 오류 누적을 완화하고자 합니다. 구체적으로, 우리는 TTF의 도전에 특화된 새로운 최적화 패러다임인 이중 전처리(double‑preconditioning, DoPr) 를 도입합니다. DoPr는 Adam·Muon과 같은 그라디언트‑단위 전처리와 KFAC와 같은 활성화‑단위 전처리(AP, activation‑wise preconditioning) 를 결합합니다. 우리는 AP를 추가함으로써 다양한 TTF 설정에서 다운스트림 모델 성능을 향상시키는 즉시 적용 가능한 개입을 제공함을 보여줍니다. 흥미롭게도, 테스트 시 성능 향상이 검증 손실 개선과 일관되게 동반되지 않아, 단일 단계 감독 목표로 학습된 모델을 어떻게 평가해야 할지에 대한 새로운 질문을 제기합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.LG
  • cs.AI
  • eess.SY

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

  • Thomas T. Zhang
  • Alok Shah
  • Yifei Zhang
  • Vincent Zhang
  • Nikolai Matni
  • Max Simchowitz

논문 정보

  • arXiv ID: 2606.06418v1
  • 분류: cs.LG, cs.AI, eess.SY
  • 발표일: 2026년 6월 4일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »