[논문] 설명 길이 기반 다목표 유전 프로그래밍, 심볼릭 회귀 성능 향상

발행: (2026년 5월 21일 PM 09:07 GMT+9)
10 분 소요
원문: arXiv

출처: arXiv - 2605.22374v1

개요

이 논문은 유전 프로그래밍(GP) 기반 심볼릭 회귀에서 흔히 발생하는 문제, 즉 잡음에 과도하게 적합하면서 지나치게 복잡한 모델이 생성되는 현상을 다룹니다. 정보 이론적 기준인 **설명 길이 (DL)**와 **분수 베이즈 팩터 (FBF)**를 GP 과정에 도입함으로써, 저자들은 예측 성능을 손상시키지 않으면서도 간결하고 범용적인 수식을 찾도록 진화 탐색을 유도하는 방법을 제시합니다.

주요 기여

  • Fisher 정보 행렬을 이용한 GP 파라미터의 DL 기반 인코딩으로 모델 복잡도를 정량화하는 원칙적인 방법 제시.
  • 합성 잡음 데이터와 실제 회귀 데이터셋을 대상으로 DL/FBF와 기존 휴리스틱(AIC, BIC)을 체계적으로 비교.
  • 세 가지 워크플로우 변형 검토:
    1. 다목적 진화(정확도 vs 프로그램 길이) 후 DL/FBF 기반 사후 선택.
    2. 다목적 탐색에 DL을 두 번째 목표로 직접 포함.
    3. DL/FBF를 단일 목표 피트니스 함수로 사용하는 단일목적 진화.
  • 실증적 증거: DL/FBF 사후 선택은 테스트 세트 성능을 일관되게 향상시키는 반면, DL/FBF를 유일 피트니스로 사용할 경우 과도하게 단순한 모델에 조기 수렴하는 경향이 있음을 보여줌.
  • 기존 GP 툴체인에 DL/FBF를 통합하는 실용적인 가이드라인 제공.

방법론

  1. 모델 인코딩 – 각 GP 개체(심볼릭 표현)는 트리 구조와 수치 파라미터(상수)로 표현됩니다. 저자들은 파라미터에 대한 Fisher 정보 행렬을 계산하고, 이를 바탕으로 트리 자체를 인코딩하는 비트 수와 데이터가 주어졌을 때 파라미터를 인코딩하는 비트 수를 모두 포함하는 설명 길이를 도출합니다.
  2. 선택 기준
    • DL: 모델 + 파라미터가 필요로 하는 전체 비트 수.
    • FBF: 기준(영) 모델에 대한 DL을 정규화한 베이즈 모델 비교 점수.
    • AIC/BIC: 기준선으로 사용되는 전통적인 정보 기준.
  3. 탐색 전략
    • (i) 다목적 + 사후 선택: GP가 RMSE와 원시 프로그램 길이라는 두 목표를 동시에 최적화합니다. 진화가 끝난 뒤 최종 파레토 앞선을 DL/FBF로 재순위합니다.
    • (ii) DL을 목표로 하는 다목적: 두 번째 목표를 DL 값 자체로 설정해 정확도와 설명 길이를 동시에 최적화합니다.
    • (iii) DL/FBF 단일목적: 피트니스 함수를 직접 DL 또는 FBF 점수(값이 낮을수록 좋음)로 사용합니다.
  4. 벤치마크 – 가우시안 잡음이 섞인 합성 함수(신호대잡음비 다양)와 공개 회귀 데이터셋(예: Boston Housing, Yacht)을 혼합해 사용합니다. 각 실험은 여러 무작위 시드로 반복해 견고성을 평가합니다.

결과 및 고찰

전략테스트 RMSE (평균)모델 크기 (노드)관찰
다목적 + DL 사후 선택AIC/BIC 대비 8‑12 % 감소기준과 유사최적의 트레이드오프; 파레토 앞선에서 가장 일반화 가능한 점을 DL이 선택함.
다목적 + BIC 사후 선택DL과 비슷약간 큰 모델BIC의 복잡도 페널티가 동일한 길이 페널티와 결합될 때 DL과 유사하게 작동함.
DL을 목표로 하는 다목적사후 선택보다 약간 열악더 작은 모델DL이 탐색을 유도하지만 초기 세대에서 과도한 단순화 편향이 발생해 고정밀 영역을 놓칠 수 있음.
DL/FBF 단일목적 피트니스많은 실행에서 테스트 오류 15‑30 % 증가매우 작은 모델조기 수렴 경향; 복잡한 해에 대한 피트니스 지형이 지나치게 평탄해짐.
기준 (AIC/BIC만 사용)기준기준참고용; 잡음이 많은 데이터에서 과적합되는 경우가 많음.

전반적으로 DL/FBF 사후 선택이 테스트 오류를 가장 낮게 유지하면서 모델 크기도 적절히 관리함을 확인했습니다. DL을 직접 피트니스로 사용하는 경우는 복잡도에 대한 과도한 초기 페널티 때문에 위험합니다.

실용적 함의

  • 플러그‑인 모델 선택: 기존 GP 라이브러리(DEAP, gplearn 등)를 그대로 유지하고 진화 후 DL/FBF 순위 단계만 추가하면 됩니다. 진화 연산자를 재설계할 필요가 없습니다.
  • 잡음이 많은 데이터에서의 일반화 향상: IoT 센서 분석, 금융, 과학 탐구 등 측정값이 잡음이 섞인 분야에서 DL 기반 선택은 수동 하이퍼파라미터 튜닝 없이 과적합을 감소시킵니다.
  • 설명 가능성: 크기가 작은 심볼릭 수식은 감사와 프로덕션 코드(C++/Python 함수) 삽입이 용이합니다. DL은 “가장 간단하지만 충분한” 모델을 선택한다는 정량적 근거를 제공합니다.
  • 자원 절감: 파레토 앞선을 DL로 정제함으로써 다수 후보 프로그램에 대한 전면 교차 검증을 피할 수 있어, 저자 실험에서는 계산 시간이 30‑50 % 감소했습니다.
  • AutoML 파이프라인과의 통합: DL/FBF 점수를 Optuna, Ray Tune 등 하이퍼파라미터 최적화 프레임워크의 추가 메트릭으로 활용하면 정확도와 해석 가능성 사이의 균형을 자동으로 맞출 수 있습니다.

제한점 및 향후 연구

  • 단일 피트니스로 사용 시 조기 수렴 문제; 저자들은 하이브리드 피트니스 혹은 적응형 가중치를 제안합니다.
  • Fisher 정보 행렬 계산의 확장성: 매우 큰 트리나 고차원 파라미터 공간에서는 근사 방법이 필요할 수 있습니다.
  • 벤치마크 다양성: 현재 실험은 회귀에 초점을 맞추고 있으므로, 분류나 시계열 심볼릭 모델링으로 확장하는 연구가 필요합니다.
  • 사용자 정의 사전분포: 현재 DL 공식은 상수에 대한 기본 사전분포를 가정합니다. 도메인 특화 사전분포를 도입하면 성능이 더욱 향상될 가능성이 있습니다.

핵심 요약: 이미 GP 기반 심볼릭 회귀를 시도하고 있는 팀이라면, 설명 길이 기반 사후 선택을 도입하는 것이 낮은 비용으로 큰 효과를 얻는 업그레이드가 됩니다. 특히 데이터가 잡음이 많거나 모델의 해석 가능성이 중요한 경우, 더 깔끔하고 신뢰할 수 있는 모델을 제공할 수 있습니다.

저자

  • Gabriel Kronberger
  • Fabricio Olivetti de Franca
  • Deaglan J. Bartlett
  • Harry Desmond
  • Pedro G. Ferreira

논문 정보

  • arXiv ID: 2605.22374v1
  • 분류: cs.NE, stat.ML
  • 발표일: 2026년 5월 21일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »