[Paper] 베이지안 심볼릭 회귀: 사후 샘플링을 이용한
발행: (2025년 12월 12일 오전 02:38 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.10849v1
개요
새로운 논문은 베이지안 관점의 심볼릭 회귀를 제안하며, 순차적 몬테카를로(SMC)를 사용해 수학식에 대한 사후 분포를 샘플링합니다. 방정식 탐색을 확률적 추론 문제로 다룸으로써 저자들은 잡음이 많은 데이터에 대한 강인성을 크게 향상시키고, 발견된 모델에 대한 불확실성을 정량화할 수 있는 원칙적인 방법을 개발자에게 제공합니다.
주요 기여
- SMC 기반 사후 샘플러를 심볼릭 표현식에 적용, 기존의 결정론적 또는 진화적 휴리스틱을 대체.
- 적응형 템퍼링 스케줄을 도입해 사후 분포를 점진적으로 날카롭게 만들어 초기 단계에서 나쁜 지역 최적점에서 벗어날 수 있게 함.
- 정규화된 주변 가능도를 적합도 지표로 사용, 모델 적합도와 표현식 복잡도(간결성) 사이를 자연스럽게 균형.
- 잡음이 있는 벤치마크 문제에 대한 실증 검증을 통해 표준 유전 프로그래밍(GP) 기준 대비 과적합 감소와 예측 정확도 향상을 입증.
- 발견된 방정식에 대한 불확실성 정량화를 제공, 하위 위험 인식 의사결정에 활용 가능.
방법론
- 확률 모델 – 저자들은 구문 트리(심볼릭 표현식)에 대한 사전을 정의하고, 짧고 단순한 트리를 선호하도록 설계합니다. 가능도는 후보 표현식이 관측 데이터(측정 잡음 포함)를 얼마나 잘 설명하는지를 측정합니다.
- 순차적 몬테카를로 – 입자 집단(후보 트리)을 일련의 중간 분포를 통해 전파합니다. 각 단계에서:
- 재샘플링은 현재 가중치에 비례하여 입자를 선택(확률적 선택)합니다.
- 돌연변이/교차 연산자(GP와 유사)로 새로운 트리를 제안합니다.
- 적응형 템퍼링은 온도 파라미터 β를 조정해 사전(β≈0)에서 실제 사후(β≈1)로 천천히 이동시킵니다.
- 주변 가능도 추정 – 알고리즘은 각 입자에 대해 정규화된 증거 항을 계산하며, 이는 과도하게 복잡한 표현식을 벌점화하는 베이지안 “점수” 역할을 합니다.
- 사후 요약 – 최종 템퍼링 단계 후 입자 집합은 사후를 근사합니다. 가장 가능성이 높은 표현식(MAP)이나 가중 합성 모델을 추출할 수 있으며, 예측에 대한 신뢰 구간은 입자 집합으로부터 직접 얻을 수 있습니다.
결과 및 발견
| Dataset (noisy) | GP‑based SR (baseline) | Bayesian SMC SR (this work) |
|---|---|---|
| Synthetic ODE | RMSE ↑ 0.42, 12‑node avg. tree | RMSE ↓ 0.21, 7‑node avg. tree |
| Real‑world physics (pendulum) | Over‑fit, high variance predictions | Lower variance, 15 % better out‑of‑sample R² |
| Engineering design (aerodynamics) | 3‑fold increase in error with 10 % noise | Robust to noise, error growth < 1.2× |
- 일반화: 베이지안 접근법은 일관되게 더 단순한 표현식을 도출하며, 보이지 않는 데이터에 대해 더 좋은 일반화 성능을 보입니다.
- 잡음 내성: 20 % 가우시안 잡음 상황에서도 사후는 실제 지배 방정식 주변에 집중되지만, GP는 종종 고차 다항식으로 붕괴됩니다.
- 불확실성 추정: 입자 집합으로부터 도출된 신뢰 구간은 테스트 포인트의 95 % 이상에서 실제 출력을 정확히 포착하며, 이는 GP가 기본적으로 제공하지 못하는 기능입니다.
실용적 함의
- 모델 발견 파이프라인 – 엔지니어는 잡음에 취약한 GP 모듈을 SMC 샘플러로 교체해 제어, 시뮬레이션, 최적화 작업에 더 신뢰할 수 있는 방정식을 얻을 수 있습니다.
- 위험 인식 AI – 사후 분포가 자연스러운 신뢰 구간을 제공하므로, 자율 주행 차량이나 의료 기기와 같은 안전‑중요 시스템이 배포 전 모델의 신뢰성을 평가할 수 있습니다.
- 자동 과학 발견 – 연구자는 재료 과학, 기후 모델링 등 대규모 실험 데이터셋을 GP 하이퍼파라미터를 수동으로 튜닝하지 않고도 탐색할 수 있으며, 베이지안 프레임워크가 모델 복잡도를 자동으로 관리합니다.
- 기존 도구와의 통합 – 알고리즘은 트리 기반 돌연변이/교차 연산자를 그대로 사용하므로, DEAP, gplearn 등 인기 SR 라이브러리의 드롭‑인 대체품으로 래핑할 수 있습니다.
- 확장성 – SMC가 약간의 계산 오버헤드를 추가하지만, 입자 집합은 CPU/GPU에 걸쳐 병렬화가 가능해 수천 개 데이터 포인트와 수십 개 변수 수준의 중간 규모 문제에 적용이 가능합니다.
제한점 및 향후 연구
- 계산 비용 – 고차원 표현식 공간에 대해 충분히 큰 입자 집합을 샘플링하는 것이 빠른 GP 휴리스틱에 비해 비용이 많이 듭니다.
- 사전 설계 – 현재 트리 구조에 대한 사전은 수작업으로 만든 것이며, 도메인 지식을 활용한 보다 표현력 있는 사전 학습이 성능을 더욱 향상시킬 수 있습니다.
- 매우 큰 데이터셋에 대한 확장성 – 수십만 포인트를 초과하는 데이터셋에서는 미니‑배치 가능도 근사화가 필요하다고 저자들은 언급합니다.
- 함수 라이브러리 확장 – 향후 작업에서는 사용자 정의 연산자(예: 적분, 미분 연산자)를 포함하고, 심볼릭 제약을 보다 직접적으로 다루는 방향을 고려할 수 있습니다.
전반적으로 이 논문은 베이지안 추론을 심볼릭 회귀에 도입함으로써 현대 데이터‑구동 엔지니어링 및 과학 워크플로우에서 점점 더 요구되는 강인성, 해석 가능성, 불확실성 정량화 측면에서 실질적인 이점을 제공함을 보여줍니다.
저자
- Geoffrey F. Bomarito
- Patrick E. Leser
논문 정보
- arXiv ID: 2512.10849v1
- Categories: cs.LG
- Published: December 11, 2025
- PDF: Download PDF