SmartKNN 회귀 벤치마크 고차원 데이터셋

발행: (2025년 12월 29일 오후 03:58 GMT+9)
3 min read
원문: Dev.to

Source: Dev.to

개요

이 릴리스에서는 SmartKNN에 대한 초기 회귀 벤치마크를 제공하며, 대규모 차원 데이터셋을 대상으로 실제 프로덕션 제약 하에서 단일 예측 p95 지연 시간과 R²를 평가했습니다. 모든 벤치마크는 다음과 같습니다:

  • CPU 전용
  • 단일 쿼리 추론
  • 비모수, 비선형 모델
  • 대규모 데이터셋

추가 벤치마크(고차원 데이터셋, 분류 작업, 혼합 특성 공간)는 곧 공개될 예정입니다.


데이터셋

데이터셋OpenML ID대략적인 행 수특성 (D)작업출처
Buzzinsocialmedia_Twitter4549466,60077회귀OpenML
Allstate_Claims_Severity44045150,654124회귀OpenML
College Scorecard4667499,759118회귀OpenML

벤치마크 결과

Buzzinsocialmedia_Twitter

모델RMSE ↓R² ↑학습 시간 (s)배치 (ms)단일 중앙값 (ms)단일 p95 (ms)
XGBoost254.430.827422.210.0050.2280.280
LightGBM214.790.877025.670.0080.5110.650
CatBoost231.430.857239.530.0000.8091.021
SmartKNN (wt=0.0)167.150.9255214.390.0600.3830.561

Allstate_Claims_Severity

모델RMSE ↓R² ↑학습 시간 (s)배치 (ms)단일 중앙값 (ms)단일 p95 (ms)
XGBoost0.53550.560411.200.0050.2110.272
LightGBM0.53560.56038.400.0200.5110.630
CatBoost0.54080.551622.840.0431.0351.308
SmartKNN (wt=0.0)0.62190.407151.510.0620.3050.366

College Scorecard

모델RMSE ↓R² ↑학습 시간 (s)배치 (ms)단일 중앙값 (ms)단일 p95 (ms)
XGBoost0.18550.69358.360.0060.2370.329
LightGBM0.18640.69055.770.0100.5050.635
CatBoost0.19460.662614.250.0010.8790.950
SmartKNN (wt=0.0)0.23000.529027.310.0540.2480.286

주요 결과

  • SmartKNN은 CPU 환경에서 비모수·비선형 모델 중 경쟁력 있는 p95 단일 예측 지연 시간을 달성했으며, 특히 Buzzinsocialmedia_Twitter 데이터셋에서 지연 시간 면에서 트리 기반 베이스라인을 앞서면서 가장 높은 R²를 기록했습니다.
  • 트리 기반 모델(XGBoost, LightGBM, CatBoost)은 일반적으로 정확도가 더 높고 평균 지연 시간이 낮지만, SmartKNN은 꼬리 지연 시간 차이를 크게 줄여 프로덕션 시스템에서 중요한 요소를 개선합니다.
  • 모든 결과는 공개된 OpenML 데이터셋을 사용해 재현 가능합니다.

커뮤니티 참여

우리는 커뮤니티가 다음을 수행하기를 권장합니다:

  • 다양한 하드웨어에서 이 벤치마크 실행
  • 대체 ANN 구성 테스트
  • 추가 모델과 비교
  • 결과를 공개적으로 공유

성능 회귀가 발생하면 GitHub Issue를 열어 주세요. 질문, 아이디어, 개선 사항이 있으면 GitHub Discussion을 시작해 주세요. 새로운 벤치마크 결과도 이슈나 토론으로 게시할 수 있습니다.

리소스

Back to Blog

관련 글

더 보기 »