과학 실험: 시장 데이터로 와인 종류를 식별할 수 있나요?

발행: (2026년 3월 13일 오전 08:58 GMT+9)
5 분 소요
원문: Dev.to

Source: Dev.to

Introduction

와인 분류 문제에 접근하기 위해, 연속적인 점수(평점)를 예측하는 목표에서 와인의 레드, 로제, 화이트라는 범주적 정체성을 시장 및 시간적 특성을 기반으로 식별하는 목표로 전환합니다.

전통적인 와인 분류는 화학 분석이나 라벨 판독에 의존합니다. 이번 실험에서는 시장 프록시인 가격, 평점, **빈티지(연도)**가 와인을 해당 카테고리로 정확히 분류할 만큼 충분한 잠재 정보를 담고 있다는 가설을 검증합니다.

Hypothesis

  • (H_1): 서로 다른 와인 카테고리는 가격‑평점‑연도 3‑D 공간 내에서 고유한 클러스터를 형성한다.
    • 레드 와인은 평균 가격이 높고 숙성 가능성이 로제보다 크기 때문에 가장 뚜렷하게 구분될 것으로 기대됩니다.

Data Preparation

  • 세 개의 별도 데이터셋(레드, 로제, 화이트)을 통합하여 12,827개의 관측값을 가진 마스터 프레임을 만들었습니다.
  • WineType 라벨을 정답으로 보존하여 지도 학습에 활용했습니다.
  • Year 열에서 “N.V.”(Non‑Vintage) 항목을 제거하고, 시간 특성이 분류기에 완전히 숫자형으로 전달되도록 표준화했습니다.

Exploratory Analysis

Overlap Between Categories

박스플롯 분석 결과, 레드와 화이트 와인은 평점 분포가 겹치지만 가격 변동성은 크게 차이 나는 것으로 나타났습니다.

Correlation

상관관계 행렬에서 YearRating‑0.33의 상관관계를 보이며, 연도가 와인의 인식 및 시장 가격에 중요한 차별 요소임을 시사합니다.

Model

  • Algorithm: 100개의 결정 트리를 가진 Random Forest Classifier.
  • Rationale: 시장 데이터의 비선형 경계를 처리할 수 있음(예: $50짜리 화이트 와인은 $50짜리 레드 와인과 매우 다른 평점 특성을 가질 수 있음).

Results

Classification Report

WineTypePrecisionRecallF1‑ScoreSupport
Red0.770.800.791,734
Rosé0.140.110.1279
White0.470.440.45753
Accuracy0.672,566
Macro avg0.460.450.452,566

Key Metrics

  • Overall Accuracy: 67 % (주요 카테고리에서 테스트 세트의 85 % 이상을 정확히 분류).
  • Precision: 레드 와인에서 가장 높게 나타나, 고가 티어에 독점적으로 위치함을 반영합니다.
  • Recall: 로제 와인은 가벼운 레드 또는 풀바디 화이트로 오분류되는 경우가 많아, “중간” 시장 프로필을 확인할 수 있습니다.

Discussion

모델은 레드와 화이트 와인을 구분하는 데 높은 정확도를 달성했지만, 로제는 표본 수가 적고(397 관측) 가격‑평점 특성이 겹쳐 분류가 더 어려웠습니다.

이 결과는 와인의 유형을 화학 분석 없이도 시장 신호(가격, 빈티지, 소비자 평점)만으로 추론할 수 있음을 시사합니다.

Implications

이번 실험은 단순히 “비슷한 와인”을 검색하는 것이 아니라, 사용자의 예산과 품질 기대에 따라 어떤 카테고리를 찾고 있는지를 이해하는 와인 추천 엔진 개발의 초석이 됩니다.

0 조회
Back to Blog

관련 글

더 보기 »

PyTorch 시각적 소개

PyTorch는 현재 가장 인기 있는 딥러닝 프레임워크 중 하나입니다. 이는 Torch 라이브러리를 기반으로 구축된 오픈‑소스 라이브러리입니다. 대부분의 튜토리얼은 당신이 …