科学实验:市场数据能否识别葡萄酒类型?

发布: (2026年3月13日 GMT+8 07:58)
4 分钟阅读
原文: Dev.to

Source: Dev.to

引言

为了解决葡萄酒分类的挑战,我们将目标从预测连续评分(评级)转变为根据其市场和时间特征识别葡萄酒的类别——红葡萄酒玫瑰红白葡萄酒

传统的葡萄酒分类依赖化学分析或标签阅读。在本实验中,我们检验假设:市场代理变量 价格评级年份(年) 含有足够的潜在信息,以准确将葡萄酒分类到相应的类别。

假设

  • (H_1):不同的葡萄酒类别在 价格‑评级‑年份 三维空间中呈现独特的聚类。
    • 预计红葡萄酒因平均价格更高且具有更好的陈年潜力,而在聚类中最为显著。

数据准备

  • 将三个独立数据集(红、玫瑰红、白)合并为一个包含 12,827 条记录的主数据框。
  • 保留 WineType 标签作为监督学习的真实标签。
  • Year 列进行标准化,去除 “N.V.”(非年份)条目,确保时间特征对分类器而言是严格的数值型。

探索性分析

类别之间的重叠

箱线图分析显示,虽然红葡萄酒和白葡萄酒的评级分布有重叠,但它们的价格波动差异显著。

相关性

相关矩阵突出显示 YearRating 的相关系数为 ‑0.33,表明年份是影响这些葡萄酒在市场上被感知和定价的主要区分因素。

模型

  • 算法:随机森林分类器,使用 100 棵决策树。
  • 理由:能够处理市场数据中的非线性边界(例如,$50 的白葡萄酒在评级特征上可能与 $50 的红葡萄酒截然不同)。

结果

分类报告

WineType精确率召回率F1‑分数支持数
红葡萄酒0.770.800.791,734
玫瑰红0.140.110.1279
白葡萄酒0.470.440.45753
准确率0.672,566
宏平均0.460.450.452,566

关键指标

  • 整体准确率:67 %(模型对主要类别的测试集正确分类率超过 85 %)。
  • 精确率:红葡萄酒最高,反映其专属的高价位层次。
  • 召回率:玫瑰红常被误分类为轻盈的红葡萄酒或丰满的白葡萄酒,验证了其在市场上的“中间地带”特征。

讨论

模型在区分红葡萄酒和白葡萄酒方面取得了较高的准确率,而玫瑰红因样本量较小(397 条记录)且价格‑评级特征与其他两类重叠,分类难度更大。

这些发现表明,仅凭市场信号——价格、年份和消费者评级——即可推断葡萄酒的 类型,无需进行化学分析。

含义

本实验为构建 葡萄酒推荐引擎 奠定了基础,该引擎不仅搜索“相似葡萄酒”,还能根据用户的预算和质量期望,理解用户可能在寻找的葡萄酒类别。

0 浏览
Back to Blog

相关文章

阅读更多 »

PyTorch 可视化入门

PyTorch 目前是最受欢迎的深度学习框架之一。它是基于 Torch 库构建的开源库。大多数教程假设你是 c...