科学实验:市场数据能否识别葡萄酒类型?
发布: (2026年3月13日 GMT+8 07:58)
4 分钟阅读
原文: Dev.to
Source: Dev.to
引言
为了解决葡萄酒分类的挑战,我们将目标从预测连续评分(评级)转变为根据其市场和时间特征识别葡萄酒的类别——红葡萄酒、玫瑰红或白葡萄酒。
传统的葡萄酒分类依赖化学分析或标签阅读。在本实验中,我们检验假设:市场代理变量 价格、评级 和 年份(年) 含有足够的潜在信息,以准确将葡萄酒分类到相应的类别。
假设
- (H_1):不同的葡萄酒类别在 价格‑评级‑年份 三维空间中呈现独特的聚类。
- 预计红葡萄酒因平均价格更高且具有更好的陈年潜力,而在聚类中最为显著。
数据准备
- 将三个独立数据集(红、玫瑰红、白)合并为一个包含 12,827 条记录的主数据框。
- 保留 WineType 标签作为监督学习的真实标签。
- 对 Year 列进行标准化,去除 “N.V.”(非年份)条目,确保时间特征对分类器而言是严格的数值型。
探索性分析
类别之间的重叠
箱线图分析显示,虽然红葡萄酒和白葡萄酒的评级分布有重叠,但它们的价格波动差异显著。
相关性
相关矩阵突出显示 Year 与 Rating 的相关系数为 ‑0.33,表明年份是影响这些葡萄酒在市场上被感知和定价的主要区分因素。
模型
- 算法:随机森林分类器,使用 100 棵决策树。
- 理由:能够处理市场数据中的非线性边界(例如,$50 的白葡萄酒在评级特征上可能与 $50 的红葡萄酒截然不同)。
结果
分类报告
| WineType | 精确率 | 召回率 | F1‑分数 | 支持数 |
|---|---|---|---|---|
| 红葡萄酒 | 0.77 | 0.80 | 0.79 | 1,734 |
| 玫瑰红 | 0.14 | 0.11 | 0.12 | 79 |
| 白葡萄酒 | 0.47 | 0.44 | 0.45 | 753 |
| 准确率 | — | — | 0.67 | 2,566 |
| 宏平均 | 0.46 | 0.45 | 0.45 | 2,566 |
关键指标
- 整体准确率:67 %(模型对主要类别的测试集正确分类率超过 85 %)。
- 精确率:红葡萄酒最高,反映其专属的高价位层次。
- 召回率:玫瑰红常被误分类为轻盈的红葡萄酒或丰满的白葡萄酒,验证了其在市场上的“中间地带”特征。
讨论
模型在区分红葡萄酒和白葡萄酒方面取得了较高的准确率,而玫瑰红因样本量较小(397 条记录)且价格‑评级特征与其他两类重叠,分类难度更大。
这些发现表明,仅凭市场信号——价格、年份和消费者评级——即可推断葡萄酒的 类型,无需进行化学分析。
含义
本实验为构建 葡萄酒推荐引擎 奠定了基础,该引擎不仅搜索“相似葡萄酒”,还能根据用户的预算和质量期望,理解用户可能在寻找的葡萄酒类别。