科学实验：市场数据能否识别葡萄酒类型？

发布: 1个月前 (2026年3月13日 GMT+8 07:58)

4 分钟阅读

原文: Dev.to

Source: Dev.to

引言

为了解决葡萄酒分类的挑战，我们将目标从预测连续评分（评级）转变为根据其市场和时间特征识别葡萄酒的类别——红葡萄酒、玫瑰红或白葡萄酒。

传统的葡萄酒分类依赖化学分析或标签阅读。在本实验中，我们检验假设：市场代理变量价格、评级和 年份（年） 含有足够的潜在信息，以准确将葡萄酒分类到相应的类别。

(H_1)：不同的葡萄酒类别在 价格‑评级‑年份 三维空间中呈现独特的聚类。
- 预计红葡萄酒因平均价格更高且具有更好的陈年潜力，而在聚类中最为显著。

箱线图分析显示，虽然红葡萄酒和白葡萄酒的评级分布有重叠，但它们的价格波动差异显著。

WineType	精确率	召回率	F1‑分数	支持数
红葡萄酒	0.77	0.80	0.79	1,734
玫瑰红	0.14	0.11	0.12	79
白葡萄酒	0.47	0.44	0.45	753
准确率	—	—	0.67	2,566
宏平均	0.46	0.45	0.45	2,566

模型在区分红葡萄酒和白葡萄酒方面取得了较高的准确率，而玫瑰红因样本量较小（397 条记录）且价格‑评级特征与其他两类重叠，分类难度更大。

这些发现表明，仅凭市场信号——价格、年份和消费者评级——即可推断葡萄酒的类型，无需进行化学分析。

本实验为构建 葡萄酒推荐引擎 奠定了基础，该引擎不仅搜索“相似葡萄酒”，还能根据用户的预算和质量期望，理解用户可能在寻找的葡萄酒类别。