为什么数学在机器学习中至关重要

发布: 1个月前 (2025年12月15日 GMT+8 07:43)

6 分钟阅读

原文: Dev.to

Source: Dev.to

引言 — 黑箱神话

机器学习常被呈现为一种本质上 算法化 的学科：加载数据，选择模型，训练它，然后“它就能工作”。
这种观点 部分正确，但 根本不完整。

在每个机器学习算法背后都有 精确的数学结构：

距离的概念
连续性 的属性
凸性的假设
收敛保证以及模型无法规避的理论极限

👉 现代机器学习 不是数学的替代品；它是 数学的直接应用。

本文为系列文章奠定总体框架：理解为什么数学分析对理解、设计和掌握机器学习算法是不可或缺的。

1. 机器学习本质上是一个优化问题

从根本上讲，几乎所有的机器学习算法都在求解同一个问题：

最小化损失函数。

形式上，我们寻找参数 θ，使得

[ \theta^{*} = \arg\min_{\theta} L(\theta) ]

其中 L(θ) 衡量模型在数据上的误差。

紧随其后的数学问题立刻出现：

什么是 最小化？
最小值是否存在？
它是否唯一？
能否在数值上达到？
以何种速度收敛？

这些问题是 数学的，而不仅仅是算法层面的。

2. 距离、范数与几何：误差测量并非中性

在进行任何优化之前，我们必须回答：

我们如何衡量误差？

这直接引出距离与范数的概念。

经典例子：

MAE（平均绝对误差） ↔ L¹ 范数
MSE（均方误差） ↔ L² 范数
最大误差 ↔ L^∞ 范数

这些选择并非偶然：

它们改变了问题的 几何结构
它们影响 对异常值的鲁棒性
它们决定 数值稳定性
它们影响 梯度下降的行为

👉 若不了解范数所诱导的几何，就无法真正理解算法在优化什么。

3. 收敛：何时可以说算法有效？

机器学习算法往往是迭代的：

[ \theta_{0} \rightarrow \theta_{1} \rightarrow \theta_{2} \rightarrow \dots ]

这引出一个关键问题：

这个序列会收敛吗？如果会，收敛到哪里？

答案依赖于分析学的概念：

序列与极限
柯西序列
完备性
连续性

没有这些概念，就无法回答诸如：

为什么训练会发散
为什么会出现振荡
为什么收敛慢
为什么两个实现得到不同结果

4. 连续性、Lipschitz 条件与稳定性

机器学习模型必须稳定：数据或参数的微小变化不应导致预测失控。这种稳定性通过以下概念形式化：

一致连续
Lipschitz 函数

函数 f 若满足

[ |f(x) - f(y)| \le L,|x - y| ]

则称为 Lipschitz。该不等式是以下内容的核心：

模型稳定性
学习率的选择
梯度下降的收敛保证

👉 Lipschitz 常数并非纯理论细节；它直接控制 学习的速度与稳定性。

5. 凸性：为何有些问题容易…而有些则不然

凸性可以说是优化中最重要的数学属性。

凸函数具备：

唯一的全局最小值
不存在局部最小陷阱

这正是以下方法能够获得 强理论保证 的原因：

线性回归
支持向量机
某些正则化问题

相反，深度神经网络是非凸的，但它们仍能工作，归功于特定结构和有效的启发式方法。

👉 理解凸性使我们能够判断 何时有保证——何时没有保证。

6. 理论 vs. 实践：数学能保证什么（以及不能保证什么）

从一开始就必须明确的关键点：

数学保证的是属性，而不是奇迹般的性能。

它可以告诉我们：

解是否存在
解是否唯一
算法是否收敛
收敛速度如何

它却无法保证：

数据质量好
泛化能力好
模型无偏

缺乏数学洞察，我们只能盲目前行。

结论 — 在优化之前先理解

现代机器学习依托三大数学支柱：

几何（范数、距离）
分析（连续性、收敛、Lipschitz 条件）
优化（凸性、梯度下降）

忽视这些基础等同于：

在不懂其局限的情况下套用配方
错误诊断失败原因
让本该简单的问题变得复杂

👉 理解机器学习的数学分析并非为了理论本身，而是为了获得控制力、鲁棒性和直觉。

为什么数学在机器学习中至关重要

引言 — 黑箱神话

1. 机器学习本质上是一个优化问题

2. 距离、范数与几何：误差测量并非中性

3. 收敛：何时可以说算法有效？

4. 连续性、Lipschitz 条件与稳定性

5. 凸性：为何有些问题容易…而有些则不然

6. 理论 vs. 实践：数学能保证什么（以及不能保证什么）

结论 — 在优化之前先理解

相关文章

机器学习“降临节日历”第15天：Excel中的SVM

3个问题：使用计算研究世界上最优秀的单细胞化学家

AI 与机器学习：Intelligent Automation 的 Futnewsure

过度平滑的隐藏陷阱：如何防止过