为什么数学在机器学习中至关重要

发布: (2025年12月15日 GMT+8 07:43)
6 min read
原文: Dev.to

Source: Dev.to

引言 — 黑箱神话

机器学习常被呈现为一种本质上 算法化 的学科:加载数据,选择模型,训练它,然后“它就能工作”。
这种观点 部分正确,但 根本不完整

在每个机器学习算法背后都有 精确的数学结构

  • 距离 的概念
  • 连续性 的属性
  • 凸性 的假设
  • 收敛 保证以及模型无法规避的理论极限

👉 现代机器学习 不是数学的替代品;它是 数学的直接应用

本文为系列文章奠定总体框架:理解为什么数学分析对理解、设计和掌握机器学习算法是不可或缺的

1. 机器学习本质上是一个优化问题

从根本上讲,几乎所有的机器学习算法都在求解同一个问题:

最小化损失函数。

形式上,我们寻找参数 θ,使得

[ \theta^{*} = \arg\min_{\theta} L(\theta) ]

其中 L(θ) 衡量模型在数据上的误差。

紧随其后的数学问题立刻出现:

  • 什么是 最小化
  • 最小值是否存在?
  • 它是否唯一?
  • 能否在数值上达到?
  • 以何种速度收敛?

这些问题是 数学的,而不仅仅是算法层面的。

2. 距离、范数与几何:误差测量并非中性

在进行任何优化之前,我们必须回答:

我们如何衡量误差?

这直接引出 距离范数 的概念。

经典例子:

  • MAE(平均绝对误差) ↔  范数
  • MSE(均方误差) ↔  范数
  • 最大误差 ↔ L^∞ 范数

这些选择并非偶然:

  • 它们改变了问题的 几何结构
  • 它们影响 对异常值的鲁棒性
  • 它们决定 数值稳定性
  • 它们影响 梯度下降的行为

👉 若不了解范数所诱导的几何,就无法真正理解算法在优化什么。

3. 收敛:何时可以说算法有效?

机器学习算法往往是 迭代 的:

[ \theta_{0} \rightarrow \theta_{1} \rightarrow \theta_{2} \rightarrow \dots ]

这引出一个关键问题:

这个序列会收敛吗?如果会,收敛到哪里?

答案依赖于分析学的概念:

  • 序列与极限
  • 柯西序列
  • 完备性
  • 连续性

没有这些概念,就无法回答诸如:

  • 为什么训练会发散
  • 为什么会出现振荡
  • 为什么收敛慢
  • 为什么两个实现得到不同结果

4. 连续性、Lipschitz 条件与稳定性

机器学习模型必须 稳定:数据或参数的微小变化不应导致预测失控。这种稳定性通过以下概念形式化:

  • 一致连续
  • Lipschitz 函数

函数 f 若满足

[ |f(x) - f(y)| \le L,|x - y| ]

则称为 Lipschitz。该不等式是以下内容的核心:

  • 模型稳定性
  • 学习率的选择
  • 梯度下降的收敛保证

👉 Lipschitz 常数并非纯理论细节;它直接控制 学习的速度与稳定性

5. 凸性:为何有些问题容易…而有些则不然

凸性可以说是优化中最重要的数学属性。

凸函数具备:

  • 唯一的全局最小值
  • 不存在局部最小陷阱

这正是以下方法能够获得 强理论保证 的原因:

  • 线性回归
  • 支持向量机
  • 某些正则化问题

相反,深度神经网络是 非凸 的,但它们仍能工作,归功于特定结构和有效的启发式方法。

👉 理解凸性使我们能够判断 何时有保证——何时没有保证

6. 理论 vs. 实践:数学能保证什么(以及不能保证什么)

从一开始就必须明确的关键点:

数学保证的是属性,而不是奇迹般的性能。

它可以告诉我们:

  • 解是否存在
  • 解是否唯一
  • 算法是否收敛
  • 收敛速度如何

它却无法保证:

  • 数据质量好
  • 泛化能力好
  • 模型无偏

缺乏数学洞察,我们只能 盲目 前行。

结论 — 在优化之前先理解

现代机器学习依托三大数学支柱:

  • 几何(范数、距离)
  • 分析(连续性、收敛、Lipschitz 条件)
  • 优化(凸性、梯度下降)

忽视这些基础等同于:

  • 在不懂其局限的情况下套用配方
  • 错误诊断失败原因
  • 让本该简单的问题变得复杂

👉 理解机器学习的数学分析并非为了理论本身,而是为了获得控制力、鲁棒性和直觉。

Back to Blog

相关文章

阅读更多 »

Edge ML 对尺寸痴迷

UPS 可能会用货运电动自行车送达您的亚马逊包裹。在大多数城市,对于大多数包裹,这实际上会更快。没有停车问题。没有交通拥堵。直接送到您…