机器学习 - 完整课程

发布: (2026年1月4日 GMT+8 17:36)
6 min read
原文: Dev.to

Source: Dev.to

Machine Learning — Blog Series Contents

PART 0: Before ML (Mindset & Big Picture)

  • 什么是机器学习?(去掉流行词)
  • ML 与 AI、DL 与统计的区别
  • 为什么机器学习模型在真实世界会失效
  • 机器学习生命周期:数据 → 模型 → 部署 → 衰减
  • 何时不要使用机器学习

PART 1: Mathematical Foundations (Intuition First)

  • (先不做繁重的证明——几何 + 可视化)
  • Linear Algebra for ML
    • 向量:点、方向和特征
    • 点积 = 相似度(为什么余弦有效)
    • 矩阵乘法是一次变换
    • 特征向量是“稳定方向”
    • 高维空间为何怪异
  • Probability & Statistics
    • 随机变量是“不确定性容器”
    • 期望是长期行为的描述
    • 方差、偏差与噪声(真实含义)
    • 用概念解释贝叶斯定理(不写公式)
    • 最大似然 vs MAP
  • Optimization Basics
    • 损失函数:衡量后悔程度
    • 梯度下降的几何直观
    • 局部最小、鞍点、平坦区域
    • 学习率即物理中的步长
    • 凸问题 vs 非凸问题

PART 2: Classical Machine Learning (Core)

  • 监督学习
  • 从零实现线性回归
  • 过拟合 vs 欠拟合(偏差‑方差权衡)
  • 正则化:L1、L2、Elastic Net
  • 逻辑回归作为概率模型
  • 决策树:把混沌划分成有序
  • 随机森林:群体智慧
  • 梯度提升的直观解释
  • 简单讲解 XGBoost
  • Model Evaluation
    • 训练/验证/测试划分的误区
    • 准确率是谎言(精确率、召回率、F1)
    • ROC 与 PR 曲线的比较
    • 正确的交叉验证
    • 数据泄漏的恐怖案例

PART 3: Unsupervised Learning

  • 聚类:发现结构
  • K‑Means 的几何直观
  • 层次聚类
  • DBSCAN 与基于密度的思考方式
  • 降维 vs 特征选择
  • PCA 作为方差最大化
  • 当 PCA 放大偏差(公平性视角)

PART 4: Feature Engineering (Underrated Superpower)

  • 为什么特征比模型更重要
  • 类别变量的编码
  • 缩放与归一化的误区
  • 特征交互
  • 基于时间的特征
  • 特征泄漏的模式
  • 基于领域的特征设计

PART 5: Neural Networks (Deep Learning)

Basics

  • 感知机:神经元的神话
  • 为什么线性模型会失效
  • 激活函数的几何解释
  • 反向传播的可视化说明
  • 梯度消失与梯度爆炸
  • Architectures
    • 全连接网络
    • CNN:局部连接的直观理解
    • 池化:信息压缩
    • RNN 与序列记忆
    • LSTM 与 GRU 的去神秘化
    • Transformer 的高层概览

PART 6: Training Deep Models

  • 参数初始化的重要性超出想象
  • 批量、mini‑batch 与随机 GD 的区别
  • 优化器:SGD、Adam、RMSProp
  • 深度学习中的正则化
    • Dropout 作为集成技巧
    • BatchNorm 解释
  • 早停的直观原理

PART 7: Model Interpretability & Fairness

  • 黑盒 vs 玻璃盒模型
  • 特征重要性的误区
  • SHAP 与 LIME 的直观解释
  • ML 中的公平性:到底是什么意思?
  • 数据偏差 vs 模型偏差
  • 公平 PCA 与表征学习
  • 权衡:准确率 vs 公平性

PART 8: ML Systems & Production

  • 训练管道 vs 推理管道
  • 离线学习 vs 在线学习
  • 模型版本管理
  • 数据漂移 vs 概念漂移
  • 生产环境中的 ML 监控
  • 重训练策略
  • ML 技术债务

PART 9: Applied Machine Learning

  • 推荐系统中的 ML
  • 搜索引擎中的 ML
  • 欺诈检测中的 ML
  • 医疗健康中的 ML(风险与伦理)
  • 金融领域的 ML
  • 体育分析中的 ML
  • NLP 任务的 ML
  • 计算机视觉的 ML

PART 10: Research Thinking in ML

  • 如何阅读 ML 研究论文
  • 实证论文 vs 理论论文
  • 可重复性…

Source:

第11部分:高级与前沿主题

  • 自监督学习
  • 对比学习
  • 表征学习
  • 元学习
  • 在线学习
  • 因果机器学习
  • 强化学习直觉
  • 大语言模型与基础模型
  • 机器学习对齐与安全

第12部分:机器学习职业与学习路径

  • 如何在不被淹没的情况下学习机器学习
  • 数学 vs 直觉——该优先考虑哪一个?
  • 机器学习面试 vs 实际机器学习工作
  • 构建有影响力的机器学习项目
  • 从工程师转型为机器学习研究员
  • 如何选择研究问题
Back to Blog

相关文章

阅读更多 »