EP 6.1：如何在毫秒级搜索10亿行

发布: 1个月前 (2025年12月29日 GMT+8 18:00)

5 分钟阅读

原文: Dev.to

Source: Dev.to

问题：全表扫描

想象一个拥有 100 万本书的图书馆。如果你想找《了不起的盖茨比》，而这些书没有任何组织，你只能一本一本地查看，直到找到为止。在数据库中，这就是 全表扫描（线性时间复杂度）。

随着数据库从几千行增长到几百万行，你的 SELECT 查询会变得非常慢，最终超时并导致应用崩溃。

索引是一种独立的数据结构，它存储列数据的排序版本，并附带指向主表中实际行的指针（引用）。大多数关系型数据库（如 PostgreSQL 和 MySQL）使用 B‑Tree（平衡树）结构。

这将搜索从 O(n) 降至 O(log n)。搜索 100 万行突然只需要大约 20 次“跳转”。

把索引想象成教科书背后的索引：

如果你的查询总是类似于：

WHERE country = 'India' AND city = 'Mumbai'

一个同时覆盖两个列的单一索引要比数据库尝试合并两个独立索引快得多。

专业提示： 复合索引的列顺序很重要。(city, country) 与 (country, city) 并不相同。

为外键建索引： 这会显著加快 JOIN 操作。
覆盖查询： 如果你的索引已经包含 SELECT 所需的全部数据（例如只索引 email 并且只查询 email），数据库甚至不需要访问主表。这称为 仅索引扫描（index‑only scan）。
避免低基数列： 对像 gender（仅有 M/F/O 三个值）这样的列建索引通常没有意义，因为数据库仍需扫描表的大部分。
使用 EXPLAIN ANALYZE 监控： 在添加索引之前，用 EXPLAIN 运行查询，查看数据库是执行顺序扫描还是使用已有索引。

索引是提升数据库性能的最强大工具，但使用它们要像加盐一样：放太多会毁掉整道菜。