我用 JavaScript 构建了一个 Offline-First 语义搜索引擎

发布: 1个月前 (2025年12月29日 GMT+8 14:57)

4 分钟阅读

原文: Dev.to

Source: Dev.to

介绍

搜索看似简单，实则困难。大多数 JavaScript 搜索库只停留在关键词或模糊匹配，而大多数语义搜索方案又假设需要外部 API、向量数据库或托管服务。我想要一些不同的东西：

于是我构建了 Simile Search —— 一个离线优先的语义 + 模糊搜索引擎，使用 JavaScript 实现。

Simile 结合了多种技术，而不是依赖单一的评分方法：

基于 Transformer 的嵌入（通过 transformers.js）来捕获语义，这样即使没有关键词重叠，像 “phone charger” → “USB‑C cable” 这样的查询也能匹配。
HNSW（层次化可导航小世界）索引 用于近似最近邻搜索，提供亚线性搜索时间，随着目录规模增长仍能保持可预测的性能，并实现交互式搜索的实用延迟。
向量量化 在降低内存占用的同时保持高相似度质量，这在 Node.js 环境下运行、嵌入大规模目录或全部放在内存中时尤为重要。

嵌入是语义搜索中最慢的环节。Simile 通过以下方式避免重复工作：

单纯的语义相似度并不足够。Simile 将以下因素融合在一起：

权重可以根据你的业务领域进行调节。

不需要手动将数据扁平化，Simile 可以直接在嵌套路径上搜索，例如：

这使得它在实际的产品目录和结构化数据场景中非常实用。

Simile 最适合以下场景：

它并不是要取代 MeiliSearch、Elastic 或大型向量数据库——而是面向那些数据规模中小、语义重要且基础设施需要保持简洁的场景。

我经常看到以下项目：

Simile 正是为填补这一空白而诞生的。