什么是 OCR？（以及 4 个真实世界的使用案例）

发布: 2个月前 (2026年2月5日 GMT+8 17:08)

3 分钟阅读

原文: Dev.to

Source: Dev.to

什么是 OCR？

OCR 代表 光学字符识别。通俗来说，它是一种将文本图像（例如文档的照片或扫描的 PDF）转换为实际机器可读文本格式（如纯文本、JSON 或 .txt 文件）的技术。

没有 OCR，页面的照片对计算机来说只是一格格彩色像素。使用 OCR，这些像素就会变成你可以搜索、编辑和存储的数据。

现代 OCR 引擎使用模式识别和机器学习来识别字母和数字的形状，即使字体不常见或光线不足也能识别。

🧾 与其手动将收据数据输入 Excel，应用程序可以使用 OCR 扫描照片，提取 总金额、日期和 商家名称，并自动记录费用。

🆔 当你在银行应用注册并上传驾驶执照时，OCR 会读取你的姓名、出生日期和身份证号，立即完成身份验证，无需人工审查。

🚗 智能停车场使用带 OCR 的摄像头读取车辆进出时的车牌，自动计算停车费用。

🦾 屏幕阅读器无法读取像素。OCR 工具扫描网站上的图像，提取其中的文本并朗读给视障用户听。

OCR 是实体“纸质”世界与数字“数据”世界之间的桥梁。如果你正在构建需要数字化手动数据录入的应用，可能需要在技术栈中加入 OCR 库（例如 Tesseract.js 或 Google Vision API）！