需要多少个AI才能读取PDF?
发布: (2026年2月24日 GMT+8 02:50)
2 分钟阅读
原文: Slashdot
Source: Slashdot
为什么 PDF 对 AI 来说很难
尽管 AI 在构建复杂软件方面取得了进展,普遍使用的 PDF 仍然是一个巨大的挑战——这是一种 Adobe 在 1990 年代初期开发的格式,用于保留文档的精确视觉外观。PDF 由字符代码、坐标和渲染指令组成,而不是逻辑顺序的文本,即使是最先进的模型在被要求从中提取信息时也会进行摘要、把脚注误当正文,甚至彻底“幻觉”出内容,The Verge 报道。
新方法与研究
Reducto 等公司现在通过将页面分割成组件——标题、表格、图表——然后将每个组件路由到专门的解析模型来解决这个问题,这种方法借鉴了用于自动驾驶车辆的计算机视觉技术。Hugging Face 的研究人员最近发现,仅在 Common Crawl 中就有大约 13 亿个 PDF,而 Allen Institute for AI 则指出,PDF 可以提供来自政府报告、教科书和学术论文的数万亿个新颖、高质量的训练 token——这正是 AI 开发者日益渴求的数据。