[Paper] 通过光学字符识别重新思考基因组建模

发布: (2026年2月2日 GMT+8 20:12)
8 min read
原文: arXiv

Source: arXiv - 2602.02014v1

Overview

本文介绍了 OpticalDNA,这是一种新颖的基因组数据建模方式,将 DNA 序列视作文本图像而非长字符序列。通过将 DNA 渲染为可视化布局并应用 OCR‑风格的视觉‑语言模型,作者在大规模基因组任务上实现了更高的效率和准确性,将有效 token 数量降低至最高 20 倍,同时仍超越了重量级语言模型基线。

关键贡献

  • Vision‑first genomic representation – DNA 被可视化为结构化的“文档”,并使用专用的视觉 DNA 编码器进行编码,摆脱传统的 1‑D token 流。
  • Compact, reconstructible visual tokens – 编码器学习到高度压缩的 token 集,可几乎无损地解码回原始序列,从而实现大幅度的 token 预算削减。
  • Prompt‑conditioned multimodal objectives – 四个核心任务(阅读、区域定位、子序列检索、掩码跨度补全)被构造成 OCR 风格的提示,促使模型同时理解内容和布局。
  • Parameter‑efficient fine‑tuning – 只需 256 k 可训练参数即可微调大型骨干网络,使该方法对计算资源有限的实验室也实用。
  • State‑of‑the‑art performance on long genomes – 在序列长度最高达 450 k 碱基的基准测试中,OpticalDNA 超越了之前的模型,同时使用约 20 倍更少的有效 token,激活参数最多减少 985 倍。

方法论

  1. 将 DNA 渲染为图像 – 将原始核苷酸序列使用等宽字体排布在画布上,可选地添加视觉提示(例如,基因注释的颜色编码、调控区域的换行)。这会生成一张高分辨率图像,保留基因组的自然“文档”结构。
  2. 视觉 DNA 编码器 – 视觉 Transformer(ViT)处理该图像,提取块嵌入作为 视觉标记。轻量级的重建头确保这些标记能够恢复为原始序列,从而实现无损压缩。
  3. 文档解码器(视觉‑语言模型) – 一个在 OCR 与文档理解任务上预训练的 Transformer 解码器,接收视觉标记并结合文本提示(例如,“查找基因 X 的启动子区域”)。解码器输出文本(核苷酸子序列)或位置信息(定位区域)。
  4. 基于提示的训练目标
    • 阅读 – 从视觉标记预测完整的核苷酸序列(标准重建)。
    • 区域定位 – 给定基因名称,输出在图像中定位该基因的边界框。
    • 子序列检索 – 根据文本查询检索特定子序列。
    • 遮蔽跨度补全 – 在视觉布局中随机遮蔽跨度,并让模型填补,促进上下文推理。
  5. 微调策略 – 主干网络权重保持冻结,仅在每个下游基因组任务上训练一个小型适配层(≈256 k 参数),显著降低计算和内存开销。

结果与发现

基准序列长度有效标记相对性能(相较于 LLM‑style 基线)
基因注释分类≤ 100 k bp5 k tokens+7.2 % F1
长程增强子‑启动子预测250 k bp12 k tokens+9.5 % AUROC
全基因组变异检测(模拟)450 k bp22 k tokens+5.8 % accuracy
子序列检索(基于提示)300 k bp15 k tokens+12.3 % exact‑match
  • 标记效率: OpticalDNA 使用的标记约为可比 1‑D Transformer 的 1/20,同时保持(或提升)下游准确性。
  • 参数效率: 该模型在推理时匹配或超越了激活参数多达 985 倍的基线。
  • 可扩展性: 性能提升随序列长度增长,证实视觉布局缓解了长低信息基因组区域的“背景噪声”问题。

实际意义

  • 更快的大基因组推理 – 生物信息学流水线(例如变异检测、基因注释)可以在仅需当前语言模型方法的一小部分时间和内存的情况下处理整条染色体。
  • 边缘设备部署 – 紧凑的 token 表示和极小的适配器使得在临床实验室的普通 GPU 或甚至专用 ASIC 上运行基因组分析成为可能。
  • 提示驱动的基因组学 – 研究人员可以用自然语言提问(如“显示基因 TP53 附近的 CpG 岛”),并获得精确、基于事实的答案,无需编写自定义脚本。
  • 跨模态集成 – 由于主干模型已具备 OCR 能力,未来的扩展可以同时摄取混合数据(例如凝胶图像、显微镜切片)与 DNA,实现更丰富的多组学诊断。
  • 成本效益高的模型更新 – 添加新注释或特定物种的知识仅需微调小型适配器,避免了昂贵的全模型重新训练。

局限性与未来工作

  • Visualization overhead – 将 DNA 转换为图像会增加预处理步骤,对流式或实时数据源可能不够直接。
  • Resolution constraints – 极长的序列仍需拆分为多张图像;最佳的拼接策略仍是未解之题。
  • Domain‑specific tokenization – 虽然视觉标记紧凑,但尚未具备生物学可解释性(例如,它们未直接映射到基序),这可能限制可解释性。
  • Generalization to non‑model organisms – 当前实验聚焦于注释完善的人类/基因组数据集;在高度重复或注释不足的基因组上的表现仍需验证。

Future research directions include adaptive tiling algorithms, hybrid models that combine visual tokens with traditional k‑mer embeddings, and extending the prompt language to cover epigenetic and 3‑D chromatin structure queries.

作者

  • Hongxin Xiang
  • Pengsen Ma
  • Yunkang Cao
  • Di Yu
  • Haowen Chen
  • Xinyu Yang
  • Xiangxiang Zeng

论文信息

  • arXiv ID: 2602.02014v1
  • 类别: cs.CV, cs.AI, cs.CL, cs.LG
  • 出版日期: 2026年2月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 强化注意力学习

通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…