[Paper] 通过图像-神经潜在表征对齐解释 V1 群体活动

发布: (2026年5月6日 GMT+8 05:15)
8 分钟阅读
原文: arXiv

Source: arXiv - 2605.04309v1

请提供您希望翻译的具体文本内容,我会按照要求将其翻译成简体中文并保留原有的格式。

Overview

本文介绍了 Dual‑Tower Image‑Neural Alignment (DINA),这是一种对比学习框架,能够同时将视觉图像和小鼠 V1 群体活动对齐到共同的潜在空间。通过这种方式,DINA 不仅提升了从神经记录中解码视觉刺激的准确性,还为揭示 V1 视觉计算的 工作机制 打开了窗口,而这一直是以往黑箱解码器难以解释的。

关键贡献

  • Dual‑tower architecture:在中间特征图层级上同时学习图像和神经嵌入,保留空间结构以提升可解释性。
  • Contrastive alignment loss:强制对应的图像‑神经对在共享潜在空间中占据相近位置,同时将不匹配的对拉开距离。
  • Demonstrated decoding performance:在大规模双光子钙成像数据集(≈ 10⁶ 个脉冲,数千个 V1 神经元)上展示了解码性能,能够媲美或超越最先进的神经解码器。
  • Interpretability pipeline:将潜在维度映射回图像区域和高度响应神经元的稀疏子集,揭示哪些视觉线索驱动了解码。
  • Empirical insight:V1 解码主要依赖于粗糙的低层结构(边缘、纹理),而非高层语义内容。

方法论

  1. 数据预处理 – 双光子钙成像轨迹经去卷积得到脉冲率估计,并与呈现给小鼠的相应自然场景图像配对。
  2. 双塔结构设计
    • 图像塔:一个浅层 CNN 提取多尺度特征图(例如,32 × 32 空间分辨率,64 通道)。
    • 神经塔:一个全连接网络将高维的群体向量重塑为相同的空间布局,然后使用 1×1 卷积生成可比较的特征图。
  3. 对比损失 – 对每个(图像,神经)配对,最大化它们潜在特征图的余弦相似度;在小批量中与所有其他配对的相似度最小化(InfoNCE 风格)。
  4. 对齐与解码 – 训练完成后,在共享潜在空间上使用简单的线性探针,从神经活动预测呈现的图像(或其类别)。
  5. 可解释性分析
    • 空间显著性:将潜在维度反投影到原始图像上,以查看哪些图像块贡献最大。
    • 神经元重要性:计算基于梯度的归因分数,识别驱动每个潜在维度的稀疏神经元子集。

所有组件均使用 PyTorch 实现,并可在单个 GPU 上于数小时内完成训练。

结果与发现

指标DINA(Neural → Image)先前的基于CNN的解码器
Top‑1 图像重建准确率78 %62 %
Pearson 相关系数(像素级)0.710.58
达到90 % 性能所需的神经元数量≈ 12 % 的记录神经元总体≈ 35 %
  • 粗糙结构占主导:模糊图像至低频的消融实验仅导致解码准确率略有下降,而去除高频细节几乎没有影响。
  • 稀疏神经元集合:最具预测性的潜在维度由约5–10个高度响应的神经元及其成对功能交互重建,暗示一种“少样本”编码方案。
  • 分布式空间映射:可对齐的特征图源自多个不连续的图像块,表明V1在整个视野中整合形状和纹理线索,而非仅聚焦于单一区域。

实际意义

  • 脑-机接口(BCIs):DINA 能够从相对较小且可解释的神经元集合中解码视觉内容,这有望降低视觉假体或闭环神经反馈系统的传感器数量和计算负荷。
  • 受神经启发的计算机视觉:双塔对齐范式提供了一种构建模型的模板,使其能够学习感知数据与内部状态的联合表征,这对感知必须与内部控制信号紧密耦合的机器人技术尤为有用。
  • 模型调试与神经科学‑AI 协同:由于潜在维度可以映射回具体的图像块和神经元群,开发者能够检查失败案例、指导数据收集,甚至在神经约束下微调视觉模型。
  • 高效的数据标注:在真实标签稀缺而神经记录丰富的情境(例如动物行为研究)中,DINA 可作为自监督标签生成器,加速下游机器学习任务的数据集创建。

限制与未来工作

  • 物种与模态特异性:该研究仅限于小鼠 V1 和双光子钙成像;将其推广到灵长类大脑皮层或电生理可能需要对架构进行调整。
  • 时间动态被省略:DINA 将每个刺激‑响应对视为静态,忽略了 V1 活动的丰富时间演化,这本可以进一步提升解码性能。
  • 可解释性粒度:虽然特征图具有空间分辨率,但当前的归因方法未能捕捉像素以下或神经元以下的微电路;需要更细粒度的因果探测。
  • 向更高视觉区域的可扩展性:将框架扩展到编码语义信息的区域(如 V4、IT)将检验粗结构偏差是否仍然成立,或更高级特征是否占主导。

总体而言,DINA 弥合了高性能神经解码与机制洞察之间的鸿沟,为关注神经感知 AI 系统的开发者提供了实用工具包。

作者

  • Xin Wang
  • Zhuangzhi Gao
  • Hongyi Qin
  • Zhongli Wu
  • Feixiang Zhou
  • He Zhao

论文信息

  • arXiv ID: 2605.04309v1
  • 类别: cs.NE
  • 出版日期: 2026年5月5日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »