[Paper] 通过图像-神经潜在表征对齐解释 V1 群体活动
发布: (2026年5月6日 GMT+8 05:15)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.04309v1
请提供您希望翻译的具体文本内容,我会按照要求将其翻译成简体中文并保留原有的格式。
Overview
本文介绍了 Dual‑Tower Image‑Neural Alignment (DINA),这是一种对比学习框架,能够同时将视觉图像和小鼠 V1 群体活动对齐到共同的潜在空间。通过这种方式,DINA 不仅提升了从神经记录中解码视觉刺激的准确性,还为揭示 V1 视觉计算的 工作机制 打开了窗口,而这一直是以往黑箱解码器难以解释的。
关键贡献
- Dual‑tower architecture:在中间特征图层级上同时学习图像和神经嵌入,保留空间结构以提升可解释性。
- Contrastive alignment loss:强制对应的图像‑神经对在共享潜在空间中占据相近位置,同时将不匹配的对拉开距离。
- Demonstrated decoding performance:在大规模双光子钙成像数据集(≈ 10⁶ 个脉冲,数千个 V1 神经元)上展示了解码性能,能够媲美或超越最先进的神经解码器。
- Interpretability pipeline:将潜在维度映射回图像区域和高度响应神经元的稀疏子集,揭示哪些视觉线索驱动了解码。
- Empirical insight:V1 解码主要依赖于粗糙的低层结构(边缘、纹理),而非高层语义内容。
方法论
- 数据预处理 – 双光子钙成像轨迹经去卷积得到脉冲率估计,并与呈现给小鼠的相应自然场景图像配对。
- 双塔结构设计
- 图像塔:一个浅层 CNN 提取多尺度特征图(例如,32 × 32 空间分辨率,64 通道)。
- 神经塔:一个全连接网络将高维的群体向量重塑为相同的空间布局,然后使用 1×1 卷积生成可比较的特征图。
- 对比损失 – 对每个(图像,神经)配对,最大化它们潜在特征图的余弦相似度;在小批量中与所有其他配对的相似度最小化(InfoNCE 风格)。
- 对齐与解码 – 训练完成后,在共享潜在空间上使用简单的线性探针,从神经活动预测呈现的图像(或其类别)。
- 可解释性分析 –
- 空间显著性:将潜在维度反投影到原始图像上,以查看哪些图像块贡献最大。
- 神经元重要性:计算基于梯度的归因分数,识别驱动每个潜在维度的稀疏神经元子集。
所有组件均使用 PyTorch 实现,并可在单个 GPU 上于数小时内完成训练。
结果与发现
| 指标 | DINA(Neural → Image) | 先前的基于CNN的解码器 |
|---|---|---|
| Top‑1 图像重建准确率 | 78 % | 62 % |
| Pearson 相关系数(像素级) | 0.71 | 0.58 |
| 达到90 % 性能所需的神经元数量 | ≈ 12 % 的记录神经元总体 | ≈ 35 % |
- 粗糙结构占主导:模糊图像至低频的消融实验仅导致解码准确率略有下降,而去除高频细节几乎没有影响。
- 稀疏神经元集合:最具预测性的潜在维度由约5–10个高度响应的神经元及其成对功能交互重建,暗示一种“少样本”编码方案。
- 分布式空间映射:可对齐的特征图源自多个不连续的图像块,表明V1在整个视野中整合形状和纹理线索,而非仅聚焦于单一区域。
实际意义
- 脑-机接口(BCIs):DINA 能够从相对较小且可解释的神经元集合中解码视觉内容,这有望降低视觉假体或闭环神经反馈系统的传感器数量和计算负荷。
- 受神经启发的计算机视觉:双塔对齐范式提供了一种构建模型的模板,使其能够学习感知数据与内部状态的联合表征,这对感知必须与内部控制信号紧密耦合的机器人技术尤为有用。
- 模型调试与神经科学‑AI 协同:由于潜在维度可以映射回具体的图像块和神经元群,开发者能够检查失败案例、指导数据收集,甚至在神经约束下微调视觉模型。
- 高效的数据标注:在真实标签稀缺而神经记录丰富的情境(例如动物行为研究)中,DINA 可作为自监督标签生成器,加速下游机器学习任务的数据集创建。
限制与未来工作
- 物种与模态特异性:该研究仅限于小鼠 V1 和双光子钙成像;将其推广到灵长类大脑皮层或电生理可能需要对架构进行调整。
- 时间动态被省略:DINA 将每个刺激‑响应对视为静态,忽略了 V1 活动的丰富时间演化,这本可以进一步提升解码性能。
- 可解释性粒度:虽然特征图具有空间分辨率,但当前的归因方法未能捕捉像素以下或神经元以下的微电路;需要更细粒度的因果探测。
- 向更高视觉区域的可扩展性:将框架扩展到编码语义信息的区域(如 V4、IT)将检验粗结构偏差是否仍然成立,或更高级特征是否占主导。
总体而言,DINA 弥合了高性能神经解码与机制洞察之间的鸿沟,为关注神经感知 AI 系统的开发者提供了实用工具包。
作者
- Xin Wang
- Zhuangzhi Gao
- Hongyi Qin
- Zhongli Wu
- Feixiang Zhou
- He Zhao
论文信息
- arXiv ID: 2605.04309v1
- 类别: cs.NE
- 出版日期: 2026年5月5日
- PDF: 下载 PDF