[Paper] 通过图像-神经潜在表征对齐解释 V1 群体活动

发布: 5天前 (2026年5月6日 GMT+8 05:15)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.04309v1

请提供您希望翻译的具体文本内容，我会按照要求将其翻译成简体中文并保留原有的格式。

Overview

本文介绍了 Dual‑Tower Image‑Neural Alignment (DINA)，这是一种对比学习框架，能够同时将视觉图像和小鼠 V1 群体活动对齐到共同的潜在空间。通过这种方式，DINA 不仅提升了从神经记录中解码视觉刺激的准确性，还为揭示 V1 视觉计算的 工作机制 打开了窗口，而这一直是以往黑箱解码器难以解释的。

关键贡献

Dual‑tower architecture：在中间特征图层级上同时学习图像和神经嵌入，保留空间结构以提升可解释性。
Contrastive alignment loss：强制对应的图像‑神经对在共享潜在空间中占据相近位置，同时将不匹配的对拉开距离。
Demonstrated decoding performance：在大规模双光子钙成像数据集（≈ 10⁶ 个脉冲，数千个 V1 神经元）上展示了解码性能，能够媲美或超越最先进的神经解码器。
Interpretability pipeline：将潜在维度映射回图像区域和高度响应神经元的稀疏子集，揭示哪些视觉线索驱动了解码。
Empirical insight：V1 解码主要依赖于粗糙的低层结构（边缘、纹理），而非高层语义内容。

方法论

数据预处理 – 双光子钙成像轨迹经去卷积得到脉冲率估计，并与呈现给小鼠的相应自然场景图像配对。
双塔结构设计
- 图像塔：一个浅层 CNN 提取多尺度特征图（例如，32 × 32 空间分辨率，64 通道）。
- 神经塔：一个全连接网络将高维的群体向量重塑为相同的空间布局，然后使用 1×1 卷积生成可比较的特征图。
对比损失 – 对每个（图像，神经）配对，最大化它们潜在特征图的余弦相似度；在小批量中与所有其他配对的相似度最小化（InfoNCE 风格）。
对齐与解码 – 训练完成后，在共享潜在空间上使用简单的线性探针，从神经活动预测呈现的图像（或其类别）。
可解释性分析 –
- 空间显著性：将潜在维度反投影到原始图像上，以查看哪些图像块贡献最大。
- 神经元重要性：计算基于梯度的归因分数，识别驱动每个潜在维度的稀疏神经元子集。

所有组件均使用 PyTorch 实现，并可在单个 GPU 上于数小时内完成训练。

结果与发现

指标	DINA（Neural → Image）	先前的基于CNN的解码器
Top‑1 图像重建准确率	78 %	62 %
Pearson 相关系数（像素级）	0.71	0.58
达到90 % 性能所需的神经元数量	≈ 12 % 的记录神经元总体	≈ 35 %

粗糙结构占主导：模糊图像至低频的消融实验仅导致解码准确率略有下降，而去除高频细节几乎没有影响。
稀疏神经元集合：最具预测性的潜在维度由约5–10个高度响应的神经元及其成对功能交互重建，暗示一种“少样本”编码方案。
分布式空间映射：可对齐的特征图源自多个不连续的图像块，表明V1在整个视野中整合形状和纹理线索，而非仅聚焦于单一区域。

实际意义

脑-机接口（BCIs）：DINA 能够从相对较小且可解释的神经元集合中解码视觉内容，这有望降低视觉假体或闭环神经反馈系统的传感器数量和计算负荷。
受神经启发的计算机视觉：双塔对齐范式提供了一种构建模型的模板，使其能够学习感知数据与内部状态的联合表征，这对感知必须与内部控制信号紧密耦合的机器人技术尤为有用。
模型调试与神经科学‑AI 协同：由于潜在维度可以映射回具体的图像块和神经元群，开发者能够检查失败案例、指导数据收集，甚至在神经约束下微调视觉模型。
高效的数据标注：在真实标签稀缺而神经记录丰富的情境（例如动物行为研究）中，DINA 可作为自监督标签生成器，加速下游机器学习任务的数据集创建。

限制与未来工作

物种与模态特异性：该研究仅限于小鼠 V1 和双光子钙成像；将其推广到灵长类大脑皮层或电生理可能需要对架构进行调整。
时间动态被省略：DINA 将每个刺激‑响应对视为静态，忽略了 V1 活动的丰富时间演化，这本可以进一步提升解码性能。
可解释性粒度：虽然特征图具有空间分辨率，但当前的归因方法未能捕捉像素以下或神经元以下的微电路；需要更细粒度的因果探测。
向更高视觉区域的可扩展性：将框架扩展到编码语义信息的区域（如 V4、IT）将检验粗结构偏差是否仍然成立，或更高级特征是否占主导。

总体而言，DINA 弥合了高性能神经解码与机制洞察之间的鸿沟，为关注神经感知 AI 系统的开发者提供了实用工具包。

作者

Xin Wang
Zhuangzhi Gao
Hongyi Qin
Zhongli Wu
Feixiang Zhou
He Zhao

论文信息

arXiv ID: 2605.04309v1
类别: cs.NE
出版日期: 2026年5月5日
PDF: 下载 PDF

[Paper] 通过图像-神经潜在表征对齐解释 V1 群体活动

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] LLMs 改进 LLMs：Agentic Discovery 用于 Test-Time Scaling

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction