AI帮助研究人员在细胞生物学中看到更大的全局
Source: MIT News - AI
研究癌细胞中的基因表达
研究癌症患者细胞中的基因表达可以帮助临床生物学家了解癌症的起源并预测不同治疗方案的成功率。但细胞结构复杂且层次众多,生物学家进行测量的方式会影响他们能够获取的数据。例如,测量细胞中的蛋白质可能提供与测量基因表达或细胞形态截然不同的癌症影响信息。
信息来源于细胞的哪个部位也很重要。为了捕捉细胞状态的完整图景,科学家往往需要使用多种技术进行多次测量,并逐一分析。机器学习方法可以加快这一过程,但现有方法将每种测量模态的所有信息混合在一起,导致难以辨别哪些数据来自细胞的哪一部分。
一个全新的 AI 驱动框架
为了解决这一问题,麻省理工学院和哈佛大学的 Broad Institute以及**瑞士联邦理工学院/保罗·谢尔勒研究所(PSI)**的研究人员开发了一种人工智能驱动的框架,能够学习:
- 不同测量模态之间共享的细胞状态信息,以及
- 特定测量类型独有的信息。
通过精准定位每条信息的来源,该方法提供了更整体的细胞状态视图,使生物学家更容易看到细胞相互作用的全貌。这有助于科学家理解疾病机制并追踪以下疾病的进展:
- 癌症
- 如阿尔茨海默病等神经退行性疾病
- 如糖尿病等代谢疾病
“当我们研究细胞时,单一测量往往不足以描述全部情况,因此科学家会开发新技术来测量细胞的不同方面。虽然我们有许多观察细胞的方式,但归根结底我们只有一个基础的细胞状态。将所有这些测量模态的信息以更智能的方式整合起来,就能更完整地描绘细胞的状态。”
— Xinyi Zhang,SM ’22,PhD ’25(第一作者)
Zhang 的论文合著者还有 G.V. Shivashankar,瑞士联邦理工学院健康科学与技术系教授、PSI 多尺度生物成像实验室负责人;以及资深作者 Caroline Uhler,MIT 电气工程与计算机科学系及数据、系统与社会研究所(IDSS)教授、MIT 信息与决策系统实验室(LIDS)成员、Broad Institute Eric 与 Wendy Schmidt 中心主任。该研究今日发表于 Nature Computational Science。
操作多重测量
有许多工具可以帮助科学家捕获细胞状态的信息。例如:
- RNA 测序 – 揭示细胞是否处于活跃生长状态。
- 染色质形态成像 – 展示细胞对外部物理或化学信号的响应方式。
“当科学家进行多模态分析时,他们使用多种测量模态收集信息,并将其整合,以更好地理解细胞的底层状态。某些信息仅由一种模态捕获,而其他信息则在模态之间共享。要完整了解细胞内部发生了什么,了解信息来源至关重要。”
— G.V. Shivashankar
传统上,研究人员必须进行多个单独实验并比较结果——这是一种缓慢且繁琐的过程,限制了他们能够收集的信息量。
新的机器学习框架
研究人员构建了一个框架,自动区分:
- 跨模态的共享信息,以及
- 特定于单一测量类型的模态特有信息。
“作为用户,你只需输入细胞数据,系统会自动告诉你哪些数据是共享的,哪些是模态特有的。”
— Xinyi Zhang
工作原理
- 重新思考自编码器 – 传统的多模态自编码器为每个模态使用一个模型,每个模型产生各自的潜在表示。
- 共享 + 私有空间 – 新方法引入了一个共享表示空间用于重叠数据,并为模态特有数据设立独立的私有空间。
- 两步训练 – 特殊的训练流程帮助模型决定哪些数据属于共享空间,哪些属于私有空间。
其结果类似于细胞数据的维恩图,交集代表共享信息,非重叠区域代表模态特有信号。
实践中的数据区分
- Synthetic datasets – 该框架正确恢复了已知的共享信息和模态特异性信息。
- Real‑world single‑cell datasets – 它能够自动区分由两种模态共同捕获的基因活性(例如转录组学和染色质可及性),并正确识别仅在单一模态中出现的信号。
研究人员还使用该方法确定哪种测量模态捕获了癌症患者中指示 DNA 损伤的蛋白标记。知道该标记的来源有助于临床科学家选择最合适的测量技术。
“There are too …” (the quote continues in the original source)
Funding
本研究部分由以下机构资助:
- 布罗德研究所的 Eric 和 Wendy Schmidt 中心
- 瑞士国家科学基金会
- 美国国立卫生研究院
- 美国海军研究办公室
- 阿斯利康
- MIT‑IBM Watson AI 实验室
- MIT J‑Clinic 机器学习与健康中心
- Simons 调查员奖
“细胞中有许多模态,我们不可能全部测量,因此需要预测工具。但问题是:我们应该测量哪些模态,预测哪些模态?我们的方法可以回答这个问题,” Uhler 说。
“仅仅整合所有这些模态的信息是不够的,” Uhler 说。 “如果我们仔细比较不同的模态,了解细胞不同组成部分如何相互调控,就能学到很多关于细胞状态的知识。”
将来,研究人员希望使模型能够提供更具可解释性的细胞状态信息,进行更多实验以确保其正确解开细胞信息,并将模型应用于更广泛的临床问题。