近年来,单细胞组学技术的快速发展为描绘细胞的复杂状态提供了前所未有的海量数据,深刻推动生命科学研究进入精细解析基因调控机制的新阶段。与此同时,深度学习和大规模预训练基础模型(Foundation Models)在自然语言处理和计算机视觉领域的成功,为生命科学提供了强有力的技术支持。
近期,中国科学院多学科交叉研究团队"指南针联盟"(Xcompass Consortium)开发了Cell-GraphCompass(CGCompass)。该模型创新性地采用了图神经网络融入丰富生物学知识并基于5000万人类单细胞数据集训练从而构建了新型人类单细胞基础模型。CGCompass采用图结构算法建模单个细胞,将基因视为图中的节点,基因之间的相互关系作为图的边,通过图神经网络深入挖掘基因间的复杂联系及其在细胞中的动态表达特征。该模型利用数千万高质量单细胞转录组数据进行大规模预训练,不仅提升了对基因调控机制的理解能力,还为细胞类型鉴定、基因扰动预测等多种生命科学任务提供了强大技术支持,为构建更加全面仿真的人类AI虚拟细胞迈出了重要一步。

CGCompass模型架构:图神经网络驱动的知识融合
CGCompass基于单细胞RNA测序数据构建细胞的图结构,将细胞和基因分别视作图中的节点,利用图神经网络(GNN)结合基因表达信息、调控网络、基因共表达关系、基因位置关系以及文献挖掘的生物先验知识,形成多层嵌入表达。预训练采用自监督学习策略,随机遮蔽基因表达信息,促使模型在丰富细胞背景下准确恢复掩码表达值,捕获复杂的基因间长程动态关系。该模型能够生成高维且生物学意义深厚的基因和细胞表征,为下游多样化任务提供坚实基础。

CGCompass模型架构
优异的聚类和细胞类型注释表现
依托细胞图结构,CGCompass在多批次、多平台的单细胞数据上实现了出色的批次效应消除。通过无监督聚类,模型成功区分出多种细胞类型,充分展现了其对生物信号的深刻感知能力。在细胞类型注释任务中,CGCompass基于reference集对query集进行了高精度预测。尽管两者存在显著的数据分布差异,CGCompass凭借大规模预训练与深度融合的生物学先验,有效规避了对reference集的过拟合,展现出强大的泛化与迁移能力,注释准确率持续领先。


CGCompass的聚类(左)和注释(右)结果
强大的Zero-shot能力,支持多样化应用场景
预训练基础模型具备直接迁移到新任务的能力,CGCompass的zero-shot推理表现尤为突出。在不同实验室、物种、疾病状态下,模型均能生成高质量细胞和基因嵌入,显著提升多种生物学任务的执行效率。无须额外标注数据,即可为新数据提供细胞类型注释、基因功能识别等支持,极大降低了生命科学研究中数据标注的门槛。



CGCompass的zero-shot测试结果
细胞基因扰动模拟,推动基因调控机制解析
CGCompass在基因扰动响应预测中表现优异。通过在单细胞基因扰动(Perturb-seq)数据上微调预训练模型,CGCompass能准确新的扰动条件下基因表达的变化。与现有先进模型相比,CGCompass在单基因及双基因扰动的表达预测均有明显提升,且能区分基因表达的上调、下调及不变状态。此能力不仅助力基因调控网络的推断,还可用于药物作用机制分析和精准治疗靶点筛选。

CGCompass模拟单细胞基因扰动响应
拓展至体细胞基因敲除预测,实现多尺度生物学建模
在单细胞扰动实验的基础上,CGCompass进一步拓展至体(bulk)细胞的基因敲除预测任务。体细胞测序数据反映的是细胞的局部群体行为,具有显著的数据分布不平衡特征:多数基因在敲除前后表达量变化不大,容易导致深度学习模型"偷懒"--将所有基因预测为不变,从而获得看似较高的准确率。为解决这一挑战,CGCompass引入两阶段迁移学习策略:模型首先在大规模单细胞数据上完成预训练,再在体细胞数据上进行二次预训练,最后在基因敲除数据上进行精调。该策略有效增强了模型对表达变化的敏感性,实现了对基因上调、下调及不变状态的精准分类。相较传统方法,CGCompass不仅保持整体预测准确率,更显著提升了对差异表达基因的识别能力,展现出强大的泛化性能和在真实应用中的巨大潜力。

CGCompass预测bulk层面的基因敲除结果
展望未来:多组学融合与精准生命科学新时代
CGCompass标志着图神经网络与生命科学大数据融合的新突破,未来团队计划进一步整合ATAC-seq、蛋白质组学及表观遗传数据,打造更全面的多组学基础模型。同时,将探索先进生命科学文本大模型及半监督、长尾学习方法,进一步提升模型对稀缺数据和复杂生物现象的适应力。CGCompass有望助力细胞命运重编程、肿瘤精准治疗、类器官培养等前沿领域,开启智能生命科学研究新时代。
关于团队
CGCompass模型由中国科学院大学前沿交叉科学学院、中国科学院动物研究所李鑫团队联合中国科学院计算机网络信息中心、科大讯飞等多学科团队共同研发,该团队致力于构建数智驱动的生命科学研究新范式,深度解析生命本质规律。中国科学院动物所李鑫研究员、冯桂海研究员,计算机网络信息中心周园春研究员、孟珍研究员、科大讯飞陈凌辉为论文共同通讯作者,房晨、崔文韬、胡智龙为共同第一作者。
×