Cancer-Finder算法照亮单细胞与空间转录组学的新路径

【CMT&CHTV 文献精粹】

导语：本研究提出了一种基于领域泛化的深度学习算法Cancer-Finder，该算法能快速识别恶性细胞，对肿瘤异质性的研究和个性化治疗具有重要意义。

研究背景

肿瘤异质性是癌症治疗发展的重要障碍。单细胞RNA测序（scRNA-seq）技术通过在单细胞水平上揭示肿瘤的内部和间质异质性，推动了个性化治疗的发展。空间转录组学（ST）技术进一步捕捉了组织内部转录活性的空间背景，为癌症研究提供了新的视角。然而，现有的算法在恶性肿瘤细胞注释的准确性和泛化能力上存在不足，难以从泛癌数据中快速、一致地推断出恶性细胞。

2024年2月，Nature Communications杂志发表了题为“Domain Generalization Enables General Cancer Cell Annotation in Single-cell and Apatial Transcriptomics”的研究，旨在快速识别单细胞数据中的恶性细胞，并能够准确识别空间转录组学数据中的恶性斑点。

研究方法

该研究是一项基于深度学习的算法开发研究，旨在快速识别单细胞数据中的恶性细胞，并能够准确识别空间转录组学数据中的恶性斑点。研究团队收集了74个人体肿瘤微环境数据集作为训练集，并将其分为14个不同的类别。通过下采样确保了类别平衡，并使用风险外推的方法进行领域泛化训练，以提高模型在不同数据集上的泛化性能。

研究结果

Cancer-Finder在内部验证数据集上的平均准确率达到了95.16%，在外部验证数据集上的平均准确率为98.30%。此外，Cancer-Finder在空间转录组数据上也展现出了良好的预测能力，经过小规模训练集训练后，对训练过的组织的预测准确度在82.00-97.37%之间。研究还成功识别了一个由10个基因组成的基因签名，这些基因在肿瘤-正常组织界面显著共定位，并且与透明细胞肾癌患者的预后密切相关。

此外，Cancer-Finder在多个数据集上的表现均优于现有的其他工具，如SCEVAN、CopyKAT、CaSee和ikarus等。在对超过500 000个细胞的Cancer Single-cell Expression Map (CancerSCEM)数据库进行注释时，Cancer-Finder在一小时内就能快速预测，且与数据库提供的恶性细胞百分比高度相关。

Cancer-Finder算法的高准确率识别能力

该研究中，Cancer-Finder算法在单细胞转录组数据上展现了卓越的性能，其对恶性细胞的识别准确度达到了平均95.16%。这一结果远超过传统方法，如基于逻辑回归的Ikarus算法，以及基于拷贝数变异推断的CopyKAT算法。在5个透明细胞肾癌（ccRCC）的空间转录组样本测试中，Cancer-Finder同样表现出色，准确识别恶性斑点的能力，准确度在82.00%~97.37%之间(图1）。Cancer-Finder算法不仅在单一数据集上表现出色，它在跨癌种的数据集上同样能够保持高准确度的识别能力。在对5种不同透明细胞肾癌的空间转录组样本进行分析时，算法成功地识别出了恶性肿瘤区域，并且识别出的基因签名与肿瘤-正常组织界面显著相关。这些数据强有力地证明了Cancer-Finder算法在单细胞及空间转录组数据中的泛化能力。

图1.Cancer-Finder在ccRCCST数据集中肿瘤间异质性分析中的应用

基因签名的发现及其临床意义

研究团队利用Cancer-Finder算法识别出的基因签名由10个基因组成，它们在肿瘤与正常组织界面显著共定位，并且与透明细胞肾癌患者的预后具有较强的相关性。通过单样本基因集富集分析（ssGSEA）计算这些基因的表达签名得分，发现这些基因在肿瘤-正常组织界面富集，且与患者的总体生存率显著相关。这一发现不仅为理解肿瘤微环境提供了新的视角，也可能为临床治疗提供了潜在的生物标志物。

Cancer-Finder算法在大规模数据集上的应用潜力

在对Cancer Single-cell Expression Map (CancerSCEM)数据库的超过500 000个细胞进行注释时，Cancer-Finder算法展现了其在大规模数据集上的应用潜力。它在一小时内就能完成快速预测，并且与数据库提供的恶性细胞百分比高度相关（Pearsons相关系数>0.85）。此外，Cancer-Finder在不同大小的数据集上的推断速度均优于其他方法，显示出其在处理大规模数据时的高效性。

算法的泛化能力与领域发展价值

Cancer-Finder算法的泛化能力不仅限于已训练的数据类型，还能够扩展到其他空间转录组学技术生成的数据集，如MERFISH、Slide-seq等。这一泛化能力使得Cancer-Finder算法在不同的技术平台上均能保持较高的准确度，从而为肿瘤微环境的多维度研究提供了强有力的工具。此外，Cancer-Finder算法的高效性和可扩展性，预示着其在肿瘤微环境研究以及临床应用中的巨大潜力，特别是在个性化医疗和精准治疗领域。

讨论与总结

该研究的独特价值在于Cancer-Finder算法的高效性和可扩展性。Cancer-Finder算法不仅能够处理单细胞RNA测序数据，还能够扩展到空间转录组学数据的注释，这对于理解肿瘤微环境的复杂性具有重要意义。此外，Cancer-Finder的推断速度快，内存消耗低，使其在大规模数据分析中具有潜在的应用前景。尽管在血液肿瘤数据上的表现有限，但该算法在实体瘤的研究中展现出了巨大的潜力，为未来肿瘤微环境的研究和临床应用提供了新的工具和视角。

参考文献

ZHONG Z, HOU J, YAO Z, et al. Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics[J]. Nat Commun, 2024, 15(1):1929. DOI:10.1038/s41467-024-46413-6.

“医学论坛网”发布医学领域研究成果和解读，供专业人员科研参考，不作为诊疗标准，使用需根据具体情况评估。