讲座摘要:
单细胞技术受到生物信息学和计算生物学界的广泛关注。单细胞 RNA 测序 (scRNA-seq) 技术的最新进展使数百万细胞的平行转录组分析成为可能。然而,现有的 scRNA-seq 聚类方法缺乏可扩展性、耗时且在降维过程中容易丢失信息。由此,我们提出了 SHARP,一种基于集成随机投影的算法,可扩展到对1000万个细胞进行聚类。
通过采用分治策略、稀疏随机投影和两层元聚类,SHARP 具有以下优势:(1)比现有算法超快; (2) 可扩展到1000万个细胞; (3) 在聚类性能方面准确; (4) 在降维过程中保持细胞到细胞的距离; (5) 对 scRNA-seq 数据中的dropouts具有鲁棒性。
我们对 20 个 scRNA-seq 数据集的综合基准测试表明,SHARP 在速度和准确性方面明显优于当下最先进的方法。目前,SHARP 是唯一可扩展至对 1000 万个细胞进行聚类的R 工具包。随着人类细胞图谱等多个国际项目对不同组织中大量单细胞的测序,我们相信 SHARP 将成为大规模单细胞数据分析的有用和重要工具之一。
嘉宾简介:
万时彪博士
美国圣犹达儿童研究医院生物信息研究科学家,宾夕法尼亚大学博士后研究员,普林斯顿大学博士后,香港理工大学机器学习、生物信息学博士。