上海辰山植物园 English
所在位置:首页 >机构介绍

Briefings in Bioinformatics | 复旦大学郝洁/邹欣团队与辰山植物园陈可组合作开发单细胞数据分析新算法——scCODE

差异表达(differentially expressed,DE)基因的检测和评估一直是单细胞scRNA-seq数据分析中关键的一步,准确可靠的 DE 基因结果对下游分析具有深远影响。scCODE算法提出全新的单细胞scRNA-seq数据一站式个性化DE基因分析系统,通过对单细胞数据多次建模分析,自动评估最优化分析结果,为科研人员深入解析单细胞数据提供准确高效的新工具。

2022年5月23日,复旦大学郝洁/邹欣团队与辰山植物园陈可组在Briefings in Bioinformatics(计算生物学一区,IF=11.6)上发表了题为:”scCODE: an R package for data-specific differentially expressed gene detection on single-cell RNA-sequencing data”的研究论文。该研究评估40余种DE分析策略,基于自主研发的,无需先验信息的两个新的评估参数,开发了scRNA-seq数据个性化最优DE基因筛选系统平台——scCODE (图1)。

图1: Evaluation of DE gene detection performance and schematic of scCODE

在以往的研究中,过滤低表达的基因被认为有助于DE分析,但其真正影响尚未得知,基因过滤也无统一标准。本研究第一部分从FPR、TPR和AUROC等评估标准分析了不同基因过滤方法对DE结果的影响。结果发现,恰当的基因过滤和DE方法的组合可以得到更好的DE结果,而不恰当的组合却会起到相反的效果。当DE分析策略所推测的DE基因表达分布与实际的基因表达分布更接近时,才能得到更准确的DE基因结果(图2)。


图2: Investigation of DE gene distribution detected by different combinations of methods, based on simulated-EMTAB8077_heart_kidney.

实际应用中,探索未知领域的scRNA-seq样本,其概率分布不同,且缺乏先验知识,无法通过已有的评估标准如AUROC去挑选最优的分析方法。在本研究中,研究者设计了新的评估参数CDO和AUCC,可以在无需先验知识的创新性研究中,获得针对不同数据的最优分析策略,更高的真正例率(TPR)和很低的假阳性率(FPR)。

在对小鼠肺癌发育CD4+T细胞分析时,最优的分析策略检测到的DE基因可以清楚地区分两组细胞,并且随着使用更多基因,细胞聚类的更加清晰。然而,差的分析策略的结果并非如此,未激活的 CD4+ T 细胞仍与活化的CD4+ T细胞聚集在一起(图3)。同时在小鼠心脏和肾脏内皮细胞以及人类肺癌macrophage m1 m2数据分析中也得到了类似的结果。

图3:scCODE validated on real scRNA-seq data comparing activated CD4+ T cells with naïve cells.

该平台已经发布于GitHub(https://github.com/XZouProjects/scCODE)。目前已收到多个用户反馈良好。论文的通讯作者为复旦大学附属中山医院郝洁研究员,复旦大学附属金山医院邹欣副研究员和辰山植物园陈可副研究员。上海交通大学生命科学技术学院2019级硕士邹佳伟为论文第一作者。

该研究得到了国家自然科学基金,上海交通大学医学院高水平地方高校创新团队,上海市绿化和市容管理局科研专项等项目支持.

 

全文链接:

https://academic.oup.com/bib/advance-article-abstract/doi/10.1093/bib/bbac180/6590434