2025/5/15 15:14:00

一、DoubletFinder的工作原理

1.生成模拟双细胞

从现有的单细胞表达数据中随机将两个细胞的基因表达数据相加,模拟可能出现的双细胞的基因表达情况。

2.数据预处理和降维:

将人工模拟的双细胞和原始数据合并,进行预处理(如归一化、寻找变异基因、数据标准化等)和常规的PCA降维。

3.计算pANN值:

计算每个细胞在主成分空间中的最近邻(nearest neighbors),并统计其中有多少是人工模拟的双细胞,得到每个细胞的人工最近邻比例(pANN,proportion of artificial nearest neighbors)。

4.鉴定和过滤双细胞:

根据预期的双细胞比例和数量,设置pANN的阈值,高于设定的值即鉴定为双细胞并进行移除。

 

二、DoubletFinder的使用步骤

1.数据预处理:

使用Seurat等工具对单细胞数据进行预处理,包括数据规范化、寻找变异基因、数据标准化、主成分分析(PCA)等。

2.确定参数:

PCs:指定用于分析的统计显著的主成分数量。

pN:定义生成的人工双细胞数量,以合并的真实-人工数据比例表示,默认设置为25%。

pK:定义用于计算pANN的PC邻域大小,没有默认值,需要根据scRNA-seq数据来估计。

nExp:定义用于做出最终双细胞/单细胞预测的pANN阈值,最好从10X或Drop-Seq设备的细胞加载密度中估计,并根据同源双细胞的预估比例进行调整。

3.运行DoubletFinder:

使用DoubletFinder函数进行双细胞识别,根据确定的参数鉴定双细胞。

4.结果评估和过滤:

对双细胞识别的结果进行评估,可以使用双细胞得分(doublet_scores)等指标。

根据评估结果过滤掉双细胞,得到更加纯净的单细胞数据集。

 

三、DoubletFinder的优缺点

1.优点:

高准确性:通过模拟双细胞的表达模式和统计分析,DoubletFinder能够准确地识别出双细胞。

灵活性:提供了一系列的命令和参数,允许用户根据自己的数据特性和分析需求来定制分析流程。

易用性:作为一个R包,DoubletFinder可以在R环境中轻松安装和使用,并且与Seurat等单细胞数据分析工具无缝衔接。

2.缺点:

对同种类型细胞间的双细胞不敏感:即从转录相似的细胞状态衍生的双细胞可能难以被准确识别。

参数调整复杂:pK等参数需要根据具体数据集进行调整,这增加了分析的复杂性和主观性。

 

上一篇:光声成像技术:动态追踪药物在肝肾中的代谢路径 下一篇:生物发光成像技术中三大生物发光体系的应用适配性介绍