对齐读取的质量控制
Posted: Sat Jan 25, 2025 4:46 am
一旦读取对齐,就可以获取其他一些有用的 QC 指标:
映射到参考的读取百分比
模糊比对的数量
基因组起源(外显子、内含子或基因间)
成绩单覆盖情况
Qualimap是涵盖这些指标的工具之一。
个人经验和额外建议
上次我们在 BioStrand 对一组样本 比利时手机数据 进行 RNA 测序数据处理时,我们强烈怀疑数据中存在严重的核糖体 RNA (rRNA) 污染。这种怀疑是由大量不明确的对齐读取引起的。经过大量时间研究多大比例的多映射器应该是可以接受的,我们找到了一个简单的解决方案:查看表达最高的基因。对于有问题的样本,rRNA 基因确实是表达最高的基因之一。有点烦人,但值得注意。
同一批样本还表现出另一个不受欢迎的特点:我们的处理流程对某些样本所需的资源明显多于其他样本。事后看来,这些有问题的样本本可以通过仔细检查 QC 指标来预防性地识别出来。
这些问题促使我们在 QC 流程中引入了更多简单但有效的步骤:
查看前 10 个表达基因以及与它们对齐的读取比例。这对于识别在文库制备过程中未被洗掉的 rRNA 非常有用。
如果您有许多样本,请使用基于 QC 指标的主成分分析 (PCA) 来识别异常值。层次聚类可以达到相同的目的。
使用MultiQC聚合不同工具的输出, 尤其是在您有多个样本的情况下。这将提供所有 QC 工具输出的良好视图,并有助于挑选出存在的异常值。
这些 QC 步骤已成为 LENS ai (IPA) RNA 表达分析和变异调用流程不可或缺的一部分。我希望这些原始和对齐读取的 QC 技巧也能对您有所帮助,并为您节省一些宝贵的时间。
映射到参考的读取百分比
模糊比对的数量
基因组起源(外显子、内含子或基因间)
成绩单覆盖情况
Qualimap是涵盖这些指标的工具之一。
个人经验和额外建议
上次我们在 BioStrand 对一组样本 比利时手机数据 进行 RNA 测序数据处理时,我们强烈怀疑数据中存在严重的核糖体 RNA (rRNA) 污染。这种怀疑是由大量不明确的对齐读取引起的。经过大量时间研究多大比例的多映射器应该是可以接受的,我们找到了一个简单的解决方案:查看表达最高的基因。对于有问题的样本,rRNA 基因确实是表达最高的基因之一。有点烦人,但值得注意。
同一批样本还表现出另一个不受欢迎的特点:我们的处理流程对某些样本所需的资源明显多于其他样本。事后看来,这些有问题的样本本可以通过仔细检查 QC 指标来预防性地识别出来。
这些问题促使我们在 QC 流程中引入了更多简单但有效的步骤:
查看前 10 个表达基因以及与它们对齐的读取比例。这对于识别在文库制备过程中未被洗掉的 rRNA 非常有用。
如果您有许多样本,请使用基于 QC 指标的主成分分析 (PCA) 来识别异常值。层次聚类可以达到相同的目的。
使用MultiQC聚合不同工具的输出, 尤其是在您有多个样本的情况下。这将提供所有 QC 工具输出的良好视图,并有助于挑选出存在的异常值。
这些 QC 步骤已成为 LENS ai (IPA) RNA 表达分析和变异调用流程不可或缺的一部分。我希望这些原始和对齐读取的 QC 技巧也能对您有所帮助,并为您节省一些宝贵的时间。