对齐读取的质量控制

Connect Asia Data learn, and optimize business database management.
Post Reply
Mitu9900
Posts: 221
Joined: Thu Dec 26, 2024 9:17 am

对齐读取的质量控制

Post by Mitu9900 »

一旦读取对齐,就可以获取其他一些有用的 QC 指标:

映射到参考的读取百分比
模糊比对的数量
基因组起源(外显子、内含子或基因间)
成绩单覆盖情况
Qualimap是涵盖这些指标的工具之一。



个人经验和额外建议
上次我们在 BioStrand 对一组样本 比利时手机数据 进行 RNA 测序数据处理时,我们强烈怀疑数据中存在严重的核糖体 RNA (rRNA) 污染。这种怀疑是由大量不明确的对齐读取引起的。经过大量时间研究多大比例的多映射器应该是可以接受的,我们找到了一个简单的解决方案:查看表达最高的基因。对于有问题的样本,rRNA 基因确实是表达最高的基因之一。有点烦人,但值得注意。

同一批样本还表现出另一个不受欢迎的特点:我们的处理流程对某些样本所需的资源明显多于其他样本。事后看来,这些有问题的样本本可以通过仔细检查 QC 指标来预防性地识别出来。

这些问题促使我们在 QC 流程中引入了更多简单但有效的步骤:

查看前 10 个表达基因以及与它们对齐的读取比例。这对于识别在文库制备过程中未被洗掉的 rRNA 非常有用。
如果您有许多样本,请使用基于 QC 指标的主成分分析 (PCA) 来识别异常值。层次聚类可以达到相同的目的。
使用MultiQC聚合不同工具的输出, 尤其是在您有多个样本的情况下。这将提供所有 QC 工具输出的良好视图,并有助于挑选出存在的异常值。
这些 QC 步骤已成为 LENS ai (IPA) RNA 表达分析和变异调用流程不可或缺的一部分。我希望这些原始和对齐读取的 QC 技巧也能对您有所帮助,并为您节省一些宝贵的时间。
Post Reply