最初,生物标志物是一种简单的一维分子,其存在或不存在表示二元结果。然而,单一生物标志物缺乏临床环境中疾病分类和结果预测所需的灵敏度和特异性。很快,生物标志物发现就包括一组生物标志物,它们共同作用以增强诊断或预后性能。
随后,该领域又转向空间分辨的生物标志物,以反映潜在疾病的复杂性。这些高阶生物标志物不仅提供汇总信息,还整合了表达相关分子标志物的细胞的空间数据。
与此同时,生物标志物开发人员也在整合一系列组学数据集,如基因组学、蛋白质组学、代谢组学、表观遗传学等,以获得更全面的视角,增强我们了解疾病和识别新药物靶点的能力。
随着单细胞新一代测序、循环肿瘤 DNA 液体活检(血液样本)、微生物组学、放射组学等新型数据收集技术的出现,以及以相对较低的成本生成大量数据的高通量技术,生物标 巴西手机数据 志物发现的范围正在不断扩大。因此,最大的挑战在于整合和分析这些海量多模态数据。此外,生物标志物数据本身也存在一些挑战。
生物标志物数据挑战
数据稀缺:尽管生物标志物数据库广泛使用,但可供开发人员使用的数据库仍然非常少。此外,还可能缺乏与生物标志物研究相关的系统组学研究和生物学数据。例如,代谢组学数据对癌症治疗中抗辐射的生物标志物研究至关重要,但它并不属于大型多组学计划(如《癌症基因组图谱》)。因此,它需要一种以网络为中心的分析方法,以便使用其他可用数据集来丰富数据并进行建模。
数据碎片化:生物标志物数据通常分布在订阅式商业数据库中,这些数据库不提供跨数据库互联互通,还有一些开放访问数据库,每个数据库都有自己的治疗或分子专业化。因此,真正的多组学分析方法将完全取决于数据集成的效率。
缺乏数据标准化:许多来源不遵循 FAIR 数据库原则和实践。此外,不同的数据集也是使用异构分析技术生成的,使用不同的规范化程序进行预处理,并以非标准方式注释。智能、自动化的规范化应该是优先事项。