一种新的统计方法提供了一种更有效的方法来揭示跨越多种条件的基因组数据中具有生物学意义的变化——;例如细胞类型或组织。
全基因组研究产生大量数据,从数百万个单独的 DNA 序列到关于数千个基因中的表达位置和数量的信息,再到整个基因组中功能元件的位置。由于数据的数量和复杂性,比较不同的生物学条件或跨不同实验室进行的研究可能具有统计学上的挑战性。
当您有多个条件时,困难在于如何以统计上强大且计算高效的方式一起分析数据。现有方法计算成本高或产生难以从生物学解释的结果。我们开发了一种称为 CLIMB 的方法,该方法改进了现有方法,计算效率高,并产生生物学可解释的结果。我们在从造血细胞收集的三种基因组数据上测试了该方法——;与造血干细胞有关 -;但该方法也可用于分析其他‘组学’数据。”
李群华,宾夕法尼亚州立大学统计学副教授
研究人员在 11 月 12 日在线发表在《自然通讯》杂志上的一篇论文中描述了 CLIMB(复合似然经验贝叶斯)方法。
“在有这么多信息但来自相对较少的个人的实验中,能够尽可能有效地使用信息是有帮助的,”研究时宾夕法尼亚州立大学的研究生,现在是高级统计学家的希拉里·科赫说。在摩德纳。“能够一起查看所有内容,甚至使用来自相关实验的信息,具有统计优势。CLIMB 让我们能够做到这一点。”
CLIMB 方法使用两种传统技术的原理来分析多种条件下的数据。一种技术使用条件之间的一系列成对比较,但随着附加条件的添加,解释变得越来越具有挑战性。
一种不同的技术将每个受试者跨条件的活动模式组合成一个“关联载体”,例如,一个基因被上调、下调或在许多细胞类型中的每一种都没有变化。关联向量直接反映了条件特异性的模式,易于解释。然而,由于即使只有少数几个条件也可能有许多不同的组合,因此计算的计算量非常大。为了克服这一挑战,第二种方法本身就如何简化并不总是正确的数据做出假设。
“CLIMB 使用了这两种方法的各个方面,”科赫说。“我们最终会分析关联向量,但首先我们使用成对分析来识别可能预先存在的模式。我们不是对数据做出假设,而是使用成对信息来消除数据不强烈支持的组合。这极大地减少了跨条件可能模式的空间,否则会使计算变得如此密集。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!