费城儿童医院(CHOP)的一个研究团队开发了一种创新的计算工具,为研究人员从DNA中复制RNA时检测RNA的不同剪接方式提供了一种有效的方法。由于RNA剪接的变化在许多疾病中起着至关重要的作用,这种新的分析工具将为寻找疾病生物标志物和治疗靶点提供更大的能力,即使是从覆盖率适中的RNA测序数据集。
研究负责人易星博士和CHOP计算与基因组医学中心的第一作者、博士生张子君、潘志成博士本周报告了他们关于自然方法的DARTS框架。Darts(转录物剪接的深度学习增强RNA-seq分析)使用基于深度学习的预测来利用RNA测序(RNA-seq)的公共数据集中的大量可用信息,从而允许对替代剪接的新见解。
“DARTS的概念创新在于,它提供了一个从公共领域的大数据到小数据集的桥梁,以便与单个研究人员进行关键研究,”Xing说。“DARTS提供了将大量公开的RNA-seq数据转化为知识库(表示为深度神经网络)来调控剪接的能力。利用这个计算框架,我们可以把它推广到任何一个实验室。这可能很有用,可以提高实验效率,实现新发现。只需2000万或3000万个RNA-seq读数,你就可以对你从未见过的事物做出明智的猜测和推断。”
邢长期致力于选择性剪接——将单个基因的DNA信息以不同的方式拼接在一起,在基因转录后产生不同的信使RNA和蛋白质产物。每个基因平均产生10个或更多这样的产物,有时多达38,000个。这些选择性剪接的变异可能会导致疾病,改变疾病的风险,或者使疾病变得更轻或更严重。
大规模平行RNA测序现在是研究人员用来研究选择性剪接的标准技术。然而,为了准确测量选择性剪接,RNA测序实验必须非常彻底。人们一致认为,对选择性剪接的分析需要超过1亿个序列,但由于成本高,大多数研究人员负担不起他们的核糖核酸测序实验。此外,许多医学上重要的基因没有高水平表达。即使是深度RNA测序实验,也无法对这些基因产生足够的覆盖,因此几乎无法测量基因的选择性剪接模式。
在目前的研究中,邢的团队首先利用国家人类基因组研究所发起的国际项目ENCODE Con sortium的大规模公共域RNA测序数据,鉴定基因组中的所有功能元件,包括那些在RNA水平上发挥作用的元件。利用这些海量的数据集,DARTS训练深度神经网络来预测选择性剪接的变化。该模型包含1500个核糖核酸结合蛋白的信使核糖核酸水平和3000个序列特征。
为了让研究人员在自己的研究中使用深度学习模型,深度神经网络预测使用一种称为贝叶斯假设检验的统计框架,与特定生物样本上生成的实际核糖核酸测序数据相结合。研究人员可以在各自的实验室中使用这些信息来更好地表征不同生物条件下的选择性剪接。
研究人员将DARTS应用于肺癌和前列腺癌细胞系,以测试它们预测细胞剪接模式的能力。这些细胞系是上皮细胞向间充质细胞过渡的模型——胚胎发育和癌症转移的重要过程。通过深度学习预测,DARTS发现了许多基因中替代剪接模式的变化,这些变化由于在细胞中低水平表达而逃过了传统计算工具的检测。研究小组随后进行了实验来验证这些新颖的预测。这些新发现可能使科学家能够更好地识别疾病的生物标志物和治疗目标。
“DARTS提供了一个令人兴奋的概念框架,我们可以适应其他用途,”Xing补充道。"例如,我们可以创建一个版本,预测特定患者组织中的选择性剪接."这可能有助于通过组织活检来提高罕见疾病的诊断,组织活检是一种在儿科中心(如CHOP)使用的有用技术,通常可以评估儿童是否患有可疑或未诊断的疾病。
邢总结说,DARTS可以让科学家发现更多未探索基因的贡献,这些基因可能不会在高水平上表达,但对健康和疾病有重要影响。“DARTS为转录组中的暗物质提供了一个新的窗口,”他说。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!