近几十年来,生物和生物医学研究领域(如基因组学、蛋白质组学和转录组学)不同学科的快速发展导致可用生物数据量呈指数级增长。例如,在欧洲生物信息学研究所(EMBL-EBI),他们在短短6年内就从管理40PB的容量发展到使用250PB的容量。
由ICREA研究员兼IRB巴塞罗那结构生物信息学和网络生物学实验室负责人PatrickAloy博士领导的科学家们开发了一种计算工具来协调、整合和简化这些数据。结果是一个知识图谱,提供了有关不同生物实体如何相互关联的信息,包括超过3000万个功能交互。
Bioteque通过整合不同级别的生物复杂性来工作,因此可以报告例如两个相关的基因,它们是否物理相互作用,它们是否在同一类型的细胞中活跃,以及它们是否与同一疾病有关.它还可以预测一种细胞对特定药物的敏感性或抗性。
“我们开发的这种计算资源是最早旨在统一生物信息的计算资源之一,也是唯一能够解决这种多样性和数据量问题的计算资源。它允许以简单和协调的方式访问几乎所有的生物知识目前可用,它具有加速生物医学研究的巨大潜力,”Aloy解释说。
符
Bioteque中保存的信息被结构化为12种生物实体,例如基因、疾病、组织、细胞等。对于这些实体中的每一个,该工具都会考虑一系列描述符或特征,例如突变模式基因、所得蛋白质的物理相互作用的概况、所述基因在不同细胞类型中的表达或其与不同疾病的关系。在12个生物实体中,该系统涵盖了大约1000种描述符。
“我们已经处理了来自150个不同数据库的信息,所以首先我们必须整合它们,也就是说,将它们全部放在同一种‘语言’中。然后我们将这些知识转化为可以被算法解释的数字描述符,然后我们可以通过计算方式利用这些网络和连接,”该文章的第一作者和同一实验室的博士生AdriàFernández总结道。
突出显示了与疾病及其治疗相关的三个组。信用:IRB巴塞罗那
Bioteque将随着新数据库的公开而定期扩展。该工具以及数据库和算法都是开放访问的,并且可以在线获得。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!