麻省理工学院 (MIT) 和法国巴斯德研究所的科学家开发了一种在个人计算机上重建包括人类基因组在内的全基因组的技术。这种技术比当前最先进的方法快大约一百倍,并使用五分之一的资源。这项研究于 9 月 14 日发表在Cell Systems杂志上,其灵感来自于单词而非字母为语言模型提供浓缩构建块的方式,从而可以更紧凑地表示基因组数据。
“我们可以在一台普通的笔记本电脑上快速组装整个基因组和宏基因组,包括微生物基因组,”麻省理工学院计算机科学和人工智能实验室的西蒙斯数学教授、该研究的作者Bonnie Berger (@lab_berger)说。“这种能力对于评估与疾病和细菌感染(例如败血症)相关的肠道微生物组变化至关重要,以便我们能够更快地治疗它们并挽救生命。”
自人类基因组计划以来,基因组组装项目取得了长足的进步,该计划于 2003 年完成了第一个完整的人类基因组的组装,耗资约 27 亿美元,并进行了十多年的国际合作。但是,虽然人类基因组组装项目不再需要数年时间,但它们仍然需要几天时间和强大的计算机能力。第三代测序技术可提供具有数万个碱基对的 TB 级高质量基因组序列,但事实证明,使用如此大量数据的基因组组装具有挑战性。
为了比目前的技术更有效地进行基因组组装,包括在所有可能的读数对之间进行成对比较,Berger 及其同事转向了语言模型。研究人员基于 de Bruijn 图(一种用于基因组组装的简单、高效的数据结构)的概念,开发了一种最小化空间 de Bruin 图 (mdBG),该图使用称为最小化器的短核苷酸序列而不是单个核苷酸。
“我们的最小空间 de Bruijn 图仅存储了总核苷酸的一小部分,同时保留了整个基因组结构,使它们比经典 de Bruijn 图效率高出几个数量级,”Berger 说。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!