休斯顿——(2021 年 6 月 28 日)——莱斯大学的计算机科学家正在派遣 RAMBO 来拯救基因组研究人员,他们有时需要等待数天或数周才能从庞大的 DNA 数据库中获取搜索结果。
DNA 测序如此流行,基因组数据集的规模每两年翻一番,而搜索数据的工具却没有跟上步伐。跨基因组比较 DNA 或研究诸如导致 的病毒等生物体进化的研究人员通常要等待数周才能让软件索引大型“宏基因组”数据库,这些数据库每月都在变大,现在以 PB 为单位。
RAMBO 是“重复合并布隆过滤器”的缩写,是一种新方法,可以将此类数据库的索引时间从数周缩短至数小时,将搜索时间从数小时缩短至数秒。莱斯大学的计算机科学家上周在计算机协会数据科学会议 SIGMOD 2021 上介绍了 RAMBO。
“使用传统方法在大型数据库中查询数百万个 DNA 序列在大型计算集群上可能需要几个小时,而在单个服务器上可能需要几周时间,”兰博的共同创建者托德·特伦根说,他是赖斯的计算机科学家,其实验室专门研究宏基因组学.“除了查询时间外,减少数据库索引时间也至关重要,因为基因组数据库的规模正以惊人的速度持续增长。”
为了解决这个问题,Treangen 与莱斯大学计算机科学家 Anshumali Shrivastava 以及同行评审会议的共同主要作者 Gaurav Gupta 和 Minghao Yan 合作,后者擅长创建使大数据和机器学习更快、更可扩展的算法。兰博上的纸。
RAMBO 使用的数据结构比最先进的基因组索引方法具有明显更快的查询时间以及其他优点,例如易于并行化、零假阴性率和低假阳性率。
“RAMBO 的搜索时间比现有方法快 35 倍,”电气和计算机工程博士生 Gupta 说。在使用 170 TB 微生物基因组数据集的实验中,Gupta 表示,兰博将索引时间从“在复杂的专用集群上的六周缩短到在共享商品集群上的九个小时”。
标签: DNA
免责声明:本文由用户上传,如有侵权请联系删除!