微生物序列数据库包含有关酶和其他可适用于生物技术的分子的大量信息。但近年来这些数据库变得如此之大,以至于很难有效地搜索感兴趣的酶。
现在,麻省理工学院和哈佛大学布罗德研究所、麻省理工学院麦戈文脑研究所和美国国立卫生研究院国家生物技术信息中心(NCBI)的科学家们开发了一种新的搜索算法,已识别出188种新的细菌基因组中罕见的CRISPR系统,包含数千个单独的系统。该作品发表在《科学》杂志上。
该算法来自CRISPR先驱张锋的实验室,使用大数据聚类方法快速搜索大量基因组数据。该团队使用他们的算法,称为基于快速局部敏感散列的聚类(FLSHclust)来挖掘三个主要公共数据库,其中包含来自各种不寻常细菌的数据,包括在煤矿、啤酒厂、南极湖泊和狗唾液中发现的细菌。
科学家们发现了令人惊讶的数量和多样性的CRISPR系统,包括可以编辑人类细胞DNA的系统,其他可以靶向RNA的系统,以及许多具有多种其他功能的系统。
新系统有可能用于编辑哺乳动物细胞,并且与当前的Cas9系统相比,脱靶效应更少。它们有一天也可以用作诊断或作为细胞内活动的分子记录。
研究人员表示,他们的研究突显了CRISPR前所未有的多样性和灵活性水平,并且随着数据库的不断增长,可能还有更多罕见的系统有待发现。
“生物多样性是一个宝库,随着我们继续对更多基因组和宏基因组样本进行测序,越来越需要更好的工具,例如FLSHclust,来搜索序列空间以找到分子宝石,”联合研究人员张说。该研究的资深作者,也是博德研究所的核心研究所成员。
张还是麻省理工学院麦戈文脑研究所的研究员、麻省理工学院神经科学系的James和PatriciaPoitras教授(兼任脑与认知科学和生物工程系)以及霍华德休斯医学研究所的研究员。NCBI的杰出研究员尤金·库宁(EugeneKoonin)也是该研究的共同高级作者。
寻找CRISPR
CRISPR代表成簇规则间隔短回文重复序列,是一种细菌防御系统,已被设计成许多基因组编辑和诊断工具。
为了挖掘新型CRISPR系统的蛋白质和核酸序列数据库,研究人员借鉴大数据社区的方法开发了一种算法。这种技术称为局部敏感散列,将相似但不完全相同的对象聚集在一起。
使用这种方法,团队可以在几周内从NCBI、其全基因组猎枪数据库和联合基因组研究所探测数十亿个蛋白质和DNA序列,而以前寻找相同物体的方法需要几个月的时间。他们设计了算法来寻找与CRISPR相关的基因。
该研究的共同第一作者SoumyaKannan表示:“这种新算法使我们能够在足够短的时间内解析数据,从而真正恢复结果并做出生物学假设。”研究开始时,坎南是张实验室的研究生,目前是哈佛大学的博士后研究员和初级研究员。HanAltae-Tran是该研究的另一位共同第一作者,他是张实验室研究期间的研究生,目前是华盛顿大学的博士后研究员。
Altae-Tran说:“这证明了当你改进探索方法并使用尽可能多的数据时,你可以做些什么。”“能够提高我们的搜索规模真是令人兴奋。”
新系统
在他们的分析中,Altae-Tran、Kannan和他们的同事注意到,他们发现的数千个CRISPR系统属于几个现有类别和许多新类别。他们在实验室中更详细地研究了几个新系统。
他们发现了已知I型CRISPR系统的几种新变体,这些系统使用32个碱基对长的向导RNA,而不是Cas9的20个核苷酸的向导。由于引导RNA较长,这些I型系统有可能用于开发更精确的基因编辑技术,不易发生脱靶编辑。
张的团队证明其中两个系统可以对人类细胞的DNA进行简短的编辑。由于这些I型系统的大小与CRISPR-Cas9相似,因此可以使用当今CRISPR所用的相同基因传递技术将它们传递到动物或人类的细胞中。
其中一个I型系统还表现出“附带活性”——CRISPR蛋白结合其靶标后核酸的广泛降解。科学家们已经使用类似的系统进行传染病诊断,例如SHERLOCK,这是一种能够快速感应单个DNA或RNA分子的工具。张的团队认为新系统也可以适用于诊断技术。
研究人员还发现了一些IV型CRISPR系统的新作用机制,以及精确靶向RNA的VII型系统,该系统有可能用于RNA编辑。其他系统有可能用作记录工具(基因何时表达的分子文件)或用作活细胞中特定活动的传感器。
挖掘数据
科学家们表示,他们的算法可以帮助寻找其他生化系统。Altae-Tran说:“任何想要使用这些大型数据库来研究蛋白质如何进化或发现新基因的人都可以使用这种搜索算法。”
研究人员补充说,他们的发现不仅说明了CRISPR系统的多样性,而且大多数都很罕见,只在不寻常的细菌中发现。
“其中一些微生物系统仅在煤矿水中发现,”坎南说。“如果有人对此不感兴趣,我们可能永远不会看到这些系统。扩大我们的采样多样性对于继续扩大我们所能发现的多样性非常重要。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!