2021年8 月 26 日——一种名为 Atomic Rotationally Equivariant Scorer (ARES) 的新深度学习系统显着改善了对 RNA 结构的预测,而不是以前的人工智能 (AI) 模型。斯坦福大学研究人员在8 月 26 日发表在《科学》杂志上的一篇论文中描述了这一进展,它可能有助于科学家们发现 RNA 的生物学功能,并为发现新型 RNA 靶向药物铺平道路。
像蛋白质一样,RNA 分子扭曲并折叠成复杂的 3D 形状,使它们能够执行广泛的细胞功能,包括催化反应、调节基因表达、调节先天免疫和感知小分子。
然而,尽管科学家对蛋白质结构的理解在过去十年中取得了长足的进步,但他们对 RNA 结构的了解却远远落后,尽管人类基因组中转录成 RNA 的部分大约是转录成 RNA 的部分的 30 倍。蛋白质的代码。
理解蛋白质折叠的进展反映在预测模型的成功上,例如由谷歌 AI 分支 DeepMind 开发的AlphaFold。该模型通过利用数千种已知蛋白质结构中的序列-结构关系,学会了如何根据氨基酸序列准确预测蛋白质结构。
然而,在 RNA 的情况下,可用的训练数据要少得多。这部分是因为 RNA 结构目前还没有被很好地理解,并且因为 RNA 序列信息提供的关于 3D RNA 结构的信息比蛋白质的情况少。
为了解决这个问题,由斯坦福大学博士研究生、Atomic AI 创始人兼首席执行官 Raphael Townshend 领导的研究人员设计了 ARES,以根据最小假设进行 RNA 结构预测。ARES 深度神经网络接受每个原子的 3D 坐标和化学元素类型的结构模型作为输入,然后预测模型与未知真实 3D RNA 结构的均方根偏差。
ARES 不包含关于结构模型的哪些特征与评估其准确性相关的任何假设。即使是双螺旋、碱基对、核苷酸和氢键等基本结构概念也没有预先编程到系统中。
与在数千种已知蛋白质结构上训练的 AlphaFold 不同,ARES 训练数据仅限于 18 个 RNA 分子,这些分子在 1994 年至 2006 年间发表了实验确定的结构。
为了评估 ARES 识别以前未见过的 RNA 的准确结构模型的能力,斯坦福大学的研究人员编制了一个基准数据集,其中包含七年来在 RNA-Puzzles 竞赛中获胜的参赛作品,这是由 RNA 科学界组织的一项长期挑战. 根据 RNA-Puzzles 的规则,当社区科学家通过实验发现新的 RNA 结构时,他们不会公布细节,直到其他 RNA-Puzzles 参与者提交了他们的结构预测,然后根据他们与该结构的匹配程度进行判断。实验确定的结构。
对于 RNA-Puzzles 数据集中的每个 RNA 结构,研究人员使用 Rosetta FARFAR2 采样软件生成了至少 1,500 个结构模型。然后,他们应用经过训练的 ARES 神经网络为每个模型生成一个分数。其他三种评分方法也用于比较。
使用 ARES,10 个得分最高的结构模型包括 81% 的基准 RNA 的实验正确模型。相比之下,其他三种评分方法在不到 50% 的时间内包含正确的结构。
接下来,研究人员将 ARES 的预测输入到四轮新的 RNA-Puzzles 盲结构预测挑战赛中。四个实验确定但未发表的待预测 RNA 结构包括腺病毒 VA-I RNA、嗜热地芽孢杆菌T-box 鉴别器 tRNAGly、枯草芽孢杆菌T-box tRNAGly 和诺卡氏菌T-box tRNAIIe(蛋白质数据库 ID) 6OL3、6PMO、6POM 和 6UFM)。对于所有四种 RNA,ARES“赢得”了挑战,产生了任何方法中最准确的结构模型。
在未来的工作中,研究人员计划为 ARES 提供除原子坐标和每个原子的化学元素类型之外的更多信息,以查看这种额外的输入是否会提高性能。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!