蛋白质已经进化到能够胜任各种任务,从收缩肌肉到消化食物再到识别病毒。为了设计出更好的蛋白质(包括抗体),科学家经常在不同位置反复突变氨基酸(按顺序排列以组成蛋白质的单位),直到产生的蛋白质具有更好的功能,例如引发更强的免疫反应或更有效地从大气中捕获二氧化碳。
但可能的氨基酸序列比世界上的沙粒还要多。而找到最佳蛋白质,进而找到最佳潜在药物,通常成本高昂,甚至不可能。
斯坦福大学的科学家开发出了一种基于机器学习的新方法,可以更快、更准确地预测导致更好抗体药物的分子变化。
该方法于7月4日发表在《科学》杂志上,将蛋白质骨架的3D结构与基于氨基酸序列的大型语言模型相结合,使研究人员能够在几分钟内找到罕见且理想的突变,而这些突变通常只能通过详尽的实验才能找到。
“人工智能和药物开发领域的大量努力都集中在收集有关某种分子在某项任务中表现如何的大量数据,以便计算机能够学习到足够的知识来设计出更好的版本,”金说。“值得注意的是,我们已经证明,结构可以代替大量数据,而计算机仍能学习。”
“现在,更多的抗体实际上有机会得到优化,”同时也是Arc研究所创新研究员的Hie说道。
弯曲成形
当面临寻找最佳氨基酸序列的挑战时,科学家通常会投入数百万美元,在微型、简化的生物系统中进行测试。他们希望培养皿中最好的药物也能成为人类的最佳药物。
“这需要大量的猜测和检查,”Hie说。“许多智能算法的目标是消除其中的猜测。”
为了加快这一进程,科学家开发了类似ChatGPT的机器学习算法,该算法根据数百万种蛋白质的氨基酸序列进行训练,以预测理想的突变。
然而,这些模型通常会让科学家发现,一旦在实验室中产生序列,它们就会变得不稳定或比开始时更糟糕。
部分原因是蛋白质的功能不仅取决于氨基酸序列,还取决于该序列的三维结构。例如,为了引发免疫反应,抗体必须具有正确的形状才能与病毒表面的分子结合。
研究团队认为,开发更好的预测算法的关键在于结构。因此,他们将基于序列的大型语言模型确定的一长串可能有益的突变限制为那些能够保留起始蛋白质3D形状的突变。
试验场
2022年12月,该团队在最近停产的SARS-CoV-2抗体疗法上进行了测试。
“主流理论认为,改进这种抗体的尝试会失败,”医学生、生物物理学研究生、这项研究的主要作者VarunShanker说。“这种病毒太聪明了。它在数百万人中传播的过程中不断进化,知道如何变异才能避开这些抗体。”
使用纯序列模型来优化蛋白质,效果仅提高了两倍。但采用结构引导方法后,该团队看到了25倍的提升。
“我们终于赶上了病毒,”同时也是SarafanChEM-H化学/生物界面培训项目研究员的Shanker说道。
教旧模型新技巧
使用人工智能开发更好药物的大部分努力都依赖于“训练”或“监督”模型,这涉及生成有关独特蛋白质序列功能和性能的大量数据。这种方法需要大量时间,并会产生针对特定蛋白质执行特定任务的定制模型。
该模型不需要输入任何有关蛋白质的功能、功能如何或任何实验室实验的信息。由于结构与功能紧密相关,蛋白质的坐标成为性能的代表。
对于COVID抗体的研究,他们不仅将结构限制在抗体本身,还将结构限制在抗体与病毒结合时。从此,他们的模型无需任何训练就能“学会”抗体结合的一些规则。
早期实验表明,该方法可推广到其他类型的蛋白质,如酶,它们有助于催化人体内的化学反应。到目前为止,研究人员发现该模型为科学家指明了数十种蛋白质,平均而言,其中一半比起点更好。
这一工具可能有助于快速应对新出现或正在发展的疾病。它还降低了制造更有效药物的门槛。
更强效的药物意味着需要的剂量更低,这意味着一定剂量的药物可以使更多患者受益。对于艾滋病毒等传染病,研究表明,大剂量但不频繁的抗体可以保护患者免受感染,这可能是一种变革。
该团队正在向任何人免费提供他们的模型和代码。
“这是一个令人兴奋的例子,展示了深度学习的力量,它使构建更好蛋白质的过程变得民主化,”Shanker说。“这不仅让人们能够开发新药,还开辟了以前无法进入的科学探索新领域。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!