以最少的编码对生物序列进行简单的一体化分析设计和解释

2023-06-22 10:14:35 来源：用户：

由于测序技术成本的下降和可用计算能力的增加，如今科学家生成的数据量非常庞大。但是解析所有这些数据以发现有用的信息就像在大海捞针中寻找分子针一样。

机器学习(ML)和其他人工智能(AI)工具可以显着加快数据分析过程，但大多数ML工具对于非ML专家来说很难访问和使用。最近，开发了自动化机器学习(AutoML)方法，可以自动设计和部署ML工具，但它们通常非常复杂，并且需要ML的设施，而AI领域以外的科学家很少有这种设施。

哈佛大学和麻省理工学院Wyss生物启发工程研究所的一组科学家现在通过构建一个新的、全面的AutoML平台来满足这一未满足的需求，该平台专为几乎没有ML经验的生物学家设计。他们的平台称为BioAutoMATED，可以使用核酸、肽或聚糖序列作为输入数据，其性能可与其他AutoML平台相媲美，同时需要最少的用户输入。该平台在CellSystems上发表的一篇新论文中有所描述，可从GitHub下载。

“我们的工具适用于那些无法构建自己的自定义ML模型的人，他们发现自己会问这样的问题，“我有这个很酷的数据集，ML是否适用于它?如何将其放入ML模型中?机器学习的复杂性阻碍了我进一步研究这个数据集，那么我该如何克服它呢?'”D.“我们想让其他领域的生物学家和专家更容易地使用ML和AutoML的强大功能来回答基本问题，并帮助发现有意义的生物学。”

面向所有人的AutoML

像许多伟大的想法一样，成为BioAutoMATED的种子不是在实验室里种下的，而是在午餐时种下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一张餐桌上一起吃饭时，他们意识到尽管该研究所享有世界级生物研究目的地的声誉，但只有少数在那里工作的顶级专家能够构建和训练ML模型可以大大有利于他们的工作。

Soenksen说：“我们决定我们需要为此做点什么，因为我们希望Wyss处于人工智能生物技术革命的前沿，我们也希望这些工具的开发由生物学家推动，为生物学家服务。”WyssInstitute的博士后研究员，也是科技领域的连续创业者。“现在，每个人都同意人工智能是未来，但四年前当我们有了这个想法时，它并不是那么明显，特别是对于生物研究。所以，它开始作为我们想要构建的工具来服务我们自己和我们的Wyss同事，但现在我们知道它可以提供更多服务。”

虽然已经开发了各种AutoML系统来简化从数据集生成ML模型的过程，但它们通常都有缺点;其中，每个AutoML工具都被设计为在搜索最佳解决方案时仅查看一种类型的模型(例如，神经网络)。这将生成的模型限制在一组狭窄的可能性中，而实际上，完全不同类型的模型可能更优化。另一个问题是，大多数AutoML工具并不是专门为将生物序列作为输入数据而设计的。已经开发了一些使用语言模型来分析生物序列的工具，但这些工具缺乏自动化功能并且难以使用。

为了为生物学构建一个强大的一体式AutoML，该团队修改了三个现有的AutoML工具，每个工具都使用不同的方法来生成模型：AutoKeras，用于搜索最佳神经网络;DeepSwarm，它使用基于群体的算法来搜索卷积神经网络;和TPOT，它使用多种方法搜索非神经网络，包括遗传编程和自学习。BioAutoMATED然后为所有三种工具生成标准化的输出结果，以便用户可以轻松地比较它们并确定哪种类型从他们的数据中产生最有用的见解。

该团队构建的BioAutoMATED能够将任何长度、类型或生物功能的DNA、RNA、氨基酸和聚糖(在细胞表面发现的糖分子)序列作为输入。BioAutoMATED自动预处理输入数据，然后生成可以仅根据序列信息预测生物学功能的模型。

该平台还具有许多功能，可帮助用户确定他们是否需要收集额外数据以提高输出质量，了解模型最“关注”序列的哪些特征(因此可能更具生物学意义),并为未来的实验设计新的序列。

核苷酸和肽和聚糖

为了测试他们的新框架，该团队首先使用它来探索改变一段称为核糖体结合位点(RBS)的RNA序列如何影响核糖体与RNA结合并将其转化为蛋白质的效率大肠杆菌。他们将序列数据输入BioAutoMATED，BioAutoMATED确定了一个由DeepSwarm算法生成的模型，该模型可以准确预测翻译效率。

该模型的性能与专业ML专家创建的模型一样好，但生成时间仅为26.5分钟，并且只需要用户输入10行代码(其他模型可能需要750多行)。他们还使用BioAutoMATED来确定序列的哪些区域似乎对确定翻译效率最重要，并设计可以通过实验测试的新序列。

然后他们继续试验将肽和聚糖序列数据输入BioAutoMATED，并使用结果来回答有关这些序列的特定问题。该系统生成了关于肽序列中的哪些氨基酸对于确定抗体与药物雷珠单抗(Lucentis)结合的能力最重要的高度准确的信息，并且还根据其序列将不同类型的聚糖分为免疫原性和非免疫原性组.该团队还使用它来优化基于RNA的脚趾开关的序列，为新的脚趾开关的设计提供信息，用于实验测试，用户的输入编码最少。

“最终，我们能够证明BioAutoMATED可以帮助人们1)识别生物数据中的模式，2)就该数据提出更好的问题，以及3)快速回答这些问题，所有这些都在一个框架内进行——无需成为ML专家自己，”凯蒂柯林斯说，她目前是剑桥大学的研究生，在麻省理工学院攻读本科期间从事该项目。

与任何其他ML工具一样，任何借助BioAutoMATED预测的模型都需要尽可能在实验室中进行实验验证。但该团队希望它可以进一步集成到不断增长的AutoML工具集中，有朝一日将其功能扩展到生物序列之外的任何类似序列的对象，例如指纹。

“机器学习和人工智能工具已经存在了一段时间，但只是随着最近用户友好界面的发展，它们才开始流行起来，就像ChatGPT一样，”JimCollins说，他也是麻省理工学院医学工程与科学Termeer教授。“我们希望BioAutoMATED能够让下一代生物学家更快、更容易地发现生命的基础。”

“使非专家能够使用这些平台对于能够利用ML技术的全部潜力来解决生物学及其他领域长期存在的问题至关重要。柯林斯团队的这一进步是使AI成为关键合作者的重要一步对于生物学家和生物工程师来说，”Wyss创始董事DonIngber博士说，他也是哈佛医学院和波士顿儿童医院的JudahFolkman血管生物学教授，以及HansjörgWyss生物启发工程教授哈佛大学JohnA.Paulson工程与应用科学学院(SEAS)。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

以最少的编码对生物序列进行简单的一体化分析 设计和解释

以最少的编码对生物序列进行简单的一体化分析设计和解释