聚乳酸生物可降解材料(可降解材料有哪些) 怎么设置qq空间形象墙(如何设置qq空间照片墙) 阴阳师业火原怎么打(阴阳师的业原火怎么打) plenty of可以放在句首吗?(plenty of修饰可数还是不可数) AE教程 如何制作全息影像特效动画(ae怎么做全息投影) dnf55冰龙怎么打(深渊冰龙15怎么打) 酚酞溶液测碳化深度(碳化深度怎么测) 泡茶用什么杯子(茶叶用什么杯子泡好) 商务签证办理流程及材料(商务签证办理流程及材料要求) 咖啡怎么做好喝又简单(咖啡怎么做出来的) 如何让EXCEL表格打印每页都显示标题行(excel标题行 每页都显示怎么打印出来) 2018年黑龙江高校排名 2018年黑龙江大学排名(黑龙江省所有大学排名榜) 摩斯密码怎么敲视频教学(摩斯密码怎么敲视频) 魔兽世界雷霆小径之战任务怎么开始(魔兽世界雷霆小径之战任务怎么开始视频) 怎么在电脑上查看手机版网页 wap(怎么用手机查看电脑版网页) 生的五笔怎么打(盛的五笔怎么打) 手工制作圣诞帽教案(手工制作圣诞帽教案大班) 阿里巴巴服装加工订单(找服装加工订单) 大闸蟹的正确做法图解(大闸蟹的正确做法图解大全) 抗诉的意思(抗诉是什么意思) 如何选购婴儿内衣?婴儿内衣哪种好啊(买什么儿童的内衣比较好) 烤鱼片的做法(空气炸锅烤鱼片的做法) frp是什么材料图片(frp是什么材料) 伦敦奥运会官方游戏london2012 110米栏攻略(伦敦110米栏奥运视频) 别来玩狼牙新系统境界提升玩法介绍(狼牙该如何使用) 关于逆境中成长的名言(逆境有利于成长名言) 爬楼梯有什么好处?(爬楼梯有什么好处吗) 八字不合怎么办(名字和八字不合怎么办) 宁滥勿缺下一句(宁滥勿缺) dnf补丁wegame怎么找(wegame中dnf补丁在哪?) 什么手机游戏可以赚人民币(什么手机游戏可以赚人民币 手游 手机) PDF文件怎么拆分成多个文件(怎么合并多个pdf) 乘法是什么符号的意思(乘法是什么符号) IP电话如何使用(ip话机怎么使用) 海底世界资料大全(关于海底世界的资料) 怎样自己动手包书皮(怎么自己包书皮) 如何设置浏览器的无痕浏览(如何设置浏览器的无痕浏览功能) 春风图片大全(春风图) 摩尔庄园怎么加好友?(摩尔庄园怎么加好友安卓和苹果) 【孤岛惊魂5新曙光】攻略之如何钓鱼(孤岛惊魂新曙光钓鱼需要鱼饵吗) 欧阳询观古碑文言文翻译过程(欧阳询观古碑文言文翻译) 和平精英电音盛典怎么击破气球(和平精英打爆气球) 杭州学厨师怎么样?工资怎么样?(杭州学厨师怎么样?工资怎么样啊) 凹凸的笔画顺序(凹的笔画顺序) 港行的iPhone5 A1429开启联通LTE教程(港版a1530支持联通4g吗) dnf疲劳药怎么购买(dnf哪里可以兑换疲劳药) 32位能用什么剪辑软件(适合32位系统的视频剪辑软件) 如何使用支付宝里有的功能去超市能让你更省钱?(支付宝如何在超市使用) 如何使用淘宝点外卖服务 (如何使用淘宝点外卖服务中心) 酚类化合物有哪些性质(酚类化合物有哪些呀)
您的位置:首页 >国外科研 >

以最少的编码对生物序列进行简单的一体化分析 设计和解释

导读 由于测序技术成本的下降和可用计算能力的增加,如今科学家生成的数据量非常庞大。但是解析所有这些数据以发现有用的信息就像在大海捞针中寻

由于测序技术成本的下降和可用计算能力的增加,如今科学家生成的数据量非常庞大。但是解析所有这些数据以发现有用的信息就像在大海捞针中寻找分子针一样。

机器学习(ML)和其他人工智能(AI)工具可以显着加快数据分析过程,但大多数ML工具对于非ML专家来说很难访问和使用。最近,开发了自动化机器学习(AutoML)方法,可以自动设计和部署ML工具,但它们通常非常复杂,并且需要ML的设施,而AI领域以外的科学家很少有这种设施。

哈佛大学和麻省理工学院Wyss生物启发工程研究所的一组科学家现在通过构建一个新的、全面的AutoML平台来满足这一未满足的需求,该平台专为几乎没有ML经验的生物学家设计。他们的平台称为BioAutoMATED,可以使用核酸、肽或聚糖序列作为输入数据,其性能可与其他AutoML平台相媲美,同时需要最少的用户输入。该平台在CellSystems上发表的一篇新论文中有所描述,可从GitHub下载。

“我们的工具适用于那些无法构建自己的自定义ML模型的人,他们发现自己会问这样的问题,“我有这个很酷的数据集,ML是否适用于它?如何将其放入ML模型中?机器学习的复杂性阻碍了我进一步研究这个数据集,那么我该如何克服它呢?'”D.“我们想让其他领域的生物学家和专家更容易地使用ML和AutoML的强大功能来回答基本问题,并帮助发现有意义的生物学。”

面向所有人的AutoML

像许多伟大的想法一样,成为BioAutoMATED的种子不是在实验室里种下的,而是在午餐时种下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一张餐桌上一起吃饭时,他们意识到尽管该研究所享有世界级生物研究目的地的声誉,但只有少数在那里工作的顶级专家能够构建和训练ML模型可以大大有利于他们的工作。

Soenksen说:“我们决定我们需要为此做点什么,因为我们希望Wyss处于人工智能生物技术革命的前沿,我们也希望这些工具的开发由生物学家推动,为生物学家服务。”WyssInstitute的博士后研究员,也是科技领域的连续创业者。“现在,每个人都同意人工智能是未来,但四年前当我们有了这个想法时,它并不是那么明显,特别是对于生物研究。所以,它开始作为我们想要构建的工具来服务我们自己和我们的Wyss同事,但现在我们知道它可以提供更多服务。”

虽然已经开发了各种AutoML系统来简化从数据集生成ML模型的过程,但它们通常都有缺点;其中,每个AutoML工具都被设计为在搜索最佳解决方案时仅查看一种类型的模型(例如,神经网络)。这将生成的模型限制在一组狭窄的可能性中,而实际上,完全不同类型的模型可能更优化。另一个问题是,大多数AutoML工具并不是专门为将生物序列作为输入数据而设计的。已经开发了一些使用语言模型来分析生物序列的工具,但这些工具缺乏自动化功能并且难以使用。

为了为生物学构建一个强大的一体式AutoML,该团队修改了三个现有的AutoML工具,每个工具都使用不同的方法来生成模型:AutoKeras,用于搜索最佳神经网络;DeepSwarm,它使用基于群体的算法来搜索卷积神经网络;和TPOT,它使用多种方法搜索非神经网络,包括遗传编程和自学习。BioAutoMATED然后为所有三种工具生成标准化的输出结果,以便用户可以轻松地比较它们并确定哪种类型从他们的数据中产生最有用的见解。

该团队构建的BioAutoMATED能够将任何长度、类型或生物功能的DNA、RNA、氨基酸和聚糖(在细胞表面发现的糖分子)序列作为输入。BioAutoMATED自动预处理输入数据,然后生成可以仅根据序列信息预测生物学功能的模型。

该平台还具有许多功能,可帮助用户确定他们是否需要收集额外数据以提高输出质量,了解模型最“关注”序列的哪些特征(因此可能更具生物学意义),并为未来的实验设计新的序列。

核苷酸和肽和聚糖

为了测试他们的新框架,该团队首先使用它来探索改变一段称为核糖体结合位点(RBS)的RNA序列如何影响核糖体与RNA结合并将其转化为蛋白质的效率大肠杆菌。他们将序列数据输入BioAutoMATED,BioAutoMATED确定了一个由DeepSwarm算法生成的模型,该模型可以准确预测翻译效率。

该模型的性能与专业ML专家创建的模型一样好,但生成时间仅为26.5分钟,并且只需要用户输入10行代码(其他模型可能需要750多行)。他们还使用BioAutoMATED来确定序列的哪些区域似乎对确定翻译效率最重要,并设计可以通过实验测试的新序列。

然后他们继续试验将肽和聚糖序列数据输入BioAutoMATED,并使用结果来回答有关这些序列的特定问题。该系统生成了关于肽序列中的哪些氨基酸对于确定抗体与药物雷珠单抗(Lucentis)结合的能力最重要的高度准确的信息,并且还根据其序列将不同类型的聚糖分为免疫原性和非免疫原性组.该团队还使用它来优化基于RNA的脚趾开关的序列,为新的脚趾开关的设计提供信息,用于实验测试,用户的输入编码最少。

“最终,我们能够证明BioAutoMATED可以帮助人们1)识别生物数据中的模式,2)就该数据提出更好的问题,以及3)快速回答这些问题,所有这些都在一个框架内进行——无需成为ML专家自己,”凯蒂柯林斯说,她目前是剑桥大学的研究生,在麻省理工学院攻读本科期间从事该项目。

与任何其他ML工具一样,任何借助BioAutoMATED预测的模型都需要尽可能在实验室中进行实验验证。但该团队希望它可以进一步集成到不断增长的AutoML工具集中,有朝一日将其功能扩展到生物序列之外的任何类似序列的对象,例如指纹。

“机器学习和人工智能工具已经存在了一段时间,但只是随着最近用户友好界面的发展,它们才开始流行起来,就像ChatGPT一样,”JimCollins说,他也是麻省理工学院医学工程与科学Termeer教授。“我们希望BioAutoMATED能够让下一代生物学家更快、更容易地发现生命的基础。”

“使非专家能够使用这些平台对于能够利用ML技术的全部潜力来解决生物学及其他领域长期存在的问题至关重要。柯林斯团队的这一进步是使AI成为关键合作者的重要一步对于生物学家和生物工程师来说,”Wyss创始董事DonIngber博士说,他也是哈佛医学院和波士顿儿童医院的JudahFolkman血管生物学教授,以及HansjörgWyss生物启发工程教授哈佛大学JohnA.Paulson工程与应用科学学院(SEAS)。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!