霁彩华年,因梦同行—— 庆祝深圳霁因生物医药转化研究院成立十周年 情绪益生菌PS128助力孤独症治疗,权威研究显示可显著改善孤独症症状 PARP抑制剂氟唑帕利助力患者从维持治疗中获益,改写晚期卵巢癌治疗格局 新东方智慧教育发布“东方创科人工智能开发板2.0” 精准血型 守护生命 肠道超声可用于检测儿童炎症性肠病 迷走神经刺激对抑郁症有积极治疗作用 探索梅尼埃病中 MRI 描述符的性能和最佳组合 自闭症患者中痴呆症的患病率增加 超声波 3D 打印辅助神经源性膀胱的骶神经调节 胃食管反流病患者耳鸣风险增加 间质性膀胱炎和膀胱疼痛综合征的临床表现不同 研究表明 多语言能力可提高自闭症儿童的认知能力 科学家揭示人类与小鼠在主要癌症免疫治疗靶点上的惊人差异 利用正确的成像标准改善对脑癌结果的预测 地中海饮食通过肠道细菌变化改善记忆力 让你在 2025 年更健康的 7 种惊人方法 为什么有些人的头发和指甲比其他人长得快 物质的使用会改变大脑的结构吗 饮酒如何影响你的健康 20个月,3大平台,300倍!元育生物以全左旋虾青素引领合成生物新纪元 从技术困局到创新锚点,天与带来了一场属于养老的“情绪共振” “华润系”大动作落槌!昆药集团完成收购华润圣火 十七载“冬至滋补节”,东阿阿胶将品牌营销推向新高峰 150个国家承认巴勒斯坦国意味着什么 中国海警对非法闯仁爱礁海域菲船只采取管制措施 国家四级救灾应急响应启动 涉及福建、广东 女生查分查出608分后,上演取得理想成绩“三件套” 多吃红色的樱桃能补铁、补血? 中国代表三次回击美方攻击指责 探索精神健康前沿|情绪益生菌PS128闪耀宁波医学盛会,彰显科研实力 圣美生物:以科技之光,引领肺癌早筛早诊新时代 神经干细胞移植有望治疗慢性脊髓损伤 一种简单的血浆生物标志物可以预测患有肥胖症青少年的肝纤维化 婴儿的心跳可能是他们说出第一句话的关键 研究发现基因检测正成为主流 血液测试显示心脏存在排斥风险 无需提供组织样本 假体材料有助于减少静脉导管感染 研究发现团队运动对孩子的大脑有很大帮助 研究人员开发出诊断 治疗心肌炎的决策途径 两项研究评估了医疗保健领域人工智能工具的发展 利用女子篮球队探索足部生物力学 抑制前列腺癌细胞:雄激素受体可以改变前列腺的正常生长 肽抗原上的反应性半胱氨酸可能开启新的癌症免疫治疗可能性 研究人员发现新基因疗法可以缓解慢性疼痛 研究人员揭示 tisa-cel 疗法治疗复发或难治性 B 细胞淋巴瘤的风险 适量饮酒可降低高危人群罹患严重心血管疾病的风险 STIF科创节揭晓奖项,新东方智慧教育荣膺双料殊荣 中科美菱发布2025年产品战略布局!技术方向支撑产品生态纵深! 从雪域高原到用户口碑 —— 复方塞隆胶囊的品质之旅
您的位置:首页 >国外科研 >

以最少的编码对生物序列进行简单的一体化分析 设计和解释

由于测序技术成本的下降和可用计算能力的增加,如今科学家生成的数据量非常庞大。但是解析所有这些数据以发现有用的信息就像在大海捞针中寻找分子针一样。

机器学习(ML)和其他人工智能(AI)工具可以显着加快数据分析过程,但大多数ML工具对于非ML专家来说很难访问和使用。最近,开发了自动化机器学习(AutoML)方法,可以自动设计和部署ML工具,但它们通常非常复杂,并且需要ML的设施,而AI领域以外的科学家很少有这种设施。

哈佛大学和麻省理工学院Wyss生物启发工程研究所的一组科学家现在通过构建一个新的、全面的AutoML平台来满足这一未满足的需求,该平台专为几乎没有ML经验的生物学家设计。他们的平台称为BioAutoMATED,可以使用核酸、肽或聚糖序列作为输入数据,其性能可与其他AutoML平台相媲美,同时需要最少的用户输入。该平台在CellSystems上发表的一篇新论文中有所描述,可从GitHub下载。

“我们的工具适用于那些无法构建自己的自定义ML模型的人,他们发现自己会问这样的问题,“我有这个很酷的数据集,ML是否适用于它?如何将其放入ML模型中?机器学习的复杂性阻碍了我进一步研究这个数据集,那么我该如何克服它呢?'”D.“我们想让其他领域的生物学家和专家更容易地使用ML和AutoML的强大功能来回答基本问题,并帮助发现有意义的生物学。”

面向所有人的AutoML

像许多伟大的想法一样,成为BioAutoMATED的种子不是在实验室里种下的,而是在午餐时种下的。Valeri和共同第一作者LuisSoenksen博士和KatieCollins在WyssInstitute的一张餐桌上一起吃饭时,他们意识到尽管该研究所享有世界级生物研究目的地的声誉,但只有少数在那里工作的顶级专家能够构建和训练ML模型可以大大有利于他们的工作。

Soenksen说:“我们决定我们需要为此做点什么,因为我们希望Wyss处于人工智能生物技术革命的前沿,我们也希望这些工具的开发由生物学家推动,为生物学家服务。”WyssInstitute的博士后研究员,也是科技领域的连续创业者。“现在,每个人都同意人工智能是未来,但四年前当我们有了这个想法时,它并不是那么明显,特别是对于生物研究。所以,它开始作为我们想要构建的工具来服务我们自己和我们的Wyss同事,但现在我们知道它可以提供更多服务。”

虽然已经开发了各种AutoML系统来简化从数据集生成ML模型的过程,但它们通常都有缺点;其中,每个AutoML工具都被设计为在搜索最佳解决方案时仅查看一种类型的模型(例如,神经网络)。这将生成的模型限制在一组狭窄的可能性中,而实际上,完全不同类型的模型可能更优化。另一个问题是,大多数AutoML工具并不是专门为将生物序列作为输入数据而设计的。已经开发了一些使用语言模型来分析生物序列的工具,但这些工具缺乏自动化功能并且难以使用。

为了为生物学构建一个强大的一体式AutoML,该团队修改了三个现有的AutoML工具,每个工具都使用不同的方法来生成模型:AutoKeras,用于搜索最佳神经网络;DeepSwarm,它使用基于群体的算法来搜索卷积神经网络;和TPOT,它使用多种方法搜索非神经网络,包括遗传编程和自学习。BioAutoMATED然后为所有三种工具生成标准化的输出结果,以便用户可以轻松地比较它们并确定哪种类型从他们的数据中产生最有用的见解。

该团队构建的BioAutoMATED能够将任何长度、类型或生物功能的DNA、RNA、氨基酸和聚糖(在细胞表面发现的糖分子)序列作为输入。BioAutoMATED自动预处理输入数据,然后生成可以仅根据序列信息预测生物学功能的模型。

该平台还具有许多功能,可帮助用户确定他们是否需要收集额外数据以提高输出质量,了解模型最“关注”序列的哪些特征(因此可能更具生物学意义),并为未来的实验设计新的序列。

核苷酸和肽和聚糖

为了测试他们的新框架,该团队首先使用它来探索改变一段称为核糖体结合位点(RBS)的RNA序列如何影响核糖体与RNA结合并将其转化为蛋白质的效率大肠杆菌。他们将序列数据输入BioAutoMATED,BioAutoMATED确定了一个由DeepSwarm算法生成的模型,该模型可以准确预测翻译效率。

该模型的性能与专业ML专家创建的模型一样好,但生成时间仅为26.5分钟,并且只需要用户输入10行代码(其他模型可能需要750多行)。他们还使用BioAutoMATED来确定序列的哪些区域似乎对确定翻译效率最重要,并设计可以通过实验测试的新序列。

然后他们继续试验将肽和聚糖序列数据输入BioAutoMATED,并使用结果来回答有关这些序列的特定问题。该系统生成了关于肽序列中的哪些氨基酸对于确定抗体与药物雷珠单抗(Lucentis)结合的能力最重要的高度准确的信息,并且还根据其序列将不同类型的聚糖分为免疫原性和非免疫原性组.该团队还使用它来优化基于RNA的脚趾开关的序列,为新的脚趾开关的设计提供信息,用于实验测试,用户的输入编码最少。

“最终,我们能够证明BioAutoMATED可以帮助人们1)识别生物数据中的模式,2)就该数据提出更好的问题,以及3)快速回答这些问题,所有这些都在一个框架内进行——无需成为ML专家自己,”凯蒂柯林斯说,她目前是剑桥大学的研究生,在麻省理工学院攻读本科期间从事该项目。

与任何其他ML工具一样,任何借助BioAutoMATED预测的模型都需要尽可能在实验室中进行实验验证。但该团队希望它可以进一步集成到不断增长的AutoML工具集中,有朝一日将其功能扩展到生物序列之外的任何类似序列的对象,例如指纹。

“机器学习和人工智能工具已经存在了一段时间,但只是随着最近用户友好界面的发展,它们才开始流行起来,就像ChatGPT一样,”JimCollins说,他也是麻省理工学院医学工程与科学Termeer教授。“我们希望BioAutoMATED能够让下一代生物学家更快、更容易地发现生命的基础。”

“使非专家能够使用这些平台对于能够利用ML技术的全部潜力来解决生物学及其他领域长期存在的问题至关重要。柯林斯团队的这一进步是使AI成为关键合作者的重要一步对于生物学家和生物工程师来说,”Wyss创始董事DonIngber博士说,他也是哈佛医学院和波士顿儿童医院的JudahFolkman血管生物学教授,以及HansjörgWyss生物启发工程教授哈佛大学JohnA.Paulson工程与应用科学学院(SEAS)。

标签:

免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!