对于下一代测序来说,这是一个激动人心的时刻。在过去的一年里,多家新公司都进入了美国市场,每家公司都有自己的新兴平台和新技术。尽管该领域的许多方面存在很多不确定性,但每个人都同意,未来将带来更多的测序数据。而且,随着仪器产生更多的数据,计算平台也必须迎难而上。
现在,博德研究所和1999年发明图形处理单元(GPU)的硅谷微处理巨头英伟达正在合作。两家公司宣布建立合作伙伴关系,为Terra云平台(Broad广泛使用的基因组分析平台)提供Nvidia的AI和加速工具。他们说,结果将是更快地分析更多数据。
这种合作关系建立在几个平台的基础上,这些平台已经改变了研究人员分析基因组数据的能力。
Broad的数据科学和数据工程小组开发了广泛用于解释序列数据的主力(通常作为FASTQ文件从序列器中取出)。基因组分析工具包(GATK)侧重于DNA和RNA-seq数据的变异发现和基因分型。该程序在基因组学界被广泛使用。但是,使用它需要对生物信息学有一定程度的熟悉。
最近,Broad与Verily Life Sciences合作开发了Terra平台,该平台运行在Google的云上。Terra 是一个可扩展的开源平台,不仅允许研究人员访问数据,还可以运行分析工具并允许协作。最重要的是,它易于使用,不需要与GATK相同的生物信息学背景。这是一种分析基因组的“点击”方法,基因组学专家、组学博客作者Keith Robison博士指出。
此次合作将把英伟达的Clara Parabricks带到Terra平台上。英伟达医疗保健副总裁金伯利·鲍威尔(Kimberly Powell)表示,英伟达“在过去三年中一直致力于加速计算工具”。她指出,该程序在多云平台上运行,因此整个Terra平台都可以利用它。
Parabricks 是一款用于测序数据二次分析的 GPU 加速软件套件,现已在六个新的 Terra 工作流程中提供。用户可以使用Clara Parabricks在大约一小时内分析整个基因组(相比之下,基于CPU的环境需要24小时)。对于 Broad 的 GATK 种系工作流程,在 GPU 上使用 Parabricks 进行分析的成本不到一半。
Broad首席数据官兼Eric和Wendy Schmidt中心联合主任Anthony Philippakis博士告诉GEN,NGS的计算需求(计算和存储需求)只会继续增长。他指出,过去围绕降低试剂成本的话题已经转移到测序数据上。而且,这需要新一代硬件加速,以更便宜、更快、更好地处理数据。
此外,Nvidia 正在直接向 GATK 工具包贡献一个新的深度学习模型。
使用大型语言模型(LLM),研究人员将开发DNA和RNA的基础模型,以使用Nvidia的BioNeMo平台更好地了解人类生物学。BioNeMo 是一个 AI 应用程序框架,其中包括用于蛋白质和化学的预训练 LLM,可简化训练、推理和扩展。BioNeMo是Nvidia Nemo Megatron框架的扩展,对化学,蛋白质和DNA / RNA序列具有特定领域。
BioNeMo允许开发人员有效地训练和部署具有数十亿个参数的生物学LLM。来自两个组织的团队将共同开展这项工作,创建新模型以添加到BioNeMo系列中,并在Terra平台中提供。
在Nvidia的公司博客上,他们描述了四种预训练语言模型:
ESM-1:这种蛋白质LLM最初由Meta AI Labs发表,处理氨基酸序列以生成可用于预测各种蛋白质特性和功能的表示。它还提高了科学家理解蛋白质结构的能力。
OpenFold:创建最先进的蛋白质建模工具的公私联盟将通过BioNeMo服务访问其开源AI管道。
MegaMolBART:经过1亿个分子的训练,这种生成化学模型可用于反应预测、分子优化和从头分子生成。
ProtT5:该模型由慕尼黑工业大学RostLab领导,包括NVIDIA合作开发,将ESM-1b等蛋白质LLM的功能扩展到序列生成。
博德研究所的研究人员还将获得Monai,一个用于医学成像AI的开源深度学习框架,以及一个名为Nvidia rapids的GPU加速数据科学工具包,用于更快的数据准备,可用于基因组单细胞分析。
很容易理解为什么Broad想要获得Nvidia的GPU提供的功能。但英伟达为什么要采取这一举措呢?“他们希望将GPU转移到医疗保健领域,”Robison指出。而且,他们的目光可能超出了基因组。将这种带宽带到 Broad 意味着分析基因组学、转录组学、GWAS 研究、病理学、细胞成像和临床健康记录。
鲍威尔对此表示同意,并指出他们“才刚刚开始这项研究计划”。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!