2021年6 月 20 日——一种名为 molDiscovery 的计算机算法使用来自小分子的质谱数据来预测未知物质的身份,这可能会节省研究人员寻找具有医疗用途的新天然产品的时间和金钱。6 月 17 日,Nature Communications报道了这种新方法。
小分子是低分子量的有机化合物,大小约为 1 nm。确定特定样品中存在或不存在哪些分子以及这些分子是否已知的能力在整个生命科学中具有广泛的应用。
例如,在医学中,医生在患者血液或组织样本中寻找小分子生物标志物以进行疾病诊断和预后,而流行病学家则在人群饮食和环境中寻找小分子以识别疾病风险因素。在药理学中,小分子因其作为治疗药物的潜力而受到关注。
molDiscovery 算法基于预训练的概率模型将小分子与其质谱相匹配,从而提高了小分子识别的效率和准确性。
由于其速度,该算法能够在科学家们的研究早期提醒他们是偶然发现了一个真正独特的分子,还是只是重新发现了已知的东西。
“科学家们浪费了大量时间来分离已知的分子,基本上是重新发现青霉素,”共同作者、卡内基梅隆大学计算机科学学院助理教授 Hosein Mohimani 博士在一份声明中说。“早期检测分子是否已知可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能导致新药开发的新型天然产品。”
可以由一组质量峰表示的质谱作为小分子的“指纹”或唯一标识符。molDiscovery 算法的工作原理是将从样品中获取的质谱与小分子数据库中的数百万个分子结构进行比较。
molDisocovery 核心的概率模型是根据北美大众银行 (MoNA) 的参考光谱和美国国立卫生研究院 (NIH) 天然产物图书馆的分子光谱对进行训练的。
概率模型采用 P(logRank∣bondType) 形式,其中 logRank 表示相应小分子片段的质量峰强度,bondType 是 SC、OP、PC、CC、NC、OC 或这些的成对组合债券。
为了测试该系统,研究人员在全球天然产物社会分子网络 (GNPS) 存储库中的超过 800 万个光谱上运行了 molDiscovery,这是一个用于共享质谱数据的开放获取知识库。molDiscovery 系统能够以 0% 的错误发现率 (FDR) 识别 3,185 个独特的小分子,与基于化学领域知识的现有方法相比增加了 6 倍。
在具有已知基因组的 GNPS 存储库的一个子集上,molDiscovery 能够正确地将 19 个已知和三个假定的生物合成基因簇与其分子产物联系起来。
作者还指出,与以前的方法相比,molDiscovery 适用于更广泛的分子质量,对于非常小的分子(< 400 Da)表现不佳,并且对于重小分子(> 1000 Da)在计算上变得不足。
molDiscovery 系统可以处理质量高达 2000 Da 的分子,这是 Dereplicator+ 处理质量的两倍,Dereplicator+ 是 Mohimani 实验室开发的早期系统,用于根据化学结构搜索质谱。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!