这种被研究团队称为“转化机器学习”(TML)的新方法在解决科学问题(包括药物设计)的三个领域比传统机器学习做出了更好的预测。
“在药物设计中,我们发现 TML 提供了对药物靶标特异性、药物之间的关系以及靶蛋白之间关系的洞察,”作者写道,由约翰摩尔斯大学计算机科学与数学学院的 Ivan Olier 领导。英国
传统机器学习与 TML
传统的监督 ML 算法在标记示例(例如,不同动物的标记照片)上进行训练,从中学习识别内在特征(例如,“毛茸茸”和“小”)。相反,TML 依赖于来自在其他相关任务上训练的 ML 模型的预测的外在特征。
例如,要训练一个 TML 模型来识别所有已知的动物物种,并且预计会添加新的动物物种,首先要对已知物种(例如猫、兔子和驴)应用现有的预测模型。这些模型的输出将生成新的外在特征,例如“猫性”、“兔子性”和“驴性”,然后将用于训练元级 ML 模型以使用此级别的表示进行预测。该方法使 TML 模型能够捕获最初未编码的动物的属性,例如可爱(猫和兔子共有)和头部侧面有眼睛(兔子和驴共有)。
“典型的 ML 系统在学习识别一种新型动物时必须从头开始——比如小猫——TML 可以利用与现有动物的相似性:小猫像兔子一样可爱,但没有像兔子那样长的耳朵兔子和驴,”领导这项研究的剑桥化学工程和生物技术系教授罗斯金在一份声明中说。“这使得 TML 成为一种更强大的机器学习方法。”
药物发现的承诺
研究人员表示,TML 在药物发现领域显示出特别的前景。典型的 ML 方法将根据分子形状和结构等内在特征来搜索药物分子,而 TML 通过检查其他 ML 模型传达的有关特定分子的信息来加快该过程。
该论文包括一个使用 TML 预测定量结构活性关系 (QSAR) 的案例研究,这是早期药物发现的一个常见步骤。给定一个目标(通常是一个蛋白质)和一组具有相关活动(例如,抑制目标蛋白质)的化合物(小分子),QSAR 任务是学习从分子表示到活动的预测映射。在 TML 方法中,基于内在描述符的标准 ML 方法首先应用于现有的 QSAR 预测任务,然后将其输出用作可应用于新 QSAR 任务的新 TML 模型的外在特征。
为了评估 QSAR 学习中的 TML 方法,研究人员使用 1,024 位分子指纹表示作为内在特征,针对 2,219 个 QSAR 问题训练了各种 ML 方法。然后,他们使用之前学习的 ML 模型预测的复合活动作为 TML QSAR 模型的外在属性。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!