癌细胞与健康细胞有何不同?一种名为“ikarus”的新机器学习算法知道答案,由 MDC 生物信息学家 Altuna Akalin 领导的团队在《基因组生物学》杂志上报道。人工智能程序发现了肿瘤的基因特征。
在识别海量数据中的模式时,人类无法与人工智能 (AI) 匹敌。特别是,称为机器学习的 AI 分支通常用于查找数据集中的规律性——无论是用于股票市场分析、图像和语音识别,还是用于细胞分类。为了可靠地区分癌细胞和健康细胞,由亥姆霍兹协会 (MDC) Max Delbrück 分子医学中心生物信息学和组学数据科学平台负责人 Altuna Akalin 博士领导的团队现已开发出机器学习程序称为“伊卡鲁斯”。
该程序在肿瘤细胞中发现了一种模式,这种模式对不同类型的癌症很常见,由基因的特征组合组成。根据该团队在《基因组生物学》杂志上的论文,该算法还检测到这种模式中以前从未与癌症明确相关的基因类型。
机器学习本质上意味着算法使用训练数据来学习如何自己回答某些问题。它通过在数据中搜索有助于解决问题的模式来做到这一点。在训练阶段之后,系统可以从它所学的知识中进行概括,以评估未知数据。“在专家已经清楚地区分‘健康’和‘癌细胞’细胞的情况下,获得合适的训练数据是一项重大挑战,”该论文的第一作者 Jan Dohmen 说道。
惊人的成功率
此外,单细胞测序数据集通常很嘈杂。这意味着它们包含的有关单个细胞的分子特征的信息不是很精确——可能是因为在每个细胞中检测到的基因数量不同,或者因为样品的处理方式并不总是相同。正如 Dohmen 和他的同事、该研究的联合负责人 Vedran Franke 博士所报告的那样,他们筛选了无数出版物并联系了相当多的研究小组,以获得足够的数据集。该团队最终使用来自肺癌和结直肠癌细胞的数据来训练算法,然后将其应用于其他类型肿瘤的数据集。
在训练阶段,ikarus 必须找到一个特征基因列表,然后将其用于对细胞进行分类。“我们尝试并改进了各种方法,”Dohmen 说。正如三位科学家所说,这是一项耗时的工作。“关键是ikarus最终使用两个列表:一个用于癌症基因,另一个用于来自其他细胞的基因,”弗兰克解释道。在学习阶段之后,该算法也能够可靠地区分其他类型癌症(例如组织样本)中的健康细胞和肿瘤细胞来自肝癌或神经母细胞瘤患者。它的成功率往往非常高,这甚至让研究小组感到惊讶。“我们没想到会有一个共同的特征可以如此精确地定义不同类型癌症的肿瘤细胞,”Akalin 说。“但我们仍然不能说这种方法是否适用于所有类型的癌症,”Dohmen 补充道。为了将 ikarus 变成一种可靠的癌症诊断工具,研究人员现在想要在其他类型的肿瘤上进行测试。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!