导读 ChatGTP 等人工智能 (AI) 系统已经风靡全球。从推荐下一部值得一看的电视节目到帮助疏通交通,他们几乎无所不在。但是,人工智能系统能...
ChatGTP 等人工智能 (AI) 系统已经风靡全球。从推荐下一部值得一看的电视节目到帮助疏通交通,他们几乎无所不在。但是,人工智能系统能否学习生命的语言并帮助生物学家揭示令人兴奋的科学突破?
在《自然通讯》杂志上发表的一项新研究中,由哈佛大学有机与进化生物学系 (OEB) 博士研究生 Yunha Hwang 领导的跨学科研究小组率先开发了一种能够破译复杂语言的人工智能 (AI) 系统基因组学。
基因组语言是生物学的源代码。它描述了基因组中编码的生物功能和调控语法。研究人员问我们是否可以开发一个人工智能引擎来“阅读”基因组语言并流利地使用该语言,理解基因的含义或功能和规则?该团队将微生物宏基因组数据集(现有的最大且最多样化的基因组数据集)输入机器以创建基因组语言模型(gLM)。
基因组数据的挑战
“在生物学中,我们有一本已知单词的字典,研究人员在这些已知单词的范围内进行工作。问题在于,这部分已知单词只占生物序列的不到百分之一,”黄说,“基因组数据的数量和多样性正在爆炸式增长,但人类无法处理如此大量的复杂数据。”
大型语言模型 (LLM),例如 GPT4,通过处理大量不同的文本数据来学习单词的含义,从而能够理解单词之间的关系。基因组语言模型 (gLM) 从高度多样化的宏基因组数据中学习,这些数据来源于栖息在海洋、土壤和人类肠道等各种环境中的微生物。借助这些数据,gLM 通过学习基因与其基因组背景之间的关系来了解每个基因的功能“语义”和调控“语法”。 gLM 与 LLM 一样,是一种自我监督模型——这意味着它仅从数据中学习有意义的基因表示,不需要人类分配的标签。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!