尽管每个人类细胞都包含大量基因,但这些所谓的“编码”DNA序列仅占我们整个基因组的 1%。剩下的 99% 由“非编码”DNA 组成——与编码 DNA 不同,它不携带构建蛋白质的指令。
这种非编码 DNA(也称为“调节性”DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的制造量(如果有的话)。随着时间的推移,随着细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。许多这些突变是微不足道的,有些甚至是有益的。但有时,它们可能与常见疾病(如 2 型糖尿病)或更危及生命的疾病(包括癌症)的风险增加有关。
为了更好地了解这些突变的影响,研究人员一直在努力研究数学图谱,使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。这些被称为适应度景观的地图大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是:繁殖成功率。早期的适应环境非常简单,通常只关注有限数量的突变。现在可以获得更丰富的数据集,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解个体基因如何随着时间的推移而进化,
在3 月 9 日发表在《自然》杂志上的一项新研究中,一组科学家开发了一个框架,用于研究调控 DNA 的适应性景观。他们创建了一个神经网络模型,当对数亿次实验测量进行训练时,该模型能够预测酵母中这些非编码序列的变化如何影响基因表达。他们还设计了一种以二维方式表示景观的独特方式,使其易于理解过去并预测酵母以外的生物中非编码序列的未来演变——甚至为基因治疗和工业应用设计定制的基因表达模式。
“我们现在有一个‘神谕’,可以询问:如果我们尝试了这个序列的所有可能突变怎么办?或者,我们应该设计什么样的新序列来给我们想要的表达?” 麻省理工学院生物学教授(休假)、哈佛大学布罗德研究所和麻省理工学院的核心成员(休假)、基因泰克研究和早期发展负责人、该研究的资深作者Aviv Regev说。“科学家们现在可以使用该模型解决他们自己的进化问题或场景,以及其他问题,例如制作以所需方式控制基因表达的序列。我也对对可解释性感兴趣的机器学习研究人员的可能性感到兴奋。他们可以反过来问他们的问题,以更好地了解潜在的生物学。”
标签:
免责声明:本文由用户上传,如有侵权请联系删除!