几十年来,Y 染色体(人类两条性染色体之一)由于其结构的复杂性,一直给基因组学界的测序带来巨大挑战。现在,基因组中这一难以捉摸的区域已被完全测序,这一壮举最终完成了一套端到端的人类染色体,并为人类基因组参考添加了 3000 万个新碱基,其中大部分来自测序困难的卫星 DNA。这些碱基揭示了 41 个额外的蛋白质编码基因,并为研究与繁殖、进化和种群变化相关的重要问题的人们提供了重要的见解。
由加州大学圣克鲁斯分校生物分子工程助理教授 Karen Miga 共同领导的端粒到端粒 (T2T) 联盟的研究人员在《自然》杂志上发表的一篇新论文中宣布了这一成果。完整的、带注释的 Y 染色体参考可在 UCSC 基因组浏览器上使用,并可通过 Github 访问。
“就在几年前,人类 Y 染色体的一半(参考文献中)缺失了,即具有挑战性、复杂的卫星区域,”该论文的共同主要作者、加州大学圣克鲁斯分校生物分子工程博士后学者莫妮卡·切乔娃 (Monika Cechova) 说。“当时我们甚至不知道它是否可以测序,这太令人困惑了。这确实是一个巨大的转变。”
完成Y
当科学家和临床医生研究个体的基因组时,他们会将个体的 DNA 与标准参考的 DNA 进行比较,以确定哪里存在变异。到目前为止,人类基因组的 Y 染色体部分存在很大的缺口,这使得理解变异和相关疾病变得困难。
Y染色体的结构一直难以解码,因为一些DNA是以回文形式组织的——前后相同的长序列——跨越超过一百万个碱基对。此外,之前版本的 Y 参考中缺失的 Y 染色体的很大一部分是卫星 DNA,即大型、高度重复的非蛋白质编码 DNA 区域。在 Y 染色体上,两个卫星相互连接,使测序过程进一步复杂化。
由于长读长测序技术和新的创新计算组装方法的进步,研究人员能够实现 Y 染色体的无缝读取,这些方法可以处理重复序列并将测序的原始数据转化为可用资源。这些新方法组合使团队能够解决 Y 染色体的一些特别具有挑战性的方面,例如精确定位回文序列中发生倒位的位置——一种可用于查找其他倒位的技术。论文中建立的方法将使科学家能够完成更多人类 Y 染色体的端到端读取,以更好地了解这种遗传物质如何影响不同的人类群体。
“Y 染色体缺乏先前参考基因组中最多的序列,”国家人类基因组研究所的科学家、该论文的主要作者 Arang Rhie 说。“每当我们尝试进行任何基于参考的分析时,知道我们错过了 Y 的一半总是令人恼火。我真的很高兴能够策划第一个完整的 Y,看看我们实际上缺少什么,以及我们现在可以做什么。”
2018年,Miga和她的同事发布了第一个人类Y染色体着丝粒的完整图谱。第一个间隙闭合被认为是获得超长数据的功劳,该数据建立在纳米孔测序技术的基础上,该技术起源于加州大学圣迭戈分校。当时很明显,新兴技术和高覆盖率长读长数据集有潜力端到端地完成整个染色体,这导致了由 Phillippy 和 Miga 共同领导的 T2T 联盟的成立。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!