医生根据症状或在体内的位置使用标准的疾病分类来帮助诊断。这些分类被称为疾病分类,可以帮助医生知道哪些疾病是密切相关的,所以它们可能是由相同的潜在问题或相同的治疗方法引起的。
了解疾病的一个重要部分是估计其遗传度,即个体疾病的遗传变异百分比是由遗传变异和环境因素(如接触污染、感染或创伤)引起的。传统上,为了计算特定疾病的遗传率,研究人员需要昂贵的数据集,其中应该包含各种医学和遗传数据以及家庭关系的详细知识。在一项新的研究中,芝加哥大学的数据科学家估计了遗传力,并利用电子健康记录中的数据绘制了数千种疾病之间的关系图。
该研究于2019年12月3日发表于《自然通讯》,计算了平均寿命内各种疾病患病率的统计曲线,表明这种趋势倾向于发生在生命早期或晚期。研究人员还创建了“疾病嵌入”或疾病分组,根据健康记录中的诊断代码和注释显示这些疾病之间的密切关系。利用疾病嵌入揭示的这些曲线和模式的相似性,研究人员可以估计疾病之间的遗传力和遗传相关性。
UChicago的数据科学家、该论文的资深作者Andrey Rzhetsky博士说:“过去对疾病之间的遗传力或遗传与环境之间的相关性的每一个新的估计都是一件大事。”“在这里,我们可以估计成千上万的遗传力值和成千上万的相关性,这在过去是非常昂贵和大规模的。”
早发和晚发
为了建立该团队的统计模型,本文的第一作者、博士后研究员耿耿介博士使用了Truven MarketScan的数据,这是一个11年间美国1.51亿人不明健康索赔的数据库。这些数据还包括丹麦国家患者登记中心(21年560万)和瑞典国家健康登记中心(44年940万)的数据。然后,他们创建了疾病流行率曲线,并绘制了各年龄段患病人口的百分比。
该曲线记录了整个预期寿命期间疾病患病率的统计显著变化。曲线的不同极端和形状表明,疾病在年轻时(早发)或老年时(晚发)更常见。研究人员还可以识别曲线上的下降或峰值,这可能是可能影响疾病的环境触发事件的信号,例如青春期、饮食变化、创伤或感染。
该团队还利用神经网络模型分析疾病何时出现在病历中,建立了“疾病嵌入”或疾病之间的关系。这种分析是仿照自然语言处理,通过分析周围的单词来定义单词的基本语义。在健康档案中,疾病就像一个词,其一生发展的历史记录就是一句话。例如,随着医生缩小诊断范围,“头痛”之后可能是“偏头痛”。因此,当你把它们画在二维地图上时,头痛似乎比胃痉挛更容易引起偏头痛。
Rzhetsky说:“系统正在通过优化每种疾病的20个参数,从真实的一系列患者数据中学习。”“在这种情况下,考虑到患者过去的健康史,网络试图预测接下来会发生什么。你可以像医生诊断时你脑子里想的那样去想。”
识别新模式
当他们研究数据时,出现了几种模式。在美国数据中,早发疾病的数量多于晚发疾病,但在人群中的发病率较低。这可能是因为常规的新生儿筛查和儿童监测往往会发现更多的疾病,或者是因为具有强烈遗传成分的疾病往往会更早发作,导致更多的死亡。
当两种疾病仅通过遗传学密切相关时,流行曲线的形状可能会有很大不同。如果仅通过环境因素联系起来,它们非常相似,但当环境和遗传相关性高时,曲线最相似。
研究人员还发现,一些看似密切相关的疾病(如精神疾病)根据平均发病年龄被分为不同的组。例如,注意力缺陷多动障碍和自闭症发作较早,而精神分裂症、双相情感障碍和抑郁症往往发作较晚。
贾说,如此大的健康数据集的初始操作验证了他们基于曲线形状相似性的疾病分类方法。在高水平上,结果与疾病组之间公认的分类和关联相匹配,但是发现了一些事故。比如发现寄生虫感染与神经纤维瘤病、耳膜疾病、成骨不全(脆性骨病)、先天性眼部异常等一系列非传染性疾病一致。
按年龄和性别划分的疾病流行曲线以前从未像这项研究那样进行过系统的比较(点击此处查看500多种疾病的性别和国家分级流行曲线的可搜索数据库)。现在,该团队希望改进这些工具,并使用它们来填补尚未充分研究的情况下的空白。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!