利用机器学习预测晚期冠状动脉钙化

个性化医学的一个目标是使用数据科学工具来指导医学决策。在这里,Cihan Oguz和同事描述了作为该一部分发布的文章系统医学专题系列BMC系统生物学他们如何使用机器学习工具来开发冠状动脉疾病的预测模型。

在一般人群中的个体中,发展冠状动脉疾病(CAD)的风险很大。LDL胆固醇和收缩血压等临床变量并不总是讲述全部对个人发展CAD的风险的整体故事。

过去的研究表明,患者的冠状动脉钙(CAC)的水平是CAD的强烈预测因子,以及致命的心脏事件,如心脏病发作。鉴定高CAC水平预测的标记对于鉴定患有更大风险和预防心脏病的加速进展的患者具有非常有帮助,特别是在早期。

单核苷酸多态性(SNPs)代表了遗传变异的一个特别丰富的来源(人类基因组中约有1000万个SNPs),使其成为建立遗传变异与复杂疾病之间联系的理想方法。

人们如何识别这些能够预测晚期CAC高风险个体的标志物呢?随着基因组学的最新进展,一种可能的途径是利用来自患者库的基因组信息,其中包括代表一般人群表型分布的两个极端的两个亚组(即无疾病vs.晚期疾病)。

单核苷酸多态性(SNPs)代表了遗传变异的一个特别丰富的来源(人类基因组中约有1000万个SNPs),使其成为建立遗传变异与复杂疾病之间联系的理想方法。建立复杂疾病预测模型的一个主要挑战是它们的多因素性质,涉及几个基因之间的相互作用。

最近,人们对机器学习工具在疾病预测方面的应用越来越感兴趣。这些方法增强了整合多个数据源(如临床、基因型和转录组)的能力,同时利用疾病预测因子之间潜在的线性和非线性相互作用。

为此,我们将临床数据和SNP基因型数据集成为机器学习模型,以识别预测高级CAC水平的SNP。我们在发现队列中发现了56个高度预测的SNP,然后在独立的复制队列中测试。

来自ClinSeq®和Framingham心脏研究的这两个队列由中年白人男性组成,因为与美国其他人群相比,他们患晚期CAC的风险更高。CAC分布的两个极端在两个队列中均有代表(即,无CAC vs.极高水平的CAC)。

机器学习工具占用预测性疾病模型和网络的承诺。

从发现队列中识别的56个snp中,有21个通过两种基于机器学习的建模方法,即随机森林和神经网络,在两个队列中产生了最佳的预测性能。当我们用中度CAC水平的患者测试这些snp时,预测性能显著下降。因此,高性能是高级CAC特有的。

最后,我们利用GeneMANIA数据库创建了一个由基因组成的功能相互作用网络,其中21个snp的最佳子集被定位,以及先前报道的与这些基因相互作用的其他基因。活性氧(CAC和血管衰老的主要驱动因素)产生和抑制的几个基因在这个网络中存在。

总之,我们的结果表明,机器学习工具在推导预测性疾病模型和网络方面有希望。通过帮助医生设计最佳治疗策略和利用基因组数据识别潜在药物靶点,这些工具可能在个性化医疗中发挥越来越重要的作用。

免责声明:本文所表达的观点仅代表作者个人观点,并不代表美国国家心肺血液研究所的观点;国家人类基因组研究所;国家卫生研究院;或美国卫生与公众服务部

在BMC系列博客首页查看最新的文章bob娱乐真人

注释