冠状病毒大流行风险的深入学习

动物源性冠状病毒流行风险预测对传染病的预防和控制具有重要意义。发表在《贫穷的传染病》上的一项新研究提出了一种预测人类感染动物源性冠状病毒表型的深入学习方法。在直接输入病毒基因组数据后,大流行风险将以高置信度实现。https://idpjournal.biomedcentral.com/articles/10.1186/s40249-021-00912-6

冠状病毒在自然界广泛分布,属于冠状病毒科。它们是带有包膜颗粒的RNA病毒,其基因组为单链正链。国际病毒分类委员会(ICTV)将冠状病毒分为α、β、γ和δ属。报道了7种具有人类感染表型的冠状病毒:人冠状病毒(HCoV)229E、OC43、NL63和HKU1;严重急性呼吸综合征冠状病毒(SARS-CoV和SARS-CoV-2);中东呼吸综合征冠状病毒(MERS-CoV)。SARS-CoV、MERS-CoV和SARS-CoV-2具有高度传染性,在本世纪已引起流行病或严重流行病。

随着动物源冠状病毒与病毒抗原的新颖性的跨物种传播,大流行的爆发将造成严重的经济和社会损失。冠状病毒的自然宿主是自然界中的蝙蝠,这些病毒性病原体通过中间宿主(果子狸和单峰骆驼)传播给人类。不幸的是,虽然高度怀疑穿山甲,但SARS-Cov-2的中间宿主尚不清楚。冠状病毒可通过点突变和基因组重组机制跨越物种屏障感染人类。随着测序技术的快速发展和疾病监测的巨大努力,将大规模获取动物冠状病毒基因组数据。提出动物源性冠状病毒大流行风险预测模型,有利于传染病防控的早期预警。

深度学习近年来发展迅速,引发了语音识别、图像理解、自然语言处理等应用领域的变化。递归神经网络(RNN)是一种用于处理序列数据的神经网络,具有捕捉时间序列固有特征的能力。由于基因组也是由四个字母单元组成的长链,rnn可以提取生物序列的特征,并可以预测冠状病毒感染的表型。虽然深度学习方法在生物学和医学上有很多应用,但需要对冠状病毒基因组数据进行预处理,以使数学网络的设计更加合理。病毒颗粒表面的刺突蛋白是冠状病毒最重要的表面膜蛋白,负责与宿主细胞膜受体的结合和膜融合。它在跨物种感染中起着非常重要的作用。其他病毒蛋白对新宿主内部环境的适应也影响病毒的复制。在对病毒感染建模时需要考虑这些事实,应该使用人工基因组数据来增加刺突蛋白的权重,并建立一个稳健的模型。

深度学习法的结构流程图。设计了五个主要步骤:基因组分割、序列嵌入、一维卷积、递归神经网络和注意机制。来自Kou Z等人,感染了贫困。2021
深度学习方法的结构流程图

我们构建了一个预测模型,命名为CCSI-DL。该模型结合了双向GRU和一维卷积,并使用冠状病毒的基因组序列作为直接输入,预测人类感染的大流行风险。我们使用单组和多组冠状病毒基因组数据对CSSI-DL模型进行了训练和测试,获得了良好的性能(1个用于AUROC, 1个用于AUPR)。再训练实验表明,该模型具有良好的迁移学习能力,能够正确预测刺突蛋白编码区基因组重组的人工负数据。此外,我们还尝试使用该工具预测来自巴西、英国、南非和印度的SARS-Cov-2突变体的基因组数据,并达到了100%的预测准确率。

冠状病毒的基因组序列长度约为27-32kb。我们将病毒基因组的长序列分割成十段,以提高预测模型的性能。与传统的机器学习方法相比,深度学习模型掌握了冠状病毒全基因组的特征,并能稳健地预测跨物种病毒感染的风险。尽管端到端模型易于提取特征,且建模灵活,但预测结果的可解释性有待进一步考虑,这将有助于加深对跨物种冠状病毒感染机制的理解。

查看on Health主页上的最新帖子

评论