蛋白质功能预测
我们对人类蛋白质的众多功能的完全理解仍然很远,对于大多数其他生物来说,更是如此。为了帮助解决这种情况,CAFA设立主动性是为了允许不同的科学家团队竞争,以预测各种生物的蛋白质功能。
为此,近年来已经开发了许多不同的方法。他们使用各种技术和基础数据来做出预测,以至于CAFA必须根据不同的标准进行不同的排名。
例如,对于少数蛋白质,有些方法可以很好地预测功能,而另一些方法可以对其中的许多蛋白质做出不错的预测。同样,有些人最好对一些以前的功能知识可用的蛋白质做出其他预测,而另一些则可以对蛋白质进行表现,而没有以前的功能注释。
我们的方法:domfun
我们开发了一种基于蛋白质功能的基础域结构的预测方法,DOMFUN。我们的方法不是整体上考虑蛋白质,而是通过将其解剖为其组成域并分别对每个域进行函数预测来起作用。然后重组这些域功能预测以做出蛋白质水平的预测(图1)。
根据信息,蛋白质根据来自CATH-Gene3D- 这种综合资源围绕提供蛋白质的域注释,通过将蛋白质结构分为域,并将这些领域分类为进化和功能相关的家庭,从而为蛋白质提供域注释。这使我们能够生成构建图1所示的三方网络所需的蛋白质域对列表。域功能信息是从CAFA本身获得的,CAFA本身取决于基因本体论。
For the domain level predictions, we used software developed by our group,NETANALYZER一个Ruby gem,可以用来分析多部分ite networks to calculate associations between layers. This produced lists of domain-function associations. These were recombined to make scores for the individual proteins, based on data fusion methods.
我们使用CAFA评分系统将分数与其他CAFA方法进行了比较。当对先前知识可用的蛋白质子集进行预测时,我们表现良好,并且表现出色的CAFA方法。
我们还开发了一种新的程序,可以针对CAFA使用的其他功能通知数据集测试我们的方法的性能,我们创造了“途径预测性能”。这使我们不仅可以针对基因本体论,还可以测试方法的性能,还可以测试途径数据库,KEGG和Reactome。
未来
尽管我们的方法论目前专门使用CATH域注释,但可以扩展以包括其他域注释资源,例如PfamandSCOP。It can also be extended to other annotation sources – as long as the tripartite network shown in Figure 1 can be built with it, it can be used. Future work is needed to investigate the performance of the methodology using other such annotation.
Comments