代码收藏家技术教程 2022-07-27

【实用教程】使用AlphaFold2进行蛋白质结构在线预测

文章目录

AlphaFold2

查询AlphaFold2已经预测好的结构

AlphaFold2源代码

使用AlphaFold2在线预测

AlphaFold2参数修改

预测结果

预测蛋白-蛋白互作模型

AlphaFold2

Deepmind团队发布的Alphafold2是迄今为止准确度最高的蛋白质三维结构预测模型，直接颠覆了整个生物学领域。关于Alphafodl2的相关研究已经发表在nature上，其中最主要的是一篇关于Alphafold2模型的介绍：
Highly accurate protein structure prediction with AlphaFold
和一篇使用Alphafold预测人类蛋白组的文章：
Highly accurate protein structure prediction for the human proteome

查询AlphaFold2已经预测好的结构

如上所述，Deepmind团队已经使用Alphafold2预测过了人类蛋白组结构。其实除了人类蛋白组外，诸如常见的模式生物如小鼠、斑马鱼、植物中的水稻、拟南芥、微生物如大肠杆菌等的蛋白组都已经被预测过了，如果我们需要预测的蛋白结构已经被预测过了，那我们就不必做重复劳动。

用户可以通过Alphafold托管在EMBL的服务器进行查询：
AlphaFold Protein Structure Database

或者通过Uniprot查询：

通过搜索找到你想要的蛋白，然后进入详情页，跳转到Structure栏即可看到：

需要注意的是，仅部分常见物种的部分蛋白结构可以通过查询得到，更多的结构则需要自己预测

AlphaFold2源代码

Deepmind团队已经讲AlphaFold2代码公布至Github，有条件的同学可以自行下载源码并安装至服务器上进行运行
https://github.com/deepmind/alphafold

使用AlphaFold2在线预测

对于大多数做生物的同学，其实并不关心AlphaFold2的原理，也没有使用服务器的条件，只想简单方便地预测一个蛋白质的结构。那谷歌的Colaboratory也提供了在线使用版本：
直接使用谷歌搜索AlphaFlod Colab，选择第一个搜索结果即可，或使用下面的链接跳转：
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
进入Colab界面后，只需要输入自己想预测的序列和项目名称，即可：

运行方法也很简单，选择代码执行程序->全部运行即可

然后选择仍然运行

AlphaFold2参数修改

除了使用默认设定参数外，还可以根据实际需求修改部分参数，如：
Advanced settings中的number_recycles，这个参数可以理解为是每个模型的循环次数，默认是3，循环次数越多相对应的准确度也会高一点，但运行时间也会越长

每次运行所产生的模型数也可以修改：

在Run Prediction中，点击显示代码即可展开代码片：

其中我们要修改的是num_moldels，直接改数字即可修改每次运行时产生的模型数。如果模型数大于5的话，最好把下面的model_order也跟着修改了，就把数字补齐到你的模型数即可。

预测结果

模型的得分高低可以在pLDDT图中看到：

置信度较高的区间则会描为蓝色，橙色和黄色则是置信度居中，红色是置信度较低。一般而言置信度较低的区域都是蛋白质本身的内在无序区（intrinsically disordered region,IDR)。这种区域一般是比较柔性的，严格来说他们本来就没有一个稳定的构象，因此预测不出来也是正常的，至于使用冷冻电镜或X射线得到的则是在某一状态下相对较稳定的构象。