Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测

2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。

研究背景

在哺乳动物细胞中，许多信号转导是由球形蛋白结合域（PBD）与伴侣蛋白中非结构化肽基序之间的弱蛋白-蛋白相互作用介导的。这些PBD（已知1800多种）的数量和多样性，低结合亲和力和结合特性对微小序列变异的敏感性，对PBD特异性和PBD创建的网络的实验和计算分析提出了重大挑战。在这里，研究者介绍了一种定制的机器学习方法，即分层统计机器建模（HSM），能够准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力。通过在现代机器学习框架内合成生物物理实验，HSM优于现有的计算方法和高通量实验分析。HSM模型可以在三个空间尺度上以熟悉的生物物理术语来解释：蛋白质-肽结合的能量学、蛋白质-蛋白质相互作用的多齿组织和信号网络的整体架构。

模型设计和方法

研究者为六个常见的PBD家族构建了HSM模型，这些家族涉及磷酸酪氨酸，多脯氨酸和C端肽位点(PDZ, SH2, SH3, WW, WH1, PTB; n = 823个域)，以及酪氨酸激酶和蛋白质酪氨酸磷酸酶(TK，PTP; n = 143个域；如图1a所示)。在人类蛋白质组中，估计含有PBD的蛋白质总数约为104个蛋白质（图1b），它们参与了〜105-106个相互作用（图1c）。本文研究的8个域占人类PBDs总数的39%左右。原则上，相同的建模框架适用于所有剩余的人类PBD，但是数据稀缺（每个家庭报告的互动少于100个）使评估模型性能变得困难。在开始机器学习之前，研究者执行组合的序列/结构比对，使给定的PBD家族和肽类的所有残基位置对应，从而形成一个统一的残基坐标系统。然后，HSM学习一个伪哈密顿量，该伪哈密顿量将各个残基和残基对映射成结合能，并遵循两个约束条件：（1）在PBD族中，相同位置的残基或残基对始终贡献相同的能量，并且（2）在PBD族中，残基对能量来自固定的势能池。针对第一个限制，研究者提出适用于一个PBD家族中的所有域的模型描述为独立域的HSM (HSM/ID)（图1d）。针对第二个限制，通过迫使HSM模型学习一组残基-残基电位的形式来正式化不同类型的蛋白质之间的相互作用是由相对有限的一组相互作用表面介导的这一观察结果（图1d）。

图1. PBD和建模框架

训练和验证

为了训练HSM模型，研究者组装了一个约2×106PBD-肽相互作用的数据集，该数据集主要来自基于阵列的分析；将数据二值化以允许将来自不同实验方法的值进行合并，从而产生3–5％的正相互作用。采用AUC和Recall作为评价指标，和对比方法的比较结果如下图所示

图2. 模型性能和新预测的PPIs。

信号网络的视角。

许多蛋白质包含具有和不具有共生肽位点的多个不同类别的PBD。为了研究涉及这种结合类型的网络，研究者生成了一个高蛋白人类PPI预测（HSM/P，P> 0.7）的蛋白质组范围的节点边图，其中节点对应于蛋白质，相互作用对应边（图6）。

图3. 人类PBD介导的PPI网络的层次组织。

讨论

因为已学习的伪哈密顿量是HSM的基础，所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此，HSM能够通过促进对PBD和/或肽功能的理解和预测，在三个空间尺度上提供结构上的洞察力：残基/共复合体水平；蛋白质水平，通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级，通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。

通过将学习的能量与从晶体结构推断出的见解进行比较，可以最容易地说明HSM捕获的生物物理细节，如本文通过分析SH3域（研究者建模的八类PBD /酶之一）所说明的那样。研究者发现，HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力，同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。

————————————————

原文链接：

https://blog.csdn.net/u012325865/article/details/105683758

Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测

继续阅读

如果你想要学习深度学习，但是不知道从何入手，那么《每天五分钟深度学习》专栏一定是你不容错过的学习资源。这个专栏包含了神经

tensorflow学习——keras高级API——序列模型Sequential

SVD原理和案例(奇异值分解)

连续两年入围全球Gartner ABI魔力象限，Quick BI在商业智能领域究竟有何魔力？1、交互式的分析和可视化2、构建数据故事3、钉钉集成4、增强分析Quick BI

技术解密｜阿里云多媒体 AI 团队是凭借什么拿下 CVPR2021 5冠1亚的？顶级挑战赛战绩显赫四大挑战的关键技术探索基于视频理解技术打造多媒体 AI 云产品

算法专家解读 | 开放搜索教育搜题能力和实践

Keras使用分批迭代（fit_generate）的方式训练数据

图像分割UNet系列------UNet3+（UNet3plus）详解

图像分割UNet系列------UNet详解

特征：什么是特征和特征选择？

Pytorch(二) Tensor Tensor的创建Tensor是什么Tensor的创建

2023了，学习深度学习框架哪个比较好？

VGGNet------超经典神经网络结构与PyTorch实现

tensorflow学习——（imdb数据集）文本分类first_2.py

Matlab深度学习-手写体数字识别Matlab深度学习前言一、MNIST手写体数字数据二、用到的深度学习框架-LeNet5三、代码最后

K-近邻算法以及图像分类应用