2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophysical prediction of protein–peptide interactions and signaling networks using machine learning的研究成果。该研究利用机器学习方法能够准确地预测多蛋白家族间的球形蛋白结合域(PBD)-肽相互作用的亲和性。
1
研究背景
在哺乳动物细胞中,许多信号转导是由球形蛋白结合域(PBD)与伴侣蛋白中非结构化肽基序之间的弱蛋白-蛋白相互作用介导的。这些PBD(已知1800多种)的数量和多样性,低结合亲和力和结合特性对微小序列变异的敏感性,对PBD特异性和PBD创建的网络的实验和计算分析提出了重大挑战。在这里,研究者介绍了一种定制的机器学习方法,即分层统计机器建模(HSM),能够准确预测跨多个蛋白质家族的PBD-肽相互作用的亲和力。通过在现代机器学习框架内合成生物物理实验,HSM优于现有的计算方法和高通量实验分析。HSM模型可以在三个空间尺度上以熟悉的生物物理术语来解释:蛋白质-肽结合的能量学、蛋白质-蛋白质相互作用的多齿组织和信号网络的整体架构。
2
模型设计和方法
研究者为六个常见的PBD家族构建了HSM模型,这些家族涉及磷酸酪氨酸,多脯氨酸和C端肽位点(PDZ, SH2, SH3, WW, WH1, PTB; n = 823个域),以及酪氨酸激酶和蛋白质酪氨酸磷酸酶(TK,PTP; n = 143个域;如图1a所示)。在人类蛋白质组中,估计含有PBD的蛋白质总数约为104个蛋白质(图1b),它们参与了〜105-106个相互作用(图1c)。本文研究的8个域占人类PBDs总数的39%左右。原则上,相同的建模框架适用于所有剩余的人类PBD,但是数据稀缺(每个家庭报告的互动少于100个)使评估模型性能变得困难。在开始机器学习之前,研究者执行组合的序列/结构比对,使给定的PBD家族和肽类的所有残基位置对应,从而形成一个统一的残基坐标系统。然后,HSM学习一个伪哈密顿量,该伪哈密顿量将各个残基和残基对映射成结合能,并遵循两个约束条件:(1)在PBD族中,相同位置的残基或残基对始终贡献相同的能量,并且(2)在PBD族中,残基对能量来自固定的势能池。针对第一个限制,研究者提出适用于一个PBD家族中的所有域的模型描述为独立域的HSM (HSM/ID)(图1d)。针对第二个限制,通过迫使HSM模型学习一组残基-残基电位的形式来正式化不同类型的蛋白质之间的相互作用是由相对有限的一组相互作用表面介导的这一观察结果(图1d)。
图1. PBD和建模框架
3
训练和验证
为了训练HSM模型,研究者组装了一个约2×106PBD-肽相互作用的数据集,该数据集主要来自基于阵列的分析;将数据二值化以允许将来自不同实验方法的值进行合并,从而产生3–5%的正相互作用。采用AUC和Recall作为评价指标,和对比方法的比较结果如下图所示
图2. 模型性能和新预测的PPIs。
4
信号网络的视角。
许多蛋白质包含具有和不具有共生肽位点的多个不同类别的PBD。为了研究涉及这种结合类型的网络,研究者生成了一个高蛋白人类PPI预测(HSM/P,P> 0.7)的蛋白质组范围的节点边图,其中节点对应于蛋白质,相互作用对应边(图6)。
图3. 人类PBD介导的PPI网络的层次组织。
5
讨论
因为已学习的伪哈密顿量是HSM的基础,所以可以用熟悉的特定位置的结合能来解释已学习的相互作用。因此,HSM能够通过促进对PBD和/或肽功能的理解和预测,在三个空间尺度上提供结构上的洞察力:残基/共复合体水平;蛋白质水平,通过量化在多齿状相互作用中单个PBDs和配体的相对贡献和网络级,通过支持大规模建模信息传输从细胞表面到细胞结构和功能的决定因素。
通过将学习的能量与从晶体结构推断出的见解进行比较,可以最容易地说明HSM捕获的生物物理细节,如本文通过分析SH3域(研究者建模的八类PBD /酶之一)所说明的那样。研究者发现,HSM提供了对与从晶体结构获得的接触区域极为相似的接触区域的洞察力,同时还提供了仅从所有已知SH3结构的全面图获得的更广泛的合成。
————————————————
版权声明:本文为CSDN博主「DrugAI」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:
https://blog.csdn.net/u012325865/article/details/105683758