A protein complex recognition method based on spatial-temporal graph convolution neural network

Jiangming SHENG; Juan XUE; Peng LI; Na YI

doi:10.12122/j.issn.1673-4254.2022.07.17

. 2022 Jul 20;42(7):1075–1081. [Article in Chinese] doi: 10.12122/j.issn.1673-4254.2022.07.17

Show available content in

A protein complex recognition method based on spatial-temporal graph convolution neural network

Jiangming SHENG ^1,², Juan XUE ³, Peng LI ^4,^*, Na YI ^4,^*

PMCID: PMC9308878 PMID: 35869773

Abstract

Objective

To propose a new method for mining complexes in dynamic protein network using spatiotemporal convolution neural network.

Methods

The edge strength, node strength and edge existence probability are defined for modeling of the dynamic protein network. Based on the time series information and structure information on the graph, two convolution operators were designed using Hilbert-Huang transform, attention mechanism and residual connection technology to represent and learn the characteristics of the proteins in the network, and the dynamic protein network characteristic map was constructed. Finally, spectral clustering was used to identify the protein complexes.

Results

The simulation results on several public biological datasets showed that the F value of the proposed algorithm exceeded 90% on DIP dataset and MIPS dataset. Compared with 4 other recognition algorithms (DPCMNE, GE-CFI, VGAE and NOCD), the proposed algorithm improved the recognition efficiency by 34.5%, 28.7%, 25.4% and 17.6%, respectively.

Conclusion

The application of deep learning technology can improve the efficiency in analysis of dynamic protein networks.

Keywords: dynamic protein network, protein complex, graph convolution neural network, convolution operator, spectral clustering

一个生物体内所有蛋白质的相互作用被称为蛋白质相互作用网络（PPIN），简称蛋白质网络^{[1, 2]}。其中，在相同时间和空间内由若干个蛋白质通过相互作用共同组成的一种多分子结构称为蛋白质复合物（PC）^[3]，简称复合物。在蛋白质网络中精准地识别复合物是计算生物学中的一个重要问题^[4-6]，然而由于蛋白质之间的相互作用具有动态性，蛋白质网络的拓扑结构会随着时间、生物环境、蛋白质的存在和降解等因素的变化而变化，这极大地增加了复合物识别的难度。此外，蛋白质相互作用数据中不可避免存在的假阳性和假阴性也给复合物识别算法设计带来了额外的挑战^{[7, 8]}。李敏等^[9]通过整合时间进程基因表达数据和亚细胞位置信息构建了时空活性蛋白质相互作用网络（ST-APIN），采用聚类算法MCL在ST-APIN上进行复合物识别，提升了识别的敏感性和特异性，找到了更多具有生物学意义的复合物。有研究引入网络嵌入技术来捕获动态蛋白质网络的结构特性，提出了一种半监督网络嵌入模型（SSNEM）来检测网络中存在的稠密连接子图，即蛋白质复合物^[10]。另有研究则提出了一系列基于深度学习技术的方法来识别蛋白质复合物^[11-14]，雷秀娟等^[15]提出了基于拓扑势加权的蛋白质复合物挖掘方法。然而现有的方法仍然缺乏对于动态蛋白质网络中信息表征的能力，复合物的检测精度还存在不足。为此，文中充分考虑动态蛋白质网络的时间动态信息和空间动态信息，将复合物识别建模为动态图中的节点分类问题，提出了一种基于时空图卷积的复合物识别算法，并在多个公开的生物数据集上进行了全面的仿真实验。

1. 材料和方法

1.1. 动态蛋白质网络建模

为了精确地识别出真正有生物意义的复合物，对动态蛋白质进行建模。下面先给出网络构建中用到的一些相关术语：

定义1动态蛋白质网络（DPN）它是一个时间上具有相关性的多个静态蛋白质网络的序列，可表示为：G =(G₁, G₂, ..., G_T)。其中G_t =(V_t, E_t, A_t) 表示第t个时刻的蛋白质网络DPN_(t)的快照t ∈{1, 2, ..., T}。

在定义1中，V_t表示DPN_(t)中的蛋白质集合；E_t表示DPN_(t)中存在的蛋白质相互作用关系集合；A_t表示DPN_(t)的邻接矩阵。如果两个蛋白质(v_t)_p和(v_t)_q之间存在相互作用，则(A_t)_pq = 1，否则(A_t)_pq = 0。

定义2公共邻居数(Npn_t^ij) 指在t时刻的DPN_(t) 中同时与蛋白质i、蛋白质j直接相连的蛋白质个数，可表示为：

其中，Ne(i) 和Ne(j) 分别指蛋白质i和j的邻居集合。

定义3边强度(S_e_ij) 指在t时刻的DPN_(t)中蛋白质i和蛋白质j之间相互作用关系强弱的度量，可表示为：

其中，d(∙) 是蛋白质节点的度；n_t是DPN_(t)中的蛋白质总数。

定义4节点强度S_tⁱ指在t时刻的DPN(t) 中蛋白质i的基因表达丰度和度平均值的加权和，可表示为：

其中，GEA_tⁱ是t时刻蛋白质i的基因表达丰度^[16]，它随时间变化而变化；α和β是调节因子。

定义5边存在概率(Eep_t^ij) 指相对于当前t - 1时刻而言，t时刻下任意两个蛋白质i和蛋白质j之间是否存在连接关系的度量，可表示为：

其中，Δ_Npn_ij = Npn_t^ij - Npn_t-1^ij，指当前时刻和前一时刻的蛋白质i和蛋白质j直接相连的公共邻居数变化值。本文认为，蛋白质网络拓扑结构的变化原因可归结为：蛋白质的合成和蛋白质的降解；蛋白质之间相互作用关系的改变。为此提出如下的构建算法来拟合动态蛋白质网络的发展变化趋势。

算法1动态蛋白质网络构建算法

输入：包含n个蛋白质的PPI数据

输出：动态蛋白质网络

Step1. 根据PPI数据建立无向图，并对图作预处理：删去图中度为0和1的顶点，记为t = 0时刻的网络快照G₀；Step2. 在t = i时刻(i = 1, 2, ..., T)，根据公式(2)计算G₀中所有边的边强度，将结果存储于n × n大小的概率矩阵Pm_t中：Step3. 对G₀中所有节点按照度的大小进行升序排列，记为集合A sc _V ={v_t¹, v_t², ..., v_t³}。对网络的演化情况进行处理：（a）如果A sc _V中某节点的S_N_tⁱ大于等于阈值δ，则保留该节点和所属的边；否则，从图中移除该节点及与该节点相连的边，修改Pm_t的大小，并更新Pm_t的值；（b）按行优先来遍历Pm_t中的上三角矩阵Pm_t^Utm：对于Pm_t^Utm中的每一个非零元Pm_t^Utm(ij)，如果它的值大于等于Eep_t^ij，则保留边e_ij，否则删去。

Step4. 输出t = i时刻的网络快照；

Step5. t = t + 1; 重复Step3-4，当t = T时算法结束。

1.2. 蛋白质复合物识别

1.2.1. 复合物识别问题表示

对于一个包含n个蛋白质的DPN_(t)而言，设L_(t) = D_(t) - A_(t)表示DPN_(t)的拉普拉斯矩阵，其中D_(t)^{i, i}表示DPN_(t)中第i个蛋白质节点的度。为了便于GCN的进一步处理，可对L_(t)做归一化处理后得：

其中，I(ⁿ) ∈ R^n×n是单位矩阵。又因为DPN_(t)是无向图，则L_(t)必定是实对称矩阵，对其进行特征分解后可得：L_(t) = UΛU^T。其中U ={u₁, u₂, ..., u_n} 是n个正交的特征向量；Λ = dig({λ₁, λ₂, ..., λ_n}) 是一个对角矩阵，λ_i是u_i对应的特征值。进一步地，设X_(t) ∈ R^{n ×D}表示DPN_(t)上的蛋白质节点特征(度、介数、聚集系数等)，其中X_(t)ⁱ是第i个蛋白质节点的特征，X(^ij) 是第i个蛋白质节点的第j个特征，则本文研究的动态蛋白质网络中复合物识别问题可描述为：基于给定的动态蛋白质网络和GCN理论，需要学习得到一组映射序列F ={ f₁, f₂, ..., f_T}，使得其中每个映射都将时刻t的DPN_(t)上节点映射为多个稠密子图X_(t) →{CP₁, CP₂, ..., CP_k}，即得到蛋白质复合物。

1.2.2. 模型架构

在第2节构建得到的动态蛋白质网络的基础上，文中基于图卷积神经网络来学习网络中蛋白质的特征，进而采用谱聚类来识别蛋白质复合物，识别模型如图 1所示。GCN由输入层、若干隐藏层和输出层组成（图 1），GCN的层间传播规则可描述为^[17]：

其中， Inline graphic 是图的带自环邻接矩阵；是规范化对称邻接矩阵；H^(l)是第l层顶点的特征；W ^(l)是第l层的权重矩阵；σ(∙) 是非线性激活函数（例如ReLu，Softmax等）^{[18, 19]}。识别模型的输入是动态蛋白质网络，模型的隐藏层由时间图卷积和空间图卷积组成，其中，时间图卷积主要用来提取图中蛋白质节点之间当前时刻和历史时刻的信息；空间图卷积主要用来聚合蛋白质节点的邻居信息。在此基础之上，将前面学习到的时空信息进行融合，获得包含丰富的结构信息和历史信息的动态蛋白质网络特征图，最后使用谱聚类对特征图进行无监督学习，可以准确地识别出蛋白质复合物。

1.2.3. 时间图卷积算子设计

蛋白质网络具有随时间变化而动态变化的特性，因此，有效地提取出蛋白质节点之间的时序信息是识别蛋白质复合物的关键环节之一。对于任意给定的第t个时刻的动态蛋白质网络DPN_(t)，GCN可以通过图谱卷积来提取网络上的时间特征，实现对时序信息的聚合。文中提出基于希尔伯特-黄（HHT）^[20]变换来重新定义图谱卷积。设x_(t)是第t个时刻蛋白质节点的输入特征，基于x_(t)的能量边际谱和时频图定义出如下的时间图卷积算子提取DPN_(t)中节点之间的时间特征：

其中，Ω是时频图的拉普拉斯矩阵；g_θ = diag(θ)，是由Ω的特征向量所对应的特征值构成的对角矩阵。将上式扩展至GCN中，则GCN的第l + 1层输出为：

1.2.4. 空间图卷积算子设计

GCN的空间卷积层通过聚合函数从邻居节点聚合特征来更新当前节点的特征。以图 2所示的中心节点为目标节点，在聚合过程中，得到相关节点集合。然后将聚合函数作用在相关节点的中心节点首先对其k阶邻居（红色节点）进行随机采样，特征表达上，并用聚合结果作为中心节点的特征表达。

文中在聚合目标节点的邻居信息时，不是考虑目标节点的所有邻居，而是通过随机采样获得它的k阶邻居。然后基于注意力机制^{[21, 22]}来确定k阶邻居节点对目标节点的重要性，提取出目标节点的局部结构信息。为此，定义出如下的空间图卷积算子：

其中，H_i^(l)是蛋白质i经过第l层空间图卷积后的输出值，H_i⁽⁰⁾ = x_i；W ^{(l- 1)}是第l - 1层的权重矩阵；α_ij是蛋白质i和它的邻居节点j之间的注意力权重：

其中，ξ(∙) 是一个LeakReLu激活函数；Ψ是一个可学习的参数向量。Softmax函数确保节点i的所有邻居的注意权值之和为1。该式通过端到端的神经网络结构隐式地捕获a_ij的权重，使更重要的节点获得更大的权重，提高了捕获隐藏的空间相关性的表达能力。

1.2.5. 模型训练

模型的优劣直接关系到从网络中学习到的蛋白质特征是否准确，对于后续复合物的识别性能具有重大影响。本文使用目前性能表现最好的自适应矩估计（Adam）^[23]算法对蛋白质网络数据进行批训练，采用指数衰减策略来动态地调节学习率，采用如下的交叉熵函数L作为损失函数：

其中，λ_ij是超参数，用于调节数据集的类别比重；z_t^ij是预测得到的包含了蛋白质i和j的复合物；y_t^ij是真实的包含了蛋白质i和j的复合物。模型的训练过程如下面的算法2所示。

算法2 CR-STGC的训练

输入：动态蛋白质网络DPN；学习率γ；训练轮次Epoch；交叉熵损失函数L；生物实验测定的蛋白质复合物Y；输出：更新后的模型所有参数。

Step1. 构建数据集：采用k折交叉验证法对一共T个时刻的动态蛋白质网络进行划分，其中，将T - k个时刻动态蛋白质网络作为训练集（TS），TS ={DPN₍₁₎, DPN₍₂₎, ..., DPN_(T-k)}；k(k ≪ T) 个时刻的动态蛋白质网络作为测试集（TS'），TS' ={DPN₍₁₎, DPN₍₂₎, ..., DPN_(k)}；

Step2. 模型的训练：

repeat

For i=1: Epoch do

从TS中随机选择一批样本作为输入，利用Adam算法来最小化Y和预测结果Y' 之间的交叉熵损失，直到训练完所有样本；利用指数衰减策略调整γ；Until满足精度要求为止。

1.2.6. 基于谱聚类的复合物识别

文中在上文获得的动态蛋白质网络特征图的基础上，定义了模块函数Mf对特征图进行谱划分，提出了基于谱聚类的复合物识别算法，可有效检测出动态蛋白质网络中存在的复合物。

定义6蛋白质复合物(CP)t时刻的动态蛋白质网络特征图F_(t)上的蛋白质复合物可用一个指示矩阵Im _t(t∈R^n×k)表示：

定义7模块函数(Mf) 假设在任意连续时间里，t时刻的动态蛋白质网络特征图F_(t)上k个复合物为{CP_i}_i=1^k，则模块函数Mf为：

其中，Ce(CP_i) 是t时刻蛋白质复合物CP_i中连边的数目；E_t是F_(t)中边的总数目；Ce(CP_i, V_t) 是t时刻CP_i和F_(t)中所有结点的连边数目。Mf值越大，则F_(t)中复合物的划分越好。根据定义6和定义7可知，F_(t)上的复合物识别问题可以建模成连续时间内求Mf的最大值问题^[25]。为了对Mf进行优化求解，文中首先使用一种时间平滑框架来表示蛋白质复合物的演变规律：

其中，CP_N是当前时刻获得的复合物；CP_P是当前时刻的复合物与前一时刻的复合物的相似性；θ是时间调节因子。然后，文中基于式(14)的时间平滑框架来优化Mf，可将识别蛋白质复合物的代价表示为：

根据文献[21]可知，Mf的最大化问题可以表示为：

其中， Inline graphic 。A_t是F_(t)的邻接矩阵；S_t是F_(t)的总边数；d_t是F_(t)中结点度矩阵中的值。式(25)属于NP难问题，无法直接求得最优解，为此采用矩阵松弛法^[26]对其进行处理后可得：当C_Mf最大时，Im_t值是矩阵Γ_t = θ(D_t^-1 A_t)+(1 - θ)(D_t-1^-1A_t-1) 的前k个特征向量对应的列矩阵。综上所述，蛋白质复合物识别的过程为：在最大化C_Mf条件下，假设要在t时刻的F_(t)中识别k个蛋白质复合物，可通过计算得到相应矩阵的前k个特征向量。对于每一个变量c(2 ≤ c ≤ k)，采用子图迭代来找到最优的聚类，即蛋白质复合物。详细的识别算法如下所示。

算法3基于谱聚类的蛋白质复合物识别

输入：动态蛋白质网络特征图F_(t)；每时刻的复合物数目{N_CP}^T_i=1

输出：蛋白质复合物{Im_t}_t=1^T

Step1. 对于每一个时刻t，计算矩阵Γ_t的k个特征值对应的特征向量U ={u_1t, u_2t, ..., u_kt}；

Step2. 以[u_1t, u_2t, ..., u_kt]^T构造矩阵Im_t, 对于任意给定的参数c(2 ≤ c ≤ k)，重复执行：（a）生成Im_t的首个c列的矩阵U_ct；（b）采用谱聚类算法聚类U_ct的行向量；

Step3. 重复执行Step2中的（a）和（b），当C_Mf达到最大值时，输出c值所对应的各个蛋白质复合物；

Step4. 算法结束，返回。

2. 结果

2.1. 不同识别算法的查全率、查准率和F值

采用Anaconda的最新版本作为集成开发环境，PyTorch作为深度学习框架，用Python语言编码实现了CR-STGC模型。为了验证该模型的有效性，我们采用同样的开发环境、同样的语言编码和同样的硬件环境实现了几个目前较为典型的复合物识别算法（ST-APIN^[9]、SSNEM^[10]、VGAE^[11]、NOCD^[12]、GE-CFI^[13]、DPCMNE^[14]和MPC-TPW^[15]），并将它们在多个公开的生物数据集^{[27, 28]}上进行了对比实验，采用查全率、查准率、F-measure值、鲁棒性和时间等多个指标^{[29, 30]}来评价不同算法的性能表现。其中，表 1和表 2分别给出了不同识别算法在DIP数据集和MIPS数据集上的识别结果。

表 1.

各个算法在DIP数据集上的性能比较

Performance comparison of different algorithms on DIP dataset

Complex recognition algorithms	Precision	Recall	F-measure
NOCD	0.7102	0.7421	0.7258
MPC-TPW	0.7211	0.7505	0.7356
DPCMNE	0.7109	0.7802	0.7439
VGAE	0.7623	0.8066	0.7838
GE-CFI	0.8457	0.8544	0.8500
SSNEM	0.8622	0.8729	0.8675
ST-APIN	0.8830	0.8971	0.9000
CR-STGC	0.9025	0.9233	0.9128

Open in a new tab

表 2.

各个算法在MIPS数据集上的性能比较

Performance comparison of different algorithms on MIPS dataset

Complex recognition algorithms	Precision	Recall	F-measure
NOCD	0.7082	0.7289	0.7184
MPC-TPW	0.7177	0.7266	0.7221
DPCMNE	0.7301	0.7688	0.7773
VGAE	0.7703	0.7926	0.7813
GE-CFI	0.8207	0.8314	0.8260
SSNEM	0.8523	0.8691	0.8607
ST-APIN	0.8780	0.8906	0.8843
CR-STGC	0.8927	0.9182	0.9053

Open in a new tab

2.2. 不同识别算法的鲁棒性

真实环境下获取生物数据的来源、手段和条件经常存在着差异，因此可获得的蛋白质相互作用数据很大程度上都会包含假阳性和假阴性，这给复合物识别算法的性能提出了额外的挑战，为了测试所提算法的可靠性，有必要进一步分析和比较不同算法在包含了虚假数据的生物数据集中识别复合物的性能。为此，以MIPS数据集为实验对象，图 3和图 4给出了不同识别算法在MIPS数据集上的鲁棒性表现。其中，图 3是在构建出初始蛋白质网络的基础上，随机地人为增加网络中边的比例，从而构建出多个具有不同程度假阳性的蛋白质网络，随后得出的测试结果。图 4是在构建得到初始网络的基础上，随机地人为删除网络中边的比例，得到多个具有不同程度假阴性的蛋白质网络，随后得出的测试结果。

图 3 — 不同识别算法性能的假阳性分析

False positive analysis of different recognition algorithms.

图 4 — 不同识别算法性能的假阴性分析

False negative analysis of different recognition algorithms.

3. 讨论

各种算法在2种数据集上的特异性、敏感性和F-measure值都较高（表 1、2），CR-STGC算法的识别性能在两种数据集上都要优于其他各种算法。仔细分析其原因：（1）蛋白质具有随着生物体内、外部环境变化而变化的动态特性，通过定义边强度、节点强度和边存在概率等指标来对不同时刻下的蛋白质网络进行动态建模，准确地拟合了动态蛋白质网络发展变化的趋势，为蛋白质复合物的识别提供了可靠基础；（2）提出复合物识别模型，新颖地设计了时间图卷积算子和空间图卷积算子来对网络中蛋白质的特征进行学习，准确地获得了蛋白质数据之间的时间相关性和空间相关性，为下一步通过谱聚类来识别蛋白质复合物创造了条件；（3）将动态蛋白质网络中的复合物识别问题看作时间平滑框架下的图聚类问题，并定义了模块函数来对聚类结果进行优化，从而保证了识别结果的准确性。

此外，随着网络中假阳性的增强，所有的识别算法的F-measure值都明显下降（图 3），但总体来看，CR-STGC算法的识别性能始终更好。当网络中边的增加比例超过30%后，大多数识别算法的性能趋于稳定，表明这些算法都有不错的抗噪能力，能够较好地应对网络中存在的假阳性，过滤掉虚假复合物。接下来仍然以MIPS数据集为实验对象，在构建得到初始网络的基础上，随机地人为删除网络中边的比例，得到多个具有不同程度假阴性的蛋白质网络。重复之前的复合物识别性能测试，随着网络中假阴性的增强，所有识别算法的性能都在急剧下降（图 4），这主要是因为网络中删除的边数越多，可能破坏的蛋白质之间的真实相互作用也越多，从而导致复合物的丢失，文中的各种算法都能很好地模拟和应对这一点。但综合来看，CR-STGC算法的F-measure值始终要优于其他的算法，即使在假阴性数据增加到50%，CR-STGC算法的F-measure值仍然可以维持在0.7左右，这都充分体现了CR-STGC算法的可靠性。

蛋白质网络是一种典型的超大规模复杂网络，在这样的网络环境下是否能够既准确又快速地找到有生物学意义的复合物是评价复合物识别算法是否具有实际价值的主要指标之一。我们以算法的效率为评价指标，分别在DIP数据集和MIPS数据集上测试了不同算法识别复合物的效率（图 5）。

图 5 — 不同识别算法的时间复杂度分析

Time complexity analysis of different recognition algorithms.

DPCMNE算法在2种数据集上的识别时间最长，GE-CFI算法次之，ST-APIN算法的运行时间最短，而CR-STGC算法的识别时间位居第5位。相比于DPCMNE、GE-CFI、VGAE和NOCD等4种识别算法，CR-STGC算法在2种数据集上的识别效率分别平均提高了约34.5%、28.7%、25.4%和17.6%，但比SSNEM、MPC-TPW和ST-APIN等识别算法的效率要略低。这主要是因为CR-STGC算法的运行时间还包含了动态蛋白质网络的构建开销，此外在识别复合物过程中，CR-STGC算法综合考虑了网络的时序信息和结构信息来提取网络特征，并通过谱聚类来完成复合物的识别，以牺牲部分时间代价来换取识别精度的提升。总体来看，CR-STGC算法的运行效率仍然是可以接受的，实现了识别质量和识别效率的折中，完全可以应用到大规模蛋白质网络的复合物识别问题中去。

Biography

盛江明，硕士，主管护师，E-mail: hmmsjm@163.com

Funding Statement

湖南省自然科学基金（2021JJ30920）；湖南省教育厅创新平台开放基金项目（18K004）；湖南省卫建委科研项目（202112072217）

Contributor Information

盛江明 (Jiangming SHENG), Email: hmmsjm@163.com.

李鹏 (Peng LI), Email: 1715847023@qq.com.

伊娜 (Na YI), Email: Nayishand510555@qq.com.

References

1.Moreno LA, Omidi M, Wurlitzer M, et al. Understanding protein networks using vester's sensitivity model. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(4):1440–50. doi: 10.1109/TCBB.2018.2885757. [DOI] [PubMed] [Google Scholar]
2.Lei HJ, Wen YT, You ZH, et al. Protein-protein interactions prediction via multimodal deep polynomial network and regularized extreme learning machine. IEEE J Biomed Health Inform. 2019;23(3):1290–303. doi: 10.1109/JBHI.2018.2845866. [DOI] [PubMed] [Google Scholar]
3.Li M, Ni P, Chen XP, et al. Construction of refined protein interaction network for predicting essential proteins. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(4):1386–97. doi: 10.1109/TCBB.2017.2665482. [DOI] [PubMed] [Google Scholar]
4.Zhao ZN, Gong XQ. Protein-protein interaction interface residue pair prediction based on deep learning architecture. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(5):1753–9. doi: 10.1109/TCBB.2017.2706682. [DOI] [PubMed] [Google Scholar]
5.Giri SJ, Dutta P, Halani P, et al. MultiPredGO: deep multi-modal protein function prediction by amalgamating protein structure, sequence, and interaction information. IEEE J Biomed Health Inform. 2021;25(5):1832–8. doi: 10.1109/JBHI.2020.3022806. [DOI] [PubMed] [Google Scholar]
6.Tang XW, Xiao Q, Yu K. Breast cancer candidate gene detection through integration of subcellular localization data with protein-protein interaction networks. IEEE Trans Nanobioscience. 2020;19(3):556–61. doi: 10.1109/TNB.2020.2990178. [DOI] [PubMed] [Google Scholar]
7.Zhang TY, Wang MH, Xi JN, et al. LPGNMF: predicting long non-coding RNA and protein interaction using graph regularized nonnegative matrix factorization. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(1):189–97. doi: 10.1109/TCBB.2018.2861009. [DOI] [PubMed] [Google Scholar]
8.徐冰冰, 岑科廷, 黄俊杰, et al. 图卷积神经网络综述. 计算机学报. 2020;43(5):755–80. [Google Scholar]
9.Li M, Meng XM, Zheng RQ, et al. Identification of protein complexes by using a spatial and temporal active protein interaction network. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):817–27. doi: 10.1109/TCBB.2017.2749571. [DOI] [PubMed] [Google Scholar]
10.Zhu J, Zheng ZT, Yang M, et al. Protein complexes detection based on semi-supervised network embedding model. IEEE/ACM Trans Comput Biol Bioinform. 2021;18(2):797–803. doi: 10.1109/TCBB.2019.2944809. [DOI] [PubMed] [Google Scholar]
11.Yao H, Guan JH, Liu TY. Denoising Protein-Protein interaction network via variational graph auto-encoder for protein complex detection. J Bioinform Comput Biol. 2020;18(3):2040010. doi: 10.1142/S0219720020400107. [DOI] [PubMed] [Google Scholar]
12.Zaki N, Singh H, Mohamed EA. Identifying protein complexes in protein-protein interaction data using graph convolutional network. IEEE Access. 2021;9:123717–26. doi: 10.1109/ACCESS.2021.3110845. [DOI] [Google Scholar]
13.Yao H, Shi YJ, Guan JH, et al. Accurately detecting protein complexes by graph embedding and combining functions with interactions. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):777–87. doi: 10.1109/TCBB.2019.2897769. [DOI] [PubMed] [Google Scholar]
14.Meng X, Xiang J, Zheng R, et al. DPCMNE: detecting protein complexes from protein-protein interaction networks via multi-level network embedding[J]. IEEE/ACM Trans Comput Biol Bioinform, 2021, PP: 2021Jan8; PP.
15.雷秀娟, 高银, 郭玲. 基于拓扑势加权的动态PPI网络复合物挖掘方法. 电子学报. 2018;46(1):145–51. doi: 10.3969/j.issn.0372-2112.2018.01.020. [DOI] [Google Scholar]
16.余晨笛, 侯立军, 郑艳玲, et al. 硝化微生物富集及其种群结构与基因表达分析. 华东师范大学学报: 自然科学版. 2019;2019(3):164–73. doi: 10.3969/j.issn.1000-5641.2019.03.018. [DOI] [Google Scholar]
17.李腾, 乔伟, 张嘉伟, et al. 隐私保护的基于图卷积神经网络的攻击溯源方法. 计算机研究与发展. 2021;58(5):1006–20. [Google Scholar]
18.安凤平. 优化非线性激活函数-全局卷积神经网络的物体识别算法. 小型微型计算机系统. 2021;42(2):393–8. doi: 10.3969/j.issn.1000-1220.2021.02.029. [DOI] [Google Scholar]
19.张强, 杨吉斌, 张雄伟, et al. CS-Softmax: 一种基于余弦相似性的Softmax损失函数. 计算机研究与发展. 2022;59(4):936–49. [Google Scholar]
20.施杰, 伍星, 刘韬. 采用HHT算法与卷积神经网络诊断轴承复合故障. 农业工程学报. 2020;36(4):34–43. [Google Scholar]
21.郑作武, 邵斯绮, 高晓沨, et al. 基于社交圈层和注意力机制的信息热度预测. 计算机学报. 2021;44(5):921–36. [Google Scholar]
22.张凤荔, 王雪婷, 王瑞锦, et al. 融合动态图表示和自注意力机制的级联预测模型. 电子科技大学学报. 2022;51(1):83–90. [Google Scholar]
23.Karen S, Andrew Z. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. 3rd International Conference on Learning Representations(ICLR), San Diego, CA, USA: IEEE Press, 2015: 1-14.
24.刘洋, 王利民, 孙铭会. 基于信息熵函数的启发式贝叶斯因果推理. 计算机学报. 2021;44(10):2135–47. doi: 10.11897/SP.J.1016.2021.02135. [DOI] [Google Scholar]
25.付立冬, 马小科, 聂靖靖. 进化谱分算法检测动态网络社团结构. 西安电子科技大学学报. 2018;45(2):43-7, 53. [Google Scholar]
26.王超, 赵阳, 裴继红. 松弛耦合非负矩阵分解的低分辨率人脸识别算法. 信号处理. 2020;36(7):1127–35. [Google Scholar]
27.李鹏, 罗爱静, 闵慧, et al. 采用隐马尔科夫模型的蛋白质复合物识别研究. 计算机科学与探索. 2021;15(10):1980–9. doi: 10.3778/j.issn.1673-9418.2007073. [DOI] [Google Scholar]
28.Xu B, Guan JH, Wang Y, et al. Essential protein detection by random walk on weighted protein-protein interaction networks. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(2):377–87. doi: 10.1109/TCBB.2017.2701824. [DOI] [PubMed] [Google Scholar]
29.王晓旭, 刘晓霞. NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法. 中文信息学报. 2021;35(9):82–93. doi: 10.3969/j.issn.1003-0077.2021.09.008. [DOI] [Google Scholar]
30.Hu L, Yuan XH, Liu X, et al. Efficiently detecting protein complexes from protein interaction networks via alternating direction method of multipliers. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(6):1922–35. doi: 10.1109/TCBB.2018.2844256. [DOI] [PubMed] [Google Scholar]

[b1] 1.Moreno LA, Omidi M, Wurlitzer M, et al. Understanding protein networks using vester's sensitivity model. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(4):1440–50. doi: 10.1109/TCBB.2018.2885757. [DOI] [PubMed] [Google Scholar]

[b2] 2.Lei HJ, Wen YT, You ZH, et al. Protein-protein interactions prediction via multimodal deep polynomial network and regularized extreme learning machine. IEEE J Biomed Health Inform. 2019;23(3):1290–303. doi: 10.1109/JBHI.2018.2845866. [DOI] [PubMed] [Google Scholar]

[b3] 3.Li M, Ni P, Chen XP, et al. Construction of refined protein interaction network for predicting essential proteins. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(4):1386–97. doi: 10.1109/TCBB.2017.2665482. [DOI] [PubMed] [Google Scholar]

[b4] 4.Zhao ZN, Gong XQ. Protein-protein interaction interface residue pair prediction based on deep learning architecture. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(5):1753–9. doi: 10.1109/TCBB.2017.2706682. [DOI] [PubMed] [Google Scholar]

[b5] 5.Giri SJ, Dutta P, Halani P, et al. MultiPredGO: deep multi-modal protein function prediction by amalgamating protein structure, sequence, and interaction information. IEEE J Biomed Health Inform. 2021;25(5):1832–8. doi: 10.1109/JBHI.2020.3022806. [DOI] [PubMed] [Google Scholar]

[b6] 6.Tang XW, Xiao Q, Yu K. Breast cancer candidate gene detection through integration of subcellular localization data with protein-protein interaction networks. IEEE Trans Nanobioscience. 2020;19(3):556–61. doi: 10.1109/TNB.2020.2990178. [DOI] [PubMed] [Google Scholar]

[b7] 7.Zhang TY, Wang MH, Xi JN, et al. LPGNMF: predicting long non-coding RNA and protein interaction using graph regularized nonnegative matrix factorization. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(1):189–97. doi: 10.1109/TCBB.2018.2861009. [DOI] [PubMed] [Google Scholar]

[b8] 8.徐冰冰, 岑科廷, 黄俊杰, et al. 图卷积神经网络综述. 计算机学报. 2020;43(5):755–80. [Google Scholar]

[b9] 9.Li M, Meng XM, Zheng RQ, et al. Identification of protein complexes by using a spatial and temporal active protein interaction network. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):817–27. doi: 10.1109/TCBB.2017.2749571. [DOI] [PubMed] [Google Scholar]

[b10] 10.Zhu J, Zheng ZT, Yang M, et al. Protein complexes detection based on semi-supervised network embedding model. IEEE/ACM Trans Comput Biol Bioinform. 2021;18(2):797–803. doi: 10.1109/TCBB.2019.2944809. [DOI] [PubMed] [Google Scholar]

[b11] 11.Yao H, Guan JH, Liu TY. Denoising Protein-Protein interaction network via variational graph auto-encoder for protein complex detection. J Bioinform Comput Biol. 2020;18(3):2040010. doi: 10.1142/S0219720020400107. [DOI] [PubMed] [Google Scholar]

[b12] 12.Zaki N, Singh H, Mohamed EA. Identifying protein complexes in protein-protein interaction data using graph convolutional network. IEEE Access. 2021;9:123717–26. doi: 10.1109/ACCESS.2021.3110845. [DOI] [Google Scholar]

[b13] 13.Yao H, Shi YJ, Guan JH, et al. Accurately detecting protein complexes by graph embedding and combining functions with interactions. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):777–87. doi: 10.1109/TCBB.2019.2897769. [DOI] [PubMed] [Google Scholar]

[b14] 14.Meng X, Xiang J, Zheng R, et al. DPCMNE: detecting protein complexes from protein-protein interaction networks via multi-level network embedding[J]. IEEE/ACM Trans Comput Biol Bioinform, 2021, PP: 2021Jan8; PP.

[b15] 15.雷秀娟, 高银, 郭玲. 基于拓扑势加权的动态PPI网络复合物挖掘方法. 电子学报. 2018;46(1):145–51. doi: 10.3969/j.issn.0372-2112.2018.01.020. [DOI] [Google Scholar]

[b16] 16.余晨笛, 侯立军, 郑艳玲, et al. 硝化微生物富集及其种群结构与基因表达分析. 华东师范大学学报: 自然科学版. 2019;2019(3):164–73. doi: 10.3969/j.issn.1000-5641.2019.03.018. [DOI] [Google Scholar]

[b17] 17.李腾, 乔伟, 张嘉伟, et al. 隐私保护的基于图卷积神经网络的攻击溯源方法. 计算机研究与发展. 2021;58(5):1006–20. [Google Scholar]

[b18] 18.安凤平. 优化非线性激活函数-全局卷积神经网络的物体识别算法. 小型微型计算机系统. 2021;42(2):393–8. doi: 10.3969/j.issn.1000-1220.2021.02.029. [DOI] [Google Scholar]

[b19] 19.张强, 杨吉斌, 张雄伟, et al. CS-Softmax: 一种基于余弦相似性的Softmax损失函数. 计算机研究与发展. 2022;59(4):936–49. [Google Scholar]

[b20] 20.施杰, 伍星, 刘韬. 采用HHT算法与卷积神经网络诊断轴承复合故障. 农业工程学报. 2020;36(4):34–43. [Google Scholar]

[b21] 21.郑作武, 邵斯绮, 高晓沨, et al. 基于社交圈层和注意力机制的信息热度预测. 计算机学报. 2021;44(5):921–36. [Google Scholar]

[b22] 22.张凤荔, 王雪婷, 王瑞锦, et al. 融合动态图表示和自注意力机制的级联预测模型. 电子科技大学学报. 2022;51(1):83–90. [Google Scholar]

[b23] 23.Karen S, Andrew Z. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. 3rd International Conference on Learning Representations(ICLR), San Diego, CA, USA: IEEE Press, 2015: 1-14.

[b24] 24.刘洋, 王利民, 孙铭会. 基于信息熵函数的启发式贝叶斯因果推理. 计算机学报. 2021;44(10):2135–47. doi: 10.11897/SP.J.1016.2021.02135. [DOI] [Google Scholar]

[b25] 25.付立冬, 马小科, 聂靖靖. 进化谱分算法检测动态网络社团结构. 西安电子科技大学学报. 2018;45(2):43-7, 53. [Google Scholar]

[b26] 26.王超, 赵阳, 裴继红. 松弛耦合非负矩阵分解的低分辨率人脸识别算法. 信号处理. 2020;36(7):1127–35. [Google Scholar]

[b27] 27.李鹏, 罗爱静, 闵慧, et al. 采用隐马尔科夫模型的蛋白质复合物识别研究. 计算机科学与探索. 2021;15(10):1980–9. doi: 10.3778/j.issn.1673-9418.2007073. [DOI] [Google Scholar]

[b28] 28.Xu B, Guan JH, Wang Y, et al. Essential protein detection by random walk on weighted protein-protein interaction networks. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(2):377–87. doi: 10.1109/TCBB.2017.2701824. [DOI] [PubMed] [Google Scholar]

[b29] 29.王晓旭, 刘晓霞. NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法. 中文信息学报. 2021;35(9):82–93. doi: 10.3969/j.issn.1003-0077.2021.09.008. [DOI] [Google Scholar]

[b30] 30.Hu L, Yuan XH, Liu X, et al. Efficiently detecting protein complexes from protein interaction networks via alternating direction method of multipliers. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(6):1922–35. doi: 10.1109/TCBB.2018.2844256. [DOI] [PubMed] [Google Scholar]

PERMALINK

基于时空图卷积神经网络的蛋白质复合物识别方法

A protein complex recognition method based on spatial-temporal graph convolution neural network

Jiangming SHENG

Juan XUE

Peng LI

Na YI

Abstract

目的

方法

结果

结论

Abstract

Objective

Methods

Results

Conclusion

1. 材料和方法

1.1. 动态蛋白质网络建模

1.2. 蛋白质复合物识别

1.2.1. 复合物识别问题表示

1.2.2. 模型架构

图 1.

1.2.3. 时间图卷积算子设计

1.2.4. 空间图卷积算子设计

图 2.

1.2.5. 模型训练

1.2.6. 基于谱聚类的复合物识别

2. 结果

2.1. 不同识别算法的查全率、查准率和F值

表 1.

表 2.

2.2. 不同识别算法的鲁棒性

图 3.

图 4.

3. 讨论

图 5.

Biography

Funding Statement

Contributor Information

References

ACTIONS

PERMALINK

RESOURCES

Similar articles

Cited by other articles

Links to NCBI Databases