Abstract
目的
探讨利用时空图卷积神经网络在动态蛋白质网络中挖掘复合物的新方法。
方法
文中首先定义了边强度、节点强度和边存在概率等指标对动态蛋白质网络进行建模,然后结合图上的时间序列信息和结构信息,基于希尔伯特-黄变换、注意力机制和残差连接等技术设计了2种卷积算子来对网络中蛋白质的特征进行表示学习,构建得到动态蛋白质网络特征图。最后采用谱聚类来识别复合物。
结果
在多个公开生物数据集上的仿真实验结果表明,所提算法在DIP数据集和MIPS数据集上的F值都达到了90%以上,相比于DPCMNE、GE-CFI、VGAE和NOCD等4种识别算法而言,识别效率分别平均提高了约34.5%、28.7%、25.4%和17.6%。
结论
运用深度学习技术来处理动态蛋白质网络的性能表现良好,具有普适意义。
Keywords: 动态蛋白质网络, 蛋白质复合物, 图卷积神经网络, 卷积算子, 谱聚类
Abstract
Objective
To propose a new method for mining complexes in dynamic protein network using spatiotemporal convolution neural network.
Methods
The edge strength, node strength and edge existence probability are defined for modeling of the dynamic protein network. Based on the time series information and structure information on the graph, two convolution operators were designed using Hilbert-Huang transform, attention mechanism and residual connection technology to represent and learn the characteristics of the proteins in the network, and the dynamic protein network characteristic map was constructed. Finally, spectral clustering was used to identify the protein complexes.
Results
The simulation results on several public biological datasets showed that the F value of the proposed algorithm exceeded 90% on DIP dataset and MIPS dataset. Compared with 4 other recognition algorithms (DPCMNE, GE-CFI, VGAE and NOCD), the proposed algorithm improved the recognition efficiency by 34.5%, 28.7%, 25.4% and 17.6%, respectively.
Conclusion
The application of deep learning technology can improve the efficiency in analysis of dynamic protein networks.
Keywords: dynamic protein network, protein complex, graph convolution neural network, convolution operator, spectral clustering
一个生物体内所有蛋白质的相互作用被称为蛋白质相互作用网络(PPIN),简称蛋白质网络[1, 2]。其中,在相同时间和空间内由若干个蛋白质通过相互作用共同组成的一种多分子结构称为蛋白质复合物(PC)[3],简称复合物。在蛋白质网络中精准地识别复合物是计算生物学中的一个重要问题[4-6],然而由于蛋白质之间的相互作用具有动态性,蛋白质网络的拓扑结构会随着时间、生物环境、蛋白质的存在和降解等因素的变化而变化,这极大地增加了复合物识别的难度。此外,蛋白质相互作用数据中不可避免存在的假阳性和假阴性也给复合物识别算法设计带来了额外的挑战[7, 8]。李敏等[9]通过整合时间进程基因表达数据和亚细胞位置信息构建了时空活性蛋白质相互作用网络(ST-APIN),采用聚类算法MCL在ST-APIN上进行复合物识别,提升了识别的敏感性和特异性,找到了更多具有生物学意义的复合物。有研究引入网络嵌入技术来捕获动态蛋白质网络的结构特性,提出了一种半监督网络嵌入模型(SSNEM)来检测网络中存在的稠密连接子图,即蛋白质复合物[10]。另有研究则提出了一系列基于深度学习技术的方法来识别蛋白质复合物[11-14],雷秀娟等[15]提出了基于拓扑势加权的蛋白质复合物挖掘方法。然而现有的方法仍然缺乏对于动态蛋白质网络中信息表征的能力,复合物的检测精度还存在不足。为此,文中充分考虑动态蛋白质网络的时间动态信息和空间动态信息,将复合物识别建模为动态图中的节点分类问题,提出了一种基于时空图卷积的复合物识别算法,并在多个公开的生物数据集上进行了全面的仿真实验。
1. 材料和方法
1.1. 动态蛋白质网络建模
为了精确地识别出真正有生物意义的复合物,对动态蛋白质进行建模。下面先给出网络构建中用到的一些相关术语:
定义1动态蛋白质网络(DPN)它是一个时间上具有相关性的多个静态蛋白质网络的序列,可表示为:G =(G1, G2, ..., GT)。其中Gt =(Vt, Et, At) 表示第t个时刻的蛋白质网络DPN(t)的快照t ∈{1, 2, ..., T}。
在定义1中,Vt表示DPN(t)中的蛋白质集合;Et表示DPN(t)中存在的蛋白质相互作用关系集合;At表示DPN(t)的邻接矩阵。如果两个蛋白质(vt)p和(vt)q之间存在相互作用,则(At)pq = 1,否则(At)pq = 0。
定义2公共邻居数(Npntij) 指在t时刻的DPN(t) 中同时与蛋白质i、蛋白质j直接相连的蛋白质个数,可表示为:
![]() |
1 |
其中,Ne(i) 和Ne(j) 分别指蛋白质i和j的邻居集合。
定义3边强度(S_eij) 指在t时刻的DPN(t)中蛋白质i和蛋白质j之间相互作用关系强弱的度量,可表示为:
![]() |
2 |
其中,d(∙) 是蛋白质节点的度;nt是DPN(t)中的蛋白质总数。
定义4节点强度Sti指在t时刻的DPN(t) 中蛋白质i的基因表达丰度和度平均值的加权和,可表示为:
![]() |
3 |
其中,GEAti是t时刻蛋白质i的基因表达丰度[16],它随时间变化而变化;α和β是调节因子。
定义5边存在概率(Eeptij) 指相对于当前t - 1时刻而言,t时刻下任意两个蛋白质i和蛋白质j之间是否存在连接关系的度量,可表示为:
![]() |
4 |
其中,Δ_Npnij = Npntij - Npnt-1ij,指当前时刻和前一时刻的蛋白质i和蛋白质j直接相连的公共邻居数变化值。本文认为,蛋白质网络拓扑结构的变化原因可归结为:蛋白质的合成和蛋白质的降解;蛋白质之间相互作用关系的改变。为此提出如下的构建算法来拟合动态蛋白质网络的发展变化趋势。
算法1动态蛋白质网络构建算法
输入:包含n个蛋白质的PPI数据
输出:动态蛋白质网络
Step1. 根据PPI数据建立无向图,并对图作预处理:删去图中度为0和1的顶点,记为t = 0时刻的网络快照G0;Step2. 在t = i时刻(i = 1, 2, ..., T),根据公式(2)计算G0中所有边的边强度,将结果存储于n × n大小的概率矩阵Pmt中:Step3. 对G0中所有节点按照度的大小进行升序排列,记为集合A sc _V ={vt1, vt2, ..., vt3}。对网络的演化情况进行处理:(a)如果A sc _V中某节点的S_Nti大于等于阈值δ,则保留该节点和所属的边;否则,从图中移除该节点及与该节点相连的边,修改Pmt的大小,并更新Pmt的值;(b)按行优先来遍历Pmt中的上三角矩阵PmtUtm:对于PmtUtm中的每一个非零元PmtUtm(ij),如果它的值大于等于Eeptij,则保留边eij,否则删去。
Step4. 输出t = i时刻的网络快照;
Step5. t = t + 1; 重复Step3-4,当t = T时算法结束。
1.2. 蛋白质复合物识别
1.2.1. 复合物识别问题表示
对于一个包含n个蛋白质的DPN(t)而言,设L(t) = D(t) - A(t)表示DPN(t)的拉普拉斯矩阵,其中D(t)i, i表示DPN(t)中第i个蛋白质节点的度。为了便于GCN的进一步处理,可对L(t)做归一化处理后得:
![]() |
5 |
其中,I(n) ∈ Rn×n是单位矩阵。又因为DPN(t)是无向图,则L(t)必定是实对称矩阵,对其进行特征分解后可得:L(t) = UΛUT。其中U ={u1, u2, ..., un} 是n个正交的特征向量;Λ = dig({λ1, λ2, ..., λn}) 是一个对角矩阵,λi是ui对应的特征值。进一步地,设X(t) ∈ Rn ×D表示DPN(t)上的蛋白质节点特征(度、介数、聚集系数等),其中X(t)i是第i个蛋白质节点的特征,X(ij) 是第i个蛋白质节点的第j个特征,则本文研究的动态蛋白质网络中复合物识别问题可描述为:基于给定的动态蛋白质网络和GCN理论,需要学习得到一组映射序列F ={ f1, f2, ..., fT},使得其中每个映射都将时刻t的DPN(t)上节点映射为多个稠密子图X(t) →{CP1, CP2, ..., CPk},即得到蛋白质复合物。
1.2.2. 模型架构
在第2节构建得到的动态蛋白质网络的基础上,文中基于图卷积神经网络来学习网络中蛋白质的特征,进而采用谱聚类来识别蛋白质复合物,识别模型如图 1所示。GCN由输入层、若干隐藏层和输出层组成(图 1),GCN的层间传播规则可描述为[17]:
图 1.

基于GCN的蛋白质复合物识别模型
Protein complex recognition model based on graph convolutional network.
![]() |
6 |
其中,
是图的带自环邻接矩阵;
是规范化对称邻接矩阵;H(l)是第l层顶点的特征;W
(l)是第l层的权重矩阵;σ(∙) 是非线性激活函数(例如ReLu,Softmax等)[18, 19]。识别模型的输入是动态蛋白质网络,模型的隐藏层由时间图卷积和空间图卷积组成,其中,时间图卷积主要用来提取图中蛋白质节点之间当前时刻和历史时刻的信息;空间图卷积主要用来聚合蛋白质节点的邻居信息。在此基础之上,将前面学习到的时空信息进行融合,获得包含丰富的结构信息和历史信息的动态蛋白质网络特征图,最后使用谱聚类对特征图进行无监督学习,可以准确地识别出蛋白质复合物。
1.2.3. 时间图卷积算子设计
蛋白质网络具有随时间变化而动态变化的特性,因此,有效地提取出蛋白质节点之间的时序信息是识别蛋白质复合物的关键环节之一。对于任意给定的第t个时刻的动态蛋白质网络DPN(t),GCN可以通过图谱卷积来提取网络上的时间特征,实现对时序信息的聚合。文中提出基于希尔伯特-黄(HHT)[20]变换来重新定义图谱卷积。设x(t)是第t个时刻蛋白质节点的输入特征,基于x(t)的能量边际谱和时频图定义出如下的时间图卷积算子提取DPN(t)中节点之间的时间特征:
![]() |
7 |
其中,Ω是时频图的拉普拉斯矩阵;gθ = diag(θ),是由Ω的特征向量所对应的特征值构成的对角矩阵。将上式扩展至GCN中,则GCN的第l + 1层输出为:
![]() |
8 |
1.2.4. 空间图卷积算子设计
GCN的空间卷积层通过聚合函数从邻居节点聚合特征来更新当前节点的特征。以图 2所示的中心节点为目标节点,在聚合过程中,得到相关节点集合。然后将聚合函数作用在相关节点的中心节点首先对其k阶邻居(红色节点)进行随机采样,特征表达上,并用聚合结果作为中心节点的特征表达。
图 2.

聚合过程示例
Example of the aggregation process.
文中在聚合目标节点的邻居信息时,不是考虑目标节点的所有邻居,而是通过随机采样获得它的k阶邻居。然后基于注意力机制[21, 22]来确定k阶邻居节点对目标节点的重要性,提取出目标节点的局部结构信息。为此,定义出如下的空间图卷积算子:
![]() |
9 |
其中,Hi(l)是蛋白质i经过第l层空间图卷积后的输出值,Hi(0) = xi;W (l- 1)是第l - 1层的权重矩阵;αij是蛋白质i和它的邻居节点j之间的注意力权重:
![]() |
10 |
其中,ξ(∙) 是一个LeakReLu激活函数;Ψ是一个可学习的参数向量。Softmax函数确保节点i的所有邻居的注意权值之和为1。该式通过端到端的神经网络结构隐式地捕获aij的权重,使更重要的节点获得更大的权重,提高了捕获隐藏的空间相关性的表达能力。
1.2.5. 模型训练
模型的优劣直接关系到从网络中学习到的蛋白质特征是否准确,对于后续复合物的识别性能具有重大影响。本文使用目前性能表现最好的自适应矩估计(Adam)[23]算法对蛋白质网络数据进行批训练,采用指数衰减策略来动态地调节学习率,采用如下的交叉熵函数L作为损失函数:
![]() |
11 |
其中,λij是超参数,用于调节数据集的类别比重;ztij是预测得到的包含了蛋白质i和j的复合物;ytij是真实的包含了蛋白质i和j的复合物。模型的训练过程如下面的算法2所示。
算法2 CR-STGC的训练
输入:动态蛋白质网络DPN;学习率γ;训练轮次Epoch;交叉熵损失函数L;生物实验测定的蛋白质复合物Y;输出:更新后的模型所有参数。
Step1. 构建数据集:采用k折交叉验证法对一共T个时刻的动态蛋白质网络进行划分,其中,将T - k个时刻动态蛋白质网络作为训练集(TS),TS ={DPN(1), DPN(2), ..., DPN(T-k)};k(k ≪ T) 个时刻的动态蛋白质网络作为测试集(TS'),TS' ={DPN(1), DPN(2), ..., DPN(k)};
Step2. 模型的训练:
repeat
For i=1: Epoch do
从TS中随机选择一批样本作为输入,利用Adam算法来最小化Y和预测结果Y' 之间的交叉熵损失,直到训练完所有样本;利用指数衰减策略调整γ;Until满足精度要求为止。
1.2.6. 基于谱聚类的复合物识别
文中在上文获得的动态蛋白质网络特征图的基础上,定义了模块函数Mf对特征图进行谱划分,提出了基于谱聚类的复合物识别算法,可有效检测出动态蛋白质网络中存在的复合物。
定义6蛋白质复合物(CP)t时刻的动态蛋白质网络特征图F(t)上的蛋白质复合物可用一个指示矩阵Im t(t∈Rn×k)表示:
![]() |
12 |
定义7模块函数(Mf) 假设在任意连续时间里,t时刻的动态蛋白质网络特征图F(t)上k个复合物为{CPi}i=1k,则模块函数Mf为:
![]() |
13 |
其中,Ce(CPi) 是t时刻蛋白质复合物CPi中连边的数目;Et是F(t)中边的总数目;Ce(CPi, Vt) 是t时刻CPi和F(t)中所有结点的连边数目。Mf值越大,则F(t)中复合物的划分越好。根据定义6和定义7可知,F(t)上的复合物识别问题可以建模成连续时间内求Mf的最大值问题[25]。为了对Mf进行优化求解,文中首先使用一种时间平滑框架来表示蛋白质复合物的演变规律:
![]() |
14 |
其中,CPN是当前时刻获得的复合物;CPP是当前时刻的复合物与前一时刻的复合物的相似性;θ是时间调节因子。然后,文中基于式(14)的时间平滑框架来优化Mf,可将识别蛋白质复合物的代价表示为:
![]() |
15 |
根据文献[21]可知,Mf的最大化问题可以表示为:
![]() |
16 |
其中,
。At是F(t)的邻接矩阵;St是F(t)的总边数;dt是F(t)中结点度矩阵中的值。式(25)属于NP难问题,无法直接求得最优解,为此采用矩阵松弛法[26]对其进行处理后可得:当CMf最大时,Imt值是矩阵Γt = θ(Dt-1
At)+(1 - θ)(Dt-1-1At-1) 的前k个特征向量对应的列矩阵。综上所述,蛋白质复合物识别的过程为:在最大化CMf条件下,假设要在t时刻的F(t)中识别k个蛋白质复合物,可通过计算得到相应矩阵的前k个特征向量。对于每一个变量c(2 ≤ c ≤ k),采用子图迭代来找到最优的聚类,即蛋白质复合物。详细的识别算法如下所示。
算法3基于谱聚类的蛋白质复合物识别
输入:动态蛋白质网络特征图F(t);每时刻的复合物数目{N_CP}Ti=1
输出:蛋白质复合物{Imt}t=1T
Step1. 对于每一个时刻t,计算矩阵Γt的k个特征值对应的特征向量U ={u1t, u2t, ..., ukt};
Step2. 以[u1t, u2t, ..., ukt]T构造矩阵Imt, 对于任意给定的参数c(2 ≤ c ≤ k),重复执行:(a)生成Imt的首个c列的矩阵Uct;(b)采用谱聚类算法聚类Uct的行向量;
Step3. 重复执行Step2中的(a)和(b),当CMf达到最大值时,输出c值所对应的各个蛋白质复合物;
Step4. 算法结束,返回。
2. 结果
2.1. 不同识别算法的查全率、查准率和F值
采用Anaconda的最新版本作为集成开发环境,PyTorch作为深度学习框架,用Python语言编码实现了CR-STGC模型。为了验证该模型的有效性,我们采用同样的开发环境、同样的语言编码和同样的硬件环境实现了几个目前较为典型的复合物识别算法(ST-APIN[9]、SSNEM[10]、VGAE[11]、NOCD[12]、GE-CFI[13]、DPCMNE[14]和MPC-TPW[15]),并将它们在多个公开的生物数据集[27, 28]上进行了对比实验,采用查全率、查准率、F-measure值、鲁棒性和时间等多个指标[29, 30]来评价不同算法的性能表现。其中,表 1和表 2分别给出了不同识别算法在DIP数据集和MIPS数据集上的识别结果。
表 1.
各个算法在DIP数据集上的性能比较
Performance comparison of different algorithms on DIP dataset
| Complex recognition algorithms | Precision | Recall | F-measure |
| NOCD | 0.7102 | 0.7421 | 0.7258 |
| MPC-TPW | 0.7211 | 0.7505 | 0.7356 |
| DPCMNE | 0.7109 | 0.7802 | 0.7439 |
| VGAE | 0.7623 | 0.8066 | 0.7838 |
| GE-CFI | 0.8457 | 0.8544 | 0.8500 |
| SSNEM | 0.8622 | 0.8729 | 0.8675 |
| ST-APIN | 0.8830 | 0.8971 | 0.9000 |
| CR-STGC | 0.9025 | 0.9233 | 0.9128 |
表 2.
各个算法在MIPS数据集上的性能比较
Performance comparison of different algorithms on MIPS dataset
| Complex recognition algorithms | Precision | Recall | F-measure |
| NOCD | 0.7082 | 0.7289 | 0.7184 |
| MPC-TPW | 0.7177 | 0.7266 | 0.7221 |
| DPCMNE | 0.7301 | 0.7688 | 0.7773 |
| VGAE | 0.7703 | 0.7926 | 0.7813 |
| GE-CFI | 0.8207 | 0.8314 | 0.8260 |
| SSNEM | 0.8523 | 0.8691 | 0.8607 |
| ST-APIN | 0.8780 | 0.8906 | 0.8843 |
| CR-STGC | 0.8927 | 0.9182 | 0.9053 |
2.2. 不同识别算法的鲁棒性
真实环境下获取生物数据的来源、手段和条件经常存在着差异,因此可获得的蛋白质相互作用数据很大程度上都会包含假阳性和假阴性,这给复合物识别算法的性能提出了额外的挑战,为了测试所提算法的可靠性,有必要进一步分析和比较不同算法在包含了虚假数据的生物数据集中识别复合物的性能。为此,以MIPS数据集为实验对象,图 3和图 4给出了不同识别算法在MIPS数据集上的鲁棒性表现。其中,图 3是在构建出初始蛋白质网络的基础上,随机地人为增加网络中边的比例,从而构建出多个具有不同程度假阳性的蛋白质网络,随后得出的测试结果。图 4是在构建得到初始网络的基础上,随机地人为删除网络中边的比例,得到多个具有不同程度假阴性的蛋白质网络,随后得出的测试结果。
图 3.

不同识别算法性能的假阳性分析
False positive analysis of different recognition algorithms.
图 4.

不同识别算法性能的假阴性分析
False negative analysis of different recognition algorithms.
3. 讨论
各种算法在2种数据集上的特异性、敏感性和F-measure值都较高(表 1、2),CR-STGC算法的识别性能在两种数据集上都要优于其他各种算法。仔细分析其原因:(1)蛋白质具有随着生物体内、外部环境变化而变化的动态特性,通过定义边强度、节点强度和边存在概率等指标来对不同时刻下的蛋白质网络进行动态建模,准确地拟合了动态蛋白质网络发展变化的趋势,为蛋白质复合物的识别提供了可靠基础;(2)提出复合物识别模型,新颖地设计了时间图卷积算子和空间图卷积算子来对网络中蛋白质的特征进行学习,准确地获得了蛋白质数据之间的时间相关性和空间相关性,为下一步通过谱聚类来识别蛋白质复合物创造了条件;(3)将动态蛋白质网络中的复合物识别问题看作时间平滑框架下的图聚类问题,并定义了模块函数来对聚类结果进行优化,从而保证了识别结果的准确性。
此外,随着网络中假阳性的增强,所有的识别算法的F-measure值都明显下降(图 3),但总体来看,CR-STGC算法的识别性能始终更好。当网络中边的增加比例超过30%后,大多数识别算法的性能趋于稳定,表明这些算法都有不错的抗噪能力,能够较好地应对网络中存在的假阳性,过滤掉虚假复合物。接下来仍然以MIPS数据集为实验对象,在构建得到初始网络的基础上,随机地人为删除网络中边的比例,得到多个具有不同程度假阴性的蛋白质网络。重复之前的复合物识别性能测试,随着网络中假阴性的增强,所有识别算法的性能都在急剧下降(图 4),这主要是因为网络中删除的边数越多,可能破坏的蛋白质之间的真实相互作用也越多,从而导致复合物的丢失,文中的各种算法都能很好地模拟和应对这一点。但综合来看,CR-STGC算法的F-measure值始终要优于其他的算法,即使在假阴性数据增加到50%,CR-STGC算法的F-measure值仍然可以维持在0.7左右,这都充分体现了CR-STGC算法的可靠性。
蛋白质网络是一种典型的超大规模复杂网络,在这样的网络环境下是否能够既准确又快速地找到有生物学意义的复合物是评价复合物识别算法是否具有实际价值的主要指标之一。我们以算法的效率为评价指标,分别在DIP数据集和MIPS数据集上测试了不同算法识别复合物的效率(图 5)。
图 5.

不同识别算法的时间复杂度分析
Time complexity analysis of different recognition algorithms.
DPCMNE算法在2种数据集上的识别时间最长,GE-CFI算法次之,ST-APIN算法的运行时间最短,而CR-STGC算法的识别时间位居第5位。相比于DPCMNE、GE-CFI、VGAE和NOCD等4种识别算法,CR-STGC算法在2种数据集上的识别效率分别平均提高了约34.5%、28.7%、25.4%和17.6%,但比SSNEM、MPC-TPW和ST-APIN等识别算法的效率要略低。这主要是因为CR-STGC算法的运行时间还包含了动态蛋白质网络的构建开销,此外在识别复合物过程中,CR-STGC算法综合考虑了网络的时序信息和结构信息来提取网络特征,并通过谱聚类来完成复合物的识别,以牺牲部分时间代价来换取识别精度的提升。总体来看,CR-STGC算法的运行效率仍然是可以接受的,实现了识别质量和识别效率的折中,完全可以应用到大规模蛋白质网络的复合物识别问题中去。
Biography
盛江明,硕士,主管护师,E-mail: hmmsjm@163.com
Funding Statement
湖南省自然科学基金(2021JJ30920);湖南省教育厅创新平台开放基金项目(18K004);湖南省卫建委科研项目(202112072217)
Contributor Information
盛 江明 (Jiangming SHENG), Email: hmmsjm@163.com.
李 鹏 (Peng LI), Email: 1715847023@qq.com.
伊 娜 (Na YI), Email: Nayishand510555@qq.com.
References
- 1.Moreno LA, Omidi M, Wurlitzer M, et al. Understanding protein networks using vester's sensitivity model. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(4):1440–50. doi: 10.1109/TCBB.2018.2885757. [DOI] [PubMed] [Google Scholar]
- 2.Lei HJ, Wen YT, You ZH, et al. Protein-protein interactions prediction via multimodal deep polynomial network and regularized extreme learning machine. IEEE J Biomed Health Inform. 2019;23(3):1290–303. doi: 10.1109/JBHI.2018.2845866. [DOI] [PubMed] [Google Scholar]
- 3.Li M, Ni P, Chen XP, et al. Construction of refined protein interaction network for predicting essential proteins. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(4):1386–97. doi: 10.1109/TCBB.2017.2665482. [DOI] [PubMed] [Google Scholar]
- 4.Zhao ZN, Gong XQ. Protein-protein interaction interface residue pair prediction based on deep learning architecture. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(5):1753–9. doi: 10.1109/TCBB.2017.2706682. [DOI] [PubMed] [Google Scholar]
- 5.Giri SJ, Dutta P, Halani P, et al. MultiPredGO: deep multi-modal protein function prediction by amalgamating protein structure, sequence, and interaction information. IEEE J Biomed Health Inform. 2021;25(5):1832–8. doi: 10.1109/JBHI.2020.3022806. [DOI] [PubMed] [Google Scholar]
- 6.Tang XW, Xiao Q, Yu K. Breast cancer candidate gene detection through integration of subcellular localization data with protein-protein interaction networks. IEEE Trans Nanobioscience. 2020;19(3):556–61. doi: 10.1109/TNB.2020.2990178. [DOI] [PubMed] [Google Scholar]
- 7.Zhang TY, Wang MH, Xi JN, et al. LPGNMF: predicting long non-coding RNA and protein interaction using graph regularized nonnegative matrix factorization. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(1):189–97. doi: 10.1109/TCBB.2018.2861009. [DOI] [PubMed] [Google Scholar]
- 8.徐 冰冰, 岑 科廷, 黄 俊杰, et al. 图卷积神经网络综述. 计算机学报. 2020;43(5):755–80. [Google Scholar]
- 9.Li M, Meng XM, Zheng RQ, et al. Identification of protein complexes by using a spatial and temporal active protein interaction network. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):817–27. doi: 10.1109/TCBB.2017.2749571. [DOI] [PubMed] [Google Scholar]
- 10.Zhu J, Zheng ZT, Yang M, et al. Protein complexes detection based on semi-supervised network embedding model. IEEE/ACM Trans Comput Biol Bioinform. 2021;18(2):797–803. doi: 10.1109/TCBB.2019.2944809. [DOI] [PubMed] [Google Scholar]
- 11.Yao H, Guan JH, Liu TY. Denoising Protein-Protein interaction network via variational graph auto-encoder for protein complex detection. J Bioinform Comput Biol. 2020;18(3):2040010. doi: 10.1142/S0219720020400107. [DOI] [PubMed] [Google Scholar]
- 12.Zaki N, Singh H, Mohamed EA. Identifying protein complexes in protein-protein interaction data using graph convolutional network. IEEE Access. 2021;9:123717–26. doi: 10.1109/ACCESS.2021.3110845. [DOI] [Google Scholar]
- 13.Yao H, Shi YJ, Guan JH, et al. Accurately detecting protein complexes by graph embedding and combining functions with interactions. IEEE/ACM Trans Comput Biol Bioinform. 2020;17(3):777–87. doi: 10.1109/TCBB.2019.2897769. [DOI] [PubMed] [Google Scholar]
- 14.Meng X, Xiang J, Zheng R, et al. DPCMNE: detecting protein complexes from protein-protein interaction networks via multi-level network embedding[J]. IEEE/ACM Trans Comput Biol Bioinform, 2021, PP: 2021Jan8; PP.
- 15.雷 秀娟, 高 银, 郭 玲. 基于拓扑势加权的动态PPI网络复合物挖掘方法. 电子学报. 2018;46(1):145–51. doi: 10.3969/j.issn.0372-2112.2018.01.020. [DOI] [Google Scholar]
- 16.余 晨笛, 侯 立军, 郑 艳玲, et al. 硝化微生物富集及其种群结构与基因表达分析. 华东师范大学学报: 自然科学版. 2019;2019(3):164–73. doi: 10.3969/j.issn.1000-5641.2019.03.018. [DOI] [Google Scholar]
- 17.李 腾, 乔 伟, 张 嘉伟, et al. 隐私保护的基于图卷积神经网络的攻击溯源方法. 计算机研究与发展. 2021;58(5):1006–20. [Google Scholar]
- 18.安 凤平. 优化非线性激活函数-全局卷积神经网络的物体识别算法. 小型微型计算机系统. 2021;42(2):393–8. doi: 10.3969/j.issn.1000-1220.2021.02.029. [DOI] [Google Scholar]
- 19.张 强, 杨 吉斌, 张 雄伟, et al. CS-Softmax: 一种基于余弦相似性的Softmax损失函数. 计算机研究与发展. 2022;59(4):936–49. [Google Scholar]
- 20.施 杰, 伍 星, 刘 韬. 采用HHT算法与卷积神经网络诊断轴承复合故障. 农业工程学报. 2020;36(4):34–43. [Google Scholar]
- 21.郑 作武, 邵 斯绮, 高 晓沨, et al. 基于社交圈层和注意力机制的信息热度预测. 计算机学报. 2021;44(5):921–36. [Google Scholar]
- 22.张 凤荔, 王 雪婷, 王 瑞锦, et al. 融合动态图表示和自注意力机制的级联预测模型. 电子科技大学学报. 2022;51(1):83–90. [Google Scholar]
- 23.Karen S, Andrew Z. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]. 3rd International Conference on Learning Representations(ICLR), San Diego, CA, USA: IEEE Press, 2015: 1-14.
- 24.刘 洋, 王 利民, 孙 铭会. 基于信息熵函数的启发式贝叶斯因果推理. 计算机学报. 2021;44(10):2135–47. doi: 10.11897/SP.J.1016.2021.02135. [DOI] [Google Scholar]
- 25.付 立冬, 马 小科, 聂 靖靖. 进化谱分算法检测动态网络社团结构. 西安电子科技大学学报. 2018;45(2):43-7, 53. [Google Scholar]
- 26.王 超, 赵 阳, 裴 继红. 松弛耦合非负矩阵分解的低分辨率人脸识别算法. 信号处理. 2020;36(7):1127–35. [Google Scholar]
- 27.李 鹏, 罗 爱静, 闵 慧, et al. 采用隐马尔科夫模型的蛋白质复合物识别研究. 计算机科学与探索. 2021;15(10):1980–9. doi: 10.3778/j.issn.1673-9418.2007073. [DOI] [Google Scholar]
- 28.Xu B, Guan JH, Wang Y, et al. Essential protein detection by random walk on weighted protein-protein interaction networks. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(2):377–87. doi: 10.1109/TCBB.2017.2701824. [DOI] [PubMed] [Google Scholar]
- 29.王 晓旭, 刘 晓霞. NOBEL: 一种基于拓扑信息与监督学习的蛋白质复合物识别方法. 中文信息学报. 2021;35(9):82–93. doi: 10.3969/j.issn.1003-0077.2021.09.008. [DOI] [Google Scholar]
- 30.Hu L, Yuan XH, Liu X, et al. Efficiently detecting protein complexes from protein interaction networks via alternating direction method of multipliers. IEEE/ACM Trans Comput Biol Bioinform. 2019;16(6):1922–35. doi: 10.1109/TCBB.2018.2844256. [DOI] [PubMed] [Google Scholar]
















