Abstract
目的
采用加权基因共表达网络分析(WGCNA)探索阿尔茨海默病(AD)相关的差异基因模块及其枢纽基因,并对差异基因模块进行生物功能注释。
方法
从GEO数据库下载转录组测序数据,根据基因的相关性,当关联系数阈值设定为0.85时,参数β=8,以此构建基因共表达网络;采用Pearson相关性检验计算模块基因与临床表型相关性,筛选出与AD显著相关的基因模块,根据模块内的连接性筛选枢纽基因;利用GO功能富集分析和KEGG通路分析对模块进行功能注释。进一步建立β-淀粉样蛋白(Aβ1-42)诱导SH-SY5Y细胞损伤模型,在模型组和对照组中检测枢纽基因的表达水平。结果根据基因表达的相关性,共构建了10个基因共表达模块,其中brown和turquoise模块与AD组显著相关(brown:r=0.66,p < 0.001;turquoise:r=-0.68,P < 0.001);
结果
显示48个基因在共表达网络中处于核心地位;通过生物注释功能发现,两模块中的基因主要富集在DNA损伤修复通路和代谢相关通路等生物学过程中。基因的差异表达分析显示,DNASE1、TEKT2、MTSS1L等基因在AD组中高表达,ACP2、LANCL2、GMPR2等基因在AD组中低表达;体外实验进一步验证了在Aβ1-42诱导的SH-SY5Y细胞损伤过程中DNASE1、TEKT2、MTSS1L表达上调(P < 0.01),ACP2、LANCL2、GMPR2表达下调(P < 0.01)。
结论
brown和turquoise模块与AD高度相关,并从模块中筛选出MTSS1L、GMPR2、ACP2、ACTG1、LANCL2等枢纽基因,可能通过调节DNA损伤和修复参与AD发病机制。
Keywords: 阿尔茨海默病, 加权基因共表达网络分析, 枢纽基因, DNA损伤修复
Abstract
Objective
To investigate the differential expression gene modules and hub genes associated with Alzheimer's disease (AD) by weighted gene co-expression network analysis (WGCNA) and annotate the biological functions of these modules.
Methods
We downloaded transcriptome sequencing data from the GEO database, and according to the correlation of the genes, a gene co-expression network was constructed with the parameter setting of β=8 and a correlation coefficient threshold of 0.85. Pearson correlation test was used to calculate the correlation between the module genes and clinical traits to screen the gene modules significantly associated with AD and identify the hub genes according to the connectivity within modules. GO functional enrichment analysis and KEGG pathway analysis were used to annotate the functions of the modules. A cell model of AD was established in SH-SY5Y cells by Aβ1-42 treatment, and the mRNA expression levels of the hub genes were compared between the Aβ1-42-treated cells and the control cells.
Results
Ten gene co-expression modules were constructed based on the correlations of gene expression, in which the brown (r=0.66, P < 0.001) and turquoise modules (r=-0.68, P < 0.001) were significantly correlated with the AD group. Forty-eight genes were identified as the hub genes in the co-expression network. Function annotation revealed that the genes in both modules were mainly enriched in DNA damage and repair pathways and metabolism-related pathways. Differential expression analysis of the genes revealed that the genes DNASE1, TEKT2 and MTSS1L were highly expressed while ACP2, LANCL2 and GMPR2 were lowly expressed in AD group. The results of cell experiment confirmed the up-regulation of DNASE1, TEKT2 and MTSS1L genes and the down-regulation of ACP2, LANCL2, and GMPR2 in Aβ1-42-treated SH-SY5Y cells (P < 0.01).
Conclusion
The brown and turquoise modules are closely correlated with AD. The hub genes including MTSS1L, GMPR2, ACP2, ACTG1 and LANCL2 selected from the modules may participate in AD pathogenesis by regulating DNA damage and repair.
Keywords: Alzheimer's disease, weighted gene co-expression network analysis, hub genes, DNA damage and repair
阿尔茨海默病(AD)病理特征为大脑中的淀粉样斑块和神经纤维缠结的形成,以及与萎缩性神经元、神经炎症和脑淀粉样血管病有关的分子改变[1]。基于目前的研究,临床上暂无任何治疗方法可以有效地防止AD的发生,因此深入研究揭示AD发病的潜在分子机制及相关基因是当前研究亟需解决的问题。AD的发生伴随的是一个多基因协同作用下的复杂生物学过程,不是一种单基因疾病。应用传统的生物学方法对大量基因进行表达和功能研究存在一定的盲目性,且无法通过基因间的相互作用揭示更为全面的系统整体行为。遗传学在研究许多复杂疾病的病因中发挥着重要作用。基因是遗传物质的功能单位,但单个基因并不单独工作,而是相互作用共同影响人类健康。研究表明,每个基因平均与4到8个其他基因相互作用[2],并参与10种生物功能[3]。基因网络具有识别数百个与复杂疾病相关基因的潜力,从而预测相关的疾病治疗干预靶点[4, 5],这些信息对于预测新基因的功能和寻找在复杂疾病中起关键作用的基因非常重要。加权基因共表达网络分析(WGCNA)[6]是一种常用的系统生物学方法,不仅用于构建基因网络,还用于检测基因模块和识别模块中的核心角色(即枢纽基因)。不同于传统依靠组学数据差异表达分析,WGCNA适用于复杂的多样本转录组数据,相对于以基因为单位的分析,WGCNA算法通过合适的加权系数对基因间的相关系数进行加权运算,使得基因网络近似服从无尺度网络分布,从而具有更好的统计性能,避免了由大量的多重校正导致的假阴性结果[7]。
WGCNA假定基因网络服从无标度拓扑标准,WGCNA并非将基因共表达一分为二(连接的=1,不连接的=0),而是使用一个“软”阈值)来确定连接基因的边的权重,已有研究证明了这种处理方法比未加权的网络具有更稳健的结果[8]。合适的软阈值可以产生接近于无标度网络的共表达网络。WGCNA不是将单个基因与表型联系起来,而是关注少数模块与性状之间的关系,这大大缓解了微阵列数据分析中固有的多重检验问题[9]。
目前关于AD的发病机制仍不完全清楚,尤其是AD的靶基因仍在探索中,虽然有一些研究聚焦于相关基因靶点的探索[10, 11],但距离治疗药物制备、生产和应用还很远,还需要对基因靶点进行更多更深入探索。AD作为一种复杂疾病,其病理生理学和治愈方法仍然未知,而分析单个基因很难实现突破,因此,基于网络的分析方法可能有助于发现疾病相关的基因网络,阐明AD发生发展的动态变化和大脑不同区域的表达模式。本研究通过对AD与不同年龄对照组的RNA-seq数据进行WGCNA分析,计算基因之间的相关性,进而构建加权基因共表达网络,与临床表型相结合进一步分析基因与临床表型之间的关系,为探寻与AD发生和发展相关的潜在靶基因提供理论依据和基础。
1. 材料和方法
1.1. 材料
人神经母细胞瘤SH-SY5Y细胞株(中国医学科学院基础研究所细胞中心,资源编号1101HUM-PUMC000026),RPMI Medium1640和胎牛血清(Gibco),β-淀粉样蛋白(Aβ1-42)(碧云天),Real-SYBR Mixture和cDNA反转录试剂盒(Toyobo),引物合成于北京擎科生物科技有限公司。
1.2. 数据获取与预处理
从NCBI的GEO数据库(Gene Expression Omnibus<sup>[<xref ref-type="bibr" rid="b12">12</xref>, <xref ref-type="bibr" rid="b13">13</xref>]</sup>,<a href="https://www.ncbi.nlm.nih.gov/geo/" target="_blank">https://www.ncbi.nlm.nih.gov/geo/</a>)中下载mRNA转录组测序(RNA- seq)数据,数据编号为GSE153873,测序平台为Illumina NextSeq 500。该样本集来自于Nativio等<sup>[<xref ref-type="bibr" rid="b14">14</xref>]</sup>在2020年发表在Nature Genetics上的工作,其RNA-seq数据来源于12例AD患者(年龄68.3±6.0岁,男性11例,女性1例)、18例无患病对照组死亡后的人脑外侧颞叶组织样本,包含每例样本的性别、死亡年龄、PMI值(死后取得脑组织的时间,h)、Braak分级、Cerad病情分型等临床表型信息。其中对照组根据年龄又细分为年轻组(8例,年龄51.6±7.4岁,男性7例,女性1例)和老年组(10例,年龄68.2±5.1岁,男性9例,女性1例)。使用R语言中的DESeq2程序包分别筛选AD与年轻对照组及和老年对照组大脑组织样本之间的差异表达基因(DEGs),截取标准为差异倍数(FC)大于1.5且错误发现率(FDR)小于0.05,筛选出差异表达基因,用于后续的基因共表达网络的构建和关联分析。
1.3. 加权基因共表达网络的构建
在基因共表达网络中,节点是基因,边表示它们共表达的程度。WGCNA根据第i个和第j个基因之间的共表达相似度sij定义邻接矩阵,根据邻接矩阵计算基因的共表达。假设变量xi表示第i个基因的表达谱,sij则通常定义为基因i和j表达谱之间的皮尔逊相关系数的绝对值,即,
接下来,共表达相似度sij通过邻接函数转换为邻接度aij:
其中β≥1是一个软阈值,根据无标度拓扑标准确定。
通过R语言中的WGCNA程序包构建DEGs的共表达网络[6]。利用hclust函数对样本进行聚类分析,剔除数据集中的离群样本;通过引入加权的相关系数计算两个基因的相关性,计算表达谱基因的邻接矩阵;再根据无尺度网络拟合指数和平均连接度在一定范围内合理选择软阈值β,使其满足无尺度网络和较好的网络连接性,本研究通过设置拟合指数R2>0.85使得基因之间的连接服从近似无尺度网络分布[8, 15],使用pickSoftThreshold函数自动筛选合适的软阈值β[16]。利用blockwiseModules函数进行网络构建和模块检测,生成最小模块大小为30、合并切割高度为0.25的共表达基因模块与拓扑重叠矩阵(TOM),基于TOM的相异度,采用平均连接层次聚类的方法,把具有相似表达模式的基因划分到同一模块中,通过动态剪切树的方法识别基因模块[15]。
1.4. 共表达模块与临床表型的相关性分析
基因模块是在共表达过程中具有密切关联的基因集群。WGCNA采用分层聚类方法识别基因模块,并用不同颜色来表示,对于未能被分配到任何模块的基因,WGCNA将其置于灰色模块中。对每个模块进行主成分分析,以第一主成分计算基因模块的特征值(MEs),代表该模块的整体表达水平。通过计算模块-性状相关系数,给出模块和性状之间的相关系数热图,再通过模块的特征向量与性状的相关系数以及模块显著性P < 0.05筛选出与AD显著相关的基因模块[17]。最后计算模块内的基因表达与性状的相关性GS值和某个基因表达与模块内基因主成分表达的相关系数MM值,通过设置GS、MM、q.weighted的取值范围对networkScreening函数计算得到的基因列表进行筛选,从而识别和鉴定出关键枢纽基因。
1.5. 网络可视化及功能富集分析
选取与AD表型显著相关的基因模块,通过基因之间的加权的共表达关系,利用Cytoscape软件绘制网络图。为了找到与性状相关模块中基因的生物学功能和潜在的生物学途径,基于Gene ontology数据库对核心模块中基因进行GO功能注释分析;基于KEGG数据库对核心模块中基因进行信号通路富集分析。
1.6. 枢纽基因的差异分析及验证
为了验证所筛选出的枢纽基因在AD发生中的重要性,计算其在AD组和正常对照组样本中(老年组和年轻组)的表达水平情况(FPKM),以满足P < 0.05为存在显著性差异为标准,分析出这些基因在AD组与对照组样本中的基因表达差异,从而进一步验证所筛选出的枢纽基因的可信度。此外,为验证枢纽基因序列在结构和功能上的相似性,使用R语言Hmisc包计算相关性矩阵及其显著性水平,使用corrplot包绘制基因共表达相关性热图,验证枢纽基因之间的相似性。
1.7. Aβ1-42诱导SH-SY5Y细胞损伤模型中验证枢纽基因表达差异
SH-SY5Y细胞用含10%胎牛血清1%青链霉素混合的RPMI 1640完全培养基培养,置于37 ℃、5%CO2及饱和湿度的培养箱中,待细胞浓度为80%~90%后传代,隔天换液1次,待细胞生长进入对数生长期用于实验。建立β-淀粉样蛋白(Aβ1-42)诱导SH-SY5Y细胞损伤模型,具体操作如下:将细胞分为对照组和AD模型组。将对数生长期的SH-SY5Y细胞接种于六孔板,每组3个复孔,待细胞融合率为80%时,对照组加入等量培养基,继续培养24 h,AD模型组加入Aβ1-42,终浓度为10 μmol/L,继续培养24 h。收集细胞后PBS清洗1次,每孔加入1 mLTrizol试剂提取总RNA,使用ReverTra Ace qPCR RT Master Mix逆转录反应试剂盒(Toyobo,FSQ-201)按照试剂盒说明操作进行逆转录反应得到cDNA模板。Real-time PCR扩增目的基因使用THUNDERBIRD SYBR qPCR Mix(Toyobo,QPS-201)试剂盒CFX96 real-time PCR system(Bio-rad)仪器完成。使用β-actin作为内参基因,按照20 μL反应体系配制,包括cDNA模板1 μL、上下游引物各1 μL、Real-SYBR Mixture 10 μL、剩下由RNase-free水补齐,每个样本设置3个平行复孔,设定反应程序参数为,预变性95 ℃ 5 min;PCR,40个循环:95 ℃变性10 s,60 ℃退火10 s,72 ℃延伸10 s。使用2-ΔΔCT法分析mRNA的相对表达量。引物序列如表 1。
1.
Gene | Forward | Reverse |
DNASE1 | 5'-CCAGACACCTATCACTACGTGG-3' | 5'-CTCTCGGTTGAAGGTGTCGTTC-3' |
TEKT2 | 5'-ACTCGACTGGTGGAGAGGATTG-3' | 5'-ACTCGACTGGTGGAGAGGATTG-3' |
MTSS1L | 5'-ATGACTCTGGCTTCGTCTCCCA-3' | 5'-TCGCTAACGGACTGGCAGGTTT-3' |
ACP2 | 5'-GGATGCTACAGCACTGGGAACT-3' | 5'-CGGTCAAAGTCTGTGCTTCGCA-3' |
LANCL2 | 5'-TCCTGACAGACCCTATTCGCTC-3' | 5'-TGGAAACCGTGATGTCTCTGGTC-3' |
GMPR2 | 5'-CCAGAATCCTGACTGTCTTGAGC-3' | 5'-CAGAGTAGCCATTTGCCACATCC-3' |
β-actin | 5'-CACCATTGGCAATGAGCGGTTC-3' | 5'-AGGTCTTTGCGGATGTCCACGT-3' |
1.8. 统计学分析
采用R语言和SPSS进行统计分析和数据处理,定量资料以均数±标准差表示,多组间的比较采用单因素方差分析,P < 0.05为差异有统计学意义。
2. 结果
2.1. RNA-seq数据差异分析
该数据包含总共30个样本的27 135个基因表达值。以|log2(FoldChange)|>0.58且FDR < 0.05的标准,AD组与正常老年组的差异表达基因共954个,其中上调基因197个,下调基因201个(图 1A),AD组与正常年轻组的差异表达基因共2368个,其中上调基因199个,下调基因750个(图 1B),合并两组差异基因同时去除重复基因(图 1C),最后共筛选出2990个差异基因,用于构建后续的共表达网络。
2.2. 加权基因共表达网络的构建
首先对所有样本的基因表达值进行聚类分析并作图(图 2A),sample-22样本为明显的离群样本,在后续的数据分析中剔除该样本,从而减少因为样本因素导致的误差。剔除离群样本后的样本聚类及表型热图分析如图 2B。
通过WGCNA算法,根据无尺度网络拟合指数和平均连接度,计算并选取β=8作为本数据集的软阈值(图 2C),并计算基因间的邻接矩阵和TOM矩阵,并根据TOM矩阵构建基因间的分层聚类树,基于动态剪切树的方法把基因分成10个模块,分别用10种颜色矩形表示,纵坐标为基因占比,树状图的分支对应于10个不同的基因模块,树状图上的每一片叶子都对应于一个基因,相似的基因被聚类到相同颜色的模块中(图 2D)。以“模块名(包含基因个数)”的方式展示如下:black(175),blue(569),brown(435),green(299),magenta(46),pink(154),red(256),turquoise(703),yellow(332),grey(21),其中grey模块中的基因无法聚类到其他任何模块,在后续分析中将其移除。
2.3. 共表达模块与临床表型的相关性分析
通过计算各个基因模块与临床表型之间的关系,绘制共表达模块与临床表型的相关性热图(图 3A)。与AD表型相关性最强的两个模块分别是brown模块(r=0.66,P < 0.001)和turquoise模块(r=-0.66,P < 0.001),brown模块中的基因总体上与AD表型正相关,turquoise模块中的基因总体上与AD表型负相关。对各个模块进行层次聚类和热图分析,各模块之间的相关性显示(图 3B),brown和turquoise模块分布在不同的聚类树子树中,因此后续分析中关注于这两个模块更具有代表性。
进一步将brown和turquoise模块分别作为关键模块进行GS和MM分析,brown模块的GS与MM的相关系数r=0.39,P < 0.001(图 4A),turquoise模块的GS与MM的相关系数r=0.20,P < 0.001(图 4B),两模块的eigengene表达热图(图 4C、D),两模块的基因与各临床表型之间的热图和聚类图(图 4E、F)。
对各颜色模块的连通性进行分析(图 5),发现brown模块的基因显著性与连通性的相关系数r=0.58,P < 0.001,turquoise模块的基因显著性与连通性的相关系数r=0.044,P=0.24。最后使用3个标准来筛选brown和turquoise模块中关键枢纽基因:GS>0.65,MM>0.8,多重检验矫正后P < 0.01,剔除非编码基因后,brown模块筛选出14个枢纽基因(表 2),turquoise模块筛选出34个枢纽基因,P值最小的前25个基因如表 3。
2.
Gene | GS | P | adjusted P |
C16orf71 | 0.75 | 1.02E-06 | 1.05E-05 |
C20orf173 | 0.72 | 6.06E-06 | 1.30E-05 |
CXorf56 | 0.69 | 3.59E-07 | 1.05E-05 |
DNASE1 | 0.71 | 4.52E-06 | 1.24E-05 |
FAM151A | 0.66 | 2.51E-05 | 2.54E-05 |
FEN1 | 0.67 | 8.47E-06 | 1.52E-05 |
GMPR2 | 0.66 | 4.63E-06 | 1.25E-05 |
ITGA10 | 0.65 | 7.20E-05 | 4.70E-05 |
IZUMO1 | 0.67 | 1.22E-05 | 1.79E-05 |
MFSD8 | 0.66 | 1.19E-04 | 6.47E-05 |
MTSS1L | 0.68 | 3.12E-05 | 2.83E-05 |
SH3GL1P1 | 0.66 | 2.84E-06 | 1.05E-05 |
TEKT2 | 0.81 | 1.95E-06 | 1.05E-05 |
TUBGCP5 | 0.68 | 4.12E-06 | 1.23E-05 |
3.
Gene | GS | P | adjusted P |
RPH3A | 0.66 | 7.99E-05 | 4.92E-05 |
VPS33B | 0.65 | 5.88E-05 | 4.15E-05 |
DYNC2LI1 | 0.66 | 5.12E-05 | 3.80E-05 |
MRPL54 | 0.65 | 5.05E-05 | 3.76E-05 |
C2orf16 | 0.71 | 3.32E-05 | 2.95E-05 |
EIF5AL1 | 0.68 | 1.92E-05 | 2.24E-05 |
ACP2 | 0.70 | 1.89E-05 | 2.24E-05 |
LYRM9 | 0.66 | 1.11E-05 | 1.73E-05 |
NDUFV1 | 0.67 | 7.11E-06 | 1.39E-05 |
PCYOX1L | 0.69 | 5.88E-06 | 1.29E-05 |
DDOST | 0.66 | 5.20E-06 | 1.26E-05 |
LGMN | 0.67 | 5.09E-06 | 1.26E-05 |
RWDD2B | 0.66 | 4.93E-06 | 1.26E-05 |
COX18 | 0.65 | 4.74E-06 | 1.26E-05 |
DHRS7B | 0.70 | 4.31E-06 | 1.23E-05 |
ACTG1 | 0.67 | 3.51E-06 | 1.16E-05 |
PHB2 | 0.65 | 2.79E-06 | 1.05E-05 |
SCFD2 | 0.68 | 2.73E-06 | 1.05E-05 |
FIBP | 0.66 | 2.67E-06 | 1.05E-05 |
EIF6 | 0.66 | 2.53E-06 | 1.05E-05 |
BECN1 | 0.65 | 2.10E-06 | 1.05E-05 |
LANCL2 | 0.67 | 1.73E-06 | 1.05E-05 |
GSS | 0.72 | 1.61E-06 | 1.05E-05 |
PSMD13 | 0.68 | 1.56E-06 | 1.05E-05 |
USP5 | 0.65 | 1.30E-06 | 1.05E-05 |
2.4. 网络可视化及功能富集分析
将筛选出的枢纽基因列表输入到Cytoscape软件中,根据其权重做出共表达网络基因间的相互作用关系图(图 6),节点形状的大小代表与该节点连接的边的数量,边的宽度代表两节点间连接的权重大小。分别对两个模块中的枢纽基因进行GO富集分析,选取q-weighted值最大的前20个通路作图(图 6A、B),发现brown模块的基因功能主要富集于:DNA重组(GO: 0006310)、DNA损伤(GO: 0042769)、T细胞受体信号通路(GO: 0050852)、FcεRI信号通路(GO: 0038095)、MAPK信号转导(GO: 0000165)、蛋白酶体介导的泛素依赖的蛋白质分解过程(GO: 0043161)等生物学过程;turquoise模块的基因功能主要富集于:MAPK信号转导(GO: 0000165)、NADH代谢过程(GO: 0006734)、FcεRI信号通路(GO: 0038095)、ATP代谢过程(GO: 0046034)等生物学过程。此外,KEGG通路分析显示,brown模块基因主要富集于:核苷酸切除修复(hsa03420)、DNA错配修复(hsa03430)、碱基切除修复(hsa03410)、非同源性末端接合(hsa03450)、DNA复制(hsa03030)等通路(图 7C);turquoise模块基因主要富集于:阿尔茨海默病(hsa05010)、半胱氨酸和蛋氨酸代谢(hsa00270)、缬氨酸、亮氨酸和异亮氨酸降解(hsa00280)、丙酮酸代谢(hsa00620)、吞噬(hsa04145)、代谢(hsa01100)等通路(图 7D)。
2.5. 计算机与细胞模型验证枢纽基因的差异表达
计算机分别对上述所筛选出的枢纽基因,在AD组、正常老年组、正常年轻组中进行基因表达分析(图 8A)。进一步构建Aβ1-42诱导SH-SY5Y细胞损伤模型,分别在SH-SY5Y细胞Aβ1-42诱导损伤组和SH- SY5Y正常细胞对照组中检测枢纽基因的mRNA表达水平。DNASE1、TEKT2、MTSS1L等基因在损伤组中高表达,与对照组的差异具有统计学意义(图 8A);ACP2、LANCL2、GMPR2等基因在损伤组中低表达,与对照组的差异具有统计学意义(图 8B)。
为验证枢纽基因序列在功能和结构上的相似性,使用R语言Hmisc包计算相关性矩阵及其显著性水平,同时使用corrplot包绘制基因共表达相关性热图。在brown模块中,TUBGCP5、MFSD8、FEN1、CXorF56、GMPR2基因群与其余枢纽基因群呈负相关(图 9A);turquoise模块中的大部分基因间相关系数大于0.65(图 9B),显示该模块中枢纽基因之间的相关性较高,上下游调控作用联系紧密。
3. 讨论
本研究旨在了解和分析高通量实验数据所捕获的信息,这些数据远比差异表达基因的列表丰富,有可能鉴定出在AD的病理生理学中起重要作用的相关基因及其网络[18]。目前基于WGCNA挖掘疾病相关基因逐渐应用在基础研究中[10, 11]。传统的基因水平分析更多关注于强效应基因,而很难发现弱效应基因,WGCNA的系统挖掘思路则对弱效应基因水平的分析是很好的补充。WGCNA使强相关基因在幂函数处理后相关性强化,而弱相关基因在幂函数处理后相关性明显弱化,从而使得网络关系服从近似无尺度网络分布;相较于常规的聚类方法,无尺度网络分布更具有生物学数据特性,能很好地还原基因在生物学过程中的作用。因此,构建WGCNA网络有助于识别和筛选出与特定临床表型相关的重要模块和关键基因。
有研究使用WGCNA分析表达谱芯片数据对AD的相关核心基因靶点进行鉴定[10, 11],筛选得到了与AD表型相关的高表达基因模块。相较于表达谱芯片技术,RNA-seq不依赖于预先设计的探针或已知的序列碱基特征,数据集是无偏倚的,实现了无假设的实验设计,因此具有较高的灵敏度和检测新基因以及遗传变异的能力。研究表明,RNA-Seq可检测的差异表达基因比例比表达芯片更高,特别是低丰度的基因[19, 20],具有更宽的动态范围和更高的灵敏度。因此,本研究利用RNA-seq数据集开展分析。AD作为一种神经退行性疾病,其发生发展往往随着年龄增长而表现日趋严重,本研究的样本集不仅包含AD组,还包含无患病老年组和年轻组,有助于探究年龄因素在AD发展中的作用。此外,本研究中不仅筛选得到了AD组中的高表达基因模块,还发现了另一个低表达基因模块。基于AD疾病的复杂性,对高、低表达基因模块的全面覆盖,能够对疾病的发生发展机制有更深入的了解,提供更广泛的理论基础。
本研究对从GEO数据库下载的RNA-seq数据集进行了WGCNA分析,分别计算了AD患者与正常老年组和正常年轻组之间的差异基因,共得到2990个基因作为后续的共表达网络分析的数据集,以防止没有明显差异的基因产生高相关性。值得注意的是,正常老年组和正常年轻组两组间的基因差异并不显著,差异基因个数仅为11个。共表达网络分析中,识别并聚类成10个颜色模块,并对各模块进行基因与临床表型的相关性分析,其中brown和turqusise模块中的基因与AD表型的相关性最为显著,分别筛选出两模块中包含的14个和34个枢纽基因与AD的相互作用关系紧密。
在brown模块中,发现基因功能主要富集在DNA重组、DNA损伤、T细胞受体信号通路、FcεRI信号通路、MAPK信号转导、蛋白酶体介导的泛素依赖的蛋白质分解过程等生物学过程中;在turquoise模块中,发现基因功能主要富集在MAPK信号转导、NADH代谢过程、FcεRI信号通路、ATP代谢过程等生物学过程中。此外,KEGG通路分析显示,brown模块基因主要富集在核苷酸切除修复、DNA错配修复、碱基切除修复、非同源性末端接合、DNA复制等DNA损伤修复通路,turquoise模块基因主要富集在阿尔茨海默病、半胱氨酸和蛋氨酸代谢、丙酮酸代谢、蛋白酶体、氨基酸的生物合成、吞噬等代谢相关通路,提示阿尔茨海默病发生发展的主要原因是DNA损伤修复以及代谢通路的异常。在AD相关的富集通路的研究中,发现MAPK信号转导通路与AD的发生与发展有关[21, 22]。此外,有研究发现“核苷酸切除修复”(NER)通路中的成分基因的改变与AD的发生发展有关,提示DNA修复,特别是NER与AD发病机制具有一定联系[23]。也有研究表明,氧化应激与帕金森综合症、阿尔茨海默病和其他神经系统疾病有关[24, 25]。当细胞在体内或体外遭受环境刺激时,如受到氧化氮、钙或病原体的刺激,氧化和抗氧化系统之间的平衡被破坏,此时可能会产生并积累活性氧(ROS),最终导致氧化应激。氧化应激可引起DNA损伤,表现为DNA链断裂、DNA位点突变、DNA双链畸变、原癌基因突变和肿瘤抑制基因突变等,本研究中的GO和KEGG分析结果也提示阿尔茨海默病中的基因通路主要富集于DNA损伤修复过程。
根据共表达网络的显著性,我们在brown模块中筛选出包括MTSS1L、GMPR2、TEKT2在内的14个枢纽基因,在turqusise模块中筛选出包括ACP2、ACTG1、LANCL2在内的34个枢纽基因。有研究在多发性同源家族中进行的全外显子组测序研究中发现,MTSS1L基因与神经退行性疾病有关[26]。酸性磷酸酶是ACP1基因的产物,是一种无处不在的低相对分子质量蛋白酪氨酸磷酸酶。有研究表明,ACP1蛋白的水平在阿尔茨海默病的大脑中明显下降[27],此外,ACP2作为一种溶酶体酸性磷酸酶的编码基因,与阿尔茨海默病的淀粉样斑块有关[28, 29]。这与本研究WGCNA分析和细胞验证试验中所取得的结果相一致。
有研究发现GMPR基因在AD发生发展中表现为逐渐增加[30]。GMPR的产物GMPR1在AMPK和腺苷受体通路中,因此与AD中的Tau磷酸化有关。虽然GMPR1和GMPR2的氨基酸序列有90%相同,但其在表达水平上有所不同,根据GeneCard的结果,GMPR1在大脑和大脑皮层中含量丰富,而GMPR2的含量低得多。本研究通过对GMPR2的差异表达分析和细胞验证试验发现,相比于对照组,GMPR2在AD组的大脑皮层中显著低表达,提示GMPR2在AD患者的大脑皮层中表达量的降低,可能是引起AD发生的一个重要因素。
ACTG1参与各种类型的细胞运动和细胞骨架的维持,也影响到脊柱的形成、稳定和突触的形态学变化[31]。已有研究发现ACTG1的表达水平与蒙特利尔认知评估(MoCA)评分呈正相关,即在MoCA评分更低的AD组中,ACTG1的表达水平也更低,这也与本研究所筛选出来的枢纽基因ACTG1的结果相一致。在验证脱落酸(ABA,一种异戊二烯植物激素)对AD的治疗作用过程中的研究发现,脱落酸通过对LANCL2的激活可下调炎症细胞因子,如TNF-α、IL-1β和IFN-γ,从而减少Aβ的沉积、过度的神经炎症和记忆障碍[32];在正常人脑中高表达的LANCL2基因,可以作为炎症性疾病和糖尿病的治疗靶点[33]。本研究发现,与对照组相比,LANCL2基因在AD患者中的大脑皮层中显著低表达,同时在细胞模型上进行mRNA表达水平的验证试验,进一步证明了该基因在AD的发生发展中的重要作用。
综上所述,本研究通过WGCNA分析,发现了brown和turquoise模块被确定为与AD高度相关的模块,并从模块中筛选出MTSS1L、GMPR2、ACP2、ACTG1、LANCL2等枢纽基因,它们可能通过调节DNA损伤和修复、MAPK信号转导、自噬和溶酶体功能障碍、细胞形态、炎症细胞因子等生物学过程参与AD发病机制。细胞水平实验进一步验证了通过WGCNA分析筛选出的枢纽基因在不同组别中的差异表达。本研究发现了一些以前并未报道的AD相关基因,如GMPR2在AD组的大脑皮层中显著低表达,可能是参与AD的重要调控因子,为AD的防治提供了潜在的治疗靶点和理论依据。
Biographies
薛继国,博士,助理研究员,E-mail: xuejgcn@163.com
刘静,副主任技师,E-mail: banban876420@163.com
Funding Statement
北京市自然科学基金(5214028);国家自然科学基金(82070447)
Supported by National Natural Science Foundation of China (82070447)
Contributor Information
薛 继国 (Jiguo XUE), Email: xuejgcn@163.com.
刘 静 (Jing LIU), Email: banban876420@163.com.
范 皎 (Jiao FAN), Email: fanjiao@301hospital.com.cn.
References
- 1.Serrano-Pozo A, Frosch MP, Masliah E, et al. Neuropathological alterations in Alzheimer disease. http://www.onacademic.com/detail/journal_1000036512289110_2160.html. Cold Spring Harb Perspect Med. 2011;1(1):a006189–97. doi: 10.1101/cshperspect.a006189. [Serrano-Pozo A, Frosch MP, Masliah E, et al. Neuropathological alterations in Alzheimer disease[J]. Cold Spring Harb Perspect Med, 2011, 1(1): a006189-97.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 2.Arnone MI, Davidson EH. The hardwiring of development: organization and function of genomic regulatory systems. Development. 1997;124(10):1851–64. doi: 10.1242/dev.124.10.1851. [Arnone MI, Davidson EH. The hardwiring of development: organization and function of genomic regulatory systems[J]. Development, 1997, 124(10): 1851-64.] [DOI] [PubMed] [Google Scholar]
- 3.Miklos GL, Rubin GM. The role of the genome project in determining gene function: insights from model organisms. Cell. 1996;86(4):521–9. doi: 10.1016/S0092-8674(00)80126-9. [Miklos GL, Rubin GM. The role of the genome project in determining gene function: insights from model organisms[J]. Cell, 1996, 86(4): 521-9.] [DOI] [PubMed] [Google Scholar]
- 4.Chen Y, Zhu J, Lum PY, et al. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008;452(7186):429–35. doi: 10.1038/nature06757. [Chen Y, Zhu J, Lum PY, et al. Variations in DNA elucidate molecular networks that cause disease[J]. Nature, 2008, 452(7186): 429-35.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 5.Schadt EE, Lamb J, Yang X, et al. An integrative genomics approach to infer causal associations between gene expression and disease. Nat Genet. 2005;37(7):710–7. doi: 10.1038/ng1589. [Schadt EE, Lamb J, Yang X, et al. An integrative genomics approach to infer causal associations between gene expression and disease[J]. Nat Genet, 2005, 37(7): 710-7.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6.Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 2008;9:559–65. doi: 10.1186/1471-2105-9-559. [Langfelder P, Horvath S. WGCNA: an R package for weighted correlation network analysis[J]. BMC Bioinformatics, 2008, 9: 559- 65.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 7.宋 长新, 雷 萍, 王 婷. 基于WGCNA算法的基因共表达网络构建理论及其R软件实现. https://www.cnki.com.cn/Article/CJFDTOTAL-GXNB201301026.htm. 基因组学与应用生物学. 2013;32(1):135–41. [宋长新, 雷萍, 王婷. 基于WGCNA算法的基因共表达网络构建理论及其R软件实现[J]. 基因组学与应用生物学, 2013, 32(1): 135-41.] [Google Scholar]
- 8.Zhang B, Horvath S. A general framework for weighted gene coexpression network analysis. http://www.researchgate.net/file.PostFileLoader.html?id=57bdeaad40485404eb0753d4&assetKey=AS%3A398680193552385%401472064173348. Stat Appl Genet Mol Biol. 2005;4:1790–9. doi: 10.2202/1544-6115.1128. [Zhang B, Horvath S. A general framework for weighted gene coexpression network analysis[J]. Stat Appl Genet Mol Biol, 2005, 4: 1790-9.] [DOI] [PubMed] [Google Scholar]
- 9.Fuller TF, Ghazalpour A, Aten JE, et al. Weighted gene coexpression network analysis strategies applied to mouse weight. http://europepmc.org/articles/PMC1998880/pdf/335_2007_Article_9043.pdf. Mamm Genome. 2007;18(6/7):463–72. doi: 10.1007/s00335-007-9043-3. [Fuller TF, Ghazalpour A, Aten JE, et al. Weighted gene coexpression network analysis strategies applied to mouse weight[J]. Mamm Genome, 2007, 18(6/7): 463-72.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 10.张 帆, 钟 斯然, 杨 斯漫, et al. 阿尔茨海默病表达谱芯片的加权基因共表达网络分析. 中国老年学杂志. 2020;40(11):2340–5. doi: 10.3969/j.issn.1005-9202.2020.11.030. [张帆, 钟斯然, 杨斯漫, 等. 阿尔茨海默病表达谱芯片的加权基因共表达网络分析[J]. 中国老年学杂志, 2020, 40(11): 2340-5.] [DOI] [Google Scholar]
- 11.Zhang F, Zhong SR, Yang SM, et al. Identification of potential therapeutic targets of Alzheimer's disease by weighted gene coexpression network analysis. Chin Med Sci J. 2020;35(4):330–41. doi: 10.24920/003695. [Zhang F, Zhong SR, Yang SM, et al. Identification of potential therapeutic targets of Alzheimer's disease by weighted gene coexpression network analysis[J]. Chin Med Sci J, 2020, 35(4): 330-41.] [DOI] [PubMed] [Google Scholar]
- 12.Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002;30(1):207–10. doi: 10.1093/nar/30.1.207. [Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository[J]. Nucleic Acids Res, 2002, 30(1): 207-10.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 13.Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO: archive for functional genomics data sets: update. http://nar.oupjournals.org/content/early/2012/11/26/nar.gks1193.full-text-lowres.pdf. Nucleic Acids Res. 2013;41(database issue):D991–5. doi: 10.1093/nar/gks1193. [Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO: archive for functional genomics data sets: update[J]. Nucleic Acids Res, 2013, 41(database issue): D991-5.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 14.Nativio R, Lan Y, Donahue G, et al. An integrated multi-omics approach identifies epigenetic alterations associated with Alzheimer's disease. Nat Genet. 2020;52(10):1024–35. doi: 10.1038/s41588-020-0696-0. [Nativio R, Lan Y, Donahue G, et al. An integrated multi-omics approach identifies epigenetic alterations associated with Alzheimer's disease[J]. Nat Genet, 2020, 52(10): 1024-35.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 15.Horvath S, Dong J. Geometric interpretation of gene coexpression network analysis. PLoS Comput Biol. 2008;4(8):e1000117–26. doi: 10.1371/journal.pcbi.1000117. [Horvath S, Dong J. Geometric interpretation of gene coexpression network analysis[J]. PLoS Comput Biol, 2008, 4(8): e1000117-26.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 16.Zheng CH, Yuan L, Sha W, et al. Gene differential coexpression analysis based on biweight correlation and maximum clique. http://www.science-open.com/document_file/58026e78-aa25-4427-a91d-23f9c351e3f3/PubMedCentral/58026e78-aa25-4427-a91d-23f9c351e3f3.pdf. BMC Bioinformatics. 2014;15(Suppl 15):S3–12. doi: 10.1186/1471-2105-15-S15-S3. [Zheng CH, Yuan L, Sha W, et al. Gene differential coexpression analysis based on biweight correlation and maximum clique[J]. BMC Bioinformatics, 2014, 15(Suppl 15): S3-12.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 17.兰 燕, 张 旭. 基于加权共表达网络预测结直肠癌的核心基因. 重庆理工大学学报: 自然科学版. 2021;35(3):242–51. doi: 10.3969/j.issn.1674-8425(z).2021.03.032. [兰燕, 张旭. 基于加权共表达网络预测结直肠癌的核心基因[J]. 重庆理工大学学报: 自然科学版, 2021, 35(3): 242-51.] [DOI] [Google Scholar]
- 18.Garofalo M, Pandini C, Bordoni M, et al. Alzheimer's, Parkinson's disease and amyotrophic lateral sclerosis gene expression patterns divergence reveals different grade of RNA metabolism involvement. Int J Molecular Sci. 2020;21(24):9500–12. doi: 10.3390/ijms21249500. [Garofalo M, Pandini C, Bordoni M, et al. Alzheimer's, Parkinson's disease and amyotrophic lateral sclerosis gene expression patterns divergence reveals different grade of RNA metabolism involvement [J]. Int J Molecular Sci, 2020, 21(24): 9500-12.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 19.Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009;10(1):57–63. doi: 10.1038/nrg2484. [Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics[J]. Nat Rev Genet, 2009, 10(1): 57-63.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 20.Rogler CE, Tchaikovskaya T, Norel R, et al. RNA expression microarrays (REMs), a high-throughput method to measure differences in gene expression in diverse biological samples. Nucleic Acids Res. 2004;32(15):e120–31. doi: 10.1093/nar/gnh116. [Rogler CE, Tchaikovskaya T, Norel R, et al. RNA expression microarrays (REMs), a high-throughput method to measure differences in gene expression in diverse biological samples[J]. Nucleic Acids Res, 2004, 32(15): e120-31.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 21.Sundararajan S, Gamboa JL, Victor NA, et al. Peroxisome proliferator-activated receptor-gamma ligands reduce inflammation and infarction size in transient focal ischemia. Neuroscience. 2005;130(3):685–96. doi: 10.1016/j.neuroscience.2004.10.021. [Sundararajan S, Gamboa JL, Victor NA, et al. Peroxisome proliferator-activated receptor-gamma ligands reduce inflammation and infarction size in transient focal ischemia[J]. Neuroscience, 2005, 130(3): 685-96.] [DOI] [PubMed] [Google Scholar]
- 22.侯 德仁, 田 怡, 周 军, et al. 丁苯酞对阿尔茨海默病模型大鼠P38及ERK表达的影响及意义. http://www.j-smu.com/CN/article/downloadArticleFile.do?attachType=PDF&id=2288. 南方医科大学学报. 2009;29(8):1592–5. [侯德仁, 田怡, 周军, 等. 丁苯酞对阿尔茨海默病模型大鼠P38及ERK表达的影响及意义[J]. 南方医科大学学报, 2009, 29(8): 1592-5.] [PubMed] [Google Scholar]
- 23.Jensen HLB, Lillenes MS, Rabano A, et al. Expression of nucleotide excision repair in Alzheimer's disease is higher in brain tissue than in blood. Neurosci Lett. 2018;672:53–8. doi: 10.1016/j.neulet.2018.02.043. [Jensen HLB, Lillenes MS, Rabano A, et al. Expression of nucleotide excision repair in Alzheimer's disease is higher in brain tissue than in blood[J]. Neurosci Lett, 2018, 672: 53-8.] [DOI] [PubMed] [Google Scholar]
- 24.Di Matteo V, Esposito E. Biochemical and therapeutic effects of antioxidants in the treatment of Alzheimer's disease, Parkinson's disease, and amyotrophic lateral sclerosis. Curr Drug Targets CNS Neurol Disord. 2003;2(2):95–107. doi: 10.2174/1568007033482959. [Di Matteo V, Esposito E. Biochemical and therapeutic effects of antioxidants in the treatment of Alzheimer's disease, Parkinson's disease, and amyotrophic lateral sclerosis[J]. Curr Drug Targets CNS Neurol Disord, 2003, 2(2): 95-107.] [DOI] [PubMed] [Google Scholar]
- 25.Zhao B. Natural antioxidants protect neurons in Alzheimer's disease and Parkinson's disease. Neurochem Res. 2009;34(4):630–8. doi: 10.1007/s11064-008-9900-9. [Zhao B. Natural antioxidants protect neurons in Alzheimer's disease and Parkinson's disease[J]. Neurochem Res, 2009, 34(4): 630-8.] [DOI] [PubMed] [Google Scholar]
- 26.Alazami AM, Patel N, Shamseldin HE, et al. Accelerating novel candidate gene discovery in neurogenetic disorders via wholeexome sequencing of prescreened multiplex consanguineous families. Cell Rep. 2015;10(2):148–61. doi: 10.1016/j.celrep.2014.12.015. [Alazami AM, Patel N, Shamseldin HE, et al. Accelerating novel candidate gene discovery in neurogenetic disorders via wholeexome sequencing of prescreened multiplex consanguineous families[J]. Cell Rep, 2015, 10(2): 148-61.] [DOI] [PubMed] [Google Scholar]
- 27.Shimohama S, Fujimoto S, Chachin M, et al. Alterations of low molecular weight acid phosphatase protein level in Alzheimer's disease. Brain Res. 1995;699(1):125–9. doi: 10.1016/0006-8993(95)00995-3. [Shimohama S, Fujimoto S, Chachin M, et al. Alterations of low molecular weight acid phosphatase protein level in Alzheimer's disease[J]. Brain Res, 1995, 699(1): 125-9.] [DOI] [PubMed] [Google Scholar]
- 28.Omar R, Pappolla M, Argani I, et al. Acid phosphatase activity in senile plaques and cerebrospinal fluid of patients with Alzheimer's disease. http://www.ncbi.nlm.nih.gov/pubmed/8427565. Arch Pathol Lab Med. 1993;117(2):166–9. [Omar R, Pappolla M, Argani I, et al. Acid phosphatase activity in senile plaques and cerebrospinal fluid of patients with Alzheimer's disease[J]. Arch Pathol Lab Med, 1993, 117(2): 166-9.] [PubMed] [Google Scholar]
- 29.Kawai M, Cras P, Richey P, et al. Subcellular localization of amyloid precursor protein in senile plaques of Alzheimer's disease. http://www.researchgate.net/profile/George_Perry/publication/21593781_Subcellular_localization_of_amyloid_precursor_protein_in_senile_plaques_of_Alzheimer. Am J Pathol. 1992;140(4):947–58. [Kawai M, Cras P, Richey P, et al. Subcellular localization of amyloid precursor protein in senile plaques of Alzheimer's disease [J]. Am J Pathol, 1992, 140(4): 947-58.] [PMC free article] [PubMed] [Google Scholar]
- 30.Liu H, Luo K, Luo D. Guanosine monophosphate reductase 1 is a potential therapeutic target for Alzheimer's disease. Sci Rep. 2018;8(1):2759–66. doi: 10.1038/s41598-018-21256-6. [Liu H, Luo K, Luo D. Guanosine monophosphate reductase 1 is a potential therapeutic target for Alzheimer's disease[J]. Sci Rep, 2018, 8(1): 2759-66.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 31.Dillon C, Goda Y. The actin cytoskeleton: integrating form and function at the synapse. Annu Rev Neurosci. 2005;28:25–35. doi: 10.1146/annurev.neuro.28.061604.135757. [Dillon C, Goda Y. The actin cytoskeleton: integrating form and function at the synapse[J]. Annu Rev Neurosci, 2005, 28: 25-35.] [DOI] [PubMed] [Google Scholar]
- 32.Jeon SH, Kim N, Ju YJ, et al. Phytohormone abscisic acid improves memory impairment and reduces neuroinflammation in 5xFAD mice by upregulation of LanC-Like protein 2. Int J Molecular Sci. 2020;21(22):8425–37. doi: 10.3390/ijms21228425. [Jeon SH, Kim N, Ju YJ, et al. Phytohormone abscisic acid improves memory impairment and reduces neuroinflammation in 5xFAD mice by upregulation of LanC-Like protein 2[J]. Int J Molecular Sci, 2020, 21(22): 8425-37.] [DOI] [PMC free article] [PubMed] [Google Scholar]
- 33.Lu P, Hontecillas R, Philipson C, et al. Lanthionine synthetase component C-like protein 2: a new drug target for inflammatory diseases and diabetes. Current Drug Targets. 2014;15(6):565–72. doi: 10.2174/1389450115666140313123714. [Lu P, Hontecillas R, Philipson C, et al. Lanthionine synthetase component C-like protein 2: a new drug target for inflammatory diseases and diabetes[J]. Current Drug Targets, 2014, 15(6): 565- 72.] [DOI] [PubMed] [Google Scholar]