Abstract
针对脑电(EEG)情绪识别中存在的时空特征异质性、频段信息利用不足和跨受试者泛化能力弱等问题,本文提出一种基于状态空间模型的层次化时空特征学习架构——时空曼巴模型(ST-Mamba)。首先,本文提出卷积时空(CST)双分支协同模块,融合了卷积神经网络(CNN)的局部特征提取与状态空间模型的全局建模能力,通过自适应加权融合,有效解决了脑电通道间关系建模不足的问题。其次,设计的多频段时空特征金字塔(MBSTP)模块,通过频段注意力机制自适应加权不同频段特征,并结合层级融合策略提取大脑区域的空间拓扑依赖性。此外,本文所提模型利用数据增强策略通过频域、时域和空间三维增强框架,有效提升模型在跨受试者情景下的泛化能力。该模型在上海交通大学情感脑电数据集(SEED)第三版(SEED-III)和SEED第四版(SEED-IV)上的平均准确率分别达到95.56%和84.47%。实验表明,本文所提状态空间模型能有效缓解深层网络中的过度平滑现象,为应对脑电情绪识别中的时空异质性与跨受试者泛化挑战提供了新思路。
Keywords: 脑电, 情绪识别, 曼巴, 深度学习, 脑电信号处理
Abstract
To address the challenges of spatiotemporal feature heterogeneity, insufficient utilization of frequency band information, and weak cross-subject generalization in electroencephalogram (EEG)-based emotion recognition, this paper proposes a hierarchical spatiotemporal feature learning architecture named spatio-temporal mamba (ST-Mamba) based on state space models. Firstly, the proposed conv-spatio-temporal (CST) dual-branch collaborative module integrates the local feature extraction capability of convolutional neural network (CNN) with the global modeling ability of state space models. Through adaptive weighted fusion, it effectively mitigates the issue of inadequate modeling of inter-channel relationships in EEG signals. Secondly, the designed multi-band spatio-temporal feature pyramid (MBSTP) module adaptively weights features from different frequency bands via a frequency-band attention mechanism, while capturing spatial topological dependencies across brain regions through a hierarchical fusion strategy. Additionally, a data augmentation framework efficiently enhances the model’s cross-subject generalization by applying augmentations in the frequency, temporal, and spatial domains. The proposed model achieves average accuracies of 95.56% and 84.47% on the Shanghai Jiao Tong University emotion EEG dataset (SEED), version III (SEED-III) and version IV (SEED-IV), respectively. Experiments demonstrate that the state space model effectively alleviates the over-smoothing issue in deep networks, offering a novel solution to spatiotemporal heterogeneity and cross-subject generalization challenges in EEG-based emotion recognition.
Keywords: Electroencephalogram, Emotion recognition, Mamba, Deep learning, Electroencephalogram signal processing
0. 引言
情绪在人类行为与认知过程中扮演着关键角色,对其进行精准识别是推进人机交互与情感智能发展的核心议题之一。脑电图(electroencephalogram,EEG)信号凭借其毫秒级的时间分辨率与客观采集特性,被视为情绪识别研究中的理想媒介[1-2]。在情绪建模方面,Russell[3]提出的效价—唤醒度(valence-arousal,VA)二维模型为情绪的连续量化提供理论基础,而脑机接口(brain-computer interface,BCI)技术则通过解码EEG信号,将神经活动转化为指令,显著增强情绪驱动下的人机交互能力[4]。目前,已有基于生理信号的情绪分析数据库(database for emotion analysis using physiological signals,DEAP)[5]、上海交通大学情绪EEG数据集(Shanghai Jiao Tong University emotion EEG dataset,SEED)[6]等公开数据集可为该领域的研究提供重要的数据支撑。然而,由于EEG信号本身具有高度的非平稳性和时空耦合特性,如何从中提取出判别性强且跨受试者稳定的情绪特征,仍是目前研究面临的主要挑战。
当前,随着深度学习的发展,已有研究在逐步推进完善针对EEG信号的处理范式。初期,此类研究主要将EEG数据视为二维时序信号,并采用卷积神经网络(convolutional neural networks,CNN)进行特征提取,如Lawhern等[7]提出的EEG网络(EEGNet)就是一种高效的轻量级模型,而后续研究逐步对其进行深层化拓展以提升性能[8]。为更准确地建模大脑电极的空间拓扑关系,研究者们将图神经网络(graph neural networks,GNN)引入本领域,将电极视为图节点,其空间关系视为边,从而将EEG信号处理拓展至“第三维”[9-10]。例如,Song等[11]提出的动态图CNN(dynamic graph CNN,DGCNN)通过动态构建邻接矩阵,以此来捕捉通道间依赖,显著提升情绪识别的准确率。
状态空间模型(state space model,SSM)作为一种新兴的长序列建模技术,为解决EEG信号中的长程依赖问题提供了新思路。此外,循环神经网络(recurrent neural networks,RNN)及其变体,如长短期记忆网络(long short-term memory,LSTM)[12],存在梯度消失或爆炸问题;而变换器(Transformer)[13]架构的自注意力机制则受限于二次计算复杂度与对噪声的敏感性。在此背景下,Gu等[14]提出的曼巴(Mamba)模型引入了选择性状态空间机制,在保持线性计算复杂度的同时,实现了对长上下文的高效建模。近年来,Mamba模型在EEG处理领域展现出独特优势。如Yang等[15]将CNN与Mamba模型结合,成功应用于运动想象任务的EEG数据解码;Zhu等[16]提出的视觉Mamba模型经初步验证,确认了该方法在EEG情绪识别中的可行性与优势。这些研究不仅证实Mamba模型在EEG情绪识别中的有效性,还凸显其在长序列建模、计算效率和跨受试者泛化方面的综合优势,为本文构建基于SSM的EEG情绪识别架构提供了理论基础。
尽管现有方法取得了一定进展,但目前EEG情绪识别仍面临三方面挑战:时空特征提取不充分、跨频段信息利用不足,以及模型跨受试者泛化能力较弱。针对这些问题,本文提出一种新颖的时空Mamba模型(spatio-temporal Mamba,ST-Mamba)。具体而言,首先通过构建卷积时空模块(convolutional spatio-temporal block,CST),融合卷积操作(convolutional,Conv)的局部特征提取能力与SSM的全局建模优势;同时,设计多频段时空特征金字塔(multi-band spatio-temporal pyramid,MBSTP),利用注意力机制实现θ(4~8 Hz)、α(8~12 Hz)和β(12~30 Hz)等频段信息的自适应融合。此外,本文还将引入EEG数据增强(EEG augmentation,EA)策略,期望通过频域增强、时域扰动和空间变换,提升模型在复杂场景下的鲁棒性与跨受试者泛化能力。
1. 本文方法
本文提出ST-Mamba模型,采用层次化时空特征学习框架,旨在应对EEG情绪识别中时空特征的异质性与动态性挑战。该模型的核心为CST模块时空特征金字塔,其通过双分支协同与自适应融合机制,实现信号特征的有效解耦与表达。
在特征提取层面,CST模块首先利用浅层卷积模块提取多尺度基础特征,随后将其分流至空间与时间分支进行并行处理。时间分支采用深度可分离卷积结合高效通道注意力机制(efficient channel attention,ECA)[17],专注提取局部时间特征并增强关键电极通道的表征;空间分支引入二维状态空间(two-dimensional state space,SS2D)模块[18],基于状态空间方程对全局空间依赖进行建模,以捕捉EEG信号的动态演化规律。两分支分别使用S型加权线性单元(sigmoid-weighted linear unit,SiLU)[19]和高斯误差线性单元(Gaussian error linear unit,GELU)[20]激活函数以适应不同维度的特征属性。
融合阶段引入可学习注意力权重,实现时空特征的自适应加权整合[21],旨在保留时间细节的同时引入空间上下文信息[22]。此外,模型构建了多频段层级融合架构,从θ、α到β频带逐步整合低频全局语义与高频局部细节[23]。该融合方式在多尺度上兼顾了时间局部精细度与空间全局上下文[24]。为进一步提升模型的泛化能力,本文采用EA策略,通过频带增强、噪声注入与通道掩码等手段构建近似真实场景的信号变异空间[25]。最终,通过CST模块的多层次特征提取与融合,本文模型构建了从微观瞬态特征到宏观情绪模式的完整表征体系[26]。
1.1. CST模块
在EEG信号情绪识别任务中,模型需同时捕捉时空局部特征与全局依赖关系。针对SEED数据集的多通道EEG信号特性,本文提出CST模块,将CNN的时空局部特征提取能力与SSM在长序列建模方面的优势相结合[27]。该模块采用自适应的维度调整策略,即浅层网络保留32维特征通道以捕捉瞬态特征,深层扩展至64维以建模高级情绪语义,通过1 × 1卷积与批归一化(batch normalization,BN)实现平滑的维度切换。具体网络架构如图1所示。
图 1.

The overall architecture of the ST-Mamba network
ST-Mamba的网络框架图
如图2所示,CST模块采用双分支并行结构处理EEG信号。时间分支借助深度可分离卷积提取时域局部特征[28],并引入ECA机制强化关键时间点的信息权重;空间分支通过SS2D模块建模电极间的长程空间依赖,其状态空间维度由可学习参数动态调节。两支路输出经可学习的权重系数进行自适应加权融合。其中,时间分支选用GELU激活函数以增强非线性表达能力,空间分支采用SiLU激活函数以适应SSM的连续信号特性。该设计使浅层网络专注于局部特征提取,深层网络侧重于全局关系建模,形成层次化的情绪特征学习机制。
图 2.
Schematic of the CST module
CST模块结构
1.1.1. 时域局部特征提取
针对SEED数据集EEG信号特点,时间分支采用深度可分离卷积结构。首先,将输入信号沿时间维度展开,通过时间可分离卷积核提取时域局部特征,以捕捉EEG信号中的瞬态情绪波动[29]。随后,进行BN操作以稳定训练过程,并引入ECA机制,借助一维卷积建模时间点之间的依赖关系,增强关键情绪时间点的特征表达。最后,经GELU激活函数实现非线性变换,在保证计算效率的同时显著提升局部情绪特征的判别能力。假设输入特征为
,时间分支输出
的计算过程如式(1)所示:
![]() |
1 |
式中,
为输入特征张量;
代表深度可分离卷积核权值;
符号代表Conv;BN(·)为BN函数;
(·)代表ECA加权操作;
(·)为GELU激活函数。
1.1.2. 全局空间特征提取
空间分支采用SS2D模块以SSM建模电极间的全局空间依赖关系。基于连续状态空间方程,将多电极关联建模为线性常微分系统[30]。为适配离散EEG信号,引入时间尺度参数并采用零阶保持技术进行离散化。离散后的状态转移方程与输出方程分别如式(2)和式(3)所示:
![]() |
2 |
![]() |
3 |
式中,xk和
分别表示在离散时间步k的输入信号与输出信号;
和hk − 1分别表示在当前时刻k与上一时刻k-1的隐状态变量;
和
分别代表离散化后的状态转移矩阵与输入系统矩阵;
为输出矩阵;k代表离散的时间步索引。
在特征融合阶段,两个分支的输出通过可学习的注意力权重进行加权融合,如式(4)所示:
![]() |
4 |
式中,
为融合后的特征;
为自适应权重标量;
和
分别为时间与空间分支的输出。
1.2. MBSTP模块
针对EEG信号情绪识别面临的时空特征异质性[31]和频段特异性挑战,本文提出一种MBSTP模块。在特征分解阶段,模块采用频段注意力机制进行特征选择。对于输入时空特征
,其频段注意力权重
计算如式(5)所示:
![]() |
5 |
式中,Pavg(·)和Pmax(·)分别表示全局平均池化与最大池化;K(·)代表一维卷积运算;
(·)表示sigmoid激活函数。分解后的特征通过深度可分离卷积适配,如式(6)所示:
![]() |
6 |
式中,
为适配后的输出特征,Fdw表示深度可分离卷积;
代表哈达玛(Hadamard)积。在特征融合阶段,采用自底向上的层级融合策略。基础层融合对
和
频段特征进行对齐,如式(7)所示:
![]() |
7 |
式中,
为低频融合特征;U(·)表示上采样操作;Ψ(·)表示注意力加权;Fθ和Fα分别表示输入的 θ 频段与 α 频段特征。高层融合采用门控机制,如式(8)和式(9)所示:
![]() |
8 |
![]() |
9 |
式中,G和
为门控参数矩阵;
为最终输出;Fβ表示输入的 β 频段特征。
1.3. EA策略
本文提出的EA策略通过多维度信号变换技术,构建接近真实场景的EEG信号变异空间,旨在有效提升模型对个体差异与噪声干扰的鲁棒性。该策略融合频域增强、时域扰动和空间变换三类增强方法,并引入自适应强度调节机制,实现对增强效果的动态优化。
在频域增强方面,基于情绪识别任务的关键频段特性,重点增强θ(4~8 Hz)、α(8~12 Hz)和β(12~30 Hz)频段。采用巴特沃斯(Butterworth)带通滤波器组实现频段分离[32],在增强阶段引入随机增益系数对频段能量进行非线性调整,增强后的信号经逆变换重构为时域波形,从而提升模型对频段特异性特征的敏感性。
在时域扰动方面,该策略融合高斯白噪声与真实环境噪声(源自EEG噪声数据库[33]),通过自适应信噪比调节机制控制噪声强度,模拟不同信号采集环境中的质量波动。此外,引入通道级随机掩码技术[34],促使模型学习更具鲁棒性的空间特征表示。
空间变换模块基于拉普拉斯(Laplacian)矩阵建模电极间的空间关系[35],并采用径向基函数(radial basis function,RBF)插值实现弹性形变,在保持电极拓扑结构的前提下,增强模型对电极位置变化的适应能力;并且逐步引入通道掩码和空间形变等高级增强手段,该调度策略遵循课程学习理念[36],使模型能够渐进式地适应不同复杂度的数据变异环境,从而全面提升泛化性能。
2. 实验设计与结果分析
2.1. 数据集
本文实验数据选取自上海交通大学仿脑计算与机器智能中心实验室发布的公开数据库。
第一个数据集为SEED 第三版(SEED-III)。该数据集是在SEED系列基础上的全面升级,共采集了15名受试者在观看精心筛选的情感电影片段时的多模态生理信号。所有信号均通过无线EEG系统实现同步采集,其中包括62导联EEG信号(采样率为1 000 Hz)、水平与垂直眼电信号以及高清眼动视频。
第二个数据集为SEED 第四版(SEED-IV)。这是SEED系列的第四代扩展公开数据集,主要面向更细粒度的情绪分类任务。该数据集包含12名受试者的四类情绪(快乐、悲伤、恐惧、平静)数据,采用了升级版的64导联EEG采集系统(新增颞叶电极)并以视频同步记录了面部表情。
2.2. 评价指标
为准确评估模型在情绪分类任务中的性能,本文选择准确率(accuracy,Acc)、精确率(precision,Pre)、召回率(recall,Rec)和 F1 分数(F1-score,F1)作为定量评估指标。其计算公式如式(10)~式(13)所示:
![]() |
10 |
![]() |
11 |
![]() |
12 |
![]() |
13 |
式中,真正例(true positive,TP)表示正类别中正确分类样本的数量;真负例(true negative,TN)表示负类别中正确分类样本的数量;假正例(false positive,FP)表示正类别中错误分类样本的数量;假负例(false negative,FN)表示负类别中错误分类样本的数量。
2.3. 对比实验
为了验证本文所提ST-Mamba模型的有效性与鲁棒性,本文在SEED-III和SEED-IV数据集上与主流方法进行对比。对比方法模型涵盖:支持向量机(support vector machine,SVM)[37]、CNN[38]、LSTM[39]、Transformer模型[40]、GNN[41]、组稀疏典型相关分析(group sparse canonical correlation analysis,GSCCA)[42],以及CNN与LSTM的组合模型(CNN-LSTM)[43]。此外,重点对比了改良的毫秒级移动端骨干网络_变体4(improved one millisecond mobile backbone_S4,MobileOne_S4)模型[44]、轻量型视觉Mamba(vision Mamba-small,ViM-S)[16]、微型视觉Mamba(vision Mamba-tiny,VMamba-T)[45]和轻量型Mamba视觉(Mambavision-small,MambaVision-S)模型[46]等最新SSM架构。具体的对比实验结果如表1所示。
表 1. Comparison with advanced methods on the SEED-III and SEED-IV datasets.
在SEED-III和SEED-IV数据集上与先进方法的比较
| 数据集 | 模型 | 准确率 | |
| 依赖实验 | 独立实验 | ||
| SEED-III | SVM | 65.89% | 55.78% |
| CNN | 78.34% | 58.45% | |
| LSTM | 78.67% | 65.67% | |
| Transformer | 80.23% | 67.34% | |
| GNN | 82.13% | 68.67% | |
| GSCCA | 82.45% | 66.78% | |
| MobileOne_S4 | 83.12% | 70.23% | |
| ViM-S | 84.56% | 72.89% | |
| VMamba-T | 91.34% | 79.45% | |
| MambaVision-S | 92.78% | 81.23% | |
| ST-Mamba | 95.56% | 88.33% | |
| SEED-IV | SVM | 57.33% | 45.67% |
| LSTM | 73.34% | 60.12% | |
| Transformer | 76.12% | 62.45% | |
| GNN | 78.45% | 64.67% | |
| CNN-LSTM | 79.23% | 66.89% | |
| MobileOne_S4 | 80.45% | 68.34% | |
| ViM-S | 81.89% | 70.12% | |
| VMamba-T | 83.67% | 75.78% | |
| MambaVision-S | 85.12% | 77.45% | |
| ST-Mamba | 84.47% | 80.56% | |
在SEED-III依赖实验中,传统深度学习模型受限于局部感受野或计算复杂度,性能提升遭遇瓶颈;而SSM类模型凭借线性复杂度的长序列建模优势表现更佳。其中,ST-Mamba 通过独特的时空对偶架构,以95.56%的准确率超越了MambaVision-S等前沿模型,取得最优结果。在更具挑战的SEED-III跨受试独立实验中,各模型泛化能力差异明显,传统模型性能大幅下降。而得益于层级化的时空特征融合机制,ST-Mamba有效克服了个体差异噪声的干扰,以88.33%的准确率继续领先,证明了其在复杂情绪场景下的卓越鲁棒性。
2.4. 消融实验
如表2所示,基础SSM模块在仅需较少的计算开销(2.1 × 106参数量、0.84 × 109浮点运算次数/s)的情况下,在保证轻量化的同时实现了基础的EEG特征建模。而在加入Conv分支后,模型通过局部特征提取能力补充SSM在短程细节捕捉上的不足,提升了特征表征的完整性。进一步加入MBSTP模块后,通过频段注意力与层级融合策略,模型能有效整合不同频段的情绪关联信息,进一步增强特征判别力。继而引入EA模块,则可缓解跨受试者泛化难题,使模型在复杂场景中实现性能突破。
表 2. Results of the ablation study on the SEED-III and SEED-IV datasets.
在SEED-III和SEED-IV数据集上的消融实验结果
| 数据集 | SSM | Conv | MBSTP | EA | 参数量 | 计算量/(浮点运算次数·s−1) | 准确率 | 精确率 | 召回率 | F1 |
| SEED-III | √ | — | — | — | 2.1 × 106 | 0.84 × 109 | 84.50% | 85.00% | 84.70% | 84.85% |
| √ | √ | — | — | 3.8 × 106 | 1.52 × 109 | 86.00% | 86.50% | 86.10% | 86.30% | |
| √ | √ | √ | — | 5.2 × 106 | 2.18 × 109 | 87.80% | 88.10% | 87.90% | 88.00% | |
| √ | √ | √ | √ | 5.6 × 106 | 2.35 × 109 | 88.33% | 88.50% | 89.00% | 88.70% | |
| SEED-IV | √ | — | — | — | 2.1 × 106 | 0.84 × 109 | 77.00% | 77.40% | 77.10% | 77.25% |
| √ | √ | — | — | 3.8 × 106 | 1.52 × 109 | 78.60% | 79.00% | 78.70% | 78.85% | |
| √ | √ | √ | — | 5.2 × 106 | 2.18 × 109 | 79.90% | 80.10% | 80.00% | 80.05% | |
| √ | √ | √ | √ | 5.6 × 106 | 2.35 × 109 | 80.56% | 80.50% | 81.00% | 80.75% |
2.5. 可视化分析
如图3所示,展示了本文模型在SEED-III与SEED-IV数据集上的混淆矩阵。在SEED-III三分类任务中,受试者依赖实验下的积极、中性、消极情绪识别准确率分别达96.61%、97.15%和97.44%,独立实验中分别为88.13%、88.47%和92.48%,表明模型对消极情绪具有较好的跨个体鲁棒性。在SEED-IV四分类任务中,依赖实验下中性、悲伤、恐惧、愉快四类情绪准确率分别为85.13%、82.40%、86.11%和88.88%;独立实验中分别为81.70%、83.33%、86.36%和84.32%,其中本文模型对“恐惧”情绪保持了较高判别力。
图 3.
Confusion matrices of experimental results on SEED-III and SEED-IV datasets
SEED-III与SEED-IV数据集上的实验结果混淆矩阵
3. 结论与展望
针对EEG情绪识别任务中面临的跨受试者泛化难及时空特征异质性挑战,本文提出了一种基于SSM的层次化时空特征学习架构——ST-Mamba。该模型通过CST模块,创新性地将CNN的局部感知能力与SSM的线性复杂度长程建模优势相结合,实现了对EEG信号时空特征的高效解耦与互补融合。在此基础上,引入MBSTP与EA模块,有效整合了关键频段的情绪语义,构建了对个体差异具有强鲁棒性的特征表征空间。
在SEED-III和SEED-IV数据集上的实验结果表明,ST-Mamba模型的识别准确率分别达到 95.56%和84.47%,显著优于当前主流的Transformer及传统SSM类基准模型,验证了其在处理非平稳EEG信号时的优越性。
未来,本团队工作将主要聚焦于以下两个方向:一是模型轻量化与可解释性研究,通过定量分析各频段及脑区的贡献度,剔除冗余特征,降低计算开销;二是真实场景迁移应用,在现有研究基础上引入非受控环境下的高噪EEG数据,以探索更高效的伪迹抑制与域适应算法,进一步推动情绪识别技术在便携式BCI中的落地应用。
Funding Statement
国家自然科学基金 (62366028,62466032)
National Natural Science Foundation of China
References
- 1.Yang K, Li M, Wang J, et al A comprehensive review of circumplex model-based affect analysis: from representation to applications. IEEE Trans Affect Comput. 2024;15(2):1432–1450. [Google Scholar]
- 2.Wang L, Zhang Y, Chen H, et al EEG-based emotion recognition: a review of methods and applications. IEEE Trans Cogn Dev Syst. 2023;15(3):789–805. [Google Scholar]
- 3.Russell J A A circumplex model of affect. J Pers Soc Psychol. 1980;39(6):1161–1178. [Google Scholar]
- 4.Wolpaw J R, Birbaumer N, McFarland D J, et al Brain-computer interfaces for communication and control. Clin Neurophysiol. 2002;113(6):767–791. doi: 10.1016/s1388-2457(02)00057-3. [DOI] [PubMed] [Google Scholar]
- 5.Koelstra S, Muhl C, Soleymani M, et al DEAP: a database for emotion analysis using physiological signals. IEEE Trans Affect Comput. 2012;3(1):18–31. doi: 10.1109/T-AFFC.2011.15. [DOI] [Google Scholar]
- 6.Zheng W L, Lu B L Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks. IEEE Trans Cogn Dev Syst. 2017;9(3):281–293. [Google Scholar]
- 7.Lawhern V J, Solon A J, Waytowich N R, et al EEGNet: a compact convolutional neural network for EEG-based brain-computer interfaces. J Neural Eng. 2018;15(5):056013. doi: 10.1088/1741-2552/aace8c. [DOI] [PubMed] [Google Scholar]
- 8.Schirrmeister R T, Springenberg J T, Fiederer L D J, et al Deep learning with convolutional neural networks for EEG decoding and visualization. Hum Brain Mapp. 2017;38(11):5391–5420. doi: 10.1002/hbm.23730. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 9.Zhang T, Zheng W, Cui Z, et al. Spatial-temporal graph convolutional network for EEG-based emotion recognition//International Conference on Neural Information Processing. Bangkok: Springer, 2020: 413-424.
- 10.Li Y, Huang J, Zhou H, et al Graph neural network for EEG-based emotion recognition: a survey. IEEE Trans Neural Netw Learn Syst. 2023;34(8):4321–4335. [Google Scholar]
- 11.Song T, Zheng W, Song P, et al EEG emotion recognition using dynamical graph convolutional neural networks. IEEE Trans Affect Comput. 2020;11(3):532–541. doi: 10.1109/TAFFC.2018.2817622. [DOI] [Google Scholar]
- 12.Hochreiter S, Schmidhuber J Long short-term memory. Neural Comput. 1997;9(8):1735–1780. doi: 10.1162/neco.1997.9.8.1735. [DOI] [PubMed] [Google Scholar]
- 13.Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need//Advances in Neural Information Processing Systems. Long Beach: Curran Associates Inc, 2017: 5998-6008.
- 14.Gu A, Dao T. Mamba: linear-time sequence modeling with selective state spaces. arXiv, 2023: 2312.00752.
- 15.Yang Y, Zhang X, Zhang X, et al MI-Mamba: a hybrid motor imagery electroencephalograph classification model with Mamba's global scanning. Ann N Y Acad Sci. 2025;1546(1):15288. doi: 10.1111/nyas.15288. [DOI] [PubMed] [Google Scholar]
- 16.Zhu L, Liao B, Zhang Q, et al. Vision Mamba: efficient visual representation learning with bidirectional state space model. arXiv, 2024: 2401.09417.
- 17.Wang Q, Wu B, Zhu P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 11534-11542.
- 18.Gu A, Johnson I, Goel K, et al. Combining recurrent, convolutional, and continuous-time models with linear state space layers//Advances in Neural Information Processing Systems. Virtual: NeurIPS, 2021: 572-585.
- 19.Elfwing S, Uchibe E, Doya K Sigmoid-weighted linear units for neural network function approximation in reinforcement learning. Neural Netw. 2018;107:3–11. doi: 10.1016/j.neunet.2017.12.012. [DOI] [PubMed] [Google Scholar]
- 20.Hendrycks D, Gimpel K. Gaussian error linear units (GELUs). arXiv, 2016: 1606.08415.
- 21.Dao T, Fu D, Ermon S, et al FlashAttention: fast and memory-efficient exact attention with IO-awareness. J Mach Learn Res. 2023;24(120):1–42. doi: 10.52202/068431-1189. [DOI] [Google Scholar]
- 22.Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 3-19.
- 23.Chen H, Wang Y, Zhang J, et al Cross-subject EEG emotion recognition using multi-source domain manifold feature selection. Comput Biol Med. 2023;153:106860. doi: 10.1016/j.compbiomed.2023.106860. [DOI] [PubMed] [Google Scholar]
- 24.Li X, Zhang Y, Wang K, et al Adaptive frequency-band analysis for EEG-based emotion recognition with deep learning. IEEE Trans Neural Syst Rehabil Eng. 2024;32:1024–1034. [Google Scholar]
- 25.Cheng J, Liu G, Li M, et al Data augmentation for EEG-based emotion recognition with deep learning. J Neurosci Methods. 2022;364:109367. [Google Scholar]
- 26.Zhang R, Li P, Wang Y, et al A novel multi-scale spatial-temporal feature learning method for EEG-based emotion recognition. IEEE Trans Instrum Meas. 2023;72:1–12. [Google Scholar]
- 27.Dauphin Y N, Fan A, Auli M, et al. Language modeling with gated convolutional networks//Proceedings of the International Conference on Machine Learning (ICML). Sydney: PMLR, 2017: 933-941.
- 28.Chollet F. Xception: deep learning with depthwise separable convolutions//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 1251-1258.
- 29.Liu Y, Huang J, Wang Y, et al Temporal feature extraction from EEG signals for emotion recognition. J Neural Eng. 2021;18(4):046033. [Google Scholar]
- 30.Chen R T Q, Rubanova Y, Bettencourt J, et al. Neural ordinary differential equations//Advances in Neural Information Processing Systems. Montreal: Curran Associates Inc, 2018: 6571-6583.
- 31.Tang Y, Li M, Wang J, et al Spatio-temporal attention mechanism for EEG-based emotion recognition. Biomed Signal Process Control. 2024;87:105419. [Google Scholar]
- 32.Oh S, Lee J, Kim Y Comparative analysis of emotion classification based on facial expression and physiological signals using deep learning. Appl Sci. 2022;12(3):1203. [Google Scholar]
- 33.Yang J, Wang H, Li S, et al Development of emotion recognition using multi-physiological signal information fusion technology. Biomed Eng Res. 2021;40(4):420–427. [Google Scholar]
- 34.Lee S, Kim H, Park J, et al Compact and efficient deep learning models for EEG-based brain-computer interfaces: a survey and benchmark study. IEEE Rev Biomed Eng. 2024;17:345–360. [Google Scholar]
- 35.Rahmani S, Nasiri M, Saeedi P, et al EEG-based emotion recognition using Bayesian graph convolutional neural networks with adaptive node weighting. Sci Rep. 2024;14(1):8921. [Google Scholar]
- 36.Illendula A, Yedida R, Sharma S. Multimodal emotion classification using physiological signals//Proceedings of the ACM International Conference on Multimodal Interaction. New York: ACM, 2019: 120-125.
- 37.Cortes C, Vapnik V Support-vector networks. Mach Learn. 1995;20(3):273–297. doi: 10.1023/A:1022627411411. [DOI] [Google Scholar]
- 38.Sengar S S, Hasan A B, Kumar S, et al Generative artificial intelligence: a systematic review and applications. Multimed Tools Appl. 2025;84(21):23661–23700. [Google Scholar]
- 39.Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies//A field guide to dynamical recurrent networks. New York: IEEE, 2001: 237-244.
- 40.Liu Z, Lin Y, Cao Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows//Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021: 10012-10022.
- 41.Li J, Zhang Z, Li X, et al EEG-based emotion recognition via channel-wise attention and self-attention mechanisms. IEEE Trans Neural Syst Rehabil Eng. 2022;30:1532–1542. [Google Scholar]
- 42.Shao W, Xiang S, Zhong Z, et al Hyper-graph based sparse canonical correlation analysis for the diagnosis of Alzheimer’s disease from multi-dimensional genomic data. Methods. 2021;189:86–94. doi: 10.1016/j.ymeth.2020.04.008. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 43.Karim F, Majumdar S, Darabi H, et al Multivariate LSTM-FCNs for time series classification. Neural Netw. 2023;167:213–228. doi: 10.1016/j.neunet.2019.04.014. [DOI] [PubMed] [Google Scholar]
- 44.Vasu P K A, Gabriel J, Zhu J, et al. MobileOne: an improved one millisecond mobile backbone//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver: IEEE, 2023: 7907-7917.
- 45.Liu Y, Tian Y, Zhao Y, et al. VMamba: visual state space model. arXiv, 2024: 2401.10166.
- 46.Hatamizadeh A, Kautz J. MambaVision: a hybrid Mamba-Transformer vision backbone//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville: IEEE, 2025.















