Abstract
为降低传统脑电情感识别方法对标签的依赖,并弥补现有对比学习方法在跨刺激源情感相似性建模上的不足,本文提出一种基于组级刺激感知的自监督软对比学习框架(GSCL)用于脑电情感识别。GSCL利用相同刺激下受试者脑活动一致性,构建对比学习任务,引入软赋值机制,并根据样本对距离自适应调整负样本对权重,提升表征质量。此外,本研究还设计了可学习混洗分离的数据扩充方法,以可学习的混洗参数动态优化数据分布。最后,在公开情感数据集(DEAP)上,本文所提方法在效价、唤醒和四分类维度的准确率分别达到94.91%、95.29%和92.78%;而在上海交通大学情感脑电数据集(SEED)上的三分类准确率也达到95.25%。实验结果表明,本文所提方法实现了更高的分类准确率,为自监督脑电情感识别提供了新思路。
Keywords: 情感识别, 脑电信号, 对比学习, 软赋值机制, 可学习混洗分离
Abstract
To reduce the label dependency of traditional electroencephalogram(EEG) emotion recognition methods and address the limitations of existing contrastive learning approaches in modeling cross-stimulus emotional similarity, this paper proposes a group-level stimulus-aware self-supervised soft contrastive learning framework (GSCL) for EEG emotion recognition. GSCL constructs contrastive learning tasks based on the consistency of subjects' brain activities under identical stimuli and incorporates a soft assignment mechanism, which adaptively adjusts the weights of negative sample pairs according to inter-sample distances to enhance representation quality. Additionally, this study also designs a learnable shuffling-splitting data augmentation method to dynamically optimize data distribution via learnable shuffling parameters. Finally, on the public emotional dataset (DEAP), the proposed method achieves accuracies of 94.91%, 95.29%, and 92.78% for valence, arousal, and four-class classification tasks, respectively; while on the Shanghai Jiao Tong University Emotional EEG Dataset (SEED), its three-class classification accuracy reaches 95.25% as well. These results demonstrate that the proposed method yields higher classification accuracy, offering a new insight for self-supervised EEG emotion recognition.
Keywords: Emotion recognition, Electroencephalogram signals, Contrastive learning, Soft assignment mechanism, Learnable shuffle splitting
0. 引言
情感是人类与外部环境交互过程中产生的复杂生理和心理反应,准确识别情感对发展自然的人机交互、心理健康监测及疾病诊断具有重要意义[1-2]。相较于面部表情、语音等行为情感信号,心电、脑电(electroencephalogram,EEG)等生理信号能提供更客观、更难以伪装的情感线索[3-5]。其中,EEG信号能直接反映大脑活动模式,与情绪的神经生理机制紧密相关,以其独特优势被广泛应用于情感识别研究[6-7]。
近年来,许多研究采用有监督学习方法,利用残差网络[8]、递归神经网络[9]和图卷积网络[10]等深度神经网络,自动从EEG信号中学习与情感相关的高级特征表示,在情感识别任务上具备良好的性能[11]。然而,这些监督学习方法严重依赖大规模标注数据,而获取高质量的情感标注数据不仅成本高昂,还会受主观因素等影响导致标注数据掺杂较多噪声[12-13]。针对上述问题,自监督学习作为新兴的深度学习范式,能够从大量未标注数据中学习其内在结构和规律,展示了在处理未标注数据方面的独特优势[14-15]。其中,对比学习是一种常用的EEG信号处理技术,其核心思想是通过构建正负样本对并设计损失函数来最大化同类样本之间的相似性,同时最小化不同类样本之间的相似性,以学习更具判别性的特征表示[16-17]。
神经科学研究领域对受试者间相关性的系列研究表明,受试者在相同的自然刺激或社交互动场景下会呈现一致性的大脑活动[18-19]。研究人员据此探索出了多种针对EEG信号情感识别任务的对比学习策略。Shen等[20]提出了一种跨受试者对齐方法,通过提高相同情绪刺激下受试者间的EEG信号的相似性来增强模型泛化能力。Kan等[21]基于相同刺激下EEG数据组样本的对齐特性和遗传启发式的数据增强构建对比学习任务,提升了小样本数据的情感识别效果。Dai等[22]结合EEG信号在脑区内的相似性和脑区间的差异性,通过卷积和循环神经网络提取时序特征,并进行重组融合以提升情感分类性能。这些对比学习策略都使用硬负样本采样逻辑,将来自不同刺激源的样本统一视为负样本对,并对其相似性进行同等程度的最小化。而从EEG信号情感响应的生理特性出发,相同刺激下受试者EEG信号特征确会趋同,而不同刺激也可能诱发相近情绪反应,例如两段不同的幽默影片可能都会引发受试者的积极情绪。另一方面,无差别的硬对比忽略了不同情绪刺激之间的潜在相似性,不当地拉远了具有潜在相似性的负样本对[23-24];而本可作为重要自监督信号的跨刺激源情感相似性,也因硬对比逻辑被完全忽略,无法引导模型学习泛化性更强的EEG信号情感表示。另外,鉴于对比学习能够从增强数据中学习不变表征,一些方法会通过数据增强的方式来扩充EEG数据情感样本,例如通过减数分裂来生成增强组[21]、采用抖动和时间戳掩码构建双增强视图[25],或将同一时间戳在不同增强上下文中的表征视为正对[26],但这些固定策略的增强方法无法在整个训练过程中动态适应目标任务。
基于上述研究,本文提出了一种用于EEG信号情感识别的组级刺激感知自监督软对比学习框架(a group-level stimulus-aware self-supervised soft contrastive learning framework,GSCL)。该框架基于相同刺激下受试者EEG信号响应趋同的研究发现,将同一刺激下的组样本作为正样本对,不同刺激下的组样本作为负样本对;再针对硬负样本对比的不足,引入软赋值机制,利用跨刺激源情感相似性自适应调整负样本权重,以期在保持对比学习优化目标的同时,还能有效保留不同刺激源间的潜在情感相似性,提升情感表示的学习质量。此外,本研究还提出一种可学习混洗分离的数据增强方法,通过端到端优化混洗参数使增强策略动态适应训练过程,以提供更丰富的组样本。综上,本研究旨在提升自监督跨刺激源场景下的EEG信号情感识别准确率(accuracy,ACC),为心理健康监测及人机交互等领域提供有益参考。
1. 方法
本文方法整体架构如图1所示,由对比学习预训练和情感识别微调两阶段组成。预训练阶段:先由数据采样器生成包含多个EEG信号组的小批量数据,再经可学习混洗分离模块增强每组EEG信号以构造正负样本对。随后,基础编码器提取个体层面刺激相关特征,组投影器再聚合个体表示得到组级刺激相关特征,并映射至嵌入空间计算相似性。同时,结合EEG信号组样本在数据空间中的距离引入软赋值机制,以强化对比损失对样本间关系的捕捉。最后,通过最小化软对比损失来优化基础编码器与组投影器的参数。微调阶段:利用少量带情感标签的样本,对预训练的基础编码器及初始化的分类器进行情感分类训练,完成情感识别任务。
图 1.

Overall structure of GSCL
GSCL整体结构
1.1. 数据采样器
单个EEG信号样本的刺激相关特征难以直接用于对比学习,本文基于EEG信号组样本的策略,使用数据采样器为小批量训练提供输入,如图2所示。在处理后的数据集中,视频片段和受试者对应数据张量的两个维度,每个EEG信号样本定义为
,表示受试者在观看1 s视频片段时记录的1 s EEG信号。其中s代表受试者,v代表视频片段,T为时间采样点,C为通道数。采样器首先随机选取P个尚未采样的视频片段,然后随机选择2Q个受试者分成两组(每组Q人),以构建每个视频刺激的正样本对。每个组样本定义为
,所有样本对应于同一个视频片段vi,共享相似的刺激相关特征。最终,采样器提供一个包含P组EEG信号样本的小批量数据{G1, ···, GP},分别对应P个不同的视频刺激,用于预训练。
图 2.
Illustration of mini-batch sampling in data sampler
数据采样器小批量采样图示
1.2. 可学习混洗分离
可学习混洗分离是在保留原始刺激相关特征的基础上,对同一刺激下的EEG信号进行配对、交叉、混洗和分离,将其划分为两个子组来增强数据多样性,总体流程如图3所示。首先,将一个原始EEG信号组Gi的各个信号随机配对,形成Q对:
。随后,按给定的分裂位置
(1 <
< T),交换每对EEG信号的前
个采样点的数据,获得
,其中a表示受试者序号;再将交叉后的序列送入混洗模块中形成新的混洗序列
,以打破固定数据模式,更好地捕获不同受试者交叉后的EEG信号中潜在的时间关系和依赖性。变换后的信号被随机分离为两组
,
,它们共享相似的组级刺激相关特征。采样P个小批量组样本,在分离变换中,可获得2P个组样本,其中
与
形成正样本对,与其他 2(P − 1)个组样本形成负样本对。
图 3.
Overall process of learnable shuffling and splitting
可学习混洗分离总体流程
在混洗模块中,受Grover等[27]和Liu等[28]对时间序列增强表示研究的启发,本文引入可学习的混洗参数与模型其余部分共同优化,使混洗模块能动态适配训练过程。将不同受试者交叉后的EEG信号
分割成n个不重叠的片段,每个片段包含t个时间步长,t = T/n。对n个片段进行混洗操作如式(1)所示:
![]() |
1 |
其中,
表示分割后的待混洗片段集合,每个片段定义为
。H = {h1, h2, ···, hn}∈Rn表示混洗向量,作为可学习权重在模型训练过程中优化,控制片段重排后的优先级和位置。H中的每个混洗参数hb对应于
中的片段
,值较高的h赋予
更高的优先级。key表示指定键,Sort(·)表示按照H的指定键对
进行排序操作,
即代表经过混洗操作后的第a个EEG信号序列。
因标准的排序操作涉及离散运算,无法进行梯度传播,故本文采用可微分的排序方法。引入中间步骤为梯度创建一条流经H的路径,同时根据H的排序顺序对
执行直观地离散排列。首先,计算H的排序索引:δ = Argsort(H),Argsort(·)表示按值排序后返回索引操作,根据索引列表δ = [δ1, δ2, ···, δn]以可区分的方式重新排序。然后,创建辅助矩阵:定义矩阵U大小为(t × C) × n×n,由
片段集合重复n次填充。定义矩阵Ω大小为n × n,每b行在位置k = δb处都有一个非零元素hb,再使用缩放因子
将每个非零元素缩放为1,将Ω转换为二进制矩阵
。最后,计算混洗矩阵:U和
之间执行哈达玛积,得到矩阵M,其中每一行b都有一个其值等于对应片段
的非零元素k;再沿最终维度求和并对结果进行转置,得到最终混洗矩阵
。
为了更清晰地说明混洗操作,简单示例如下,将一个EEG信号样本分割4段,
,假定排列δ = [4, 2, 1, 3],则M和
的计算如式(2)、式(3)所示:
![]() |
2 |
![]() |
3 |
其中,运算符
代表哈达玛积,Σ为求和符号,T为转置符号。最后连接打乱的片段
以创建单个打乱的序列。为保留原始不同受试者的顺序信息及新序列特征,采用可学习的一维卷积层对原始序列与打乱序列进行融合,输出最终时间序列
。混洗操作被设计为可堆叠的模块化层,层与层之间按顺序连接,每层输入为前一层输出。
1.3. 模型结构
本文方法所涉及的模型结构如图4所示。
图 4.
Model structure
模型结构
基础编码器:从增强后的组样本中提取个体水平刺激的相关特征,映射到512维特征空间中形成表示集合。其结构基于残差网络模型[8],由17个一维卷积层组成。第一个卷积层的核长度为9,沿时间轴排列。8个残差块中每块包含两个卷积层,沿时间轴和通道轴排列,核长度依次递减为15、15、11、11、7、7、3、3。网络还包含最大池化、平均池化、批归一化和线性整流函数(rectified linear unit,ReLU)。
组投影器:用于从多个样本中提取组级刺激相关特征,并投影到潜在空间以计算视频片段的刺激相似性,由基础投影器和对称函数一维最大池化组成。基础投影器采用多层感知机将个体表示投影到4 096维特征空间上,再通过一维最大池化对扩展后的个体表示进行信息聚合,得到组级特征表示。
分类器:在情感分类微调任务中,使用分类器从基础编码器提取的表示中提取情感特征并预测情感标签。分类器主要包含三个全连接层,按降序排列有512、256和128个隐藏单元。批归一化、ReLU激活函数和丢弃层的位置关系如图4所示,最后通过归一化指数函数(softmax)层进行情感识别。
1.4. 软对比损失
本文在传统对比损失的基础上引入软赋值机制,自适应调整负样本对的权重,以更精细地刻画样本间的关系,如图5所示。
图 5.
Soft assignment mechanism diagram
软赋值机制图示
在计算机视觉领域中,大部分研究通常在嵌入空间中计算软赋值来改善硬对比损失导致相似样本在嵌入空间中被推得更远的问题[29]。与计算机视觉领域不同,根据Lee等[30]对时间序列的研究表明,数据空间上的相似性度量能够有效反映EEG信号样本间的关系。例如,两张不同图像的逐像素距离通常与它们的语义相似性无关,而两个时间序列数据的逐点距离却可以有效衡量它们的相似程度。因此,本文在数据空间中为一组EEG信号样本对(i, i')定义软赋值机制,如式(4)所示:
![]() |
4 |
其中,“·”表示数值相乘操作,Gi和Gi'表示正样本对的原始数据而非增强视图,以确保相似性度量的准确性和一致性。D(−, −)是最小—最大归一化的距离度量,本文参考Yadav等[31]在语音时间序列中的相似性度量研究,选用动态时间扭曲方法(dynamic time warping,DTW)作为最终的距离度量。DTW通过动态对齐时间序列,能有效捕捉非线性变形,避免因时间偏移导致的误匹配。尽管其计算复杂度为O(T2),在大规模数据集上计算成本较高,但可通过预计算成对距离矩阵加速,提高计算效率。σ(·)是S型生长曲线(sigmoid)激活函数,用于将距离映射为软权重。α是控制权重锐利度的超参数,取值范围为[0, 1],用于区分相同的EEG信号组样本对和彼此接近的不同组样本对。
采样经数据增强变化后的组样本
},通过编码器和组投影器提取以获得组特征表示{Zi|i = 1, 2, ···, P, ···, 2P},Zi和Zi + P为同刺激下数据增强的两个组样本的嵌入向量,并用余弦距离度量Zi和Zi'的相似度,如式(5)所示:
![]() |
5 |
其中,||·||表示向量的欧几里得范数。受对比度损失可以解释为交叉熵损失这一事实的启发,将计算损失时考虑的所有相似度中相对相似度的softmax概率定义如式(6)所示:
![]() |
6 |
其中,τ为温度系数,S(−, −)代表相似度函数,exp(·)代表以自然常数e为底的指数函数。最终损失函数计算如式(7)、式(8)所示:
![]() |
7 |
![]() |
8 |
其中,li代表第i组的软对比损失,log(·)是自然对数函数,
(−, −)是样本对的相对相似度softmax概率,w(−, −)是样本对的软赋值权重,mod是取模运算。li中的第一项对应的是正向配对的损失,第二项对应的是由软赋值w(i, i')加权的其他配对的损失。当w(i, i')= 0时,这种损失可以看作是传统对比损失的一般化。L代表最后迭代的总损失,是反向传播的所有对比损失的平均值。
2. 数据集与实验设置
2.1. 数据集
本文研究使用了两个公开情感数据集来评估所提方法的有效性,分别是:
(1)生理信号情感分析数据集(dataset for emotion analysis using physiological signals,DEAP)[32]:由英国伦敦玛丽皇后大学等多个国外研究机构合作提供,包含32名健康受试者观看40段1 min音乐视频时的32通道EEG信号和8通道外周生理信号。观看结束后,受试者从效价、唤醒等维度进行1~9分自评。本文选取32通道EEG数据,EEG信号降采样至128 Hz并经4~45 Hz带通滤波去噪,随后使用1 s非重叠的滑动窗口分段处理,所有样本共对应2 400个(40个60 s的视频)重复的1 s视频片段。实验基于效价和唤醒维度进行情感识别,设定评分阈值5,以构建二分类或四分类任务。
(2)上海交通大学EEG信号情感数据集(Shanghai Jiao Tong University emotion EEG dataset,SEED)[33]:由上海交通大学类脑计算与机器智能研究中心提供,记录了15名受试者在3个不同时段观看15段约4 min的电影剪辑片段时的EEG信号,这些视频通过剧情变化引发受试者的大脑情绪反应,涵盖消极、中性和积极三种情感类别(即:三分类)。EEG信号由62导联电极帽采集,采样率从1 000 Hz降采样至200 Hz,并经0~75 Hz的带通滤波处理。随后对每个试验的EEG信号执行L2归一化并将EEG信号分割成1 s窗口,所有样本对应从15个电影视频获得的3 394个视频片段。
2.2. 实验设置
本文在搭载图形处理单元RTX 3 090 (NVIDIA Inc.,美国)和24 GB内存的硬件环境下,使用深度学习框架Pytorch(Meta Inc.,美国)进行实验。经过多轮调参选用自适应矩估计(adaptive moment estimation,Adam)作为优化器,学习率为0.001,混洗层数为2,片段数第一层为2,第二层为4,对比损失函数温度系数为0.1,软分配参数为0.5。DEAP数据集预训练次数为2 000,每次迭代的视频剪辑数量为8,每组样本数量为2,微调阶段训练次数为100,批量大小为2 048。SEED数据集预训练次数为3 000,视频剪辑数量为16,组样本数量为2,微调阶段训练次数为100,批量大小为256。
为与现有情感识别领域的对比学习基准方法保持一致的实验设置,并考虑到对比学习需要大量数据来进行预训练以提取组级特征,实验将所有受试者的数据合并构建成一个全面的数据集。随后将DEAP和SEED数据集分别按照70∶15∶15的比例划分为训练集、测试集和验证集,以评估模型在不同受试者间提取特征的能力。模型性能评价指标采用ACC、平均交并比(mean intersection over union,mIoU)和标准差(standard deviation,Std)。
3. 实验结果与分析
3.1. 有限标注样本下的实验结果
为评估所提方法在有限标注样本学习中的性能,在DEAP和SEED数据集上分别使用1%、10%、50%和100%比例的标注数据进行实验,并对比了两种训练策略在分类任务上的表现:① GSCL:基于自监督对比学习对模型进行预训练,以学习EEG数据的通用特征表示,随后使用不同比例的标注数据进行微调。② 基线模型:直接在有限标注数据上进行完全监督学习,而不经过任何预训练过程。实验结果如表1所示,两个数据集在所有标注数据比例下,GSCL经自监督对比学习预训练的模型均明显优于完全监督的基线模型,且在标注样本较少时优势更为明显。这是由于自监督组级刺激感知的对比学习预训练方法能够充分学习无标注EEG数据的表征信息,降低对人工标注数据的依赖。
表 1. ACC results under limited labeled samples.
有限标注样本下的ACC结果
| 标注比例 | DEAP-效价 | DEAP-唤醒 | DEAP-四分类 | SEED-三分类 | |||||||
| 基线模型 | GSCL | 基线模型 | GSCL | 基线模型 | GSCL | 基线模型 | GSCL | ||||
| 1% | 57.88% | 69.86% | 60.11% | 67.16% | 35.61% | 48.46% | 43.66% | 92.77% | |||
| 10% | 74.72% | 85.28% | 77.21% | 84.82% | 61.48% | 73.55% | 57.98% | 93.64% | |||
| 50% | 89.01% | 92.57% | 89.75% | 93.13% | 82.77% | 88.81% | 86.44% | 94.61% | |||
| 100% | 92.48% | 94.91% | 93.41% | 95.29% | 89.74% | 92.78% | 90.43% | 95.25% | |||
3.2. 与现有最优模型比较
在DEAP数据集上首先将GSCL方法与三种主流的监督学习方法进行比较,包括通道融合的密集卷积网络(channel-fused dense convolutional network,CDCN)[34]、基于通道注意力的卷积递归神经网络(attention-based convolutional recurrent neural network,ACRNN) [9]和使用多尺度一维卷积并结合局部全局图的融合网络(local-global-graph network,LGGNet)[10]。为验证所提方法在自监督学习领域的有效性,进一步将GSCL方法与利用生成对抗网络进行数据增强的自监督学习方法(generative adversarial network-based self-supervised data augmentation,GANSER)[35]、用于时间序列分类的半监督端到端对比学习方法(semi-supervised end-to-end contrastive learning for time series classification,SLOTS)[25]、使用自监督群体减数分裂的对比学习框架(self-supervised group meiosis contrastive learning framework,SGMC)[21]进行了比较。实验结果如表2所示,带*号表示在本地环境下复现的结果,粗体为最优结果。本文所提方法在效价、唤醒、四分类维度上的ACC均取得了更优的性能表现,突显GSCL的对比学习策略能提取EEG信号关于情感表达的有效信息,从而提高情感识别的ACC和泛化能力。此外GSCL的四分类mIoU值达到了最优的86.06%,表明本文所提方法在不同类别的特征提取和整合方面具有卓越的能力。
表 2. Comparison of experimental results on the DEAP dataset with state-of-the-art models.
DEAP数据集与先进模型对比实验结果
| 方法 | ACC | mIoU | |||
| 效价 | 唤醒 | 四分类 | 四分类 | ||
| CDCN | 92.24% | 92.92% | — | — | |
| ACRNN | 93.72% | 93.38% | — | — | |
| LGGNet | 93.35% | 92.68% | — | — | |
| GANSER | 93.52% | 94.21% | 89.74% | — | |
| SLOTS | 92.49% | 93.42% | 90.12% | 81.15% | |
| SGMC* | 94.16% | 93.62% | 90.58% | 82.31% | |
| GSCL | 94.91% | 95.29% | 92.78% | 86.06% | |
同样地,在SEED数据集上将本文所提方法分别与三种主流的监督学习方法:使用大脑双半球差异模型(bi-hemispheric discrepancy model,BiHDM)[36]、基于一维卷积的残差神经网络方法(one-dimensional convolutional neural network based residual neural network 18,ResNet18-1Dkernel)[8],以及LGGNet[10]方法进行对比,再与三种先进的自监督学习方法GANSER[35]、SGMC[21]和脑区EEG信号表征的对比学习方法(contrastive learning method of EEG representation of brain area,CLRA)[22]进行对比。实验结果如表3所示,GSCL方法的三分类ACC达到了95.25%,mIoU值为91.16%,优于其他监督和自监督学习方法,进一步展现了所提方法优异的情感识别能力。
表 3. Comparison of experimental results on the SEED dataset with state-of-the-art models.
SEED数据集与先进模型对比实验结果
| 方法 | ACC | Std | mIoU |
| BiHDM | 93.12% | 8.25% | 85.84% |
| ResNet18-1Dkernel | 93.43% | 7.56% | 86.41% |
| LGGNet | 93.25% | 5.38% | 85.62% |
| GANSER | 93.87% | 9.88% | 88.57% |
| SGMC* | 93.49% | 7.21% | 88.94% |
| CLRA | 95.16% | 6.64% | 90.52% |
| GSCL | 95.25% | 6.71% | 91.16% |
3.3. 消融实验
为深入分析GSCL方法的各关键组件对情感识别性能的贡献,在不同标注数据量场景下对DEAP和SEED数据集进行了消融实验,结果如图6所示。当去除可学习混洗分离模块,改用减数分裂增强策略,在四种标注数据比例的实验场景中,SEED-三分类任务和DEAP三种任务分类的ACC都有所下降,验证了混洗增强在提升特征表达稳定性方面的有效性。当去除软赋值机制,改用硬对比损失,SEED和DEAP任务的ACC下滑幅度进一步增大,表明软对比损失将跨刺激源的情感相似性作为自监督信号能有效地促进模型学习更具判别性的特征表示。当同时去除以上两个组件,模型性能均出现更为明显的下滑,其中在1%标注数据场景下性能下降最为明显。上述结果一致表明,可学习混洗分离模块和软赋值机制在特征学习中的重要性,尤其在小样本场景下也能够提升模型性能。
图 6.

Ablation study of each module in the GSCL method
GSCL方法各模块消融实验图
3.4. 可视化实验
为直观展示GSCL方法在情感识别任务中的优势,对其完全监督模型和微调模型所学习到的特征表示进行了可视化分析。如图7所示,采用t分布随机邻域嵌入方法将基础编码器从完整SEED测试集中提取的512维特征投影到二维空间。如图7中情感标签一行所示,使用三种颜色标注了不同的情感类别。在完全监督模型图中,属于不同情感类别的特征表示区分度较低,而在GSCL微调模型图中,不同情感类别的特征分布更加清晰,类别间的混淆明显减少,表明GSCL经对比学习预训练能够学习更具判别性的视频级别的情感特征,提升情感识别性能。如图7中视频标签一行所示,进一步使用15种颜色分别表示来自15个实验视频片段的样本。在GSCL微调模型图中,来自相同视频片段的EEG特征表示形成15个清晰可分的簇,而在完全监督模型图中,难以形成明显的类别区分。这表明GSCL不仅能够学习与刺激相关的特征表示,还能捕捉视频片段间的差异,使模型具备更强的刺激辨别能力。
图 7.
Feature representation visualization on the SEED dataset
SEED数据集特征表示可视化
3.5. 参数分析实验
为探究迭代视频剪辑数量与组样本数量对预训练过程的影响,本文评估了二者的多种组合,实验结果如表4所示,粗体为最优参数值。结果显示,组样本数量越多,预训练ACC越高,表明更多受试者的特征融合可增强模型泛化能力,减轻个体差异的干扰,但预训练的高ACC未必能提升微调任务性能。组样本数量过小会因预训练的ACC偏低阻碍有效表征的学习,组样本数量过大又使模型过度聚焦组级刺激特征,导致基础编码器忽略某些关键情感特征。因此,组级样本对比学习中组样本数量的合理选择至关重要。
表 4. Sensitivity analysis of ACC results with respect to the number of video clips and group samples.
视频剪辑数量和组样本数量的ACC结果敏感性分析
| DEAP-四分类 | SEED-三分类 | |||||||
| 视频剪辑数量/个 | 组样本数量/个 | 预训练 | 微调 | 视频剪辑数量/个 | 组样本数量/个 | 预训练 | 微调 | |
| 16 | 1 | 68.21% | 91.66% | 8 | 1 | 75.86% | 93.08% | |
| 8 | 1 | 84.27% | 92.07% | 16 | 1 | 62.41% | 93.73% | |
| 8 | 2 | 90.28% | 92.78% | 16 | 2 | 81.72% | 95.25% | |
| 8 | 3 | 88.89% | 91.05% | 16 | 4 | 85.11% | 92.66% | |
| 8 | 4 | 91.37% | 90.70% | 32 | 4 | 76.10% | 92.78% | |
| 4 | 4 | 93.61% | 87.38% | 32 | 6 | 78.80% | 90.97% | |
为探究软分配参数与温度系数的大小对模型性能的影响,本文进行了敏感性分析,实验结果如图8所示。软分配参数,用于区分相同样本对与零距离不同样本对的权重分配,结果表明软分配参数值为0.50时效果最佳,来源同一视频刺激的组样本对的相似性应该严格地大于其他对,其中软分配参数值为1.00时使得两种情况具有相同的分配,效果最差。温度系数,用于调节对比损失函数对正样本和负样本相似度的敏感度,当温度系数值为0.1时模型性能最佳,随着温度系数逐渐增大时,模型性能表现逐渐变差。
图 8.

Sensitivity analysis of soft assignment parameters and temperature coefficient.
软分配参数和温度系数敏感性分析
4. 总结
本文提出了GSCL用于EEG信号情感识别,巧妙地利用刺激视频一致性构建对比学习任务,可学习混洗分离模块动态优化了数据分布而不改变刺激特征,软赋值机制自适应调整了负样本对权重。该方法在DEAP和SEED数据集上实现了最优的情感识别结果,尤其在标签有限时也达到了竞争性能。消融实验证明了可学习混洗分离和软赋值机制模块的有效性,特征可视化的结果进一步表明该方法学习到了视频刺激源级的特征表示。但本文方法依赖先预训练再微调的分离式流程,自监督预训练的对比损失无法直接作用于下游的微调分类器,且仅在时域建模,未充分考虑脑区的空间分布及其情感功能。因此,在后续研究中,将构建端到端的半监督图对比学习框架,借助图神经网络挖掘脑区间的情感关联,再通过自适应融合自监督对比、有监督对比和分类三重损失,实现端到端半监督训练,最大化信息利用率以提升模型在跨受试者上的泛化性能。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:陈景霞负责制定整体研究目标,领导研究活动的执行,审阅与修订论文;王倩负责数据处理、模型设计与优化、论文撰写;李小池负责图表绘制;张鹏伟负责模型优化的指导。
Funding Statement
国家自然科学基金(61806118);陕西科技大学科研启动基金(2020BJ-30)
National Natural Science Foundation of China; Shaanxi University of Science and Technology
References
- 1.Wang X, Ren Y, Luo Z, et al Deep learning-based EEG emotion recognition: current trends and future perspectives. Frontiers in Psychology. 2023;14:1126994. doi: 10.3389/fpsyg.2023.1126994. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 2.Kamble K, Sengupta J A comprehensive survey on emotion recognition based on electroencephalograph (EEG) signals. Multimedia Tools and Applications. 2023;82(18):27269–27304. [Google Scholar]
- 3.张志雯, 于乃功, 边琰, 等 基于多模态生理信号特征融合的情绪识别方法研究. 生物医学工程学杂志. 2025;42(1):17–23. doi: 10.7507/1001-5515.202401020. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 4.Kumar A, Kumar A Human emotion recognition using machine learning techniques based on the physiological signal. Biomedical Signal Processing and Control. 2025;100:107039. [Google Scholar]
- 5.揭丽琳, 邹杨萌, 黎政秀, 等 跨模态特征融合与全局感知的情绪转换识别方法. 生物医学工程学杂志. 2025;42(5):977–986. doi: 10.7507/1001-5515.202504040. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6.冯国红, 郑潇, 张彬, 等 基于独立成分分析—递归图和改进的高效能网络的EEG情绪识别研究. 生物医学工程学杂志. 2024;41(6):1103–1109. doi: 10.7507/1001-5515.202406029. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 7.Wang Y, Zhang B, Di L Research progress of EEG-based emotion recognition: a survey. ACM Computing Surveys. 2024;56(11):1–49. [Google Scholar]
- 8.Cheah K H, Nisar H, Yap V V, et al Optimizing residual networks and VGG for classification of EEG signals: Identifying ideal channels for emotion recognition. Journal of Healthcare Engineering. 2021;2021:5599615. doi: 10.1155/2021/5599615. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 9.Tao W, Li C, Song R, et al EEG-based emotion recognition via channel-wise attention and self attention. IEEE Transactions on Affective Computing. 2020;14(1):382–393. [Google Scholar]
- 10.Ding Y, Robinson N, Tong C, et al LGGNet: learning from local-global-graph representations for brain-computer interface. IEEE Transactions on Neural Networks and Learning Systems. 2024;35(7):9773–9786. doi: 10.1109/TNNLS.2023.3236635. [DOI] [PubMed] [Google Scholar]
- 11.雪雯, 陈景霞, 胡凯蕾, 等 基于EEG和面部视频的多模态连续情感识别. 陕西科技大学学报. 2024;42(1):169–176. [Google Scholar]
- 12.Weng W, Gu Y, Guo S, et al Self-supervised learning for electroencephalogram: a systematic survey. ACM Computing Surveys. 2025;57(12):1–38. [Google Scholar]
- 13.陈景霞, 李小池, 王倩, 等 多自监督学习任务结合图神经网络的EEG情感识别. 计算机工程与应用. 2025;61(22):205–214. [Google Scholar]
- 14.Zhang K, Wen Q, Zhang C, et al Self-supervised learning for time series analysis: taxonomy, progress, and prospects. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024;46(10):6775–6794. doi: 10.1109/TPAMI.2024.3387317. [DOI] [PubMed] [Google Scholar]
- 15.Gui J, Chen T, Zhang J, et al A survey on self-supervised learning: algorithms, applications, and future trends. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024;46(12):9052–9071. doi: 10.1109/TPAMI.2024.3415112. [DOI] [PubMed] [Google Scholar]
- 16.Liu J, Chen S. TimesURL: self-supervised contrastive learning for universal time series representation learning//Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), Vancouver: AAAI Press, 2024, 38(12): 13918-13926.
- 17.Alghamdi A M, Ashraf M U, Bahaddad A A, et al Cross-subject EEG signals-based emotion recognition using contrastive learning. Scientific Reports. 2025;15(1):28295. doi: 10.1038/s41598-025-13289-5. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18.Bridwell D A, Roth C, Gupta C N, et al Cortical response similarities predict which audiovisual clips individuals viewed, but are unrelated to clip preference. PLoS One. 2015;10(6):e0128833. doi: 10.1371/journal.pone.0128833. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 19.Dmochowski J P, Bezdek M A, Abelson B P, et al Audience preferences are predicted by temporal reliability of neural processing. Nature Communications. 2014;5:4567. doi: 10.1038/ncomms5567. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 20.Shen X, Liu X, Hu X, et al Contrastive learning of subject-invariant EEG representations for cross-subject emotion recognition. IEEE Transactions on Affective Computing. 2022;14(3):2496–2511. [Google Scholar]
- 21.Kan H, Yu J, Huang J, et al Self-supervised group meiosis contrastive learning for EEG-based emotion recognition. Applied Intelligence. 2023;53(22):27207–27225. [Google Scholar]
- 22.Dai S, Li M, Wu X, et al Contrastive learning of EEG representation of brain area for emotion recognition. IEEE Transactions on Instrumentation and Measurement. 2025;74:1–13. [Google Scholar]
- 23.Yang Y, Dong X, Qiang Y. CLGSI: a multimodal sentiment analysis framework based on contrastive learning guided by sentiment intensity//Findings of the Association for Computational Linguistics: NAACL 2024, Mexico City: ACL, 2024: 2099-2110.
- 24.Lan X, Yan H, Hong S, et al. Towards enhancing time series contrastive learning: a dynamic bad pair mining approach. arXiv preprint, 2023, arXiv: 2302. 03357.
- 25.Cai H, Zhang X, Liu X. Semi-supervised end-to-end contrastive learning for time series classification. arXiv preprint, 2023, arXiv: 2310. 08848.
- 26.Li X, Song J, Zhao Z, et al. A supervised information enhanced multi-granularity contrastive learning framework for EEG based emotion recognition//2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Seoul: IEEE, 2024: 2325-2329.
- 27.Grover S, Jalali A, Etemad A Segment, shuffle, and stitch: a simple layer for improving time-series representations. Advances in Neural Information Processing Systems. 2024;37:4878–4905. [Google Scholar]
- 28.Liu M, Zeng A, Chen M, et al Scinet: time series modeling and forecasting with sample convolution and interaction. Advances in Neural Information Processing Systems. 2022;35:5816–5828. [Google Scholar]
- 29.Feng C, Patras I. Adaptive soft contrastive learning//2022 26th International Conference on Pattern Recognition (ICPR), Montreal: IEEE, 2022: 2721-2727.
- 30.Lee S, Park T, Lee K. Soft contrastive learning for time series//12th International Conference on Learning Representations (ICLR), Vienna: ICLR, 2024: 46815-46839.
- 31.Yadav M, Alam M A Dynamic time warping (DTW) algorithm in speech: a review. International Journal of Research in Electronics and Computer Engineering. 2018;6(1):524–528. [Google Scholar]
- 32.Koelstra S, Muhl C, Soleymani M, et al Deap: a database for emotion analysis; using physiological signals. IEEE Transactions on Affective Computing. 2011;3(1):18–31. [Google Scholar]
- 33.Zheng W L, Lu B L Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks. IEEE Transactions on Autonomous Mental Development. 2015;7(3):162–175. [Google Scholar]
- 34.Gao Z, Wang X, Yang Y, et al A channel-fused dense convolutional network for EEG-based emotion recognition. IEEE Transactions on Cognitive and Developmental Systems. 2020;13(4):945–954. [Google Scholar]
- 35.Zhang Z, Liu Y, Zhong S GANSER: a self-supervised data augmentation framework for EEG-based emotion recognition. IEEE Transactions on Affective Computing. 2022;14(3):2048–2063. [Google Scholar]
- 36.Li Y, Wang L, Zheng W, et al A novel bi-hemispheric discrepancy model for EEG emotion recognition. IEEE Transactions on Cognitive and Developmental Systems. 2020;13(2):354–367. [Google Scholar]













