Abstract
阿尔茨海默病(AD)是一种常见的老年疾病,患者的手部运动能力与正常人相比存在差异。本研究围绕利用RGB、光流及手部骨骼的三模态图像信息实现早期AD识别,提出一种基于多模态手部动作质量评估的早期AD识别方法(EADR)。首先,设计了融合全局上下文信息的混合模态特征编码器,以融合三个特定模态分支特征的全局上下文信息。然后,提出了融合特定模态特征的融合模态特征解码器网络,以实现从特定模态特征中解码融合模态分支中被忽视的信息以加强特征融合。实验表明,EADR可有效捕捉手部高质量动作特征,在手部动作质量评估任务中表现出色,优于现有模型。基于此,采用k-近邻算法训练的动作质量评分回归模型对AD患者识别效果最佳,其斯皮尔曼等级相关系数和肯德尔等级相关系数分别达到90.98%和83.44%,表明手部运动能力的评估可以作为一种潜在的早期AD辅助识别手段。
Keywords: 手部动作, 动作质量评估, 特征融合, 机器学习, 阿尔茨海默病识别
Abstract
Alzheimer’s disease (AD) is a common elderly illness, and the hand movement abilities of patients differ from those of normal individuals. Focusing on the utilization of RGB, optical flow, and hand skeleton as tri-modal image information for early AD recognition, a method for early AD recognition via multi-modal hand motion quality assessment (EADR) is proposed. First, a hybrid modality feature encoder incorporating global contextual information was designed to integrate the global contextual information of features from three specific modality branches. Subsequently, a fusion modality feature decoder network incorporating specific modality features was proposed to decode the overlooked information in the fusion modality branch from specific modality features, thereby enhancing feature fusion. Experiments demonstrated that EADR effectively could capture high-quality hand motion features and excelled in hand motion quality assessment tasks, outperforming existing models. Based on this, the action quality scoring regression model trained using the k-nearest neighbors algorithm demonstrated the best recognition performance for AD patients, with Spearman’s rank correlation coefficient and Kendall’s rank correlation coefficient reaching 90.98% and 83.44%, respectively. This indicates that the assessment of hand motor ability may serve as a potential auxiliary tool for early AD identification.
Keywords: Hand movements, Motion quality assessment, Feature fusion, Machine learning, Alzheimer’s disease recognition
0. 引言
阿尔茨海默病(Alzheimer’s disease,AD)是一种进行性神经性退行疾病,会随着病程的进展逐渐严重[1]。除认知损害外,AD在早期亦会出现运动执行能力下降。不同于帕金森病(Parkinson’s disease,PD)以震颤、肌强直等锥体外系体征为主[2],AD更偏向失用相关的动作规划与执行障碍,即在无明显原发性运动系统瘫痪时,对目的性复杂的精细动作完成度下降[3]。文献[4-5]发现,运动能力的评估可以作为神经性退行疾病的一项有效手段。与此同时,医学研究表明,AD患者由于微管相关蛋白Tau蛋白沉积表现出更显著的运动功能减退[6];在早期AD阶段,部分患者不能完成有目的的复杂动作,执行指令、模仿和自发动作均受影响[7],表现出手部精细运动能力受损、手部动作练习障碍和手势产生障碍等。因此,如何利用手部动作进行早期AD患者识别是值得研究的方向。
关于手部精细运动能力的研究,文献[8]综述发现,健康组在书写运动执行的速度、平滑度及稳定性上优于轻度认知障碍(mild cognitive impairment,MCI)和AD患者。Yu等[9]在书写运动和地理绘图任务中发现,AD与遗忘型MCI患者笔画运动的流畅性和准确性明显低于正常组。Nardone等[10]基于多模态书写数据,利用贝叶斯网络和马尔可夫决策链准确预测AD患者类别。Müller等[11]研究了数字时钟绘制测试,发现其在区分遗忘型MCI、轻度AD和健康组方面具有临床实用性。Kim等[12]构建了基于数字笔运动学的定量评分系统来评估AD患者手部动作变化。Chan等[13]发现数字绘图测试可以作为筛查MCI和痴呆的替代工具。然而,上述方法多数依赖静态图像或单一笔迹轨迹,难以全面揭示运动控制特征。
在考察手部动作练习障碍方面,Roalf等[14]使用光电二极管手指敲击器量化敲击总数、敲击间隔和手指敲击的个体变异性,发现AD与MCI组较健康老年人敲击次数减少、间隔延长且个体变异性增大。此外,Colella等[15]通过遗忘型MCI组与健康组重复手指敲击的运动学分析,发现遗忘型MCI组手指敲击的节律运动更少。而Wang等[16]设计的在线键盘敲击测试,表明手部运动测试可以预测AD患者存在的情景记忆障碍。延续这一思路,Li等[17]发现远程网络摄像头记录的手指敲击记录与老年人的认知表现相关。Prigatano等[18]研究表明,潜在AD患者对比健康人在非优势手上的手指敲击变异性显著增加。这类任务能够捕捉运动节律与速度的下降,但仍局限于单一时序模态,且结果易受噪声、采样率、环境条件影响。
就手势产生障碍上,Geladó等[19]发现认知障碍越严重的AD患者,标志性手势的执行恶化越明显。Li等[20]表明手势模仿测试有助于区分路易体痴呆患者和AD患者。为实现临床可行性,Alty等[21]提出包含视频手部运动项目的在线评估用于临床前AD筛查。对于手部失用症测试,Yliranta等[22]设计包含模仿手势的痴呆失用症测试,发现AD患者表现出明显的肢体失用症。Papadopoulos等[23]使用哑剧与模仿手势构成的失用症评估测试,发现其有助于区分AD和额颞叶痴呆患者。Takasaki等[24]的研究表明当合理设定手势执行时间,手势模仿任务可能是一种负担较轻且有效的AD检测方法。尽管手势任务整合了运动规划与认知控制,但视频模态大多以二维观察为主,尚未对动作质量精细量化。
总体而言,现有研究主要是通过不同手部运动任务区分AD、MCI、PD等神经性疾病患者以及健康组,且多数任务缺乏对多模态手部动作信息的提取与深层整合,也没有从手部动作质量评估角度开展AD的相关识别,因此本文提出了基于多模态手部动作质量评估的早期AD识别方法。该方法构建了混合模态特征编码器与融合特定模态特征的融合模态特征解码器,在全局上下文建模与跨模态信息补偿两方面提升RGB、光流及骨骼模态的融合效果,以期获得更具判别力的高维特征表示。进一步结合动作质量评分与手势相关性排序,筛选出能区分患者的关键手势特征,并通过回归预测完成患者的类别划分。
1. 方法设计
1.1. 总体架构
在手部动作视频中,不同的视觉模态(如RGB、光流、手部骨骼)承载着各自特有的信息,有效融合这些视觉模态特征对于识别和理解手部动作的细微差异至关重要,本文提出了基于多模态手部动作质量评估的早期AD识别方法(early Alzheimer’s disease recognition via multimodal hand movement quality assessment,EADR),该方法的总体框架如图1所示。EADR方法首先利用主干网络及特定模态特征提取网络(modality-specific feature extraction network,MFEN)分别提取RGB、光流与骨骼模态的多阶段高维特征。随后,将三支路的第一阶段特征输入混合模态特征编码器(hybrid-modality feature encoder for fusing global contextual information,HFE)以建模全局上下文,并初始化可学习融合特征
。接着,通过融合模态特征解码器网络(fusion-modal feature decoder network with modality-specific features,FFDN)采用渐进式策略,分阶段将特定模态信息解码并注入融合特征。最终,经卷积回归层生成动作质量评分向量
。该评分向量依据手势相关度重排为
,并筛选Top-x个关键手势特征输入机器学习模型,实现对患者类别的回归预测与分类。
图 1.
Overall framework
总体框架
1.2. 融合全局上下文信息的混合模态特征编码器
为将三个特定模态网络分支全局上下文信息有效融入混合模态,本文设计的HFE模块首先将三种模态的特征拼接后进行线性变换形成基础特征集,接着采用自注意力机制[25]来识别不同模态之间的时空关联,再通过残差连接与层归一化来确保特征的稳定性,输出的全局特征兼顾单一模态的特性与丰富的跨模态交互信息。
首先,为获取包含全局信息的混合模态,拼接MFEN第一阶段的特定模态特征
、
和
,生成特征
,对
按特征数量维度平均并调整维度顺序,获取初始混合特征
。再后,通过全连接层获取包含特定模态分支全局信息的混合特征
。接着,使用自注意力机制从全局混合特征中学习上下文信息,将全局混合特征
经过全连接层分别得到全局特征矩阵
、
、
。再经过自注意力层获取全局上下文混合特征
,为防止梯度爆炸和消失,使用残差连接与层归一化处理特征得到
,并通过全连接层得到增强特征
。
1.3. 融合特定模态特征的融合模态特征解码器
在多模态融合过程中,HFE与渐进式融合会使融合分支与各模态分支产生信息重叠,部分模态特异信息可能在融合表示中被弱化,因此设计了基于交叉注意力机制的特定模态特征解码器(modality-specific feature decoder based on cross-attention mechanism,MFD),并使用三个阶段MFD构建FFDN模块,自动分阶段提取三个特定模态分支中被忽视的信息。MFD核心部件是多尺度时序卷积和交叉注意力,其网络架构如图2所示。
图 2.
Architecture of the specific modality feature decoder
特定模态特征解码器架构图
以FFDN第一阶段融合为例,全局上下文混合特征
经过点乘空白特征初始化融合特征
,获得可学习的融合模态特征
,
再经过多尺度时序卷积网络,对融合特征进行不同尺度的特征聚合,获取多尺度融合特征
。然后,使用单层卷积去增强多尺度特征信息,获取特征
。再后,将三个特定模态分支堆叠,调换顺序生成特定模态特征
。将包含不同尺度信息的融合特征
调换顺序生成特征
,将其和特定模态特征
输入交叉注意力模块,经过全连接层得到特定特征矩阵
、
、
。经过交叉注意力层后,得到多模态特定信息
。调换生成特征
顺序,获取包含各分支特定信息的融合特征
。对于三个阶段MFD构建的FFDN,前两个阶段通过分阶段池化策略逐步压缩特征维度,获取特征
。前两阶段的多模态融合特征为
和
而在第三阶段,MFD直接生成用以描述一个批次数据的多模态融合特征
。其中,
表示卷积核为3的一维卷积,文中取负数表示解码融合模态特征和特定模态特征之间所忽视的信息。
2. 实验结果与分析
2.1. 数据集与实验设计
2.1.1. 数据集
关于实验数据集,鉴于现有研究缺乏专用于AD患者的手部动作数据集,本文选用以PD患者为对象的PD4T数据集和包含AD及MCI数据的PRAXIS数据集作为实验对象。PD4T数据集包含30名PD患者的手部运动(Hand)和手指敲击(Finger)视频子集。PRAXIS数据集共包含58名受试者,其中包括29名正常老人、9名MCI患者、6名AD患者及14名其他类型痴呆患者。针对PRAXIS数据集,按2∶1比例划分训练集与测试集,并设定两类任务:预测正常或异常的CAI任务,以及区分正常、MCI、AD及其他痴呆患者(标签0~3)的APC任务。本文利用PD4T和PRAXIS数据集作为第一组实验数据,选用PRAXIS数据集中利用EADR方法进行APC任务得到的动作质量评分结果作为第二组实验数据。所有视频图像均经过去除背景及尺寸归一化(270像素×270像素)预处理。
2.1.2. 实验设计
本文设计了两组实验来验证所提方法的有效性。第一组实验聚焦于手部动作质量评估任务,旨在通过消融实验、多模态融合对比实验和动作质量评估对比实验,验证多模态特征融合框架EADR的性能。
第一组实验中,RGB模态针对PD4T和PRAXIS任务分别选用UNMT-B和UNMT-L,光流模态均采用I3D,均使用帧数为8的骨骼模态输入。在特定模态特征提取预训练参数的设置上,嵌入层与回归头Dropout分别设为0.3和0.5,采用SGD优化器,初始学习率为1 × 10−2,权重衰减为1 × 10−4,最小学习率为5 × 10−6,使用余弦退火策略,训练轮次定为250,批量大小为32。多模态融合训练时冻结RGB与骨骼分支,解冻光流分支,编码器和解码器注意力头数设为1。嵌入层、编码器、解码器及回归头的Dropout分别设为0.5、0.1、0.1和0.5,使用AdamW优化器,初始学习率为5 × 10−4,其余参数与特定模态参数相同。
针对第一组实验,采用斯皮尔曼等级相关系数(Spearman rank correlation coefficient)作为方法效果的衡量指标。其计算公式如(1)所示。式中,
和
表示真实标签序列和预测标签序列的排名。
值范围为–1~1。
![]() |
1 |
第二组实验考察动作质量评分在AD识别任务中的有效性。以本文提出的动作质量评估方法EADR输出的手势评分向量PA作为主要特征,按相关度排序选择最具判别力的前x个手势特征输入机器学习分类器进行AD识别实验。手势相关度排序计算的
如表1所示,表示各手势动作质量预测评分与真实评分的相关性。
表 1. Ranking results of gesture action quality correlation.
各手势动作质量相关度排序结果
| 手势动作 | 相关度(%) | 手势动作 | 相关度(%) | 手势动作 | 相关度(%) | 手势动作 | 相关度(%) | 手势动作 | 相关度(%) | ||||
| A23 | 88.06 | P11 | 85.76 | P15 | 84.36 | A24 | 82.33 | P12 | 74.99 | ||||
| P24 | 87.80 | S11 | 85.75 | A22 | 84.06 | S14 | 81.47 | A12 | 74.05 | ||||
| S23 | 86.63 | P23 | 85.44 | S12 | 83.87 | S13 | 80.08 | P22 | 73.69 | ||||
| P14 | 86.51 | S15 | 85.38 | S22 | 83.58 | A11 | 76.32 | A13 | 65.89 | ||||
| P13 | 86.32 | P25 | 84.99 | A21 | 83.23 | A15 | 75.73 | A14 | 63.00 | ||||
| S24 | 85.98 | S21 | 84.60 | P21 | 82.89 | A25 | 75.59 |
AD识别实验除了使用斯皮尔曼等级相关系数外,新增肯德尔等级相关系数(Tau)来评估类别预测的序数一致性,计算公式见式(2)。式中,
是真实标签序列和预测标签序列匹配对的数量,
是匹配错的数量,
值范围为–1~1。数值的绝对值越大相关性越强,数值为正表示正相关,数值为负表示负相关。
![]() |
2 |
2.2. 消融实验
2.2.1. 模型消融实验
为证明提出HFE和MFD的有效性,本文对两个模块进行了消融实验。实验结果见表2,其中方法1和2使用了卷积核为1的一维卷积层替换MFD模块,方法3则是直接去掉HFE模块进行实验。
表 2. Spearman rank correlation coefficients (%) of model ablation experiments.
模型消融实验的斯皮尔曼等级相关系数(%)
| 方法 | HFE | MFD | PD4T | PRAXIS | |||||
| Finger | Hand | Avg. | CAI | APC | Avg. | ||||
| 1 | 51.32 | 60.19 | 55.76 | 42.00 | 81.69 | 61.85 | |||
| 2 | √ | 53.94 | 60.94 | 57.44 | 44.72 | 81.17 | 62.95 | ||
| 3 | √ | 55.86 | 59.08 | 57.47 | 43.57 | 82.07 | 62.82 | ||
| 4 | √ | √ | 58.61 | 64.34 | 61.48 | 44.56 | 81.81 | 63.19 | |
与方法1相比,单独引入HFE形成方法2或MFD形成方法3时均能提升模型在PD4T和PRAXIS数据集上的平均表现。当同时添加两个模块形成方法4时,虽然在PRAXIS数据集的CAI和APC子任务上较单模块方法略有波动,但在两个数据集上的斯皮尔曼等级相关系数达到最优,分别为61.48%和63.19%,且相对于方法1各项结果均有提升。这表明HFE与MFD分别在特征编码与融合解码阶段发挥了关键作用,且二者结合能提升模型的整体性能。
2.2.2. 不同模态特征融合消融实验
为了研究各模态融合时的效果,对EADR的模态融合进行消融研究,实验结果见表3所示。在PD4T数据集上,双模态融合的平均表现均低于单模态基线,仅三模态融合实现了性能反超,平均斯皮尔曼相关系数较基线提升1.71%。在PRAXIS数据集上,引入RGB与光流或骨骼的组合均带来性能提升;然而,光流与骨骼的特征组合均有表征运动的信息导致存在特征冗余,平均指标反而下降。三模态融合在两个数据集上的综合平均指标均达到最高,平均指标较单模态基线上升1.95%。上述对比分析证明了融合RGB、光流和骨骼模态的有效性,表明了三种模态在评估动作质量的互补性。
表 3. Spearman rank correlation coefficients (%) of ablation experiments on fusion of different modal features.
不同模态特征融合消融实验的斯皮尔曼等级相关系数(%)
| 融合方法 | 融合模态 | PD4T | PRAXIS | ||||||||
| RGB | 光流模态 | 骨骼模态 | Finger | Hand | Avg. | CAI | APC | Avg. | |||
| 单模态基线 | 56.66 | 62.87 | 59.77 | 42.36 | 80.11 | 61.24 | |||||
| 本文方法 | √ | √ | 54.48 | 60.82 | 57.65 | 44.58 | 81.18 | 62.88 | |||
| √ | √ | 51.22 | 60.95 | 56.09 | 43.02 | 82.55 | 62.79 | ||||
| √ | √ | 52.11 | 59.15 | 55.63 | 32.52 | 65.95 | 49.24 | ||||
| √ | √ | √ | 58.61 | 64.34 | 61.48 | 44.56 | 81.81 | 63.19 | |||
2.3. 多模态融合对比实验
为验证所提EADR方法的有效性,本文将其与三种基础融合策略(拼接、相加、相乘)及五种现有代表性方法[26-29]进行了对比实验,结果见表4。实验结果表明,本文方法在PD4T与PRAXIS数据集上各项评估的斯皮尔曼等级相关系数相对于表格中其他方法均取得最优值。与当前表现较优的方法PAMFN相比,本文方法在两个数据集上的平均指标分别提升了2.24%和0.36%。这一提升说明了本文设计的渐进式融合框架的有效性。同时,结果也表明将混合特征与特定模态特征结合提升了多模态融合质量。
表 4. Spearman rank correlation coefficients (%) of comparison results with representative multimodal fusion methods.
与代表性多模态融合方法对比的斯皮尔曼等级相关系数(%)
| 融合方法 | 融合模态 | PD4T | PRAXIS | ||||||||
| RGB | 光流模态 | 骨骼模态 | Finger | Hand | Avg. | CAI | APC | Avg. | |||
| 特征拼接 | √ | √ | √ | 43.01 | 61.68 | 52.35 | 44.17 | 79.08 | 61.63 | ||
| 特征相加 | √ | √ | √ | 49.63 | 54.59 | 52.11 | 42.67 | 77.81 | 60.24 | ||
| 特征相乘 | √ | √ | √ | 53.46 | 58.77 | 56.12 | 44.13 | 79.13 | 61.63 | ||
| CMBS[26] | √ | √ | 58.45 | 56.46 | 57.46 | 35.41 | 76.77 | 56.09 | |||
| CMBS[26] | √ | √ | 48.77 | 57.82 | 53.30 | 30.86 | 76.87 | 53.87 | |||
| MSAF[27] | √ | √ | √ | 53.50 | 62.59 | 58.05 | 40.31 | 75.62 | 57.97 | ||
| UMT[28] | √ | √ | √ | 46.17 | 61.59 | 53.88 | 41.75 | 74.00 | 57.88 | ||
| PAMFN[29] | √ | √ | √ | 57.65 | 60.82 | 59.24 | 43.97 | 81.68 | 62.83 | ||
| 本文方法 | √ | √ | √ | 58.61 | 64.34 | 61.48 | 44.56 | 81.81 | 63.19 | ||
2.4. 动作质量评估对比实验
为了验证提出方法对动作质量评估效果的提升,表5展示了本文方法与其他具有代表性的动作质量评估方法[30-36]的对比结果。本文提出的EADR方法在两大数据集的所有指标上均取得最优性能:在PD4T数据集上,Finger和Hand两个子任务斯皮尔曼等级相关系数为58.61%和64.34%,平均值达到61.48%,较次优方法(CoRe+PECoP)提升了7.05%;在PRAXIS数据集上,各指标同样表现最佳,平均斯皮尔曼等级相关系数达63.19%,同样高于其他方法。这证明了本文所提EADR方法的有效性。
表 5. Spearman rank correlation coefficients (%) of comparison results of representative action quality assessment methods.
代表性动作质量评估方法对比的斯皮尔曼等级相关系数(%)
| 方法 | 模态/主干 | PD4T | PRAXIS | |||||
| Finger | Hand | Avg. | CAI | APC | Avg. | |||
| USDL[30] | RGB/I3D | 42.58 | 53.93 | 48.26 | 29.93 | 80.91 | 55.42 | |
| USDL + HPT[31] | RGB/I3D | 46.38 | 54.15 | 50.27 | — | — | — | |
| CoRe + HPT[31] | RGB/I3D | 49.73 | 57.06 | 53.40 | — | — | — | |
| CoRe + PECoP[32] | RGB/I3D | 49.40 | 59.46 | 54.43 | — | — | — | |
| USDL + PECop[32] | RGB/I3D | 47.44 | 56.19 | 51.82 | — | — | — | |
| CoRe[33] | RGB/I3D | 45.93 | 54.10 | 50.02 | 23.15 | 74.07 | 48.61 | |
| GDLT[34] | RGB/VST | 49.41 | 53.94 | 51.68 | 30.17 | 79.58 | 54.88 | |
| CoFINAl[35] | RGB/VST | 49.74 | 52.39 | 51.07 | 29.33 | 81.19 | 55.26 | |
| ASGTN[36] | RGB/VST | 47.58 | 51.96 | 49.77 | 31.84 | 79.78 | 55.81 | |
| 本文方法 | RGB/UNMT + 光流模态/I3D + 骨骼模态 | 58.61 | 64.34 | 61.48 | 44.56 | 81.81 | 63.19 | |
2.5. AD识别实验
为充分分析选择手势数量对结果的影响,根据手势相关性排序,选择使用1~5个手势、1~10个手势和1~全部手势(包含29个手势)的识别结果绘制如图3所示的箱型图,可以看出k-近邻回归模型在三种手势选择情况下均处于前列,且当只选用五个手势以下输入模型进行识别时,k-近邻回归模型处于最优。
图 3.

Distribution of correlation recognition results using different numbers of gestures
选用不同手势数量的相关性识别结果分布
对比使用1~5个手势、1~10个手势和1~全部手势的识别结果发现,选用1~5个手势识别的斯皮尔曼等级相关系数和肯德尔等级相关系数最佳得分与选择其他手势个数最高得分相差不大。为尽量保留关键手势从而得到手势维度最优选择,本文对比了选用1~5个手势时AD患者识别结果,对比结果如表6所示。可以发现,当选用手势数为3时,斯皮尔曼等级相关系数最优,肯德尔等级相关系数处于前列。综合考虑模型性能与手势特征降维的有效性,本研究最终确定选取3个手势作为输入特征。
表 6. Spearman and Kendall rank correlation coefficients (%) using 1-5 gestures.
选用1~5个手势时斯皮尔曼等级相关系数与肯德尔等级相关系数(%)
| 手势个数 | 支持向量机 | 决策树 | 随机森林 | 多层感知机 | k-近邻 | 朴素贝叶斯 | 岭回归 | |||||||||||||
| S | K | S | K | S | K | S | K | S | K | S | K | S | K | |||||||
| 注: S表示斯皮尔曼等级相关系数,K表示肯德尔等级相关系数 | ||||||||||||||||||||
| 1 | 86.48 | 74.81 | 83.84 | 77.08 | 84.01 | 76.85 | 86.48 | 74.81 | 84.01 | 76.85 | 82.15 | 77.00 | 86.48 | 74.81 | ||||||
| 2 | 89.44 | 78.03 | 83.85 | 76.60 | 90.57 | 82.28 | 87.96 | 76.42 | 86.97 | 79.45 | 81.26 | 74.26 | 89.44 | 78.03 | ||||||
| 3 | 89.44 | 78.03 | 83.85 | 76.60 | 89.80 | 80.47 | 89.44 | 78.03 | 90.98 | 83.44 | 81.26 | 74.26 | 89.44 | 78.03 | ||||||
| 4 | 89.44 | 78.03 | 83.85 | 76.60 | 89.32 | 79.33 | 89.44 | 78.03 | 90.69 | 83.57 | 81.83 | 76.00 | 89.44 | 78.03 | ||||||
| 5 | 88.87 | 76.42 | 89.86 | 81.39 | 90.09 | 80.43 | 88.87 | 76.42 | 90.69 | 83.57 | 86.51 | 78.88 | 88.87 | 76.42 | ||||||
为验证使用手势相关度排序降维的有效性,与使用其他降维方法进行了对比。对比结果如表7所示,本文手势相关度降维方法取得了最优效果,证明了使用手部动作质量相关度作为降维依据的有效性。综上所述,本文选用手势相关性排序进行降维,选择相关性得分最高的三个手势作为降维特征,输入k-近邻回归模型对患者得分进行预测,取得最佳结果。
表 7. Spearman and Kendall rank correlation coefficients (%) of different dimensionality reduction methods.
不同降维方法的斯皮尔曼等级相关系数与肯德尔等级相关系数 (%)
| 降维方法 | 支持向量机 | 决策树 | 随机森林 | 多层感知机 | k-近邻 | 朴素贝叶斯 | 岭回归 | |||||||||||||
| S | K | S | K | S | K | S | K | S | K | S | K | S | K | |||||||
| 注: S表示斯皮尔曼等级相关系数,K表示肯德尔等级相关系数 | ||||||||||||||||||||
| 因子分析 | 56.85 | 44.24 | 89.86 | 81.39 | 85.15 | 69.52 | 74.74 | 57.12 | 74.91 | 60.12 | 52.12 | 47.24 | 87.73 | 74.81 | ||||||
| 独立成分分析 | 59.22 | 48.42 | 61.91 | 55.23 | 40.67 | 32.72 | 54.23 | 42.64 | 74.60 | 64.52 | 37.93 | 34.83 | 88.30 | 76.42 | ||||||
| 主成分分析 | 88.87 | 76.42 | 86.67 | 75.56 | 83.74 | 68.23 | 82.94 | 69.99 | 90.75 | 83.36 | 73.15 | 65.34 | 88.87 | 76.42 | ||||||
| 层次聚类 | 89.44 | 78.03 | 86.51 | 78.88 | 90.08 | 81.79 | 89.44 | 78.03 | 90.75 | 83.36 | 76.43 | 69.28 | 89.44 | 78.03 | ||||||
| 本文方法 | 89.44 | 78.03 | 83.85 | 76.60 | 89.80 | 80.47 | 89.44 | 78.03 | 90.98 | 83.44 | 81.26 | 74.26 | 89.44 | 78.03 | ||||||
3. 结论
本文基于RGB、光流和手部骨骼三种手部动作模态图像信息对早期AD识别进行研究。首先,提出基于多模态手部动作质量评估的早期AD识别方法EADR,它能够深度挖掘三种模态的信息并实现多模态特征的有效融合,获取高质量的手部动作特征。该方法核心是本文设计的HFE和FFDN模块,HFE模块通过自注意力机制整合RGB、光流和骨骼模态的全局特征,FFDN模块则利用多尺度时序卷积和交叉注意力机制逐步提取特定模态中被忽视的判别性信息,两个模块的协同作用实现了多层次特征的提取与融合。其次,结合动作质量评分与相关性排序筛选关键手势特征,并基于机器学习模型完成AD患者识别,验证了手部动作质量评估在早期AD识别中的潜在价值。实验结果表明,EADR方法在PD4T和PRAXIS数据集上的动作质量评估任务中表现优异,并且在AD识别任务中使用k-近邻回归模型的识别效果最佳。未来,一方面为进一步提升模型的可解释性[37]、泛化能力和临床适用性,将结合医学知识与临床数据构建AD患者的手部动作数据集,探索更优的多模态信息融合策略,继续优化手势相关度排序算法,并在合作单位开展基于临床数据的测试。另一方面,考虑到数字笔迹和图形绘制任务可从时间、空间等维度补充手部动作信息,揭示患者在运动协调、视觉空间加工和执行控制方面的功能变化,后续将结合数字笔迹、图形绘制、临床量表等数据[38],建模时序与空间运动学及量表指标特征,构建多源多模态数据融合驱动的AD早期识别方法。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:杨观赐负责研究方法设计、指导及论文修改审校。朱诚诚参与研究设计与讨论,并参与了数据收集与分析,梳理论文结构以及修改初稿。吴均浪负责研究设计的总体规划、数据处理和模型构建、论文初稿撰写。罗可欣和陈小文优化实验设计,为论文撰写提出了宝贵意见。林家丞参与了文献调研、数据分析以及初稿修改完善。
Funding Statement
国家自然科学基金地区基金项目(62373116);贵州省科技计划项目(黔科合支撑[2023]一般118,黔科合基础QN[2025]055,黔科补平台GHJD[2025]005)
Contributor Information
观赐 杨 (Guanci YANG), Email: gcyang@gzu.edu.cn.
均浪 吴 (Junlang WU), Email: 2664707671@qq.com.
References
- 1.中国老年医学学会精神医学与心理健康分会 早期阿尔茨海默病诊疗路径的精神科实践指导. 中华精神科杂志. 2024;57(7):407–413. [Google Scholar]
- 2.Bloem B R, Okun M S, Klein C Parkinson’s disease. Lancet. 2021;397(10291):2284–2303. doi: 10.1016/S0140-6736(21)00218-X. [DOI] [PubMed] [Google Scholar]
- 3.Bischof G N, Jaeger E, Giehl K, et al Cortical tau aggregation patterns associated with apraxia in patients with alzheimer disease. Neurology. 2024;103(12):e210062. doi: 10.1212/WNL.0000000000210062. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 4.吴均浪, 郭威, 罗可欣, 等 动作捕捉数据驱动的神经退行性疾病运动评估研究进展. 生物医学工程学杂志. 2025;42(2):396–403,408. doi: 10.7507/1001-5515.202403004. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 5.Montero-Odasso M, Pieruccini-Faria F, Ismail Z, et al CCCDTD5 recommendations on early non cognitive markers of dementia: a canadian consensus. Alzheimers Dement (N Y) 2020;6(1):e12068. doi: 10.1002/trc2.12068. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6.Na H K, Cho H, Lee H S, et al Neural basis of motor symptoms in Alzheimer’s disease: role of regional tau burden and cognition. Alzheimers Dement (N Y) 2025;21(8):e70598. doi: 10.1002/alz.70598. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 7.崔建奇. 阿尔兹海默病. 西安: 陕西科学技术出版社, 2018.
- 8.De Stefano C, Fontanella F, Impedovo D, et al Handwriting analysis to support neurodegenerative diseases diagnosis: a review. Pattern Recognition Letters. 2019;121:37–45. doi: 10.1016/j.patrec.2018.05.013. [DOI] [Google Scholar]
- 9.Yu N, Chang S Characterization of the fine motor problems in patients with cognitive dysfunction - a computerized handwriting analysis. Hum Mov Sci. 2019;65:71–79. doi: 10.1016/j.humov.2018.06.006. [DOI] [PubMed] [Google Scholar]
- 10.Nardone E, D Alessandro T, De Stefano C, et al A bayesian network combiner for multimodal handwriting analysis in Alzheimer’s disease detection. Pattern Recogn Lett. 2025;190:177–184. doi: 10.1016/j.patrec.2025.02.019. [DOI] [Google Scholar]
- 11.Müller S, Herde L, Preische O, et al Diagnostic value of digital clock drawing test in comparison with cerad neuropsychological battery total score for discrimination of patients in the early course of Alzheimer’s disease from healthy individuals. Sci Rep. 2019;9(1):3543. doi: 10.1038/s41598-019-40010-0. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 12.Kim K W, Lee S Y, Choi J, et al A comprehensive evaluation of the process of copying a complex figure in early- and late-onset Alzheimer disease: a quantitative analysis of digital pen data. J Med Internet Res. 2020;22(8):e18136. doi: 10.2196/18136. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 13.Chan J Y C, Bat B K K, Wong A, et al Evaluation of digital drawing tests and paper-and-pencil drawing tests for the screening of mild cognitive impairment and dementia: a systematic review and meta-analysis of diagnostic studies. Neuropsychol Rev. 2022;32(3):566–576. doi: 10.1007/s11065-021-09523-2. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 14.Roalf D R, Rupert P, Mechanic-Hamilton D, et al Quantitative assessment of finger tapping characteristics in mild cognitive impairment, Alzheimer’s disease, and Parkinson’s disease. J Neurol. 2018;265(6):1365–1375. doi: 10.1007/s00415-018-8841-8. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 15.Colella D, Guerra A, Paparella G, et al Motor dysfunction in mild cognitive impairment as tested by kinematic analysis and transcranial magnetic stimulation. Clin Neurophysiol. 2021;132(2):315–322. doi: 10.1016/j.clinph.2020.10.028. [DOI] [PubMed] [Google Scholar]
- 16.Wang X, St George R J, Bindoff A D, et al Estimating presymptomatic episodic memory impairment using simple hand movement tests: a cross-sectional study of a large sample of older adults. Alzheimers Dement (N Y) 2024;20(1):173–182. doi: 10.1002/alz.13401. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 17.Li R, Wang X, Lawler K, et al Brief webcam test of hand movements predicts episodic memory, executive function, and working memory in a community sample of cognitively asymptomatic older adults. Alzheimers Dement (N Y) 2024;16(1):e12520. doi: 10.1002/dad2.12520. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18.Prigatano G P, Braga L W, Mcelvogue M, et al Motor correlates of finger tapping variability in subjective memory complaints, mild cognitive impairment and probable Alzheimer’s disease. J Alzheimers Dis. 2025;103(4):1161–1170. doi: 10.1177/13872877241312984. [DOI] [PubMed] [Google Scholar]
- 19.Geladó S, Gómez-Ruiz I, Diéguez-Vide F Gestures analysis during a picture description task: capacity to discriminate between healthy controls, mild cognitive impairment, and Alzheimer’s disease. J Neurolinguistics. 2022;61:101038. doi: 10.1016/j.jneuroling.2021.101038. [DOI] [Google Scholar]
- 20.Li X, Shen M, Han Z, et al The gesture imitation test in dementia with Lewy bodies and Alzheimer’s disease dementia. Front Neurol. 2022;13:950730. doi: 10.3389/fneur.2022.950730. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 21.Alty J, Bai Q, Li R, et al The tas test project: a prospective longitudinal validation of new online motor-cognitive tests to detect preclinical Alzheimer’s disease and estimate 5-year risks of cognitive decline and dementia. BMC Neurol. 2022;22(1):266. doi: 10.1186/s12883-022-02772-5. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 22.Yliranta A, Karjalainen V, Nuorva J, et al Apraxia testing to distinguish early Alzheimer’s disease from psychiatric causes of cognitive impairment. Clin Neuropsychol. 2023;37(8):1629–1650. doi: 10.1080/13854046.2023.2181223. [DOI] [PubMed] [Google Scholar]
- 23.Papadopoulos G, Parissis D, Gotzamani-Psarrakou A, et al Apraxia patterns for the differentiation between Alzheimer’s disease and frontotemporal dementia variants. Medicina. 2024;60(3):435. doi: 10.3390/medicina60030435. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 24.Takasaki A, Hashimoto M, Fukuhara R, et al Gesture imitation performance in community-dwelling older people: assessment of a gesture imitation task in the screening and diagnosis of mild cognitive impairment and dementia. Psychogeriatrics. 2024;24(2):404–414. doi: 10.1111/psyg.13086. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 25.Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need// Advances in Neural Information Processing Systems 30. Red Hook: Curran Associates, 2017: 5998-6008.
- 26.Xia Y, Zhao Z. Cross-modal background suppression for audio-visual event localization// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 19989-19998.
- 27.Wei D, Liu Y, Zhu X, et al MSAF: Multimodal supervise-attention enhanced fusion for video anomaly detection. IEEE Signal Process Lett. 2022;29:2178–2182. doi: 10.1109/LSP.2022.3216500. [DOI] [Google Scholar]
- 28.Liu Y, Li S, Wu Y, et al. UMT: Unified multi-modal Transformers for joint video moment retrieval and highlight detection// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 3042-3051.
- 29.Zeng L A, Zheng W S Multimodal action quality assessment. IEEE Trans Image Process. 2024;33:1600–1613. doi: 10.1109/TIP.2024.3362135. [DOI] [PubMed] [Google Scholar]
- 30.Tang Y, Ni Z, Zhou J, et al. Uncertainty-aware score distribution learning for action quality assessment// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 9839-9848.
- 31.Reed C J, Yue X, Nrusimha A, et al. Self-supervised pretraining improves self-supervised pretraining// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2022: 2584-2594.
- 32.Dadashzadeh A, Duan S, Whone A, et al. PECoP: Parameter efficient continual pretraining for action quality assessment// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2024: 42-52.
- 33.Yu X, Rao Y, Zhao W, et al. Group-aware contrastive regression for action quality assessment// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 7919-7928.
- 34.Xu A, Zeng L A, Zheng W S. Likert scoring with grade decoupling for long-term action assessment// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 3232-3241.
- 35.Zhou K, Li J, Cai R, et al. CoFInAl: Enhancing action quality assessment with coarse-to-fine instruction alignment// Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence. Jeju: IJCAI, 2024: 1771-1779.
- 36.Liu J, Wang H, Zhou W, et al Adaptive spatiotemporal graph transformer network for action quality assessment. IEEE Trans Circuits Syst Video Technol. 2025;35(7):6628–6639. doi: 10.1109/TCSVT.2025.3541456. [DOI] [Google Scholar]
- 37.Xu B, Yang G Interpretability research of deep learning: A literature survey. Inf Fusion. 2025;115:102721. doi: 10.1016/j.inffus.2024.102721. [DOI] [Google Scholar]
- 38.Yang F, Xu B, Lin J, et al. Early detection of Alzheimer’s disease based on leveraging multimodal features of the Clock Drawing Test. J Alzheimers Dis, 2026. DOI: 10.1177/13872877261423940.




