Skip to main content
Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering logoLink to Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering
. 2017 Dec;34(6):942–948. [Article in Chinese] doi: 10.7507/1001-5515.201704061

混合语音段特征双边式优选算法用于帕金森病分类研究

Combining speech sample and feature bilateral selection algorithm for classification of Parkinson’s disease

Xiaoheng ZHANG 1, Lirui WANG 2, Yao CAO 2, Pin WANG 2, Cheng ZHANG 2, Liuyang YANG 2, Yongming LI 2,*, Yanling ZHANG 3, Oumei CHENG 4
PMCID: PMC9935335  PMID: 29761992

Abstract

Diagnosis of Parkinson’s disease (PD) based on speech data has been proved to be an effective way in recent years. However, current researches just care about the feature extraction and classifier design, and do not consider the instance selection. Former research by authors showed that the instance selection can lead to improvement on classification accuracy. However, no attention is paid on the relationship between speech sample and feature until now. Therefore, a new diagnosis algorithm of PD is proposed in this paper by simultaneously selecting speech sample and feature based on relevant feature weighting algorithm and multiple kernel method, so as to find their synergy effects, thereby improving classification accuracy. Experimental results showed that this proposed algorithm obtained apparent improvement on classification accuracy. It can obtain mean classification accuracy of 82.5%, which was 30.5% higher than the relevant algorithm. Besides, the proposed algorithm detected the synergy effects of speech sample and feature, which is valuable for speech marker extraction.

Keywords: Parkinson’s disease, classification, bilateral hybrid speech feature selection, synergy effects, multiple kernel learning

引言

帕金森病(Parkinson’s disease,PD)是一种常见的神经系统退行性疾病,又称巴金森氏症或柏金逊症,多在 60 岁以后发病。在 PD 患者中,有 50%~80% 的病例起病隐袭,早期难以察觉而常被忽视,因此容易造成漏诊。该病一旦生成将对患者生活造成极大影响,且无法治愈和逆转[1]。在发病早期,患者主要表现为功能障碍,如运动迟缓、肌僵直、手指震颤、语言障碍和发音困难等,并伴有大脑语言功能区病变[2-4]。研究表明,通过提取 PD 患者语音特征并采用模式识别分类的方式,可以检测患者语言功能性障碍并能对其进行分类诊断[5]。因此,语音分析是实现 PD 无创诊断的有效方式。

Little 等[6-7]最早基于机器学习对受试者语音信号分析,实现了 PD 分类,并提供了一个数据库。Sakar 等[8]提供了另一个帕金森语音数据库。大部分国内外相关研究都是基于这两个数据库展开的。目前,特征参数提取的主要类型有基音类型(pitch type)、能量类型(energy type)、语速类型(speed type)和语义类型(content type)[6-10]。特征选择或变换的方法主要有:主成分分析(principal component analysis,PCA)[11-12]、神经网络方法(neural network)[13-14]、串行搜索法[11-12]、基于进化计算法[14]和熵信息法[15]。分类器的方法主要有:支持向量机(support vector machine,SVM)[7-8, 14]K 最近邻网络(K-nearest neighbor,KNN)[7-8]、随机森林(random forest,RF)[7]和决策树[16]等。

上述研究均通过基于语音数据的机器学习实现了 PD 分类,并取得了一定的分类准确性,但绝大多数并没有考虑样本优选。根据模式识别理论可知,样本优选可以改善样本结构特性,从而提高对分类器的训练效果,改善分类准确性[17]。本课题组前期研究将样本优选用于 PD 分类,取得了明显的改进效果[18]。但是,该项工作仍然没有考虑语音段和语音特征之间的关系,没有在样本优选的同时考虑特征的优选,限制了准确性的进一步提高,也无法实现对语音段和语音特征之间的关系研究。基于此,本文设计了一种基于相关特征选择(Relief)加权的 PD 分类算法[19]。该算法同时优选语音段和特征,用于挖掘语音段与特征之间的协同效应,有助于获取更高效特征,从而明显改进 PD 的分类准确性。

1. 基于混合语音段特征双边式优选的 PD 分类算法

1.1. 方法总体简述

本文算法流程简图如图 1 所示。首先,进行语音特征集变换,将同一受试者中所有语音段样本所对应的特征向量扩展成一个特征矩阵(混合特征,特征图)(M × NM 为语音段数,N 为特征数),形成受试者的待选混合特征图;然后采用留一法(leave-one-out,LOO)将样本集划分为训练样本集和测试样本集;接着基于训练样本集,采用 Relief 算法计算混合特征的权重;基于其权重,构造阈值,进行特征选择,从而得到优选后的混合特征子集;之后,基于混合特征子集,获得重构后的训练集与测试集;最后设计多核 SVM 分类器[20],对重构后的训练集与测试集分别训练、测试,得到分类结果。

图 1.

图 1

Flow chart of the proposed algorithm

本文算法主体流程图

由于本文算法中混合特征来源于不同测试语音段的原有特征,因此本文特征选择本质上是对语音段及语音特征的同时优选,这样做的结果有利于发现两者之间的相互关系,从而挖掘出更优质的特征。针对优选后的混合特征,本文算法采用多核 SVM 分类器进行分类。相较于单核 SVM 分类器,该分类器更有助于应对复杂的数据分布。为了便于描述,本文算法记为基于语音段特征双边式优选的 PD 分类算法(F&S_FS_for_PD)。可以看出,目前多数相关算法均主要关注于语音特征选择,因此可以看成是本文算法的特例,记为:F_FS_for_PD。作者前期改进算法专注于样本优选,也可以看成是本文算法的特例,记为:S_FS_for_PD。

1.2. 算法实现与分析

1.2.1. 主体算法流程

首先进行数据说明:样本数据集阵列 Inline graphic ,其中样本向量 Inline graphic Inline graphic ,标签向量 Inline graphic ,样本总数为 H,每个样本的特征数(向量分量数)为 N,全体样本划分为 M 个受试者(subject),即每个受试者包含的样本数为:H1 = H/M

本文算法主体算法的步骤如下:

步骤 1:语音特征集变换。变换后语音特征集为 Inline graphic ,其中 Inline graphic Inline graphic ,仅进行样本优选此步骤可以跳过;

步骤 2:将变换后的数据集 S′ 按留一法划分为训练集 Inline graphic 及相应标签, Inline graphic 和测试集 Inline graphic 及相应标签 Inline graphic

步骤 3:零均值(z-score)标准化训练集生成新集合 Inline graphic ,并采用 Relief 算法计算权重值 Inline graphic

步骤 4:按权重值从大到小对特征依次进行排序,将优选后剩下的特征数作为门限对训练集及测试集进行特征优选;

步骤 5:构造多核 SVM 模型进行训练及测试;

步骤 6:按留一法计算准确率、灵敏度和特异度。

1.2.2. 混合语音特征权重子模块

基于 Relief 算法的混合语音特征权重计算子模块的算法描述如下:

步骤 1:初始化权重向量 Inline graphic Inline graphic ,并依次选择一个样本,其向量表达为 Inline graphic Inline graphic

步骤 2:从与 Inline graphic 同类的样本中选择最近的 R 个近邻,构造矩阵 Inline graphic ,从与 Inline graphic 异类的样本中选择 R 个近邻,构造矩阵 Inline graphic

步骤 3:根据式 Wj = Wja + b 更新特征权重向量分量,其中样本与同类近邻相应分量的距离累计量 Inline graphic ,样本与异类近邻相应分量的距离累计量 Inline graphic

步骤 4:遍历所有样本累计计算得到最终的权重向量。

1.2.3. 多核学习子模块

多核学习子模块的算法流程如下:

步骤 1:构造子核函数 Inline graphic Inline graphic ,表达式如下: Inline graphic Inline graphic

步骤 2:基于子函数构造多核核函数: Inline graphic ,满足条件 Inline graphic Inline graphic

步骤 3:基于训练数据集 xm 及相应标签 Inline graphic ,采用梯度下降法对权重 dm 进行迭代寻优。

2. 实验结果与分析

2.1. 实验条件

本文选用 Sakar 等[8]于 2013 年创建的较新的 PD 数据集,并基于其训练数据中的 40 个受试者(每个受试者有 26 个训练样本,每个样本由 26 维特征参数构成特征向量)进行留一法交叉验证,即分类是基于受试者的留一法进行的,记为受试者留一法(leave-one-subject-out,LOSO)。该验证法下,训练集和测试集来自于不同的受试者。此类验证方法不同于以往相关研究常采用的样本留一法和 K 阶交叉检验法(k-fold cross validation),不会出现训练集与测试集的样本来自同一受试者的情况,从而保证分类准确率不会虚高,符合实际诊断情况。此外,本文算法的性能评估准则参见文献[18]。

2.2. 特征不变时语音段优选结果与分析

2.2.1. 分类准确率分析

表 1 所示,语音特征固定不变,采用 Relief 算法计算训练集样本权重并按降序排序,取前 N 个样本作为优选后的样本序列,生成新的训练集和测试集并重新训练测试;计算优选后语音样本数 N 与分类准确率、敏感度、特异度的对应关系。分类器使用多核 SVM。通过优化获得多核 SVM 的权重系数为:d1 = 0.6,d2 = 0.4。如表 1 所示,显示了语音样本优选后的分类准确性高于 60% 的情况。

表 1. Relationship between the selected speech sample and classification accuracy.

优选后语音样本数与分类准确率对应关系

优选后语音段数 N 准确率(%) 灵敏度(%) 特异度(%) 优选后语音段数 N 准确率(%) 灵敏度(%) 特异度(%)
1 70.00 75.00 65.00 18 62.50 65.00 60.00
9 60.00 70.00 50.00 19 62.50 65.00 60.00
14 62.50 67.50 57.50 20 61.25 65.00 57.50
15 65.00 65.00 65.00 21 62.50 65.00 60.00
16 63.75 65.00 62.50 22 61.25 67.50 55.00
17 60.00 60.00 60.00 23 62.50 65.00 60.00

表 1 所示,通过不同语音段组合,可以获得较高分类准确率,表 1 中大多数结果要优于文献[7]的结果。此外,不同语音段组合的分类准确性不同,这一规律表明语音段样本优选对 PD 分类非常重要。

2.2.2. 语音段的权重分布

图 2 所示,不同语音段的权重分布有所不同。其中,横坐标为语音段序号,纵坐标为该语音段的权重值。如图 2 所示,权重最大的样本是第 6 个样本,其所对应的测试语音是数字“3”。表 1 中优选后语音段数为 1 时准确率达到最高,其所对应也是第 6 个样本即数字“3”,表明了利用该样本进行分类的准确性能达到最优。第 18 个样本权重为第二大。根据数据集说明可见,该样本是土耳其词汇(数据集中未标明词汇的具体内容)。这说明,适当选择词汇作为测试样本也有利于区分正常人和 PD 患者。

图 2.

图 2

Distribution of weight of speech sample

语音段权重分布

2.2.3. 语音段优选前后对比分析

为了验证语音段优选的有效性,本组实验对语音段样本优选前后的可分度进行了比较分析,如图 3 所示,训练样本集包含有 M 个健康对照样本(normal control,NC)及 N 个 PD 样本。该图随机选取了 26 个特征中的两个特征组成二维向量用于度量样本的可分性,横坐标表示特征 1 的值,纵坐标表示特征 2 的值,两个特征的值均为归一化值。如图 3 所示,优选前的原始语音段样本数为 26,优选规则按照取最大语音段权重值前 15 个进行优选生成优选后的语音段样本。

图 3.

图 3

Effect of the sample selection

语音段样本优选效果图

取 NC 样本的两个特征 ai1ai2 及 PD 样本对应的两个特征 bi1bi2,计算其距离可分度值如下:

2.2.3. 1

其中, Inline graphic Inline graphic Inline graphic ,通过式(1)计算可得,优选前距离可分度为 0.048 2,优选后距离可分度为 0.056 0,性能提升了 16.2%,可见语音段优选是有效的。

2.3. 特征语音段同时优选结果与分析

2.3.1. 分类器优选效果对比分析

合并 26 个语音段的 26 个语音特征,形成 676 个待选混合特征,组成待选混合特征集。采用梯度下降法优化获得多核 SVM 的权重系数,分别为:d1 = 0.8,d2 = 0.2。

图 4 所示为采用 Relief 算法优选后混合特征与分类准确率的关系图。混合特征按权重大小排序后,取前 N 个特征来进行分类识别,得到对应的分类准确率。横坐标为优选后混合特征数目,纵坐标为分类准确率。图片中箭头处表明最优分类准确率及对应的优选后特征语音段数(混合特征数)。

图 4.

图 4

Relationship between the selected hybrid feature and classification accuracy

优选后混合特征与分类准确率对应关系

图 4 所示,当混合特征达到 20 左右以后,分类准确率迅速上升到 70% 以上。图中箭头所指,当 N = 363 时,分类准确率达到最大,为 82.5%。设比例系数 K = N/特征总数,当 K = 1/2,准确率为 80%;K = 1/4,准确率 80%;K = 1/6,准确率为 70%;K = 1/8,准确率 65%。混合特征与分类准确率关系比较明确,但大多数情况下,分类准确率变化都比较平稳。

2.3.2. 语音段与特征分布特性分析

图 5 所示为混合特征权重图。各特征权重值为所有受试者采用留一法交叉验证后,所有受试者特征权重值线性叠加所得。横坐标为特征序号,纵坐标为语音段样本序号。

图 5.

图 5

Distribution of weight of hybrid feature

混合特征的权重分布图

图 5 所示,权重值大的色块的分布区域相对较集中且数量较少,绝大部分色块的权重值较小。可以发现,基于同样的特征和不同语音段,权重差别较大,这说明不考虑语音段样本的差别而去单独考察特征的重要性具有一定的局限性。以 a,b 两处色块区域为例,其所处的语音段序号为 7 和 17,具体含义为数字“4”的发音和一个短句子(数据集中未标明具体内容),而所对应的特征序号为 1~5,具体特征为连续周期相对差[Jitter (local)]、连续周期绝对差[Jitter(local,absolute)]、周期相对平均扰动[Jitter (rap)]、五点周期扰动商[Jitter(ppq5)]、连续周期平均绝对差[Jitter (ddp)],即全部都是频率微扰(Jitter)的绝对值或相对值。说明对于第 7 个和第 17 个语音段而言,频率微扰的相关特征非常有效,结合这些特征与上述两个语音段,可以有效鉴别 PD 患者,这说明它们之间具有很明显的协同效应。

2.3.3. 分类准确率分析

表 2 所示为本文算法的分类对比结果。本文处理的数据集来自文献[8],因此本文算法与该文献的算法进行比较很有意义。此外,许多相关研究文献都采用了基于线性和径向基核函数 SVM 分类算法,因此本文也将其作为被比较算法加以对比。为了更深入验证本文算法有效性,将语音特征固定,同时考察本文算法的简化版,记为 S_FS_for_PD 算法。本文算法完整版为基于语音段特征双边式优选的 PD 分类算法,记为 F&S_FS_for_PD 算法。

表 2. The comparison of the classification results of the proposed algorithm.

本文算法分类结果对比

分类算法 基于受试者的留一法
准确率(%) 灵敏度(%) 特异性(%)
SVM(线性核函数)
 平均 65.0 65.0 65.0
 最好 65.0 65.0 65.0
SVM(径向基核函数)
 平均 67.5 80.0 55.0
 最好 67.5 80.0 55.0
文献[8]算法
 平均 52.0 55.0 49.0
 最好 85.0 85.0 90.0
S_FS_for_PD
 平均 70.0 75.0 65.0
 最好 70.0 75.0 65.0
F&S_FS_for_PD
 平均 82.5 80.0 85.0
 最好 82.5 80.0 85.0

表 2 所示,相较于 SVM 方法,本文算法取得了较为明显的改进效果。在准确率上,本文算法从 67.5% 提高到 82.5%,改进了 15%;在灵敏度上,本文算法仍然保持了现有方法的最高水平 80%;在特异度上,本文算法从 65% 提高到 85%,改进了 20%。相较于文献[8]的准确率结果,本文算法从 52% 提高到 82.5%,改进了 30.5%。比较本文算法的两个版本(S_FS_for_PD 和 F&S_FS_for_PD)可以发现,语音段和语音特征同时优选更有利于挖掘高质量特征,从而实现更好的分类准确率。相较于前者,在准确率上,后者从 70% 提高到 82.5%,改进了 12.5%;在灵敏度上,后者从 75% 提高到 80%,改进了 5%;在特异度上,后者从 65% 提高到 85%,改进了 20%。

3. 结论

基于语音数据实现 PD 诊断是有效的,但目前绝大多数相关研究没有考虑样本优选。作者前期研究结果表明,样本优选能带来明显的改进效果,但未考虑与特征同时优化。基于此,本文进一步提出了对语音段和特征同时优选,结合多核学习以发现语音段和特征的协同效应,用于提取更高效特征,从而提升 PD 分类准确性。实验结果表明,本文算法取得了明显的改进效果,分类准确率、灵敏度及特异度均有明显提高。此外,本文算法还可以定量评估不同语音段和语音特征的协同效应,对于研究语音段特征与 PD 的关系及语音标记物提取有一定的参考价值。

Funding Statement

国家自然科学基金资助项目(61771080,61108086,91438104,61571069,61501065);重庆市社会事业与民生保障科技创新专项(cstc2016shmszx40002);重庆市基础与前沿技术研究专项(cstc2016jcyjA0043,cstc2016jcyjA0064,cstc2016jcyjA0134);重庆市教委科学技术研究项目(KJ1603805,KJ1403808,KJ1503901);西南医院联合孵化项目(SWH2016LHYS-11);中央高校基本科研业务费(10611CDJXZ238826)

References

  • 1.Lang A E, Lozano A M Parkinson's disease. New England Journal of Medicine. 1998;37(3):198. [Google Scholar]
  • 2.van Den Eeden S K, Tanner C M, Bernstein A L, et al Incidence of parkinson's disease: variation by age, gender, and race/ethnicity. Am J Epidemiol. 2003;157(11):1015–1022. doi: 10.1093/aje/kwg068. [DOI] [PubMed] [Google Scholar]
  • 3.王宗宝, 黄永志, 张新静, 等 帕金森病患者局部场电位信号多频耦合特征分析. 生物医学工程学杂志. 2015;32(4):874–880. [PubMed] [Google Scholar]
  • 4.O’sullivan S B, Schmitz T J. Improving functional outcomes in physical rehabilitation. 5th ed. USA: F. A. Davis Company, 2010: 856-894
  • 5.Baghai-Ravary L, Beet S W Automatic speech signal analysis for clinical diagnosis and assessment of speech disorders. SpringerBriefs in Electrical and Computer Engineering. 2012;115(2):31–36. [Google Scholar]
  • 6.Little M A, Mcsharry P E, Hunter E J, et al Suitability of dysphonia measurements for telemonitoring of Parkinson's disease. IEEE Trans Biomed Eng. 2009;56(4):1015. doi: 10.1109/TBME.2008.2005954. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 7.Tsanas A, Little M A, Mcsharry P E, et al Novel speech signal processing algorithms for high-accuracy classification of Parkinson’s disease. IEEE Trans Biomed Eng. 2012;59(5):1264–1271. doi: 10.1109/TBME.2012.2183367. [DOI] [PubMed] [Google Scholar]
  • 8.Sakar B E, Isenkul M E, Sakar C O, et al Collection and analysis of a Parkinson speech dataset with multiple types of sound recordings. IEEE J Biomed Health Inform. 2013;17(4):828–834. doi: 10.1109/JBHI.2013.2245674. [DOI] [PubMed] [Google Scholar]
  • 9.Yair E, Gath I High resolution Pole-Zero analysis of parkinsonian speech. IEEE Trans Biomed Eng. 1991;38:161–167. doi: 10.1109/10.76382. [DOI] [PubMed] [Google Scholar]
  • 10.Perez C J, Naranjo L, Martin J, et al A latent variable-based Bayesian regression to address recording replications in Parkinson’s disease. European Signal Processing Conference. 2014:1447–1451. [Google Scholar]
  • 11.Hariharan M, Polat K, Sindhu R A new hybrid intelligent system for accurate detection of Parkinson's disease. Comput Methods Programs Biomed. 2014;113(3):904–913. doi: 10.1016/j.cmpb.2014.01.004. [DOI] [PubMed] [Google Scholar]
  • 12.Yang Shanshan, Zheng Fang, Luo Xin, et al Effective dysphonia detection using feature dimension reduction and kernel density estimation for patients with parkinson's disease. PLoS One. 2014;9(2):1–10. doi: 10.1371/journal.pone.0088825. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 13.Shahbakhti M, Taherifar D, Sorouri A. Linear and Non-linear Speech Features for Detection of Parkinson's disease//The 2013 Biomedical Engineering International Conference, 2013
  • 14.Avci D, Dogantekin A An expert diagnosis system for parkinson disease based on genetic Algorithm-Wavelet Kernel-Extreme learning machine. Parkinsons Dis. 2016:1–9. doi: 10.1155/2016/5264743. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 15.Galaz Z, Mekyska J, Mzourek Z, et al Department prosodic analysis of neutral, stress-modified andrhymed speech in patients with parkinson's disease. Comput Methods Programs Biomed. 2016;127:301–317. doi: 10.1016/j.cmpb.2015.12.011. [DOI] [PubMed] [Google Scholar]
  • 16.Hirschauer T J, Adeli H, Buford J A Computer-Aided diagnosis of parkinson's disease using enhanced probabilistic neural network. Journal of Medical System. 2015;39:179. doi: 10.1007/s10916-015-0353-9. [DOI] [PubMed] [Google Scholar]
  • 17.Kazumune H, Shuichi A, Dimos V Dimarogonas Self-Triggered model predictive control for nonlinear Input-Affine dynamical systems via adaptive control Samples Selection. IEEE Trans Automat Contr. 2017;62(1):177–189. [Google Scholar]
  • 18.李勇明, 杨刘洋, 刘玉川, 等 基于语音样本重复剪辑和随机森林的帕金森病诊断算法研究. 生物医学工程学杂志. 2016;33(6):1053–1059. [Google Scholar]
  • 19.Kira K, Rendell L. The feature selection problem: Traditional methods and a new algorithm//Proceedings of the Ninth National conference on Artificial Intelligence, New Orleans: AAAI press, 1992: 129-134
  • 20.Gonen M, Alpaydin E Multiple kernel learning algorithms. Journal of Machine Learning Research. 2011;12:2211–2268. [Google Scholar]

Articles from Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering are provided here courtesy of West China Hospital of Sichuan University

RESOURCES