Abstract
针对构音障碍语音识别率难以提升的问题,本文提出一种多尺度梅尔域特征图谱提取算法。该算法采用经验模态分解方法分解语音信号,分别对三个有效分量提取Fbank特征及其一阶差分,从而构成能够捕捉频域细节信息的新特征图谱。其次,由于单路神经网络在训练过程中,存在有效特征丢失及计算复杂度高的问题,本文提出一种语音识别网络模型。最后,在公开UA-Speech数据集上进行训练和解码。实验结果表明,本文方法的语音识别模型准确率达到了92.77%,因此,本文所提算法能有效提高构音障碍语音识别率。
Keywords: 构音障碍, Fbank特征, 语音识别, 经验模态分解
Abstract
In this paper, we propose a multi-scale mel domain feature map extraction algorithm to solve the problem that the speech recognition rate of dysarthria is difficult to improve. We used the empirical mode decomposition method to decompose speech signals and extracted Fbank features and their first-order differences for each of the three effective components to construct a new feature map, which could capture details in the frequency domain. Secondly, due to the problems of effective feature loss and high computational complexity in the training process of single channel neural network, we proposed a speech recognition network model in this paper. Finally, training and decoding were performed on the public UA-Speech dataset. The experimental results showed that the accuracy of the speech recognition model of this method reached 92.77%. Therefore, the algorithm proposed in this paper can effectively improve the speech recognition rate of dysarthria.
Keywords: Dysarthric, Fbank characteristics, Speech recognition, Empirical mode decomposition
0. 引言
构音障碍是一种发音相关肌肉或神经病变所导致的语言障碍,近年来针对构音障碍患者病理语音的研究受到广泛关注[1-5],由于他们的言语肌肉受损,导致患者发音含糊不清,言语难以让人理解[6]。构音障碍的类型与严重程度取决于受影响的神经系统区域[7],大多数情况下是由大脑损伤引起的,如脑瘫或肌营养不良等先天性疾病,或者受到某些后天因素影响而造成的中风、脑损伤或帕金森病[8]等。由于构音障碍患者发音迟钝、不清晰或语速波动较大,与人交流困难[9],因此标准的自动语音识别系统对于构音障碍的语音识别效果不佳[10-11]。
目前常用于语音识别的声学特征[12]主要有:梅尔倒谱系数(mel frequency cepstral coefficents,MFCC)、韵律特征、线性预测倒谱系数(linear prediction cepstrum coefficient,LPCC)、频谱图[13]等。近年来,采用神经网络搭建的语音识别声学模型[14-15]普遍具有很好的泛化能力,深度神经网络(deep neural networks,DNN)模型旨在通过使用病理语音数据来更好地训练声学模型[16],能有效地改善构音障碍语音识别的性能。王晴等[17]分析听障患者语音的声学及运动学特征,探讨其不同特征之间的差异和联系,能进一步帮助患者提高发音准确率。Zaidi等[18]提取不同声学特征送入神经网络模型中进行训练,同时在DNN模型研究基础上,尝试使用卷积神经网络(convolutional neural networks,CNN)和长短期记忆(long short-term memory,LSTM)神经网络来提升构音障碍语音识别率。Mohammed等[19]采用经验模态分解(empirical mode decomposition,EMD)和基于Hurst的模式选择进行语音增强,之后提取MFCC特征作为CNN的输入特征来实现构音障碍语音识别系统。虽然该方法提升了语音信号质量,但是提取的声学特征精度难以保证,可能会影响语音识别效果。Joy等[20]提出基于DNN的自动语音识别系统,并在TORGO构音障碍语音数据库上评估该系统的识别效果,文中针对DNN模型中隐藏节点和神经元的数量进行了相应调整,并通过随机丢弃和序列判别训练进一步优化模型,但对声学特征维数处理相对较少。Rajeswari等[21]提出一种生成模型驱动的特征学习判别框架,但由于构音障碍患者发音缺乏一致性,提取的声学特征存在相应的误差。Yue等[22]提出的多流模型由卷积层、循环层和全连接层组成,能对各种信息流进行预处理,并在最佳抽象级别进行融合,可以更好地处理构音障碍语音。
针对构音障碍语音信号在提取梅尔域特征过程中频域精度不够准确、低频有效特征易丢失及语音识别率难以提升的问题,笔者从频域特征出发,首先采用EMD对滤波器组(filter banks,Fbank)特征进行改进,提出一种多尺度梅尔域特征图谱提取算法,该算法结合EMD和Fbank特征两者的优势,能够捕获到构音障碍语音信号时变信息和相邻帧信息之间的联系,并通过捕捉语音信号低频细节信息,表现出更佳的语音识别效果;其次,为了减少网络模型的参数量和降低特征信息之间计算的复杂度,提出一种构音障碍语音识别网络模型;最后,对本文模型进行训练和解码,并设计了不同声学特征及网络模型性能的对比实验,来验证本文所提算法的有效性。
1. 基于EMD的多尺度梅尔域特征图谱提取算法
EMD是一种处理非平稳和非线性信号的时频分析方法,该方法可以自适应地将构音障碍语音信号分解为一组本征模函数(intrinsic mode function,IMF)的有限振荡分量[23],从而有效地提取语音信号中出现的低频振荡信息。本文采用EMD对Fbank特征进行改进,提出一种多尺度梅尔域特征图谱提取算法,该算法采用EMD对构音障碍语音信号进行分解,对分解后的IMF分量进行相关系数分析来筛选三个有效IMF分量,对有效IMF分量分别提取Fbank特征及其一阶差分,再将各帧特征拼接在一起构成多尺度滤波器组(multiscale filter banks,MFbank)特征图谱。MFbank特征图谱结合了EMD和Fbank特征两者的优势,采用EMD方法筛选出三个有效表达语音信息的IMF分量,能够有效弥补遗漏掉的语音低频细节特征,更全面地表达语音信号信息;对三个有效IMF分量分别提取Fbank特征及其差分特征,考虑到了人耳的结构特性,保留语音信号数据之间的相关性,能够捕获到语音信号时变信息和相邻帧信息之间的联系,有利于语音识别网络模型利用更加全面的语音细节特征来学习更加深层次的声学特征信息。MFbank特征图谱提取过程如图1所示。
图 1.
Flow chart of MFbank feature map extraction
MFbank特征图谱提取流程图
MFbank特征图谱具体提取过程如下:
(1)构音障碍语音信号经过预处理后,采用EMD方法分解出n个IMF分量,假设输入的语音信号为y(t),则经过EMD方法分解后可以表示为
![]() |
1 |
其中,
为第i个IMF分量,
为分解后剩余的残余信号,t代表帧同步时间。
(2)从n个IMF分量中找出能够有效表达语音信息的IMF分量,采用Spearman Rank相关系数[24]来判断每个IMF分量与原输入构音障碍语音信号之间相关系数的大小,假设某IMF分量为x(t),计算y(t)与x(t)之间Spearman Rank相关系数的公式为
![]() |
2 |
其中,
、
分别为第n帧的y(t)、x(t)值,
、
分别为
、
的平均值,
为原输入语音信号与分解后IMF之间的Spearman Rank相关系数值,N为分帧总数。一般认为
> 0.1时,代表两者之间具有相关性,本文选取相关系数最大的三个作为有效IMF分量。
(3)对三个有效IMF分量分别提取Fbank特征,Fbank特征提取过程[25]如图2所示。
图 2.
Flow chart of Fbank feature extraction
Fbank特征提取流程图
① 假设IMF分量经过预处理后得到语音信号的序列帧为
,对
进行短时傅里叶变换,得出语音序列频谱
。
②
经过Mel三角滤波器组
,得到滤波之后的能量谱,
的传递函数为
![]() |
3 |
其中
为选用第m个Mel三角滤波器的中心频率。
③ 对经过步骤 ② 得到的能量谱,再进行对数变换得到Fbank特征
,计算公式为
![]() |
4 |
其中
为选用第m个Mel三角滤波器的传递函数,M为滤波器个数。
(4)对有效IMF分量的Fbank特征进一步求取一阶差分,得到差分特征
,可以表示为
![]() |
5 |
其中
表示第k个有效IMF分量的Fbank特征,
表示第k个有效IMF分量Fbank特征的一阶差分,j为语音信号分帧操作的第j帧,m为特征维度大小。
(5)将得到的第j帧有效分量的Fbank特征及其一阶差分进行拼接,得到语音信号第j帧组合特征
,可以表示为
![]() |
6 |
其中d = 6*m表示特征维度大小。
(6)将各帧组合特征拼接在一起,得到MFbank特征图谱。
2. 构音障碍语音识别网络模型
近年来,大多数的单路神经网络在深度方向进行优化,在提取特征过程中会遗漏部分有效特征,因此本文提出一种构音障碍语音识别网络模型,采用两条不同的支路分别提取构音障碍语音特征,弥补了单条支路在提取特征时遗漏掉有效特征的缺陷,同时采用深度可分离卷积(depthwise separable convolution,DSC)对网络模型进行优化,能够减少网络模型的参数量和计算复杂度。本文采用DSC和CNN在深度和宽度两个不同维度上对语音信号的声学模型进行建模,一条支路采用传统CNN,另一条在模型前部分先使用传统CNN,然后让CNN与DSC两者交替使用;再采用Concat( )函数将两条支路提取的语音特征进行拼接得到特征图,送入充当分类器的全连接层,最后采用联结时序分类算法以单词为建模单元进行训练和解码。构音障碍语音识别网络模型的总体结构如图3所示。
图 3.

Speech recognition network model for dysarthria
构音障碍语音识别网络模型
CNN能够很好地处理语音信号中包含不同声学特征之间的高维数据,利用核函数从输入语音信号中提取特征映射,内核矩阵充当滑动窗口,对每张特征图执行卷积运算,其中卷积层可以通过局部感受野来发现不同声学特征之间的相关性,池化层能够过滤掉一些不相关的语音信息[26]。
DSC能够对神经网络模型性能进行优化,其中先对每个不同通道的特征进行卷积运算,再采用1*1卷积形式拼接不同通道上的所有特征信息,以此搭建的轻量级模型[27]能够在很大程度上减少网络模型参数的数量以及降低特征信息之间计算的复杂度。DSC结构如图4所示。
图 4.
Depthwise separable convolution structure
深度可分离卷积结构
深度卷积相比传统卷积,能有效提取模型中不同通道上的特征得到空间维度上的特征信息。输入特征图先经过深度卷积层,再采用1*1卷积核改变特征图个数得到每个点上的特征信息,在深度上加权组合得到新的输出特征图。
3. UA-Speech数据库
3.1. 数据库概况
伊利诺伊大学公布UA-Speech数据库[28],旨在促进构音障碍患者的用户界面开发。该数据库是由16名构音障碍患者和13名正常对照者的平行单词语音记录(包含10个数字、26个无线电字母、19个计算机命令和100个常见单词)组成。所有语音样本都是使用一个由八个麦克风组成的阵列录音,采样频率为16 kHz,并将每个单词录音保存为单独的wav文件。语料库中构音障碍患者的语音清晰度从2%到95%不等,例如“非常低(0~25%)”、“低(25%~50%)”、“中等(50%~75%)”和“高(75%~100%)”。
3.2. 数据集筛选
本文实验采用公开UA-Speech语料库中计算机命令单词及数字单词录音,其中含有12名男性和3名女性受试者的语音。实验过程中总共使用了6 264个构音障碍语音样本,语音识别29个类的孤立单词,每一类中包含216个语音样本。其中4 640个语音样本用于本文模型训练,每一类平均分配160个语音样本;1 273个语音样本用于本文模型测试,每一类平均分配语音样本;351个语音样本用于本文模型验证。本文实验划分的训练、测试、验证数据集中的每个语音样本是互不相交且随机选择的。
4. 实验结果分析
4.1. 实验准备
本文实验使用电脑配置为i3-10 105F CPU、16GB机带RAM和NVIDIA GeForce GTX 1 050Ti显卡,采用Keras + Tensorflow深度学习框架来搭建构音障碍语音识别网络模型,如图3所示。本文进行的构音障碍语音识别实验分为训练和测试两个部分,具体流程如图5所示。
图 5.
Experimental flow chart
实验流程图
4.2. 实验参数及评价指标
本文对16 kHz构音障碍语音信号提取120维MFbank特征图谱,采用适应性动量估计法(adaptive moment estimation,Adam)作为本文模型优化器,适用于非平稳目标训练,学习率设为0.001。该模型添加批量归一化(batch normalization,BN),以此提升该模型的泛化能力。在全连接层后使用Dropout,设置参数为0.3和0.5。卷积层中filters设置为8、16、32和64,池化层中pool_size设为2。本文模型采用ReLU函数作为激活函数,来解决训练过程中出现梯度消失、爆炸的问题[29]。
构音障碍语音识别网络模型的评价指标采用单词识别准确率(word recognition accuracy,WRA),可以表示为
![]() |
7 |
其中,C代表正确识别单词个数,N代表尝试识别单词总个数。
4.3. 实验结果及分析
为了验证本文所提多尺度梅尔域特征图谱算法以及构音障碍语音识别网络模型的有效性,本文设计了4组对比实验进行讨论:实验一:使用MFCC特征来训练本文模型;实验二:使用Fbank特征来训练本文模型;实验三:使用MFbank特征图谱剔除一阶差分部分来训练本文模型;实验四:使用MFbank特征图谱来训练本文模型。采取上述四组实验分别对测试集1 273条语音进行语音识别实验,不同声学特征的识别结果对比如表1所示,每个说话人的语音识别结果对比如表2所示。
表 1. Comparison of recognition results under different experiments.
不同实验下的识别结果对比
| 实验 | WRA(%) |
| 实验一 | 71.88 |
| 实验二 | 85.47 |
| 实验三 | 90.18 |
| 实验四 | 92.77 |
表 2. Comparison of recognition results of single speaker under different experiments.
单个说话人在不同实验下的识别结果对比
| 说话人 | 语音清晰度(%) | WRA(%) | ||
| 实验二 | 实验三 | 实验四 | ||
| M04 | 2 | 72.94 | 83.53 | 85.88 |
| F03 | 6 | 81.03 | 89.66 | 91.37 |
| M12 | 7 | 75.29 | 88.24 | 90.59 |
| M01 | 15 | 70.59 | 80.88 | 83.82 |
| M07 | 28 | 90.24 | 91.86 | 93.02 |
| F02 | 29 | 86.44 | 84.75 | 93.22 |
| M06 | 39 | 87.80 | 92.68 | 96.34 |
| M16 | 43 | 89.02 | 91.46 | 91.46 |
| M05 | 58 | 91.46 | 93.90 | 95.12 |
| F04 | 62 | 87.30 | 95.24 | 96.83 |
| M11 | 62 | 87.65 | 91.36 | 92.59 |
| M09 | 86 | 84.30 | 90.91 | 96.69 |
| M14 | 90 | 92.77 | 93.98 | 96.39 |
| M08 | 93 | 89.34 | 92.62 | 94.02 |
| M10 | 93 | 93.97 | 94.83 | 96.55 |
由表1可得,本文方法的构音障碍语音识别率达到了92.77%,实验四相比实验一、实验二和实验三分别提高了20.89%、7.30%和2.59%。由于对MFCC特征进行改进,在计算过程中剔除离散余弦变换得到Fbank特征,能够保留语音信号数据之间的相关性,实验二的识别率比实验一提高了13.59%。由于采用EMD方法能有效地分析语音信号中出现的低频振荡信息,弥补了遗漏掉的语音低频细节特征,实验三的识别率比实验二提高了4.71%。由于采用差分特征能够捕获到语音信号时变信息和相邻帧信息之间的联系,实验四的识别率比实验三提高了2.59%。
由表2可得,对于每个说话人来说,实验四采用MFbank特征图谱的识别效果优于实验二采用Fbank特征和实验三采用剔除一阶差分的MFbank特征的识别效果。图6给出说话人不同语音清晰度的语音识别结果对比,可以看出语音清晰度越高语音识别率越高,在语音清晰度非常低时,实验四、实验三和实验二的语音识别率达到了87.92%、85.58%、74.96%;在语音清晰度高时,实验四、实验三和实验二的语音识别率达到了95.91%、93.09%、90.10%。通过对表1、表2和图6的分析,MFbank特征图谱进行构音障碍语音识别时的识别率最高,该图谱能够有效地弥补遗漏掉的语音低频细节特征,并捕获到语音时变信息和相邻帧信息之间的联系,使得本文模型能够利用更加全面的语音特征来学习更加深层次的特征信息,验证了本文所提方法的有效性。
图 6.
Recognition results of different speech intelligibility in Experiment 2, Experiment 3 and Experiment 4
不同语音清晰度在实验二、实验三、实验四中的识别结果
为验证本文提取MFbank特征图谱以及本文模型所做贡献的有效性,进行消融实验,采用EMD方法分解语音信号,分别对三个有效IMF分量提取Fbank特征进行拼接得到EMD + Fbank特征;再增加一阶差分处理得到EMD + Fbank + 一阶差分特征。采用Concat( )函数将单路传统CNN和单路传统CNN + DSC进行拼接得到本文模型。将上述两种特征及Fbank特征分别在单路传统CNN、单路传统CNN + DSC和本文模型上进行消融实验对比,结果如表3所示。
表 3. Comparison of ablation test results.
消融实验结果对比
| 方法 | WRA(%) | ||
| 单路传统 CNN |
单路传统 CNN + DSC |
本文模型 | |
| Fbank | 83.74 | 84.45 | 85.47 |
| EMD + Fbank | 88.53 | 89.16 | 90.18 |
| EMD + Fbank + 一阶差分 | 91.12 | 91.67 | 92.77 |
由表3可知,EMD+Fbank特征相比Fbank特征在单路传统CNN、单路传统CNN+DSC、本文模型上的WRA分别提高了4.79%、4.71%、4.71%;EMD + Fbank + 一阶差分特征相比EMD + Fbank特征在单路传统CNN、单路传统CNN + DSC、本文模型上的WRA分别提高了2.59%、2.51%、2.59%。相比单路传统CNN和单路传统CNN + DSC模型,EMD + Fbank特征在本文模型上的WRA分别提高了1.65%、1.02%,EMD + Fbank + 一阶差分特征在本文模型上的WRA分别提高了1.65%、1.10%。由此可以得出,MFbank特征图谱相对Fbank特征的优越性,能够有效弥补遗漏掉的语音低频细节特征,同时考虑到了人耳的结构特性,能够捕获到语音信号时变信息和相邻帧信息之间的联系;本文模型相对单路网络模型的优越性,能够在深度和宽度两个不同维度上提取语音特征,弥补了单条支路遗漏掉的有效特征,进一步提升了语音识别率。
在公开UA-Speech数据集上,选取文献[21]、[30]、[31]的研究方法与本文方法进行语音识别效果对比,如表4所示。其中,文献[21]把MFCC向量映射到生成器模型诱导的固定维度向量空间里,在生成模型诱导似然向量空间(LL-SVM)和转移向量空间(TP-SVM)中构建判别分类器;文献[30]采用MFCC特征,作为神经网络ANN和MLP的输入特征;文献[31]提出一种语音视觉系统(speech vision,SV),该系统能够提取一种新的语音视觉特征,送入S-CNN模型进行训练。观察表4可以得出,本文方法的构音障碍语音识别率相比于ANN+MLP[30]、TP-SVM[21]、LL-SVM[21]和SV+S-CNN[31]分别提升了23.89%、19.09%、4.86%和3.23%。对比识别结果表明,本文方法的识别结果表现更佳,能够有效地提升构音障碍语音识别率。
表 4. Comparison of the method in this paper with other mainstream methods.
本文方法与其他主流方法对比
5. 结束语
针对构音障碍语音识别率难以提升的问题,笔者从频域特征入手,提出了一种多尺度梅尔域特征图谱提取算法,该算法提取的MFbank特征图谱能够有效弥补遗漏掉的语音低频细节特征,更全面地表达语音信号信息。本文采用DSC优化CNN,对语音信号的声学模型进行建模,得到最佳的构音障碍语音识别网络模型。在公开数据集上设计语音识别对比实验,实验结果表明,笔者所提方法的构音障碍语音识别率达到了92.77%,相比其他主流方法表现更佳,能有效提升语音识别率。在未来的工作中,将进一步优化构音障碍语音声学特征提取算法,并改进构音障碍语音识别网络模型结构来训练更加稳健的语音识别模型。
重要声明
利益冲突声明:本文全体作者均声明不存在利益冲突。
作者贡献声明:赵建星主要负责本研究算法的设计以及论文编写、修订;薛珮芸和白静老师主要负责实验指导、研究计划的安排;师晨康和袁博主要负责算法的平台搭建、程序设计;师同同主要负责实验数据的记录分析。
伦理声明:文中使用实验数据来自公开数据库,不涉及伦理问题。
Funding Statement
山西省应用基础研究计划项目(201901D111094);山西省基础研究项目(青年)(20210302124544);山西省研究生教育创新项目(2021Y305)
References
- 1.Yu Q, Ma Y, Li Y Enhancing speech recognition for parkinson’s disease patient using transfer learning technique. J Shanghai Jiaotong Univ Sci. 2022;27(1):90–98. doi: 10.1007/s12204-021-2376-3. [DOI] [Google Scholar]
- 2.张涛, 蒋培培, 张亚娟, 等 基于时频混合域局部统计的帕金森病语音障碍分析方法研究. 生物医学工程学杂志. 2021;38(1):21–29. doi: 10.7507/1001-5515.202001024. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 3.Liu S, Hu S, Xie X, et al Recent progress in the CUHK dysarthric speech recognition system. IEEE/ACM T Audio Spe. 2021;29(99):2267–2281. [Google Scholar]
- 4.梁正友, 黎雨星, 孙宇, 等 基于多特征组合的构音障碍语音识别. 计算机工程与设计. 2022;43(2):567–572. [Google Scholar]
- 5.Revathi A, Nagakrishnan R, Sasikaladevi N Comparative analysis of dysarthric speech recognition: multiple features and robust templates. Multimedia Tools Appl. 2022;81(22):31245–31259. doi: 10.1007/s11042-022-12937-6. [DOI] [Google Scholar]
- 6.Calvo I, Tropea P, Viganò M, et al Evaluation of an automatic speech recognition platform for dysarthric speech. Folia Phoniatr Logo. 2020;73(5):1–10. doi: 10.1159/000511042. [DOI] [PubMed] [Google Scholar]
- 7.Al-Qatab B A, Mustafa M B Classification of dysarthric speech according to the severity of impairment: an analysis of acoustic features. IEEE Access. 2021;(9):18183–18194. [Google Scholar]
- 8.Christabel S, Chellu A, Kannan P Isolated word recognition for dysarthric patients. Commun Appl Electron. 2016;5(2):14–17. doi: 10.5120/cae2016652219. [DOI] [Google Scholar]
- 9.Chandrashekar H M, Karjigi V, Sreedevi N Investigation of different time-frequency representations for intelligibility assessment of dysarthric speech. IEEE T Neur Sys Reh. 2020;28(12):2880–2889. doi: 10.1109/TNSRE.2020.3035392. [DOI] [PubMed] [Google Scholar]
- 10.Asemi A, Salim S, Shahamiri S R, et al Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on mvml-based ASR. Soft comput. 2019;23(10):3529–3544. doi: 10.1007/s00500-018-3013-4. [DOI] [Google Scholar]
- 11.Selouani S A, Yakoub M S, O’Shaughnessy D Alternative speech communication system for persons with severe speech disorders. Eurasip J Adv Sig Pr. 2009;(2009):1–12. [Google Scholar]
- 12.郑纯军, 王春立, 贾宁 语音任务下声学特征提取综述. 计算机科学. 2020;47(5):110–119. doi: 10.11896/jsjkx.190400122. [DOI] [Google Scholar]
- 13.Zaidi B F, Boudraa M, Selouani S A, et al Interface of an automatic recognition system for dysarthric speech. Int J Adv Comput Sci Appl. 2018;9(9):560–564. [Google Scholar]
- 14.Ren J, Liu M An automatic dysarthric speech recognition approach using deep neural networks. Int J Adv Comput Sci Appl. 2017;8(12):48–52. [Google Scholar]
- 15.Misbullah A, Lin H H, Chang C Y, et al Improving acoustic models for dysarthric speech recognition using time delay neural networks// 2020 International Conference on Electrical Engineering and Informatics (ICELTICs) Aceh: IEEE. 2020:1–4. [Google Scholar]
- 16.Chandrakala S, Rajeswari N Representation learning based speech assistive system for persons with dysarthria. IEEE T Neur Sys Reh. 2017;25(9):1510–1517. doi: 10.1109/TNSRE.2016.2638830. [DOI] [PubMed] [Google Scholar]
- 17.王晴, 白静, 薛珮芸, 等 听障学生和健听学生鼻韵母声学及运动学的分析研究. 生物医学工程学杂志. 2018;35(2):198–205. doi: 10.7507/1001-5515.201706007. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18.Zaidi B F, Selouani S A, Boudraa M, et al Deep neural network architectures for dysarthric speech analysis and recognition. Neural Comput Appl. 2021;33(15):9089–9108. doi: 10.1007/s00521-020-05672-2. [DOI] [Google Scholar]
- 19.Mohammed S Y, Sid-ahmed S, Brahim-Fares Z, et al Improving dysarthric speech recognition using empirical mode decomposition and convolutional neural network. Eurasip J Audio Spee. 2020;2020(1):1–7. doi: 10.1186/s13636-019-0169-5. [DOI] [Google Scholar]
- 20.Joy N M, Umesh S Improving acoustic models in torgo dysarthric speech database. IEEE T Neur Sys Reh. 2018;26(3):637–645. doi: 10.1109/TNSRE.2018.2802914. [DOI] [PubMed] [Google Scholar]
- 21.Rajeswari N, Chandrakala S Generative model-driven feature learning for dysarthric speech recognition. Biocybern Biomed Eng. 2016;36(4):553–561. doi: 10.1016/j.bbe.2016.05.003. [DOI] [Google Scholar]
- 22.Yue Z, Loweimi E, Christensen H, et al Acoustic modelling from raw source and filter components for dysarthric speech recognition. IEEE/ACM T Audio Spe. 2022;(30):2968–2980. [Google Scholar]
- 23.Bouchair A, Selouani S A, Amrouche A, et al Improved empirical mode decomposition using optimal recursive averaging noise estimation for speech enhancement. Circ Syst Signal Pr. 2022;41(1):196–223. doi: 10.1007/s00034-021-01767-w. [DOI] [Google Scholar]
- 24.Fritsch J, Magimai-Doss M Utterance verification-based dysarthric speech intelligibility assessment using phonetic posterior features. IEEE Signal Proc Let. 2021;(28):224–228. [Google Scholar]
- 25.Martin L, Matus P, Eva K, et al Efficient acoustic detector of gunshots and glass breaking. Multimed Tools Appl. 2016;75(17):10441–10469. doi: 10.1007/s11042-015-2903-z. [DOI] [Google Scholar]
- 26.Li D, Sun L, Xu X, et al BLSTM and CNN stacking architecture for speech emotion recognition. Neural Process Lett. 2021;53(6):4097–4115. doi: 10.1007/s11063-021-10581-z. [DOI] [Google Scholar]
- 27.Haase D, Amthor M Rethinking depthwise separable convolutions: how intra-kernel correlations lead to improved mobileNets// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Seattle: IEEE. 2020:14588–14597. [Google Scholar]
- 28.Kim H, Hasegawa-Johnson M, Perlman A, et al Dysarthric speech database for universal access research// INTERSPEECH 2008. Brisbane: DBLP. 2008:1741–1744. [Google Scholar]
- 29.张顺, 龚怡宏, 王进军 深度卷积神经网络的发展及其在计算机视觉领域的应用. 计算机学报. 2019;42(3):453–482. [Google Scholar]
- 30.Shahamiri S R, Salim S Artificial neural networks as speech recognisers for dysarthric speech: identifying the best-performing set of MFCC parameters and studying a speaker-independent approach. Adv Eng Inform. 2014;28(1):102–110. doi: 10.1016/j.aei.2014.01.001. [DOI] [Google Scholar]
- 31.Shahamiri S R Speech vision: an end-to-end deep learning-based dysarthric automatic speech recognition system. IEEE T Neur Sys Reh. 2021;(29):852–861. doi: 10.1109/TNSRE.2021.3076778. [DOI] [PubMed] [Google Scholar]












