Effect of speech recognition test presentation on cochlear implant user performance

Aline Faria de Sousa; Lucas Bevilacqua Alves da Costa; Rubens Vuono de Brito, Neto

doi:10.1590/2317-1782/e20240247en

. 2026 Mar 30;38(2):e20240247. doi: 10.1590/2317-1782/e20240247en

View full-text in Portuguese

Effect of speech recognition test presentation on cochlear implant user performance

Aline Faria de Sousa ^1,^✉, Lucas Bevilacqua Alves da Costa ², Rubens Vuono de Brito Neto ³

PMCID: PMC13075849 PMID: 41919898

ABSTRACT

Purpose

To analyze and compare speech recognition performance in cochlear implant (CI) users assessed with a speech recognition test administered through monitored live voice (MLV) and recorded audio, both in quiet and in noise.

Methods

This cross-sectional study included 48 participants who underwent medical history assessment, audiometry, and speech recognition testing under four conditions: MLV in quiet, recorded audio in quiet, MLV in noise, and recorded audio with noise. Statistical analyses were performed using nonparametric tests, adopting a 95% confidence interval and a significance level of p < 0.05.

Results

The highest performance was observed in the MLV condition in quiet, although this condition also showed greater response variability, suggesting a potential influence of evaluator-related characteristics. Performance in the MLV-in-noise and recorded-audio-in-quiet conditions was comparable, indicating that noise in live speech has an impact similar to changing the presentation mode from live to recorded speech. The lowest performance was observed in the recorded-in-noise condition, indicating that the combined effect of background noise and the absence of acoustic cues inherent to live speech negatively affects auditory performance. Word-based and sentence-based analyses produced similar outcomes.

Conclusion

Speech recognition performance in CI users is influenced by both presentation mode and background noise. These findings indicate that noise may be as detrimental as the transition from live to recorded speech, underscoring the importance of standardizing speech recognition test administration.

Keywords: Cochlear Implants, Speech Perception, Auditory Perception, Hearing Loss, Auditory Rehabilitation

INTRODUCTION

Auditory habilitation and rehabilitation can be supported by several technological resources, including hearing aids, bone-anchored hearing prostheses, and cochlear implants (CI). Given the specific indication criteria for each device, comprehensive auditory assessment is recommended, incorporating electrophysiological and electroacoustic measures, audiometry, and speech recognition testing⁽¹⁾.

Beyond device fitting, speech-language therapy focused on developing and refining auditory skills plays a central role in auditory rehabilitation^(2-4).

In Brazil, CI indication must adhere to Ministry of Health guidelines, which require candidates to achieve a minimum percentage of correct responses on open-set speech recognition tests. These criteria vary according to the individual’s age group (child or adult) and hearing loss onset (prelingual or postlingual). However, Ordinance No. 2,776 (2014) does not specify test administration methods—such as live voice versus recorded audio, in quiet or in noise—nor does it define scoring procedures, including whether performance should be based on correct identification of individual words or entire sentences⁽⁵⁾.

In 1996, the House Ear Institute (HEI) convened a committee to establish a minimum test battery for validating hearing device benefits and defining evaluation criteria for CI candidates. The committee emphasized test standardization and recommended an adult assessment protocol⁽⁶⁾ that included consonant–vowel–consonant (CVC) word tests for open-set word recognition⁽⁷⁾ and the Hearing in Noise Test (HINT) for open-set sentence recognition in quiet and noise⁽⁸⁾. These tests were distributed to multiple CI reference centers and provided on CD-ROM to ensure standardization and test–retest reliability across sites. Implementation of this battery coincided with technological advances that expanded access to cochlear implantation.

Over time, however, CI users began achieving ceiling-level performance on the HINT administered in quiet, prompting a revision of the minimum test battery⁽⁹⁾. The HINT was thus replaced by the AzBio Sentence Test⁽¹⁰⁾, which is more challenging, features multiple speakers and provides fewer contextual cues, along with the Bamford–Kowal–Bamford Speech-in-Noise (BKB-SIN) test⁽¹¹⁾, designed to determine the signal-to-noise ratio required for 50% correct speech perception.

Despite these recommendations, many audiology centers in Brazil continue using live-voice speech recognition tests. A study of speech-language pathologists from 17 cochlear implant centers reported that only five used recorded audio for sentence recognition testing, with considerable variability in procedures across 10 centers, indicating a lack of standardization in test administration and selection⁽¹²⁾.

Previous studies have demonstrated that live-voice testing may overestimate speech recognition in individuals with hearing loss, with most evaluations conducted via audiometer headphones^(13,14).

To date, only one study has evaluated CI users in a sound-field setting while using their devices, confirming superior performance with live-voice presentation compared to recorded speech⁽¹⁵⁾. The authors attributed this to examiner-related factors, including pronunciation, fluency, regional accent, and fundamental frequency, which can vary over time⁽¹⁶⁾.

Given the need to clarify the effects of speech test presentation modes on CI user assessment, this study aimed to analyze and compare sentence recognition performance in CI users assessed via live voice versus recorded audio, and to examine the influence of noise on auditory performance.

METHOD

This cross-sectional study was conducted between 2021 and 2023 at the Alfa Instituto de Comunicação e Audição and the Specialized Rehabilitation Center (CER III) of Hospital Universitário Alzira Velano. The sample comprised 48 cochlear implant (CI) users. The study complied with the principles of the Declaration of Helsinki of the World Medical Association (WMA) and was approved by the Research Ethics Committee of the Hospital das Clínicas, School of Medicine, University of São Paulo (HCFM/USP), Brazil (CEP/USP), under protocol number 5,900,342. Written informed consent was obtained from all participants and, when applicable, from parents or legal guardians of those under 18 years of age.

Inclusion and exclusion criteria

Participants were initially recruited by convenience sampling and subsequently screened according to the following inclusion criteria: documented open-set speech recognition in medical records; minimum age of five years; and at least six months of CI use. Individuals with CIs who presented any neurological impairment were excluded.

Procedures

All assessments were conducted under participants’ habitual listening conditions, reflecting their typical device use (bilateral, unilateral, or bimodal).

Speech recognition testing was administered at a fixed intensity of 60 dBA SPL in quiet. In the noise condition, the speech signal was presented at 60 dBA SPL with competing noise at 50 dBA SPL. Testing was performed in an acoustically treated booth using a two-channel digital audiometer (Interacoustic®, AC33). Speech and noise stimuli were delivered through a loudspeaker positioned at 0° azimuth in both the horizontal and vertical planes.

Participants were seated 1 m from the sound source. Sentences were presented via a notebook connected to the audiometer. Prior to testing, the output of each audiometer channel was calibrated using the pure tone included in the digital material as reference. Zero-level calibration was performed for the pure tone on channel 1 and for the noise on channel 2. Stimuli were calibrated using a digital sound level meter (Radio Shack®), set to A-weighting with fast response, positioned 1 m from the loudspeaker at 0° azimuth.

All assessments were administered by the same audiologist across all participants.

Study procedures

Data collection included:

Medical history, including age, sex, etiology of hearing loss, type of hearing loss (prelingual or postlingual), CI manufacturer, and duration of CI use. In bilateral implant users, duration of use was defined as the time elapsed since activation of the first implanted device.
Speech recognition testing, conducted using the Portuguese Sentence List (Listas de Sentenças em Português – LSP)⁽¹⁷⁾. The LSP consists of one list of 25 sentences (List 1A) and seven additional lists of 10 sentences each (Lists 1B–7B), all phonetically balanced and containing speech-spectrum noise and a calibration pure tone. The material was studio-recorded by a male speaker. Sentence recognition was assessed in a single session using four equivalent lists (3B, 4B, 5B, and 6B), under four presentation conditions. The testing protocol was as follows:

Method 1: Monitored live-voice (MLV) presentation in quiet at 60 dBA.
Method 2: Recorded presentation in quiet at 60 dBA.
Method 3: MLV presentation in noise at a +10 dBA signal-to-noise ratio (60 dBA speech, 50 dBA noise).
Method 4: Recorded presentation in noise at a +10 dBA signal-to-noise ratio (60 dBA speech, 50 dBA noise).

For Methods 3 and 4, the competing noise was the same speech-spectrum noise contained in the sentence list recordings.

Data analysis

Sentence recognition performance was analyzed using two approaches. The first calculated the percentage of correctly recognized words, awarding two points to each correctly repeated content word (nouns, adjectives, verbs, adverbs, and numerals) and one point for each correctly repeated function word (articles, prepositions, conjunctions, pronouns, and interjections). Scores for each list were summed and multiplied by a predefined reference value to obtain the final percentage⁽¹⁸⁾.

The second analysis focused on sentence-level performance, with each correctly recognized sentence corresponding to 10% of the total score for each list⁽¹⁷⁾.

Descriptive statistics for quantitative variables included means, medians, standard deviations, first and third quartiles, and 95% confidence intervals, as well as absolute and relative frequency distributions for qualitative variables.

Statistical analysis

Data normality was assessed using the Kolmogorov–Smirnov and Shapiro–Wilk tests. Nonparametric statistical analyses were conducted using the Friedman test for comparisons across three or more paired conditions, followed by Wilcoxon signed-rank tests for pairwise comparisons to identify statistically significant differences between conditions.

The significance level was set at 5%. Statistical analyses were conducted using SPSS v.26, Minitab 21.2, and Microsoft Excel Office 2010.

RESULTS

Figure 1 displays boxplots of participants’ age and duration of CI use, illustrating data distribution, including minimum and maximum values, median, quartiles, potential outliers, and means. The median is indicated by a blue line within the box, and the mean by a red dot.

Table 1 summarizes the distribution of qualitative variables, including auditory condition, etiology of hearing loss, cochlear implant brand, sex, and type of hearing loss.

Table 1. Distribution of qualitative characteristics.

Variable		n	%
Auditory condition	Bilateral	20	41.67
	Bimodal	9	18.75
	Unilateral	19	39.58
Etiology of hearing loss	Idiopathic	22	45.83
	Infectious	14	29.17
	Noninfectious	12	25.00
Cochlear implant brand	AB®	7	14.58
	COCHLEAR®	23	47.92
	MED-EL®	18	37.50
Sex	Female	21	43.75
Sex	Male	27	56.25
Type of hearing loss	Postlingual	13	27.08
Type of hearing loss	Prelingual	35	72.92

Open in a new tab

Caption: n = number of participants

Table 2 shows comparisons of speech recognition performance for words and sentences based on the percentage of correct responses.

Table 2. Comparison of sentence recognition test administration methods based on word-based scoring.

Scoring unit	Presentation mode	Mean	Median	Standard Deviation	Q1	Q3	n	CI	p-value
Words	MLV	69.2	72.5	24.5	51.5	90.4	48	6.9	<0.001
	R	56.2	59.2	30.2	28.7	82.9	48	8.5
	MLVN	53.1	55.4	25.3	33.6	68.7	48	7.2
	RN	45.4	42.7	31.2	15.0	64.9	48	8.8
Sentences	MLV	53.5	50.0	30.5	30.0	80.0	48	8.6	<0.001
	R	37.9	30.0	31.8	10.0	62.5	48	9.0
	MLVN	38.8	40.0	27.0	20.0	52.5	48	7.6
	RN	30.8	20.0	32.3	10.0	42.5	48	9.1

Open in a new tab

Caption: MLV = monitored live voice; R = recorded; MLVN = monitored live voice in noise; RN = recorded in noise; Q1 = 1^st quartile; Q3 = 3 ^rd quartile; CI = confidence interval; n = total sample size; p-value = probability value

Table 3 reports the p-values from Wilcoxon pairwise comparisons. Statistically significant differences were identified between all test conditions, except between the MLV-in-noise and recorded presentation modes, for both word-based and sentence-based scoring.

Table 3. Post-hoc pairwise comparison p-values for word- and sentence-based scoring.

Scoring unit	Presentation mode	MLV	R	MLVN
Words	R	<0.001			p-value
	MLVN	<0.001	0.142
	RN	<0.001	<0.001	0.003
Sentences	R	<0.001			p-value
	MLVN	<0.001	0.664
	RN	<0.001	0.02	0.012

Open in a new tab

Caption: MLV = monitored live voice; R = recorded; MLVN = monitored live voice in noise; RN = recorded in noise; p-value = probability value

Table 4 provides descriptive data on performance differences between MLV and recorded conditions, categorized by which presentation mode yielded the better performance. Data are organized by stimulus type (words or sentences) and presence or absence of noise. Overall, most participants demonstrated superior performance with MLV presentation, particularly in quiet conditions. In the quiet condition, word-based scoring showed that 43 participants performed better under live presentation, with a mean difference of 15.58 points compared to recorded presentation. This trend persisted in the noise condition for word-based scoring (mean difference of 16.71 points) and in quiet under sentence-based scoring (mean difference of 19.07 points). By contrast, sentence-based performance in noise was similar across presentation modes, with comparable mean scores for MLV (14.59) and recorded speech (14.55).

Table 4. Performance differences between live-voice and recorded presentation, according to each participant’s best performance.

Best performance			Mean	Standard Deviation	Min	Max	n	CI
Words	In quiet	MLV	15.58	12.09	0.00	52.68	43	3.61
	In quiet	Recorded	9.32	12.72	2.70	32.00	5	11.15
	In noise	MLV	16.71	13.29	1.56	60.99	30	4.76
	In noise	Recorded	7.48	7.12	0.30	21.99	18	3.29
Sentences	In quiet	MLV	19.07	15.71	0.00	60.00	43	4.69
	In quiet	Recorded	14.00	8.94	10.00	30.00	5	7.84
	In noise	MLV	14.59	16.60	0.00	60.00	37	5.35
	In noise	Recorded	14.55	6.88	10.00	30.00	11	4.06

Open in a new tab

Caption: MLV = monitored live voice; n = number of participants

Figures 2 and 3 illustrate the mean performance of the 48 participants in the sentence recognition test based on word- and sentence-level scoring, respectively.

DISCUSSION

In this study, speech recognition testing was conducted in a sound-field environment using both monitored live-voice and recorded presentation modes, in quiet and in noise, with participants wearing their own auditory devices. A review of the literature identified only one study directly comparing live-voice and recorded presentation in cochlear implant (CI) users. That study, conducted by Uhler et al.⁽¹⁵⁾, evaluated pediatric CI users and employed a presentation level of 60 dBA SPL in both conditions, consistent with the methodology used in the present investigation. The scarcity of recent studies comparing these two modes may reflect the widespread scientific consensus that recorded tests should be prioritized due to their superior standardization and reproducibility. By contrast, live-voice testing remains prevalent in clinical practice for both pediatric and adult populations, owing to its flexibility, ease of administration, and, notably, the limited availability of validated recorded speech materials in Portuguese. This clinical context, frequently observed in auditory rehabilitation services, underscores the relevance of examining how presentation mode influences speech perception outcomes. It also highlights the need to expand the availability of validated recorded materials in Portuguese to better align local clinical practice with international methodological standards.

For both word-based and sentence-based scoring, the only comparison that did not show a statistically significant difference was between MLV presentation in noise and recorded presentation in quiet. Across the remaining presentation modes, mean performance decreased progressively in the following order: MLV, recorded, MLV in noise, and recorded in noise. These results suggest that live-voice presentation in noise may impose a level of task complexity comparable to that of recorded presentation in quiet. However, this comparison should be interpreted with caution, since similar mean scores may reflect different underlying speech recognition demands. Live-voice presentation is inherently more dynamic and interactive, incorporating features such as intonation, prosody, expressiveness, and subtle articulatory variations, many of which are diminished or absent in recorded materials. The loss of these acoustic and suprasegmental cues may account for the poorer performance observed during recorded testing. Conversely, live-voice presentation is susceptible to examiner-related factors, including vocal quality, regional accent, intensity, hoarseness, and speech rate. These characteristics may vary over time due to the examiner`s health status, hormonal fluctuations, substance use, aging, and other factors, making it difficult to ensure consistent testing conditions across sessions when live voice is used^(19-21).

In addition, the frequent turnover of audiologists responsible for evaluating the same individual further challenges standardization. For this reason, the use of recorded speech materials is recommended whenever possible because it ensures consistent testing conditions and facilitates reliable performance comparisons over the course of auditory habilitation and/or rehabilitation. Although some studies have reported no significant differences between live-voice and recorded administration, attributing this finding to the examiner’s level of experience^(22-27), controlling for audiologist experience is rarely feasible in routine clinical settings, particularly in services with high staff turnover.

Based on the results of the present study, when recorded speech materials are unavailable for CI assessment, it is suggested that speech stimuli be presented with a signal-to-noise ratio of at least +10 dBA. Under these conditions, CI user performance is expected to be similar to that obtained with recorded testing in quiet. This approach, however, should be considered a last resort, reserved for exceptional circumstances in which audiology centers lack access to validated recorded speech recognition tests.

In contrast to the present findings, all participants in the study conducted by Uhler et al.⁽¹⁵⁾ demonstrated higher scores under live-voice presentation, with a mean improvement of 13%, ranging from 0 to 28%. In the current sample, most participants also performed better with MLV, regardless of noise. When performance was analyzed using word-based scoring in quiet conditions, the mean difference was 15%, ranging from 0 to 52.68%.

Although fewer in number, some participants performed better in recorded testing, consistent with findings reported in two previous studies^(16,27). In word-based scoring, this subgroup exhibited lower score variability, suggesting that the minor, non-significant variations in recorded-test scores may reflect expected test–retest variability rather than systematic effects of presentation mode.

In noisy conditions, while some participants scored higher with recorded presentation, both the standard deviation and mean difference were smaller than those observed in all other presentation modes using word-based scoring. These findings indicate that increasing task complexity is associated with reduced variability in participant performance. Moreover, word-based scoring appears to provide more sensitive data for examining these differences. Accordingly, CI users should be assessed using both word- and sentence-based scoring. As noted by Martin⁽²⁸⁾, sentence comprehension requires not only auditory skills but also cognitive, mnemonic, and auditory processing abilities. This is largely due to the greater linguistic redundancy inherent in sentence-level stimuli. Conversely, analyses focused on words and/or phonemes tend to more effectively capture auditory skill performance, since these stimuli are less redundant. Consequently, word- and sentence-based scoring approaches yield distinct yet complementary information that should be integrated into the comprehensive evaluation of CI users.

Given the influence of uncontrollable variables inherent to live-voice speech recognition testing, we recommend the use of recorded materials to ensure consistent testing conditions across test–retest scenarios. Furthermore, because the choice of scoring method (words or sentences) may influence interpretation of CI user benefits in relation to device mapping, signal-processing strategies, and therapeutic monitoring, audiologists should systematically analyze both approaches.

In summary, the present study demonstrates that speech recognition performance in CI users varies by test presentation mode, except when comparing live-voice presentation in noise with recorded presentation in quiet. Superior performance was observed with live-voice presentation in all other comparisons. With respect to scoring strategies, word-based scoring appears to be more sensitive in identifying differences between testing conditions

Funding Statement

Fonte de financiamento: nada a declarar.

Footnotes

Study conducted at Alfa Instituto de Comunicação e Audição, São Paulo (SP), Brasil and at the Centro Especializado em Reabilitação (CER III), Hospital Universitário Alzira Velano, Alfenas (MG), Brasil.

Financial support: nothing to declare.

Data Availability: Research data is available in the body of the article.

REFERENCES

1.Gomez MVSG, Guedes AC, Sant’Anna SBG, Peralta CGO, Tsuji RK, Castilho AM, et al. Medical and audiological selection criteria and evaluation for cochlear implants candidates: HC-FMUSP protocol. [citado em 2015 Jul 5];Int Arch Otorhinolaryngol. 2004 8(4):295. Internet. Disponível em: https://arquivosdeorl.org.br/additional/acervo_eng.asp?id=295 . [Google Scholar]
2.Fu QJ, Galvin JJ., 3rd Maximizing cochlear implant patients’ performance with advanced speech training procedures. Hear Res. 2008;242(1-2):198–208. doi: 10.1016/j.heares.2007.11.010. [DOI] [PMC free article] [PubMed] [Google Scholar]
3.Neves AJ, Verdu ACM, Moret ALM, Silva LTN. As implicações do implante coclear para desenvolvimento das habilidades de linguagem: uma revisão da literatura. Rev CEFAC. 2015;17(5):1643–1656. doi: 10.1590/1982-021620151755315. [DOI] [Google Scholar]
4.Bernstein CM, Brewer DM, Bakke MH, Olson AD, Machmer EJ, Spitzer JB, et al. Maximizing cochlear implant outcomes with short-term aural rehabilitation. J Am Acad Audiol. 2021;32(3):144–156. doi: 10.1055/s-0041-1722987. [DOI] [PubMed] [Google Scholar]
5.Brasil . Portaria nº 2776/GM, de 18 de dezembro de 2014. Aprova diretrizes gerais, amplia e incorpora procedimentos para a Atenção Especializada às Pessoas com Deficiência Auditiva no Sistema Único de Saúde (SUS) Diário Oficial da União; Brasília: 2014. [citado em 2015 Jul 5]. Ministério da Saúde. Internet. Disponível em: https://bvsms.saude.gov.br/bvs/saudelegis/gm/2014/prt2776_18_12_2014.html . [Google Scholar]
6.Nilsson MJ, McCaw VM, Soli SD. Minimum speech test battery for adult cochlear implant users. Los Angeles: House Ear Institute; 1996. [citado em 2015 Jul 5]. Internet. Disponível em: https://www.auditorypotential.com/MSTBfiles/MSTBManual2011-06-20%20.pdf . [Google Scholar]
7.Peterson GE, Lehiste I. Revised CNC lists for auditory tests. J Speech Hear Disord. 1962;27(1):62–70. doi: 10.1044/jshd.2701.62. [DOI] [PubMed] [Google Scholar]
8.Nilsson MJ, Soli SD, Sullivan JA. Development of the Hearing in Noise Test for the measurement of speech reception thresholds in quiet and in noise. J Acoust Soc Am. 1994;95(2):1085–1099. doi: 10.1121/1.408469. [DOI] [PubMed] [Google Scholar]
9.Auditory Potential New Minimum Speech Test Battery (MSTB) for adult cochlear implant. 2011. [citado em 2015 Jul 5]. Internet. Disponível em: https://www.auditorypotential.com/MSTBfiles/MSTBManual2011-06-20%20.pdf .
10.Spahr AJ, Dorman MF. Performance of subjects fit with the Advanced Bionics CII and Nucleus 3G cochlear implant devices. Arch Otolaryngol Head Neck Surg. 2004;130(5):624–628. doi: 10.1001/archotol.130.5.624. [DOI] [PubMed] [Google Scholar]
11.Etymotic Research . BKB-SIN Speech-in-Noise Test (Version 1.03). Elk Grove Village: Etymotic Research; 2005. [citado em 2015 Jul 5]. Disponível em: https://www.etymotic.com/product/bkb-sin/ [Google Scholar]
12.Faria LR. Testes de percepção de fala nos centros de implante coclear: conhecendo a realidade nacional. Recife: Universidade Federal de Pernambuco; 2016. [citado em 2015 Jul 5]. [dissertação] Disponível em: https://repositorio.ufpe.br/handle/123456789/20265 . [Google Scholar]
13.Roeser RJ, Clark JL. Live voice speech recognition audiometry: stop the madness. Audiol Today. 2008;20(1):32–33. [Google Scholar]
14.Andrade AN, Iorio MC, Gil D. Speech recognition in individuals with sensorineural hearing loss. Braz J Otorhinolaryngol. 2016;82(3):334–340. doi: 10.1016/j.bjorl.2015.10.002. [DOI] [PMC free article] [PubMed] [Google Scholar]
15.Uhler K, Biever A, Gifford RH. Method of speech stimulus presentation impacts pediatric speech recognition: monitored live voice versus recorded speech. Otol Neurotol. 2016;37(2):e70–4. doi: 10.1097/MAO.0000000000000911. [DOI] [PubMed] [Google Scholar]
16.Ciscare GKS, Zabeu JS, Santos DR, Morettin-Zupelari M, Delgado-Pinheiro EMC, Frederigue-Lopes NB. List of words to evaluate speech perception: recording and verification of applicability. Rev CEFAC. 2020;22(5):e2820. doi: 10.1590/1982-0216/20202252820. [DOI] [Google Scholar]
17.Costa MJ, Iorio MCM, Albernaz PLM. Development of a test to evaluate speech recognition with and without noise. Pro Fono. 2000;12(2):9–16. [Google Scholar]
18.Costa MJ, Santos SN, Lessa AH, Mezzomo CL. Proposal for implementing the Sentence Recognition Index in individuals with hearing disorders. CoDAS. 2015;27(2):148–154. doi: 10.1590/2317-1782/20150000316. [DOI] [PubMed] [Google Scholar]
19.Tsao YC, Weismer G. Interspeaker variation in habitual speaking rate: evidence for a neuromuscular component. J Speech Lang Hear Res. 1997;40(4):858–866. doi: 10.1044/jslhr.4004.858. [DOI] [PubMed] [Google Scholar]
20.Harris RW, Goffi MVS, Pedalini MEB, Merrill A, Gygi MA. Reconhecimento de palavras dissilábicas psicometricamente equivalentes no português brasileiro faladas por indivíduos do sexo masculino e do sexo feminino. Pro Fono. 2001;13(2):249–262. [Google Scholar]
21.Vojtech JM, Noordzij JP, Jr, Cler GJ, Stepp CE. The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech. Am J Speech Lang Pathol. 2019;28(2S):875–886. doi: 10.1044/2019_AJSLP-MSC18-18-0052. [DOI] [PMC free article] [PubMed] [Google Scholar]
22.Creston JE, Gillespie M, Krohn C. Speech audiometry: taped vs live voice. Arch Otolaryngol. 1966;83(1):14–17. doi: 10.1001/archotol.1966.00760020016007. [DOI] [PubMed] [Google Scholar]
23.Beattie RC, Forrester PW, Ruby BK. Reliability of the Tillman-Olsen procedure for determination of spondee threshold using recorded and live voice presentations. J Am Audiol Soc. 1977;2(4):159–162. [PubMed] [Google Scholar]
24.Baek H, Lee J. Psychometric functions of the one-syllable word recognition with monitored live voice versus recorded presentation for hearing impaired adults. Audiol Speech Res. 2007;3(2):122–130. doi: 10.21848/audiol.2007.3.2.122. [DOI] [Google Scholar]
25.Mendel LL, Owen SR. A study of recorded versus live voice word recognition. Int J Audiol. 2011;50(10):688–693. doi: 10.3109/14992027.2011.588964. [DOI] [PubMed] [Google Scholar]
26.Vaucher AVA, Menegotto IH, Moraes AB, Costa MJ. Listas de monossílabos para teste logoaudiométrico: validação de construto. Audiol Commun Res. 2017;22(0):e1729. doi: 10.1590/2317-6431-2016-1729. [DOI] [Google Scholar]
27.Lima NM, Santos TM. Desempenho de adultos com perda auditiva na pesquisa do índice de reconhecimento de fala para material de fala gravado e a viva voz. [citado em 2015 Jul 5];Distúrb Comun. 2016 28(3):523–529. Internet. Disponível em: https://revistas.pucsp.br/index.php/dic/article/view/27387/20858 . [Google Scholar]
28.Martin M. Logoaudiometria. 1. São Paulo: Santos; 2005. [Google Scholar]

Codas. 2026 Mar 30;38(2):e20240247. [Article in Portuguese] doi: 10.1590/2317-1782/e20240247pt

Influência da forma de aplicação de testes de reconhecimento de fala no desempenho de usuários de implante coclear

Aline Faria de Sousa ^1,^✉, Lucas Bevilacqua Alves da Costa ², Rubens Vuono de Brito Neto ³

RESUMO

Objetivo

Analisar e comparar o desempenho no reconhecimento de fala de usuários de implante coclear (IC) por meio do teste de reconhecimento de sentenças aplicado à viva voz e por áudio gravado, com e sem ruído.

Método

Estudo transversal com 48 participantes, avaliados por anamnese, audiometria e teste de reconhecimento de fala em quatro condições: viva voz, áudio gravado, viva voz com ruído e áudio gravado com ruído. A análise estatística utilizou testes não paramétricos, com intervalo de confiança de 95% e nível de significância de p<0,05.

Resultados

O melhor desempenho foi observado na condição viva voz sem ruído, com maior variabilidade nas respostas, sugerindo possível influência das características do avaliador. O desempenho nas condições viva voz com ruído e áudio gravado sem ruído foi semelhante, indicando que o ruído na fala ao vivo impacta tanto quanto a troca do modo de apresentação de viva voz para gravado. A pior performance foi na condição áudio gravado com ruído, evidenciando que a combinação do ruído com a ausência dos elementos acústicos da fala ao vivo impacta negativamente a performance auditiva. As análises por palavras e por sentenças foram semelhantes.

Conclusão

O desempenho de usuários de IC no reconhecimento de fala é afetado tanto pela forma de apresentação quanto pela presença de ruído. Os resultados reforçam que o ruído pode ter efeito tão impactante quanto a mudança da fala ao vivo para gravada, destacando a necessidade de padronização na aplicação dos testes.

Descritores: Implantes Cocleares, Percepção da Fala, Percepção Auditiva, Perda Auditiva, Reabilitação

INTRODUÇÃO

A habilitação e reabilitação auditiva podem ser realizadas por meio de tecnologias disponíveis como os aparelhos de amplificação sonora individual (AASI), as próteses osteancoradas ao osso (POAO) e o implante coclear (IC). Existem critérios particulares para a recomendação de cada dispositivo e por isso, é sugerida a realização de uma análise auditiva abrangente através de procedimentos eletrofisiológicos, eletroacústicos, audiometria e testes de reconhecimento da fala⁽¹⁾

Além do uso do dispositivo é importante ressaltar a importância da fonoterapia voltada ao desenvolvimento e aperfeiçoamento das habilidades auditivas no processo de habilitação e reabilitação auditiva^(2-4).

No Brasil a indicação do IC deve respeitar as diretrizes Ministério da Saúde, que estabelece que o candidato deve apresentar uma determinada porcentagem de acertos nos testes de reconhecimento da fala em conjunto aberto, cujo critério varia de acordo com as características do indivíduo (criança ou adulto) e do ponto de início da perda auditiva (pré ou pós lingual). Contudo, a Portaria n. 2.776 (2014) não menciona a forma com que o teste deve ser realizado, se à viva voz, com áudio gravado, com ruído ou sem ruído, nem como a pontuação dos testes deve ser calculada, considerando o acerto de palavras individuais na sentença ou a sentença completa⁽⁵⁾.

Em 1996 o House Ear Institute (HEI) realizou um comitê para instituir uma bateria mínima de testes com o objetivo de validar o benefício do uso dos dispositivos auditivos, além de detalhar os critérios de avaliação dos candidatos ao IC. Para tanto, o comitê enfatizou que os testes deveriam ser padronizados e sugeriu o uso do seguinte protocolo para a avaliação de adultos⁽⁶⁾: para avaliação de palavras em conjunto aberto, aplica-se o teste com palavras no formato consoante-vogal-consoante⁽⁷⁾ e para a avaliação do reconhecimento de sentenças em conjunto aberto no silêncio e no ruído, utiliza-se o teste Hearing in Noise Test (HINT)⁽⁸⁾. Todos os testes foram distribuídos para diversos centros de referência em IC e disponibilizados por meio de gravação em CD ROMs, para garantir a padronização e validade dos mesmos em situações de teste e reteste em diferentes localidades. Após o estabelecimento da bateria mínima de avaliação, houve um grande avanço na tecnologia e mais pessoas receberam o dispositivo.

Entretanto, os usuários de IC passaram a alcançar a pontuação máxima no HINT apresentado em silêncio, devido ao efeito de teto observado para o teste, tornou-se necessária a revisão da bateria mínima de testes⁽⁹⁾, sendo então substituído o teste de sentenças HINT pelos teste Sentenças AzBio⁽¹⁰⁾, por ser considerado um teste mais complexo e apresentar diferentes vozes e menos pistas contextuais e, o teste Bamford-Kowal-Bamford Speech-in-Noise (BKBSIN) ⁽¹¹⁾, que avalia a relação sinal ruído necessária para que o candidato alcance 50% de acertos na percepção auditiva da fala.

Muitos centros de audiologia no Brasil realizam os testes de reconhecimento da fala à viva voz. Um estudo constatou a partir dos profissionais fonoaudiólogos inseridos em dezessete diferentes centros de implante coclear, que apenas 5 serviços realizavam testes de reconhecimento de sentenças com áudio gravado. Também foi identificada variabilidade dos testes em dez centros, demonstrando que não há padronização em relação à metodologia de aplicação e ao modelo do teste utilizado⁽¹²⁾.

Outros estudos evidenciaram que os testes à viva voz podem superestimar o desempenho dos indivíduos com deficiência auditiva, na maior parte dos estudos os testes foram realizados por meio de fones de ouvido do audiômetro^(13,14).

Apenas um estudo realizou os testes em campo sonoro com usuários de IC, estes estavam utilizando seus dispositivos auditivos no momento dos testes. Confirmou-se que os usuários de IC apresentam melhor desempenho no teste à viva voz do que no teste gravado⁽¹⁵⁾. Os pesquisadores atribuem este efeito a possíveis variáveis relacionadas às características vocais do examinador, tais como: pronúncia, fluência, acento regional e frequência fundamental, que podem variar ao longo do tempo⁽¹⁶⁾.

Tendo em vista a necessidade de entender o impacto das duas formas de aplicação (viva voz versus gravado) dos testes de reconhecimento da fala para avaliação usuários de IC, esta pesquisa teve como objetivo analisar e comparar o desempenho de reconhecimento da fala de usuários de implante coclear por meio do teste de reconhecimento de sentenças aplicado de forma à viva voz e áudio gravado e determinar a influência do ruído na performance auditiva

MÉTODO

Trata-se de um estudo transversal, realizado no Alfa Instituto de Comunicação e Audição e no Centro Especializado em Reabilitação (CER III) do Hospital Universitário Alzira Velano. A pesquisa foi desenvolvida entre os anos de 2021 e 2023, incluiu 48 participantes usuários de IC e atendeu aos princípios éticos para a investigação científica envolvendo seres humanos, estabelecidos pela Declaration of Helsinki of the World Medical Association (WMA). O estudo foi aprovado por Comitê de Ética em Pesquisa do Hospital das Clínicas da Faculdade de Medicina da Universidade de São Paulo (HCFM/USP), Brasil (CEP/USP), sob parecer de número 5.900.342 e obteve o consentimento informado por todos os participantes do estudo, bem como o consentimento informado de seus pais quando os participantes tinham idade menor que 18 anos.

Critérios de inclusão e exclusão

A amostra foi selecionada inicialmente por conveniência e em seguida avaliada para o atendimento dos seguintes critérios: Apresentar reconhecimento da fala em conjunto aberto com dados registrados em prontuário; Idade mínima de cinco anos; Tempo mínimo de seis meses de utilização do IC. Foram desconsiderados os usuários de IC com qualquer tipo de comprometimento neurológico.

Procedimentos

Todos os testes foram realizados na condição auditiva habitual do paciente, ou seja, da forma que ele costuma utilizar seus dispositivos (bilateral, unilateral ou bimodal).

Os testes utilizaram intensidade fixa de 60 dBA NPS na condição sem ruído e 60 dBA NPS de sinal de fala e 50dBA NPS de ruído na condição com ruído, e foram realizados em cabine acusticamente tratada com audiômetro digital de dois canais, marca Interacoustic®, modelo AC33. A incidência do sinal de fala e do ruído foi em 0º azimute nos planos horizontal e vertical.

Os sujeitos foram posicionados a 1 m de distância da fonte sonora. As sentenças foram apresentadas com auxílio de um notebook acoplado ao audiômetro. A saída de cada canal do “Volume Units Meter” (VU-meter) do audiômetro foi previamente calibrada, utilizando-se como referência o tom puro presente no material digital. Houve também a calibração a nível zero para o tom puro presente no canal 01 e para o ruído presente no canal 02. O estímulo foi calibrado utilizando como referência a escala A (resposta rápida) de um decibelímetro digital da marca Radio Shack®, e o equipamento foi posicionado à um metro de distância da caixa a 0 grau azimute.

Todos os testes foram aplicados pela mesma audiologista em todos os participantes.

Dados do estudo

Foram realizados os seguintes procedimentos:

Anamnese para coleta de dados como: idade; sexo; etiologia da perda auditiva; tipo de surdez (pré ou pós lingual); marca do implante utilizado; tempo de uso do IC, sendo considerando para os usuários bilaterais o tempo de uso do IC mais antigo.
Testes de Reconhecimento de Fala: Foi aplicada a Listas de Sentenças em Português (LSP)⁽¹⁷⁾. O teste LSP é composto por uma lista de 25 sentenças denominada Lista 1A e outras sete listas contendo 10 sentenças cada (1B a 7B). Todas as listas foram balanceadas foneticamente e apresentaram ruído de espectro de fala e um tom puro de calibração, sendo gravadas em estúdio por um locutor com voz masculina. Os participantes realizaram os testes de sentenças na mesma sessão e com a utilização das listas 3B, 4B, 5B e 6B e quatro métodos diferentes de aplicação, é importante ressaltar que as Listas são compatíveis entre si no que diz respeito ao nível de dificuldade. Portanto, seguiu-se o cronograma abaixo:

Método 1: Apresentação do teste à viva voz sem ruído a 60 dBA.
Método 2: Apresentação do teste gravado sem ruído a 60 dBA.
Método 3: Apresentação do teste à viva voz com relação sinal/ruído de +10 dBA, utilizando 60 dBA para o sinal de fala e 50 dBA para o ruído.
Método 4: Apresentação do teste gravado com relação sinal/ruído de +10 dBA, sendo utilizados 60 dBA para o sinal de fala e 50 dBA para o ruído.

Para os métodos 3 e 4 nos quais o som competitivo esteve presente, houve a padronização do procedimento através da utilização do mesmo ruído disponível na gravação da lista de sentenças (ruído de espectro de fala).

Análise dos dados

Para o teste de sentenças foram realizadas duas análises. A primeira considerou o percentual de acertos de palavras, atribuindo dois pontos para cada palavra de conteúdo (substantivos, adjetivos, verbos, advérbios e numerais) e um ponto para cada palavra funcional (artigos, preposições, conjunções, pronomes e interjeições), repetida corretamente. Ao final da apresentação da lista os pontos foram somados e multiplicados por um valor de referência pré-estabelecido, para obter o percentual final de acertos^(18).

A segunda análise esteve orientada para o cálculo do percentual de acertos de sentenças, sendo atribuídos 10% para cada sentença de cada lista⁽¹⁷⁾.

A análise descritiva apresentou as médias, medianas, desvios padrão, 1º quartis, 3º quartis e intervalos de confiança para as variáveis quantitativas e as distribuições de frequência absoluta e relativa para as variáveis qualitativas.

Análise estatística

Foram aplicados os testes Kolmogorov-Smirnov e Shapiro Wilk para determinar a normalidade dos dados, seguido dos testes não-paramétricos de Friedman para comparação dos testes (comparação de dados pareados de 3 ou mais variáveis) e Wilcoxon para comparação por pares, para determinar entre quais testes exatamente ocorreu a diferença significativa.

O nível de significância adotado foi de 5% e para as análises foram utilizados os softwares SPSS v.26, Minitab 21.2 e Excel Office 2010.

RESULTADOS

A Figura 1 apresenta os boxplots referentes à idade dos participantes e ao tempo de uso do implante coclear, possibilitando a visualização da distribuição dos dados, incluindo valores mínimos e máximos, mediana, quartis, possíveis outliers e a média. A mediana é representada pela linha azul no interior da caixa, enquanto a média é indicada por um ponto vermelho.

Na Tabela 1 encontra-se a distribuição das seguintes variáveis qualitativas: condição auditiva, etiologia da perda auditiva, marca do IC, sexo e tipo de surdez.

Tabela 1. Distribuição das variáveis qualitativas.

Variáveis		n	%
Condição Auditiva	Bilateral	20	41,67
	Bimodal	9	18,75
	Unilateral	19	39,58
Etiologia da Perda Auditiva	Idiopática	22	45,83
	Infecciosa	14	29,17
	Não infecciosa	12	25,00
Marca do IC	AB®	7	14,58
	COCHLEAR®	23	47,92
	MEDEL®	18	37,50
Sexo	Feminino	21	43,75
Sexo	Masculino	27	56,25
Tipo de surdez	Pós-lingual	13	27,08
Tipo de surdez	Pré-lingual	35	72,92

Open in a new tab

Legenda: n = número de participantes

Na Tabela 2 estão apresentadas as comparações dos resultados dos testes considerando o percentual de acertos de palavras e sentenças.

Tabela 2. Comparação dos métodos de aplicação dos testes de reconhecimento de sentenças considerando a pontuação por palavras.

Pontuação	Modalidade	Média	Mediana	Desvio Padrão	Q1	Q3	n	IC	p-valor
Palavras	VV	69,2	72,5	24,5	51,5	90,4	48	6,9	<0,001
	G	56,2	59,2	30,2	28,7	82,9	48	8,5
	VVR	53,1	55,4	25,3	33,6	68,7	48	7,2
	GR	45,4	42,7	31,2	15,0	64,9	48	8,8
Sentenças	VV	53,5	50,0	30,5	30,0	80,0	48	8,6	<0,001
	G	37,9	30,0	31,8	10,0	62,5	48	9,0
	VVR	38,8	40,0	27,0	20,0	52,5	48	7,6
	GR	30,8	20,0	32,3	10,0	42,5	48	9,1

Open in a new tab

Legenda: VV = Viva voz; G = gravado; VVR = Viva voz com ruído; GR = gravado com ruído; Q1 = 1º quartil; Q3 = 3º quartil; IC = intervalo de confiança; n = número total de participantes; p-valor = valor de probabilidade

Na Tabela 3 observa-se os p-valores (pelo teste de Wilcoxon) das comparações entre os testes aos pares. Houve diferença estatisticamente significante entre todos os testes, exceto entre os testes viva voz no ruído e gravado, tanto para a pontuação por palavras como para sentenças.

Tabela 3. P-valores do post-hoc da tabela 3 para pontuação por palavras e sentenças.

Pontuação	Modalidade	VV	G	VVR
Palavras	G	<0,001			p-valor
	VVR	<0,001	0,142
	GR	<0,001	<0,001	0,003
Sentenças	G	<0,001			p-valor
	VVR	<0,001	0,664
	GR	<0,001	0,02	0,012

Open in a new tab

Legenda: VV = Viva voz; G = gravado; VVR = Viva voz com ruído; GR = gravado com ruído; p-valor = valor de probabilidade

A Tabela 4 apresenta os dados descritivos da diferença de desempenho entre os testes aplicados em viva voz e gravado, considerando o modo de apresentação em que cada participante obteve melhor resultado. Os dados estão organizados por tipo de estímulo (palavras ou sentenças), com e sem presença de ruído. Observa-se que, de modo geral, a maioria dos participantes teve melhor desempenho no modo viva voz, especialmente nas condições sem ruído. Para palavras sem ruído, 43 participantes apresentaram melhor desempenho em viva voz, com uma diferença média de 15,58 pontos em relação ao modo gravado. Essa tendência se manteve em palavras com ruído (diferença média de 16,71 pontos) e em sentenças sem ruído (diferença média de 19,07 pontos). Na condição de sentenças com ruído, os resultados foram semelhantes entre os modos, com médias próximas para viva voz (14,59) e gravado (14,55).

Tabela 4. Diferença de desempenho entre os modos de apresentação (viva voz e gravado), conforme o melhor resultado individual.

Melhor desempenho na Apresentação			Média	Desvio Padrão	Min	Max	n	IC
Palavras	Sem ruído	Viva Voz	15,58	12,09	0,00	52,68	43	3,61
	Sem ruído	Gravado	9,32	12,72	2,70	32,00	5	11,15
	Ruído	Viva Voz	16,71	13,29	1,56	60,99	30	4,76
	Ruído	Gravado	7,48	7,12	0,30	21,99	18	3,29
Sentenças	Sem ruído	Viva Voz	19,07	15,71	0,00	60,00	43	4,69
	Sem ruído	Gravado	14,00	8,94	10,00	30,00	5	7,84
	Ruído	Viva Voz	14,59	16,60	0,00	60,00	37	5,35
	Ruído	Gravado	14,55	6,88	10,00	30,00	11	4,06

Open in a new tab

Legenda: n = número de participantes

Na Figura 2 é apresentada a média do desempenho dos 48 participantes que realizaram o teste de sentenças, considerando a pontuação por palavras.

Na Figura 3 é apresentada a média do desempenho dos 48 participantes considerando a pontuação por sentenças.

DISCUSSÃO

Neste estudo, os testes foram aplicados em campo, apresentados à viva voz e por áudio gravado, com e sem ruído, e os participantes estavam utilizando seus dispositivos auditivos. Na literatura, foi encontrado apenas um estudo que investigou as diferenças entre as formas de apresentação à viva voz e gravado em usuários de implante coclear, realizado por Uhler et al.⁽¹⁵⁾, com crianças usuárias de IC, utilizando intensidade de 60 dBA NPS (A) em ambas as condições, assim como no presente estudo. A escassez de publicações atuais que comparam essas duas formas de apresentação pode estar relacionada ao fato de que, no contexto científico, há um consenso de que os testes gravados devem ser priorizados, por garantirem maior padronização e reprodutibilidade dos resultados. Contudo, na prática clínica, a aplicação à viva voz ainda é amplamente utilizada, tanto em avaliações pediátricas quanto adultas, devido à sua flexibilidade, facilidade de execução e, especialmente, à limitada disponibilidade de materiais gravados validados em língua portuguesa. Essa realidade, frequentemente observada nos serviços de reabilitação auditiva, reforça a importância de investigar o impacto que a forma de apresentação pode ter nos resultados dos testes de percepção de fala. Além disso, evidencia a necessidade de ampliar a oferta de materiais gravados em português, promovendo maior alinhamento entre a prática clínica e os padrões metodológicos preconizados pela literatura científica internacional.

Nesta pesquisa, constatou-se que considerando-se a pontuação por palavras e sentenças só não houve diferença estatisticamente significante entre as apresentações na modalidade à viva voz na presença de ruído e gravada sem ruído. Em relação às demais formas de apresentação, os indivíduos tiveram média de acertos maior nas seguintes formas de apresentação, respectivamente: à viva voz, gravado, viva voz no ruído e gravado no ruído. Tal resultado nos sugere que a complexidade da forma de apresentação à viva voz na presença de ruído seria equivalente à forma gravada sem o ruído. No entanto, essa comparação demanda cautela, pois embora os escores médios sejam semelhantes, trata-se de tarefas que envolvem habilidades distintas de reconhecimento de fala. A apresentação à viva voz, por ser mais dinâmica, natural e interativa, envolve características como entonação, prosódia, expressividade e microvariações articulatórias, elementos que são, em grande parte, perdidos nas versões gravadas. A perda desses elementos em uma gravação pode justificar um desempenho pior no teste gravado. No entanto, as apresentações à viva voz podem ser influenciadas por fatores como o timbre vocal, sotaque, intensidade, rouquidão e velocidade do estímulo, e esses fatores podem variar ao longo do tempo devido a questões de saúde, variações hormonais, uso de substâncias, idade e outras situações, tornando inviável a manutenção das mesmas condições em diferentes ocasiões na aplicação do teste à viva voz^(19-21).

A rotatividade frequente de audiologistas que podem avaliar o mesmo indivíduo também torna a padronização desafiadora. Portanto, é aconselhável que o teste seja sempre realizado com gravações de áudio, mantendo condições consistentes para permitir a comparação do desempenho do indivíduo ao longo de seu processo de habilitação e/ou reabilitação auditiva. Alguns estudos não encontraram diferenças significativas entre as formas de aplicação à viva voz e gravada, estes estudos sugerem que essa ausência de diferenças seja decorrente da experiência do audiologista ao aplicar o teste^(22-27)

Conforme mencionado, em muitos serviços há alta rotatividade de profissionais e controlar a variável experiência do audiologista é certamente uma tarefa inviável.

No entanto, levando-se em consideração os resultados do presente estudo, se não for possível usar gravações de áudio ao se avaliar usuários de IC, sugere-se que o audiologista apresente o estímulo de fala com pelo menos 10 dBA de relação sinal/ruído, já que em tal condição espera-se que o desempenho do usuário de IC seja próximo do que seria obtido em um teste gravado sem ruído. Tal situação não é a ideal e só deve ser considerada em situações extremas, quando o centro de audiologia não tiver acesso à testes de reconhecimento de fala gravados.

Diferente do presente estudo, todos os participantes da pesquisa conduzida por Uhler et al.⁽¹⁵⁾, pontuaram mais nas apresentações à viva voz, sendo em média 13% melhor e com variação de 0 a 28%. Em relação a maioria dos participantes, houve melhor desempenho na apresentação à viva voz independente da presença do ruído. Na condição sem ruído houve uma diferença média de 15% com variação de 0 até 52,68% considerando a pontuação por palavras.

Embora minoria, alguns participantes tiveram melhor desempenho nos testes gravados, o que corrobora com outros dois estudos^(16,27). Ao se considerar a pontuação por palavras, é possível notar menor variabilidade dos resultados desta minoria. Este achado nos sugere que a variação dos escores na forma gravada, por ser menor e não ter significância estatística, pode ser explicada por uma variação esperada de teste-reteste.

Na condição com ruído, houve participantes com melhor performance na apresentação gravada, no entanto, o desvio padrão e a diferença média dos resultados foi menor que em todas as formas de apresentação quando considerada a pontuação por palavras. Observa-se, portanto, que conforme há maior complexidade na forma de apresentação do teste, há menor variabilidade nos resultados dos participantes. Além disso, é importante ressaltar que a pontuação por palavras nos fornece dados mais relevantes ao se analisar tais diferenças. Sendo assim, ao se avaliar usuários de IC recomenda-se que tanto a pontuação por palavras como por sentenças seja considerada pela equipe. Martin⁽²⁸⁾ refere que para a compreensão de sentenças pelo indivíduo, são exigidas habilidades auditivas e outras, que estão associadas à cognição, memória e processamento auditivo. Isso se deve à maior redundância do estímulo, ao contrário, quando levamos em consideração as palavras e/ou fonemas tendemos a avaliar melhor os aspectos relacionados às habilidades auditivas, pois o conteúdo é menos redundante. As duas formas de pontuar o teste nos traz informações diferentes e complementares que devem ser consideradas na avaliação global do usuário de IC.

Portanto, devido à influência de variáveis que não podem ser controladas ao se apresentar um teste de reconhecimento de fala na modalidade à viva voz, recomenda-se que o fonoaudiólogo apresente o teste na forma gravada, mantendo assim, as mesmas condições em situações de teste-reteste. Além disso, tendo em vista que a escolha da pontuação (sentenças ou palavras) poderá impactar na análise do benefício que o usuário de IC possui, seja esta realizada em relação à um novo mapeamento, uso de alguma estratégia específica de processamento, e até mesmo o monitoramento da evolução terapêutica com fonoterapia, recomenda-se que o audiologista analise as duas formas de pontuação.

Sendo assim, este estudo conclui que há diferença na performance de reconhecimento da fala por usuários de IC, entre as formas de apresentação do teste, exceto para as apresentações à viva voz com ruído e gravado sem ruído. Nas demais avaliações houve melhor performance quando o teste foi apresentado à viva voz. Quanto à comparação das formas de se pontuar o teste, a pontuação por palavras tende a ser mais sensível na verificação das diferenças entre os testes.

Funding Statement

Financial support: nothing to declare.

Footnotes

Trabalho realizado na Alfa Instituto de Comunicação e Audição, São Paulo (SP), Brasil e no Centro Especializado em Reabilitação (CER III), Hospital Universitário Alzira Velano, Alfenas (MG), Brasil.

Fonte de financiamento: nada a declarar.

Disponibilidade de Dados: Os dados de pesquisa estão disponíveis no corpo do artigo.

[B001] 1.Gomez MVSG, Guedes AC, Sant’Anna SBG, Peralta CGO, Tsuji RK, Castilho AM, et al. Medical and audiological selection criteria and evaluation for cochlear implants candidates: HC-FMUSP protocol. [citado em 2015 Jul 5];Int Arch Otorhinolaryngol. 2004 8(4):295. Internet. Disponível em: https://arquivosdeorl.org.br/additional/acervo_eng.asp?id=295 . [Google Scholar]

[B002] 2.Fu QJ, Galvin JJ., 3rd Maximizing cochlear implant patients’ performance with advanced speech training procedures. Hear Res. 2008;242(1-2):198–208. doi: 10.1016/j.heares.2007.11.010. [DOI] [PMC free article] [PubMed] [Google Scholar]

[B003] 3.Neves AJ, Verdu ACM, Moret ALM, Silva LTN. As implicações do implante coclear para desenvolvimento das habilidades de linguagem: uma revisão da literatura. Rev CEFAC. 2015;17(5):1643–1656. doi: 10.1590/1982-021620151755315. [DOI] [Google Scholar]

[B004] 4.Bernstein CM, Brewer DM, Bakke MH, Olson AD, Machmer EJ, Spitzer JB, et al. Maximizing cochlear implant outcomes with short-term aural rehabilitation. J Am Acad Audiol. 2021;32(3):144–156. doi: 10.1055/s-0041-1722987. [DOI] [PubMed] [Google Scholar]

[B005] 5.Brasil . Portaria nº 2776/GM, de 18 de dezembro de 2014. Aprova diretrizes gerais, amplia e incorpora procedimentos para a Atenção Especializada às Pessoas com Deficiência Auditiva no Sistema Único de Saúde (SUS) Diário Oficial da União; Brasília: 2014. [citado em 2015 Jul 5]. Ministério da Saúde. Internet. Disponível em: https://bvsms.saude.gov.br/bvs/saudelegis/gm/2014/prt2776_18_12_2014.html . [Google Scholar]

[B006] 6.Nilsson MJ, McCaw VM, Soli SD. Minimum speech test battery for adult cochlear implant users. Los Angeles: House Ear Institute; 1996. [citado em 2015 Jul 5]. Internet. Disponível em: https://www.auditorypotential.com/MSTBfiles/MSTBManual2011-06-20%20.pdf . [Google Scholar]

[B007] 7.Peterson GE, Lehiste I. Revised CNC lists for auditory tests. J Speech Hear Disord. 1962;27(1):62–70. doi: 10.1044/jshd.2701.62. [DOI] [PubMed] [Google Scholar]

[B008] 8.Nilsson MJ, Soli SD, Sullivan JA. Development of the Hearing in Noise Test for the measurement of speech reception thresholds in quiet and in noise. J Acoust Soc Am. 1994;95(2):1085–1099. doi: 10.1121/1.408469. [DOI] [PubMed] [Google Scholar]

[B009] 9.Auditory Potential New Minimum Speech Test Battery (MSTB) for adult cochlear implant. 2011. [citado em 2015 Jul 5]. Internet. Disponível em: https://www.auditorypotential.com/MSTBfiles/MSTBManual2011-06-20%20.pdf .

[B010] 10.Spahr AJ, Dorman MF. Performance of subjects fit with the Advanced Bionics CII and Nucleus 3G cochlear implant devices. Arch Otolaryngol Head Neck Surg. 2004;130(5):624–628. doi: 10.1001/archotol.130.5.624. [DOI] [PubMed] [Google Scholar]

[B011] 11.Etymotic Research . BKB-SIN Speech-in-Noise Test (Version 1.03). Elk Grove Village: Etymotic Research; 2005. [citado em 2015 Jul 5]. Disponível em: https://www.etymotic.com/product/bkb-sin/ [Google Scholar]

[B012] 12.Faria LR. Testes de percepção de fala nos centros de implante coclear: conhecendo a realidade nacional. Recife: Universidade Federal de Pernambuco; 2016. [citado em 2015 Jul 5]. [dissertação] Disponível em: https://repositorio.ufpe.br/handle/123456789/20265 . [Google Scholar]

[B013] 13.Roeser RJ, Clark JL. Live voice speech recognition audiometry: stop the madness. Audiol Today. 2008;20(1):32–33. [Google Scholar]

[B014] 14.Andrade AN, Iorio MC, Gil D. Speech recognition in individuals with sensorineural hearing loss. Braz J Otorhinolaryngol. 2016;82(3):334–340. doi: 10.1016/j.bjorl.2015.10.002. [DOI] [PMC free article] [PubMed] [Google Scholar]

[B015] 15.Uhler K, Biever A, Gifford RH. Method of speech stimulus presentation impacts pediatric speech recognition: monitored live voice versus recorded speech. Otol Neurotol. 2016;37(2):e70–4. doi: 10.1097/MAO.0000000000000911. [DOI] [PubMed] [Google Scholar]

[B016] 16.Ciscare GKS, Zabeu JS, Santos DR, Morettin-Zupelari M, Delgado-Pinheiro EMC, Frederigue-Lopes NB. List of words to evaluate speech perception: recording and verification of applicability. Rev CEFAC. 2020;22(5):e2820. doi: 10.1590/1982-0216/20202252820. [DOI] [Google Scholar]

[B017] 17.Costa MJ, Iorio MCM, Albernaz PLM. Development of a test to evaluate speech recognition with and without noise. Pro Fono. 2000;12(2):9–16. [Google Scholar]

[B018] 18.Costa MJ, Santos SN, Lessa AH, Mezzomo CL. Proposal for implementing the Sentence Recognition Index in individuals with hearing disorders. CoDAS. 2015;27(2):148–154. doi: 10.1590/2317-1782/20150000316. [DOI] [PubMed] [Google Scholar]

[B019] 19.Tsao YC, Weismer G. Interspeaker variation in habitual speaking rate: evidence for a neuromuscular component. J Speech Lang Hear Res. 1997;40(4):858–866. doi: 10.1044/jslhr.4004.858. [DOI] [PubMed] [Google Scholar]

[B020] 20.Harris RW, Goffi MVS, Pedalini MEB, Merrill A, Gygi MA. Reconhecimento de palavras dissilábicas psicometricamente equivalentes no português brasileiro faladas por indivíduos do sexo masculino e do sexo feminino. Pro Fono. 2001;13(2):249–262. [Google Scholar]

[B021] 21.Vojtech JM, Noordzij JP, Jr, Cler GJ, Stepp CE. The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech. Am J Speech Lang Pathol. 2019;28(2S):875–886. doi: 10.1044/2019_AJSLP-MSC18-18-0052. [DOI] [PMC free article] [PubMed] [Google Scholar]

[B022] 22.Creston JE, Gillespie M, Krohn C. Speech audiometry: taped vs live voice. Arch Otolaryngol. 1966;83(1):14–17. doi: 10.1001/archotol.1966.00760020016007. [DOI] [PubMed] [Google Scholar]

[B023] 23.Beattie RC, Forrester PW, Ruby BK. Reliability of the Tillman-Olsen procedure for determination of spondee threshold using recorded and live voice presentations. J Am Audiol Soc. 1977;2(4):159–162. [PubMed] [Google Scholar]

[B024] 24.Baek H, Lee J. Psychometric functions of the one-syllable word recognition with monitored live voice versus recorded presentation for hearing impaired adults. Audiol Speech Res. 2007;3(2):122–130. doi: 10.21848/audiol.2007.3.2.122. [DOI] [Google Scholar]

[B025] 25.Mendel LL, Owen SR. A study of recorded versus live voice word recognition. Int J Audiol. 2011;50(10):688–693. doi: 10.3109/14992027.2011.588964. [DOI] [PubMed] [Google Scholar]

[B026] 26.Vaucher AVA, Menegotto IH, Moraes AB, Costa MJ. Listas de monossílabos para teste logoaudiométrico: validação de construto. Audiol Commun Res. 2017;22(0):e1729. doi: 10.1590/2317-6431-2016-1729. [DOI] [Google Scholar]

[B027] 27.Lima NM, Santos TM. Desempenho de adultos com perda auditiva na pesquisa do índice de reconhecimento de fala para material de fala gravado e a viva voz. [citado em 2015 Jul 5];Distúrb Comun. 2016 28(3):523–529. Internet. Disponível em: https://revistas.pucsp.br/index.php/dic/article/view/27387/20858 . [Google Scholar]

[B028] 28.Martin M. Logoaudiometria. 1. São Paulo: Santos; 2005. [Google Scholar]

PERMALINK

Effect of speech recognition test presentation on cochlear implant user performance

Aline Faria de Sousa

Lucas Bevilacqua Alves da Costa

Rubens Vuono de Brito Neto

Roles

ABSTRACT

Purpose

Methods

Results

Conclusion

INTRODUCTION

METHOD

Inclusion and exclusion criteria

Procedures

Study procedures

Data analysis

Statistical analysis

RESULTS

Figure 1. Boxplots illustrating participants’ age (years) and duration of cochlear implant (CI) use (months). The median is indicated by the blue line and the mean by the red dot.

Table 1. Distribution of qualitative characteristics.

Table 2. Comparison of sentence recognition test administration methods based on word-based scoring.

Table 3. Post-hoc pairwise comparison p-values for word- and sentence-based scoring.

Table 4. Performance differences between live-voice and recorded presentation, according to each participant’s best performance.

Figure 2. Mean percentage of correct responses by presentation mode, considering word-based scoring.

Figure 3. Mean percentage of correct responses by presentation mode, considering sentence-based scoring.

DISCUSSION

Funding Statement

Footnotes

REFERENCES

Influência da forma de aplicação de testes de reconhecimento de fala no desempenho de usuários de implante coclear

Aline Faria de Sousa

Lucas Bevilacqua Alves da Costa

Rubens Vuono de Brito Neto

Roles

RESUMO

Objetivo

Método

Resultados

Conclusão

INTRODUÇÃO

MÉTODO

Critérios de inclusão e exclusão

Procedimentos

Dados do estudo

Análise dos dados

Análise estatística

RESULTADOS

Figura 1. Boxplots das variáveis idade (em anos) e tempo de uso do implante coclear (em meses), com indicação da mediana (linha azul) e da média (ponto vermelho).

Tabela 1. Distribuição das variáveis qualitativas.

Tabela 2. Comparação dos métodos de aplicação dos testes de reconhecimento de sentenças considerando a pontuação por palavras.

Tabela 3. P-valores do post-hoc da tabela 3 para pontuação por palavras e sentenças.

Tabela 4. Diferença de desempenho entre os modos de apresentação (viva voz e gravado), conforme o melhor resultado individual.

Figura 2. Percentual médio de acertos de acordo com a forma de apresentação e considerando a pontuação por palavras.

Figura 3. Percentual médio de acertos de acordo com a forma de apresentação e considerando a pontuação por sentenças.

DISCUSSÃO

Funding Statement

Footnotes

ACTIONS

PERMALINK

RESOURCES

Similar articles

Cited by other articles

Links to NCBI Databases