Skip to main content
CoDAS logoLink to CoDAS
. 2025 Dec 1;37(6):e20250032. doi: 10.1590/2317-1782/e20250032en
View full-text in Portuguese

Neural auditory encoding and performance in speech-in-noise perception: a pilot study

Manoella Helena Lucera 1, Pamela Papile Lunardelo 2,, Humberto de Oliveira Simões 3, Sthella Zanchetta 3
PMCID: PMC12704604  PMID: 41379202

ABSTRACT

Purpose

To investigate and characterize the Frequency Following Response (FFR) and performance on the speech-in-noise test in adults who are native speakers of Brazilian Portuguese, as well as to assess the potential correlation between the two measures.

Methods

A total of 28 individuals aged 18 to 29 years, with no diagnosis of hearing loss or history of conditions affecting hearing, participated in the study. Eligibility assessments included hearing sensitivity tests and mental status screening. The research assessments comprised the Portuguese Sentence List and FFR recordings.

Results

The mean signal-to-noise ratio was -0.73 dB, ranging from -4.6 dB to 1.6 dB. In the FFR, all components were identified in 100% of participants, except for component C, which was present in 96.43%. A significant positive correlation was observed between the signal-to-noise ratio and the latencies of components A and C, while a significant negative correlation was found between the signal-to-noise ratio and the amplitudes of components A and D.

Conclusion

FFR results determined characteristics of the present population, with component values similar to those reported in the Brazilian population. Better performance in speech-in-noise perception was correlated with shorter neural encoding time for the 'voice onset time' and greater neural recruitment for encoding the sound structure of the vowel.

Keywords: Hearing, Auditory Speech Perception, Frequency Following Response, Auditory Evoked Potential, Adults

INTRODUCTION

Decoding of verbal stimuli involves multiple stages of auditory neural processing(1). Speech is a complex stimulus that requires proper functioning of the auditory system for an accurate and sensitive analysis of its features. Among these features, the discrimination of variations in the temporal patterns of frequency and duration is particularly critical, especially in acoustically challenging environments(1). This process occurs within the central auditory nervous system (CANS), beginning in the cochlear nuclei and extending to cortical areas(2).

The Frequency-Following Response (FFR) is an auditory evoked potential that reflects neural activity synchronized with the encoding of speech stimuli(2). This potential exhibits a stable morphology that is consistent with the acoustic input, with the synthetic syllable /da/, developed by Skoe and Kraus(3), being the most commonly used. The components of the FFR reflect phase-locked neural activity during the encoding of the syllable and are divided into temporal and sustained portions, both of which are synchronized with the spectrotemporal characteristics of periodic sound(2). The temporal portion, or “onset,” corresponds to the rapid acoustic features of the consonant and is represented by the V, A, and C components. The V–A complex reflects the onset of the consonant, whereas the C component represents the transition from the consonant to the vowel. The sustained portion, or “frequency following response,” corresponds to the periodic and harmonic structure of the vowel and is represented by the D, E, and F components. The O component reflects the final response, or “offset,” marking the decrease in neural firing synchrony(1,2). The onset response is primarily generated in the lateral lemniscus and inferior colliculus. In contrast, sustained responses are generated in the cochlear nucleus, superior olivary complex, lateral lemniscus, and, predominantly in the inferior colliculus(4).

FFR is a promising tool for investigating speech sound perception across diverse populations, both in the assessment and monitoring of therapeutic processes related to hearing and language(1,2). To date, most studies on FFR have focused on conditions that negatively affect learning, such as dyslexia, academic difficulties, autism spectrum disorder, attention-deficit/hyperactivity disorder, specific language impairment, and central auditory processing disorder(1). In the context of aging and hearing loss, FFR studies have shown that older adults and individuals with hearing loss exhibit reduced neural synchrony, particularly in noisy environments(1,4).

FFR may reflect an individual’s linguistic experience; however, few studies have investigated correlations between this potential and performance on behavioral tests(5-7). Bidelman and Momtaz(4) demonstrated that more robust subcortical FFR responses are associated with better speech-in-noise perception in individuals with normal hearing, suggesting that subcortical structures preserve the neural periodicities essential for this skill. This finding is consistent with previous results in healthy adults(6) and with a study that linked FFR to the perception of temporal aspects of auditory stimuli(7), reinforcing the idea that neural encoding captured by FFR can offer valuable insights into how spectrotemporal features of speech are processed across different populations (e.g., due to linguistic experience, maturation, or aging). Another study demonstrated greater precision and stronger FFR activity in response to stimulus periodicity in speakers of tonal languages (e.g., Chinese) than in speakers of nontonal languages (e.g., English)(8). This finding suggests that this potential is influenced by prior knowledge of language-specific acoustic patterns. Thus, the authors reported that FFR might reveal perceptual differences among native speakers of different languages.

Thus, although international studies have demonstrated a correlation between FFR and speech-in-noise perception, generalizing these findings to native speakers of languages not previously examined, such as Brazilian Portuguese, should be done with caution(5,6). To date, we have not identified any studies that have investigated FFR in relation to speech-in-noise perception performance among healthy native speakers of Brazilian Portuguese. Given evidence suggesting that its components reflect linguistic experience, knowledge of a possible correlation between FFR results and this ability in native speakers of Brazilian Portuguese could support its application in individuals with speech perception difficulties.

The present study was based on the hypothesis that FFR components, by reflecting an individual's linguistic experience, are associated with better performance in speech-in-noise perception. Therefore, our objective was to investigate and characterize the FFR and speech-in-noise test performance of adult native speakers of Brazilian Portuguese, and to determine whether a correlation exists between the two measures.

METHOD

This observational, cross-sectional study was conducted at the Ribeirão Preto Medical School of the University of São Paulo, following approval by the Ethics Committee (protocol no. 6,946,581) in 2024. All participants signed an informed consent form.

Sample characteristics

A convenience sample of undergraduate and graduate students from the institution was used where the study was conducted. Participants were recruited through direct contact with researchers or announcements on social media platforms.

Individuals aged 18–29 years and 11 months were invited to participate based on the following inclusion criteria: native speakers of Brazilian Portuguese; no prior knowledge of hearing loss; no history of past or current use of ototoxic medications; no history of recurrent middle ear infections; and no history of traumatic brain injury, epileptic seizures, convulsions, migraine, or diabetes mellitus. On the day of the assessment, the exclusion criteria included the presence of hearing loss and/or a score below the expected threshold on the Mini-Mental State Examination. These criteria were established because of their potential to interfere with proposed assessment procedures(1,2).

Initially, 34 individuals were selected; however, six were excluded: one because of altered auditory sensitivity, and five because their electrophysiological recordings were not analyzable due to a high number of artifacts later identified as a result of power line interference. The final sample consisted of 28 participants, of whom 16 (57.14%) were female and 12 (42.86%) were male, with a mean age of 21.96 years (SD = 2.56).

Procedures

Eligibility phase

During the eligibility phase, procedures were conducted to ensure adequate auditory sensitivity, integrity of the tympano-ossicular system, and an appropriate mental status.

Auditory Sensitivity – Air conduction thresholds were assessed using a MADSEN Astera 2 audiometer with HDA 300 headphones at frequencies ranging from 0.25 to 8 kHz. Thresholds ≤ 15 dB HL were considered to be within normal limits(9). Tympanometry was performed using an Otometrics ZODIAC 901 device with a 226 Hz probe tone. Compliance values between 0.3 and 1.7 ml, obtained within a pressure range of +50 to –150 daPa, were considered adequate(10).

Mental State – The Mini-Mental State Examination (MMSE) was administered to minimize the possibility of cognitive impairment. Normal performance was determined based on criteria proposed in the Brazilian Portuguese-translated and validated versions of the instrument(11).

Evaluation phase

Speech-in-Noise Test – The Portuguese Sentence Lists (Listas de Sentenças em Português - LSP) test was used(12). The LSP provides a comparative analysis between the speech recognition threshold in noise and the intensity of the competing noise, resulting in the signal-to-noise ratio (SNR). Sentences were presented both with and without white noise (0.33 to 6.126 kHz). Initially, a training phase was conducted to obtain the sentence-recognition threshold for silence (List 1B). The speech recognition threshold in noise (List 2B) was determined, starting at an intensity of 65 dB(A) and an SNR of 0 dB, with intensity adjustments of 4 dB (+4 dB following errors and -4 dB following correct responses). After the first response change, intensity adjustments were made in 2 dB steps (+2 dB for errors and -2 dB for correct responses) until the end of the list (e.g., if the initial sentence was presented at 65 dB(A) and correctly identified, the intensity would decrease to 61 dB(A), continuing until an error occurred). From that point, the intensity varied in 2 dB steps, increasing after errors and decreasing after correct answers until completion of the list). The threshold was calculated as the average of the correct responses for the 10 sentences following the first response change, and the SNR value was obtained by subtracting this threshold from the noise intensity of 65 dB(A).

Frequency-Following Response (FFR) – The assessment was conducted using a Smart EP system (Intelligent Hearing Systems), a two-channel device with ER3A insert earphones. Skin was cleansed prior to electrode placement to remove epithelial debris and oil. Surface electrodes were positioned according to the International 10–20 System (1958)(13), with electrode impedance maintained between 1 and 3 kΩ. The active (positive) electrode was placed at the vertex, the reference (negative) electrode on the right earlobe, and the ground electrode on the forehead. Stimulation parameters included the synthetic syllable /DA/ lasting 40 ms, presented monaurally at 80 dB HL at a rate of 10.9 stimuli per second with alternating polarity. Recording parameters comprised a bandpass filter of 100 to 3000 Hz, an amplification gain of 100 μV, and an analysis window from 0 to 64 ms.

Two sweeps of 1000 stimuli each were recorded. The resulting waveforms were summed, and the combined signal was analyzed by two evaluators, focusing on the latency and amplitude in the time domain. This analysis enabled the identification of the components V, A, C, D, E, F, and O.

Statistical analysis

The inferential analysis was performed using SPSS Statistics version 22. Data distribution was assessed and found to be non-normal (Kolmogorov–Smirnov test). Correlations between the FFR and LSP results were analyzed using Spearman’s rank-order correlation (nonparametric). A significance level of 5% (p < 0.05) was used for the hypothesis testing.

RESULTS

Speech-in-Noise Test

The SNR results from the LSP test showed a mean value of -0.73 dB (standard deviation of 1.39 dB), with minimum and maximum values of -4.6 dB and 1.6 dB, respectively.

Frequency-Following Response

Among the seven components of the FFR, all components were identified in 100% of the sample (n = 28), except for component C, which was present in 96.43% of the participants (27 of 28). Descriptive data for each component are presented in Table 1, and the grand average waveform derived from the dataset is shown in Figure 1a.

Table 1. Descriptive values from the Portuguese Sentence Lists test and Frequency-Following Response components.

Portuguese Sentence Lists (Listas de Sentenças em Português – LSP)
Mean Standard Deviation Minimum Maximum
Sentence Recognition Threshold in Noise (dB) 49.37 1.46 45.33 51.60
Signal-to-Noise Ratio (dB) -0.73 1.39 -4.60 1.60
Frequency-Following Response
Latency (ms) Amplitude (µV)
Component (n) Mean Standard Deviation Mean Standard Deviation
V (28) 6.87 0.77 0.16 0.09
A (28) 9.59 1.29 0.12 0.13
C (27) 18.61 1.60 0.06 0.05
D (28) 22.96 1.00 0.11 0.11
E (28) 32.14 1.75 0.14 0.14
F (28) 40.73 1.30 0.12 0.14
O (28) 49.29 1.57 0.13 0.09

Caption: dB: decibel; ms: milliseconds; µV: microvolts

Figure 1. Grand average waveform and graphs of statistically significant correlations identified.

Figure 1

Caption: µV: microvolts; ms: milliseconds; S/N (dB): signal-to-noise ratio (decibels); r = correlation coefficient

Speech-in-Noise Test vs. Frequency-Following Response

Spearman’s correlation analysis revealed statistically significant correlations (p < 0.05) between the SNR from the LSP test and components A, C, and D (Figure 1b). For the other components, correlations were not statistically significant (p > 0.05).

Regarding latency, significant positive correlations were observed between the SNR and components A (p = 0.021; r = 0.431) and C (p = 0.014; r = 0.458), indicating that shorter neural response times are associated with better speech-in-noise perception performance, that is, with a more negative SNR (dB) value. A significant negative correlation was also identified between the SNR and the amplitudes of components A (p = 0.026; r = -0.419) and D (p = 0.042; r = -0.394), suggesting that greater amplitude was associated with better speech-in-noise perception performance, corresponding to a more negative SNR (dB) value (Figure 1b).

DISCUSSION

Speech-in-Noise Test

In the LSP test, the observed SNR was higher than that reported for adults of the same age range in a previous study(14). Because no normative reference values have been established for this test, it was not possible to determine whether the results indicated typical or impaired performance in either study. However, it is worth noting that a negative SNR is frequently associated with good performance in speech perception(14).

Frequency-Following Response

The latency and amplitude values observed in the FFR were consistent with those reported in a previous study involving young, normal-hearing female participants(15), indicating similar patterns of neural responses to auditory stimuli. The absence of the C wave in one participant is supported by literature, which reports its occasional absence, even in reliable recordings obtained from both young and older adults(16).

Speech-in-Noise Test vs. Frequency-Following Response

These results indicate that a more negative SNR is associated with shorter neural response times for components A and C. This suggests that better speech-in-noise perception is associated with faster neural encoding of voice onset time (VOT), that is, the detection of rapid temporal changes characteristic of consonants. In the case of the plosive consonant /d/, the VOT was particularly short (16 ms), characterizing a rapid transition between the consonant and vowel. This phenomenon involves a quick formant transition, resulting in a “glide” that facilitates perception and is represented by component C. Because perceptual processing of this stimulus requires rapid temporal analysis(1,2), its association with latency is understandable.

Better speech perception was also associated with greater neural recruitment, as reflected in waves A and D. This demonstrates that higher amplitudes in these components are related both to rapid consonant analysis and to the encoding of the vowel’s periodic and harmonic structure. Components D, E, and F reflect synchronization with the fundamental frequency (F0), and the interval between D and E provides information about the phase locking at the frequency of the first formant (F1)(2). In this study, the phenomenon of phase locking to F1 indicated that more synchronized neural encoding of the spectrotemporal properties of the sound wave was associated with better speech-in-noise perception. This finding aligns with the hypothesis that neural oscillations synchronized with F1 are essential for speech recognition (e.g., vowel identification and timbre perception).

These results are consistent with findings from previous English-language studies that hypothesized a possible association between behavioral performance in speech perception and electrophysiological findings from the FFR, given that both rely on subcortical neural synchrony. In line with our findings, a study using electroencephalographic recordings of the FFR demonstrated that faster and more robust encoding is associated with better speech-in-noise perception(4). The same study confirmed that, although multiple auditory neural generators contribute to the formation of the FFR, the inferior colliculus is the primary source(4). These findings highlight the FFR as a potential tool for studies investigating the physiological mechanisms underlying the subcortical neural encoding of speech.

These findings revealed patterns of neural encoding in native speakers of Brazilian Portuguese and their relationship to speech perception under adverse listening conditions. The relevance of these results lies in the crucial role of native language acquisition in shaping the neural architecture responsible for detecting auditory and linguistic patterns(4,5), which may have predictive implications for future abilities. It is important to emphasize that this neural synchrony reflects specific characteristics of Brazilian Portuguese, making it inappropriate to directly extrapolate findings from studies conducted in other languages. This evidence contributes to our understanding of the neural mechanisms underlying speech-in-noise perception and provides a foundation for investigating individual variability in auditory-linguistic skills.

Study limitations

A limitation of this study is its small sample size; however, it was sufficient as an initial investigation and provides direction for future research. Applying the present protocol to populations with different linguistic experiences—such as bilingual individuals, those with musical training, or individuals with hearing loss—represents a promising direction for further studies.

CONCLUSION

The FFR results identified characteristics specific to the study population, with component values similar to those previously reported for the Brazilian population. Better performance in speech-in-noise perception was correlated with shorter neural encoding of the voice onset time and greater neural recruitment for encoding the vowel’s sound structure.

Funding Statement

Fonte de financiamento: nada a declarar.

Footnotes

Study conducted at Faculdade de Medicina de Ribeirão Preto – FMRP, Universidade de São Paulo – USP - Ribeirão Preto (SP), Brasil.

Financial support: nothing to declare.

Data Availability: Research data is only available upon request.

REFERENCES

  • 1.Sanfins MD, Colella-Santos MF. In: Frequency Following Response. Menezes PL, Andrade KCL, Frizzo ACF, Carnaúba ATL, Lins OG, editors. Ribeirão Preto: BookToy; 2018. Tratado de eletrofisiologia para audiologia; pp. 97–116. Cap. 9. [Google Scholar]
  • 2.Schochat E, Muniz CNR. In: Tratado de audiologia. 3. Schochat E, editor. Barueri: Manole; 2022. Frequency Following Response. pp. 264–279. [Google Scholar]
  • 3.Skoe E, Kraus N. Auditory brain stem response to complex sounds: a tutorial. Ear Hear. 2010;31(3):302–324. doi: 10.1097/AUD.0b013e3181cdb272. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 4.Bidelman GM, Momtaz S. Subcortical rather than cortical sources of the frequency-following response (FFR) relate to speech-in-noise perception in normal-hearing listeners. Neurosci Lett. 2021;746:135664. doi: 10.1016/j.neulet.2021.135664. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 5.Yu L, Zhang Y. Testing native language neural commitment at the brainstem level: a cross-linguistic investigation of the association between frequency-following response and speech perception. Neuropsychologia. 2018;109:140–148. doi: 10.1016/j.neuropsychologia.2017.12.022. [DOI] [PubMed] [Google Scholar]
  • 6.Thompson EC, Woodruff Carr K, White-Schwoch T, Otto-Meyer S, Kraus N. Individual differences in speech-in-noise perception parallel neural speech processing and attention in preschoolers. Hear Res. 2017;344:148–157. doi: 10.1016/j.heares.2016.11.007. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 7.Anderson S, Parbery-Clark A, White-Schwoch T, Kraus N. Aging affects neural precision of speech encoding. J Neurosci. 2012;32(41):14156–14164. doi: 10.1523/JNEUROSCI.2176-12.2012. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 8.Liu D, Wang S, Gao Q, Ruijuan D, Fu X, Pugh E, et al. Learning a second language in adulthood changes subcortical neural encoding. Neural Plast. 2020;2020:8836161. doi: 10.1155/2020/8836161. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 9.CFFa: Conselho Federal de Fonoaudiologia . Guia de orientação na avaliação audiológica. São Paulo: Sistema de Conselhos de Fonoaudiologia; 2020. [citado em 2025 Jan 28]. Internet. Disponível em: https://www.fonoaudiologia.org.br/wp-content/uploads/2020/09/CFFa_Manual_Audiologia-1.pdf . [Google Scholar]
  • 10.Jerger J. Clinical experience with impedance audiometry. Arch Otolaryngol. 1970;92(4):311–324. doi: 10.1001/archotol.1970.04310040005002. [DOI] [PubMed] [Google Scholar]
  • 11.Brucki SM, Nitrini R, Caramelli P, Bertolucci PH, Okamoto IH. Suggestions for utilization of the mini-mental state examination in Brazil. Arq Neuropsiquiatr. 2003;61(3B):777–781. doi: 10.1590/S0004-282X2003000500014. [DOI] [PubMed] [Google Scholar]
  • 12.Costa MJ. Listas de sentenças em português: apresentação e estratégia de aplicação na audiologia. Santa Maria: Pallotti; 1998. [Google Scholar]
  • 13.Jasper HH. The ten twenty electrode system of the international federation. Electroencephalogr Clin Neurophysiol. 1958;10:371–375. [PubMed] [Google Scholar]
  • 14.Lunardelo PP, Meneghelli LC, Zanchetta S. Autorrelato de dificuldades auditivas e desempenho em teste de fala com ruído - o que podemos encontrar por trás de um audiograma “normal”? CoDAS. 2023;35(6):e20220111. doi: 10.1590/2317-1782/20232022111p. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 15.Durante AS, Oliveira SJ. Frequency-following response (FFR) com estímulo de fala em jovens adultos normo-ouvintes. CoDAS. 2020;32(3):e20180254. doi: 10.1590/2317-1782/20202018254. [DOI] [PubMed] [Google Scholar]
  • 16.Vander Werff KR, Burns KS. Brain stem responses to speech in younger and older adults. Ear Hear. 2011;32(2):168–180. doi: 10.1097/AUD.0b013e3181f534b5. [DOI] [PubMed] [Google Scholar]
Codas. 2025 Dec 1;37(6):e20250032. [Article in Portuguese] doi: 10.1590/2317-1782/e20250032pt

Codificação neural auditiva e o desempenho na percepção de fala no ruído: um estudo piloto

Manoella Helena Lucera 1, Pamela Papile Lunardelo 2,, Humberto de Oliveira Simões 3, Sthella Zanchetta 3

RESUMO

Objetivo

Investigar e caracterizar o FFR e o desempenho no teste de fala no ruído em adultos falantes do português brasileiro, como língua materna, bem como, verificar se existe correlação entre os dois testes.

Método

Participaram 28 indivíduos, entre 18 e 29 anos, sem perda auditiva. Foram realizadas avaliações de elegibilidade, como a determinação da sensibilidade auditiva e a triagem do estado mental. As avaliações de pesquisa incluíram a Lista de Sentenças em Português e o FFR.

Resultados

Os resultados mostraram que a relação sinal-ruído média foi de -0,73 dB, com valores variando de -4,6 dB a 1,6 dB. No FFR, todas as componentes foram identificadas em 100% dos participantes, exceto a componente C, presente em 96,43%. Foi observada uma correlação significativa e positiva entre a relação sinal-ruído e as latências das componentes A e C, e uma correlação significativa e negativa entre a relação sinal-ruído e as amplitudes das componentes A e D.

Conclusão

Os resultados do FFR determinaram características da presente população, com valores das componentes semelhantes aos relatados na população brasileira. O melhor desempenho na percepção de fala no ruído foi correlacionado a um menor tempo para codificação neural do “voice onset time” e maior recrutamento neural para codificação da estrutura sonora da vogal.

Descritores: Audição, Percepção de Fala, Frequency Following Response, Potencial Evocado Auditivo, Adultos

INTRODUÇÃO

A decodificação dos estímulos verbais envolve vários estágios do processamento neural auditivo(1). A fala é um estímulo complexo que demanda o funcionamento adequado do sistema auditivo para a sensível e precisa análise de suas características. Entre essas características destacam-se, particularmente em ambientes acústicos desfavoráveis, a discriminação de variações nos padrões temporais de frequência e duração(1). Esse processamento ocorre no sistema nervoso auditivo central (SNAC), que tem seu início nos núcleos cocleares se estendendo às áreas corticais(2).

O Frequency Following Response (FFR) é um potencial evocado auditivo que reflete a atividade neural sincronizada à codificação de estímulos de fala(2). O potencial apresenta morfologia estável e consistente com o input acústico, sendo a sílaba sintética /da/, produzida por Skoe e Kraus(3), a mais utilizada. As componentes do FFR refletem a atividade neural phase-locked durante a codificação da sílaba, dividindo-se em porção temporal e contínua, que sincronizam com as características espectro-temporais deste som periódico(2). A porção temporal ou “onset” corresponde às características acústicas rápidas da consoante, representada pelas componentes V, A, C. O complexo V-A responde ao início da consoante, enquanto a componente C à transição entre a consoante e a vogal. A porção contínua ou “frequency following response” é uma resposta à estrutura sonora periódica e harmônica da vogal, representada pelas componentes D, E e F. A componente O representa a resposta final ou “offset”, marcando a redução da sincronia de disparo neural(1,2). A resposta da porção temporal é produzida no lemnisco lateral e colículo inferior, enquanto as repostas da porção contínua são geradas pelo núcleo coclear, complexo olivar superior, lemnisco lateral e, principalmente, pelo colículo inferior(4).

O FFR é uma ferramenta promissora para a investigação da percepção dos sons da fala em diferentes populações, tanto na avaliação quanto no monitoramento de processos terapêuticos relacionados à audição e à linguagem(1,2). Até o momento, o maior interesse pelo FFR tem se concentrado em condições que afetam negativamente a aprendizagem, como dislexia, dificuldades escolares, transtorno do espectro autista, transtorno do déficit de atenção e hiperatividade, transtorno específico de linguagem e transtorno do processamento auditivo central(1). No contexto do envelhecimento e da perda auditiva, o FFR tem evidenciado que adultos mais velhos e/ou com perda auditiva apresentam uma sincronia neural reduzida, especialmente em ambientes com ruído(1,4).

O FFR pode refletir a experiência linguística do sujeito, entretanto poucos estudos dedicaram-se na busca por correlações entre esse potencial com o desempenho em testes comportamentais(5-7). Bidelman e Momtaz(4) demonstraram que respostas subcorticais mais robustas do FFR correlacionaram-se com o melhor desempenho da percepção de fala no ruído em normo-ouvintes, sugerindo que essas estruturas mantêm periodicidades neurais essenciais para esta habilidade. Este resultado está de acordo com achados prévios em adultos saudáveis(6) e com um estudo que correlacionou o FFR à percepção de aspectos temporais(7), reforçando que a codificação neural capturada pelo FFR pode oferecer insights valiosos sobre como as características espectro-temporais da fala são processadas em diferentes populações (e.g. experiência linguística, maturação, envelhecimento). Outro estudo demonstrou maior precisão e atividade neural mais intensa do FFR em resposta à periodicidade do estímulo em falantes de línguas tonais (como o chinês) em comparação com falantes de línguas não-tonais (como o inglês)(8). O resultado sugere que o potencial é influenciado pelo conhecimento prévio dos padrões acústicos específicos da língua, sendo assim, os autores relataram que ele pode evidenciar diferenças perceptuais entre falantes nativos de diferentes línguas.

Desta forma, ainda que estudos internacionais tenham evidenciado uma correlação entre o FFR e a percepção de fala no ruído, a generalização destes resultados para falantes nativos de diferentes línguas daquelas dos estudos acima, como o português-brasileiro, deve ser feita com cautela(5,6). Até o presente momento, não identificamos estudos que tenham investigado o FFR em relação ao desempenho da percepção de fala no ruído, em falantes nativos do português-brasileiro hígidos. Partindo do pressuposto que há evidências que suas componentes refletem experiência linguística, o conhecimento de uma possível correlação entre seus resultados com essa habilidade em falantes nativos do português-brasileiro pode contribuir para seu uso em sujeitos com queixa de dificuldade de percepção de fala.

O presente estudo foi desenvolvido com a hipótese de que as componentes do FFR, por refletirem a experiência linguística do sujeito, estarão relacionadas ao melhor desempenho da fala na presença de ruído. Sendo assim, nosso objetivo foi investigar e caracterizar o FFR e o desempenho no teste de fala no ruído em adultos falantes do português brasileiro, como língua materna, bem como, verificar se existe correlação entre os dois testes.

MÉTODO

Estudo observacional e transversal realizado na Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo, após aprovação no Comitê de Ética (nº 6.946.581) no ano de 2024. Todos os sujeitos assinaram o termo de consentimento livre e esclarecido.

Casuística

A amostra foi composta por conveniência, todos os sujeitos eram estudantes de graduação ou pós-graduação da instituição onde o estudo foi conduzido. Os sujeitos foram recrutados a partir do contato direto das pesquisadoras ou da divulgação em mídias sociais.

Foram convidados sujeitos entre 18 e 29 anos e 11 meses com os seguintes critérios: português-brasileiro como língua materna; sem conhecimento prévio de possuir perda auditiva; não fazer uso de medicamentos ototóxicos – prévios ou atuais; não apresentar histórico de infecção recorrente de orelha média; não apresentar antecedentes de traumatismo crânio-encefálico, crises de epilepsia e convulsão, migrânea ou diabetes mellitus. No dia da avaliação foram considerados critérios de exclusão a presença de perdas auditivas e/ou o escore inferior ao esperado no Mini Exame do Estado Mental. Esses critérios foram estabelecidos por representarem potenciais fatores de interferência na avaliação proposta(1,2).

Inicialmente foram selecionados 34 sujeitos, entretanto seis deles foram excluídos, um por alteração da sensibilidade auditiva e cinco por seus registros eletrofisiológicos não serem passíveis de análise, devido ao grande número de artefatos, posteriormente identificados como decorrentes de interferências na rede de energia. A amostra final foi composta por 28 sujeitos, dos quais 16 (57,14%) eram do sexo feminino e 12 (42,86%) do sexo masculino, com média de idade de 21,96 anos (desvio padrão = 2,56).

Procedimentos

Etapa de elegibilidade

Na etapa de elegibilidade foram aplicados procedimentos que asseguraram a adequada sensibilidade auditiva, integridade do funcionamento tímpano-ossicular e estado de consciência mental.

Sensibilidade auditiva – A pesquisa dos limiares aéreos foi realizada com o audiômetro MADSEN Astera 2, fone HDA 300, nas frequências de 0,25 a 8 kHz, considerando normais aqueles ≤ 15 dB NA(9). A timpanometria foi realizada com o equipamento da marca Otometrics – ZODIAC 901, com sonda de 226 Hz, considerando como adequados os valores de complacência entre 0,3 a 1,7 ml obtidos entre +50 e -150 daPA(10).

Estado de consciência mental – Foi aplicado o Mini Exame do Estado Mental para minimizar a possibilidade da presença de alteração cognitiva. Para normalidade, considerou-se o proposto na versão traduzida e validada para o português-brasileiro(11).

Etapa de avaliação

Teste de Fala no Ruído – Foi utilizado o teste Listas de Sentenças em Português (LSP)(12). O LSP oferece uma análise comparativa entre o limiar de reconhecimento de sentenças no ruído e a intensidade do ruído competitivo, resultando na relação S/R. As sentenças foram apresentadas com e sem ruído branco (0,33 a 6,126 kHz). Inicialmente, foi realizada a etapa de treino para obter o limiar de sentenças no silêncio (lista 1B). O limiar de reconhecimento de sentenças no ruído (lista 2B) foi determinado com intensidade inicial de 65 dB(A) e relação S/R de 0 dB, variando-se a intensidade em 4 dB (+4 dB para erros e -4 dB para acertos). Após a primeira mudança de resposta, a intensidade foi ajustada em 2 dB (+2 dB para erros e -2 dB para acertos), até o término da lista (e.g. sentença inicial apresentada a 65 dB(A), em caso de acerto, a intensidade reduziria para 61 dB(A) e assim por diante, até um erro. A partir disso, a intensidade variaria em passos de 2 dB, aumentando para erros e diminuindo para acertos, até o fim da lista). O limiar foi calculado pela média dos acertos nas 10 sentenças após a primeira mudança de resposta, e o valor S/R foi a diferença entre esse limiar e o ruído de 65 dB(A).

Frequency Following Response – Realizado com o equipamento Smart EP - Intelligent Hearing System, de dois canais, com fone de inserção ER3A. Foi realizada a limpeza de pele para a remoção de resíduos de descamação epitelial e de oleosidade, prévia à fixação dos eletrodos de superfície, dispostos de acordo com a norma internacional 10-20 (1958)(13) e com nível de impedância mantido entre 1-3 Kohms. O eletrodo ativo-positivo foi fixado no vértex, o eletrodo referência-negativo no lóbulo direito e o eletrodo Terra na fronte. Os parâmetros de estimulação foram a sílaba sintética /DA/ de 40 ms, apresentação monaural a 80 dB NA, taxa de 10,9 estímulos por segundo e polaridade alternada. Para a captação foi utilizado filtro de 100 a 3000 Hz, ganho de 100 μV e janela de análise de 0 a 64 ms.

Foram realizadas duas varreduras, cada uma composta por 1000 estímulos. Os traçados resultantes foram somados, e o sinal combinado foi analisado por dois avaliadores, considerando as variáveis de latência e amplitude no domínio do tempo. A análise resultou na identificação das componentes V, A, C, D, E, F e O.

Análise estatística

A análise inferencial foi realizada utilizando o SPSS Statistics V22. A análise dos dados não apresentou distribuição normal (teste de Kolmogorov-Smirnov). A correlação dos resultados do FFR e o LSP foi realizada com o teste de Spearman (não paramétrico). Para os testes de hipótese, adotou-se o nível de significância de 5% (p<0,05).

RESULTADOS

Teste de Fala no Ruído

Os resultados da relação S/R do teste LSP apresentaram valores médios de -0,73 dB (desvio padrão de 1,39 dB), com valores mínimo e máximo de -4,6 dB e 1,6 dB, respectivamente.

Frequency Following Response

Das sete componentes do FFR, exceto a componente C, presente em 96,43% dos sujeitos (27/28), todas as outras foram identificadas em 100% da amostra (n=28). Os dados descritivos das componentes estão apresentados na Tabela 1 e a onda média derivada do conjunto de dados na Figura 1a.

Tabela 1. Valores descritivos do teste Listas de Sentenças em Português e das componentes do Frequency Following Response.

Listas de Sentenças em Português
Média Desvio padrão Mínimo Máximo
Limiar de Reconhecimento de Sentença no Ruído (dB) 49,37 1,46 45,33 51,60
Relação Sinal/Ruído (dB) -0,73 1,39 -4,60 1,60
Frequency Following Response
Latência (ms) Amplitude (µV)
Componente (n) Média Desvio padrão Média Desvio padrão
V (28) 6,87 0,77 0,16 0,09
A (28) 9,59 1,29 0,12 0,13
C (27) 18,61 1,60 0,06 0,05
D (28) 22,96 1,00 0,11 0,11
E (28) 32,14 1,75 0,14 0,14
F (28) 40,73 1,30 0,12 0,14
O (28) 49,29 1,57 0,13 0,09

Legenda: dB: decibel, ms: milissegundos, µV: microvolts

Figura 1. Onda média derivada do conjunto de dados (grand average) e gráficos das correlações estatisticamente significativas identificadas.

Figura 1

Legenda: µV: microvolts, ms: milissegundos, S/R (dB): relação sinal-ruído (decibel), r= coeficiente de correlação

Teste de Fala no Ruído vs. Frequency Following Response

O resultado do teste de Spearman demonstrou uma correlação estatisticamente significante (p < 0,05) entre a S/R do teste LSP com as componentes A, C e D (Figura 1b), para as outras componentes a correlação não foi significativa (p>0,05).

Em relação à latência, observou-se uma correlação significativa e positiva entre a relação S/R e as componentes A (p = 0,021; r = 0,431) e C (p = 0,014; r = 0,458), o que demonstra que os tempos de resposta neural mais curtos estão correlacionados a um melhor desempenho na percepção de fala no ruído, ou seja, a uma relação S/R (dB) mais negativa. Também foi identificada uma correlação significativa e negativa entre a relação S/R e as amplitudes das componentes A (p = 0,026; r = -0,419) e D (p = 0,042; r = -0,394), sugerindo que uma maior amplitude está correlacionada a um melhor desempenho da percepção de fala no ruído, ou seja, a uma relação S/R (dB) mais negativa (Figura 1b).

DISCUSSÃO

Teste de Fala no Ruído

No teste LSP a relação S/R observada foi superior à relatada em adultos de mesma faixa etária em um estudo prévio(14). Como não há valores de referência de normalidade para o teste, não é possível determinar se os resultados indicam desempenho adequado ou alterado em nenhum dos dois trabalhos. Contudo, é pertinente ressaltar que relações S/R negativas são frequentemente associadas a um bom desempenho na percepção de fala(14).

Frequency Following Response

Os valores de latência e amplitude do FFR observados foram consistentes com uma pesquisa anterior com jovens normo-ouvintes do sexo feminino(15), o que demonstra padrões semelhantes de resposta neural ao estímulo sonoro. A ausência da onda C em um dos sujeitos é corroborada com a literatura, que aponta para sua ausência ocasional, mesmo em registros confiáveis obtidos em jovens adultos e adultos mais velhos(16).

Teste de Fala no Ruído vs. Frequency Following Response

Os resultados indicam que, quanto mais negativa for a relação S/R, menor é o tempo de resposta neural para os componentes A e C. Isso sugere que um melhor desempenho na percepção de fala no ruído está associado a uma codificação neural mais rápida do voice onset time (VOT), ou seja, da detecção de mudanças temporais rápidas e intrínsecas das consoantes. No caso da consoante oclusiva /d/, o VOT é particularmente curto (16 ms), caracterizando uma transição rápida entre consoante e vogal. Esse fenômeno envolve uma mudança rápida entre formantes, resultando em um 'glide' que facilita a percepção e é representado pela componente C. Como esses processos perceptivos do estímulo requerem análises temporais rápidas(1,2), é compreensível que estejam associados à variável latência.

A melhor percepção de fala também foi associada a um maior recrutamento neuronal, refletido nas ondas A e D. Isto demonstra que uma maior amplitude dessas componentes está relacionada tanto à análise rápida da consoante quanto à codificação da estrutura sonora periódica e harmônica da vogal. As componentes D, E e F evidenciam a sincronização com a frequência fundamental (F0); além disso, o intervalo entre D e E fornece informações sobre o bloqueio de fase — ou phase locking — na frequência do primeiro formante (F1)(2). Neste estudo, o fenômeno de bloqueio de fase para F1 indica que uma codificação neural mais sincronizada com as propriedades espectro-temporais da onda sonora está associada a um melhor desempenho na percepção de fala no ruído, convergindo com a hipótese de que oscilações neurais sincronizadas a F1 são essenciais para o reconhecimento de fala (e.g. identificação de vogais e na percepção do timbre).

Os resultados são concordantes com estudos anteriores em inglês que apontaram como hipótese uma possível associação entre o desempenho comportamental da percepção de fala e achados eletrofisiológicos do FFR, uma vez que ambos precisam da sincronia neural subcortical. Em consonância com nossos achados, um estudo que registrou o FFR por eletroencefalograma, demonstrou que a codificação mais rápida e robusta estava associada à melhor percepção de fala no ruído(4). Este mesmo estudo confirmou que embora múltiplos geradores neurais auditivos contribuam para a formação do FFR, o colículo inferior é o principal contribuinte(4). Esses achados ressaltam o FFR como uma ferramenta em potencial para estudos que buscam informações fisiológicas quanto à codificação neural da fala subcortical.

Estes achados revelam os padrões de codificação neural em falantes nativos do português brasileiro e sua relação com a percepção em condições adversas de escuta. A relevância desses resultados fundamenta-se no papel crucial da aprendizagem da língua materna na moldagem da arquitetura neural responsável pela detecção de padrões auditivos e linguísticos(4,5), com implicações preditivas para habilidades futuras. Destaca-se que este sincronismo neural apresenta especificidades do português brasileiro, impossibilitando extrapolações diretas de estudos em outras línguas. Tais evidências contribuem para a compreensão dos mecanismos neurais subjacentes à percepção de fala no ruído, fornecendo subsídios para investigações sobre variabilidade individual em habilidades auditivo-linguísticas.

Limitações do estudo

Como limitação, este estudo foi conduzido com tamanho amostral reduzido, entretanto, suficiente para um estudo inicial cujo resultado direciona para pesquisas futuras. O uso do presente protocolo em populações com diferentes experiências linguísticas — como bilíngues, indivíduos com experiência musical ou com perdas auditivas — constitui uma das possibilidades para investigações futuras.

CONCLUSÃO

Os resultados do FFR determinaram características da presente população, com valores das componentes semelhantes aos relatados na população brasileira. O melhor desempenho na percepção de fala no ruído foi correlacionado a um menor tempo para codificação neural do “voice onset time” e maior recrutamento neural para codificação da estrutura sonora da vogal.

Funding Statement

Financial support: nothing to declare.

Footnotes

Trabalho realizado na Faculdade de Medicina de Ribeirão Preto – FMRP, Universidade de São Paulo – USP - Ribeirão Preto (SP), Brasil.

Fonte de financiamento: nada a declarar.

Disponibilidade de Dados: Os dados de pesquisa estão disponíveis somente mediante solicitação.


Articles from CoDAS are provided here courtesy of Sociedade Brasileira de Fonoaudiologia

RESOURCES