Skip to main content
CoDAS logoLink to CoDAS
. 2025 Apr 7;37(3):e20240206. doi: 10.1590/2317-1782/e20240206en
View full-text in Portuguese

FonoTCS: validation of a tool for assessing clinical reasoning in Speech-Language pathology

Ana Cristina Côrtes Gama 1, Roberto da Costa Quinino 2, Adriane Mesquita Medeiros 1, Patrícia Cotta Mancini 1, Aline Mansueto Mourão 1, Lara Gama Santos 3, Thais Helena Machado 1, Nayara Ribeiro Gomes 4
PMCID: PMC11991717  PMID: 40197958

ABSTRACT

Purpose

To validate the internal structure of the Speech-Language Pathology Script Concordance Test (FonoTCS), which will be developed in a virtual, open-access format, to be used in the assessment of clinical reasoning among young professionals and students of speech-language pathology with a generalist background, speakers of Brazilian Portuguese.

Methods

This is a study to validate the internal structure of the instrument. Twenty-five specialist speech-language pathologists, with more than 10 years of generalist clinical experience, and 35 students summoned for Enade participated. Both groups evaluated the 30 clinical cases with 120 items from FonoTCS. For the final selection of specialists who made up the sample, judges whose evaluations showed Z2 results >2 and Z<-2 distant from the modal response were removed. For the selection of items present in the final format of the test, those that remained had a Pearson correlation between the transformed scores of students for a given item and the sum of the transformed scores for all items, with a value greater than 0.05. The Cronbach's Alpha test was applied to measure the internal consistency of FonoTCS, and the score of each item was defined based on the aggregated score method.

Results

The responses of 13 specialists were considered for the definition of the final test score. The final instrument had 88 items distributed across 28 clinical cases. The internal consistency was 0.903 with a 95% confidence interval expressed by 0.86|---|0.95. These values indicate a high internal consistency among the items of FonoTCS.

Conclusion

FonoTCS is valid and reliable for use in evaluating the clinical reasoning of young professionals and speech-language pathology students with generalist training, who are Brazilian Portuguese speakers.

Keywords: Speech-Language Pathology, Clinical Reasoning, Clinical Diagnosis, Clinical Decision-Making, Students, Learning

INTRODUCTION

Clinical reasoning is the cognitive process in which a health professional uses the information contained in their knowledge and experience to guide their clinical practice(1). It is a central theme in the diagnostic and therapeutic conduct of health professionals, and its concept has a complex and multidimensional nature(2).

The use of qualified assessment tools in the curricula of undergraduate courses in the health area is essential to ensure that future professionals develop comprehensive and well-founded competencies. These tools can be of various formats, such as multiple-choice questions (MCQ), oral exams (OE), and matching questions (MQ), which primarily assess students’ cognitive mastery(3). The structured objective clinical examination (SOCE), on the other hand, represents an approach that integrates the evaluation of both the cognitive process and the motor skills of students in simulated clinical contexts(3).

These evaluative strategies, although valuable, still present limitations in their ability to reflect the complexity and dynamics of real clinical practice. The script concordance test (SCT) was developed in the late 90s, with the aim of evaluating the clinical reasoning of medical students in Canada(4). It is a written simulation test in which various clinical scenarios are presented in a context of uncertainty, in routine clinical circumstances(4).

The SCT is an assessment tool based on the theory of scripts derived from cognitive psychology and is based on the principle that, in order to assign meaning to a new situation, the information received activates a network of previously acquired knowledge and experiences - a script - which directs the selection, interpretation and memorization of this new information(5).

In the clinical context, when evaluating a patient, a healthcare professional analyzes symptoms, signs, and details of the patient's environment(4). These elements activate knowledge networks that contain information about these characteristics and their relationships with various diseases or clinical conditions (scripts) that direct to decision-making, either in the diagnostic or therapeutic process(5).

The script is a derivation of a broader concept, that of schemes. Mental schemes are knowledge structures adapted to perform tasks efficiently(5). Scripts are schemes associated with sequences of events that often occur in a specific order, and knowledge about different clinical conditions includes information about the spatio-temporal sequence of events in the development of the clinical picture(4,5). By integrating this concept, the SCT assesses how professionals access these mental models or scripts to interpret and respond to complex clinical scenarios.

The question of how to evaluate the clinical reasoning of students in health-related courses during academic training arises continuously in curricula. Research(3) comparing the performance of medical students with different assessment tools, concluded that students performed better on more familiar assessment tools such as MCQ, but most students considered the CP test better for evaluating learned content, and the SCT was best for testing clinical decision-making ability(3).

Studies on the development of SCT in various areas of medicine(6), nursing(7), dentistry(8), and physiotherapy(9), have been widely disseminated, and the psychometric properties of validity and reliability of the tests have shown satisfactory performance.

In 2023, a SCT was developed for speech therapy students who speak Chilean Spanish(10). The authors concluded that the test developed showed a low overall reliability. The stratified analysis by area of speech therapy (child and youth language; voice; orofacial motricity; language in adults and the elderly; audiology; and vestibular evaluation), and type of scenario (diagnosis, study, or intervention) offered a heterogeneous result, with variability in internal consistency values(10).

This research relevance lies in the need to develop specific tools to evaluate clinical reasoning in speech therapy, where there is still a gap of validated instruments that can reflect the particularities of this professional practice.

The Joint Committee on Standards for Educational and Psychological Testing (11) proposes five sources of validity evidence: (1) content; (2) internal structure; (3) relationship to external measures; (4) pattern of response to items; and (5) consequential.

The FonoTCS is a SCT for the evaluation of clinical reasoning in speech therapy that proved to be a valid instrument from the point of view of content (clarity, relevance, and ethics)(12).

This research aims to validate the internal structure of FonoTCS, to be used in the evaluation of clinical reasoning of young professionals and speech therapy students with general training, speakers of Brazilian Portuguese.

After the validation of its internal structure, FonoTCS will be made available in a virtual format and free access, and will advance to the external validation phase, including the practical application of the tool in an educational context, in order to evaluate its applicability in the training of speech therapy students with general training, speakers of Brazilian Portuguese.

METHODS

This is a validation study of the internal structure of the instrument that follows the standards of the Joint Committee on Standards for Educational and Psychological Testing (11) and preparation of the SCT(13-16). The research was approved by the Research Ethics Committee (COEP) of the Universidade Federal de Minas Gerais under Opinion number 5,824,852 and has already passed content validation(12).

Participants

Two distinct groups were invited to participate in the study for each validation stage. The first group was composed of specialists, consisting of 27 speech therapists with graduate degrees (lato sensu or stricto sensu) with more than 10 years of general clinical practice. The second group consisted of 52 speech therapy undergraduate students, summoned for the National Examination of Student Performance (Enade).

Both groups were informed about the objectives of the research and signed the Informed Consent Form (ICF). Subsequently, they were asked to answer the FonoTCS.

SCT questions avoid single “correct” or “consensus” answers. The score is based on an aggregate method that considers the variability of specialist responses to specific clinical situations(13). The most common response among specialists (modal response) will be considered the “gold standard”, while other responses reflect different interpretations that may be clinically valuable, and these receive partial scores(16).

Unlike conventional assessment tools, SCT recognizes that experienced clinicians can interpret data and respond to uncertain clinical situations in a variety of ways (within an acceptable range of clinical practice)(15). Thus, to identify specialists and items of high disagreement in the FonoTCS, a posteriori analysis of the judges and items was conducted. This approach aims to define the final format of the FonoTCS and ensure the quality of the answers of the specialists and the items and is considered a practical and justifiable method to maintain the psychometric rigor of a test(15).

The average estimated time to complete the FonoTCS was 60 minutes, and all responses were processed anonymously. All participants (specialists and students) were instructed to answer the FonoTCS in a single session, independently.

The initial format of FonoTCS, with validated content, was composed of 120 items distributed in 30 different clinical cases from six areas of speech therapy knowledge (audiology, language, orofacial motricity, dysphagia, voice, and collective health) with four items each(12). Each of these clinical cases reflects distinct and complex situations, requiring the speech therapist to make specific and differentiated decisions, according to the particularities of each case.

Participants were instructed that each FonoTCS question comprises a scenario (description of the clinical case) with four questions (items) presented in three distinct parts(14):

  1. the first part (“if you're thinking about”) addresses a clinical decision of relevance;

  2. the second part (“and you find”) introduces a clinical finding, such as sign, symptom, pre-existing condition, diagnostic image, or examination/test result;

  3. the third part (“the hypothesis becomes”) consists of a five-point Likert scale that captures the decisions of the participants, in which 1 indicates a situation “practically ruled out/ totally contraindicated” and 5 a situation “practically certain/absolutely necessary”.

The participants' task was to determine the impact of the new discovery (second part) on the clinical decision (first part), in terms of direction (positive, negative, or neutral) and intensity (third part)(16).

Procedures

Specialists assessment

At this stage, of the 27 invited speech therapists, 25 (92.6%) evaluated the 120 items of the instrument. All received individual contact, with the explanations to answer the FonoTCS sent by Google Forms. The specialists had a period of 30 days to send the response.

Students assessment

Of the 52 students summoned to Enade, 35 (67.3%) answered FonoTCS. The participants answered the test in a university room, on individual computers. The test completion time for each student was recorded.

Final format of FonoTCS

To define the final format of the test, an analysis was first performed to identify the judges who would be removed from the sample, from the calculation of the z-score(17). Subsequently, the 120 items of the FonoTCS were evaluated, and those with a total item/item correlation lower than 0.05 by the Pearson correlation test were eliminated(17).

For the data analysis, we used software available on the website of the University of Montreal for the preparation of SCT(18).

Selection of specialist judges

The criterion used for the selection of speech therapists judges and definition of the “gold standard” response of the test was the standardized values Z2 and Z(19).

Table 1 illustrates the initial evaluation process of the 25 specialists. The most appropriate response to each item was the modality of all specialists. Speech-language pathologists with a low percentage of responses equal to the item mode and/or if the sum of the distances of the responses in relation to the item mode was large were excluded from the study; i.e., the specialists whose evaluations presented results of Z2 >2 and Z<-2 away from the modal response.

Table 1. Evaluation of the specialists for each item of the FonoTCS (n=25).
Panel q1 q2 ... q118 q119 q120
Specialist 1 1 2 ... 1 2 2
Specialist 2 1 3 ... 3 4 2
Specialist 3 2 1 ... 1 5 4
Specialist 4 2 1 ... 2 5 4
Specialist 5 4 2 ... 1 5 1
Specialist 6 2 1 ... 2 4 2
Specialist 7 2 1 ... 1 2 1
Specialist 8 4 1 ... 1 5 1
Specialist 9 1 1 ... 5 2 1
Specialist 10 2 4 ... 4 2 1
Specialist 11 5 4 ... 4 5 4
Specialist 12 1 1 ... 2 5 1
Specialist 13 3 2 ... 3 5 1
Specialist 14 5 1 ... 5 5 5
Specialist 15 1 3 ... 3 5 1
Specialist 16 4 1 ... 2 4 1
Specialist 17 2 1 ... 2 5 1
Specialist 18 3 1 ... 2 5 4
Specialist 19 2 5 ... 1 5 2
Specialist 20 2 1 ... 1 5 1
Specialist 21 1 1 ... 1 5 1
Specialist 22 4 2 ... 4 4 4
Specialist 23 2 1 ... 3 5 2
Specialist 24 1 2 ... 4 5 1
Specialist 25 4 1 ... 5 5 4
modality 2 1 ... 1 5 1

Caption: Q-item from FonoTCS

Table 2 presents the sum of the absolute distances of the responses in relation to the mode of each item (SD) and its respective standardized value (Z2), that is, the SD value subtracted from the SD column mean divided by the standard deviation of the SD column. It is also observed the percentage of responses equal to item mode (PAM) and its respective standardized value (Z).

Table 2. Sum of the distances (SD) and percentage of correct in relation to the mode (map) of the answers of the specialists for the items of the FonoTCS.
SD Z2 PAM Z
Specialist 1 83 -1.06 60.0% 0.950
Specialist 2 137 1.37 20.8% -2.833
Specialist 3 92 -0.66 53.3% 0.306
Specialist 4 83 -1.06 62.5% 1.191
Specialist 5 124 0.79 41.7% -0.821
Specialist 6 119 0.56 25.8% -2.350
Specialist 7 100 -0.30 52.5% 0.225
Specialist 8 94 -0.57 55.0% 0.467
Specialist 9 138 1.42 45.8% -0.419
Specialist 10 103 -0.16 57.5% 0.708
Specialist 11 151 2.00 42.5% -0.741
Specialist 12 92 -0.66 56.7% 0.628
Specialist 13 113 0.29 42.5% -0.741
Specialist 14 89 -0.79 62.5% 1.191
Specialist 15 79 -1.24 58.3% 0.789
Specialist 16 97 -0.43 54.2% 0.386
Specialist 17 110 0.16 50.8% 0.064
Specialist 18 90 -0.75 55.0% 0.467
Specialist 19 94 -0.57 50.8% 0.064
Specialist 20 99 -0.34 46.7% -0.338
Specialist 21 104 -0.12 55.0% 0.467
Specialist 22 168 2.77 38.3% -1.143
Specialist 23 92 -0.66 58.3% 0.789
Specialist 24 104 -0.12 54.2% 0.386
Specialist 25 109 0.11 53.3% 0.306

Caption: Z and Z2 - standardized values

Thus, measures of Z2 >2 and Z<-2 indicate assessments of specialists far from modality(17). In this way, in the first round of interaction, four specialists (2, 6, 11 and 22) were withdrawn from the study. The entire analysis was redone without these specialists and, when necessary, new specialists were withdrawn. This process was terminated when no further measurements with Z values were detected2 >2 and Z<-2. In total, eight rounds of interaction were conducted that resulted in the elimination of 12 specialists from the study.

Items selection

The item was considered valid if the Pearson correlation between the transformed grades of the students for a given item, with the sum of the transformed grades for all items, was greater than 0.05(20). The transformed grade of the students was equal to the frequency of the student's grade on the scale Likert in the specialist group, divided by the frequency of the specialist group modality.

Table 3 illustrates part of the students’ grades using the scale Likert, as well as the modality of the specialists and respective modality frequency.

Table 3. Students’ responses according to the scale Likert for each item of FonoTCS and modality value and modality frequency of the specialists.
q1 q2 ... q119 q120
Student 1 3 1 ... 5 1
Student 2 2 3 ... 5 4
Student 3 2 1 ... 5 2
Student 4 3 2 ... 5 1
Student 5 1 2 ... 5 2
Student 6 3 2 ... 5 1
... ... ... ... ... ...
Student 30 2 4 ... 5 1
Student 31 2 4 ... 5 1
Student 32 3 4 ... 5 1
Student 33 2 2 ... 4 3
Student 34 2 1 ... 4 2
Student 35 1 1 ... 2 2
modality Specialist 2 1 ... 5 1
modality frequency 6 9 ... 10 6
# Specialist 1 Note 3 9 ... 0 6
# Specialist 2 Note 6 2 ... 2 3
# Specialist 3 Note 1 0 ... 0 0
# Specialist 4 Note 2 1 ... 1 3
# Specialist 5 Note 1 1 ... 10 1

Caption: Q-item from FonoTCS

Table 4 shows the transformed notes (T) and the respective sum of the transformed notes (SNT). For example, the grade 0.167 for Student 1 for item 1 is obtained by dividing the frequency of Grade 3 (from Table 3) in the specialist group by the frequency of the modality in the specialist group, that is, 1/6. The transformed grade 0.222 of Student 6 for Question 2 is obtained by fraction 2/9.

Table 4. Students’ transformed grades (NT) and sum of transformed grades (SNT) for each FonoTCS item.
NTq1 NTq2 ... NTq119 NTq120 SNT
Student 1 0.167 1.000 ... 1.000 1.000 74.630
Student 2 1.000 0.000 ... 1.000 0.500 67.995
Student 3 1.000 1.000 ... 1.000 0.500 75.718
Student 4 0.167 0.222 ... 1.000 1.000 63.192
Student 5 0.500 0.222 ... 1.000 0.500 86.263
Student 6 0.167 0.222 ... 1.000 1.000 84.956
... ... ... ... ... ... ...
Student 30 1.000 0.111 ... 1.000 1.000 90.274
Student 31 1.000 0.111 ... 1.000 1.000 80.157
Student 32 0.167 0.111 ... 1.000 1.000 90.977
Student 33 1.000 0.222 ... 0.100 0.000 65.506
Student 34 1.000 1.000 ... 0.100 0.500 90.085
Student 35 0.500 1.000 ... 0.200 0.500 74.453

Caption: Q-item from FonoTCS

After transforming the students’ grades, all 120 correlations between the transformed grades recorded in the columns of Table 4 (for example, NTq1) with the SNT column were calculated. Pearson correlations greater than 0.05 indicate that the item should remain in the study(20).

At this stage, of the 120 items, 27 items were removed from the study because they presented correlations lower than 0.05. The entire process was repeated until all correlations were greater than 0.05. Another five items were removed due to the recommendation that each scenario (clinical case) needs to have at least two items that characterize it(14) therefore, after four rounds of interactions, 88 items composed the final instrument.

Data analysis

After the withdrawal of specialists and items and definition of the final format of the FonoTCS, the Cronbach's Alpha test was applied to measure the internal consistency of the test.

FonoTCS responses were defined using the aggregate score method(15). The score was based on the distribution of responses among specialists for each item. Total credits were given to the modal response (more chosen by the specialists), and partial credits were assigned to other responses, according to the proportion of choice of speech therapists specialists. Answers not chosen by the judges received zero scores.

Subsequently, the results of the students 'and specialists' responses were compared to evaluating the responses of both groups, based on descriptive analysis of the data.

Upon completion of the FonoTCS, the respondent will receive a final grade. The final total score for the test is the sum of the points obtained on each item. This value is divided by the number of test items and at the end multiplied by 100 to obtain a percentage score(5).

RESULTS

After defining the final format of the FonoTCS, 13 specialists (52%) of the 25 speech therapists who answered the FonoTCS participated in the study, being 12 women (92.0%) and one man (8.0%) with a mean age of 41.7 years (SD=6.43). Regarding the level of education, the sample had one specialist (08%), eight Masters (61%) and four doctors (31%), with an average time of general clinical practice of 17.9 years (SD=6.3).

Of the 35 students of the speech therapy course, students of the 9th and 10th periods summoned to Enade, most were female (n=32; 91.4%) with an average age of 25.5 years (SD=7.76). The Mean Time for students to perform the FonoTCS was 58.9 minutes (SD = 8.93).

The final instrument presented 88 items distributed in 28 clinical cases, six cases for the areas of knowledge of speech therapy of audiology, language, orofacial motricity / dysphagia, and five cases for the areas of voice and public health.

Figures 1 and 2 illustrate the normal probability plots for the Z values2 and Z of the 13 specialists, respectively. It was observed that there is no evidence to reject that the data are normal at the significance level 5% (p-value 0.05 for the Anderson Darling test) and no specialist presented a value of Z2 >2 and / or Z< -2.

Figure 1. QQ Plot graph for standardized z data2 of the specialists who remained in the final version (n=13).

Figure 1

Figure 2. QQ chart Plot for standardized z data of the specialists who remained in the final version (n=13).

Figure 2

Using the transformed data described in Table 4 with the 88 items that remained in the study, a Cronbach's Alpha equal to 0.903 was obtained with a 95% confidence interval expressed by 0,86|---|0,95. These values indicate a high internal consistency between the items of the FonoTCS(21).

We can observe in Figure 3 that the 13 specialists presented, as expected, a higher average performance when compared to the students (n=35) in addition to a lower variability. In relation to students, there was great variability and an average performance lower than that of specialists.

Figure 3. Assessment of the performance of students and specialists.

Figure 3

We can observe that certain students (19, 20, 31, 32 and 34) presented a very good performance comparable to that of specialists and can be called “specialist students” considering the evaluation of the 88 items and corroborating an adequate learning process. On the other hand, some students (2, 4, 12, 13, 16, 22, 29 and 33) presented an average performance, in descriptive terms, lower than that of the specialists.

The final format of FonoTCS is available for free access on the page of the Faculty of Medicine of the Federal University of Minas Gerais, by link https://fonotcs.medicina.ufmg.br/.

DISCUSSION

The results of this research indicated that it is possible to evaluate the clinical reasoning of students and young speech therapists with generalist training. The FonoTCS was considered appropriate to evaluate the ability of the examinees to generate hypotheses and decide on decision-making in the Diagnostic and therapeutic process, in contexts of uncertainty in the speech therapy field.

The initial format of FonoTCS, with validated content(12), was composed of 120 items distributed in 30 clinical cases from six areas of knowledge of speech therapy (audiology, language, orofacial motor skills, dysphagia, voice, and public health) with four items each. Its final format consisted of 28 clinical cases with 88 items, six cases for the areas of knowledge of audiology, language, orofacial motricity / dysphagia and five cases for the areas of voice and public health.

The final configuration of FonoTCS was defined in two stages of analysis: 1) selection of specialists from the standardized values Z2 and Z; and 2) removal of items with a total item/item correlation of less than 0.05. A unique feature of Script Concordance tests (SCTs) is the formation of a panel of reference specialists, which has the function of determining the final score of the test(15,17).

The guidelines for the elaboration of the SCTs indicate that, to obtain reliable tests, 10 to 15 judges are needed to achieve adequate estimates of reliability, with a marginal benefit when having more than 20 specialists(13-17,22). Of the 25 speech therapists who responded to the FonoTCS, 13 specialists were kept in the final analysis for the definition of the reference responses of the test, as suggested by the literature(22).

After the analysis of the item/total item correlation, 27 items (22.5%) were removed, and then five were left with scenarios (clinical cases) containing only two items, totaling 32 (26.7%) items removed. According to literature(14), it is estimated that 25% of the items in the elaboration of the SCTs were removed. The use of three to four items per case in the SCT is justified by theoretical and psychometric issues of the test(23). SCT guidelines recommend 20 to 25 cases with at least 75 items(13-16), to achieve acceptable reliability(14). The FonoTCS respected all the recommendations(13-16) to prepare the SCTs, presenting a format composed of 28 clinical cases with 88 items, with three to four items per case.

The test response time is approximately 60 Minutes. Research(22) states that SCTs with test times between 60 and 90 minutes have been shown to produce adequate scoring reliability(22).

Cronbach’s Alpha obtained was 0.903, with a 95% confidence interval ranging between 0.86 and 0.95. These values indicate a high internal consistency between FonoTCS items(21). Considering that the 88 items of the FonoTCS are distributed in 28 clinical cases, each representing distinct and complex situations in different areas of speech therapy, this diversity ensures that the high internal consistency is not the result of homogeneous items, minimizing the risk of artificial inflation of Cronbach's Alpha, and reinforcing the validity of the instrument to evaluate the clinical reasoning of speech therapists with generalist training. Another aspect to highlight is that FonoTCS was submitted to content validation and proved to be a valid instrument in terms of clarity, relevance, and ethical aspects(12).

Different validated SCTs to evaluate clinical reasoning in medicine, covering clinical situations of Rheumatology(24), Otolaryngology(25) and anesthesiology(26), had Cronbach's alpha values of 0.82(24,25) and 0.79(26), all within the range of 0.75 to 0.80 recommended by the literature(14).

In speech therapy, a SCT was developed for Chilean Spanish-speaking students(10) with 80 items and a reliability of 0.67 (minimum = 0.34; maximum = 0.84). The authors conclude that, although the test presented a low overall reliability, the stratification by area of specialty of each scenario offered a heterogeneous panorama(10). It is noteworthy that the authors(10) have not followed all the rules for the preparation of the SCT(13-16), which may have influenced the results found.

The internal consistency results of the FonoTCS of 0.903 demonstrate that the test items are correlated with each other and, therefore, coherently measure the same construct, defining the FonoTCS as an evaluation instrument with reliability in the scores obtained(21), and results within the expected for the SCTs(14,15).

The answers provided by the specialist speech therapists defined the final score of the FonoTCS based on the aggregate score method(13-16). To exemplify this method, suppose a 15-member panel was asked to answer the first question of the test, and eight members selected the answer +1, five members selected the answer +2, and two members selected the answer 0. The score for this item would be answer +1, 1 point (8/8), because it is the modal answer; answer +2, 0.625 points (5/8); answer 0, 0.25 points (2/8); and answers -1 and -2 with 0 points.

Variability in the scoring of panel responses is an inherent characteristic of SCT and has been shown to be a key element in its discriminative capacity and, consequently, in its validity(16).

The aggregate score method described above is the most used method in SSC(27). However, it is important to recognize that the optimal scoring method for SCT is still debated(28). The aggregate score method also requires psychometric research on aspects such as consensus level, scoring scale and its relationship with the discrimination between the responses of experienced professionals and young clinicians(13).

Despite the debate about the best analysis method to be used in SCTs(28), variability in response scores is essential for these tests. The theoretical foundation of SCTs is based on the development of scripts from the individual experience of the clinician with patients, which results in a significant degree of idiosyncrasy, especially in less common cases. Therefore, the variability in responses, based on the aggregate score method score, is central to the argument about the validity of SSC in the ability to measure clinical reasoning(15).

As described, the aggregate score method weights responses based on their frequency in the panel of specialists, allowing a score that reflects the collective opinion, with proportional weights assigned to less frequent responses.

One of the main positive impacts of this method is its ability to capture variability in specialists’ responses, which contributes to fine discrimination between distinct levels of clinical reasoning. This aspect is fundamental for the validity of the FonoTCS, since the observed variability reflects the different experiences and training of professionals, especially in more rare or complex clinical cases(16). This discriminative capacity reinforces the argument that FonoTCS is sensitive to the nuances of clinical reasoning, a central characteristic of SSC(13-16).

On the other hand, a potentially negative impact of the aggregate score method is that it can introduce subjectivity into the scores, especially when there is a high degree of dispersion in the specialists’ responses. This variation can make it difficult to create a clear standard for all cases, which raises the need for more psychometric research, such as investigating the level of consensus necessary to define correct answers and analyzing the relationship between this consensus and discrimination between experienced clinicians and young professionals(13).

Therefore, while the aggregate score method offers a robust way to reflect the diversity of responses and clinical experiences in FonoTCS, we recognize that it also presents challenges that require additional investigation. However, the results of this study indicate that this approach is effective in capturing the complexity of speech therapy clinical reasoning, contributing to the validity of the instrument(17,28).

FonoTCS will be presented in electronic format, with free access, to present exams by image and to return the results to the examinees in real time(14,15). At the end of the FonoTCS, the respondent will receive a final grade calculated as follows: the total score is obtained by adding the points of each item of the test. This sum is then divided by the total number of test items and multiplied by 100 to obtain a percentage score and facilitate the interpretation of the result(5).

When comparing the results of the 13 specialist speech therapists with those of the 35 students, the specialists demonstrated a higher performance with a significantly lower variability. Some students exhibited excellent performance, comparable to that of specialists, while others showed descriptively lower performance than specialists. Such results are expected and demonstrate the ability of SSCs to discriminate distinct levels of clinical reasoning(13-16).

As a limitation of this study, it is important to highlight that the elaboration of a SCT requires a significant investment of human resources, time, and dedication. In a context where efficiency is crucial, rapid, and effective adaptations of assessment methods are essential to ensure the quality of teaching of health professionals. A recent study(29) explored the development of a SCT supported by artificial intelligence (AI), pointing out that ChatGPT can be a promising tool in creating these tests. This research(29) opens new prospects for further research in the field of SCT.

The current scenario highlights the need to develop new SCTs to evaluate clinical reasoning in the various specialties of speech therapy. In the context of generalist training, FonoTCS proved to be a useful and innovative tool for evaluating the clinical reasoning of Brazilian Portuguese-speaking speech therapists.

FonoTCS proved to be effective as an evaluative tool, but it also plays a significant role in the teaching-learning process. By exposing students to real and challenging clinical scenarios, it encourages the practical application of theoretical knowledge, promoting the development of more robust and integrated clinical reasoning.

This active and contextual approach allows students to reflect on their decisions and improve their decision-making skills, essential aspects for their professional training. The relevance of the FonoTCS in the educational process lies in its ability to simulate situations of uncertainty that are frequent in clinical practice, contributing to more complete training and aligned with the demands of the labor market and the reality of speech therapy.

CONCLUSION

The FonoTCS is valid and reliable to be used in the evaluation of clinical reasoning of young professionals and speech therapy students with generalist training, speakers of Brazilian Portuguese.

Funding Statement

Fonte de financiamento: Conselho Nacional de Desenvolvimento Científico e Tecnológico-Brasil (CNPq) (304475/2023-8). Instituto de Estudos Avançados Transdisciplinares (IEAT), Universidade Federal de Minas Gerais (UFMG).

Footnotes

Study conducted at Programa de Pós-graduação em Ciências Fonoaudiológicas, Universidade Federal de Minas Gerais – UFMG - Belo Horizonte (MG), Brasil.

Financial support: Conselho Nacional de Desenvolvimento Científico e Tecnológico-Brasil (CNPq) (304475/2023-8). Instituto de Estudos Avançados Transdisciplinares (IEAT), Universidade Federal de Minas Gerais (UFMG).

REFERENCES

  • 1.Newble D, Norman G, Van der Vleuten C. In: Clinical reasoning in the health professions. 2nd. Jones JHM, editor. Oxford: Butterworth Heinemann; 2000. Assessing clinical reasoning. pp. 156–168. [Google Scholar]
  • 2.Young ME, Thomas A, Lubarsky S, Gordon D, Gruppen LD, Rencic J, et al. Mapping clinical reasoning literature across the health professions: a scoping review. BMC Med Educ. 2020;20(1):107. doi: 10.1186/s12909-020-02012-9. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 3.Nalini YC, Manivasakan S, Pai DR. Comparison between MCQ, Extended matching questions (EMQ) and Script concordance test (SCT) for assessment among first-year medical students: a pilot study. J Educ Health Promot. 2024;13(1):52. doi: 10.4103/jehp.jehp_839_23. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 4.Charlin B, Tardif J, Boshuizen HP. Scripts and medical diagnostic knowledge: theory and applications for clinical reasoning instruction and research. Acad Med. 2000;75(2):182–190. doi: 10.1097/00001888-200002000-00020. [DOI] [PubMed] [Google Scholar]
  • 5.Charlin B, Roy L, Brailovsky C, Goulet F, van der Vleuten C. The Script Concordance test: a tool to assess the reflective clinician. Teach Learn Med. 2000;12(4):189–195. doi: 10.1207/S15328015TLM1204_5. [DOI] [PubMed] [Google Scholar]
  • 6.Fong JMN, Hoe RHM, Huang DH, Wong JC, Kee JXL, Teng KLA, et al. Script concordance test to assess clinical reasoning in acute medicine. Ann Acad Med Singap. 2023;52(7):383–385. doi: 10.47102/annals-acadmedsg.202327. [DOI] [PubMed] [Google Scholar]
  • 7.Redmond C, Jayanth A, Beresford S, Carroll L, Johnston ANB. Development and validation of a script concordance test to assess biosciences clinical reasoning skills: a cross-sectional study of 1st year undergraduate nursing students. Nurse Educ Today. 2022;119:105615. doi: 10.1016/j.nedt.2022.105615. [DOI] [PubMed] [Google Scholar]
  • 8.Vital S, Wulfman C, Girard F, Tamimi F, Charlin B, Ducret M. Script concordance tests: a call for action in dental education. Eur J Dent Educ. 2021;25(4):705–710. doi: 10.1111/eje.12649. [DOI] [PubMed] [Google Scholar]
  • 9.O’Brien SR, Dillon N, Linsky M, Lagueras K, Uhl J, Conroy S, et al. Initial validation of a script concordance test to measure the development of clinical reasoning among physical therapy residents. J Clin Educ Phys Ther. 2023;5:1–9. doi: 10.52214/jcept.v5.9014. [DOI] [Google Scholar]
  • 10.Silva Ríos AP, Campo Rivas MND, Kuncar Uarac PK, Calvo Sprovera VA. Reliability of a script agreement test for undergraduate speech-language therapy students. CoDAS. 2023;35(5):e20220098. doi: 10.1590/2317-1782/20232022098en. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 11.AERA: American Educational Research Association . Standards for educational and psychological testing. Washington, D.C.: 2014. [citado em 2024 Jul 9]. APA: American Psychological Association. NCME: National Council on Measurement in Education. Joint Committee on Standards for Educational and Psychological Testing. Internet. Disponível em: https://www.apa.org/science/programs/testing/standards . [Google Scholar]
  • 12.Gama ACC, Mourão AM, Medeiros AM, Mancini PC, Machado TH, Santos LG, et al. Teste para avaliação do raciocínio clínico em Fonoaudiologia: validade de conteúdo. CoDAS. 2024;36(4):e20230276. doi: 10.1590/2317-1782/20242023276en. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 13.Fournier JP, Demeester A, Charlin B. Script concordance test: guidelines for construction. BMC Med Inform Decis Mak. 2008;8(1):18. doi: 10.1186/1472-6947-8-18. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 14.Dory V, Gagnon R, Vanpee D, Charlin B. How to construct and implement script concordance tests: insights from a systematic review. Med Educ. 2012;46(6):552–563. doi: 10.1111/j.1365-2923.2011.04211.x. [DOI] [PubMed] [Google Scholar]
  • 15.Lubarsky S, Dory VR, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice: AMEE Guide No. 75. Med Teach. 2013;35(3):184–193. doi: 10.3109/0142159X.2013.760036. [DOI] [PubMed] [Google Scholar]
  • 16.See KC, Tan KL, Lim TK. The script concordance test for clinical reasoning: re-examining its utility and potential weakness. Med Educ. 2014;48(11):1069–1077. doi: 10.1111/medu.12514. [DOI] [PubMed] [Google Scholar]
  • 17.Gagnon R, Lubarsky S, Lambert C, Charlin B. Optimization of answer keys for script concordance testing: should we exclude deviant panelists, deviant responses, or neither? Adv Health Sci Educ Theory Pract. 2011;16(5):601–608. doi: 10.1007/s10459-011-9279-2. [DOI] [PubMed] [Google Scholar]
  • 18.Université de Montréal Université de Montréal. 2024. [citado em 2024 Jul 9]. Internet. Disponível em: https://cpass.umontreal.ca/
  • 19.Charlin B, Gagnon R, Lubarsky S, Lambert C, Meterissian S, Chalk C, et al. Assessment in the context of uncertainty using the script concordance test: more meaning for scores. Teach Learn Med. 2010;22(3):180–186. doi: 10.1080/10401334.2010.488197. [DOI] [PubMed] [Google Scholar]
  • 20.Wan SH. Using the script concordance test to assess clinical reasoning skills in undergraduate and postgraduate medicine. Hong Kong Med J. 2015;21(5):455–461. doi: 10.12809/hkmj154572. [DOI] [PubMed] [Google Scholar]
  • 21.Hogan TP. Psychological testing: a practical introduction. 3rd. New York: John Wiley & Sons; 2013. 699 [Google Scholar]
  • 22.Gagnon R, Charlin B, Coletti M, Sauve E, van der Vleuten C. Assessment in the context of uncertainty: how many members are needed on the panel of reference of a script concordance test? Med Educ. 2005;39(3):284–291. doi: 10.1111/j.1365-2929.2005.02092.x. [DOI] [PubMed] [Google Scholar]
  • 23.Kassirer J. Teaching clinical reasoning: case-based and coached. Acad Med. 2010;85(7):1118–1124. doi: 10.1097/ACM.0b013e3181d5dd0d. [DOI] [PubMed] [Google Scholar]
  • 24.Mathieu S, Couderc M, Glace B, Tournadre A, Malochet-Guinamand S, Pereira B, et al. Construction and utilization of a script concordance test as an assessment tool for DCEM3 (5th year) medical students in rheumatology. BMC Med Educ. 2013;13(1):166. doi: 10.1186/1472-6920-13-166. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 25.Ganesan S, Bhandary S, Thulasingam M, Chacko TV, Zayapragassarazan Z, Ravichandran S, et al. Developing script concordance test items in otolaryngology to improve clinical reasoning skills: validation using consensus analysis and psychometrics. Int J Appl Basic Med Res. 2023;13(2):64–69. doi: 10.4103/ijabmr.ijabmr_604_22. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 26.Omega A, Wijaya Ramlan AA, Soenarto RF, Heriwardito A, Sugiarto A. Assessing clinical reasoning in airway related cases among anesthesiology fellow residents using Script Concordance Test (SCT) Med Educ Online. 2022;27(1):2135421. doi: 10.1080/10872981.2022.2135421. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 27.Charlin B, Van Der Vleuten C. Standardized assessment of reasoning in context of uncertainty. The Script Concordance Test approach. Eval Health Prof. 2004;27(3):304–319. doi: 10.1177/0163278704267043. [DOI] [PubMed] [Google Scholar]
  • 28.Bland AC, Kreiter CD, Gordon JA. The psychometric properties of five scoring methods applied to the script concordance test. Acad Med. 2005;80(4):395–399. doi: 10.1097/00001888-200504000-00019. [DOI] [PubMed] [Google Scholar]
  • 29.Hudon A, Kiepura B, Pelletier M, Phan V. Using ChatGPT in psychiatry to design script concordance tests in undergraduate medical education: mixed methods study. JMIR Med Educ. 2024;10:e54067. doi: 10.2196/54067. [DOI] [PMC free article] [PubMed] [Google Scholar]
Codas. 2025 Apr 7;37(3):e20240206. [Article in Portuguese] doi: 10.1590/2317-1782/e20240206pt

FonoTCS: validação de uma ferramenta para avaliação do raciocínio clínico em Fonoaudiologia

Ana Cristina Côrtes Gama 1, Roberto da Costa Quinino 2, Adriane Mesquita Medeiros 1, Patrícia Cotta Mancini 1, Aline Mansueto Mourão 1, Lara Gama Santos 3, Thais Helena Machado 1, Nayara Ribeiro Gomes 4

RESUMO

Objetivo

Validar a estrutura interna do Teste de Concordância de Scripts em Fonoaudiologia (FonoTCS) que será desenvolvido em formato virtual com acesso livre, para ser utilizado na avaliação do raciocínio clínico de jovens profissionais e estudantes de fonoaudiologia com formação generalista, falantes do português brasileiro.

Método

Trata-se de estudo de validação de estrutura interna de instrumento. Participaram 25 fonoaudiólogos especialistas, com mais de 10 anos de experiência clínica generalista e 35 estudantes convocados para o Enade. Ambos os grupos avaliaram os 30 casos clínicos com 120 itens do FonoTCS. Para a seleção final dos especialistas que compuseram a amostra, foram retirados os juízes cujas avaliações apresentavam resultados de Z2 >2 e Z<-2 distantes da resposta modal. Para a seleção dos itens presentes no formato final do teste, permaneceram aqueles que, na correlação de Pearson entre as notas transformadas dos estudantes para um determinado Item, com a soma das notas transformadas para todos os Itens, obtiveram valor superior a 0,05. O teste Alfa de Cronbach foi aplicado para medir a consistência interna do FonoTCS e a pontuação de cada item foi definida a partir do método de escore agregado.

Resultados

As respostas de 13 fonoaudiólogos foram consideradas para definição da pontuação final do teste. O instrumento final apresentou 88 itens distribuídos em 28 casos clínicos. A consistência interna foi igual a 0,903 com intervalo de confiança de 95% expresso por 0,86|---|0,95. Estes valores indicam uma alta consistência interna entre os itens do FonoTCS.

Conclusão

O FonoTCS é válido e confiável para ser utilizado na avaliação do raciocínio clínico de jovens profissionais e estudantes de fonoaudiologia com formação generalista, falantes do português brasileiro.

Descritores: Fonoaudiologia, Raciocínio Clínico, Diagnóstico Clínico, Tomada de Decisão Clínica, Estudantes, Aprendizagem

INTRODUÇÃO

O raciocínio clínico é conceituado como o processo cognitivo no qual um profissional de saúde utiliza as informações contidas em seu conhecimento e experiência para guiar sua prática clínica(1). É um tema central na conduta diagnóstica e terapêutica dos profissionais de saúde, e seu conceito possui uma natureza complexa e multidimensional(2).

O uso de ferramentas de avaliação qualificada nos currículos dos cursos de graduação na área da saúde é fundamental para assegurar que os futuros profissionais desenvolvam competências abrangentes e bem fundamentadas. Estas ferramentas podem assumir diversos formatos, como perguntas de múltipla escolha (PME), exames orais (EO) e perguntas de correspondência (PC), que avaliam principalmente o domínio cognitivo dos alunos(3). Já o Exame Clínico Objetivo Estruturado (OSCE) representa uma abordagem que integra a avaliação, tanto do processo cognitivo quanto das habilidades motoras dos estudantes, em contextos clínicos simulados(3).

Estas estratégias avaliativas, embora valiosas, ainda apresentam limitações em sua capacidade de refletir a complexidade e a dinâmica da prática clínica real. O Teste de concordância de script (TCS) foi desenvolvido no final da década de 90, com o objetivo de avaliar o raciocínio clínico de estudantes de medicina no Canadá(4). É um teste de simulação escrita em que vários cenários clínicos são apresentados em um contexto de incerteza, em circunstâncias clínicas rotineiras(4).

O TCS é uma ferramenta de avaliação baseada na teoria de scripts derivada da psicologia cognitiva e baseia-se no princípio de que, para atribuir significado a uma nova situação, as informações recebidas ativam uma rede de conhecimentos e de experiências previamente adquiridos - um script - que direciona a seleção, interpretação e memorização dessas novas informações(5).

No contexto clínico, ao avaliar um paciente, um profissional de saúde analisa sintomas, sinais e detalhes do ambiente do paciente(4). Esses elementos ativam redes de conhecimento que contêm informações sobre essas características e suas relações com diversas doenças ou condições clínicas (scripts) que direcionam para a tomada de decisão, seja no processo diagnóstico ou terapêutico(5).

O conceito de script é uma derivação de um conceito mais amplo, o de esquemas. Esquemas mentais são estruturas de conhecimento adaptadas para realizar tarefas de maneira eficiente(5). Scripts são esquemas associados a sequências de eventos que ocorrem frequentemente em uma ordem específica, e o conhecimento sobre diferentes condições clínicas inclui informações sobre a sequência espaço-temporal de eventos no desenvolvimento do quadro clínico(4,5). Ao integrar esse conceito, o TCS avalia como os profissionais acessam esses modelos mentais ou scripts para interpretar e responder a cenários clínicos complexos.

A questão de como avaliar o raciocínio clínico de estudantes da área da saúde durante a formação acadêmica surge continuamente nos currículos. Pesquisa(3) que comparou a performance de estudantes de medicina com diferentes ferramentas avaliativas, concluiu que os estudantes tiveram um desempenho melhor em ferramentas de avaliação mais familiar como PME, mas a maioria dos estudantes consideraram o teste de PC melhor para avaliar o conteúdo aprendido, e o TCS testou melhor a habilidade clínica de tomada de decisão(3).

Estudos sobre o desenvolvimento do TCS em diversas áreas da medicina(6), enfermagem(7), odontologia(8), e fisioterapia(9), têm sido amplamente divulgados e as propriedades psicométricas de validade e confiabilidade dos testes têm mostrado um bom desempenho.

Em 2023 foi desenvolvido um TCS para estudantes de fonoaudiologia falantes do espanhol chileno(10). Os autores concluíram que o teste desenvolvido apresentou uma baixa confiabilidade geral. A análise estratificada por área de atuação fonoaudiológica (linguagem infanto-juvenil; voz; motricidade orofacial; linguagem em adultos e idosos; audiologia; e avaliação vestibular), e tipo de cenário (diagnóstico, estudo ou intervenção) ofereceu um resultado heterogêneo, com variabilidade nos valores de consistência interna(10).

A relevância desta pesquisa reside na necessidade de desenvolver ferramentas específicas para avaliar o raciocínio clínico na Fonoaudiologia, onde ainda há uma lacuna de instrumentos validados que sejam capazes de refletir as particularidades dessa prática profissional.

O Joint Committee on Standards for Educational and Psychological Testing (11) propõe cinco fontes de evidência de validade: (1) conteúdo; (2) estrutura interna; (3) relação com medidas externas; (4) padrão de resposta aos itens; e (5) consequencial.

O FonoTCS é um TCS para a avaliação do raciocínio clínico em fonoaudiologia, que mostrou ser um instrumento válido do ponto de vista do conteúdo (clareza, pertinência e ética)(12).

Esta pesquisa objetiva validar a estrutura interna do FonoTCS, para ser utilizado na avaliação do raciocínio clínico de jovens profissionais e estudantes de fonoaudiologia com formação generalista, falantes do português brasileiro.

Após a validação de sua estrutura interna, o FonoTCS será disponibilizado em formato virtual de acesso livre e avançará para a fase de validação externa, incluindo a aplicação prática da ferramenta em contexto educacional, visando avaliar sua aplicabilidade na formação de estudantes de fonoaudiologia com formação generalista, falantes do português brasileiro.

MÉTODO

Trata-se de estudo de validação de estrutura interna de instrumento que segue as normas do Joint Committee on Standards for Educational and Psychological Testing (11) e de elaboração do TCS(13-16). A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (COEP) da Universidade Federal de Minas Gerais sob parecer número 5.824.852 e já passou pela validação de conteúdo(12).

Participantes

Foram convidados a participar do estudo dois grupos distintos para cada etapa da validação. O primeiro grupo foi composto por especialistas, constituído por 27 fonoaudiólogos com pós-graduação (lato sensu ou stricto sensu) e mais de 10 anos de atuação clínica generalista. O segundo grupo, foi constituído por 52 estudantes do curso de graduação em Fonoaudiologia de uma universidade, convocados para o Exame Nacional de Desempenho de Estudantes (Enade).

Ambos os grupos foram esclarecidos com relação aos objetivos da pesquisa e assinaram o Termo de Consentimento Livre e Esclarecido (TCLE). Posteriormente, foram solicitados a responderem o FonoTCS.

As perguntas do TCS evitam respostas únicas “corretas” ou de “consenso”. A pontuação é baseada em um método agregado que considera a variabilidade das respostas de especialistas a situações clínicas específicas(13). A resposta mais comum entre os especialistas (resposta modal) será considerada o “padrão ouro”, enquanto outras respostas refletem interpretações diferentes que podem ser clinicamente valiosas e estas recebem pontuações parciais(16).

Diferente das ferramentas de avaliação convencionais, o TCS reconhece que clínicos experientes podem interpretar dados e responder a situações clínicas incertas de maneiras variadas (dentro de um intervalo aceitável de prática clínica)(15). Desta forma, para identificar especialistas e itens de alta discordância no FonoTCS, realizou-se uma análise a posteriori dos juízes e dos itens. Essa abordagem objetivou definir o formato final do FonoTCS, e garantir a qualidade das respostas dos especialistas e dos itens, e é considerada um método prático e justificável para manter o rigor psicométrico de um teste(15).

O tempo médio estimado para o preenchimento do FonoTCS foi de 60 minutos e todas as respostas foram processadas anonimamente. Todos os participantes (especialistas e estudantes) foram orientados a responder o FonoTCS em uma única sessão, de forma independente.

O formato inicial do FonoTCS, com conteúdo validado, foi composto por 120 itens distribuídos em 30 casos clínicos distintos de seis áreas de conhecimento da Fonoaudiologia (audiologia, linguagem, motricidade orofacial, disfagia, voz e saúde coletiva) com quatro itens cada(12). Cada um desses casos clínicos reflete situações distintas e complexas, exigindo que o fonoaudiólogo tome decisões específicas e diferenciadas, de acordo com as particularidades de cada caso.

Os participantes receberam a orientação de que cada questão do FonoTCS compreende um cenário (descrição do caso clínico) com quatro perguntas (itens) apresentadas em três partes distintas(14):

  1. A primeira parte (“se você está pensando em”) aborda uma decisão clínica de relevância;

  2. A segunda parte (“e você encontra”) introduz um achado clínico, como um sinal, sintoma, condição pré-existente, imagem diagnóstica ou resultado de exame/teste;

  3. A terceira parte (“a hipótese se torna”) consiste em uma escala Likert de cinco pontos que captura as decisões dos participantes, no qual 1 indica situação “praticamente descartada/ totalmente contraindicada” e 5 uma situação “praticamente certa/absolutamente necessária”.

A tarefa dos participantes foi determinar o impacto da nova descoberta (segunda parte) na decisão clínica (primeira parte), em termos de direção (positiva, negativa ou neutra) e intensidade (terceira parte)(16).

Procedimentos

Avaliação dos especialistas

Nesta etapa, dos 27 fonoaudiólogos convidados, 25 (92,6%) avaliaram os 120 itens do instrumento. Todos receberam contato individual, com as explicações para responder o FonoTCS enviado pelo GoogleForms. Os especialistas tiveram um prazo de 30 dias para envio da resposta.

Avaliação dos estudantes

Dos 52 estudantes convocados para o Enade, 35 (67,3%) responderam o FonoTCS. Os participantes responderam o teste em uma sala da Universidade, em computadores individuais. O tempo de realização do teste para cada estudante foi mensurado.

Formato final do FonoTCS

Para definição do formato final do teste, primeiramente se realizou uma análise para identificar os juízes que seriam retirados da amostra, a partir do cálculo do z-score(17). Posteriormente foram avaliados os 120 itens do FonoTCS, e aqueles com correlação item/item total menor que 0,05 pelo teste de correlação de Pearson, foram eliminados(17).

Para a análise dos dados se utilizou um software disponível no site da Universidade de Montreal para a elaboração de TCS(18).

Escolha dos juízes especialistas

O critério utilizado para a seleção dos fonoaudiólogos juízes e definição da resposta “padrão ouro” do teste foi os valores padronizados Z2 e Z(19).

A Tabela 1 ilustra o processo inicial de avaliação dos 25 especialistas. A resposta mais adequada para cada item foi a moda de todos os especialistas. Foram excluídos do estudo aqueles fonoaudiólogos com percentual baixo de respostas iguais a moda do item e/ou se a soma das distâncias das respostas em relação à moda do item foi grande, ou seja, foram retirados os especialistas cujas avaliações apresentavam resultados de Z2 >2 e Z<-2 distantes da resposta modal.

Tabela 1. Avaliação dos especialistas para cada item do FonoTCS (n=25).
Painel q1 q2 ... q118 q119 q120
Especialista 1 1 2 ... 1 2 2
Especialista 2 1 3 ... 3 4 2
Especialista 3 2 1 ... 1 5 4
Especialista 4 2 1 ... 2 5 4
Especialista 5 4 2 ... 1 5 1
Especialista 6 2 1 ... 2 4 2
Especialista 7 2 1 ... 1 2 1
Especialista 8 4 1 ... 1 5 1
Especialista 9 1 1 ... 5 2 1
Especialista 10 2 4 ... 4 2 1
Especialista 11 5 4 ... 4 5 4
Especialista 12 1 1 ... 2 5 1
Especialista 13 3 2 ... 3 5 1
Especialista 14 5 1 ... 5 5 5
Especialista 15 1 3 ... 3 5 1
Especialista 16 4 1 ... 2 4 1
Especialista 17 2 1 ... 2 5 1
Especialista 18 3 1 ... 2 5 4
Especialista 19 2 5 ... 1 5 2
Especialista 20 2 1 ... 1 5 1
Especialista 21 1 1 ... 1 5 1
Especialista 22 4 2 ... 4 4 4
Especialista 23 2 1 ... 3 5 2
Especialista 24 1 2 ... 4 5 1
Especialista 25 4 1 ... 5 5 4
Moda 2 1 ... 1 5 1

Legenda: q – item do FonoTCS

A Tabela 2 apresenta a soma das distâncias absolutas das respostas em relação a moda de cada item (SD) e seu respectivo valor padronizado (Z2), ou seja, o valor de SD subtraído da média da coluna de SD dividido pelo desvio padrão da coluna de SD. Observa-se ainda, o percentual de respostas iguais a moda do item (PAM) e seu respectivo valor padronizado (Z).

Tabela 2. Soma das distâncias (SD) e percentual de acerto em relação a moda (PAM) das respostas dos especialistas para os itens do FonoTCS.
SD Z2 PAM Z
Especialista 1 83 -1,06 60,0% 0,950
Especialista 2 137 1,37 20,8% -2,833
Especialista 3 92 -0,66 53,3% 0,306
Especialista 4 83 -1,06 62,5% 1,191
Especialista 5 124 0,79 41,7% -0,821
Especialista 6 119 0,56 25,8% -2,350
Especialista 7 100 -0,30 52,5% 0,225
Especialista 8 94 -0,57 55,0% 0,467
Especialista 9 138 1,42 45,8% -0,419
Especialista 10 103 -0,16 57,5% 0,708
Especialista 11 151 2,00 42,5% -0,741
Especialista 12 92 -0,66 56,7% 0,628
Especialista 13 113 0,29 42,5% -0,741
Especialista 14 89 -0,79 62,5% 1,191
Especialista 15 79 -1,24 58,3% 0,789
Especialista 16 97 -0,43 54,2% 0,386
Especialista 17 110 0,16 50,8% 0,064
Especialista 18 90 -0,75 55,0% 0,467
Especialista 19 94 -0,57 50,8% 0,064
Especialista 20 99 -0,34 46,7% -0,338
Especialista 21 104 -0,12 55,0% 0,467
Especialista 22 168 2,77 38,3% -1,143
Especialista 23 92 -0,66 58,3% 0,789
Especialista 24 104 -0,12 54,2% 0,386
Especialista 25 109 0,11 53,3% 0,306

Legenda: Z e Z2 - valores padronizados

Assim, medidas de Z2 >2 e Z<-2 indicam avaliações de especialistas distantes da moda(17). Desta forma, na primeira rodada de interação, quatro especialistas (2, 6, 11 e 22) foram retirados do estudo. Toda a análise foi refeita sem estes especialistas e, quando necessário, novos especialistas foram retirados. Este processo foi finalizado quando não se detectou mais medidas com valores Z2 >2 e Z<-2. No total, foram realizadas oito rodadas de interação que resultaram na eliminação de 12 especialistas do estudo.

Seleção dos itens

O item foi considerado válido se a correlação de Pearson entre as notas transformadas dos estudantes para um determinado item, com a soma das notas transformadas para todos os itens, foi superior a 0,05(20). A nota transformada dos estudantes foi igual a frequência da nota do estudante na escala Likert no grupo de especialistas, dividido pela frequência da moda do grupo de especialistas.

A Tabela 3 ilustra parte das notas dos estudantes utilizando a Escala Likert, bem como a moda dos especialistas e respectiva frequência da moda.

Tabela 3. Respostas dos estudantes de acordo com a escala Likert para cada item do FonoTCS e valor da moda e frequência da moda dos especialistas.
q1 q2 ... q119 q120
Estudante 1 3 1 ... 5 1
Estudante 2 2 3 ... 5 4
Estudante 3 2 1 ... 5 2
Estudante 4 3 2 ... 5 1
Estudante 5 1 2 ... 5 2
Estudante 6 3 2 ... 5 1
... ... ... ... ... ...
Estudante 30 2 4 ... 5 1
Estudante 31 2 4 ... 5 1
Estudante 32 3 4 ... 5 1
Estudante 33 2 2 ... 4 3
Estudante 34 2 1 ... 4 2
Estudante 35 1 1 ... 2 2
Moda Especialista 2 1 ... 5 1
Frequência da Moda 6 9 ... 10 6
# Nota Especialista 1 3 9 ... 0 6
# Nota Especialista 2 6 2 ... 2 3
# Nota Especialista 3 1 0 ... 0 0
# Nota Especialista 4 2 1 ... 1 3
# Nota Especialista 5 1 1 ... 10 1

Legenda: q – item do FonoTCS

Na Tabela 4 observa-se as notas transformadas (T) e a respectiva soma das notas transformadas (SNT). Por exemplo, a nota 0,167 para o Estudante 1 para o item 1 é obtida dividindo a frequência da nota 3 (oriunda da Tabela 3) no grupo de especialistas pela frequência da moda no grupo de especialistas, isto é, 1/6. Já a nota transformada 0,222 do estudante 6 para o quesito 2 é obtida pela fração 2/9.

Tabela 4. Notas transformadas dos estudantes (NT) e soma das notas transformadas (SNT) para cada item do FonoTCS.
NTq1 NTq2 ... NTq119 NTq120 SNT
Estudante 1 0,167 1,000 ... 1,000 1,000 74,630
Estudante 2 1,000 0,000 ... 1,000 0,500 67,995
Estudante 3 1,000 1,000 ... 1,000 0,500 75,718
Estudante 4 0,167 0,222 ... 1,000 1,000 63,192
Estudante 5 0,500 0,222 ... 1,000 0,500 86,263
Estudante 6 0,167 0,222 ... 1,000 1,000 84,956
... ... ... ... ... ... ...
Estudante 30 1,000 0,111 ... 1,000 1,000 90,274
Estudante 31 1,000 0,111 ... 1,000 1,000 80,157
Estudante 32 0,167 0,111 ... 1,000 1,000 90,977
Estudante 33 1,000 0,222 ... 0,100 0,000 65,506
Estudante 34 1,000 1,000 ... 0,100 0,500 90,085
Estudante 35 0,500 1,000 ... 0,200 0,500 74,453

Legenda: q – item do FonoTCS

Após transformar as notas dos estudantes, foram calculadas todas as 120 correlações entre as notas transformadas registradas nas colunas da Tabela 4 (por exemplo, NTq1) com a coluna SNT. Correlações de Pearson maiores que 0,05 indicam que o item deve permanecer no estudo(20).

Nesta etapa, dos 120 itens, 27 itens foram retirados do estudo por apresentarem correlações menores do que 0,05. Todo o processo foi repetido reiteradamente até que todas as correlações fossem maiores do que 0,05. Outros cinco itens foram retirados devido a recomendação de que cada cenário (caso clínico) precisa ter pelo menos dois itens que o caracteriza(14), portanto, após quatro rodadas de interações, 88 itens compuseram o instrumento final.

Análise dos dados

Após a retirada de especialistas e itens e definição do formato final do FonoTCS, o teste Alfa de Cronbach foi aplicado para medir a consistência interna do teste.

As respostas do FonoTCS foram definidas usando o método de escore agregado(15). A pontuação foi baseada na distribuição das respostas entre os especialistas para cada item. Créditos totais foram dados à resposta modal (mais escolhida pelos especialistas) e créditos parciais foram atribuídos a outras respostas, conforme a proporção de escolha dos fonoaudiólogos especialistas. Respostas não escolhidas pelos juízes receberam pontuação zero.

Posteriormente, os resultados das respostas dos estudantes e dos especialistas foram comparados para avaliar as respostas de ambos os grupos, a partir de análise descritiva dos dados.

Ao finalizar o FonoTCS, o respondente receberá uma nota final. A pontuação total final para o teste é a soma dos pontos obtidos em cada item. Este valor é dividido pelo número de itens do teste e no fim multiplicado por 100 para se obter um escore percentual(5).

RESULTADOS

Participaram do estudo, após a definição do formato final do FonoTCS, 13 especialistas (52%) dos 25 fonoaudiólogos que responderam o FonoTCS, sendo 12 mulheres (92,0%) e um homem (8,0%) com média de idade de 41,7 anos (DP=6,43). Em relação ao nível de escolaridade a amostra contou com um especialista (08%), oito mestres (61%) e quatro doutores (31%), com tempo médio de atuação clínica generalista de 17,9 anos (DP=6,3).

Dos 35 estudantes do curso de fonoaudiologia, discentes dos 9º e 10º períodos convocados para o Enade, a maioria era do sexo feminino (n=32; 91,4%) com idade média de 25,5 anos (DP=7,76). O tempo médio para a realização do FonoTCS pelos estudantes foi de 58,9 minutos (DP = 8,93).

O instrumento final apresentou 88 itens distribuídos em 28 casos clínicos sendo seis casos para as áreas de conhecimento da fonoaudiologia de audiologia, linguagem, motricidade orofacial/disfagia, e cinco casos para as áreas de voz e saúde coletiva.

As Figuras 1 e 2 ilustram os gráficos de probabilidade normal para os valores Z2 e Z dos 13 especialistas, respectivamente. Observa-se que não existe evidência para rejeitar que os dados sejam normais ao nível de significância 5% (p-valor 0,05 para o teste Anderson Darling) e nenhum especialista apresentou valor de Z2 >2 e/ou Z< -2.

Figura 1. Gráfico de QQ Plot para dados padronizados de Z2 dos especialistas que ficaram na versão final (n=13) .

Figura 1

Figura 2. Gráfico de QQ Plot para dados padronizados de Z dos especialistas que ficaram na versão final (n=13).

Figura 2

Utilizando os dados transformados descritos na Tabela 4 com os 88 Itens que permaneceram no estudo, obteve-se um Alfa de Cronbach igual a 0,903 com intervalo de confiança de 95% expresso por 0,86|---|0,95. Estes valores indicam uma alta consistência interna entre os itens do FonoTCS(21).

Podemos observar na Figura 3 que os 13 especialistas apresentaram, como esperado, um desempenho médio maior quando comparado aos estudantes (n=35) além de uma variabilidade menor. Em relação aos estudantes, observou-se uma grande variabilidade e um desempenho médio inferior aos dos especialistas.

Figura 3. Avaliação do desempenho dos estudantes e especialistas.

Figura 3

Podemos observar que determinados estudantes (19, 20, 31, 32 e 34) apresentaram um desempenho muito bom e comparável ao dos especialistas, podendo ser chamados de “estudantes especialistas” considerando a avaliação dos 88 itens e corroborando um adequado processo de aprendizagem. Por outro lado, alguns estudantes (2, 4, 12, 13, 16, 22, 29 e 33), apresentaram desempenho médio, em termos descritivos, inferior ao dos especialistas.

O formato final do FonoTCS está disponível para acesso gratuito na página da Faculdade de Medicina da Universidade Federal de Minas Gerais, pelo link https://fonotcs.medicina.ufmg.br/.

DISCUSSÃO

Os resultados desta pesquisa indicaram que é possível avaliar o raciocínio clínico de estudantes e jovens fonoaudiólogos com formação generalista. O FonoTCS foi considerado apropriado para avaliar a capacidade dos examinandos em gerar hipóteses e decidir sobre tomadas de decisão no processo diagnóstico e terapêutico, em contextos de incerteza no campo fonoaudiológico.

O formato inicial do FonoTCS, com conteúdo validado(12), foi composto por 120 itens distribuídos em 30 casos clínicos de seis áreas de conhecimento da Fonoaudiologia (audiologia, linguagem, motricidade orofacial, disfagia, voz e saúde coletiva) com quatro itens cada. Já seu formato final foi composto por 28 casos clínicos com 88 itens, sendo seis casos para as áreas de conhecimento de audiologia, linguagem, motricidade orofacial/disfagia e cinco casos para as áreas de voz e saúde coletiva.

A configuração final do FonoTCS foi definida em duas etapas de análise: 1) seleção dos especialistas a partir dos valores padronizados Z2 e Z; e 2) retirada dos itens com correlação item/item total menor que 0,05. Uma característica única dos Testes de Concordância de Scripts (TCSs) é a formação de um painel de especialistas de referência, que tem a função de determinar a pontuação final do teste(15,17).

Os guias para a elaboração dos TCSs indicam que, para se obter testes confiáveis, são necessários de 10 a 15 juízes para alcançar estimativas adequadas de confiabilidade, com um benefício marginal ao se ter mais de 20 especialistas(13-17,22). Dos 25 fonoaudiólogos que responderam ao FonoTCS, 13 especialistas foram mantidos na análise final para a definição das respostas de referência do teste, conforme sugerido pela literatura(22).

Após a análise da correlação item/item total, foram retirados 27 itens (22,5%), e depois cinco por ficarem com cenários (casos clínicos) contendo apenas dois itens, totalizando 32 (26,7%) itens retirados. Segundo a literatura(14), estima-se a retirada de aproximadamente 25% dos itens na elaboração dos TCSs. O uso de três a quatro itens por caso no TCS é justificado por questões teóricas e psicométricas do teste(23). Guias de elaboração de TCSs recomendam de 20 a 25 casos com, no mínimo, 75 itens(13-16), para se alcançar uma aceitável confiabilidade(14). O FonoTCS respeitou todas as recomendações(13-16) para elaboração dos TCSs, apresentando um formato composto por 28 casos clínicos com 88 itens, com três a quatro itens por caso.

O tempo de resposta do teste é de aproximadamente 60 minutos. Pesquisa(22) afirma que TCSs com tempos de teste entre 60 e 90 minutos demonstraram produzir uma confiabilidade de pontuação adequada(22).

O Alfa de Cronbach obtido foi de 0,903, com um intervalo de confiança de 95% variando entre 0,86 e 0,95. Esses valores indicam uma alta consistência interna entre os itens do FonoTCS(21). Considerando que os 88 itens do FonoTCS estão distribuídos em 28 casos clínicos, cada um representando situações distintas e complexas em diferentes áreas da Fonoaudiologia, essa diversidade garante que a alta consistência interna não é resultado de itens homogêneos, minimizando o risco de uma inflação artificial do alfa de Cronbach, e reforçando a validade do instrumento para avaliar o raciocínio clínico do fonoaudiólogo com formação generalista. Outro aspecto a se destacar é que o FonoTCS foi submetido à validação de conteúdo e demonstrou ser um instrumento válido em termos de clareza, pertinência e aspectos éticos(12).

Diferentes TCSs validados para avaliar o raciocínio clínico em medicina, abrangendo situações clínicas de reumatologia(24), otorrinolaringologia(25) e anestesiologia(26), apresentaram valores de Alfa de Cronbach de 0,82(24,25) e 0,79(26), todos dentro da faixa de 0,75 a 0,80 recomendada pela literatura(14).

Na fonoaudiologia, foi desenvolvido um TCS para estudantes falantes do espanhol chileno(10) com 80 itens e uma confiabilidade de 0,67 (mínimo = 0,34; máximo = 0,84). Os autores concluem que, embora o teste tenha apresentado uma baixa confiabilidade global, a estratificação por área de especialidade de cada cenário ofereceu um panorama heterogêneo(10). Destaca-se o fato de os autores(10) não terem seguido todas as normas de elaboração do TCS(13-16), o que talvez, pode ter influenciado nos resultados encontrados.

Os resultados de consistência interna do FonoTCS de 0,903 demonstram que os itens do teste estão correlacionados entre si e, portanto, medem de forma coerente o mesmo constructo, definindo o FonoTCS como um instrumento de avaliação com confiabilidade nas pontuações obtidas(21), e resultados dentro do esperado para os TCSs(14,15).

As respostas fornecidas pelos fonoaudiólogos especialistas definiram a pontuação final do FonoTCS a partir do método de escore agregado(13-16). Para exemplificar este método, suponha que um painel de 15 membros foi solicitado a responder à primeira pergunta do teste, e oito membros selecionaram a resposta +1, cinco membros selecionaram a resposta +2, e dois membros selecionaram a resposta 0. A pontuação para este item seria: resposta +1, 1 ponto (8/8), por ser a resposta modal; resposta +2, 0,625 pontos (5/8); resposta 0, 0,25 pontos (2/8); e respostas -1 e -2 com 0 pontos.

A variabilidade na pontuação das respostas do painel é uma característica inerente ao TCS e tem demonstrado ser um elemento chave na sua capacidade discriminativa e, consequentemente, em sua validade(16).

O método de escore agregado descrito acima é o método mais comumente utilizado nos TCSs(27). No entanto, é importante reconhecer que o método de pontuação ideal para o TCS ainda é debatido(28). O método de escore agregado exige ainda pesquisas psicométricas sobre aspectos como nível de consenso, escala de pontuação e sua relação com a discriminação entre as respostas de profissionais experientes e jovens clínicos(13).

Apesar do debate sobre o melhor método de análise a ser utilizado nos TCSs(28), a variabilidade nas pontuações das respostas é essencial para esses testes. A fundamentação teórica dos TCSs baseia-se no desenvolvimento dos scripts a partir da experiência individual do clínico com pacientes, o que resulta em um grau significativo de idiossincrasia, especialmente em casos menos comuns. Portanto, a variabilidade nas respostas, a partir da pontuação do método de escore agregado, é central para a argumentação sobre a validade dos TCSs na capacidade de medir o raciocínio clínico(15).

Como descrito, o método de escore agregado pondera as respostas com base em sua frequência no painel de especialistas, permitindo uma pontuação que reflete a opinião coletiva, com atribuição de pesos proporcionais às respostas menos frequentes.

Um dos principais impactos positivos desse método é sua capacidade de captar a variabilidade nas respostas dos especialistas, o que contribui para a discriminação fina entre diferentes níveis de raciocínio clínico. Esse aspecto é fundamental para a validade do FonoTCS, pois a variabilidade observada reflete as diferentes experiências e formações dos profissionais, especialmente em casos clínicos mais raros ou complexos(16). Essa capacidade discriminativa reforça o argumento de que o FonoTCS é sensível às nuances do raciocínio clínico, uma característica central dos TCSs(13-16).

Por outro lado, um impacto potencialmente negativo do método de escore agregado é que ele pode introduzir alguma subjetividade nas pontuações, principalmente quando há um alto grau de dispersão nas respostas dos especialistas. Essa variação pode dificultar a criação de um padrão claro para todos os casos, o que levanta a necessidade de mais pesquisas psicométricas, como a investigação do nível de consenso necessário para definir respostas corretas e a análise da relação entre esse consenso e a discriminação entre clínicos experientes e jovens profissionais(13).

Portanto, enquanto o método de escore agregado oferece uma maneira robusta de refletir a diversidade de respostas e experiências clínicas no FonoTCS, reconhecemos que ele também apresenta desafios que exigem investigação adicional. Entretanto, os resultados deste estudo indicam que essa abordagem é eficaz em capturar a complexidade do raciocínio clínico fonoaudiológico, contribuindo para a validade do instrumento(17,28).

O FonoTCS será apresentado no formato eletrônico, de acesso livre, para apresentar exames por imagem e para devolutiva dos resultados aos examinandos em tempo real(14,15). Ao finalizar o FonoTCS, o respondente receberá uma nota final calculada da seguinte forma: a pontuação total é obtida somando os pontos de cada item do teste. Esta soma é então dividida pelo número total de itens do teste e multiplicada por 100 para se obter um escore percentual e facilitar a interpretação do resultado(5).

Ao se comparar os resultados dos 13 fonoaudiólogos especialistas com os dos 35 estudantes, os especialistas demonstraram um desempenho superior com uma variabilidade significativamente menor. Alguns estudantes exibiram um excelente desempenho, comparável ao dos especialistas, enquanto outros mostraram um desempenho descritivamente inferior ao dos especialistas. Tais resultados são esperados e demonstram a capacidade dos TCSs discriminar diferentes níveis de raciocínio clínico(13-16).

Como limitação deste estudo, é importante destacar que a elaboração de um TCS requer um investimento significativo de recursos humanos, tempo e dedicação. Em um contexto em que a eficiência é crucial, adaptações rápidas e eficazes dos métodos de avaliação são essenciais para assegurar a qualidade do ensino de profissionais da saúde. Um estudo recente(29) explorou o desenvolvimento de um TCS apoiado por inteligência artificial (IA), ressaltando que o ChatGPT pode ser uma ferramenta promissora na criação desses testes. Esta pesquisa(29) abre novas perspectivas para futuras investigações no campo do TCS.

O cenário atual destaca a necessidade de desenvolver novos TCSs para avaliar o raciocínio clínico nas diversas especialidades da fonoaudiologia. No contexto de formação generalista, o FonoTCS mostrou ser uma ferramenta útil e inovadora para a avaliação do raciocínio clínico de fonoaudiólogos falantes do português brasileiro.

O FonoTCS se mostrou eficaz como ferramenta avaliativa, mas também desempenha um papel importante no processo de ensino-aprendizagem. Ao expor os estudantes a cenários clínicos reais e desafiadores, ele incentiva a aplicação prática do conhecimento teórico, promovendo o desenvolvimento de um raciocínio clínico mais robusto e integrado.

Essa abordagem ativa e contextualizada permite que os alunos reflitam sobre suas decisões e aprimorem suas habilidades de tomada de decisão, aspectos essenciais para sua formação profissional. A relevância do FonoTCS no processo educacional reside em sua capacidade de simular situações de incerteza que são frequentes na prática clínica, contribuindo para uma formação mais completa e alinhada às demandas do mercado de trabalho e à realidade da atuação fonoaudiológica.

CONCLUSÃO

O FonoTCS é válido e confiável para ser utilizado na avaliação do raciocínio clínico de jovens profissionais e estudantes de fonoaudiologia com formação generalista, falantes do português brasileiro.

Funding Statement

Financial support: Conselho Nacional de Desenvolvimento Científico e Tecnológico-Brasil (CNPq) (304475/2023-8). Instituto de Estudos Avançados Transdisciplinares (IEAT), Universidade Federal de Minas Gerais (UFMG).

Footnotes

Trabalho realizado no Programa de Pós-graduação em Ciências Fonoaudiológicas, Universidade Federal de Minas Gerais – UFMG - Belo Horizonte (MG), Brasil.

Fonte de financiamento: Conselho Nacional de Desenvolvimento Científico e Tecnológico-Brasil (CNPq) (304475/2023-8). Instituto de Estudos Avançados Transdisciplinares (IEAT), Universidade Federal de Minas Gerais (UFMG).


Articles from CoDAS are provided here courtesy of Sociedade Brasileira de Fonoaudiologia

RESOURCES