Skip to main content
Colombia Médica : CM logoLink to Colombia Médica : CM
. 2024 Sep 30;55(3):e2015818. doi: 10.25100/cm.v55i3.5818
View full-text in Spanish

Limitations of the MBI-HSS in Colombian health personnel psychometric: Evaluation after modification of its response options

Limitaciones del MBI-HSS en personal de salud colombiano: evaluación psicométrica tras la modificación de sus opciones de respuesta

Ana Carolina Amaya-Arias 1,, Fabián A Jaimes 2, Jenny García Valencia 3
PMCID: PMC12017342  PMID: 40270806

Abstract

Objective:

To establish the construct validity, internal consistency, and difficulty and discrimination of the items in the Maslach Burnout Inventory- Human Services Survey, with modified response options, for measuring burnout in healthcare workers in Colombia.

Methods:

A descriptive study of validation of measurement instruments was conducted. With the support of a panel of experts, the response options were modified, and the new version was administered to 377 healthcare workers. Internal consistency was evaluated, and confirmatory factor analysis was conducted to assess the structural construct validity. The structural Equation Modeling model was calculated using the diagonally weighted least squares estimation method. Finally, item discrimination and difficulty thresholds of the response options were calculated using the generalized partial credit model of Item Response Theory.

Results:

The emotional exhaustion and personal accomplishment subscales showed good internal consistency (α= 0.87 and 0.77), while the depersonalization subscale was low (0.45). The confirmatory factor analysis indicated an acceptable but not ideal fit (NFI and RFI <0.95; RMSEA >0.06). Inadequate functioning of the response options and measurement bias were identified.

Conclusions:

The previously validated version of the Maslach Burnout Inventory- Human Services Survey and the adapted version in this study have limitations in Colombian healthcare workers, especially in the depersonalization subscale. A thorough revision is suggested to appropriately measure burnout in healthcare personnel in our context.

Keywords: Burnout, professional; Health Personnel; Psychometrics; MBI-HSS; Factor Analysis, Statistical; Surveys and Questionnaires; Item Response Theory

Graphical Abstract

graphic file with name 1657-9534-cm-55-03-e2015818-i001.jpg

Limitations of the MBI-HSS in Colombian health personnel psychometric: Evaluation after modification of its response options.


Remark

1) Why was this study conducted?
In the validation study of the adapted version of the MBI-HSS for Colombia, the authors were unable to confirm satisfactory reliability and validity, and there was a need to eliminate certain items. Additionally, these researchers proposed adjusting the response options as a potential solution to improve the psychometric properties of the instrument. Based on these recommendations, the response scale was modified, and the psychometric characteristics of the test were reevaluated.
2) What were the most relevant results of the study?
Even after modifying the response options of the MBI-HSS, limitations were identified in its structural validity, reliability, item discrimination, and response option difficulty. Therefore, the use of this scale to measure burnout among healthcare workers in Colombia is not recommended. If some of its subscales are to be applied, the one that could best measure exhaustion in healthcare personnel is the emotional fatigue subscale.
3) What do these results contribute?
These findings provide a deeper understanding of the applicability and accuracy of the MBI-HSS in the specific context of our country. They reveal areas for improvement in the instrument, particularly concerning certain subscales and items. Additionally, they highlight the possibility that our understanding and conceptualization of burnout may differ from that originally proposed by Maslach & Jackson, as has been evidenced in other cultures. This suggests the need to review and adapt not only the instrument but also the very concept of burnout for our population. It also invites reflection on the widespread use of this instrument despite its deficiencies in our context, which could imply systematic biases in measurements conducted for monitoring or research purposes. This is a call to action regarding the need for appropriate instrument selection, moving beyond the use of those that are most frequently adopted due to their classic status but may have issues in their adaptations in our context, even from the conceptualization of the construct being measured. .

Introduction

Burnout syndrome is a psychological phenomenon characterized by emotional exhaustion, cynicism or depersonalization, and a diminished sense of personal accomplishment in the workplace 1. Its presence among healthcare professionals has raised concerns, as it not only affects the well-being and quality of life of those who experience it but may also compromise the quality of care provided and, consequently, patient safety 2,3.

The Maslach Burnout Inventory (MBI) has been one of the most widely used instruments to assess burnout 4. This tool has been translated into various languages and used in different countries and occupations, including educators, students, police or military personnel, and healthcare professionals 5-9.

Despite its widespread use, issues have been identified in its validation across different contexts and cultures. Some studies have confirmed the original three-factor structure proposed by the authors, while others have identified structures ranging from two to five dimensions 5,10. Additionally, certain questions in the MBI have elicited unfavorable reactions in cultures other than North American, which may introduce measurement biases 11.

This questionnaire was validated in Spanish, revealing a three-dimensional structure. However, problems were identified with the personal accomplishment dimension, suggesting that it might consist of two aspects: self-competence and an existential component, with the latter having less impact on feelings of exhaustion 5. In Latin America, Pando Moreno et al. 12 conducted a validation study of the MBI-GS in eight Latin American countries, finding that the factorial structure did not align with the original three-dimensional model. Instead, a two-factor structure emerged, with items related to depersonalization and exhaustion loading onto the first factor and those related to personal accomplishment onto the second.

In Colombia, Córdoba et al. 13, validated the MBI-HSS among healthcare workers. Although they found good internal consistency for the overall scale, they suggested removing two items to maintain the original three-factor structure. The authors attributed these differences to difficulties in the functioning of the response options.

At the national level, there has been a recognized need to address psychosocial risk factors in the workplace. Resolution 2646 of 2008, issued by the Ministry of Social Protection, establishes the responsibility of Colombian institutions in the prevention, diagnosis, intervention, and control of these factors 14. This initiative was complemented by Law 1562 of 2012, which modified the General System of Occupational Risks, focusing on the prevention of work-related illnesses and accidents 15, and Resolution 2764 of 2022, issued by the Ministry of Labor, which adopts a battery of instruments for the evaluation of psychosocial risk factors and provides technical guidelines for the promotion, prevention, and intervention of psychosocial factors and their effects on the working population. These national guidelines underscore the importance of having appropriate tools to assess and address workplace burnout in the Colombian context. Thus, this project emerges as a proactive response to the identified challenges.

Given the importance of measuring burnout among Colombian healthcare workers and the need for instruments with adequate validity and reliability indicators, this project seeks to answer the following question: What are the psychometric properties of the MBI-HSS for measuring burnout among healthcare workers in Colombia after modifying its response options?

Materials and Methods

For this study, the recommendations of the COSMIN (COnsensus-based Standards for the selection of health Measurement Instruments) group were followed for the publication of validation studies of health measurement instruments 16,17.

Design

A cross-sectional study was conducted to reevaluate the validity and reliability of the Maslach Burnout Inventory-Human Services Survey (MBI-HSS) in the Colombian healthcare context.

Setting

This study was conducted in a decentralized, third-level public hospital that provides high-complexity healthcare services. It is located in an intermediate capital city in the southern region of Colombia. Data collection took place between November 1 and December 31, 2022.

Participants

Convenience sampling was used. The inclusion criteria were: healthcare workers providing clinical care at the hospital where the study was conducted during the data collection period and who voluntarily accepted to participate in the study. Administrative staff were excluded.

The minimum sample size was determined based on Monte Carlo simulations, aiming to establish a robust and reliable structural equation modeling (SEM) framework. For these simulations, a factor loading of 0.5 was adopted for the dimensions of each test, and an expected correlation of 0.3 between subdimensions, based on findings from previous validations 5-9. It was specified that the diagonally weighted least squares (DWLS) estimation method would be used 18,19. The following fit indices were calculated: Comparative Fit Index (CFI) and Tucker-Lewis Index (TLI), where values ≥0.95 are considered optimal; and Standardized Root Mean Squared Residual (SRMR) and Root Mean Square Error of Approximation (RMSEA), which are considered significant with values below 0.06 and 0.08, respectively 20. Sample sizes of 250, 300, 350, and 400 were tested. The optimal sample size was defined based on the best fit observed in the simulations. It was found that a sample size of 250 already showed excellent fit (CFI = 0.98; TLI = 0.98; RMSEA = 0.015; SRMR = 0.053). Therefore, this was established as the minimum sample size, aiming for a larger sample to minimize the risks of non-convergence and the occurrence of Heywood cases.

Variables

The main variables of the study were:

1. Burnout: A series of negative responses toward work resulting from prolonged exposure to a highly demanding work environment, characterized by emotional exhaustion, detachment or cynicism, and a diminished sense of personal accomplishment 1.

2. Demographic Data: Sex, occupation, age, unit or service, type of employment, years of experience in the current occupation, length of service in the unit, type of contract, and average working hours per week.

A detailed description of all study variables is provided in Appendix 1.

Measurement instruments

MBI-HSS: The Maslach Burnout Inventory - Human Services Survey consists of 22 items that assess professionals' feelings and attitudes toward their work and patients. The response format is an unipolar Likert scale with the following options: never (0), a few times a year or less (1), once a month or less (2), a few times a month (3), once a week (4), a few times a week (5), and every day (6). It includes three subscales:

  1. Emotional Fatigue: 9 items assessing physical exhaustion, burnout, and loss of energy.

  2. Depersonalization: 5 items evaluating negative aspects of behaviors and attitudes toward others (colleagues and patients).

  3. Personal Accomplishment: 8 items measuring emotions such as depression, low morale, avoidance of interpersonal relationships, and low productivity.

In the version validated in Colombia, two items were removed, resulting in a 20-item version with the same three subscales. This version demonstrated intermediate to high internal consistency for the subscales and adequate overall internal consistency 21.

Data collection

Data were collected through an online questionnaire using Google Forms, with mandatory responses to avoid incomplete submissions. One of the researchers visited the care units and explained the purpose of the study in small groups, emphasizing the confidentiality of the information and addressing any concerns. Participants who agreed to take part were sent a link to the consent form, which, upon acceptance, automatically redirected them to the questionnaire. Additionally, after the informational sessions, the link was distributed via email and WhatsApp groups for each department.

Data analysis

Modification of response options

A consensus among experts was reached using a modified Delphi methodology, applying the individual aggregation technique 22. For this purpose, 10 professionals with over 5 years of experience in healthcare or health education were convened (5 medical specialists, 1 general practitioner, 1 specialist nurse, 1 psychometrician, and 2 specialist psychologists). The expert team and their profiles are presented in Appendix 2. This group was asked to review the new response options for the MBI-HSS, which were based on the study by Cañadas & Sánchez 23 on recommended response categories for Likert-type scales. Three modification proposals were sent for evaluation, and each expert rated them on a scale from 1 (Strongly disagree with these response options) to 5 (Strongly agree with these response options). The option with the highest average score among the judges was selected, achieving 100% agreement after consultation with all experts.

Internal consistency

Internal consistency was assessed using the inter-item correlation matrix and the correlation of each item with its domain (subscale). Additionally, Cronbach’s alpha coefficient was calculated for each subscale of the test, including the alpha value when each item was removed. Cronbach’s alpha increases as inter-item correlations grow 24,25; desirable values for this coefficient range between 0.7 and 0.9 26. In the inter-item correlation matrix, correlations between 0.2 and 0.5 are considered acceptable 26. For item-total correlations, values between 0.3 and 0.7 are expected.

Structural validity

Given that the original structure of the instrument is known, a Confirmatory Factor Analysis (CFA) was conducted to test the theoretical model representing the original structure of the instrument using a SEM. The model tested considered the interrelationship between the three subscales, as proposed by the original authors. The following fit indices were calculated: Comparative Fit Index (CFI), Tucker-Lewis Index (TLI), Normed Fit Index (NFI), Relative Fit Index (RFI), Goodness of Fit Index (GFI), and Adjusted Goodness of Fit Index (AGFI). Values equal to or greater than 0.95 were considered indicators of good fit. Additionally, the Root Mean Square Error of Approximation (RMSEA) and Standardized Root Mean Squared Residual (SRMR) were calculated, with values below 0.06 and 0.08, respectively, indicating good fit 20. The model was estimated using the diagonally weighted least squares (DWLS) method, which has shown better performance in confirmatory factor analyses with ordinal response items 27 and uses polychoric correlations for its calculation 28,29.

Item functioning

Item functioning was evaluated using the generalized partial credit model, an extension of the Rasch model, which is used for analyzing items with polytomous response options 30. Unidimensionality within each subscale was assumed, as each subscale theoretically assesses a different dimension of the overall construct.

Item discrimination (a) and difficulty thresholds for response options (b) were calculated. This analysis evaluates the probability of each response option being selected by participants based on their level of the measured attribute or trait 31. Discrimination values between 0.65 and 2.5 indicate adequate discrimination 30,32. Additionally, the functioning of response options was assessed using category characteristic curves.

Item Information Functions (IIFs) were plotted to evaluate the quality of the test items in terms of their ability to measure individuals’ traits accurately 31. Test Information Functions (TIFs) were also generated for each subscale, showing the relationship between individuals’ trait levels and the amount of information provided by the subscale as a whole at that trait level 31.

Bias control

Data collection was conducted by the lead researcher, who is specialized in the application of measurement instruments. Throughout the process, the anonymity and confidentiality of the information were emphasized to minimize biases related to social desirability or acquiescence.

Ethical considerations

This project was approved by the ethics and research committees of the participating hospital (Act 006-002, 07/28/2020) and the National School of Public Health at the Universidad de Antioquia (Act No. 228, 02/21/2020), in compliance with regulations for research involving human subjects. Informed consent was obtained and applied digitally. No cases of consent withdrawal occurred during the study.

Results

Sample description

A total of 377 healthcare workers from the hospital completed the questionnaire. Of these, 78% were women and 22% were men, with a median age of 36 years (IQR= 29-44; min= 20; max= 66). Nursing assistants represented 41.6%, followed by other care professionals (22.3%), nurses (16.4%), general practitioners (12.7%), and specialists (6.9%). Regarding their work areas, 26.3% worked in hospitalization, 26.0% in intensive care, 20.4% in emergency care, 13.3% in surgery, 4.7% in imaging, and 9.3% in other units.

Regarding employment conditions, 65.7% were unionized, 24.2% had permanent contracts, and the rest varied between interns, service contracts, and mixed arrangements. The majority (67.0%) had more than 5 years of experience, and 32.0% had worked at the hospital for more than 5 years. The rest were distributed among those with 1-5 years of experience and those with less than one year.

Modification of response options

The response options presented to the expert panel were as follows:

  1. Never, almost never, sometimes, almost always, and always.

  2. Never, almost never, rarely, sometimes, almost always, and always.

  3. Never, rarely, occasionally, frequently, and always.

The first proposal received the highest average rating of 4.2, with 100% of the judges agreeing on this option. Thus, the new version was defined with a unipolar Likert-type response scale of 5 options, ranging from "never" to "always."

Internal consistency

Table 1 shows the inter-item correlations of the MBI-HSS. In the emotional fatigue subscale, correlations did not exceed 0.7. In the personal accomplishment subscale, most correlations ranged between 0.2 and 0.4, except for items 12 and 21, which had a correlation of 0.18. In the depersonalization subscale, several correlations were below 0.2, suggesting potential inconsistencies in the measurement of these items.

Table 1. Correlations between items of the MBI-HSS, subscale by subscale (Spearman’s Rho).

Emotional Fatigue
Items 1 2 3 6 8 13 14 16 20
1 1                
2 0.57 1              
3 0.49 0.48 1            
6 0.26 0.28 0.38 1          
8 0.64 0.49 0.53 0.39 1        
13 0.44 0.3 0.41 0.31 0.55 1      
14 0.54 0.48 0.48 0.33 0.6 0.41 1    
16 0.42 0.26 0.4 0.47 0.42 0.36 0.34 1  
20 0.45 0.38 0.49 0.36 0.54 0.49 0.4 0.4 1
Personal Accomplishment
Items 4 7 9 12 17 18 19 21  
4 1                
7 0.33 1              
9 0.21 0.36 1            
12 0.31 0.24 0.31 1          
17 0.24 0.32 0.35 0.24 1        
18 0.31 0.3 0.38 0.31 0.48 1      
19 0.3 0.35 0.33 0.35 0.22 0.35 1    
21 0.23 0.29 0.28 0.19 0.31 0.29 0.3 1  
Depersonalization
Items 5 10 11 15 22        
5 1                
10 0.23 1              
11 0.12 0.38 1            
15 0.2 0.17 0.15 1          
22 0.22 0.19 0.34 0.14 1        

Table 2 details the item-total correlations, Cronbach’s alpha for each subscale, and its variation when items were removed. The emotional fatigue subscale showed robust internal consistency with an alpha of 0.87 and moderate to high item-subscale correlations. The personal accomplishment subscale had an alpha of 0.77, indicating good consistency, and moderate item-subscale correlations. On the other hand, the depersonalization subscale had an alpha of 0.45, reflecting insufficient internal consistency. Although item-subscale correlations were moderate, inter-item correlations were low. Excluding item 15, which had the lowest correlation with other items in the subscale, increased the alpha, but it did not reach a satisfactory level of internal consistency.

Table 2. Cronbach’s alpha for the MBI-HSS subscales.

Items Sign Item-test corr. Item-rest corr. Interitem corr. Alpha variation
Emotional Fatigue (EF)
1 + 0.76 0.69 0.36 0.85
2 + 0.67 0.58 0.39 0.86
3 + 0.74 0.65 0.36 0.85
6 + 0.54 0.43 0.42 0.87
8 + 0.83 0.76 0.34 0.84
13 + 0.67 0.57 0.38 0.86
14 + 0.74 0.65 0.36 0.85
16 + 0.61 0.5 0.4 0.86
20 + 0.72 0.64 0.37 0.85
Alpha subscale 0.87
Personal Accomplishment (PA)
4 + 0.56 0.43 0.24 0.75
7 + 0.61 0.47 0.22 0.75
9 + 0.68 0.54 0.21 0.74
12 + 0.54 0.39 0.23 0.76
17 + 0.63 0.48 0.22 0.75
18 + 0.72 0.59 0.2 0.73
19 + 0.62 0.49 0.22 0.74
21 + 0.58 0.41 0.22 0.76
Alpha subscale 0.77
Depersonalization (D)
5 + 0.45 0.2 0.18 0.42
10 + 0.63 0.28 0.12 0.36
11 + 0.65 0.32 0.11 0.32
15 + 0.52 0.13 0.19 0.48
22 + 0.52 0.28 0.16 0.38
Alpha subescala 0.45

Structural validity

Figure 1 shows the results of the CFA applied to the MBI-HSS. Although the fit was acceptable, it was not considered optimal. The fit indices were: CFI= 0.964; TLI= 0.960; NFI= 0.913; RFI= 0.903; GFI= 0.951; AGFI= 0.940; RMSEA= 0.043 (90% CI: 0.071-0.085); SRMR= 0.071, and p= 0.000.

Figure 1. Structural equation model from the confirmatory factor analysis of the MBI-HSS.

Figure 1

Figure 1 reveals a direct and strong relationship between emotional fatigue and depersonalization (0.84). In contrast, the relationship between emotional fatigue and personal accomplishment was inverse and weak (-0.30). The connection between personal accomplishment and depersonalization was indirect, weak, and non-significant (p ≥0.05), suggesting that the personal accomplishment subscale does not have a relevant correlation with the other two. It is important to note that the factor loading items in the depersonalization subscale ranged from very low to moderate. Items 5 and 15, in particular, were not significant and had unique measurement errors of 1.0 and 0.99, respectively, indicating that 0% and only 1% of their variance was due to the latent factor. This suggests that these items may not be reliable indicators of the depersonalization construct 33.

Given these findings, an alternative model was explored, excluding the personal accomplishment subscale and items 5 and 15 from the depersonalization subscale (SEM Figure A in Appendix 3). This modification yielded superior fit indices: CFI= 0.999; TLI= 0.999; NFI= 0.982; RFI= 0.977; GFI= 0.989; AGFI= 0.984; RMSEA= 0.000 (90% CI: 0.000-0.033); SRMR= 0.048, and p=0.477. With this adjustment, the model demonstrated excellent fit, and all proposed relationships in the model were significant. Additionally, the relationship between the two remaining subscales was direct and very strong (0.84).

Item functioning

Table 3 presents the results of item discrimination and difficulty thresholds for the response options in the emotional fatigue and depersonalization subscales. Most items showed discrimination values within the expected range, with the exception of item 8, which slightly exceeded the limit but did not significantly affect the subscale. However, certain items, such as 4 and 17, showed overlapping and reversed thresholds in their response options, which was more evident in the Item Characteristic Curves (Appendix 4 and 5).

Table 3. Item discrimination and difficulty (thresholds) of response options for the MBI-HSS.

Items Discrimination (a) b1 (2 vs 1) b2 (3 vs 2) b3 (4 vs 3) b4 (5 vs 4)
Emotional Fatigue
1 2.36 -0.79 -0.48 1.88 2.39
2 1.42 -1.59 -1.51 1.38 2.25
3 1.35 -0.1 0.38 2.04 3.15
6 0.71 1.57 1.52 4.73 1.53
8 2.71 -0.1 0.11 1.73 1.95
13 1.08 0.7 0.46 3.34 2.15
14 1.31 -0.08 -0.48 2.29 1.98
16 0.78 0.66 0.86 4.16 2.35
20 1.44 0.72 0.64 2.72 2.08
Personal Accomplishment
4 1.03 -1.33 -3.74 -2.07 -0.19
7 1.08 -1.14 -2.18 -2.18 0.27
9 1.18 -1.19 -2.41 -1.32 0.22
12 0.84 -2.02 -3 -1.61 0.31
17 1.34 -0.81 -2.45 -1.47 0.61
18 1.65 -1.19 -2.25 -0.75 0.58
19 1.16 -2.14 -2.22 -1.84 -0.79
21 0.67 -0.57 -3.3 -1.74 0.45

In the emotional fatigue subscale, response thresholds tended to cluster at high trait values, with overlapping and reversed thresholds in items such as 6 and 16. The responses "almost never" and "almost always" were rarely selected, with "never" being the predominant option. On the other hand, in the personal accomplishment subscale, the most frequent responses were "always" and "almost always." The options "never," "almost never," and "sometimes" for items 4, 17, 19, and 21 showed overlaps without a clear gradient. The depersonalization subscale did not yield discrimination, and difficulty results due to convergence issues, possibly due to marked response tendencies. A frequency analysis revealed a preference for the options "never" and "almost never," especially in items 5, 15, and 22, suggesting a measurement bias, possibly due to social desirability.

Figures 2 and 3 show the Item Information Functions (IIFs) and Test Information Functions (TIFs) for both subscales. In the emotional fatigue subscale, several items had low discrimination ability, showing better discrimination at high trait levels. In the personal accomplishment subscale, items tended to discriminate better at low trait levels. Both subscales lacked good discrimination at intermediate trait levels. The TIF figures support these findings, highlighting limitations in the reliability of the test.

Figure 2. Item information functions for the Emotional Fatigue and Personal Accomplishment subscales of the MBI-HSS.

Figure 2

Figure 3. Test information functions for the Emotional Fatigue and Personal Accomplishment subscales of the MBI-HSS.

Figure 3

Discusión

The primary objective of this study was to determine the psychometric properties of the MBI-HSS after modifying its response options, addressing the suggestion made by the team that initially validated the instrument in Colombia 21. With the support of expert judges, a unipolar Likert-type response scale with five options ranging from "never" to "always" was defined. These options are widely used in questionnaires where responses imply a frequency of occurrence.

When conducting validity and reliability analyses, it was found that while the fit indices were acceptable, they were not optimal. This, combined with the low factor loadings and high measurement errors in two items of the depersonalization subscale, as well as the weak and non-significant relationship of the personal accomplishment subscale with the other two subscales, suggests that the model does not adequately fit the data and may have deficiencies in the theoretical model's adequacy. This is further supported by the fact that testing an alternative model without the personal accomplishment subscale and without items 5 and 15 resulted in an excellent fit, indicating that the data represent an underlying model different from the one originally proposed.

On the other hand, internal consistency revealed differences in the performance of the subscales. While the emotional fatigue subscale showed a high alpha of 0.87, the personal accomplishment subscale had a moderate value of 0.77, and the depersonalization subscale had a low value of 0.45. The correlations between items in the latter subscale were also low, indicating variability in the functioning of the subscales. This suggests that the way depersonalization is measured may not be reliable in our context.

This issue was previously highlighted by Kristensen et al. 11. In their study, they conducted a pilot test of this questionnaire with 70 healthcare workers. Participants noted the questions they found difficult to answer or had comments on. The results revealed that most negative comments were directed at questions related to depersonalization. Items 5 ("I feel I treat some patients as if they were objects") and 15 ("I don't really care what happens to some patients") generated negative reactions, even anger, among participants, which seems to also be happening in our context, as these items show measurement bias. Additionally, some questions about personal accomplishment were criticized for being "too American," such as "I feel I am positively influencing other people's lives through my work" and "I have accomplished many worthwhile things in this job." These findings align with the results of the study by Pando Moreno et al. 12 in Latin America, where the personal accomplishment subscale did not correlate with the other two and was placed in a separate dimension.

These concerns underscore the need to adapt the MBI-HSS to other languages, as the depersonalization and personal accomplishment subscales may present significant challenges due to cultural differences. For example, the perception of the doctor-patient relationship versus the doctor-client relationship may vary across cultures. Moreover, aspects considered important for a sense of personal accomplishment are also influenced by cultural context and may differ.

In the Colombian validation study, the CFA did not find a fit of the model to the original structure, so the researchers decided to conduct an exploratory factor analysis (EFA) and run a new model with a reorganization of items derived from the EFA. When performing a new CFA with this reorganization, they found an adequate but not optimal fit, which, combined with the low internal consistency of the depersonalization and personal accomplishment subscales, did not allow the research team to confidently assert that the measurement of burnout with this adapted version was entirely valid and reliable. Due to this, they recommended revising the response options, which they believed could be causing confusion among respondents due to their number, lack of familiarity in this culture, and some options not aligning well with the questions. For example, responding to "I easily understand how my patients feel" with a frequency scale that includes options like "Once a month or less" or "Once a week" does not seem coherent in our language and is not realistic for someone to recall if this happens a few times a year, once a month, or once a week 13.

In addition to the validation in Colombia, other Latin American countries have also conducted validation exercises for the MBI-HSS. In Argentina, the authors modified the wording of some items: in the CFA with the original structure, they did not find an adequate fit, so they removed item 12, which improved the fit and internal consistency of the subscales, with values between 0.7 and 0.9 34. In Mexico, a validation study with psychologists found an adequate fit of the model with the original structure, and internal consistencies similar to ours: high for personal accomplishment (0.81) and emotional fatigue (0.86) and low for depersonalization (0.53) 35. In the study conducted in Chile 36, the authors found that items 12, 13, 14, 20, and 21 had low factor loadings or loaded onto parallel dimensions, so they decided to remove them and test the fit with a three-factor model excluding these items. With these modifications, they found an adequate but not optimal fit (CFI= 0.91, RMSEA= 0.063, GFI= 0.93, and AGFI= 0.91).

Similarly, in Peru, items 1, 16, and 21 were removed to achieve an adequate fit of the model to the proposed three factors (CFI= 0.98, RMSEA= 0.046) 37. These authors highlight the fact that in different countries, some items are removed, the structure of the scales is modified, and yet the test is still considered valid and reliable. However, this compromises comparability with the original version and across multicenter studies. As they rightly state, "inferring the validity of the MBI-HSS compromises the ethics of the researcher and the inefficacy of using an instrument intended to identify a problem that requires clinical and psychosocial attention" 37. This is a critical point, as evaluating something as significant as burnout with an instrument whose validity and reliability have not been optimally verified could affect measurement accuracy, generate systematic research errors, and lead to incorrect decision-making.

Since this study modified the response options of the MBI-HSS, it was important to evaluate the functioning of the new proposed options. Thus, item difficulty and discrimination analyses were conducted. It was found that in the depersonalization subscale, the skewness was so pronounced in some items (5, 15, and 22) that it was not possible to determine the discrimination and difficulty of these items, supporting the arguments of Kristensen et al. 11. It seems that these types of questions generate such an emotional conflict that respondents either do not truly feel this way or find it difficult to accept that they might have reached a state where they see and treat their patients as "objects".

The items in the emotional fatigue and personal accomplishment subscales showed adequate discrimination values but significant overlaps in response options and underused or skewed options in some items (6, 16, 4, 17, 19, and 21). Overall, the scores help to discriminate individuals with high levels of exhaustion but are less effective for those with moderate levels.

Given these results, we cannot confirm that the modifications to the response options in this study resolved the measurement issues of the test. Therefore, considering the findings from other countries, the MBI-HSS, as currently designed, is not recommended for assessing burnout in our healthcare population.

These results imply that our understanding and conceptualization of burnout may differ from that originally proposed by Maslach & Jackson, as evidenced in other cultures. This suggests the need to review and adapt not only the instrument but also the very concept of burnout for our population. These findings invite reflection on the widespread use of this instrument despite its deficiencies in Latin American contexts, which could lead to systematic biases in measurements used for monitoring or research on this construct in our region. It is a call to action for the appropriate selection of instruments, moving beyond those that are frequently adopted due to their classic status but may have issues in their adaptations in our context, even in the conceptualization of the construct being measured.

Limitations and strengths

Although the sample was obtained through convenience sampling at a single institution, the findings reflect limitations of the MBI-HSS in the Colombian context, consistent with previous studies in the region. This suggests that the identified issues may not be exclusive to this sample, providing relevant evidence to reconsider its use in similar populations 38.

As strengths, this study stands out from other structural validation studies of the MBI-HSS due to the use of the diagonally weighted least squares (DWLS) estimation method. This method has been shown to offer superior parameters when dealing with categorical variables, as it employs polychoric correlations instead of Pearson correlations for estimation 29. When comparing the results of CFAs obtained with ML and MLM methods to those of this study, it is evident that the DWLS method provides optimal fit indices. This suggests that the estimates made with DWLS are more accurate and that the factor loadings or relationships identified between variables align better with the true nature of the data. Additionally, a preliminary simulation was conducted to determine the sample size, ensuring a sample with the necessary statistical power.

Conclusions

Even after modifying the response options of the MBI-HSS, limitations in structural validity, reliability, item discrimination, and response option difficulty were identified in the validation conducted among healthcare workers in our country. If some of its subscales are to be applied, the one that could best measure exhaustion among healthcare personnel is the emotional fatigue subscale.

Acknowledgments:

The researchers extend special thanks to each of the hospital staff who allowed us access to their facilities and supported the research by responding to the questionnaires, as well as to the scientific and research teams who assisted with logistical aspects and encouraged staff participation.

Appendix 1.

Appendix 1. Study variables.

Variable Definition Level of Measurement Operational Level
Sex Biological and physiological characteristics that define males and females. Qualitative l 1= Female
nomina 2= Male
Age The length of time a person or other living being has lived since birth. Quantitative Years
discrete
Age ranges Age ranges defined according to the WHO classification. Qualitative l 1= 18 to 26
2= 27 to 59
ordina 3= 60 or more
Care unit The hospital care unit where the healthcare worker is employed. Qualitative 1= Hospitalization
2= Hospitalization, gynecology, and delivery room
3= Surgery
nominal 4= Surgery
5= Intensive Care Unit (ICU)
6= Other
Occupation The specific occupational activity performed by the workers at the institution, for which they received formal training. Qualitative 1= Nursing assistant
2= Nurse
nominal 3= General practitioner
4= Specialist physician
5= Other care professions
Weekly working hours The average weekly time, in hours, that the worker dedicates to their job at the HUN or other institutions. Qualitative 1= Less than 40
2= 40 to 59
ordinal 3= 60 to 79
4= 80 or more
Type of contract The type of employment contract under which the worker performs their duties in the institution. Qualitative 1= Unionized
2= Service provision
3= Permanent contract
nominal 4= Mixed contract
5= Intern/Resident
Work experience The length of time the worker has been employed in their current occupation since graduation. Qualitative 1= Less than 6 months
2= Between 6 months and 1 year
ordinal 3= Between 1 and 3 years
4= Between 3 and 5 years
5= More than 5 years
Experience in the unit The length of time the worker has been employed in their current occupation within the unit where they work at the hospital. Qualitative 1= Less than 6 months
2= Between 6 months and 1 year
3= Between 1 and 3 years
ordinal 4= Between 3 and 5 years
5= More than 5 years
Works at another institution The employment situation of the worker, indicating whether they also work at another healthcare institution in addition to the hospital. Qualitative 0= No
nominal 1= Yes
MBI-HSS items scores The responses given by participants to each item of the Maslach Burnout Inventory - Human Services Survey (MBI-HSS). Qualitative ordinal To be defined, they will be modified in this study.

Appendix 2.

Specialist Physicians

●Luz María Gómez

Anesthesiologist

Over 15 years of experience

Medical Advisory Submanager, Colombian Society of Anesthesiology and Resuscitation (S.C.A.R.E.)

●Darling Carvajal Duque

Specialist in Critical Care Medicine and Pediatric Intensive Care

Over 15 years of experience

Coordinator, Pediatric Intensive Care Unit, Hernando Moncaleano Perdomo University Hospital, Neiva

●Miguel Andrés Bayona Ospina

Pediatric Palliative Care Specialist

Over 10 years of experience

Pediatric Palliative Care Specialist, Hernando Moncaleano Perdomo University Hospital, Neiva

●Juan Pablo Zapata Ospina

Physician and Surgeon, Specialist in Psychiatry, MSc in Clinical Epidemiology

Over 10 years of experience

Medical Studies Committee, Alma Máter Hospital de Antioquia

●Néstor Daniel Ramírez Borrero

Physician - Master’s in Bioethics

Over 15 years of experience

Clinical Bioethicist, Hernando Moncaleano Perdomo University Hospital, Neiva

General Practitioner:

●Diana Carolina Caicedo Sánchez

Over 5 years of experience

General Practitioner, Adult Intensive Care Unit, Bucaramanga Emergency Clinic

Specialist Nurse:

●Aura María Díaz Arguello

Over 10 years of experience

Head Nurse, Oncology Specialist, Head of Surgery Rooms, National Cancer Institute

Psychometrician:

●Claudia Marcela Vélez

Over 15 years of experience

Physician, Specialist, MSc, PhD in Health Policy

Professor, Faculty of Medicine, University of Antioquia

Specialist Psychologists:

●Yudy del Pilar González Gama

Over 5 years of experience

Specialist Psychologist

Professional Verifier, Subdirectorate of Inspection, Surveillance, and Control of Health

Services - Quality Subdirectorate

●Freddy Alejandro Barrero G.

Over 5 years of experience

Specialist Psychologist

Specialized Professional - Quality and Humanization Area

Appendix 3.

Figure A. Alternative structural equation model for the MBI-HSS.

Figure A

Appendix 4.

Figure B. Item characteristic curves for the Emotional Fatigue subscale.

Figure B

Figure C. Item characteristic curves for the Personal Accomplishment subscale.

Figure C

Funding Statement

his research was funded by the Ministry of Science, Technology, and Innovation of Colombia, under the 2016 call for 757 national doctoral scholarships, and by the Universidad de Antioquia

Notes:

Funding: his research was funded by the Ministry of Science, Technology, and Innovation of Colombia, under the 2016 call for 757 national doctoral scholarships, and by the Universidad de Antioquia.

Data Availability: The data used in this research are available and can be requested from the corresponding author

References

  • 1.1. Maslach C, Schaufeli WB, Leiter MP. Job burnout. Annual review of psychology. 2001;52(1):397-422. Doi: 10.1146/annurev.psych.52.1.397 [DOI] [PubMed]; Maslach C, Schaufeli WB, Leiter MP. Job burnout. Annual review of psychology. 2001;52(1):397–422. doi: 10.1146/annurev.psych.52.1.397. [DOI] [PubMed] [Google Scholar]
  • 2.2. Al-Ghunaim TA, Johnson J, Biyani CS, Alshahrani KM, Dunning A, O'Connor DB. Surgeon burnout, impact on patient safety and professionalism: A systematic review and meta- analysis. Am J Surg. 2022; 224(1, Part A): 228-238. Doi: 10.1016/j.amjsurg.2021.12.027. [DOI] [PubMed]; Al-Ghunaim TA, Johnson J, Biyani CS, Alshahrani KM, Dunning A, O'Connor DB. Surgeon burnout, impact on patient safety and professionalism: A systematic review and meta- analysis. Am J Surg. 2022;224(1, Part A):228–238. doi: 10.1016/j.amjsurg.2021.12.027. [DOI] [PubMed] [Google Scholar]
  • 3.3. Jun J, Ojemeni MM, Kalamani R, Tong J, Crecelius ML. Relationship between nurse burnout, patient and organizational outcomes: Systematic review. Internat J Nursing Studies. 2021; 119: 103933. Doi: 10.1016/j.ijnurstu.2021.103933 [DOI] [PubMed]; Jun J, Ojemeni MM, Kalamani R, Tong J, Crecelius ML. Relationship between nurse burnout, patient and organizational outcomes Systematic review. Internat J Nursing Studies. 2021;119:103933–103933. doi: 10.1016/j.ijnurstu.2021.103933. [DOI] [PubMed] [Google Scholar]
  • 4.4. Maslach C, Jackson SE. The measurement of experienced burnout. J Organizational Behavior. 1981; 2(2): 99-113.; Maslach C, Jackson SE. The measurement of experienced burnout. J Organizational Behavior. 1981;2(2):99–113. [Google Scholar]
  • 5.5. Gil-Monte PR. Factorial validity of the Maslach Burnout Inventory (MBI-HSS) among Spanish professionals. Rev Saúde Pública. 2005; 39(1): 1-8. doi: 10.1590/s0034-89102005000100001 [DOI] [PubMed]; Gil-Monte PR. Factorial validity of the Maslach Burnout Inventory (MBI-HSS) among Spanish professionals. Rev Saúde Pública. 2005;39(1):1–8. doi: 10.1590/s0034-89102005000100001. [DOI] [PubMed] [Google Scholar]
  • 6.6. Gil-Monte PR, Zuñiga-Caballero LC. Validez factorial del “Cuestionario para la Evaluación del Síndrome de Quemarse por el Trabajo” (CESQT) en una muestra de médicos mexicanos. Universitas Psychologica, 2010; 9(1): 169-178. Doi: 10.11144/Javeriana.upsy9-1.vfce; Gil-Monte PR, Zuñiga-Caballero LC. Validez factorial del “Cuestionario para la Evaluación del Síndrome de Quemarse por el Trabajo” (CESQT) en una muestra de médicos mexicanos. Universitas Psychologica. 2010;9(1):169–178. doi: 10.11144/Javeriana.upsy9-1.vfce. [DOI] [Google Scholar]
  • 7.7. Portoghese I, Leiter MP, Maslach C, Galletta M, Porru F, D'Aloja E, et al. Measuring Burnout among university students: factorial validity, invariance, and latent profiles of the italian version of the Maslach Burnout Inventory Student Survey (MBI-SS). Frontiers Psychol. 2018; 9: 2105. Doi: 10.3389/fpsyg.2018.02105 [DOI] [PMC free article] [PubMed]; Portoghese I, Leiter MP, Maslach C, Galletta M, Porru F, D'Aloja E, et al. Measuring Burnout among university students: factorial validity, invariance, and latent profiles of the italian version of the Maslach Burnout Inventory Student Survey (MBI-SS) Frontiers Psychol. 2018;9:2105. doi: 10.3389/fpsyg.2018.02105. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 8.8. Matejic B, Milenovic M, Kisic Tepavcevic D, Simic D, Pekmezovic T, Worley JA. Psychometric properties of the serbian version of the maslach burnout inventory-human services survey: a validation study among anesthesiologists from Belgrade Teaching Hospitals. Scient World J. 2015; 2015: 903597. Doi: 10.1155/2015/903597 [DOI] [PMC free article] [PubMed]; Matejic B, Milenovic M, Kisic Tepavcevic D, Simic D, Pekmezovic T, Worley JA. Psychometric properties of the serbian version of the maslach burnout inventory-human services survey: a validation study among anesthesiologists from Belgrade Teaching Hospitals. Scient World J. 2015;2015:903597. doi: 10.1155/2015/903597. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 9.9. Khani MH, Mohammadi M, Anvari F, Farsi M. Students School Burnout Inventory: Development, Validation, and Reliability of Scale. Internat J School Health. 2018; 5(1): p. 1-6. Doi: 10.5812/intjsh.57594; Khani MH, Mohammadi M, Anvari F, Farsi M. Students School Burnout Inventory Development, Validation, and Reliability of Scale. Internat J School Health. 2018;5(1):p–p. doi: 10.5812/intjsh.57594. [DOI] [Google Scholar]
  • 10.10. Bria M, Spânu F, Baban A, Dumitrascu DL. Maslach burnout inventory-general survey: factorial validity and invariance among Romanian healthcare professionals. Burn Res. 2014;1(3):103-111. Doi: 10.1016/j.burn.2014.09.001; Bria M, Spânu F, Baban A, Dumitrascu DL. Maslach burnout inventory-general survey factorial validity and invariance among Romanian healthcare professionals. Burn Res. 2014;1(3):103–111. doi: 10.1016/j.burn.2014.09.001. [DOI] [Google Scholar]
  • 11.11. Kristensen TS, Borritz M, Villadsen E, Christensen KB. The Copenhagen Burnout Inventory: A new tool for the assessment of burnout. Work Stress. 2005;19(3):192-207. Doi: 10.1080/02678370500297720; Kristensen TS, Borritz M, Villadsen E, Christensen KB. The Copenhagen Burnout Inventory A new tool for the assessment of burnout. Work Stress. 2005;19(3):192–207. doi: 10.1080/02678370500297720. [DOI] [Google Scholar]
  • 12.12. Pando MM, Aranda BC, López PMdR. Validez factorial del Maslach Burnout Inventory-General Survey en ocho países latinoamericanos. Ciencia Trabajo. 2015; 17(52): 28-31. Doi: 10.4067/S0718-24492015000100006; Pando MM, Aranda BC, López PMdR. Validez factorial del Maslach Burnout Inventory-General Survey en ocho países latinoamericanos. Ciencia Trabajo. 2015;17(52):28–31. doi: 10.4067/S0718-24492015000100006. [DOI] [Google Scholar]
  • 13.13. Córdoba L, Tamayo JA, González MA, Martínez MI, Rosales A, Barbato SH. Adaptation and validation of the Maslach Burnout inventory-human services survey in Cali, Colombia. Colomb Méd. 2011;42(3):286-293. Doi: 10.25100/cm.v42i3.874; Córdoba L, Tamayo JA, González MA, Martínez MI, Rosales A, Barbato SH. Adaptation and validation of the Maslach Burnout inventory-human services survey in Cali, Colombia. Colomb Méd. 2011;42(3):286–293. doi: 10.25100/cm.v42i3.874. [DOI] [Google Scholar]
  • 14.14. Ministerio de Salud. Resolución 2646: Por la cual se establecen disposiciones y se definen responsabilidades para la identificación, evaluación, prevención, intervención y monitoreo permanente de la exposición a factores de riesgo psicosocial en el trabajo y para la determinación del origen de las patologías causadas por el estrés ocupacional. Bogotá: Ministerio de Salud; 2008.; Ministerio de Salud . Resolución 2646: Por la cual se establecen disposiciones y se definen responsabilidades para la identificación, evaluación, prevención, intervención y monitoreo permanente de la exposición a factores de riesgo psicosocial en el trabajo y para la determinación del origen de las patologías causadas por el estrés ocupacional. Bogotá: Ministerio de Salud; 2008. [Google Scholar]
  • 15.15. Congreso de Colombia. Ley 1562 Por la cual se modifica el Sistema de Riesgos Laborales y se dictan otras disposiciones en materia de Salud Ocupacional. Bogotá: . Congreso de Colombia; 2012.; Congreso de Colombia . Ley 1562 Por la cual se modifica el Sistema de Riesgos Laborales y se dictan otras disposiciones en materia de Salud Ocupacional. Bogotá: Congreso de Colombia; 2012. [Google Scholar]
  • 16.16. COSMIN. Checklist for Assessing study qualities. Accessed: agosto 7 2018; s.f. https://www.cosmin.nl/tools/checklists-assessing-methodological-study-qualities/ ; COSMIN Checklist for Assessing study qualities. [august 7 2018]. s.f.. https://www.cosmin.nl/tools/checklists-assessing-methodological-study-qualities/
  • 17.17. Mokkink L, Terwee C, Patrick D, Alonso J, Strat-ford P, Knol D. International consensus on taxonomy, terminology, and definitions of measurement properties for health- related patient reported outcomes: results of the COSMIN study. J Clin Epidemiol. 2010; 63(7): 737-45. Doi: 10.1016/j.jclinepi.2010.02.006 [DOI] [PubMed]; Mokkink L, Terwee C, Patrick D, Alonso J, Strat-ford P, Knol D. International consensus on taxonomy, terminology, and definitions of measurement properties for health- related patient reported outcomes results of the COSMIN study. J Clin Epidemiol. 2010;63(7):737–745. doi: 10.1016/j.jclinepi.2010.02.006. [DOI] [PubMed] [Google Scholar]
  • 18.18. Ortiz MS, Fernández-Pera M. Modelo de ecuaciones estructurales: una guía para ciencias médicas y ciencias de la salud. Terapia Psicológica. 2018; 36(1): 51-57. Doi: 10.4067/s0718-48082017000300047; Ortiz MS, Fernández-Pera M. Modelo de ecuaciones estructurales una guía para ciencias médicas y ciencias de la salud. Terapia Psicológica. 2018;36(1):51–57. doi: 10.4067/s0718-48082017000300047. [DOI] [Google Scholar]
  • 19.19. Li C-H. The performance of ML, DWLS, and ULS estimation with robust corrections in structural equation models with ordinal variables. Psychological Methods. 2016; 21(3): 369. DOI: 10.1037/met0000093 [DOI] [PubMed]; Li C-H. The performance of ML, DWLS, and ULS estimation with robust corrections in structural equation models with ordinal variables. Psychological Methods. 2016;21(3):369–369. doi: 10.1037/met0000093. [DOI] [PubMed] [Google Scholar]
  • 20.20. Schreiber JB, Nora A, Stage FK, Barlow EA, King J. Reporting structural equation modeling and confirmatory factor analysis results: A review. J Educational Res. 2006; 99(6): 323-338. Doi: 10.3200/JOER.99.6.323-338; Schreiber JB, Nora A, Stage FK, Barlow EA, King J. Reporting structural equation modeling and confirmatory factor analysis results A review. J Educational Res. 2006;99(6):323–338. doi: 10.3200/JOER.99.6.323-338. [DOI] [Google Scholar]
  • 21.21. Guevara BLM, Ocampo AN. Propiedades psicométricas de confiabilidad y validez del Maslach Burnout Inventory-General Survey. Rev Interamericana Psicol Ocupac. 2016; 33(2): 128-142. DOI: 10.21772/ripo.v33n2a04; Guevara BLM, Ocampo AN. Propiedades psicométricas de confiabilidad y validez del Maslach Burnout Inventory-General Survey. Rev Interamericana Psicol Ocupac. 2016;33(2):128–142. doi: 10.21772/ripo.v33n2a04. [DOI] [Google Scholar]
  • 22.22. Escobar-Pérez J, Cuervo-Martínez A. Validez de contenido y juicio de expertos: una aproximación a su utilización. Avances Medición. 2008; 6: 27-36.; Escobar-Pérez J, Cuervo-Martínez A. Validez de contenido y juicio de expertos una aproximación a su utilización. Avances Medición. 2008;6:27–36. [Google Scholar]
  • 23.23. Cañadas I, Sánchez A. Categorías de respuesta en escalas tipo Likert. Psicothema. 1998; 10(3): 623-631.; Cañadas I, Sánchez A. Categorías de respuesta en escalas tipo Likert. Psicothema. 1998;10(3):623–631. [Google Scholar]
  • 24.24. Martínez R. Psicometría: Teoría de los test psicológicos y educativos. Síntesis; 1995.; Martínez R. Psicometría: Teoría de los test psicológicos y educativos. Síntesis; 1995. [Google Scholar]
  • 25.25. Brown FG. Principios de la medición en psicología y educación. Manual Moderno; 1980.; Brown FG. Principios de la medición en psicología y educación. Manual Moderno; 1980. [Google Scholar]
  • 26.26. De Vet HC, Terwee CB, Mokkink LB, Knol DL. Measurement in medicine: a practical guide. Cambridge University Press; 2011.; De Vet HC, Terwee CB, Mokkink LB, Knol DL. Measurement in medicine: a practical guide. Cambridge University Press; 2011. [Google Scholar]
  • 27.27. Rhemtulla M, Brosseau-Liard PÉ, Savalei V. When can categorical variables be treated as continuous? A comparison of robust continuous and categorical SEM estimation methods under suboptimal conditions. Psychological Methods. 2012; 17(3): 354. Doi: 10.1037/a0029315 [DOI] [PubMed]; Rhemtulla M, Brosseau-Liard PÉ, Savalei V. When can categorical variables be treated as continuous A comparison of robust continuous and categorical SEM estimation methods under suboptimal conditions. Psychological Methods. 2012;17(3):354–354. doi: 10.1037/a0029315. [DOI] [PubMed] [Google Scholar]
  • 28.28. Freiberg HA, Stover JB, de la Iglesia G, Fernández LM. Correlaciones policóricas y tetracóricas en estudios factoriales exploratorios y confirmatorios. Ciencias Psicológicas. 2013; 7(2): 151-164.; Freiberg HA, Stover JB. de la Iglesia G.Fernández LM Correlaciones policóricas y tetracóricas en estudios factoriales exploratorios y confirmatorios. Ciencias Psicológicas. 2013;7(2):151–164. [Google Scholar]
  • 29.29. Özdemir HF, Toraman Ç, Kutlu Ö. The use of polychoric and Pearson correlation matrices in the determination of construct validity of Likert type scales. Turkish J Education. 2019; 8(3): 180-195. Doi: 10.19128/turje.519235; Özdemir HF, Toraman Ç, Kutlu Ö. The use of polychoric and Pearson correlation matrices in the determination of construct validity of Likert type scales. Turkish J Education. 2019;8(3):180–195. doi: 10.19128/turje.519235. [DOI] [Google Scholar]
  • 30.30. de Ayala RJ. The theory and practice of item response theory. Guilford Publications; 2013.; de Ayala RJ. The theory and practice of item response theory. Guilford Publications; 2013. [Google Scholar]
  • 31.31. Embretson SE, Reise SP. Item response theory. Psychology Press; 2013.; Embretson SE, Reise SP. Item response theory. Psychology Press; 2013. [Google Scholar]
  • 32.32. Baker FB. The basics of item response theory. ERIC; 2001. [DOI] [PMC free article] [PubMed]; Baker FB. The basics of item response theory. ERIC; 2001. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 33.33. Bollen KA, Noble MD. Structural equation models and the quantification of behavior. Proceedings National Academy Sci. 2011; 108(supplement 3): 15639-15646. Doi: 10.1073/pnas.1010661108 [DOI] [PMC free article] [PubMed]; Bollen KA, Noble MD. Structural equation models and the quantification of behavior. Proceedings National Academy Sci. 2011;108(supplement 3):15639–15646. doi: 10.1073/pnas.1010661108. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 34.34. Gilla MA, Belén Giménez S, Moran VE, Olaz FO. Adaptación y validación del Inventario de Burnout de Maslach en profesionales argentinos de la salud mental. Liberabit. 2019;25(2):179-193. Doi: 10.24265/liberabit.2019.v25n2.04; Gilla MA, Belén Giménez S, Moran VE, Olaz FO. Adaptación y validación del Inventario de Burnout de Maslach en profesionales argentinos de la salud mental. Liberabit. 2019;25(2):179–193. doi: 10.24265/liberabit.2019.v25n2.04. [DOI] [Google Scholar]
  • 35.35. Lara RMM, Jiménez BM, Muñoz AR, Benadero MEM, Viveros GRO. Análisis factorial confirmatorio del MBI-HSS en una muestra de psicólogos mexicanos. Psicología Salud. 2008;18(1):107-116. Doi: 10.25009/pys.v18i1.681; Lara RMM, Jiménez BM, Muñoz AR, Benadero MEM, Viveros GRO. Análisis factorial confirmatorio del MBI-HSS en una muestra de psicólogos mexicanos. Psicología Salud. 2008;18(1):107–116. doi: 10.25009/pys.v18i1.681. [DOI] [Google Scholar]
  • 36.36. Olivares-Faúndez V, Mena-Miranda L, Jélvez-Wilker C, Macía-Sepúlveda F. Validez factorial del Maslach Burnout Inventory human services (MBI-HSS) en profesionales Chilenos. Universitas Psychologica. 2014;13(1):145-159. Doi: 10.11144/Javeriana.UPSY13-1.vfmb; Olivares-Faúndez V, Mena-Miranda L, Jélvez-Wilker C, Macía-Sepúlveda F. Validez factorial del Maslach Burnout Inventory human services (MBI-HSS) en profesionales Chilenos. Universitas Psychologica. 2014;13(1):145–159. doi: 10.11144/Javeriana.UPSY13-1.vfmb. [DOI] [Google Scholar]
  • 37.37. Calderón-De la Cruz GA, Merino-Soto CS. Análisis de la estructura interna del Maslach Burnout Inventory (Human Service Survey) en médicos peruanos. Rev Ciencias Salud. 2020; 18(2): 1-17. Doi: 10.12804/revistas.urosario.edu.co/revsalud/a.9275; Calderón-De la Cruz GA.Merino-Soto CS Análisis de la estructura interna del Maslach Burnout Inventory (Human Service Survey) en médicos peruanos. Rev Ciencias Salud. 2020;18(2):1–17. doi: 10.12804/revistas.urosario.edu.co/revsalud/a.9275. [DOI] [Google Scholar]
  • 38.38. Babbie ER. The practice of social research. Cengage learning; 2020.; Babbie ER. The practice of social research. Cengage learning; 2020. [Google Scholar]
Colomb Med (Cali). 2024 Sep 30;55(3):e2015818. [Article in Spanish]

Limitaciones del MBI-HSS en personal de salud colombiano: evaluación psicométrica tras la modificación de sus opciones de respuesta


Contribución del estudio

1) Por qué se realizó este estudio?
Dado que en el estudio de validación de la versión adaptada del MBI-HSS para nuestro país, los autores no lograron confirmar una confiabilidad y validez satisfactorias, y se vio la necesidad de eliminar ciertos ítems. Además, estos investigadores propusieron ajustar las opciones de respuesta como una posible solución para mejorar las propiedades psicométricas del instrumento. Con base en estas recomendaciones, se procedió a modificar la escala de respuesta y reevaluar las características psicométricas de la prueba.
2) Cuales fueron los resultados mas relevantes del estudio?
Aun modificando las opciones de respuesta del MBI-HSS se han identificado limitaciones en la validez estructural, confiabilidad, capacidad de discriminación y dificultad de las opciones de respuesta, de modo que no se recomienda el uso de esta escala para medir el burnout en personal de salud de nuestro país. De quererse aplicar algunas de sus subescalas, aquella que mejor podría medir el agotamiento en el personal de salud es la de fatiga emocional.
3) Que aportan estos resultados?
Estos resultados aportan una comprensión más profunda sobre la aplicabilidad y precisión del MBI-HSS en el contexto específico de nuestro país. Revelan áreas de mejora en el instrumento, especialmente en relación con ciertas subescalas e ítems. Además, resaltan la posibilidad de que nuestra comprensión y conceptualización del burnout pueda diferir de la propuesta originalmente por Maslach & Jackson, tal como se ha evidenciado en otras culturas. Esto sugiere la necesidad de revisar y adaptar no solo el instrumento, sino también el propio concepto de burnout para nuestra población. Invita también a hacer una reflexión sobre el amplio uso de este instrumento a pesar de sus deficiencias en nuestro contexto, lo que podría implicar sesgos sistemáticos en las mediciones que se realizan en procesos de seguimiento o investigación. Es un llamado de atención sobre la necesidad de una selección adecuada de instrumentos, que vaya más allá de usar aquellos que se han adoptado de forma más frecuente por considerarse los clásicos, pero en los cuales puede haber problemas en las adaptaciones en nuestro contexto, incluso desde la concepción del constructo a medir.

Introducción

El síndrome de burnout es un fenómeno psicológico caracterizado por agotamiento emocional, cinismo o despersonalización y una disminuida sensación de realización personal en el contexto laboral 1. Su presencia en profesionales de la salud ha generado preocupación, dado que no solo afecta el bienestar y calidad de vida de quienes lo padecen, sino que también puede comprometer la calidad de la atención brindada y, por ende, la seguridad del paciente 2,3.

El instrumento MBI (Maslach Burnout Inventory) ha sido uno de los más utilizados para evaluar el burnout 4. Este instrumento ha sido traducido a diferentes idiomas y se ha usado en diversos países y tipos de ocupaciones; entre estas las más comunes han sido educadores, estudiantes, policías o fuerzas militares y profesionales de la salud 5-9.

A pesar de su amplio uso, se han identificado problemas en su validación en diferentes contextos y culturas. En algunos estudios, se ha encontrado la misma estructura factorial de tres dimensiones propuesta originalmente por los autores, mientras que en otros se han identificado desde dos hasta cinco dimensiones 5,10. Además, ciertas preguntas del MBI han generado reacciones desfavorables en culturas diferentes a la norteamericana, lo que puede generar sesgos en la medición 11.

Este cuestionario fue validado al español, encontrándose una estructura de tres dimensiones. Sin embargo, se identificaron problemas con la dimensión realización personal, sugiriendo que podría estar compuesta por dos aspectos: auto competencia y componente existencial, donde el segundo no tendría tanta incidencia en la sensación de agotamiento 5. En Latinoamérica, Pando Moreno, et al. 12, realizaron un estudio de validación del MBI-GS en ocho países latinoamericanos, en el cual encontraron que la estructura factorial no coincidió con la original de tres dimensiones, sino que se encontró una estructura de dos factores, donde los ítems de despersonalización y agotamiento pertenecían al primer factor y los de realización personal a otro.

En Colombia, Córdoba, et al. 13, validaron el MBI-HSS en trabajadores de la salud. Aunque encontraron una buena consistencia interna de la escala en general, sugirieron eliminar dos ítems para mantener la estructura original de 3 factores. Los autores consideran que estas diferencias del instrumento pueden estar debidas a dificultades que encontraron en el funcionamiento de las opciones de respuesta.

En el ámbito nacional, se ha reconocido la necesidad de abordar los factores de riesgo psicosociales en el trabajo. La Resolución 2646 de 2008 del Ministerio de Protección establece la responsabilidad de las instituciones colombianas en la prevención, diagnóstico, intervención y control de estos factores 14. Esta iniciativa se complementó con la Ley 1562 de 2012, que modificó el Sistema General de Riesgos Laborales, enfocándose en la prevención de enfermedades laborales y accidentes relacionados con el trabajo 15 y la Resolución 2764 de 2022 del Ministerio del Trabajo, por la cual se adopta la batería de instrumentos para la evaluación de factores de riesgo psicosocial, y la guía técnica general para la promoción, prevención e intervención de los factores psicosociales y sus efectos en la población trabajadora. Estas directrices nacionales subrayan la importancia de contar con herramientas adecuadas para evaluar y abordar el agotamiento laboral en el contexto laboral colombiano; de modo que este proyecto surge como una respuesta proactiva a los desafíos identificados.

Dada la relevancia de medir el burnout en el personal de salud colombiano, y que es necesario para esto contar con instrumentos que cuenten con adecuados indicadores de validez y confiabilidad, este proyecto pretende responder: ¿Cuáles son las propiedades psicométricas de la prueba MBI-HSS para medir el burnout en personal de salud de Colombia, una vez se han modificado sus opciones de respuesta?

Materiales y Métodos

Para este estudio se siguieron las recomendaciones realizadas por el grupo COSMIN (COnsensus-based Standards for the selection of health Measurement Instruments) para la publicación de estudios de validación de instrumentos de medición en salud 16,17.

Diseño

Estudio analítico observacional de validación de instrumentos de medición.

Ámbito

Este estudio fue llevado a cabo en un hospital público de tercer nivel, descentralizado, que brinda servicios de salud de alta complejidad. Está ubicado en una ciudad capital intermedia, en la zona sur de Colombia. La toma de los datos se realizó entre el 1 de noviembre y el 31 de diciembre del 2022.

Sujetos

Se realizó un muestreo por conveniencia. Los criterios de inclusión fueron: trabajadores de la salud que brindaran atención asistencial en el hospital donde se realizó el estudio, durante el periodo de la toma de datos, y que aceptaran voluntariamente su participación en el estudio. Se excluyeron trabajadores administrativos.

El tamaño mínimo de la muestra se definió a partir de simulaciones de Monte Carlo, buscando establecer un modelo SEM robusto y confiable. Para estas se adoptó una carga factorial de 0,5 para las dimensiones de cada prueba, y una correlación esperada de 0,3 entre las subdimensiones, de acuerdo con los hallazgos de validaciones previas 5-9, y se especificó que se usaría el método de estimación de mínimos cuadrados ponderados diagonalmente (DWLS) 18,19. Se calcularon los siguientes índices de ajuste: Comparative Fit Index (CFI) y Tucker-Lewis Index (TLI), donde se esperan valores ≥0.95; y, Standardized Root Mean Squared Residual (SRMR) y Root Mean Square Error of Approximation (RMSEA), que son considerados significativos con valores inferiores a 0.06 y 0,08 respectivamente 20. Se realizaron pruebas los siguientes tamaños de muestra: 250, 300, 350 y 400. Se definió el tamaño de muestra óptimo de acuerdo con el mostró el mejor ajuste en las simulaciones, se encontró que desde 250 el ajuste fue excelente (CFI= 0.98; TLI= 0.98; RMSEA= 0.015; SRMR= 0.053), de modo que se estableció este como el mínimo, apuntando a un tamaño de muestra mayor, que permite minimizar los riesgos de no-convergencia y la aparición de casos Heywood.

Variables

Las principales variables de este estudio fueron

1. Burnout: serie de respuestas negativas hacia el trabajo, que se produce por una exposición prolongada a un ambiente laboral que es altamente demandante y está caracterizado por cansancio o agotamiento emocional, distanciamiento o cinismo, y sensación de falta de realización personal 1.

2. Datos demográficos: sexo, ocupación, edad, unidad o servicio en la que trabaja, tipo de vinculación laboral, tiempo de experiencia en la ocupación actual, tiempo laborando en la unidad, tipo de contratación y horas promedio de trabajo a la semana.

En el Anexo 1 se presenta la descripción detallada de todas las variables del estudio.

Instrumentos de medida

MBI-HSS: El Maslach Burnout Inventory - Human Services Survey está compuesto por 22 ítems que evalúan sentimientos y actitudes de los profesionales hacia su trabajo y sus pacientes. El formato de respuesta es tipo Likert unipolar con las siguientes opciones: nunca (0), unas pocas veces por año o menos (1), una vez al mes o menos (2), unas pocas veces por mes (3), una vez por semana (4), algunas veces por semana (5), y todos los días (6). Cuenta con 3 subescalas: Fatiga emocional con 9 ítems que evalúan el desgaste físico, agotamiento, y pérdida de energía; despersonalización con 5 ítems que evalúan aspectos negativos de los comportamientos y actitudes que involucran a otras personas (compañeros de trabajo y pacientes); y realización personal, con 8 ítems que evalúan emociones como la depresión, moral baja, evitación de las relaciones interpersonales y baja productividad. En la versión validada en Colombia se eliminaron dos ítems, quedando una versión de 20 ítems compuesta por las mismas 3 subescalas; en estas se encontraron consistencias internas entre intermedias a altas y una consistencia interna general adecuada 21.

Recolección de los datos

La información se obtuvo mediante un cuestionario en línea a través de Google Forms, con respuestas obligatorias para evitar formularios incompletos. Una de las investigadoras visitó las unidades de atención y explicó en pequeños grupos el propósito de la investigación, enfatizando la privacidad de la información y resolviendo inquietudes. A quienes aceptaron participar, se envió un enlace al formulario de consentimiento, que tras su aceptación redirigía automáticamente al cuestionario. Además, luego de las sesiones informativas, el enlace se distribuyó por correo electrónico y grupos de WhatsApp de cada departamento.

Análisis de los datos

Modificación opciones de respuesta

Se realizó un consenso entre expertos siguiendo la metodología de Delphi modificado, aplicando la técnica de agregados individuales 22; para esto se convocaron 10 profesionales con más de 5 años de experiencia en atención en salud o en formación en salud (5 médicos especialistas, 1 médico general, 1 enfermera especialista, 1 psicómetra y 2 psicólogos especialistas), el equipo de expertos y sus perfiles se presentan en el Anexo 2. A este grupo se le solicitó realizar una revisión de las nuevas opciones de respuesta del MBI-HS, las cuales se basaron en el estudio realizado Cañadas & Sánchez 23 sobre categorías de respuesta recomendadas en escalas tipo likert. Se enviaron 3 propuestas de modificación para que calificaran cada una con un valor entre 1 (Totalmente en desacuerdo con esas opciones de respuesta) y 5 (Totalmente de acuerdo con esas opciones de respuesta). Se seleccionó la opción promedio entre los jueces fuese el más alto, y que al consultarlo con todos lograra un 100% de acuerdo.

Consistencia interna

Se midió la consistencia interna por medio de la matriz de correlación inter-ítems, la correlación de cada pregunta con su dominio (subescala); además se calculó el coeficiente Alfa de Cronbach para cada subescala de la prueba, incluyendo el cálculo del Alpha cuando se elimina cada uno de los ítems. El Alpha de se incrementa a medida que crecen las intercorrelaciones entre los ítems de la prueba 24,25; los valores deseables para este coeficiente están entre 0.7 y 0.9 26. En la matriz de correlación inter-ítems las correlaciones deben estar entre 0.2 y 0.5 para ser aceptables 26. Por su parte, en la correlación ítem-total se esperan valores entre 0.3 y 0.7.

Validez de constructo estructural

Dado que la estructura original del instrumento se conoce, se realizó un Análisis Factorial Confirmatorio (AFC), probando el modelo teórico que representa la estructura original del instrumento, a partir de un modelo de ecuaciones estructurales; el modelo a probar tuvo en cuenta que los autores originales proponen una interrelación entre las tres subescalas. Se calcularon los siguientes índices de ajuste: Comparative Fit Index (CFI), Tucker-Lewis inndex(TLI), Normed Fit Index (NFI), y Relative Fit Index (RFI), Goodness of Fit Index (GFI), Adjusted Goodness of Fit Index (AGFI) cuyos valores iguales o mayores a 0.95 se consideran como indicadores de buen ajuste; y Root Mean Square Error of Approximation (RMSEA) y Standardized Root Mean Squared Residual (SRMR), que se consideran indicadores de buen ajuste con valores inferiores a 0.06 y 0.08 respectivamente 20. El modelo se calculó con el método de estimación mínimos cuadrados ponderados diagonalmente (DWLS, por sus siglas en inglés), el cual es el que ha mostrado mejor funcionamiento en AFCs confirmatorios cuando los ítems tienen un tipo de respuesta ordinal 27, y que utiliza correlaciones policóricas para su cálculo 28,29.

Funcionamiento de los ítems

Se evaluó el funcionamiento de los ítems haciendo uso del modelo de créditos parciales generalizados, el cual es una extensión del modelo Rasch, y es usado para el análisis de ítems con opciones de respuesta politómicas 30. Se asumió unidimensionalidad al interior de cada subescala dado que, desde la propuesta teórica, cada una está evaluando una dimensión diferente del constructo general.

Se calcularon la discriminación de los ítems (a) y los umbrales de dificultad de las opciones de respuesta (b); análisis que permite evaluar la probabilidad de que cada una de las opciones de respuesta sea respaldada (seleccionada) por los sujetos según el nivel del atributo o rasgo que se está midiendo 31; los valores entre 0.65 y 2.5 indicarían adecuada discriminación 30,32. Además de esto, se evaluó el funcionamiento de las opciones de respuesta de los ítems a partir de las gráficas de las curvas características de las categorías.

Se realizaron los gráficos de la Función de información de los Ítems (IIFs), que permiten evaluar la calidad de los ítems de la prueba en términos de su capacidad para medir la habilidad de los individuos con precisión 31, y de la Función de Información del Test (TIF) para cada subescala, los cuales muestran la relación entre la habilidad de los individuos y la cantidad de información que proporciona la subescala en su conjunto, en ese punto de habilidad 31.

Control de sesgos

La recolección de datos estuvo a cargo de la investigadora, especializada en la aplicación de instrumentos de medición. Durante el proceso, enfatizó la anonimidad y confidencialidad de la información, con el objetivo de minimizar sesgos relacionados con la deseabilidad social o la aquiescencia.

Consideraciones éticas

Este proyecto fue aprobado por los comités de ética e investigación del hospital participante (Acta 006-002, 28/07/2020) y la Facultad Nacional de Salud Pública de la Universidad de Antioquia (Acta No 228, 21/02/2020), cumpliendo las normas de investigación con humanos. El consentimiento informado se obtuvo y aplicó digitalmente. No se presentaron casos de retiro del consentimiento durante el estudio.

Resultados

Descripción de la muestra

Un total de 377 trabajadores de salud del hospital completaron el cuestionario. De ellos, el 78% eran mujeres y el 22% hombres, con una mediana de edad de 36 años (RIQ= 29-44; mín.= 20; máx.= 66). Los auxiliares de enfermería representaron el 41.6%, seguidos de otras profesiones asistenciales (22.3%), enfermeros (16.4%), médicos generales (12.7%) y especialistas (6.9%). En relación con sus áreas de trabajo, el 26.3% laboraba en hospitalización, 26.0% en cuidados intensivos, 20.4% en urgencias, 13.3% en cirugía, 4.7% en imagenología y 9.3% en otras unidades.

Sobre las condiciones laborales, el 65.7% estaban agremiados, el 24.2% tenían contrato fijo y el resto variaba entre internos, contratos de prestación y mixtos. La mayoría (67.0%) tenía más de 5 años de experiencia, y el 32.0% había trabajado más de 5 años en el hospital. El resto se distribuyó entre aquellos con 1-5 años de experiencia y aquellos con menos de un año.

Modificación opciones de respuesta

Las opciones de respuesta presentadas al panel de expertos fueron las siguientes:

  1. 1. Nunca, casi nunca, algunas veces, casi siempre y siempre.

  2. 2. Nunca, casi nunca, raras veces, algunas veces, casi siempre y siempre.

  3. 3. Nunca, raramente, ocasionalmente, con frecuencia, siempre.

La primera propuesta obtuvo el mayor promedio de calificación con 4.2 y el 100% de los jueces estuvo de acuerdo con esta opción, de esta forma la nueva versión quedó definida con tipo de respuesta Likert unipolar de 5 opciones, desde nunca hasta siempre.

Consistencia interna

La Tabla 1 muestra las correlaciones inter-ítems del MBI-HSS. En la subescala de fatiga emocional, las correlaciones no excedieron 0.7. En realización personal, la mayoría osciló entre 0.2 y 0.4, excepto los ítems 12 y 21 con una correlación de 0.18. En despersonalización, varias correlaciones fueron inferiores a 0.2, sugiriendo posibles incongruencias en la medición de esos ítems.

Tabla 1. Correlaciones entre los ítems de la prueba MBI-HSS, subescala por subescala (Rho de Spearman).

Fatiga Emocional
Ítems 1 2 3 6 8 13 14 16 20
1 1                
2 0.57 1              
3 0.49 0.48 1            
6 0.26 0.28 0.38 1          
8 0.64 0.49 0.53 0.39 1        
13 0.44 0.3 0.41 0.31 0.55 1      
14 0.54 0.48 0.48 0.33 0.6 0.41 1    
16 0.42 0.26 0.4 0.47 0.42 0.36 0.34 1  
20 0.45 0.38 0.49 0.36 0.54 0.49 0.4 0.4 1
Realización Personal
Ítems 4 7 9 12 17 18 19 21  
4 1                
7 0.33 1              
9 0.21 0.36 1            
12 0.31 0.24 0.31 1          
17 0.24 0.32 0.35 0.24 1        
18 0.31 0.3 0.38 0.31 0.48 1      
19 0.3 0.35 0.33 0.35 0.22 0.35 1    
21 0.23 0.29 0.28 0.19 0.31 0.29 0.3 1  
Despersonalización
Ítems 5 10 11 15 22        
5 1                
10 0.23 1              
11 0.12 0.38 1            
15 0.2 0.17 0.15 1          
22 0.22 0.19 0.34 0.14 1        

La Tabla 2 detalla las correlaciones ítem-test, los Alfa de Cronbach por subescala y su variación al eliminar ítems. La subescala de fatiga emocional tiene una consistencia interna robusta con un Alfa de 0.87 y correlaciones ítem-subescala moderadas a altas. La subescala de realización personal registró un Alfa de 0.77, indicando buena consistencia, y correlaciones ítem-subescala moderadas. Por otro lado, la subescala despersonalización presentó un Alpha de 0,45, reflejando una consistencia interna insuficiente. Aunque las correlaciones ítem-subescala son moderadas, las inter-ítem son bajas. Al excluir el ítem 15, que tiene la correlación más baja con los demás ítems de la subescala, el Alpha aumenta, pero no alcanza un nivel de consistencia interna satisfactorio.

Tabla 2. Alfa de Cronbach de las subescalas del MBI-HSS.

Ítems Signo Correlación Ítem-test Correlación Ítem-rest Correlación Inter-Ítem Alpha si se elimina el elemento
Fatiga Emocional
1 + 0.76 0.69 0.36 0.85
2 + 0.67 0.58 0.39 0.86
3 + 0.74 0.65 0.36 0.85
6 + 0.54 0.43 0.42 0.87
8 + 0.83 0.76 0.34 0.84
13 + 0.67 0.57 0.38 0.86
14 + 0.74 0.65 0.36 0.85
16 + 0.61 0.5 0.4 0.86
20 + 0.72 0.64 0.37 0.85
Alpha subescala 0.87
Realización Personal
4 + 0.56 0.43 0.24 0.75
7 + 0.61 0.47 0.22 0.75
9 + 0.68 0.54 0.21 0.74
12 + 0.54 0.39 0.23 0.76
17 + 0.63 0.48 0.22 0.75
18 + 0.72 0.59 0.2 0.73
19 + 0.62 0.49 0.22 0.74
21 + 0.58 0.41 0.22 0.76
Alpha subescala 0.77
Despersonalización
5 + 0.45 0.2 0.18 0.42
10 + 0.63 0.28 0.12 0.36
11 + 0.65 0.32 0.11 0.32
15 + 0.52 0.13 0.19 0.48
22 + 0.52 0.28 0.16 0.38
Alpha subescala 0.45

Validez de constructo estructural

La Figura 1 muestra los resultados del Análisis Factorial Confirmatorio aplicado al MBI-HSS. Aunque el ajuste fue aceptable, no se consideró óptimo. Los indicadores de ajuste fueron: CFI= 0.964; TLI= 0.960; NFI= 0.913; RFI= 0.903; GFI= 0.951; AGFI= 0.940; RMSEA= 0.043 (IC 90%: 0.071-0.085); SRMR= 0.071, y p= 0.000.

Figura 1. Modelo de ecuaciones estructurales realizado en el análisis factorial confirmatorio de la prueba MBI-HSS.

Figura 1

La Figura 1 revela una relación directa y robusta entre fatiga emocional y despersonalización (0.84). En contraste, la relación entre fatiga emocional y realización personal es inversa y débil (-0.30). La conexión entre realización personal y despersonalización resultó ser indirecta, débil y no significativa (p ≥0.05), sugiriendo que la subescala de realización personal no tiene una correlación relevante con las otras dos. Es importante destacar que las cargas factoriales de los ítems en la escala de despersonalización varían de muy bajas a moderadas. Los ítems 5 y 15, en particular, no fueron significativos y presentaron errores de medición únicos de 1.0 y 0.99, respectivamente, lo que indica que 0% y solo el 1% de la varianza de estos se debe al factor latente. Esto sugiere que estos ítems podrían no ser indicadores confiables del constructo de despersonalización 33.

Ante estos hallazgos, se exploró un modelo alternativo, excluyendo la subescala de realización personal y los ítems 5 y 15 de despersonalización (Figura A SEM en el Anexo 3). Esta modificación arrojó indicadores de ajuste superiores: CFI= 0.999; TLI= 0.999; NFI= 0.982; RFI= 0.977; GFI= 0.989; AGFI= 0.984; RMSEA= 0.000 (IC 90%: 0.000-0.033); SRMR= 0.048, y p= 0.477. Con este ajuste, el modelo demostró un ajuste excelente, y todas las relaciones propuestas en el modelo resultaron ser significativas. Además, la relación entre las dos subescalas restantes fue directa y muy fuerte (0.84).

Funcionamiento de los ítems

La Tabla 3 presenta los resultados de discriminación y dificultad de las opciones de respuesta para las subescalas fatiga emocional y despersonalización. La mayoría de los ítems muestran valores de discriminación dentro del rango previsto, con la excepción del ítem 8 que excede ligeramente el límite, pero sin afectar significativamente la subescala. No obstante, ciertos ítems, como el 4 y 17, evidencian solapamientos y umbrales reversos en sus opciones de respuesta, lo cual es más notorio en las Curvas Características del Ítem (Anexo 4 y 5).

Tabla 3. Discriminación de los ítems y dificultad (umbrales) de las opciones de respuesta de la prueba MBI-HSS.

Ítems Discriminación (a) b1 (2 vs 1) b2 (3 vs 2) b3 (4 vs 3) b4 (5 vs 4)
Fatiga Emocional
1 2.36 -0.79 -0.48 1.88 2.39
2 1.42 -1.59 -1.51 1.38 2.25
3 1.35 -0.1 0.38 2.04 3.15
6 0.71 1.57 1.52 4.73 1.53
8 2.71 -0.1 0.11 1.73 1.95
13 1.08 0.7 0.46 3.34 2.15
14 1.31 -0.08 -0.48 2.29 1.98
16 0.78 0.66 0.86 4.16 2.35
20 1.44 0.72 0.64 2.72 2.08
Realización Personal
4 1.03 -1.33 -3.74 -2.07 -0.19
7 1.08 -1.14 -2.18 -2.18 0.27
9 1.18 -1.19 -2.41 -1.32 0.22
12 0.84 -2.02 -3 -1.61 0.31
17 1.34 -0.81 -2.45 -1.47 0.61
18 1.65 -1.19 -2.25 -0.75 0.58
19 1.16 -2.14 -2.22 -1.84 -0.79
21 0.67 -0.57 -3.3 -1.74 0.45

En la subescala fatiga emocional, los umbrales de respuesta tienden a agruparse en valores altos del rasgo, con solapamientos y umbrales reversos en ítems como el 6 y 16. Las respuestas "casi nunca" y "casi siempre" fueron poco seleccionadas, predominando la opción "nunca". Por otro lado, en la subescala realización personal, las respuestas más frecuentes fueron "siempre" y "casi siempre". Las opciones "nunca", "casi nunca" y "algunas veces" de los ítems 4, 17, 19 y 21 muestran solapamientos, sin un gradiente claro. La subescala despersonalización no arrojó resultados de discriminación y dificultad debido a problemas de convergencia, posiblemente por tendencias marcadas en las respuestas. Un análisis de frecuencia reveló una inclinación hacia las opciones "nunca" y "casi nunca", especialmente en los ítems 5, 15 y 22, sugiriendo un sesgo en la medición, posiblemente por deseabilidad social.

Las Figuras 2 y 3 muestran IFF y TIF para ambas subescalas. En fatiga emocional, varios ítems tienen baja capacidad de discriminación, mostrando mejor discriminación en niveles altos del rasgo. En realización personal, los ítems tienden a discriminar mejor en niveles bajos del rasgo. Ambas subescalas carecen de buena discriminación en niveles intermedios. Las figuras TIF respaldan estos hallazgos, evidenciando limitaciones en la confiabilidad de la prueba.

Figura 2. Función de información de los ítems, subescalas Fatiga Emocional y Realización Personal del MBI-HSS.

Figura 2

Figura 3. Función de información de las subescalas Fatiga Emocional y Realización Personal del MBI-HSS.

Figura 3

Discusión

El objetivo central de este estudio fue determinar las propiedades psicométricas de la prueba MBI-HSS una vez le habían sido modificadas sus opciones de respuesta, dando respuesta a la sugerencia realizada por el equipo que validó en primera instancia el instrumento en Colombia 21. Con el apoyo de los jueces expertos se definió un tipo de respuesta Likert unipolar basada en cinco opciones que van desde “nunca” hasta “siempre”, las cuales son ampliamente usadas en cuestionarios cuya respuesta implica una frecuencia de ocurrencia.

Al realizar los análisis de validez y confiabilidad se encontró que si bien los indicadores de ajuste son aceptables no son óptimos; lo cual sumado a las bajas cargas factoriales y altos errores de medición en dos ítems de la subescala despersonalización y a la baja y no significativa relación de la subescala realización personal con las otras dos subescalas, indicaría que no se ajusta adecuadamente a los datos y podría haber deficiencias en la adecuación del modelo teórico. Esto sumado a que al probar un modelo alternativo sin la escala realización personal y sin los ítems 5 y 15 el ajuste que se obtiene es excelente, indicarían que los datos están representando un modelo subyacente diferente al propuesto originalmente.

Por otro lado, la consistencia interna reveló diferencias en el desempeño de las subescalas. Mientras que la subescala de fatiga emocional presentó un alfa de 0.87, considerado alto, la de realización personal tuvo un valor moderado de 0.77 y la de despersonalización un bajo 0,45. Las correlaciones entre los ítems de esta última subescala también resultaron ser bajas, lo que indica una variabilidad en el funcionamiento de las subescalas. Esto sugiere que la manera en que se mide la despersonalización puede no ser confiable en nuestro entorno.

Este aspecto fue previamente señalado por Kristensen, et al. 11, en su estudio, llevaron a cabo una prueba piloto de este cuestionario en 70 trabajadores de la salud; los participantes anotaron las preguntas que encontraron difíciles de responder o sobre las cuales tenían comentarios. Los resultados revelaron que la mayoría de los comentarios negativos se dirigieron particularmente a las preguntas relacionadas con la despersonalización. Los ítems 5 (Siento que trato a algunos pacientes como si fueran objetos) y 15 (No me importa realmente lo que sucede con algunos pacientes), generaron reacciones negativas, incluso ira, entre los participantes, lo cual pareciera también estar pasando en nuestro contexto pues es en estos ítems donde se evidencia el sesgo en la medición. Además, algunas preguntas sobre la realización personal también recibieron críticas, ya que se consideraron “muy estadounidenses”, algunos ejemplos de esta fueron: “Siento que estoy influyendo de manera positiva en la vida de otras personas a través de mi trabajo” y “He logrado muchas cosas valiosas en este trabajo”. Los hallazgos, además, se alinean con los resultados del estudio realizado por Pando Moreno, et al. 12, en Latinoamérica, donde la escala de realización personal no se relacionaba con las otras dos y se ubicó en una dimensión separada.

Estas preocupaciones respaldan la necesidad de adaptar el MBI-HSS a otros idiomas, ya que las subescalas de despersonalización y realización personal pueden presentar desafíos significativos debido a las diferencias culturales. La percepción de la relación médico-paciente Vs médico-cliente, por ejemplo, puede variar entre culturas; además, los aspectos considerados importantes para la sensación de logro personal también están influenciados por el contexto cultural y pueden diferir.

En el estudio de validación de Colombia, en el AFC no se encontró un ajuste del modelo a la estructura original, por lo que decidieron realizar un AFE y correr un nuevo modelo con una reorganización de los ítems derivada del AFE. Al realizar un nuevo AFC con esta nueva organización encontraron igualmente un ajuste adecuado, pero no óptimo, que sumado a la baja consistencia interna encontrada en esa nueva estructura de las subescalas despersonalización y realización personal, no permitieron al equipo de investigación asegurar con certeza que la medición del burnout con esa versión adaptada fuera del todo válida y confiable. Debido a esto, recomendaron revisar las opciones de respuesta, que a su parecer pueden estar generando confusión en los respondedores por su número, la falta de familiaridad con ellas en esta cultura, y algunas realmente no se ajustan bien a lo que se está preguntando. Por ejemplo, responder a “Comprendo fácilmente como se sienten mis pacientes” con una escala de frecuencia que incluye opciones como “Una vez al mes o menos” o “Una vez a la semana”, no pareciera tener coherencia en nuestro idioma y realmente no es realista que alguien recuerde si esto le pasa pocas veces al año, 1 vez al mes o a la semana 13.

Además de la validación en Colombia, en otros países de Latinoamérica también se han realizado ejercicios de validación del MBI-HSS. En Argentina los autores realizaron modificaciones a las redacciones de algunos ítems: en el AFC con la estructura original no encontraron un ajuste adecuado, por lo que eliminaron el ítem 12 y con esta modificación lograron mejorar el ajuste y la consistencia interna de las subescalas en este caso fue buena con valores entre 0.7 y 0.9 34. En México se hizo un estudio de validación con psicólogos en el que se encontró un ajuste adecuado del modelo con la estructura original, y con consistencias internas en las subescalas que se asemejan a las nuestras: altas para realización personal (0.81) y fatiga emocional (0.86) y baja para despersonalización (0.53) 35. En el estudio realizado en Chile 36, los autores encontraron que los ítems 12, 13, 14, 20 y 21 tenían bajo peso factorial o cargaban en dimensiones paralelas, por lo que al realizar los análisis de validez estructural decidieron eliminarlos y probar el ajuste con tres factores pero que no incluían estos ítems; con estas modificaciones encontraron un ajuste adecuado, pero no óptimo (CFI= 0.91, RMSEA= 0.063, GFI= 0.93 y AGFI= 0.91).

Algo similar decidieron hacer en Perú, en donde eliminaron los ítems 1, 16 y 21 para lograr un ajuste del modelo a los tres factores propuestos que fuese adecuado (CFI= 0.98, RMSEA= 0.046) 37; estos autores llaman la atención sobre el hecho de que en diferente países se decida eliminar unos u otros ítems, modificar la estructura de las escalas y aun así se indique que la prueba es válida y confiable, porque en realidad se está modificando y no sería comparable con la original, ni podrían ser comparables en estudios multicéntricos, de modo que de forma acertada afirman que “inferir la validez del MBI-HSS compromete la ética del investigador y la ineficacia del uso de un instrumento destinado a identificar un problema que requiere atención clínica y psicosocial” 37; aspecto que consideramos central, ya que evaluar aspectos tan críticos como el burnout con un instrumento del cual no hemos podido verificar de forma óptima su validez y confiabilidad podría afectar la precisión de las mediciones, generar errores sistemáticos de investigación y llevar a la toma de decisiones incorrectas.

Dado que en este estudio modificamos las opciones de respuesta del MBI-HSS, era importante evaluar el funcionamiento de las nuevas opciones propuestas, de modo que se le hicieron los análisis de dificultad y discriminación a los ítems. Se encontró que en la subescala de despersonalización la asimetría es tan marcada en algunos ítems (5, 15 y 22) que no fue posible determinar la discriminación y la dificultad de los ítems de esta subescala, dando soporte a los argumentos de Kristensen, et al. 11, pues al parecer este tipo de preguntas genera un choque emocional tal que los sujetos, o no se sienten realmente así o les cuesta aceptar que hayan podido llegar a un estado en el que vean y traten a sus pacientes como “objetos”.

Los ítems de las subescalas fatiga emocional y realización personal mostraron valores adecuados de discriminación, pero solapamientos importantes en las opciones de respuesta y también opciones poco usadas o asimetrías en algunos ítems (6, 16, 4, 17, 19 y 21). A nivel general las puntuaciones ayudan a discriminar a sujetos con alto nivel de agotamiento, pero no tan bien a aquellos con niveles moderados.

Debido a estos resultados, no podemos asegurar que con la modificación de las opciones de respuesta realizadas en este estudio se lograron superar los problemas de medición de la prueba, razón por la cual, y teniendo en cuenta los antecedentes encontrados con este instrumento en otros países, tal como está actualmente diseñada, no se recomienda para evaluar el burnout en nuestra población asistencial.

Estos resultados implican que la posibilidad de que nuestra comprensión y conceptualización del burnout pueda diferir de la propuesta originalmente por Maslach & Jackson, tal como se ha evidenciado en otras culturas. Lo que sugiere la necesidad de revisar y adaptar no solo el instrumento, sino también el propio concepto de burnout para nuestra población. Estos hallazgos invitan a que hagamos se reflexione sobre el amplio uso de este instrumento a pesar de las deficiencias encontradas en estudios en el contexto Latinoamericano, lo que podría implicar sesgos sistemáticos en las mediciones que se realizan en procesos de seguimiento o investigación de este constructo en nuestra región. Es así, un llamado de atención sobre la necesidad de una selección adecuada de instrumentos, que vaya más allá de usar aquellos que se han adoptado de forma más frecuente por considerarse los clásicos, pero en los cuales puede haber problemas en las adaptaciones en nuestro contexto, incluso desde la concepción del constructo a medir.

Limitaciones y Fortalezas

Aunque la muestra se obtuvo por conveniencia en una sola institución, los hallazgos reflejan limitaciones del MBI-HSS en el contexto colombiano, en línea con estudios previos en la región. Esto sugiere que los problemas identificados no serían exclusivos de esta muestra, aportando evidencia relevante para reconsiderar su uso en poblaciones similares 38.

Como fortalezas se destaca que, este estudio se distingue de otros trabajos de validación estructural del MBI-HSS por el uso del método de estimación DWLS. Este método ha demostrado ofrecer parámetros superiores al tratar con variables categóricas, ya que emplea correlaciones policóricas en lugar de las de Pearson para la estimación 29. Al contrastar los resultados de los AFC obtenidos con métodos M y MLM con los de este estudio, es evidente que el método DWLS proporciona índices de ajuste óptimos. Esto sugiere que las estimaciones hechas con DWLS son más precisas y que las cargas factoriales o las relaciones identificadas entre las variables se alinean mejor con la naturaleza real de los datos. Adicionalmente, se llevó a cabo una simulación previa para determinar el tamaño de muestra, asegurando así una muestra con el poder estadístico necesario.

Conclusiones

Aun modificando las opciones de respuesta del MBI-HSS se han identificado limitaciones en la validez estructural, confiabilidad, capacidad de discriminación y dificultad de las opciones de respuesta, en la validación realizada en personal de salud de nuestro país. De quererse aplicar algunas de sus subescalas, aquella que mejor podría medir el agotamiento en el personal de salud es la de fatiga emocional.

Agradecimientos:

Los investigadores dan un especial agradecimiento a cada uno de los funcionarios del hospital, que nos permitieron tener acceso a sus instalaciones y apoyaron la investigación respondiendo a los cuestionarios; así como al equipo científico y de investigación que nos apoyaron en los aspectos logísticos y motivando al personal para su participación.

Anexo 1.

Variables del. estudio.

Nombre de la Variable Definición Naturaleza y Nivel de Medición Nivel Operativo
Variables demográficas
Sexo Características biológicas y fisiológicas que definen a hombres y mujeres Cualitativa 1= Femenino
nominal 2= Masculino
Edad Tiempo que ha vivido una persona u otro ser vivo contando desde su nacimiento. Cuantitativa Años
discreta
Rangos de edad Rangos de edad definidos según la clasificación de la OMS Cualitativa 1= 18 a 26 años
2= 27 a 59 años
ordinal 3= 60 o más años
Unidad de atención Unidad de atención del hospital donde labora el trabajador de la salud Cualitativa 1= Hospitalización
2= Hospitalización, ginecología y sala de partos
3= Cirugía
nominal 4= Urgencias
5= UCI
6= Otras
Ocupación Actividad ocupacional específica que ejerce el trabajador en la institución y para la cual recibió formación formal Cualitativa 1= Auxiliar de enfermería
2= Enfermero(a)
nominal 3= Médico(a) general
4= Médico(a) especialista
5= Otras profesiones asistenciales
Horas de trabajo a la semana Tiempo de dedicación semanal promedio en horas que labora el trabajador en el HUN u otras instituciones Cualitativa 1= Menos de 40
2= 40 a 59
ordinal 3= 60 a 79
4= 80 o más
Tipo de Contrato Tipo de contratación con la que cuenta el trabajador para ejercer sus funciones en la institución Cualitativa 1= Agremiación
2= Prestación de servicios
3= Contrato de planta
nominal 4= Contratación Mixta
5= Interno/Residente
Tiempo de experiencia laboral Tiempo que ha laborado el trabajador en la ocupación actual desde que se graduó Cualitativa 1= Menos de 6 meses
2= Entre 6 meses y 1 año
3= Entre 1 y 3 años
ordinal 4= Entre 3 y 5 años
5= Más de 5 años
Tiempo de experiencia en la unidad Tiempo que ha laborado el trabajador en la ocupación actual en la unidad en la que labora en el hospital Cualitativa 1= Menos de 6 meses
2= Entre 6 meses y 1 año
3= Entre 1 y 3 años
ordinal 4= Entre 3 y 5 años
5= Más de 5 años
Trabaja en otra institución Situación laboral del trabajador, en la cual labora, además del hospital en otra institución de salud Cualitativa 0= No
nominal 1= Sí
Variables de interés
Puntuación ítems prueba MBI-HSS Respuesta dada por los sujetos en cada uno de los ítems de la prueba Maslach Burnout Inventory - Human Services Survey (MBI-HSS) Cualitativa Están por definirse, se van a modificar en este estudio.
ordinal

Anexo 2.

Médicos Especialistas:

●Luz María Gómez

Anestesióloga

Más de 15 años de experiencia

Subgerente asesoría médica especializada Sociedad Colombiana de Anestesiología y Reanimación (S.C.A.R.E.)

●Darling Carvajal Duque

Especialista en Medicina Critica y Cuidado Intensivo pediátrico

Más de 15 años de experiencia

Coordinador Unidad de Cuidados Intensivos pediátricos, Hospital Universitario Hernando Moncaleano Perdomo de Neiva

●Miguel Andrés Bayona Ospina

Pediatra Paliativista

Más de 10 años de experiencia

Pediatra Paliativista Hospital Universitario Hernando Moncaleano Perdomo de Neiva

●Juan Pablo Zapata Ospina

Médico y Cirujano, Especialista en Psiquiatría, MSc en Epidemiología Clínica

Más de 10 años de experiencia

Comité de Estudios Médicos Hospital Alma Máter de Antioquia

●Néstor Daniel Ramírez Borrero

Médico - Magíster en Bioética

Más de 15 años de experiencia

Bioeticista Clínico Hospital Universitario Hernando Moncaleano Perdomo de Neiva

Médico general:

●Diana Carolina Caicedo Sánchez

Más de 5 años de experiencia

Medica General en Unidad de Cuidados Intensivos Adultos, Clínica Urgencias Bucaramanga

Enfermera especialista:

●Aura María Díaz Arguello

Más de 10 años de experiencia

Enfermera jefe especialista en oncología, jefe de salas de cirugía del Instituto Nacional de Cancerología

Psicómetra:

●Claudia Marcela Vélez

Más de 15 años de experiencia

Médica, Esp. Msc. Doctora en Política de Salud

Docente. Facultad de Medicina, Universidad de Antioquia

Psicólogos especialistas:

●Yudy del Pilar González Gama

Más de 5 años de experiencia

Psicóloga especialista

Verificadora Profesional Subdirección Inspección, Vigilancia y Control de Servicios de Salud-Subdirección de Calidad

●Freddy Alejandro Barrero G.

Más de 5 años de experiencia

Psicólogo especialista

Profesional Especializado - Área de Calidad y Humanización

Anexo 3.

Figura A. Modelo de ecuaciones estructurales alternativo de la prueba MBI-HSS .

Figura A

Anexo 4.

Figura B. Curva características de los ítems de la subescala Fatiga Emocional.

Figura B

Anexo 5.

Figura C. Curva características de los ítems de la subescala Realización Personal.

Figura C

Notas:

Financiación: Esta investigación fue financiada por el Ministerio de Ciencia, Tecnología e Innovación de Colombia, en el marco de la convocatoria 757 doctorados nacionales del 2016, y por la Universidad de Antioquia.

Disponibilidad de datos: Los datos usados en esta investigación están disponibles y pueden ser solicitados a la autora de correspondencia.


Articles from Colombia Médica : CM are provided here courtesy of Universidad del Valle

RESOURCES