Skip to main content
Arquivos Brasileiros de Cardiologia logoLink to Arquivos Brasileiros de Cardiologia
. 2022 Nov 9;119(5 Suppl 1):6–13. [Article in Portuguese] doi: 10.36660/abc.20220355
View full-text in English

Avaliação Psicométrica da Prova de Título de Especialista em Cardiologia da Sociedade Brasileira de Cardiologia

Gustavo Eugênio Martins Marinho 1, José Maria Peixoto 2,3, José Knopfholz 4,5, Marcus Vinicius Santos Andrade 6,7,8
PMCID: PMC9750200  PMID: 36449953

Resumo

Fundamento

A Sociedade Brasileira de Cardiologia promove anualmente a prova para obtenção do título de especialista em Cardiologia, sendo a Comissão Julgadora do Título de Especialista em Cardiologia responsável pela sua organização e aplicação. A análise psicométrica dos itens de uma prova, por meio da Teoria de Resposta ao Item (TRI) pode fornecer informações robustas e contribuir para o aprimoramento contínuo dessa avaliação.

Objetivos

Avaliar as propriedades psicométricas da prova do Título de Especialista em Cardiologia no ano de 2019, em relação aos parâmetros da TRI.

Métodos

Estudo observacional, com a análise psicométrica das 120 questões da prova realizada por 1120 (mil cento e vinte) candidatos para a obtenção do título de especialista em Cardiologia, no ano de 2019.

Resultados

A análise da prova pela TRI mostrou 32,2% dos itens com poder de discriminação “alto” ou “muito alto”, 49,2% dos itens categorizados como “fácil” ou “muito fácil” e 41,5% apresentavam alta probabilidade de acerto ao acaso . Foram identificados 69 itens com problemas em relação aos parâmetros da TRI e, portanto, com baixo poder de avaliar a proficiência do candidato.

Conclusões

A análise psicométrica da prova de título de Especialista em Cardiologia pela TRI demonstrou um alto percentual de questões fáceis, com cerca de dois terços dos itens com alta probabilidade de acerto ao acaso. Esses dados poderão desencadear uma série de discussões e propostas para a construção das futuras provas em cardiologia.

Keywords: Especialização, Cardiologia, Psicometria

Introdução

A busca pelo título de especialista tem se tornado uma constante entre os médicos brasileiros. As razões envolvem desde o ganho de conhecimento, permissão para participar de concursos, até o ingresso em cooperativas médicas no mercado de trabalho, tornando-se evidente que a titulação aumenta o prestígio do profissional e de sua especialidade.

O Título de Especialista em Cardiologia (TEC) existe na Sociedade Brasileira de Cardiologia (SBC) desde 1968, porém somente foi regulamentado pela Associação Médica Brasileira (AMB) e pelo Conselho Federal de Medicina (CFM) por meio da Resolução n. 1286/89. Nesse contexto, surge, em 1992, a Comissão Julgadora do Título de Especialista em Cardiologia (CJTEC). 1

A prova do TEC consta de 120 questões de múltipla escolha, com cinco alternativas cada, sendo apenas uma correta. Há uma preocupação em relação ao grau de dificuldade das questões selecionadas para a prova e, dessa forma, a comissão classifica caracteriza-as como difíceis, médias e fáceis. No entanto, até o momento, essa classificação é feita de modo subjetivo, ou seja, de acordo com a opinião dos membros da CJTEC e não através de uma metodologia psicométrica, que avalia o grau de dificuldade para quem faz a prova. 2

A Teoria de Resposta ao Item (TRI), tem sido utilizada recentemente como avaliação psicométrica na análise e na interpretação dos resultados nos diversos cenários de provas e concursos. 2

Até o momento, não foi realizada nenhuma avaliação psicométrica do exame do TEC e, em virtude da importância da prova, é imprescindível conhecer se esse modelo de avaliação fornece realmente uma medida coerente e confiável do ponto de vista técnico. Diante do exposto, esse estudo teve como objetivo avaliar as propriedades psicométricas da prova do TEC no ano de 2019, em relação à TRI.

Métodos

Desenho do estudo

Foi um estudo observacional, com a análise psicométrica das 120 questões da prova realizada por 1120 candidatos, para a obtenção do TEC, no dia 27 de outubro de 2019, das 13:00 às 18:00 horas, em uma Universidade Privada de São Paulo.

Critérios de inclusão e exclusão

Foram incluídos todos os gabaritos entregues pelos candidatos que realizaram a prova para obtenção do TEC em 2019. Foram excluídas duas questões após a fase recursal, além da prova de um candidato que respondeu apenas duas questões.

Amostra

A Amostra, que teve duas questões excluídas na fase recursal, foi constituída por gabaritos de 118 questões, que foram respondidas e entregues pelos médicos que realizaram a prova para a obtenção do TEC no ano de 2019.

Coleta de Dados

Os dados dos candidatos foram extraídos diretamente do banco de dados da empresa responsável pela elaboração da prova (Segmento Farma Editores Ltda., em parceria com a Simples Detalhe Assessoria, Planejamento e organização de Eventos Ltda. e a Picsis informática indústria e comércio Ltda.), e organizados em planilhas Microsoft Excel ® .

A partir desses dados, foram geradas planilhas separadas para os dados de identificação e para os dados referentes às notas de cada prova. Os nomes dos candidatos foram excluídos das planilhas, com o objetivo de manter o sigilo da pesquisa, sendo a identificação de cada candidato feita por um número.

Aspectos éticos

Foram utilizadas bases de dados secundárias, sem identificação dos participantes, de modo que não houve necessidade de utilização de Termo de Consentimento Livre e Esclarecido (TCLE). No entanto, para a obtenção do banco de dados, foi firmado um Termo de Consentimento de Utilização do Banco de Dados (TCUD), o qual foi encaminhado, inicialmente, para a SBC e, posteriormente, ao Comitê de Ética em Pesquisa (CEP), com número do parecer: 4.030.702.

Análise estatística

Realizamos uma avaliação psicométrica da prova aplicada aos candidatos ao TEC em 2019 pela SBC, utilizando a TRI. A TRI busca determinar o nível de aptidão do candidato (traço latente, parâmetro teta (θ)] e a probabilidade de um indivíduo com certo nível de aptidão em responder acertadamente os itens conforme o grau de dificuldade.

Para análise do traço latente, a TRI avalia os seguintes parâmetros:

  1. Item Discriminação ( a ): consiste na avaliação da aptidão do item em distinguir indivíduos com habilidades diferentes;

  2. Item Dificuldade ( b ): trata da habilidade mínima que um respondente precisa para ter uma grande probabilidade de dar a resposta correta;

  3. Acerto ao Acaso ( c ): a probabilidade de um respondente com baixa proficiência responder corretamente um item.

Desta forma, a TRI procura medir variáveis não observáveis (traço latente) que possam influenciar as respostas dadas aos itens, utilizando a aferição das variáveis observáveis (respostas aos itens), e estabelecendo uma relação entre a habilidade do respondente e os parâmetros do item com a probabilidade de acerto ao item. Assim, quanto maior a aptidão de um candidato, maior será sua probabilidade de responder corretamente o item no instrumento de avaliação.

Duas importantes suposições da TRI são a Unidimensionalidade que postula que há apenas uma aptidão (θ) responsável pela realização de um conjunto de itens de um teste, e a Independência local, que implica que o desempenho do sujeito em um item não afeta o desempenho em outro, pois cada item é respondido em função da aptidão dominante (θ) do candidato para aquele item.

O modelo estatístico da TRI predominantemente utilizado no Brasil é o modelo Logístico unidimensional de três parâmetros. Os modelos Logísticos unidimensional com um e dois parâmetros não são convenientes na análise do presente estudo uma vez que, pelos resultados obtidos no modelo de três parâmetros, o acerto ao acaso variou muito entre os 120 itens da prova aplicada em 2019.

Metodologia de cálculos da TRI

Modelo logístico Unidimensional da TRI com 3 parâmetros

PUij=1θj=ci+1ci11+eDaiθjbi

com i = 1, 2, ..., I e j = 1, 2, ..., n, onde:

  • - U ij é uma variável dicotômica que assume os valores 1, quando o indivíduo j responde corretamente o item i, ou 0 quando o indivíduo j não responde corretamente ao item i.

  • - θ j representa a habilidade (traço latente) do j-ésimo indivíduo.

  • - P(U ij =1 j ) é a probabilidade de um indivíduo j com habilidade θj responder corretamente o item i e é chamada de Função de Resposta do Item – FRI.

  • - b i é o parâmetro de dificuldade (ou de posição) do item i, medido na mesma escala da habilidade.

  • - a i é o parâmetro de discriminação (ou de inclinação) do item i, com valor proporcional à inclinação da Curva Característica do Item — CCI no ponto bi.

  • - c i é o parâmetro do item que representa a probabilidade de indivíduos com baixa habilidade responderem corretamente o item i (muitas vezes referido como a probabilidade de acerto casual).

  • - D é um fator de escala, constante e igual a 1.

Os valores dos parâmetros a, b e c , são calculados por meio de pré-testagens (calibragem) dos itens, utilizando o método da máxima verossimilhança ( L , de likelihood ), que trabalha com as derivadas. Sua fórmula é a seguinte:

Lu1su2ss,unsθ=i=1nPi(θs)usiQi(θs)1usi

Em que:

  • - i = 1, 2, ..., n itens

  • - u is = resposta do sujeito a cada item (1 = acertou, 0 = errou)

Para se calcular a aptidão/proficiência de um candidato, temos que achar o máximo da função acima. Primeiramente, identifica-se a probabilidade de acerto [(Pi(θ)] de cada um dos itens do teste utilizando um dos três modelos da TRI (1PL, 2PL, 3PL – na presente pesquisa foi utilizado o modelo de três parâmetros – 3PL). Posteriormente, de forma empírica, substituem-se os valores de θ numa faixa de - 5 a + 5 (-5,00 ≤ θ ≤ +5,00, normalmente, utiliza-se -3,00 ≤ θ ≤ +3,00) ou emprega-se o algoritmo de iteração de Newton-Raphson para se calcular o máximo da função L. Esse máximo, com base nos valores de θ, é a aptidão/proficiência do candidato obtido no teste aplicado.

Curva Característica do Item (CCI)

O modelo matemático que define a TRI é uma função de probabilidade. Portanto, sua imagem estará sempre no intervalo [0,1]. O número U ij =1|θ j ) pode ser identificado pela proporção de respostas corretas ao item i no grupo de indivíduos com habilidade θj. Essa relação é descrita por uma curva sigmoide, em que o eixo horizontal representa a escala de aptidão e o eixo vertical a probabilidade do indivíduo com uma habilidade θj dar a resposta correta ao item i. Podemos destacar duas assíntotas horizontais e notam-se, com uma certa precisão, os três parâmetros do item.

Curva de Informação – I(θ)

Precisão da informação significa a exatidão que um item representa aquilo que ele pretende medir. Neste contexto, precisão significa o quão bem o item prediz o critério ou representa o traço latente (θ). Assim, a função de informação da TRI segue o cálculo do erro de estimação, isto é, o quanto o escore obtido pelo sujeito num teste se afasta do seu escore verdadeiro. O próprio conceito de função de informação é o recíproco da variância, ou seja: I = 1 / S 2 . A função de informação corresponde ao conceito de carga fatorial do item da análise fatorial, na visão do modelo do traço latente, pois a carga fatorial representa a covariância entre o item (representação comportamental) e o traço latente (teta). A curva de informação do teste mostra a quantidade de informação fornecida pelo teste a um certo nível teta; apresenta a amplitude do teta para a qual o teste fornece informação confiável, dizendo que fora dessa amplitude o teste produz mais informação errônea (erro) sobre o teta que informação correta. Assim, a curva de informação tem interface com ambos os parâmetros dos testes, isto é, validade e precisão, mas não se confunde com nenhum dos dois. A representação dessa informação do item assemelha-se a uma curva de tipo normal (em forma de “sino”).

Na presente análise, foi adotado o critério de, pelo menos, 25% de “acerto ao acaso” como insatisfatório para um determinado item da prova. Assim, como foram aplicadas 1120 provas, 5% a mais de “acerto ao acaso” além do esperado (20%) é considerado muito alto e, portanto, o item avaliado apresenta algum problema em sua formulação ou nas opções de respostas. O “acerto ao acaso” é demonstrável pela falta de coerência do candidato, em errar itens fáceis e, de modo contraditório, acertar itens difíceis, teoricamente sem proficiência para tal.

Resultados

Os resultados apresentados referem-se à análise psicométrica dos 118 itens da prova aplicada aos candidatos ao TEC em 2019, utilizando um modelo logístico unidimensional de três parâmetros da TRI: discriminação (a), dificuldade (b) e acerto ao acaso (c).

Durante a análise, verificou-se que um item (Questão nº 110) apresentou nível negativo para o parâmetro discriminação ( a = - 0,174), sugerindo que quanto maior o nível de conhecimento do candidato menor a chance de acertar o item, um resultado incoerente com o objetivo do parâmetro, por essa razão, esse item não foi incluído no modelo da análise final.

A Tabela 1 apresenta a distribuição dos 118 itens da prova em relação ao parâmetro discriminação . Observa-se que 18,7% desses apresentavam “muito baixo” ou “baixo” poder de discriminação (a ≤ 0,65); 49,1% “moderada” discriminação (0,651 < a ≤ 1,350) e 32,2% dos itens apresentavam “alto” ou “muito alto” poder de discriminação (a ≥ 1,351).

Tabela 1. Distribuição dos itens da prova em relação ao parâmetro discriminação da Teoria de Resposta ao Item (TRI).

Classificação do poder de discriminação (a) Frequência (n) %
≤ 0,35 (muito baixa) 12 10,2
De 0,351 a 0,650 (baixa) 10 8,5
De 0,651 a 1,350 (moderada) 58 49,1
De 1,351 a 1,700 (alta) 25 21,2
> 1,700 (muito alta) 13 11,0
Total 118 100,0

Base de Dados: 1.120 candidatos. Nota: 2 itens da prova anulados (itens 23 e 46).

A Tabela 2 apresenta a distribuição dos 118 itens da prova em relação ao parâmetro dificuldade . Observa-se que 49,2% desses foram classificados como “fácil” ou “muito fácil” ( b < -0,52); 22,0% classificados com dificuldade moderada (-0,51 ≤ b ≤ 0,51); e 28,8% dos itens foram classificados como difícil ou muito difícil ( b ≥ 0,52).

Tabela 2. Distribuição dos itens da prova em relação ao parâmetro dificuldade pela TRI.

Classificação do parâmetro dificuldade (b) Frequência (n) %
≤ -1,28 (Muito fácil) 31 26,3
De -1,27 a - 0,52 (Fácil) 27 22,9
De -0,51 a 0,51 (Moderada) 26 22,0
De 0,52 a 1,27 (Difícil) 19 16,1
≥ 1,28 (Muito difícil) 15 12,7
Total 118 100,0

Fonte: Elaborada pelos autores; Base de Dados: 1.120 candidatos. Nota: 2 itens da prova anulados (itens 23 e 46).

A Tabela 3 apresenta a distribuição dos 118 itens da prova em relação ao parâmetro acerto ao acaso , onde observa-se que 41,5% dos itens apresentaram alta probabilidade de acerto ao acaso , conforme a metodologia da TRI.

Tabela 3. Distribuição dos itens da prova em relação aos percentuais de acertos ao acaso pela teoria de resposta ao item.

Percentual de acertos ao acaso (c) Frequência (n) %
≤ 10,0% 48 40,7
De 10,1 a 25,0% 21 17,8
De 25,1 a 40,0% 20 16,9
De 40,1 a 60,0% 19 16,1
> 60,0% 10 8,5
Total 118 100,0

Fonte: Elaborada pelos autores; Base de Dados: 1.120 candidatos. Nota: 2 itens da prova anulados (nos 23 e 46).

Sobre a CCI, 58,5% dos itens foram considerados insatisfatórios. Já em relação a curva de informação, 78.8% dos itens foram satisfatórios ( Tabela 4 ).

Tabela 4. Distribuição dos itens da prova segundo classificação (satisfatória ou insatisfatória) da Curva Característica do Item e da Curva de Informação da teoria de resposta ao item.

Curva Característica do Item Frequência (n) %
Satisfatória 49 41,5
Insatisfatória 69 58,5
Curva de Informação Frequência (n) %
Satisfatória 93 78,8
Insatisfatória 25 21,2

Fonte: Elaborada pelos autores; Base de Dados: 1.120 candidatos. Nota: 2 itens da prova anulados (nos 23 e 46).

A análise individual dos itens da prova pela TRI identificou 69 itens que apresentavam algum tipo de problema em relação aos três parâmetros e, portanto, considerados com baixo poder de gerar informação em relação à identificação do traço latente (θ), que avalia a proficiência do candidato. Assim, os 49 itens restantes da prova foram analisados pela TRI e comparados ao modelo inicial da prova com 118 itens.

A Figura 1 apresenta a CCI considerando os 118 itens da prova pelo modelo da TRI. O resultado mostra que quanto maior a aptidão (θ) do candidato, maior será o número de itens com resposta correta. Um candidato com aptidão igual a 0 (θ = 0 – aptidão mediana, θ entre -1 e +1) é esperado que acerte, aproximadamente, 80 dos 118 itens da prova (67,8%). Além disso, um candidato com muito baixo nível de aptidão (θ < - 4,0) é esperado que acerte pelo menos 36 dos 118 itens da prova (30,5%).

Figura 1. Nota: T(θ) – estimada pela teoria de resposta ao item considerando-se os 118 itens da prova, para cada candidato de acordo com sua aptidão (θ).

Figura 1

A Curva de Informação ( Figura 2 ) para o conjunto dos 118 itens da prova mostra que a quantidade máxima de informação recuperada sobre o raciocínio analógico do candidato encontra-se em torno da mediana da aptidão, ou seja, valor de θ próximo a 0. Além disso, para os valores extremos de θ, a prova produz mais erro de informação do que informação legítima, e nos valores de θ entre -3,2 a +3,1 encontra-se o máximo de informação gerado pela avaliação.

Figura 2. Curva de Informação: I(θ) – e erro padrão gerados pela teoria de resposta ao item considerando os 118 itens da prova.

Figura 2

A Figura 3 mostra a CCI para o conjunto dos 49 itens da prova que restaram após a extração dos itens com problemas nos parâmetros da TRI. O resultado mostra que quanto maior a aptidão (θ) do candidato, maior será o número de itens com resposta correta. Assim, é esperado que um candidato com aptidão igual a 0 (θ = 0 – aptidão mediana, θ entre -1 e +1) acerte, aproximadamente, 32 dos 49 itens da prova (65,3%), e um candidato com nível de aptidão muito baixo (θ < -4,0) acerte pelo menos quatro dos 49 itens da prova (8,2%). Portanto, considerando os dados da TRI para os 49 itens, os candidatos precisarão de um nível aptidão (θ) maior em relação à exigida para os 118 itens da prova.

Figura 3. Nota: T(θ) – estimada pela teoria de resposta o item considerando os 49 itens da prova, para cada candidato de acordo com sua aptidão (θ).

Figura 3

A Curva de Informação ( Figura 4 ) para os 49 itens da prova mostra que a quantidade de informação máxima recuperada sobre o raciocínio analógico do candidato encontra-se, também, em torno da mediana da aptidão, ou seja, valor de θ próximo de 0 (zero). Além disso, para os valores extremos dos níveis de θ, a prova produz mais erro de informação do que informação legítima, sendo que para valores de θ variando entre -4,0 a +3,2 encontra-se o máximo de informação gerado pela avaliação.

Figura 4. Curva de Informação: I(θ) – e erro padrão gerados pela teoria de resposta ao item considerando os 49 itens da prova.

Figura 4

A Figura 5 mostra resultado da proficiência gerado pela TRI, considerando-se os 49 itens excluídos da prova inicialmente aplicada. Nota-se uma curva típica de Gauss, que mostra o nível médio de proficiência dos candidatos com um padrão normal de distribuição.

Figura 5. Resultado da proficiência gerados pela TRI.

Figura 5

Fonte: Elaborado pelos autores.

Discussão

O objetivo do presente estudo foi avaliar os itens da prova para obtenção do TEC em 2019, em relação aos seus parâmetros psicométricos pela TRI. Até então, o único parâmetro conhecido pela CJTEC era o grau de dificuldade dos itens, julgados como fáceis, médios ou difíceis, com base no conhecimento e na experiência dos integrantes da comissão. No entanto esta forma de avaliação é subjetiva e carece de validade.

Em relação ao parâmetro discriminação , observou-se que apenas 32,2% dos itens apresentavam poder de discriminação “alto” ou “muito alto”. Informação relevante, uma vez que a discriminação de um item relaciona-se à sua capacidade de identificar candidatos com proficiências distintas, por avaliar a probabilidade de indivíduos com diferentes proficiências responderem corretamente o item. Fatos semelhantes foram observados nas provas do Exame Nacional de Desempenho dos Estudantes (ENADE), nos anos de 2010, 2011 e 2012, que ao serem submetidas à análise psicométrica pôde-se identificar questões com baixo poder de discriminação, contribuindo tecnicamente para melhorias na elaboração futura de novos itens para as provas do ENADE. 3 , 4

A respeito do parâmetro dificuldade , observou-se que 49,2% dos itens da prova, eram categorizados pela TRI como “fácil” ou “muito fácil” e apenas 22% como de “moderada” dificuldade. Isso denota um desbalanceamento da prova em relação à psicometria, que recomenda a seguinte proporção de facilidade dos itens: muito fáceis (10%), fáceis (20%), moderados (40%), difíceis (20%) e muito difíceis (10%). 4 A proporção de itens “difíceis e “muito difíceis” se encontrava adequada. Chama a atenção que a prova do TEC em 2019 apresentava predominantemente itens considerados “fáceis”.

Sobre o parâmetro acerto ao acaso , constatou-se que 41,5% dos itens da prova do TEC apresentavam grande possibilidade de acerto ao acaso , um percentual elevado para uma avaliação certificativa do porte da prova do TEC. A CCI foi insatisfatória para 58,5% dos itens e a curva de informação foi satisfatória em 78,8% dos itens, o que demonstra que o acerto aos itens não apresentava boa correlação à proficiência do candidato, apesar de ser capaz de medir o traço latente.

Ao proceder a análise individual dos itens da prova, constatou-se que 69 itens apresentavam problemas em relação aos parâmetros da TRI avaliados e, portanto, com baixo poder de informação em relação à identificação do traço latente dos candidatos. Apesar disso, a CCI era coerente em relação à aptidão do candidato e seu número de acertos aos itens, ou seja, quanto maior a aptidão do candidato, maior o número de itens corretos. Porém, a CCI demonstrou que candidatos com nível de aptidão baixa eram capazes de acertar até 30,5% dos itens da prova. Em relação à identificação de itens deficientes, o resultado foi semelhante ao observado na prova da Olimpíada Brasileira de Matemática das Escolas Públicas em 2016, na qual 11 de suas 20 questões eram deficientes em relação aos parâmetros da Teoria Clássica de Teste. 3

Ao retirar os itens com problemas nos parâmetros da TRI da prova original, restaram 49 itens, que ao serem avaliados em conjunto como um “modelo alternativo” de prova, mantiveram as mesmas características psicométricas da CCI da prova original e uma distribuição normal da média de proficiência dos candidatos. No entanto, este modelo reduziu de 30,5% para 8,2% o percentual de candidatos que mesmo com baixa proficiência acertariam os itens da prova. Essa redução significativa deve-se à diminuição do acerto ao acaso dos itens, resultado relevante observado nesse “modelo alternativo” de prova orientado pela TRI.

Nesse sentido, observa-se a importância da análise dos parâmetros psicométricos em uma prova, os quais apresentam medidas matemáticas, contribuindo para a construção de um exame composto por itens “calibrados”, e o aprimoramento do instrumento de avaliação.

Até onde se sabe, este é o primeiro estudo a avaliar as características psicométricas de uma prova de título de especialista da AMB e seus resultados contribuirão para reflexões e aprimoramentos desses instrumentos certificadores. Por esse motivo, não foram encontradas outras referências bibliográficas que permitissem comparar os resultados encontrados com os de outras sociedades de especialidades, mas há publicações disponíveis em outros cenários.

O presente estudo oportuniza a discussão sobre o modelo atual de confecção da prova do TEC. Nele, os itens são elaborados por um conjunto heterogêneo de pessoas, que não discutem a prova como um instrumento único, e as provas não têm as mesmas características psicométricas a cada ano, impossibilitando a comparabilidade no tempo.

Esses dados contribuem para que a CJTEC possa, inclusive, avaliar o número de questões que são necessárias na prova do TEC, uma vez que, pela TRI, um modelo ajustado com 49 itens apresentou os mesmos resultados certificadores. A possibilidade da redução do número de questões de uma prova, orientada por métodos psicométricos, pode produzir um instrumento de avaliação capaz de discriminar com maior precisão os candidatos merecedores do TEC, e de lhes oferecer um exame menos cansativo, favorecendo inclusive, um melhor desempenho dos candidatos. Assim, a probabilidade de concessão de títulos favorecida pelos acertos ao acaso seria menor, aprimorando-se a identificação dos participantes proficientes, com um padrão de respostas coerentes em relação aos parâmetros estudados.

Com base nos achados deste estudo e seguindo as tendências de outras instituições que já utilizam a TRI para a seleção dos itens de suas avaliações, 4 essa metodologia pode incrementar, de forma impactante, a qualidade das provas de títulos das diversas especialidades da AMB, contribuindo para a identificação de candidatos com as competências esperadas para o exercício de sua especialidade no Brasil.

Ao apoiar este estudo, a SBC demonstra o compromisso no aprimoramento do seu instrumento de certificação profissional, a prova do TEC. Os resultados deste estudo inédito são relevantes para o aprimoramento técnico da elaboração dos itens para a prova de título da SBC, e servirá de referencial para outras Sociedades de Especialidades da AMB.

Limitações e perspectivas

O presente estudo apresenta algumas limitações. Para a obtenção de melhores resultados pela TRI, é desejável a construção de um banco de dados com itens previamente utilizados e calibrados. Isso não foi possível, uma vez que este é o primeiro estudo realizado com uma prova do TEC e, provavelmente, também de um exame para concessão do título de especialista da AMB. Outra limitação diz respeito ao banco de dados avaliado, pois embora tenhamos considerado a prova realizada no ano de 2019, todas as edições da prova do TEC foram independentes, apesar de seguirem a mesma metodologia de elaboração. Por isso, não é possível afirmar que os resultados aqui apresentados possam ser extrapolados para os concursos anteriormente realizados. Apesar disso, o estudo apresenta importantes contribuições para que a SBC e AMB possam aprimorar os instrumentos certificativos para concessão de títulos de especialistas.

Conclusão

O presente estudo permitiu verificar as propriedades psicométricas da prova do TEC de 2019 usando a TRI. O exame apresentou um maior percentual de questões fáceis, com cerca de um terço de itens com alto poder de discriminação, e os demais necessitando melhorias na elaboração, uma vez que apresentaram elevada probabilidade de acerto ao acaso. O estudo sugere que uma avaliação com menor número de questões seria capaz de apresentar as mesmas características psicométricas da prova analisada, mas com um potencial de reduzir o acerto ao acaso dos itens. Os resultados deste trabalho contribuem para o aprimoramento da prova do TEC, importante instrumento que certifica o especialista em cardiologia no Brasil.

Vinculação acadêmica

Este artigo é parte de dissertação de mestrado de Gustavo Eugênio Martins Marinho pela Universidade José do Rosário Vellano (UNIFENAS).

Aprovação ética e consentimento informado

Este artigo não contém estudos com humanos ou animais realizados por nenhum dos autores.

Fontes de financiamento: O presente estudo não teve fontes de financiamento externas.

Referências

  • 1.Sociedade Brasileira de Cardiologia . Regimento da Comissão de Julgamento do Título de Especialista em Cardiologia da Sociedade Brasileira de Cardiologia CJTEC. Rio de Janeiro: SBC; 2018. [Google Scholar]
  • 2.Vilarinho APL. Uma Proposta de Análise de Desempenho dos Estudantes e de Valorização da Primeira Fase da OBMEP. Brasília: Universidade de Brasília; 2015. dissertation. [Google Scholar]
  • 3.Knüpfer REN, Amaral A, Henning E. Análise Clássica de Testes: Uma Proposta de Análise de Desempenho dos Estudantes na Primeira Fase da OBMEP. Joinville: Universidade Federal de Santa Catarina; 2016. [Google Scholar]
  • 4.Oliveira ALS. Avaliação psicométrica da medida do componente de formação geral da prova do exame nacional de desempenho de estudantes (ENADE) de 2010, 2011 e 2012. Florianópolis: Universidade Federal de Santa Catarina; 2017. dissertation. [Google Scholar]
Arq Bras Cardiol. 2022 Nov 9;119(5 Suppl 1):6–13. [Article in English]

Psychometric Evaluation of the Cardiology Certification Exam of the Brazilian Society of Cardiology

Gustavo Eugênio Martins Marinho 1, José Maria Peixoto 2,3, José Knopfholz 4,5, Marcus Vinicius Santos Andrade 6,7,8

Abstract

Background

The Cardiology Certification Exam is issued annually by the Brazilian Cardiology Society and set and applied by the Judging Committee for the Cardiologist Title (CJTEC). The psychometric analysis of the exam items using the Item Response Theory (IRT) may provide robust data that can help in the continuous improvement of this instrument.

Objectives

To evaluate the psychometric properties of the 2019 Cardiology Certification Exam in relation to the IR parameters.

Methods

This was an observational study, with psychometric analysis of the 120 questions of the exam taken by 1,120 candidates for the title of Cardiologist in 2019.

Results

The IRT analysis revealed that 32.2% of the items had a “high” or “very high” discriminating power, 49.2% were categorized as “easy” or “very easy”, and 41.5% showed a high probability of a correct guessing. Sixty-nine deficient items in terms of the IRT parameters were identified, which were then considered poorly effective in evaluating the candidate’s ability.

Conclusions

The psychometric analysis of the 2019 Cardiology Certification Exam by the IRT revealed a high percentage of easy questions, with nearly two thirds of the items with a high probability of correct guessing. These data may serve as a basis for a series of discussions and proposals for the elaboration of future certificate exams in Cardiology.

Keywords: Specialization, Cardiology, Psychometrics

Introduction

The title of specialist has become a constant goal among Brazilian physicians. The reasons range from knowledge gain, prerequisite to participate in public calls, to becoming a member of medical cooperatives in the labor market, evidencing that medical titles enhance both professional status and the prestige of the specialty.

The Cardiology Certification Exam (CCE) has been issued by the Brazilian Cardiology Society (SBC) since 1968, but was legalized only in 1989 by the Brazilian Medical Association (AMB) and the Federal Council of Medicine (CFM) by the 1286/89 resolution. In this context, in 1992, the Judging Committee for the Cardiologist title (CJTEC) was created.1

The CCE consists of 120 multiple-choice questions with five choices with one correct answer each. There is a concern regarding the difficulty level of the questions, and in this respect, the CJTEC classify them as highly, moderately or little difficult. However, this classification has been done subjectively, i.e ., according to the opinion of the CJTEC members, without the use of a psychometric methodology that evaluates the degree of difficulty faced by the applicants.2

The item response theory (IRT) has been recently used as a psychometric method for the analysis and interpretation of the results in different scenarios of exams and public calls.2

So far, the CCE has not undergone a psychometric test, and considering the importance of this exam, it is essential to know whether this method of evaluation provides a reliable and coherent measure from the technical point of view. Based on this, this study aimed to assess the psychometric properties of the 2019 CCE in relation to the IRT.

Methods

Study design

This was an observational study, with psychometric analysis of 120 questions of the CCE taken by 1,120 applicants to obtain the title of cardiologist. The CCE was administered on October 27, 2019, from 13h to 18h at the Universidade Privada de São Paulo.

Inclusion and exclusion criteria

All the answer keys delivered by the candidates who applied for the CCE in 2019 were included. After the appealing phase, two questions and one exam from an applicant who answered only two questions of the test were excluded.

Sample

After the exclusion of two questions in the appealing phase, the sample consisted of answer keys of 118 questions, answered by physicians who applied for the CCE in 2019.

Data Collection

Data were collected from the database of the agency responsible for elaborating the exam (Segmento Farma Editores Ltda., with the help of Simples Detalhe Assessoria, Planejamento e organização de Eventos Ltda. and Picsis informática indústria e comércio Ltda.) and plotted in Excel spreadsheets.

Separate spreadsheets were then generated, with identification data and exam scores. The names of the candidates were deleted from the spreadsheets for the sake of confidentiality, and the applicants were identified by numbers.

Ethical aspects

Informed consent was waived since secondary databases were used, i.e. without participants’ identification. However, to construct the database, a consent form for the use of the data was signed, which was first sent to the SBC and then to the ethics committee (approval number 4.030.702).

Statistical analysis

We performed a psychometric assessment of the 2019 CCE, offered by the SBC, using the IRT. The IRT aims to determine the applicant’s ability level (latent trait, theta [θ]), and the probability that a person with a given ability level will answer correctly a set of items according to their difficulty level.

For analysis of the latent trait, the IRT assesses the following parameters:

  1. Item Discrimination (a): performance of the item in differentiating between individuals possessing different levels of ability;

  2. Item Difficulty (b): minimum ability that a respondent must possess to be very likely to answer correctly;

  3. Guessing (ci): probability of a low-proficient respondent answering correctly an item.

Therefore, the IRT attempts to measure unobservable variables (latent trait) that may influence the answers given to the items, by measuring observed variables (responses). Thus, IRT establishes a relationship or the respondent’s ability and the item parameters with the probability of endorsing the correct answer for an item. The higher the person’s ability, the higher the respondent’s probability of answering correctly the instrument’s items.

Two important assumptions of the IRT are Unidimensionality, that assumes that there is only one latent trait (θ) affecting the responses observed for the items in the measure, and Local Independence, that assumes that the individual’s performance in separate items is mutually independent, since each answer is given according to the dominant ability (θ) to that item.

In Brazil, the most widely used IRT model is the unidimensional three-parameter logistic model. The unidimensional models with one or two parameters are not suitable for the analysis in the present study, since the results obtained from the three-parameter model revealed a great variation in the guessing item between the 120 questions of the exam applied in 2019.

IRT calculation methods:

Unidimensional three-parameter logistic model

PUij=1θj=ci+1ci11+eDaiθjbi

with i = 1, 2, ..., I and j = 1, 2, ..., n, where:

  • - U ij is a dichotomous variable that corresponds to 1, when the respondent j answers correctly the item i, or 0 when the respondent does not answer the item i correctly.

  • - θ j represents the ability (latent trait) of the respondent number j.

  • - P(U ij =1 | θ j ) is the probability of the individual j with a θj ability to answer correctly the item i, and is called Item Response Function (IRF).

  • - b i is the difficulty (or position) parameter, measured on the same scale as ability.

  • - a i is the discrimination (or inclination) parameter of the item i, which is proportional to the inclination of the item characteristic curve (ICC) in the point bi

  • - c i is the parameter that represents the probability of low-ability individuals answering correctly the item i by chance (often referred as the correct guessing probability)

  • - D is a scale factor, constant (=1).

Values of the a, b and c parameters are calculated by pre-testing (calibration) using the maximum likelihood ( L ) method, which works with derivatives and is defined as:

Lu1su2s,unsθ=i=1nPi(θs)usiQi(θs)1usi

The maximum likelihood ( L ) works with derivatives.

Where:

  • - i = 1, 2, ..., n items

  • - u is = response of the individual to each item (1 = correct, 0 = wrong)

To calculate the ability/ proficiency of the applicant, we have first to determine the maximum value of the function above. First, the probability of correct responses [(Pi(θ)] of each item is determined using one of the three IRT models – 1PL, 2PL or 3PL. In the present study, the three-parameter model (3PL) was used. Then, θ is empirically substituted with values ranging from -5 to +5 (-5,00 ≤ θ ≤ +5,00, usually -3,00 ≤ θ ≤ +3,00), or the Newton-Raphson iteration algorithm is used to calculate the maximum of the L function. Based on the θ, this maximum represents the applicant’s ability/proficiency.

Item characteristic curve (ICC)

The mathematical model that defines IRT is a probability function. Therefore, it will always be visualized within the interval [0,1]. The number Uij=1|θj) can be identified by the proportion of correct answers to the item I in the group of individuals with ability θj. This ability is described as a sigmoid curve, where the horizontal axis represents the ability level and the vertical axis the probability of the individual with ability θj to give a correct response to the item i. Two horizontal asymptotes can be highlighted, and three parameters can be seen with some accuracy.

Item information curve – I(θ)

Informatics accuracy is the degree of accuracy in which the item represents what it intends to measure. In this context, accuracy means how well the item predicts the criterion or represents the latent trait (θ). Thus, the IRT information function follows the calculation of the estimation error, that is, how much the score obtained by an individual in a test differs from the real score. The concept of information function itself is the reciprocal of variance, i.e ., I = 1/S2. The information function corresponds to the concept of factorial load of the item of the factorial analysis, from the latent trait model perspective, since the factorial load represents the covariance between the item (behavioral representation) and the latent trait (theta). The test information curve depicts the amount of information yielded by the test at any ability level; it presents the amplitude of theta to which the test provides reliable information, and out of which the test provides more erroneous than correct information about theta. Thus, the information curve has an interface to both test parameters, i.e., validity and accuracy, but is not cofounded by any of them. Representation of the information item resemble a normal-type (bell-shape) curve.

In the present analysis, a rate of correct guessing ≥ 25% in an item of the exam was considered unsatisfactory. Then, of the 1,120 exams, 5% of correct guessing higher than the expected rate (20%) is considered very high, and thus the item evaluated has some problem in its formulation or in the answer choices. The correct guessing can be seen by the lack of coherence of the candidate in answering incorrectly easy questions or, in contrast, answering correctly difficult questions, with no ability for it.

Results

We present the results obtained from the psychometric analysis of 118 items of the exam the candidates applying for the CCE in 2019, using a three-parameter unidimensional logistic model of IRT: discrimination (a), difficulty (b) and guessing (c).

In the analysis, one item (question number 110) revealed a negative level for the discrimination parameter ( a = - 0.174), suggesting that the higher the respondent’s knowledge level, the lower the probability of correct answer, which is inconsistent with the objective of the parameter. For this reason, this item was not included in the final analysis.

Table 1 presents the distribution of the 118 items of the exam by their discriminating power. Of these items, 18.7% showed a very low or low discriminating power (a ≤ 0.65); 49.1% showed moderate discriminating power (0.651 < a ≤ 1.350) and 32.2% showed high or very high discriminating power (a ≥ 1.351).

Table 1. Distribution of the exam items by the item response theory (IRT) discrimination parameter.

Classification of the discriminating power (a) Frequency (n) %
≤ 0,35 (very low) 12 10.2
0.351 - 0.650 (low) 10 8.5
0.651 - 1.350 (moderate) 58 49.1
1.351 - 1.700 (high) 25 21.2
> 1.700 (very high) 13 11.0
Total 118 100.0

Database: 1,120 candidates. Note: Two items cancelled (items 23 and 46)

Table 2 presents the distribution of the 118 items of the exam according to the difficulty parameter. Of these items, 49.2% were classified as easy or very easy (b < -0,52); 22.0% were moderately difficult (-0.51 ≤ b ≤ 0.51); and 28.8% were classified as difficult or very difficult (b ≥ 0.52).

Table 2. Distribution of the exam items by the item response theory (IRT) difficulty parameter.

Classification of the difficulty parameter (b) Frequency (n) %
≤ -1.28 (very easy) 31 26.3
-1.27 – -0.52 (easy) 27 22.9
-0.51 - 0.51 (moderate) 26 22.0
0.52 – 1.27 (difficult) 19 16.1
≥ 1.28 (very difficult) 15 12.7
Total 118 100.0

Source: The authors; database: 1,120 candidates. Note: Two items cancelled (items 23 and 46).

Table 3 presents the distribution of the 118 items of the exam according to the guessing parameter. Of these, 41.5% of the items showed a high probability of guessing correctly according to the IRT methodology.

Table 3. Distribution of the exam items by the percentage of correct guessing according to the item response theory (IRT).

Percentage of correct guessing (c) Frequency (n) %
≤ 10.0% 48 40.7
10.1 - 25.0% 21 17.8
25.1 - 40.0% 20 16.9
40.1 - 60.0% 19 16.1
> 60.0% 10 8.5
Total 118 100.0

Source: The authors; database: 1,120 candidates. Note: Two items cancelled (items 23 and 46).

According to the ICC and the information curve, 58.5% and 78.8% of the items, respectively, were considered unsatisfactory ( Table 4 ).

Table 4. Distribution of the exam items according to the item characteristic curve and the information curve of the item response theory.

Item characteristic curve Frequency (n) %
Satisfactory 49 41.5
Unsatisfactory 69 58.5
Information curve Frequency (n) %
Satisfactory 93 78.8
Unsatisfactory 25 21.2

Source: The authors; database: 1,120 candidates. Note: Two items cancelled (items 23 and 46).

Individual analysis of the exam items by the IRT identified 69 deficient items in relation to the three parameters, that were then considered to have a low probability of providing information about the latent trait (θ), which evaluates the ability of the candidate. Thus, the other 49 items were analyzed by the IRT and compared with the initial model composed of 118 items.

Figure 1 shows the ICC considering the 118 items by the IRT method. The results showed that the higher the applicant’s ability (θ), the higher the number of correct answers. It is expected that a medium-ability respondent answers approximately 80 (out of 118, 67.8%) items correctly. In addition, a very low-ability candidate (θ < -4.0) is expected to answer at least 36 (out of 118, 30.5%) items correctly.

Figure 1. Score: T(θ) – of each respondent, estimated by the item response theory (IRT) considering a total of 118 exam items, according to the candidate’s ability (θ).

Figure 1

The information curve ( Figure 2 ) for the 118 items showed that the maximum amount of information about the logical reasoning of the candidate was near the median ability, i.e ., θ near zero. Besides, for the extreme values of θ, the exam produces more information error than legitimate information, and the maximum information generated by the exam is within θ values between -3.2 and +3.1.

Figure 2. Information curve: I(θ) – and standard error of each candidate, generated by the item response theory, according to the respondent’s ability (θ).

Figure 2

Figure 3 shows the ICC for the 49 items remaining after the items with problems related to the IRT were excluded. The result shows that the higher the ability (θ) the higher the number of correct responses. Thus, it is expected that a 0-ability candidate (θ = 0 – median ability, -1 < θ < +1) answers approximately 32 questions (out of 49, 65.3%) correctly, and a very low-ability candidate (θ < -4.0) answers at least four (out of 49, 8.2%) correctly. Therefore, considering the IRT data for the 49 items, the candidates will require a higher ability level (θ) than that required for the 118 exam items.

Figure 3. Score: T(θ) – of each respondent, estimated by the item response theory (IRT) considering a total of 118 exam items, according to the candidate’s ability (θ).

Figure 3

The information curve ( Figure 4 ) for the 49 items showed that the maximum amount of information about the logical reasoning of the candidate was also near the median ability, i.e., θ near zero. Besides, for the extreme values of θ, the exam produces more information error than legitimate information, and the maximum information generated by the exam is within θ values between -4.0 and +3.2.

Figure 4. Information curve: I(θ) – and standard error generated by the item response theory, considering the 49 exam items.

Figure 4

Figure 5 depicts the results of ability generated by the IRT, considering the 49 items excluded from the exam initially applied. As can be seen, the mean ability level of the candidates shows a normal distribution, illustrated by a Gaussian pattern of data distribution.

Figure 5. Results of ability generated by the item response theory.

Figure 5

Source: The authors.

Discussion

The aim of the present study was to analyze the items of the 2019 CCE regarding the psychometric parameters using the IRT. So far, the only known parameter was the degree of difficulty of the questions, categorized as easy, moderately difficult, or difficult, based on the knowledge and experience of the CJTEC members, who participated in the test formulation. However, this method of evaluation is subjective and lacks validity.

Regarding the discrimination parameter, only 32.2% of the items showed a “high” or “very high” discriminating power. This is a relevant information, since the discrimination of an item is related to its capacity to identify candidates with different ability levels, as the parameter measures the probability of individuals with different ability levels to answer an item correctly. Similar data were observed in the Brazilian National Exam for the Assessment of Student Performance (ENADE, Exame Nacional de Desempenho dos Estudantes ) applied in 2010, 2011 and 2012. Psychometric analysis of these exams identified several questions with low discriminating power, providing technical contributions for the formulation of new items for the following exams.3 , 4

With respect to the difficulty parameter, 49.2% of the items were categorized by the IRT as “easy” or “very easy”, and only 22% as “moderately difficult”. This indicates that the CCE was unbalanced in terms of psychometry, which recommends the following proportion of the items by difficulty level – very easy (10%), easy (20%), moderately difficulty (40%), difficult (20%) and very difficult (10%).4 The proportion of “difficult” and “very difficult” items was adequate. It is of note that the 2019 CCE was predominantly composed of “easy” items.

As for the guessing parameter, 41.5% of the CCE items had high probability of correct guessing. This is a high percentage considering the importance of the CCE. The ICC was unsatisfactory for 58.5% of the items and the information curve was satisfactory for 78.8% of the items, which indicates that answering correctly the items did not have a good correlation with the respondents’ ability, although it was able to measure the latent trait.

Individual analysis of the exam items identified 69 items with problems related to the IRT parameters and that were then considered to have a low probability of providing information about the candidates’ latent trait. Despite that, ICC was consistent regarding the candidate’s ability and the number of correct answers, i.e ., the higher the candidate’s ability, the higher the number of correct answers. Nevertheless, the ICC also revealed that low-ability respondents were able to answer up to 30.5% of the questions correctly. Similar result had been found in the 2016 Brazilian Mathematical Olympiad of Public Schools, in which 11 out of its 20 questions were deficient considering the classical test theory criteria.3

When the deficient items were removed from the original exam, the remaining 49 items were assessed as an “alternative model” of exam and maintained the same psychometric characteristics of the ICC of the original test and a normal distribution with the mean ability level of the candidates. However, with this model, the percentage of low-ability candidates who would answer the items correctly reduced from 30.5% to 8.2%. This significant reduction is attributed to a decrease in the percentage of correct guessing, which is a relevant result of the “alternative model” of exam, obtained by the IRT.

Therefore, psychometric parameters have mathematical measures, and their analysis in certification exams allows the improvement and construction of more “calibrated” instruments.

To the best of our knowledge, this is the first study to evaluate the psychometric characteristics of a specialist certification exam of the AMB, and the results will contribute to ideas and enhancement of this instrument. For this reason, we did not identify references of other medical societies or specialties to compare our results, although there are publications in other scenarios.

The present study opens the discussion about the current model of elaboration of the CCE. In this model, the items are constructed by a heterogeneous group of people, who do not discuss the exam as a unique instrument. Also, the annual exams do not have similar psychometric characteristics, which precludes their comparability over time.

In addition, our data contribute for the CJTEC to analyze the adequate number of questions of the CCE, since the IRT showed that an adjusted model of 49 items yielded the same certifying results. The possible reduction of the number of questions, when guided by psychometric methods, can produce an instrument able to discriminate, with greater accuracy, the candidates who are qualified for the title of cardiologist. Also, the exam would be less exhaustive, favoring a better performance of the candidates. Thus, the likelihood of passing the CCE due to a high percentage of correct answers by chance would be reduced, optimizing the identification of proficient professionals, able to give coherent answers in terms of the parameters evaluated.

Based on our findings and on the trends observed in other institutions where the IRT has been used for the selection of their exams’ items,4 this method can strongly impact the quality of the AMB specialty certification exams, contributing to the identification of candidates with the competencies expected for their practice.

The SBC supported this study, demonstrating its commitment in improving its professional certifying instrument, the CCE. The results of this unprecedented study are important for the technical improvement of the CCE items and will serve as a reference to other AMB specialty societies.

Limitations and perspectives

The present study has some limitations. First, better results of the IRT can be obtained if a database with previously calibrated items is used. However, this was not possible in our study, since this is the first one to evaluate the CCE, and probably the first to evaluate an AMB medical specialty certificate examination. Another limitation is related to the database used in the study. Although we have analyzed the CCE applied in 2019, all previous editions were independent despite having been elaborated using the same method. Thus, we cannot affirm that the results obtained from the present study can be extrapolated to previous years’ editions. However, we do believe that the study provides important contributions for the SBC and the AMB to make improvements in their exams.

Conclusion

This study allowed to determine the psychometric characteristics of the 2019 CCE by the IRT. The exam showed a high percentage of easy questions, with nearly one third of the questions with a high discriminating power and two thirds requiring improvements, as they had a high probability of correct guessing. The study suggests that an exam with a lower number of questions would show the same psychometric characteristics of the initial instrument, but with the potential to reduce the probability of guessing the answers correctly. These results contribute to the improvement of the CCE, an important certificate examination for the title of cardiologist in Brazil.

Study Association

This article is part of the thesis of master submitted by Gustavo Eugênio Martins Marinho, from Universidade José do Rosário Vellano (UNIFENAS).

thics approval and consent to participate

This article does not contain any studies with human participants or animals performed by any of the authors.

Sources of Funding: There were no external funding sources for this study.


Articles from Arquivos Brasileiros de Cardiologia are provided here courtesy of Sociedade Brasileira de Cardiologia

RESOURCES