Skip to main content
Jornal Vascular Brasileiro logoLink to Jornal Vascular Brasileiro
editorial
. 2020 Dec 11;19:e20200186. doi: 10.1590/1677-5449.200186
View full-text in Portuguese

Use of ROC curves in clinical and experimental studies

Tatiana Cristina Figueira Polo 1, Hélio Amante Miot 1,
PMCID: PMC8218006  PMID: 34211533

Decision-making in clinical practice and operationalization in research are both dependent on precise and objective definitions of phenomena or outcomes (e.g. sick vs. healthy, severe vs. mild, operable vs. inoperable). However, such classifications are not always direct or unequivocal and secondary elements may be needed for categorization. Moreover, several conditions have more than one system that can be used for diagnosis, such as diabetes mellitus (fasting glycemia vs. oral glucose tolerance test), critical ischemia (clinical parameters vs. percentage arterial obstruction), or depression (DSM V criteria vs. the Beck inventory), and each classification has different sensitivity and specificity.1-3

In truth, in the majority of cases the criteria used to classify outcomes are not completely predictive, leading to incorrect classification of a proportion of sick (false negatives) or healthy individuals (false positives), so it is important to compare the effectiveness of the different classification systems.

A series of statistical estimators are used to analyze the performance of classificatory models and one of the most widely used is the receiver operating characteristic (ROC) curve. This is a graphical representation of the performance of a quantitative data model plotting its sensitivity (proportion of true positives) against the proportion of false positives (1-specificity) for different test values.4,5 Classificatory systems based on clinical symptoms, diagnostic scales, radiological findings, assays of different substances and, primarily, choice of the optimal cutoff points to maximize the performance of diagnostic tests are the most common applications for ROC curves.6-11

Figure 1A illustrates an example of a hypothetical test with high sensitivity and high specificity for diagnostic classification. This hypothetical test (test 1) has two distribution curves for the test results of sick and healthy individuals. Point A1 is the value at which best performance is achieved, considering both false positive and false negative rates (the point of maximum entropy). In turn, point A2 offers maximum specificity, because values higher than this point will not classify any false negatives, while point A3 is the point at which greatest sensitivity is reached, since values below this point will not classify any false positives. A duplex scan of the carotid is one example of a test that has this type of performance, with findings that are highly predictive of carotid stenosis.12

Figure 1. A) Illustration of the distribution curves of results of a hypothetical test to classify patients as sick or healthy. B) ROC curve for the results of test 1 plotting sensitivity against false positive rate. Point A1 is the test value (cutoff point) with greatest sensitivity and specificity (greatest proximity to the upper-left corner of the graph). Point A2 is the test value above which maximum sensitivity is achieved (zero false positive). Point A3 is the point of maximum specificity, below which there will be no false negatives.

Figure 1

The ROC curve for test 1 (Figure 1B) illustrates how sensitivity and specificity vary as cutoff points change, making it easy to identify points A1, A2, and A3. As a cutoff point with higher sensitivity is chosen, the diagnostic classification is unavoidably penalized by lower specificity, and vice-versa.

The closer the ROC curve approaches to the top left corner of the graph, the better the quality of the test in terms of its capacity to discriminate between groups. Moreover, the diagonal reference line on the ROC graph equates to a totally random region, where a test is incapable of classifying either healthy or sick individuals (sensitivity = specificity).

It is also possible to compare the performance of two or more classificatory models (or diagnostic tests) simultaneously using their ROC curves. Figure 2 illustrates two other tests (tests 2 and 3) for classifying sick and healthy individuals. The results curves for test 2 (Figure 2A) illustrate that there is a certain degree of superimposition of values from cases over values from controls, but show that the test performs well at low values (high sensitivity). A D-dimer assay for diagnosis of deep venous thrombosis is one example of a test with this behavior: very low values safely rule out the disease, but high values need additional confirmation (risk of false positive).13

Figure 2. A and B) Illustration of the distribution curves for the results of tests (tests 2 and 3) to classify patients as sick or healthy. C) ROC curves for the results of Tests 1, 2, and 3, plotting their sensitivities against their false positive rates.

Figure 2

On the other hand, test 3 (Figure 2B) adequately classifies sick individuals (high specificity), but is compromised by the possibility of false negatives. The ankle-brachial index is one example of a test with this behavior, since it is highly predictive of cardiovascular outcomes when results are abnormal, but normal results do not rule out this risk.14 Plotting the ROC curves for tests 1, 2, and 3 (Figure 2C) on the same graph demonstrates at which values sensitivity is optimized as a function of specificity.

In addition to analysis of points along the curve itself, ROC curves can also be used to indicate the dimension of an effect. The indicator most used is the area under the curve (AUC). The AUC is the result of integration of all of the points along the path of the curve and simultaneously computes sensitivity and specificity, offering an estimator of the overall behavior and accuracy of a test.15 The AUC offers an estimation of the probability of correctly classifying a random subject (test accuracy); an AUC of 0.7 indicates a 70% likelihood of correctly classifying the case. In general, AUC values are interpreted as follows: 0.5-0.6 (failed), 0.6-0.7 (worthless), 0.7-0.8 (poor), 0.8-0.9 (good), > 0.9 (excellent).5 There are various algorithms for calculating the AUC: if the ROC curve follows a smooth, curved, and symmetrical path (e.g. Figure 1B), a parametric estimator can be used, but if the curve has “steps” and asymmetries, then a non-parametric method must be chosen, which is more common in biomedical experiments.

The sensitivity and specificity points and the AUC estimate all have inferential properties with standard errors that are dependent on their effect sizes and the sample size. AUC statistics should therefore be presented together with their 95% confidence intervals, enabling comparison with the null hypothesis, for which AUC = 0.5.15

In Figure 2C, it can be observed that test 1 has the best overall performance, with an AUC of 0.96 (95% confidence interval [CI) 0.95-0.97; p < 0.01]. The AUC for test 2 is 0.77 (95%CI 0.75-0.79; p < 0.05) and the AUC for test 3 is 0.87 (95%CI 0.85-0.89; p < 0.05).

There are several circumstances in which a test may be chosen for its high sensitivity, even having low specificity (or vice-versa), if it is cheaper or more accessible, which is the case of rapid tests for HIV screening.16 In the examples, tests 2 and 3 achieve high sensitivity or specificity using specific cutoff values, even though overall performance is not superior to test 1.5 Researchers should therefore be careful not to generalize the AUC value as the only measure of test utility. In such situations a partial AUC value can even be calculated, within a set range of test values, maximizing comparability between different classification methodologies. However, such analyses are beyond the scope of this text.17-20

Construction of a ROC curve is not dependent on data following a normal distribution and is not substantially affected by sample asymmetry of positive or negative cases. However, it is fundamentally dependent on unequivocal a priori classification of cases and controls, generally using a gold standard diagnostic test or examination (e.g., autopsy or pathology).5,21,22 Sample size estimation for studies using ROC curves are primarily dependent on type I and II (power) errors and the estimated AUC for each test.23,24 Sample sizes and the most important characteristics of ROC curves can be estimated on-line using tools available on the easyROC website (http://www.biosoft.hacettepe.edu.tr/easyROC/).23,25

Use of ROC curves has been extended to evaluation of the performance of multivariate models for diagnosis, prognosis, machine learning (e.g., image or voice recognition), and data mining. Recently, Amato et al.26 conducted a cross-sectional study using clinical information and a bank of images from 110 patients who had undergone angiotomography of the aorta to predict identification of the artery of Adamkiewicz. Using multivariate analysis, they constructed a predictive model and evaluated its discriminatory properties using a ROC curve, showing that it enabled correct identification in 61% of the patients using a combination of nine covariates.

It is also possible to use ROC curves to represent ordinal classifications (e.g., mild, moderate, severe; stage I-IV; intensity from 0 to 4+), rather than binary classes,27 for two or more simultaneous classifications (ROC surface),28-30 and the results of ROC curves can be adjusted for other covariates using multivariate models (e.g., multiple logistic regression).31 However, these procedures demand input from an experienced statistician.

Finally, ROC curves are a very robust and intuitive option for description and comparison of classification models, in addition to providing support for choice of cutoff points to optimize categorization of phenomena. When employed in research, the parameters used must be precisely described in the methodology.

Footnotes

How to cite: Polo TCF, Miot HA. Use of ROC curves in clinical and experimental studies. J Vasc Bras. 2020;19: e20200186. https://doi.org/10.1590/1677-5449.200186

Financial support:None.

REFERENCES

  • 1.Forkmann T, Vehren T, Boecker M, Norra C, Wirtz M, Gauggel S. Sensitivity and specificity of the Beck Depression Inventory in cardiologic inpatients: How useful is the conventional cut-off score? J Psychosom Res. 2009;67(4):347–352. doi: 10.1016/j.jpsychores.2009.04.003. [DOI] [PubMed] [Google Scholar]
  • 2.Rodríguez-Morán M, Guerrero-Romero F. Fasting plasma glucose diagnostic criterion, proposed by the American Diabetes Association, has low sensitivity for diagnoses of diabetes in Mexican population. J Diabetes Complications. 2001;15(4):171–173. doi: 10.1016/S1056-8727(01)00150-7. [DOI] [PubMed] [Google Scholar]
  • 3.De Los Monteros AE, Parra A, Hidalgo R, Zambrana M. The after breakfast 50-g, 1-hour glucose challenge test in urban Mexican pregnant women: its sensitivity and specificity evaluated by three diagnostic criteria for gestational diabetes mellitus. Acta Obstet Gynecol Scand. 1999;78(4):294–298. doi: 10.1034/j.1600-0412.1999.780404.x. [DOI] [PubMed] [Google Scholar]
  • 4.Hoo ZH, Candlish J, Teare D. What is an ROC curve? Emerg Med J. 2017;34(6):357–359. doi: 10.1136/emermed-2017-206735. [DOI] [PubMed] [Google Scholar]
  • 5.Metz CE. Basic principles of ROC analysis. Semin Nucl Med. 1978;8(4):283–298. doi: 10.1016/S0001-2998(78)80014-2. [DOI] [PubMed] [Google Scholar]
  • 6.Corey D, Chang CK, Cembrowski GS. Disheartened: need ROC curve. Am J Clin Pathol. 1984;81(4):542–544. doi: 10.1093/ajcp/81.4.542b. [DOI] [PubMed] [Google Scholar]
  • 7.Barraclough K. Diagnosis: shifting the ROC curve. Br J Gen Pract. 2012;62(602):452–453. doi: 10.3399/bjgp12X653796. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 8.Sherwood EM, Bartels PH, Wied GL. Feature selection in cell image analysis: use of the ROC curve. Acta Cytol. 1976;20(3):255–261. [PubMed] [Google Scholar]
  • 9.Kumar R, Indrayan A. Receiver operating characteristic (ROC) curve for medical researchers. Indian Pediatr. 2011;48(4):277–287. doi: 10.1007/s13312-011-0055-4. [DOI] [PubMed] [Google Scholar]
  • 10.Park SH, Goo JM, Jo CH. Receiver operating characteristic (ROC) curve: practical review for radiologists. Korean J Radiol. 2004;5(1):11–18. doi: 10.3348/kjr.2004.5.1.11. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 11.Wei RJ, Li TY, Yang XC, Jia N, Yang XL, Song HB. Serum levels of PSA, ALP, ICTP, and BSP in prostate cancer patients and the significance of ROC curve in the diagnosis of prostate cancer bone metastases. Genet Mol Res. 2016;15(2):15. doi: 10.4238/gmr.15027707. [DOI] [PubMed] [Google Scholar]
  • 12.Jahromi AS, Cina CS, Liu Y, Clase CM. Sensitivity and specificity of color duplex ultrasound measurement in the estimation of internal carotid artery stenosis: A systematic review and meta-analysis. J Vasc Surg. 2005;41(6):962–972. doi: 10.1016/j.jvs.2005.02.044. [DOI] [PubMed] [Google Scholar]
  • 13.Stein PD, Hull RD, Patel KC, et al. D-dimer for the exclusion of acute venous thrombosis and pulmonary embolism: a systematic review. Ann Intern Med. 2004;140(8):589–602. doi: 10.7326/0003-4819-140-8-200404200-00005. [DOI] [PubMed] [Google Scholar]
  • 14.Doobay AV, Anand SS. Sensitivity and specificity of the ankle-brachial index to predict future cardiovascular outcomes: a systematic review. Arterioscler Thromb Vasc Biol. 2005;25(7):1463–1469. doi: 10.1161/01.ATV.0000168911.78624.b7. [DOI] [PubMed] [Google Scholar]
  • 15.Hanley JA. Receiver operating characteristic (ROC) methodology: the state of the art. Crit Rev Diagn Imaging. 1989;29(3):307–335. [PubMed] [Google Scholar]
  • 16.Koblavi-Deme S, Maurice C, Yavo D, et al. Sensitivity and specificity of human immunodeficiency virus rapid serologic assays and testing algorithms in an antenatal clinic in Abidjan, Ivory Coast. J Clin Microbiol. 2001;39(5):1808–1812. doi: 10.1128/JCM.39.5.1808-1812.2001. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 17.Hsu MJ, Chang YC, Hsueh HM. Biomarker selection for medical diagnosis using the partial area under the ROC curve. BMC Res Notes. 2014;7(1):25. doi: 10.1186/1756-0500-7-25. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 18.Ma H, Bandos AI, Rockette HE, Gur D. On use of partial area under the ROC curve for evaluation of diagnostic performance. Stat Med. 2013;32(20):3449–3458. doi: 10.1002/sim.5777. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 19.Walter SD. The partial area under the summary ROC curve. Stat Med. 2005;24(13):2025–2040. doi: 10.1002/sim.2103. [DOI] [PubMed] [Google Scholar]
  • 20.McClish DK. Analyzing a portion of the ROC curve. Med Decis Making. 1989;9(3):190–195. doi: 10.1177/0272989X8900900307. [DOI] [PubMed] [Google Scholar]
  • 21.Miot HA. Assessing normality of data in clinical and experimental trials. J Vasc Bras. 2017;16:88–91. doi: 10.1590/1677-5449.041117. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 22.Miot HA. Agreement analysis in clinical and experimental trials. J Vasc Bras. 2016;15:89–92. doi: 10.1590/1677-5449.004216. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 23.Kawada T. Sample size in receiver-operating characteristic (ROC) curve analysis. Circ J. 2012;76(3):768. doi: 10.1253/circj.CJ-11-1408. [DOI] [PubMed] [Google Scholar]
  • 24.Hanley JA, McNeil BJ. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology. 1983;148(3):839–843. doi: 10.1148/radiology.148.3.6878708. [DOI] [PubMed] [Google Scholar]
  • 25.Goksuluk D, Korkmaz S, Zararsiz G, Karaagaoglu AE. easyROC: An interactive web-tool for ROC curve analysis using R language environment. R J. 2016;8(2):213–230. doi: 10.32614/RJ-2016-042. [DOI] [Google Scholar]
  • 26.Amato ACM, Parga JR, Filho, Stolf NAG. Development of a clinical model to predict the likelihood of identification of the Adamkiewicz artery by angiotomography. J Vasc Bras. 2018;17:19–25. doi: 10.1590/1677-5449.006317. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 27.Miot HA. Analysis of ordinal data in clinical and experimental studies. J Vasc Bras. 2020;19:e20200185. doi: 10.1590/1677-5449.200185. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 28.Yang H, Carlin D. ROC surface: A generalization of ROC curve analysis. J Biopharm Stat. 2000;10(2):183–196. doi: 10.1081/BIP-100101021. [DOI] [PubMed] [Google Scholar]
  • 29.Ramos PM, Gumieiro JH, Miot HA. Association between ear creases and peripheral arterial disease. Clinics (São Paulo) 2010;65(12):1325–1327. doi: 10.1590/S1807-59322010001200016. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 30.Miot HA, Medeiros LMd, Siqueira CRS, et al. Association between coronary artery disease and the diagonal earlobe and preauricular creases in men. An Bras Dermatol. 2006;81:29–33. doi: 10.1590/S0365-05962006000100003. [DOI] [Google Scholar]
  • 31.Schisterman EF, Faraggi D, Reiser B. Adjusting the generalized ROC curve for covariates. Stat Med. 2004;23(21):3319–3331. doi: 10.1002/sim.1908. [DOI] [PubMed] [Google Scholar]
J Vasc Bras. 2020 Dec 11;19:e20200186. [Article in Portuguese]

Aplicações da curva ROC em estudos clínicos e experimentais

Tatiana Cristina Figueira Polo 1, Hélio Amante Miot 1,

Tanto as decisões da prática clínica como a operacionalização da pesquisa dependem de definições precisas e objetivas dos fenômenos ou dos desfechos (p. ex., doente vs. saudável, grave vs. leve, operável vs. inoperável). Entretanto, nem sempre essa classificação é direta ou inequívoca, podendo necessitar de elementos secundários para a categorização. Muitas condições, ainda, apresentam diferentes sistemas de diagnósticos, como diabetes mellitus (glicemia de jejum vs. teste oral de tolerância à glicose), isquemia crítica (parâmetro clínico vs. percentual de obstrução arterial) ou depressão (critérios DSM V vs. escala de Beck), o que repercute em diferentes sensibilidades e especificidades para cada classificação1-3.

Na verdade, na maior parte dos casos, os critérios utilizados para a classificação de desfechos não são completamente preditivos, levando à categorização incorreta de uma fração de doentes (falsos negativos) ou de indivíduos saudáveis (falsos positivos), tornando importante a comparação da eficiência dos sistemas classificatórios empregados.

Há uma série de estimadores estatísticos que são empregados na análise do desempenho de modelos classificatórios, e um dos mais utilizados é a curva ROC (receiver operating characteristic), que consiste em uma representação gráfica da performance de um modelo de dados quantitativos segundo sua taxa de sensibilidade (fração dos verdadeiros positivos) e a fração dos falsos positivos (1-especificidade), segundo diferentes valores do teste4,5. Sistemas classificatórios baseados em sintomas clínicos, escalas diagnósticas, achados radiológicos, dosagens de substâncias e, principalmente, escolha de pontos de corte para otimizar o desempenho de exames diagnósticos são as indicações mais usuais das curvas ROC6-11.

A Figura 1A exemplifica a representação de um exame de alta sensibilidade e alta especificidade para a classificação diagnóstica. Um teste hipotético (teste 1) apresenta duas curvas de distribuição de resultados para doentes e saudáveis. O ponto A1 representa o valor com melhor desempenho, considerado taxas de falsos positivos e falsos negativos (ponto de máxima entropia). O ponto A2 apresenta a maior especificidade, pois os valores superiores a ele não classificam nenhum falso negativo. Já o ponto A3 apresenta a maior sensibilidade, e os valores inferiores a ele não classificam nenhum falso positivo. Um exemplo de teste com essa performance é o dúplex de carótida, com alta preditividade de seus achados para estenose de carótida12.

Figura 1. A) Representação das curvas de distribuição de resultados para um teste hipotético que visa classificar pacientes como doentes ou saudáveis. B) Curva ROC dos resultados do teste 1 segundo sua sensibilidade e taxa de falsos positivos. O ponto A1 representa o valor do teste (ponto de corte) com maiores sensibilidade e especificidade (maior proximidade do canto superior esquerdo do gráfico). O ponto A2 representa o valor do teste a partir do qual se atinge a máxima sensibilidade (ausência de falsos positivos). O ponto A3 é o valor de máxima especificidade, abaixo do qual não deve haver falsos negativos.

Figura 1

A curva ROC do teste 1 (Figura 1B) possibilita acompanhar a variação da sensibilidade e da especificidade à medida que evoluem os pontos de corte, permitindo identificar facilmente os pontos A1, A2 e A3. À medida que se escolhe um ponto de corte com maior sensibilidade, necessariamente, se penitencia a classificação diagnóstica por sua menor especificidade e vice-versa.

Quanto mais a curva ROC se aproxima do canto superior esquerdo, melhor é a qualidade do teste quanto à capacidade para discriminar os grupos. Ainda, a linha de referência diagonal da curva ROC representa uma região de completa aleatoriedade do teste, incapaz de classificar tanto doentes como saudáveis (sensibilidade = especificidade).

É também possível comparar o desempenho de dois ou mais modelos classificatórios (ou exames diagnósticos), simultaneamente, a partir de suas curvas ROC. A Figura 2 acrescenta dois outros testes (testes 2 e 3) para classificar doentes e saudáveis. As curvas dos resultados do teste 2 (Figura 2A) mostram certa sobreposição entre os valores dos casos e controles, porém, apresentam um bom desempenho para valores baixos (alta sensibilidade). Um exemplo de exame com esse comportamento é a dosagem do dímero-D para o diagnóstico da trombose venosa profunda: valores muito baixos excluem o diagnóstico com segurança, enquanto valores altos exigem comprovação adicional (risco de falsos positivos)13.

Figura 2. A e B) Representação das curvas de distribuição de resultados para testes (testes 2 e 3) que visam classificar pacientes como doentes ou saudáveis. C) Curva ROC dos resultados dos Testes 1, 2 e 3 segundo as suas sensibilidades e taxas de falso-positivos.

Figura 2

O teste 3 (Figura 2B), por outro lado, classifica adequadamente os doentes (alta especificidade), mas é comprometido pela possibilidade de inclusão de falsos negativos. Um exemplo de exame com esse comportamento é o índice tornozelo-braquial, que apresenta grande preditividade de desfechos cardiovasculares quando seus resultados estão alterados, mas resultados normais não afastam o risco14. As curvas ROC dos testes 1, 2 e 3 (Figura 2C) permitem evidenciar, simultaneamente, os valores para os quais existe maior otimização da sensibilidade em função da especificidade.

Além da análise dos pontos da curva propriamente dita, é possível utilizar um indicador de dimensão do efeito para as curvas ROC. O mais empregado é a área sob a curva [area under the curve (AUC)]. A AUC é o resultado da integração de todos os pontos durante o trajeto da curva, e computa simultaneamente a sensibilidade e a especificidade, sendo um estimador do comportamento da acurácia global do teste15. A AUC fornece uma estimativa da probabilidade de classificação correta de um sujeito ao acaso (acurácia do teste); uma AUC de 0,7 reflete uma chance de classificação correta de 70% do caso. De forma geral, os valores da AUC são interpretados como: 0,5-0,6 (péssimo), 0,6-0,7 (ruim), 0,7-0,8 (pobre), 0,8-0,9 (bom), > 0,9 (excelente)5. Há diferentes algoritmos para calcular a AUC: quando a curva ROC tem trajeto curvilíneo simétrico e suave (p.ex., Figura 1B), pode-se empregar a estimativa paramétrica; por outro lado, quando a curva apresenta “degraus” e assimetrias, deve-se optar pelo método não-paramétrico, que é mais usual em experimentos biomédicos.

Tanto os pontos de sensibilidade e especificidade como a estimativa da AUC possuem propriedades inferenciais cujos erros-padrão dependem das suas dimensões do efeito e do tamanho da amostra. As estatísticas da AUC devem ser referidas, portanto, segundo seu intervalo de confiança de 95%, permitindo sua comparação com a hipótese nula, de AUC = 0,515.

Na Figura 2C, pode-se observar que o teste 1 apresenta melhor desempenho global, e a sua AUC é de 0,96 [intervalo de confiança (IC) 95% 0,95-0,97; p < 0,01]. Já para o teste 2, a AUC é de 0,77 (IC 95% 0,75-0,79; p < 0,05); e, no teste 3, a AUC é de 0,87 (IC 95% 0,85-0,89; p < 0,05).

Há diversas circunstâncias em que um teste pode ser optado por sua alta sensibilidade, mesmo com menor especificidade (ou vice-versa), desde que sejam mais baratos ou disponíveis, como ocorre com os testes rápidos para triagem do HIV16. No caso dos testes 2 e 3, eles atingem alta sensibilidade ou especificidade a partir de certos valores de corte, apesar de não apresentarem comportamento global superior ao teste 15. Por esse motivo, o pesquisador deve estar atento para não generalizar unicamente o valor de AUC como a utilidade do teste. Nessas situações, é possível, inclusive, calcular o valor parcial da AUC, dentro de uma faixa de valores do teste, o que maximiza a comparação de diferentes metodologias classificatórias. Entretanto, essa análise ultrapassa o escopo deste texto17-20.

A construção de uma curva ROC não depende de que os dados apresentem distribuição normal e não é substancialmente afetada pela assimetria amostral de casos positivos ou negativos. Entretanto, depende fundamentalmente da inequívoca classificação a priori de casos e controles, geralmente a partir de um exame padrão-ouro para o diagnóstico (p.ex., autópsia ou anatomopatologia)5,21,22. A estimativa do tamanho de amostra de estudos que utilizem curvas ROC depende principalmente dos erros tipo I, II (poder) e da AUC estimada para cada teste23,24. O tamanho amostral e as principais características de curvas ROC podem ser estimados on-line a partir do site easyROC (http://www.biosoft.hacettepe.edu.tr/easyROC/)23,25.

O emprego das curvas ROC foi estendido para a avaliação do desempenho de modelos multivariados para diagnósticos, prognósticos, aprendizado de máquinas (p.ex., reconhecimento de imagens ou de voz) e mineração de dados. Recentemente, Amato et al.26 conduziram um estudo transversal que utilizou informações clínicas e um banco de imagens de 110 pacientes submetidos a angiotomografias de aorta para prever a identificação da artéria de Adamkiewicz. A partir da análise multivariada, foi criado um modelo de predição cuja discriminação foi avaliada pela curva ROC, permitindo a correta identificação em 61% dos pacientes a partir da combinação de nove covariáveis.

É possível ainda se utilizar curvas ROC para representar classificações ordinais (p.ex., leve, moderado e grave; estágio I-IV; intensidade 0 a 4+) ao invés de binárias27, para duas ou mais classificações simultâneas (ROC surface)28-30, assim como se pode ajustar o resultado de curvas ROC para outras covariáveis a partir de modelos multivariados (p.ex., regressão logística múltipla)31. Esses procedimentos, no entanto, demandam a assistência de um estatístico experiente.

Finalmente, as curvas ROC são alternativas bastante robustas e intuitivas para a descrição e comparação de modelos classificatórios, além de subsidiar a escolha de pontos de corte para otimizar a categorização de um fenômeno. Seu emprego na pesquisa exige descrição precisa na metodologia quanto aos parâmetros de uso.

Footnotes

Como citar: Polo TCF, Miot HA. Aplicações da curva ROC em estudos clínicos e experimentais. J Vasc Bras. 2020;19: e20200186. https://doi.org/10.1590/1677-5449.200186

Fonte de financiamento: Nenhuma.


Articles from Jornal Vascular Brasileiro are provided here courtesy of Sociedade Brasileira de Angiologia e Cirurgia Vascular

RESOURCES