Skip to main content
Revista de Neurología logoLink to Revista de Neurología
. 2024 Jul 1;79(1):31–33. [Article in Spanish] doi: 10.33588/rn.7901.2024090

La abismal diferencia entre no rechazar la hipótesis nula y afirmar que es cierta

The enormous difference between not rejecting a null hypothesis and stating that it is true

Carmen Carazo-Díaz 1,, Luis Prieto-Valiente 1
PMCID: PMC11468032  PMID: 38934947

Resumen

Un error muy frecuente al interpretar el valor de p del test en la investigación biomédica consiste en asumir que una hipótesis es cierta porque no se ha encontrado suficiente evidencia para rechazarla. Es obvio que un valor de p = 0,28, por ejemplo, no invita a rechazar la hipótesis nula, pero, si se entiende lo que indica (que no es un tema matemático, sino puramente lógico), resulta igualmente obvio que no autoriza a afirmar que es cierta. Si al comparar un nuevo fármaco frente al antiguo encontramos en las muestras que el nuevo presenta mayor porcentaje de curaciones y, por ejemplo, el valor de p del test es = 0,0004, la comunidad científica concluye que el nuevo es mejor. Pero si, por ejemplo, el valor de p del test es = 0,14, la comunidad científica no concluye que el nuevo es igual al antiguo. Sólo concluye que no queda demostrado que el nuevo aventaje al otro. Por ello, queda abierta la puerta a que en una ampliación del estudio con más casos pueda demostrarse que el nuevo es mejor.

Palabras clave: Ensayo clínico, Hipótesis nula, Investigación médica, Significación estadística, Test de normalidad, Valor de p

Introducción

El error cometido al afirmar que una hipótesis es cierta, cuando no hay evidencia para afirmar que es falsa, lo encontramos con notable frecuencia, incluso en las revistas médicas de más nivel, incluida el New England Journal of Medicine. En varias ocasiones esta revista publicó una revisión sobre la frecuencia con que aparece en sus páginas ese error. Por ejemplo, ya en 1978 Freiman et al encontraron que en un período de 10 años aparecía ese error en, al menos, 72 artículos [1]. Rothman, en 2021, comentó ese dato con estas palabras [2]: ‘Al no poder rechazar la hipótesis, los investigadores aceptaron inapropiadamente la hipótesis como correcta, lo que probablemente dio lugar a un claro error para muchos de estos llamados estudios negativos’. Pero el problema continúa con lamentable regularidad. Una consulta rápida en PubMed detecta el mismo error en 2006 [3] y en 2023 [4].

La lista de bioestadisticos de primer nivel y de investigadores médicos que, año tras año, han insistido en denunciar ese error es interminable. Martínez-Sellés et al (2005) lo consideran el más grave de los errores que encontramos en la bibliografía médica [5]. En el mismo sentido se expresan Zinsmeister y Connor (2008) [6], Armitage y Berry (2010) [7], etc.

El valor de p del test no ayuda a tomar postura ante la disyuntiva de si la hipótesis es cierta o falsa

Hay que insistir en que el valor de p del test no ayuda a tomar postura ante la disyuntiva de si la hipótesis es cierta o es falsa. Cuando el valor de p del test es muy pequeño, invita a decantarnos por pensar que la hipótesis nula es falsa, pero si el valor de p es grande, no nos invita a pensar que es cierta. Para mostrar que esto es así no recurriremos al ‘criterio de autoridad’ de ningún autor en particular, sino a la lógica más básica y obligada que se impone cuando se entiende lo que indica el valor de p del test [8].

Al médico no versado en estadística puede ayudarle considerar ejemplos de situaciones de la vida cotidiana donde no rechazar la hipótesis es muy diferente a afirmar que es cierta. El razonamiento es idéntico al que se hace con el valor de p del test.

Pensemos que se comete un crimen en el Empire State de Nueva York a las 12:00 horas. Juan es uno de los sospechosos y planteamos como hipótesis que es el asesino. Si a las 13:00 horas fue visto en Los Ángeles, está claro que no puede ser el autor material del crimen. El dato observado es incompatible con la hipótesis y por ello la rechazamos. Pero si a las 13:00 horas fue visto en Central Park, es claro que el dato es compatible con la hipótesis. Puede haber cometido el crimen en el Empire State y llegar al Central Park en una hora. Pero ello no nos permite afirmar que es el asesino. Sólo decimos que el dato observado es compatible con que sea el asesino. Miles de personas también estaban en Central Park a esa hora y no decimos que cada una de ellas sea el asesino.

Ejemplos al tomar postura en la clínica

  • – A la vista de ciertos síntomas iniciales de una paciente planteamos como hipótesis inicial que se trata de un caso de embarazo ectópico, pero aún no sabemos su edad. Si seguidamente nos dicen que la paciente tiene 70 años, rechazamos esa hipótesis. Su edad no es compatible con la hipótesis. Y, si nos dicen que tiene 40 años, no rechazamos la hipótesis, pero eso no quiere decir que la demos por cierta. Sólo decirnos su edad no nos lleva a rechazar. Su edad es compatible con la hipótesis.

  • – Sabemos que la enfermedad ‘D’ afecta al 40% de la población de mujeres. Planteamos como hipótesis que ocurre lo mismo en los varones. Tomamos una muestra al azar de n = 30 varones. Si encontramos, por ejemplo, que todos tienen la enfermedad, el test da valor de p = 0,000000000001. Es decir, que si la enfermedad afecta al 40% de los varones, es extremadamente difícil que en la muestra de 30 varones aparezcan los 30 enfermos [8]. Ello nos invita fuertemente a pensar que la hipótesis no es cierta. Pero si en la muestra de 30 varones se encuentran 14, supone el 47% de enfermos y un valor p del test = 0,39, lo que quiere decir que si la enfermedad afecta al 40% de los varones, es fácil que en la muestra de 30 varones aparezcan 14 enfermos. Ello no nos invita a rechazar la hipótesis. El dato obtenido es compatible con ella y decimos que puede ser cierta, pero no afirmamos que lo sea. El porcentaje de enfermos en la población de varones puede ser el 40% u otros valores. El intervalo de confianza al 95% nos dice que en la población de varones el porcentaje con D probablemente esté entre el 29 y el 65%. El dato muestral es compatible con cualquier valor poblacional dentro de ese intervalo.

Ejemplo al tomar postura en los ensayos clínicos

Insistamos con un ejemplo de la situación que más frecuentemente contemplan los ensayos clínicos. En una muestra de n = 20 enfermos con placebo se curaron ocho, es decir, el 40%. Y en una muestra de n = 20 enfermos con el fármaco ‘F’ se curaron 12, es decir, el 60%. El valor de p del test es = 0,21, que no supone notable evidencia en contra de la hipótesis que dice que el porcentaje de curaciones es, en la población, igual con el fármaco que con el placebo. Pero cualquier frase del tipo de ‘el estudio muestra que el fármaco no es superior al placebo’ es una afirmación no justificada, que podría –y debería– recibir la reprobación de la comunidad e, incluso, condena judicial si el perjudicado por esa afirmación lo llevara a los tribunales, porque los datos obtenidos son compatibles con que el porcentaje de curaciones con el fármaco sea mayor o sea igual o sea menor que con el placebo. El intervalo de confianza al 95% nos dice que el porcentaje de curaciones con el fármaco muy probablemente está entre 10 puntos porcentuales por debajo del porcentaje de curaciones con el placebo y 50 puntos porcentuales por encima. Afirmar que el fármaco es inútil tiene como consecuencia que se abandone su estudio y se descarte la posibilidad de usarlo, cuando podría ser enormemente útil, como el intervalo de confianza indica.

Ejemplo al tomar postura en los test de normalidad

Con mucha frecuencia en la bibliografía científica se leen frases del tipo de ‘Se hizo el test de Kolmogorov para comprobar que la variable en estudio tiene distribución normal’. Y con mucha frecuencia los revisores de artículos científicos y miembros de comités evaluadores aceptan esa frase como correcta. Pero es básicamente errónea. Ningún test estadístico puede comprobar que una variable tiene en la población una distribución normal (o de alguna otra forma). La normalidad de la variable en cuestión es precisamente la hipótesis nula de ese test y, si el valor de p obtenido es muy pequeño, indica una fuerte evidencia contra esa hipótesis, es decir, indica que no hay distribución normal. Pero, si se obtiene un valor de p grande, no se puede decir que quede comprobada la normalidad. Lo que dice ese valor de p es que los datos son compatibles con que en la población la variable se distribuya como normal y, también, con que no sea así.

Terminamos con estas palabras del editorial de Nature de febrero de 2014, volumen 506: ‘La mayoría de los médicos no entiende lo que indica el valor de p del test, que usan todos los días. Al usarlo mal ayudan a enterrar la verdad científica bajo una avalancha de falsas conclusiones. Ha habido un fracaso histórico en esta enseñanza’.

Conclusión

El razonamiento empleado en la inferencia estadística es el mismo que el que realizan todas las personas en la vida diaria. No hay una complejidad intelectual especial en él. Si se entiende que el valor de p de un test es simplemente la proporción de veces que aparece cierto resultado si es cierta la denominada hipótesis nula, la lógica más básica invita a pensar que si el valor de p es grande, puede que la hipótesis nula sea cierta y se acepta como posible. Pero es muy distinto concluir que es posible que cierto suceso ocurra a afirmar que ocurre. Es fundamental darse cuenta de ello. En un ensayo clínico, afirmar que un fármaco es inútil si el valor de p del test es, por ejemplo, 0,12, tiene como consecuencia que se abandone su estudio y se descarte la posibilidad de usarlo, cuando podría ser enormemente útil. Debe estar claro que ese valor de p indica que el resultado del estudio es compatible con que el fármaco sea inútil, pero también es compatible con que pueda ser útil, y por ello puede ser pertinente hacer más estudios que puedan sacarnos de la duda. La interpretación correcta de los valores de p ‘grandes’ evitará abandonar líneas de investigación que pueden ser muy fructíferas.

Bibliografía

  • 1.Freiman JA, Chalmers TC, Smith H, Jr, Kuebler RR. The importance of beta, the type II error and sample size in the design and interpretation of the randomized control trial. Survey of 71 'negative'trials. N Engl J Med. 1978;299:690–4. doi: 10.1056/NEJM197809282991304. [DOI] [PubMed] [Google Scholar]
  • 2.Rothman KJ. The origin of modern epidemiology, the book. Eur J Epidemiol. 2021;36:763–5. doi: 10.1007/s10654-021-00790-0. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 3.Montalescot G, White HD, Gallo R, Cohen M, Steg PG, Aylward PEG, et al. Enoxaparin versus unfractionated heparin in elective percutaneous coronary intervention. N Engl J Med. 2006;355:1006–17. doi: 10.1056/NEJMoa052711. [DOI] [PubMed] [Google Scholar]
  • 4.Suverein MM, Delnoij TSR, Lorusso R, Brandon Bravo Bruinsma GJ, Otterspoor L, Elzo Kraemer CV, et al. Early extracorporeal CPR for refractory out-of-hospital cardiac arrest. N Engl J Med. 2023;388:299–309. doi: 10.1056/NEJMoa2204511. [DOI] [PubMed] [Google Scholar]
  • 5.Martínez-Sellés M, Prieto L, Herranz I. Frequent mistakes in the statistical inference of biomedical data. Ital Heart J. 2005;6:90–5. [PubMed] [Google Scholar]
  • 6.Zinsmeister AR, Connor JT. Ten common statistical errors and how to avoid them. Am J Gastroenterol. 2008;103:262–6. doi: 10.1111/j.1572-0241.2007.01590.x. [DOI] [PubMed] [Google Scholar]
  • 7.Armitage P, Berry G. Statistical methods in medical research. 4 ed. Massachusetts, MA: Blackwell; 2010. [Google Scholar]
  • 8.Carazo-Díaz C, PrietoValiente L. El valor de p del test no es un 'índice matemático', es simplemente una frecuencia relativa. Rev Neurol. 2024;78:209–11. doi: 10.33588/rn.7807.2023164. [DOI] [PMC free article] [PubMed] [Google Scholar]

Articles from Revista de Neurología are provided here courtesy of IMR Press

RESOURCES