Skip to main content
Jornal Brasileiro de Pneumologia logoLink to Jornal Brasileiro de Pneumologia
. 2015 Sep-Oct;41(5):485. doi: 10.1590/S1806-37132015000000215
View full-text in Portuguese

What does the p value really mean?

Juliana Carvalho Ferreira 1,3, Cecilia Maria Patino 2,3
PMCID: PMC4635100  PMID: 26578145

WHY CALCULATE A P VALUE?

Consider an experiment in which 10 subjects receive a placebo, and another 10 receive an experimental diuretic. After 8 h, the average urine output in the placebo group is 769 mL, versus 814 mL in the diuretic group-a difference of 45 mL (Figure 1). How do we know if that difference means the drug works and is not just a result of chance?

Figure 1. Urine output (mL) for each subject in the placebo (squares) and new drug groups (diamonds).

Figure 1.

The most common way to approach this problem is to use statistical hypothesis testing. First, we state the null hypothesis of no statistical difference between the groups and the alternative hypothesis of a statistical difference. Then we select a statistical test to compute a test statistic, which is a standardized numerical measure of the between-group difference. Under the null hypothesis, we expect the test statistic value to be small, but there is a small probability that it is large, just by chance. Once we calculate the test statistic, we use it to calculate the p-value.

The p value is defined as the probability of observing the given value of the test statistic, or greater, under the null hypothesis. Traditionally, the cut-off value to reject the null hypothesis is 0.05, which means that when no difference exists, such an extreme value for the test statistic is expected less than 5% of the time.

Now let us go back to our case: we are comparing means and assuming that the data is normally distributed, so we use a t-test and compute a t-statistic of 2.34, with a p value of 0.031. Because we use a 0.05 cutoff for the p value, we reject the null hypothesis and conclude that there is a statistically significant difference between groups. So what does "p = 0.031" mean? It means that there is only a 3% probability of observing a difference of 45 mL in the average urine output between groups under the null hypothesis. Because this is a very small probability, we reject the null hypothesis. It does not mean that the drug is a diuretic, nor that there is 97% chance of the drug being a diuretic.

MISCONCEPTIONS ABOUT THE P VALUE

Clinical versus statistical significance of the effect size

There is a misconception that a very small p value means the difference between groups is highly relevant. Looking at the p value alone deviates our attention from the effect size. In our example, the p value is significant but a drug that increases urine output by 45 mL has no clinical relevance.

Nonsignificant p values

Another misconception is that if the p value is greater than 5%, the new treatment has no effect. The p value indicates the probability of observing a difference as large or larger than what was observed, under the null hypothesis. But if the new treatment has an effect of smaller size, a study with a small sample may be underpowered to detect it.

Overinterpreting a nonsignificant p value that is close to 5%

Yet another misconception is that if the p value is close to 5%, there is a trend towards a group difference. It is inappropriate to interpret a p value of, say, 0.06, as a trend towards a difference. A p value of 0.06 means that there is a probability of 6% of obtaining that result by chance when the treatment has no real effect. Because we set the significance level at 5%, the null hypothesis should not be rejected.

Effect sizes versus p values

Many researchers believe that the p value is the most important number to report. However, we should focus on the effect size. Avoid reporting the p value alone and preferably report the mean values for each group, the difference, and the 95% confidence interval-then the p value.

RECOMMENDED LITERATURE

  • 1.Glantz SA. Primer in Biostatistics, 5thed. New York: McGraw-Hill; 2002. [Google Scholar]
J Bras Pneumol. 2015 Sep-Oct;41(5):485. [Article in Portuguese]

O que realmente significa o valor-p?

Juliana Carvalho Ferreira 1,3, Cecilia Maria Patino 2,3

POR QUE CALCULAR UM VALOR-P?

Considere um experimento no qual 10 indivíduos recebem um placebo e outros 10 recebem um diurético experimental. Após 8 h, a média do débito urinário no grupo placebo é de 769 ml versus 814 ml no grupo diurético - uma diferença de 45 ml (Figura 1). Como sabemos se essa diferença significa que a droga funciona e não é simplesmente resultado do acaso?

Figura 1. Débito urinário (ml) para cada indivíduo nos grupos placebo (quadrados) e droga nova (losangos).

Figura 1.

A forma mais comum de se abordar esse problema é utilizar um teste de hipótese. Primeiramente, estabelecemos a hipótese nula de nenhuma diferença estatística entre os grupos e a hipótese alternativa de uma diferença estatística. Em seguida, selecionamos um teste estatístico para computar uma estatística de teste, que é uma medida numérica padronizada da diferença entre os grupos. Sob a hipótese nula, esperamos que o valor da estatística de teste seja pequeno, mas há uma pequena probabilidade que essa seja grande, somente por acaso. Uma vez calculada a estatística de teste, a utilizamos para calcular o valor-p.

O valor-p é definido como a probabilidade de se observar um valor da estatística de teste maior ou igual ao encontrado. Tradicionalmente, o valor de corte para rejeitar a hipótese nula é de 0,05, o que significa que, quando não há nenhuma diferença, um valor tão extremo para a estatística de teste é esperado em menos de 5% das vezes.

Agora voltemos ao nosso caso: estamos comparando médias e assumindo que os dados são distribuídos normalmente; por isso, usamos um teste t e computamos uma estatística t de 2,34, com um valor-p = 0,031. Como utilizamos um valor de corte de 0,05 para o valor-p, rejeitamos a hipótese nula e concluímos que existe uma diferença estatisticamente significativa entre os grupos. Então, o que "p = 0,031" significa? Significa que há apenas uma probabilidade de 3% de se observar uma diferença de 45 ml na média do débito urinário entre os grupos sob a hipótese nula. Como essa probabilidade é muito pequena, rejeitamos a hipótese nula. Isso não significa que a droga seja um diurético, nem que haja uma chance de 97% de a droga ser diurética.

CONCEPÇÕES ERRADAS SOBRE O VALOR-P

Significância clínica vs. estatística do tamanho do efeito

É um equívoco achar que um valor muito pequeno de p signifique que a diferença entre os grupos é altamente relevante. Ao olharmos para o valor-p isoladamente, nossa atenção é desviada do tamanho do efeito. No nosso exemplo, o valor-p é significativo, mas uma droga que aumente a produção de urina em 45 ml não tem relevância clínica.

Valor-p não significante

Outro equívoco é achar que se o valor-p for maior do que 5%, o novo tratamento não tem nenhum efeito. O valor-p indica a probabilidade de se observar uma diferença tão grande ou maior do que a que foi observada sob a hipótese nula. Mas se o novo tratamento tiver um efeito de tamanho menor, um estudo com uma pequena amostra pode não ter poder suficiente para detectá-lo.

Interpretação exagerada de valor-p não significante, próximo a 5%

Outro conceito equivocado é acreditar que, se o valor-p está próximo de 5%, há uma tendência de haver uma diferença entre os grupos. É inadequado interpretar um valor-p de, digamos, 0,06, como uma tendência de diferença. Um valor-p de 0,06 significa que existe uma probabilidade de 6% de se obter esse resultado por acaso quando o tratamento não tem nenhum efeito real. Como definimos o nível de significância de 5%, a hipótese nula não deve ser rejeitada.

Tamanho do efeito vs. valor-p

Muitos pesquisadores acreditam que o valor-p é o número mais importante a ser relatado. No entanto, devemos nos concentrar no tamanho do efeito. Evite relatar o valor-p isoladamente e, preferencialmente, relate os valores médios para cada grupo, a diferença, o intervalo de confiança de 95% e, então, o valor-p.


Articles from Jornal Brasileiro de Pneumologia are provided here courtesy of Sociedade Brasileira de Pneumologia e Tisiologia (Brazilian Thoracic Society)

RESOURCES