null Conceptos probabilísticos en la toma de decisiones en salud. (I) Comprender el p-valor
Notas metodológicas
12/11/2024

Sara de la Rosa de Sáa. Doctora en Matemáticas y Estadística

Oficina de Evaluación de Tecnologías Sanitarias del Principado de Asturias (OETSPA)

Las publicaciones científicas que presentan los resultados de una investigación suelen acompañarse de un número p, conocido como p-valor, que, si es menor que 0.05, nos indica que la investigación ha ido de acuerdo con los intereses del investigador. Pero, ¿por qué menor que 0.05? ¿Cómo se define el p-valor y cómo debe interpretarse? ¿Qué interpretaciones erróneas se suelen dar de él? El propósito de este artículo es responder a todas estas preguntas.

Cuando realizamos cualquier estudio de investigación, el objetivo principal suele ser conocer una determinada característica o variable de una población. El problema es que, salvo en casos muy sencillos, no podremos obtener datos de todos los individuos de la población, bien por imposibilidad física, motivos económicos o de otra índole, y tendremos que recurrir a una muestra, que deberá ser aleatoria y representativa de dicha población. Esto hace que aparezca un nuevo elemento a tener en cuenta: el azar.

Imaginemos, por ejemplo, que queremos estudiar si el nivel de glucosa en sangre es diferente en hombres y mujeres. Seleccionamos una muestra de hombres y mujeres y medimos su glucosa. Si la muestra es representativa, generalmente el valor medio que obtengamos de la glucosa en ambos grupos será similar al valor medio poblacional al que no podemos acceder. Sin embargo, podría ocurrir que, por azar, la muestra se centre alrededor de otro valor.

El azar siempre estará presente en nuestros estudios. No podremos eliminarlo, pero sí podremos medir y controlar su efecto. Es en este contexto donde surgen los contrastes de hipótesis. Una hipótesis es una afirmación que se hace sobre la población objeto de estudio (usualmente, sobre un parámetro de ella), y puede ser verdadera o falsa. 

Para realizar un contraste de hipótesis se plantean dos hipótesis: H0 y H1. La hipótesis H1 recoge lo que el investigador quiere demostrar que se cumple y se llama hipótesis alternativa, pues se plantea como alternativa a la llamada hipótesis nula H0, que es la hipótesis que de entrada se asume como verdadera. Ambas hipótesis deben ser mutuamente excluyentes y, a menudo, una suele ser la negación de la otra.

Por lo general, H0 recogerá una afirmación de “no efecto” o “no diferencia”, mientras que H1 representa la existencia de un cambio, un efecto o una diferencia. El investigador tratará de encontrar evidencias suficientemente fuertes para rechazar H0 en favor de H1. Si no las encuentra, H0 no será rechazada y se seguirá aceptando como verdadera.

Supongamos que H0: µ=µ0, donde µ representa el parámetro media poblacional (el símbolo = siempre aparecerá en la hipótesis nula, que contendrá, por tanto, una expresión con =, ≥ o ≤). Los contrastes de hipótesis se pueden clasificar según la dirección de la hipótesis alternativa en tres tipos principales, como vemos en la siguiente figura.
   

Figura 1. Tipos de contrastes de hipótesis

 

Una vez realizado el contraste de hipótesis, la decisión será rechazar o no rechazar H0 y, teniendo en cuenta que H0 puede ser verdadera o falsa, se pueden dar las cuatro situaciones que se exponen en la siguiente tabla.
        

Tabla 1. Situaciones posibles tras realizar un contraste de hipótesis

 

Vemos que podemos cometer dos tipos de error: rechazar H0 siendo verdadera (llamado error de tipo I) y no rechazar H0 siendo falsa (llamado error de tipo II). La probabilidad de cometer un error de tipo I la designaremos por la letra α y se denomina nivel de significación, mientras que la probabilidad de cometer un error de tipo II la designaremos por la letra β. También podemos acertar con la decisión tomada, cuando rechazamos H0 siendo falsa o no rechazamos H0 siendo verdadera.

Antes de seguir adelante, es importante hacer dos breves incisos:

  1. La probabilidad es un número comprendido entre 0 y 1, ambos inclusive. Puede venir dada también en porcentaje. Por ejemplo, 0.02 = 2/100 = 2%.
  2. El área total bajo la curva de una función de densidad es igual a 1 y las regiones que señalemos en ella representan probabilidades.

 

Figura 2. Función de densidad de la distribución normal

 

El nivel de significación α representa la probabilidad máxima que el investigador está dispuesto a tolerar de rechazar la hipótesis nula H0 cuando esta es verdadera, es decir, de cometer un error de tipo I. Debe ser elegido antes de realizar el contraste.

Por ejemplo, un nivel de significación α = 0.05 indica que el investigador está dispuesto a tolerar una probabilidad del 5% = 0.05 de cometer el error de rechazar la hipótesis nula cuando esta es verdadera. En la siguiente figura, podemos ver en rojo el nivel de significación α para cada uno de los tres tipos de contraste.

Figura 3. Nivel de significación α según el tipo de contraste

 

Aunque α = 0.05 es el valor de α más utilizado habitualmente, también se suelen considerar α = 0.01 o α = 0.1, pero se podría elegir cualquier otro valor. Entonces, ¿por qué no tomar α = 0.01 en lugar de α = 0.05? El investigador debe tener en cuenta que, al disminuir el error de tipo I, generalmente aumenta el error de tipo II, lo cual debe valorar. Además, con α = 0.01, la probabilidad de rechazo de H0 sería más pequeña, lo que va contra los intereses del propio investigador, que desea rechazar H0 en favor de la hipótesis alternativa H1 propuesta por él. Por esta razón, α = 0.05 se considera un valor razonable.

Una vez planteadas las hipótesis del contraste y elegido el nivel de significación α, el investigador debe tomar una muestra aleatoria y representativa de la población, que servirá para estimar el parámetro poblacional. El objetivo es ver, a través de la información obtenida con la muestra, si hay una evidencia clara que permita rechazar H0 o, por el contrario, no la hay, en cuyo caso H0 no sería rechazada. Una forma de conseguir este objetivo es a través del p-valor, que pasamos a definir y explicar a continuación.

Sea x la estimación del parámetro que obtenemos con la muestra. El valor x de la estimación varía con cada muestra. Tenemos, por tanto, una variable aleatoria que denotaremos por X.

Llamaremos p-valor a la probabilidad de obtener un valor tan extremo o más que el x obtenido con la muestra, suponiendo que la hipótesis nula H0 es cierta. Por ejemplo, para el caso de un contraste de una cola a la derecha sería: p-valor = P(≥ x / H0 cierta).

Figura 4. p-valor en el contraste de una cola a la derecha

 

Si esta probabilidad es muy pequeña, esto nos indicaría que, suponiendo cierta H0, es muy poco probable obtener por azar el valor x obtenido con la muestra u otro valor más extremo, lo que nos hace pensar que se puede deber a otras causas, habiendo así evidencia suficiente para rechazar H0 en favor de H1.

Si la probabilidad fuese grande, entonces x podría haberse obtenido por azar y no tendríamos por qué rechazar H0, pues no habría evidencias suficientes para ello.

Pero esta probabilidad, ¿es pequeña o grande respecto a qué? Tomaremos como referencia el nivel de significación α y aplicaremos la siguiente regla de decisión:

Figura 5. Regla de decisión para los contrastes de hipótesis

 

Dado que lo más usual es tomar α = 0.05, tendríamos entonces que si el p-valor es menor o igual que 0.05, rechazaríamos H0, mientras que si el p-valor es mayor que 0.05, no rechazaríamos H0.

Figura 6. Interpretación gráfica de la regla de decisión

 

Cuando se rechaza H0 se dice que el resultado es estadísticamente significativo, es decir, tiene una probabilidad baja de haberse obtenido por azar.

Ejemplo: supongamos que el nivel medio de colesterol en sangre en una población es de 200 mg/dL. Pensamos que no es así, sino que es mayor. Planteamos el siguiente contraste de hipótesis:

H0: µ=200

H1: µ>200

Elegimos un nivel de significación α del 5% = 0.05. Tomamos una muestra aleatoria de 50 personas con la que, por ejemplo, obtenemos una media de 215 mg/dL con una desviación estándar de 30 mg/dL. Con estos datos, el p-valor es 0.0004 (prescindimos de los cálculos). ¿Cómo interpretamos el resultado? 

Suponiendo que la hipótesis nula es cierta (µ=200), hay una probabilidad muy pequeña (0.0004 = 0.04%) de obtener por azar el valor 215 obtenido con la muestra, u otro mayor, lo que nos da evidencias suficientes para rechazar la hipótesis nula. Por tanto, aplicando la regla de decisión, como 0.0004 ≤ 0.05, rechazamos la hipótesis nula en favor de la hipótesis alternativa, y diríamos que el resultado es estadísticamente significativo.

 

Comentemos, por último, algunas de las interpretaciones erróneas más comunes sobre el p-valor: 

- El valor p es la probabilidad de que la hipótesis nula H0 sea cierta.
El p-valor se define suponiendo que H0 es cierta y es bajo ese supuesto que calculamos su valor. Por tanto, no nos dice nada sobre la probabilidad de la hipótesis nula o de la alternativa.

- Un p-valor muy bajo implica que la hipótesis nula es falsa. 
Un p-valor muy bajo solo nos indicaría que, si la hipótesis nula fuera cierta, el resultado observado u otro más extremo sería muy poco probable, pero no indicaría nada sobre la verdad o falsedad de H0.

- Un p-valor alto implica que la hipótesis nula es cierta. 
Un p-valor alto solo nos indicaría que, si la hipótesis nula fuera cierta, el resultado observado u otro más extremo sería bastante probable, pero no indicaría nada sobre la verdad o falsedad de H0.

- Siempre que el p-valor < 0.05, se debe rechazar H0.
Tomar α = 0.05 no es una regla rígida. A veces, puede ser muy importante no cometer un error de tipo I, por lo que bajaríamos el valor de α, por ejemplo, a 0.01. De este modo, si el p-valor fuese 0.03, no rechazaríamos H0.

- El p-valor nos indica la importancia clínica del resultado.
La relevancia clínica debe ser establecida por el investigador. Un resultado puede ser estadísticamente significativo pero carecer de relevancia clínica, y viceversa.

En conclusión, el p-valor es una herramienta estadística valiosa en los estudios de investigación, pero su interpretación correcta requiere precaución. A menudo, se comete el error de confundirlo con la probabilidad de que la hipótesis nula sea verdadera, cuando en realidad solo refleja cómo de compatibles son los datos observados con la hipótesis nula. Además, es importante interpretar su valor dentro de un contexto más amplio que incluya también el diseño del estudio, la calidad de los datos, los posibles sesgos o el uso de intervalos de confianza.

Palabras clave: p-valor nivel de significación contraste de hipótesis hipótesis nula estadística
Número: 16 de 2024