ISNN - 0300-9041
ISSNe - 2594-2034
Indizada en: PubMed, SciELO, Índice Médico Latinoamericano, LILACS, Medline
EDITADA POR LA Federación Mexicana de Colegios de Obstetricia, y Ginecología A.C.
FUNDADA POR LA ASOCIACIÓN MEXICANA DE GINECOLOGÍA Y OBSTETRICIA EN 1945
INFORMACIÓN EXCLUSIVA PARA LOS PROFESIONALES DE LA SALUD
Periodicidad: mensual
Editor: José Niz Ramos
Coeditor: Juan Carlos Barros Delgadillo
Abreviatura: Ginecol Obstet Mex
ISSN: 0300-9041
ISSNe: 2594-2034
Indizada en: PubMed, SciELO, Índice Médico Latinoamericano, LILACS, Medline.
Las falacias de la p y significación estadística
The fallacies of P and statical significance.
Ginecol Obstet Mex. | 1 de Agosto de 2020
Ginecol Obstet Mex. 2020; 88 (8): 536-541.
https://doi.org/10.24245/gom.v88i8.4534José Niz-Ramos
Recibido: mayo 2020
Aceptado: julio 2020
José Niz-Ramos
nizjose@gmail.com
Niz-Ramos J. Las falacias de la p y la significación estadística. Ginecol Obstet Mex. 2020; 88 (8): 536-541.
Resumen
ANTECEDENTES: El valor de p es el método más empleado para estimar la significación estadística de cualquier hallazgo; sin embargo, en los últimos años se ha intensificado su debate al respecto, debido a la baja credibilidad y reproducibilidad de diversos estudios.
OBJETIVO: Describir el estado actual del concepto del valor de p y la significación estadística (prueba de significación de la hipótesis nula [por sus siglas en inglés: Null Hypothesis Significance Testing: NHST]), especificar los problemas más importantes y puntualizar las soluciones propuestas para la mejor utilización de los conceptos.
METODOLOGÍA: Se llevó a cabo la búsqueda bibliográfica en MEDLINE y Google Scholar, con los términos: “NHST”, “Statistical significance; P value” en idioma inglés y español, de 2018-2019, limitándose a la selección de artículos publicados entre 2005 y 2019, mediante la revisión de tipo narrativo con búsqueda manual; sobre todo estudios de metodología.
RESULTADOS: La búsqueda global reportó 1411 artículos: 875 de PubMed y 536 de Google Scholar. Se excluyeron 817 por duplicación, 155 sin acceso completo y 414 ensayos clínicos (sin metodología estadística); los 25 restantes fueron el motivo del análisis.
CONCLUSIONES: El concepto del valor de p no es simple, tiene varias falacias y malas interpretaciones que deben considerarse para evitarlas en lo posible. Se recomienda no usar el término “estadísticamente significativo” o “significativo”, sustituir el umbral de 0.05 por 0.005, informar valores de p precisos y con IC95%, riesgo relativo, razón de momios, tamaño del efecto o potencia y métodos bayesianos.
PALABRAS CLAVE: Valor de p; MEDLINE; reproducibilidad; significación estadística; riesgo relativo; razón de momios; métodos bayesianos.
Abstract
BACKGROUND: The P value is the most widely used method of estimating the statistical significance of any finding, however, in recent years the debate over the P value has been increasingly intensified due to the low credibility and reproducibility of many studies.
OBJECTIVE: To describe the current state of the concept of the value of P and the statistical significance (Null Hypothesis Significance Testing (NHST), specify the most important problems and point out the solutions proposed in the literature for their best use.
METHODOLOGY: Search in MEDLINE and Google Scholar, with the terms: “NHST”, “Statistical significance; P value ”in English and Spanish, carried out from 2018-2019, limited to articles published from 2005 to 2019, and a narrative-type review with manual search. Articles on methodology were preferably selected.
RESULTS: The global search yielded 1411 articles, 875 from PubMed and 536 from Google Scholar. 817 were excluded by duplication, 155 without full access, 414 from clinical trials, without statistical methodology. The 25 selected articles were the reason for the analysis.
CONCLUSIONS: The concept of the value of P is not simple, and it has several fallacies and misinterpretations that must be taken into account to avoid them as much as possible. Recommendations: Do not use "statistically significant" or "significant", replace the threshold of 0.05 with 0.005, report accurate P values with 95% CI, relative risk, odds ratio, effect size or power, and Bayesian methods.
KEYWORDS: P value; MEDLINE; Reproducibility; Statistical significance; Relative Risk; Odds Ratio; Bayesian Methods.
Para ver las figuras, descargue el archivo PDF.
ANTECEDENTES
El valor de p (P value en inglés) es el método más empleado para estimar la significación estadística en una prueba de hipótesis y en la mayor parte de las investigaciones científicas, desde la t de Student y la χ2 hasta el análisis de regresión; sin embargo, se ha suscitado una discusión debido a su mal uso, por ignorancia o conflicto de intereses. Ronald Fisher propuso los límites entre la significación y la falta de significación basándola en la probabilidad (P), y estableciendo arbitrariamente su límite con el valor de p = 0.05; donde p significa la probabilidad de obtener un hallazgo de interés por casualidad.1 También se ha criticado por qué no consideran la importancia y relevancia del efecto observado.2
El objetivo de este estudio fue: describir el estado actual del concepto del valor de p y la significación estadística (NHST: Null Hypothesis Significance Testing, por sus siglas en inglés), especificar los problemas más importantes y puntualizar las soluciones propuestas para una mejor utilización de los conceptos.
METODOLOGÍA
Revisión narrativa de la bibliografía, llevada a cabo entre 2018 y 2019, en la que se seleccionaron artículos publicados de 2005 a 2019 en PubMed y Google Académico, que incluyeran las palabras clave: “NHST”, “P value” y “Statistical significance”, utilizando OR como término booleano, mediante la revisión narrativa con análisis manual (desplegando artículos relacionados y citas).
Se tomaron en cuenta artículos de revistas y blogs que analizan la metodología de NHST y el valor de p, mediante artículos originales, revisiones, editoriales, cartas al editor y artículos de opinión.
RESULTADOS
La búsqueda global arrojó 1411 artículos: 875 de PubMed y 536 de Google Scholar. Se excluyeron 817 por duplicación, 155 sin acceso completo y 414 ensayos clínicos (sin metodología estadística). Los 25 artículos restantes fueron el motivo de análisis de la revisión. Figura 1
DISCUSIÓN
El valor de p es la probabilidad de observar un parámetro hipotético (por ejemplo: una razón de posibilidades), tan extremo como el observado debido solo al azar y que varía entre 0-1. Se interpreta de tres maneras: 1) p ≤ 0.05: indica fuerte evidencia contra la hipótesis nula ([H0] podría ser rechazada), 2) > 0.05: sugiere débil evidencia contra la H0 (podría fallar el rechazo de hipótesis nula) y 3) valores de p cercanos al límite son marginales.3 Se realiza a través de la NHST (Null Hypothesis Significance Testing), mediante pruebas de inferencia estadística (t de Student, ANOVA, χ2, correlación de Pearson, etc.).
La definición es clara y precisa, pero las interpretaciones incorrectas siguen siendo abundantes y repetidas, por ejemplo, Nuzzo4 señala que 89% de los estudios publicados en 2011 informaron el valor p sin proporcionar ningún modelo de estimación, tamaño del efecto o potencia estadística, y otras publicaciones indican el mal empleo de dichos valores.5-7
Los valores de p siempre se han criticado, algunos autores señalan que son como el vestido nuevo del emperador4 (con innegables inconvenientes) o como los mosquitos (incómodos y difíciles de ahuyentar),7 incluso se ha comparado a la falacia del valor de p con la fábula del “zorro de Esopo”, por ser un índice generalizado, incomprendido, mal interpretado y calculado.3
En la actualizad se utiliza un híbrido, que considera las pruebas de significación estadística de Neyman-Pearson (hipótesis alternativa, error tipo I y II, y potencia), y se informa el valor de p aceptado o rechazado (Fisher), según sea el caso. Esto ha creado confusión, perpetuada por libros y revistas médicas, y ha permitido que los resultados salgan a la luz publicados con el término: “estadísticamente significativo”, “p <0.05” o “p >0.05”.8
Prestigiosos autores critican el mal uso de los valores de p en investigaciones biomédicas y en la ciencia en general.4-9 Incluso la revista Basic and Applied Social Psychology prohibió en 20015 el uso de pruebas de hipótesis:5
Existen varias interpretaciones erróneas, también llamadas falacias, del valor de p;3,4,10 un autor señala 1211 otro 25,12 pero las cuatro más mencionadas son:
Ambas están relacionadas al confundir la probabilidad del resultado, asumiendo que la hipótesis nula es cierta. Las pruebas de significación estadística no ofrecen información de la probabilidad de la hipótesis nula.
También se ha indicado que algunos resultados en investigaciones son probablemente falsos y su reproductibilidad es mínima, por ejemplo, Ioannidis13 señaló que de 49 estudios de investigación clínica originales, muy citados en tres revistas de alto impacto, 56% no pudieron reproducirse.
También existen autores a favor de las interpretaciones:14,15 señalan que el valor de p es un instrumento y su falla depende de quién lo usa, o que los valores son “el patrón de referencia” de la validez estadística. La aparición de la llamada crisis de replicación, encabezada por Nuzzo (2014),4 indica que el valor de p no es tan confiable ni tan objetivo como suponen la mayoría de los científicos. Por su parte, Baker16 describió, en una encuesta con 1576 expertos de reproducibilidad de la investigación, que más de 70% de los autores no puede reproducir los experimentos del otro, y más de 50% no pude reproducir ni sus propios experimentos.
Ante esta situación, la Asociación Estadounidense de Estadística (ASA), en 2016,6 tomó cartas en el asunto publicando una serie de principios:
Aunque estos principios fueron descritos anteriormente, representaron un parteaguas para que la asociación señalara los defectos y aunque no proporcionaron sugerencias para mejorar estas condiciones, repercutieron para que diversos investigadores se interesaran en el tema, y en octubre de 2017, la misma ASA favoreció el Simposio de Inferencia Estadística, una reunión de dos días que sentó las bases para la publicación de un número especial de la prestigiosa revista The American Statistician,17 que para la fecha de consulta (30 de abril de 2020) tenía 170,045 vistas y 278 citas (5.3 citas por semana).
Enseguida se citan las principales sugerencias para disminuir los errores del valor de p y la significación estadística que propusieron los 43 autores en ese número7 y otros habían postulado anteriormente:18,19-21
Posteriormente, otros autores sugirieron recomendaciones semejantes.22,23 Algunas revistas cambiaron sus directrices para los informes estadísticos. New England Journal of Medicine24 publicó en julio de 2019 que deben reemplazarse los valores de p con estimaciones de efectos o asociación con IC95%. Y la revista Pediatric Anesthesia25 sugirió reportar los valores de p con IC95% y eliminar el concepto de “significación estadística”.
CONCLUSIONES
El concepto del valor de p no es simple, tiene varias falacias y malas interpretaciones que deben tomarse en cuenta para evitarlas en lo posible. Además, cualquier declaración asociada con el valor de p debe considerarse con precaución.
Recomendaciones
REFERENCIAS