A más margarina, más divorcios: 11 divertidos ejemplos de que correlación no implica causalidad

“Las personas rubias tienen mejor sexo”, “los fumadores tienden a ser gente más alegre”, “cuanta mayor cultura de la fiesta, mayor es la pobreza del país”. Son algunos ejemplos ficticios del tipo de titulares elaborador a partir de estudios científicos que logran saltar del campo científico al periodístico porque ayudan a crear narraciones fáciles y divertidas. Pero, como bien sabemos, una cosa no tiene por qué estar relacionada con la otra, o como dice la popular frase, la correlación no implica causalidad.

Para eso tenemos la página web de Tyler Virgen, abogado de Harvard que desde hace años mantiene un experimento estadístico y de datos llamado Spurious Correlations, o correlaciones espurias. Su título es bastante explicativo, así que vamos con algunos de los ejemplos recientes:

El gasto estadounidense en ciencia, tecnología y exploración espacial correlaciona fuertemente con el número de suicidios por horca, estrangulamiento y asfixia.

Aquí se “demuestra” que la aparición de Nicolas Cage predice el número de muertes anuales por ahogamiento tras caída en una piscina.

Ah, y la gente que muere ahogada en una piscina corre en paralelo a los kilovatios producidos por las centrales nucleares.

Entre 2000 y 2009 hubo una conexión entre el incremento de consumo de queso per cápita y las muertes por enredarse con las sábanas.

El consumo de margarina por los ciudadanos de Estados Unidos va ligado al ratio de divorcios en el estado de Maine.

Cada año, los asesinatos de personas mediante humos, vapores y otro tipo de objetos calientes correlacionan con la edad de la ganadora de Miss America de esa edición.

Este es bueno: en la pasada década, a mayores ingresos de las salas recreativas, más estadounidenses se doctoraban en ciencias.

Utilitarios japoneses vendidos en EEUU frente al número de suicidios por colisión de vehículos a motor.

El consumo per cápita de pollo y el total de importaciones de petróleo fuera de Estados Unidos.

El crudo importado por Estados Unidos desde Noruega disminuye al tiempo que lo hacen los conductores de trenes muertos en circulación.

El número de letras de las palabras ganadoras del concurso de deletreo Spelling Bee oculta un increíble paralelismo con el número de muertes por arañas venenosas.

Como observamos si miramos las gráficas detenidamente, parte del encanto de estas correlaciones espurias está en la elección de las métricas comparativas. Es más fácil hacer pasar como fenómenos relacionados dos hechos si equiparamos miles de millones de dólares en recreativas con expediciones de títulos del orden de cientos. El plan es manipular los rangos para que los datos se alineen, y no al contrario.

Esta divertida crítica en formato de gráficas disparatadas (y que puedes ampliar comprando su libro) tampoco tiene como objetivo desmontar el mismo sistema de correlaciones. A fin de cuentas, estas existen y son necesarias. Hay acciones que provocan ciertas reacciones.

Una correlación también se crea si vemos que a los pacientes que tomen determinado medicamento empiezan a salirles sarpullidos. Y no todas las correlaciones deben medirse igual, como el hecho de que al jugar al rugby tengas una probabilidad (inventada, ficticia) del 8% de hacerte un moratón frente a que si comes un tipo de pescado exótico tienes esa misma probabilidad de morirte.

Claro que también se han dado casos de error a la hora de determinar el orden de los factores: ¿estaba más limpia y sana la gente que tenía piojos o iban los piojos a las cabezas de la gente más limpia y sana?

En Xataka

Cómo leer (y sospechar de) el último estudio científico que todo el mundo está compartiendo en tu TL

El problema es que los científicos trabajan en ocasiones analizando cientos de miles de cadenas de datos, más en la era del big data, en la que es muy fácil disponer de mucha información y por la que a veces se encuentran relaciones peregrinas. De hecho, unos científicos dijeron demostrar que las grandes bases de datos tienden a contener correlaciones arbitrarias que aparecen sólo debido al tamaño (no a su naturaleza) de los datos. Que es fácil generar correlaciones si la muestra es lo suficientemente grande, con lo que se trata de un problema que irá a más.

¿Cómo sabemos entonces que esa unión de dos cadenas de información no es fortuita? Porque hay un trabajo posterior de atribución de probabilidad de las correlaciones, y en ocasiones hay hechos que, aunque no se nos había ocurrido que podían tener una relación causal, sí la tienen. Es con esos descubrimientos con los que también se hace que la ciencia avance.