Doy a luz a mi primera entrada de estadística con este sencillo repaso sobre qué relaciones puede haber entre dos variables que muestran una correlación, dicho en otras palabras similares, ¿porqué puede haber correlación entre dos variables? Pensemos por ejemplo, en la asociación más sencilla, la correlación lineal.
Para esto es muy importante tener presente la famosa siguiente frase: Correlación no implica causalidad.
Bien, hay tres posibles razones que pueden causar dicha correlación. A saber:
- El azar. Así es, dos variables pueden presentar una alta correlación lineal (Coef. de Pearson), pero sin embargo, no tener nada que ver la una con la otra. Un ejemplo de este tipo de relación podría ser la existente entre la tasa de criminalidad en EEUU (1971-1991) y la esperanza de vida en Sudáfrica.
- Una tercera variable. Ambas variables pueden estar causadas por una tercera de la que, en un principio, no hemos sido conscientes. Por ejemplo, la potencia (CV) media de los coches de una familia y las veces que va de media una familia al cine en un mes, ambas variables están causadas por el nivel de renta familiar.
- Las variables se crean o influyen entre sí. Esto es, por ejemplo, X causa Y, como podría ser en el precio de los videojuegos y la cantidad de videojuegos vendida. Una relación de este tipo es la que nos lleva a estudiar regresión: X causa/influye a Y, ¿en qué medida X afecta a Y?
Y aquí hay una nota tan importante como curiosa. Hay un nombre unificador para aquellas correlaciones que nos pueden llevar erróneamente a deducir que hay causalidad, y sin embargo, tendremos que desentrañar si se trata de una relación causada por el azar o si es por una tercera variable. Estas son las relaciones espurias. Si resulta que hay una tercera variable que causa X e Y, a esta se la llama "variable escondida" o "factor de confusión".
En la wikipedia hay un ejemplo perfecto:
Ejemplos (en inglés) de relaciones espurias
Para esto es muy importante tener presente la famosa siguiente frase: Correlación no implica causalidad.
Bien, hay tres posibles razones que pueden causar dicha correlación. A saber:
- El azar. Así es, dos variables pueden presentar una alta correlación lineal (Coef. de Pearson), pero sin embargo, no tener nada que ver la una con la otra. Un ejemplo de este tipo de relación podría ser la existente entre la tasa de criminalidad en EEUU (1971-1991) y la esperanza de vida en Sudáfrica.
- Una tercera variable. Ambas variables pueden estar causadas por una tercera de la que, en un principio, no hemos sido conscientes. Por ejemplo, la potencia (CV) media de los coches de una familia y las veces que va de media una familia al cine en un mes, ambas variables están causadas por el nivel de renta familiar.
- Las variables se crean o influyen entre sí. Esto es, por ejemplo, X causa Y, como podría ser en el precio de los videojuegos y la cantidad de videojuegos vendida. Una relación de este tipo es la que nos lleva a estudiar regresión: X causa/influye a Y, ¿en qué medida X afecta a Y?
¿Cuál es la media de las desviaciones de los "puntitos" respecto a la recta de regresión lineal? Fuente |
Y aquí hay una nota tan importante como curiosa. Hay un nombre unificador para aquellas correlaciones que nos pueden llevar erróneamente a deducir que hay causalidad, y sin embargo, tendremos que desentrañar si se trata de una relación causada por el azar o si es por una tercera variable. Estas son las relaciones espurias. Si resulta que hay una tercera variable que causa X e Y, a esta se la llama "variable escondida" o "factor de confusión".
En la wikipedia hay un ejemplo perfecto:
Un ejemplo de una relación espuria puede ser ilustrado examinando las ventas de helados de una ciudad. Estas son más altas cuando la tasa de sofocamientos es mayor. Sostener que la venta de helados causa los sofocamientos sería implicar una relación espuria entre las dos. En realidad, una ola de calor puede haber causado ambas. La ola de calor es un ejemplo de variable escondida.
Ejemplos (en inglés) de relaciones espurias
Comentarios
Publicar un comentario