top of page

Correlación de Spearman vs. correlación de Pearson

Hace un tiempo utilicé el Cuarteto de Anscombe (aquí) para ilustrar cuán importante es elegir la forma correcta de visualizar tus datos. De igual forma, también es importante saber qué test utilizar para analizar esos datos.


Vuelvo a poner la tabla aquí para recordar un poco cómo funciona este peculiar conjunto de datos.

De igual forma, muestro otra vez los estadísticos descriptivos:

  • Media de las variables x de cada grupo: 9

  • Varianza de las variables x de cada grupo: 11

  • Media de las variables y de cada grupo: 7.5

  • Varianza de las variables y de cada grupo: 4.12

  • Correlación entre cada una de las variables x e y: 0.816

  • Recta de regresión: y = 3 + 0.5x

Y vuelvo a poner también la figura que presenté entonces, para que pueda verse la diferencia en las cuatro gráficas.

Estos son los datos clásicos que se muestran en cada una de las explicaciones que podéis encontrar por internet y que sirven para explicar por qué no podemos basarnos solo en datos resumen. Es una aproximación muy útil para hacer entender que la visualización gráfica de los datos tiene un valor. Es la aproximación que yo mismo utilicé en el post que comento arriba. Pero esta aproximación está basada desde un punto de vista en el que los cuatro conjuntos de datos siguen una distribución normal. De ahí que el valor de correlación en los cuatro supuestos sea el mismo, porque se ha utilizado una correlación de Pearson para hacer la comparativa. Como digo, el valor de ρ de Pearson es el mismo en los cuatro casos (0.816), igual que el p-valor asociado a dicha correlación (0.002).


Sin embargo, si usamos una aproximación no paramétrica, independientemente de la distribución de nuestros datos, la cosa cambia. Os dejo una tabla con los resultados:

La correlación de Spearman es muy útil cuando nuestros datos no siguen una distribución normal, pues se trata de un análisis de tipo no paramétrico, por lo que su robustez es mayor ya que no precisan condiciones de validez.


Como también digo aquí, a la larga resulta más útil utilizar este tipo de aproximaciones no paramétricas. Es verdad que así se pierde potencia (capacidad para aceptar o rechazar la hipótesis nula), pero estos test se ajustan de mejor manera a la realidad de los datos que podemos encontrarnos en nuestro día a día.


Pero vamos un poco más allá y analicemos la normalidad de los datos del Cuarteto de Anscombe para que se vea mejor lo que intento decir (en negrita aparecen aquellos casos en que la variable NO sigue una distribución normal):

Como se puede observar en la tabla, depende mucho del test que utilicemos. Pero, agrandes rasgos, podría decirse que todos los conjuntos de datos siguen una distribución normal en mayor o menor medida. Sin embargo, como ha podido verse antes, la correlación de Pearson no explica bien la relación que hay entre los diferentes conjuntos de datos. Y hay que recurrir a la correlación de Spearman para hacerlo.


Por tanto, volvemos a lo mismo, aunque los datos parecen ser normales, el análisis no paramétrico se ajusta mejor a la realidad de los mismos.

198 visualizaciones

Entradas Recientes

Ver todo

Conversación 8

Hola, ATPbsc. Tengo una pregunta en cuanto a los análisis estadísticos que hemos aplicado. Entiendo que, con todo lo que hemos hecho (tablas y resultados), en realidad no se ha aplicado ningún análisi

bottom of page