Medidas de Asociación entre dos variables

Con frecuencia los administradores o quienes toman decisiones necesitan conocer la relación entre dos variables. A continuación se presentan la covarianza y la correlación como medidas descriptivas de la relación entre dos variables.

Covarianza.

En una muestra de tamaño n con observaciones (x₁, y₁), (x₂, y₂), etc., la covarianza muestral se define como sigue:

Esta fórmula aparea cada x_i con una y_i. Después se suman los productos obtenidos al multiplicar la desviación de cada x_i de su media muestral por la desviación de la y_i correspondiente de su media muestral; esta suma se divide entre n – 1.

La fórmula para calcular la covarianza de una población de tamaño N es semejante a la ecuación, pero la notación usada es diferente para indicar que se está trabajando con toda la población.

En la ecuación μ_x se usa para denotar la media poblacional de la variable x y μ_y para denotar la media poblacional de la variable y. La covarianza σ_xy está definida para una población de tamaño N.

Interpretación de la covarianza.

Para ayudar a la interpretación de la covarianza muestral, considere la siguiente figura, presenta un diagrama de dispersión con una línea vertical punteada en la media muestral de x y una línea horizontal punteada la media muestral de y. Estas líneas dividen a la gráfica en cuatro cuadrantes. Los puntos del cuadrante I corresponden a x_i mayor que la media muestra de x y y_i mayor que la media muestral de y, los puntos del cuadrante II corresponden a x_i menor que la media muestral de x y y_i mayor que la media muestral de y, etc. Por tanto, los valores de serán positivos para los puntos del cuadrante I, negativos para los puntos del cuadrante II, positivos para los puntos del cuadrante III y negativos para los puntos del cuadrante IV.

Si el valor de s_xy es positivo, los puntos que más influyen sobre s_xy deberán encontrarse en los cuadrantes I y III. Por tanto, s_xy positivo indica que hay una asociación lineal positiva entre x y y; es decir, que a medida que el valor de x aumenta, el valor de y aumenta. Si s_xy es negativo, los puntos que más influyen sobre s_xy deberán encontrarse en los cuadrantes II y IV. Entonces, s_xy negativo indica que hay una asociación lineal negativa entre x y y; esto es, conforme el valor de x aumenta, el valor de y disminuye. Por último, si los puntos tienen distribución uniforme en los cuatro cuadrantes, s_xy tendrá un valor cercano a cero, lo que indicará que no hay asociación lineal entre x y y.

Por la argumentación anterior parece que un valor positivo grande de la varianza indica una relación lineal positiva fuerte y que un valor negativo grande indica una relación lineal negativa fuerte. Sin embargo, un problema en el uso de la covarianza, como medida de la fuerza de la relación lineal, es que el valor de la covarianza depende de las unidades de medición empleadas para x y y. Una medida de la relación entre dos variables, a la cual no le afectan las unidades de medición empleadas para x y y, es el coeficiente de correlación.

Coeficiente de correlación.

Para datos muestrales el coeficiente de correlación del producto–momento de Pearson está definido como sigue.

En la ecuación se observa que el coeficiente de correlación del producto–momento de Pearson para datos muestrales (llamado coeficiente de correlación muestral) se calcula dividiendo la covarianza muestral entre el producto de la desviación estándar muestral de x por la desviación estándar muestral de y.

La fórmula para calcular el coeficiente de correlación de una población que se denota con la letra griega ρ_xy (ro) es la siguiente.

El coeficiente de correlación muestral r_xy proporciona un estimador del coeficiente de correlación poblacional ρ_xy.

Interpretación del coeficiente de correlación.

En general, puede demostrar que si todos los valores del conjunto de datos caen en una línea recta con pendiente positiva, el coeficiente de correlación será +1; es decir, un coeficiente de correlación de +1 corresponde a una relación lineal positiva perfecta entre x y y. Por otra parte, si los puntos del conjunto de datos caen sobre una línea recta con pendiente negativa, el coeficiente de correlación muestral será –1; un coeficiente de correlación de –1 corresponde a una relación lineal negativa perfecta entre x y y.

Suponga ahora que un conjunto de datos muestra una relación lineal positiva entre x y y, pero que la relación no es perfecta. El valor de r_xy será menor a 1, indicando que no todos los puntos del diagrama de dispersión se encuentran en una línea recta. Entre más se desvíen los puntos de una relación lineal positiva perfecta, más pequeño será r_xy. Si r_xy es igual a cero, entonces no hay relación lineal entre x y y; si r_xy tiene un valor cercano a cero, la relación lineal es débil.

Para terminar, es preciso destacar que la correlación proporciona una medida de la asociación lineal y no necesariamente de la causalidad. Que la correlación entre dos variables sea alta no significa que los cambios en una de las variables ocasionen modificaciones en la otra.

Fuente:

Anderson, Sweeney & Williams – Estadística para Administración y Economía, p. 110 – 116.

El Blog de El Divino

Buscar este blog

Medidas de Asociación entre dos variables

Etiquetas

Comentarios

Publicar un comentario

Entradas más populares de este blog

Cultura Olmeca

Cultura Romana

25 Trabalenguas de Naturaleza