Ir al contenido principal

Medidas de Asociación entre dos variables

Con frecuencia los administradores o quienes toman decisiones necesitan conocer la relación entre dos variables. A continuación se presentan la covarianza y la correlación como medidas descriptivas de la relación entre dos variables.

Covarianza.

En una muestra de tamaño n con observaciones (x1, y1), (x2, y2), etc., la covarianza muestral se define como sigue:



Esta fórmula aparea cada xi con una yi. Después se suman los productos obtenidos al multiplicar la desviación de cada xi de su media muestral por la desviación de la yi correspondiente de su media muestral; esta suma se divide entre n – 1.

 

La fórmula para calcular la covarianza de una población de tamaño N es semejante a la ecuación, pero la notación usada es diferente para indicar que se está trabajando con toda la población.


En la ecuación μx se usa para denotar la media poblacional de la variable x y μy para denotar la media poblacional de la variable y. La covarianza σxy está definida para una población de tamaño N.

 

Interpretación de la covarianza.

Para ayudar a la interpretación de la covarianza muestral, considere la siguiente figura, presenta un diagrama de dispersión con una línea vertical punteada en la media muestral de x y una línea horizontal punteada la media muestral de y. Estas líneas dividen a la gráfica en cuatro cuadrantes. Los puntos del cuadrante I corresponden a xi mayor que la media muestra de x y yi mayor que la media muestral de y, los puntos del cuadrante II corresponden a xi menor que la media muestral de x y yi mayor que la media muestral de y, etc. Por tanto, los valores de serán positivos para los puntos del cuadrante I, negativos para los puntos del cuadrante II, positivos para los puntos del cuadrante III y negativos para los puntos del cuadrante IV.

 

Si el valor de sxy es positivo, los puntos que más influyen sobre sxy deberán encontrarse en los cuadrantes I y III. Por tanto, sxy positivo indica que hay una asociación lineal positiva entre x y y; es decir, que a medida que el valor de x aumenta, el valor de y aumenta. Si sxy es negativo, los puntos que más influyen sobre sxy deberán encontrarse en los cuadrantes II y IV. Entonces, sxy negativo indica que hay una asociación lineal negativa entre x y y; esto es, conforme el valor de x aumenta, el valor de y disminuye. Por último, si los puntos tienen distribución uniforme en los cuatro cuadrantes, sxy tendrá un valor cercano a cero, lo que indicará que no hay asociación lineal entre x y y.




Por la argumentación anterior parece que un valor positivo grande de la varianza indica una relación lineal positiva fuerte y que un valor negativo grande indica una relación lineal negativa fuerte. Sin embargo, un problema en el uso de la covarianza, como medida de la fuerza de la relación lineal, es que el valor de la covarianza depende de las unidades de medición empleadas para x y y. Una medida de la relación entre dos variables, a la cual no le afectan las unidades de medición empleadas para x y y, es el coeficiente de correlación.

 

Coeficiente de correlación.

Para datos muestrales el coeficiente de correlación del producto–momento de Pearson está definido como sigue.


En la ecuación se observa que el coeficiente de correlación del producto–momento de Pearson para datos muestrales (llamado coeficiente de correlación muestral) se calcula dividiendo la covarianza muestral entre el producto de la desviación estándar muestral de x por la desviación estándar muestral de y.

 

La fórmula para calcular el coeficiente de correlación de una población que se denota con la letra griega ρxy (ro) es la siguiente.


El coeficiente de correlación muestral rxy proporciona un estimador del coeficiente de correlación poblacional ρxy.

 

Interpretación del coeficiente de correlación.

En general, puede demostrar que si todos los valores del conjunto de datos caen en una línea recta con pendiente positiva, el coeficiente de correlación será +1; es decir, un coeficiente de correlación de +1 corresponde a una relación lineal positiva perfecta entre x y y. Por otra parte, si los puntos del conjunto de datos caen sobre una línea recta con pendiente negativa, el coeficiente de correlación muestral será –1; un coeficiente de correlación de –1 corresponde a una relación lineal negativa perfecta entre x y y.

 

Suponga ahora que un conjunto de datos muestra una relación lineal positiva entre x y y, pero que la relación no es perfecta. El valor de rxy será menor a 1, indicando que no todos los puntos del diagrama de dispersión se encuentran en una línea recta. Entre más se desvíen los puntos de una relación lineal positiva perfecta, más pequeño será rxy. Si rxy es igual a cero, entonces no hay relación lineal entre x y y; si rxy tiene un valor cercano a cero, la relación lineal es débil.

 

Para terminar, es preciso destacar que la correlación proporciona una medida de la asociación lineal y no necesariamente de la causalidad. Que la correlación entre dos variables sea alta no significa que los cambios en una de las variables ocasionen modificaciones en la otra.



 

Fuente:

Anderson, Sweeney & Williams – Estadística para Administración y Economía, p. 110 – 116.





Comentarios

Entradas más populares de este blog

Cultura Olmeca

La 1° cultura (al menos de la que se tiene un registro) en aparecer en Mesoamérica, y que es conocida como la "cultura madre", es la de los olmecas , civilización de la cual, en esta lámina que se comparte, se puede ver un poquito de su historia y de los principales elementos que la caracterizaron.

Tigres UANL vs. Vancouver

25 Trabalenguas de Naturaleza

En esta entrega de los “queridísimos” trabalenguas, se da una lista de esos ejercitadores de la lengua que tienen a algún elemento de la Naturaleza (que no sea un animal) en sus enunciados. Aclarado este asunto, disfruten la entrada de esta ocasión.