Covarianza.
En una muestra de tamaño n con observaciones
(x1, y1), (x2, y2), etc., la
covarianza muestral se define como sigue:
Esta fórmula aparea cada xi con
una yi. Después se suman los productos obtenidos al multiplicar la
desviación de cada xi de su media muestral por la desviación de la yi
correspondiente de su media muestral; esta suma se divide entre n – 1.
La fórmula para calcular la covarianza de una población de tamaño N es semejante a la ecuación, pero la notación usada es diferente para indicar que se está trabajando con toda la población.
En la ecuación μx se usa para
denotar la media poblacional de la variable x y μy para denotar la
media poblacional de la variable y. La covarianza σxy está definida
para una población de tamaño N.
Interpretación de la covarianza.
Para ayudar a la interpretación de la covarianza
muestral, considere la siguiente figura, presenta un diagrama de dispersión con
una línea vertical punteada en la media muestral de x y una línea horizontal
punteada la media muestral de y. Estas líneas dividen a la gráfica en cuatro
cuadrantes. Los puntos del cuadrante I corresponden a xi mayor que la
media muestra de x y yi mayor que la media muestral de y, los puntos
del cuadrante II corresponden a xi menor que la media muestral de x y
yi mayor que la media muestral de y, etc. Por tanto, los valores de
Si el valor de sxy es positivo,
los puntos que más influyen sobre sxy deberán encontrarse en los
cuadrantes I y III. Por tanto, sxy positivo indica que hay una
asociación lineal positiva entre x y y; es decir, que a medida que el valor de
x aumenta, el valor de y aumenta. Si sxy es negativo, los puntos que
más influyen sobre sxy deberán encontrarse en los cuadrantes II y
IV. Entonces, sxy negativo indica que hay una asociación lineal
negativa entre x y y; esto es, conforme el valor de x aumenta, el valor de y
disminuye. Por último, si los puntos tienen distribución uniforme en los cuatro
cuadrantes, sxy tendrá un valor cercano a cero, lo que indicará que
no hay asociación lineal entre x y y.
Por la argumentación anterior parece que un valor
positivo grande de la varianza indica una relación lineal positiva fuerte y que
un valor negativo grande indica una relación lineal negativa fuerte. Sin
embargo, un problema en el uso de la covarianza, como medida de la fuerza de la
relación lineal, es que el valor de la covarianza depende de las unidades de
medición empleadas para x y y. Una medida de la relación entre dos variables, a
la cual no le afectan las unidades de medición empleadas para x y y, es el
coeficiente de correlación.
Coeficiente de correlación.
Para datos muestrales el coeficiente de
correlación del producto–momento de Pearson está definido como sigue.
En la ecuación se observa que el coeficiente
de correlación del producto–momento de Pearson para datos muestrales (llamado coeficiente de correlación
muestral) se calcula dividiendo la covarianza muestral entre el producto de
la desviación estándar muestral de x por la desviación estándar muestral de y.
La fórmula para calcular el coeficiente de
correlación de una población que se denota con la letra griega ρxy (ro) es la siguiente.
El coeficiente de correlación muestral rxy
proporciona un estimador del coeficiente de correlación poblacional ρxy.
Interpretación del coeficiente de
correlación.
En general, puede demostrar que si todos los
valores del conjunto de datos caen en una línea recta con pendiente positiva,
el coeficiente de correlación será +1; es decir, un coeficiente de correlación
de +1 corresponde a una relación lineal positiva perfecta entre x y y. Por otra
parte, si los puntos del conjunto de datos caen sobre una línea recta con pendiente
negativa, el coeficiente de correlación muestral será –1; un coeficiente de
correlación de –1 corresponde a una relación lineal negativa perfecta entre x y
y.
Suponga ahora que un conjunto de datos
muestra una relación lineal positiva entre x y y, pero que la relación no es
perfecta. El valor de rxy será menor a 1, indicando que no todos los
puntos del diagrama de dispersión se encuentran en una línea recta. Entre más
se desvíen los puntos de una relación lineal positiva perfecta, más pequeño
será rxy. Si rxy es igual a cero, entonces no hay
relación lineal entre x y y; si rxy tiene un valor cercano a cero,
la relación lineal es débil.
Para terminar, es preciso destacar que la
correlación proporciona una medida de la asociación lineal y no necesariamente
de la causalidad. Que la correlación entre dos variables sea alta no significa
que los cambios en una de las variables ocasionen modificaciones en la otra.
Fuente:
Anderson, Sweeney & Williams –
Estadística para Administración y Economía, p. 110 – 116.
Comentarios
Publicar un comentario
Si deseas comentar dentro de la línea del respeto, eres bienvenido para expresarte