Medidas de la forma de la distribución, de la posición relativa y de la detección de observaciones atípicas

Un histograma es una representación gráfica que muestra la forma de una distribución. Una medida numérica importante de la forma de una distribución es el sesgo.

La fórmula que se usa para calcular el sesgo de datos muestrales es:
En los datos sesgados a la izquierda, el sesgo es negativo; en datos sesgados a la derecha, el sesgo es positivo. Si los datos son simétricos, el sesgo es cero.


En una distribución simétrica, la media y la mediana son iguales. Si los datos están sesgados a la derecha, la media será mayor que la mediana; si los datos están sesgados a la izquierda, la media será menor que la mediana. Cuando los datos están ligeramente sesgados, se prefiere la mediana como medida de localización.

Puntos z.
Además de las medidas de localización, variabilidad y forma, interesa conocer también la ubicación relativa de los valores de un conjunto de datos. Las medidas de localización relativa ayudan a determinar qué tan lejos de la media se encuentra un determinado valor. Apartir de la media y la desviación estándar, se puede determinar la localización relativa de cualquier observación. Suponga que tiene una muestra de n observaciones, en que los valores se denotan x1, x2, . . . , xn. Suponga además que ya determinó la media muestral, que es  y la desviación estándar muestral, que es s. Para cada valor xi existe otro valor llamado punto z. La siguiente ecuación permite calcular el punto z correspondiente a cada xi.

Donde:
zi = Punto z para xi.
 = Media muestral.
s = Desviación estándar muestral.

Al punto z también se le suele llamar valor estandarizado. El punto zi puede ser interpretado como el número de desviaciones estándar a las que xi se encuentra de la media . Por ejemplo si z1=1.2, esto indica que x1es 1.2 desviaciones estándar mayor que la media muestral. De manera similar, z2=0.5 indica que x2 es 0.5 o 1/2 desviación estándar menor que la media muestral. Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la media, y puntos z menores que cero corresponden a observaciones cuyo valor es menor a la media. Si el punto z es cero, el valor de la observación correspondiente es igual a la media.

El punto z de cualquier observación se interpreta como una medida relativa de la localiza- ción de la observación en el conjunto de datos. Por tanto, observaciones de dos conjuntos de datos distintos que tengan el mismo punto z tienen la misma localización relativa; es decir, se encuentran al mismo número de desviaciones estándar de la media.

Teorema de Chebyshev.
El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media. Por lo menos (1-1/z2) de los valores que se tienen en los datos deben encontrarse dentro de z desviaciones estándar de la media, donde z es cualquier valor mayor que 1.

Regla Empírica.
Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, sin importar la forma de la distribución de los datos. En muchas aplicaciones prácticas los datos muestran una distribución simétrica con forma de montaña o de campana. Cuando se cree que los datos tienen aproximadamente esta distribución, se puede emplear la regla empírica para determinar el porcentaje de los valores de los datos que deben encontrarse dentro de un determinado número de desviaciones estándar de la media.

REGLA EMPÍRICA:
Cuando los datos tienen una distribución en forma de campana:
• Cerca de 68% de los valores de los datos se encontrarán a no más de una desviación estándar desde la media.
• Aproximadamente 95% de los valores de los datos se encontrarán a no más de dos desviaciones estándar desde la media.
• Casi todos los valores de los datos estarán a no más de tres desviaciones estándar de la media.

Detección de observaciones atípicas.
Algunas veces un conjunto de datos tiene una o más observaciones cuyos valores son mucho más grandes o mucho más pequeños que la mayoría de los datos. A estos valores extremos se les llama observaciones atípicas. Las personas que se dedican a la estadística y con experiencia en ella toman medidas para identificar estas observaciones atípicas y después las revisan con cuidado. Una observación extraña quizá sea el valor de un dato que se anotó de modo incorrecto. Si es así puede corregirse antes de continuar con el análisis. Una observación atípica tal vez provenga, también, de una observación que se incluyó indebidamente en el conjunto de datos; si es así se puede eliminar. Por último, una observación atípica quizá es un dato con un valor inusual, anotado correctamente y que sí pertenece al conjunto de datos. En tal caso debe conservarse.

Para identificar las observaciones atípicas se emplean los valores estandarizados (puntos z). Recuerde que la regla empírica permite concluir que en los datos con una distribución en forma de campana, casi todos los valores se encuentran a no más de tres desviaciones estándar de la media. Por tanto, si usa los puntos z para identificar las observaciones atípicas, es recomendable considerar cualquier dato cuyo punto z sea menor que – 3 o mayor que + 3 como una observación atípica. Debe examinar la exactitud de tales valores y si en realidad pertenecen al conjunto de datos.

Fuente: Anderson, Sweeney & Williams – Estadística para Administración y Economía.











1 comentario:

  1. I just want to thank you for sharing your information and your site or blog this is simple but nice Information I’ve ever seen i like it i learn something today. Planning and Administering Microsoft Azure for SAP Workloads AZ-120

    ResponderBorrar

La recomendación del momento

ISO 27001:2013

Sistemas de Gestión la Seguridad de la Información. ISO 27001 es una norma internacional que permite el aseguramiento, la confidencialidad...

Lo más popular de la semana