Ordenamiento de Datos

Recopilación de Datos.
Para poder hacer un trabajo estadístico, se requiere recopilar datos, los cuáles se pueden obtener a través de: Encuestas, registros, tabulaciones, conteos, cuestionarios, etc. Se considera a la población como una distribución de mediciones de la utilidad, cuya forma depende de valores específicos de las variables independientes.

El objetivo consistirá en establecer la relación entre la variable dependiente, las utilidades, y un conjunto de variables independientes, se traduce en determinar cuál es el efecto de las variables independientes en la distribución teórica de las medidas de la población.

Distribución de Frecuencias.
Una población individual (o cualquier conjunto de medidas) puede describirse mediante una distribución de frecuencias relativas, también llamada histograma de frecuencias relativas y su gráfica se construye subdividiendo el eje de medidas en intervalos de igual amplitud. Se traza un rectángulo sobre cada intervalo, de manera que la altura del rectángulo sea proporcional a la fracción total de observaciones que caen en cada intervalo.

No se establecen reglas específicas para elegir el número, la amplitud o ubicación de los intervalos que se emplean para construir un histograma, ya que la elección de esos detalles depende hasta cierto punto del criterio de quien lo construya. Los puntos de división del eje de mediciones deben elegirse de tal forma que las medidas no coincidan con un punto de división.

Emplear  muchos intervalos para una pequeña cantidad de datos, mayor será la cantidad de intervalos que puedan incluirse sin que los datos pierdan su representatividad. La descripción de los datos constituye un fin en sí mismo, a esto se debe que, a menudo, se utilicen los histogramas con este propósito, aunque existen otros métodos gráficos que ofrecen resúmenes de la información contenida en un conjunto de datos.

El propósito del histograma es que al tomar una medición al azar del conjunto original de datos, la probabilidad de que ésta se localice en un intervalo determinado es proporcional al área del histograma correspondiente a este intervalo.

Clases de Frecuencia.
Dado un conjunto de datos se llama intervalos de clase o clases de frecuencia, o simplemente clases a los intervalos que por parejas son ajenos o disjuntos y contienen a todos los datos del conjunto.

Dado un conjunto de datos llamados frecuencia absoluta de clase o frecuencia absoluta o simplemente frecuencia a la cantidad de observaciones estadísticas que pertenecen a la clase, y la denotamos con ni, para la clase i.

Llamamos frecuencia relativa de clase o simplemente frecuencia relativa, al cociente de dividir la frecuencia absoluta entre la cantidad total de elementos, y la denotamos con fi, para la clase i.

Tanto en Estadística como en probabilidad, la acumulación de frecuencias tiene un interés particular, lo que origina las siguientes definiciones:

Llamamos frecuencia acumulada a la función que representa la suma de las frecuencias por clase, y se denota por F.

De igual manera llamamos frecuencia relativa acumulada a la función que representa la suma de las frecuencias relativas por clases, la denotamos por Fr.

Cálculo de las Frecuencias Acumuladas.
Supóngase que tenemos un conjunto con n datos y lo dividimos en m intervalos de clase con frecuencias n1, n2,… nm, tales que n1+ n2+…+ nm=n cantidad total de datos. En estas condiciones, la frecuencia acumulada está dada por:

En este caso, las frecuencias relativas por clase para la frecuencia relativa acumulada son:


Por tanto, la frecuencia relativa acumulada está dada por:


La frecuencia relativa acumulada es el cociente de la frecuencia acumulada de clase entre la cantidad total de datos, donde la suma de todas las frecuencias relativas debe ser igual a 1.


Construcción de Clases de Frecuencia.
En la construcción de clases de frecuencia existen diferentes técnicas y, al igual que en la elección de la cantidad de clases, no existe un método determinante o fórmula general que se emplee para dicha construcción.

En la construcción de clases de frecuencia siempre debemos respetar que las clases cumplan con los siguientes aspectos:

a)      Un mismo dato no debe pertenecer a dos clases diferentes.
b)      Todos los datos deben estar distribuidos en las clases formadas.

Gráficos.
Son instrumentos que tienen por objeto presentar datos numéricos mediante longitudes, áreas, volúmenes, etcétera. La presentación gráfica de la información numérica se basa en un sistema de coordenadas en el que se ubican los datos.

El gráfico tiene las siguientes ventajas:
  Presenta una idea general de manera atractiva.
  Permite comparar una gran cantidad de valores de modo muy eficiente.

Sin embargo, el gráfico también presenta las siguientes desventajas:
  Muestra valores aproximados.
  No se puede incluir tanta información como en una tabla de frecuencias.

Por lo anterior, es necesario introducir un método gráfico para la interpretación de datos. Los gráficos más comunes se pueden clasificar en los siguientes tipos:
  Barras o Histogramas.
  Lineales – Poligonales.
  Tallo – Hoja.
  Pastel.
  Caja – Box.

El gráfico debe explicarse por sí mismo, para ello se recomienda que esté compuesto de:
1.      Número: Para identificarlo si hay más de uno.
2.      Título: Debe indicar el qué, dónde, cómo y cuándo de la información.
3.      Fuente: Debe indicar el origen de la información utilizada, puede servir para informar al usuario sobre el lugar donde puede obtener mayor información al respecto.
4.      Leyenda: Cuando en un gráfico se incluyen varias series de datos es necesario identificar cada una de estas mediante símbolos o leyendas.
5.      Escala: Identificar la unidad de medida correspondiente los valores en ambos ejes.
6.      Nota Introductoria y Nota al Pie: Se utilizan si son necesarias.
7.      Título de los Ejes: Se utiliza para identificar cada uno de los ejes.

Histogramas.
Uno de los gráficos que más se emplea en la práctica es el que se elabora mediante una representación de las frecuencias absolutas o relativas o la acumulada a través de barras.
Es un gráfico de barras que se utiliza para representar la forma en que están distribuidas las frecuencias, con esto podemos identificar el centro y la variabilidad de los datos.

Para facilitar la construcción de un histograma se recomienda usar solo intervalos de clase de igual longitud, ya que las frecuencias de las clases se grafican de manera proporcional a las alturas de los rectángulos; además, con el histograma  es mucho más fácil comparar las diferencias entre frecuencias cuando los rectángulos tienen la misma base.

Los histogramas se clasifican en:
a)      Simétricos: Aquellos en los que su distribución es parecida a una campana. Es decir; si la mitad izquierda es una imagen reflejada de la mitad derecha.
b)      Sesgados, Izquierda y Derecha: Son aquellos en los que la distribución de alguna de las colas está más alargada en comparación con la otra.
c)      Multimodales: Son aquellos que en su distribución más de un pico. En caso de dos picos se llaman bimodal, en caso de tres, trimodal, y así sucesivamente.

Polígonos de Frecuencias.
En este tipo de gráfico, tanto en su escala horizontal como en la vertical son aritméticas (distancias iguales representan magnitudes iguales).

Construcción de un gráfico poligonal:
1.      Se crean los intervalos de clase.
2.      Se encuentra el punto medio de cada intervalo de clase.
3.      En el plano cartesiano, los puntos medios de las clases de frecuencia se distribuyen en el eje de las abscisas, mientras que las frecuencias de los datos se distribuyen en el eje de las ordenadas. Finalmente, se construye el gráfico poligonal uniendo los puntos medios de cada intervalo de clase.

A los polígonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias relativas acumuladas se les llama ojivas. Las ojivas se pueden utilizar en el cálculo de los cuantiles de forma gráfica. Así, una aplicación de las ojivas se refiere a encontrar el valor abajo del cual se encuentra un porcentaje determinado de los datos.

Diagrama Circular o de Pastel.
Es una representación gráfica por medio de sectores en un círculo, que representa a las frecuencias relativas del conjunto de datos. Debido a su forma también se le suele llamar diagrama de pastel. Cada categoría debe identificarse, ya sea incluyendo el nombre y su porcentaje correspondiente o por medio de una leyenda.

Construcción de un diagrama circular:
1.      Se construyen los intervalos de clase.
2.      Se calculan las frecuencias relativas por clase.
3.      En un círculo, a partir de su centro, se trazan sectores proporcionales al área del círculo que represente la frecuencia relativa por clase.


Fuente:
Juana Castillo Padilla – Estadística Inferencial Básica; Eduardo Gutiérrez González – Probabilidad y Estadística.








Comentarios

Lo más popular de la semana