Cálculos estadísticos en lenguaje de programación

Aprender a calcular valores estadísticos mediante la programación te permitirá manejar datos de manera automática desde cualquier otra herramienta como un sitio web o una aplicación móvil.

Para calcular la media, la desviación estándar y graficar histogramas, requieres las siguientes bibliotecas: Pandas, Matplotlib, Numpy.

Definición del problema.

Usa el siguiente ejemplo para definir el problema: El área de recursos humanos aplicó una prueba psicométrica a 720 de sus empleados para saber ¿Cuál es la calificación media de su personal? ¿Quiénes se salen del rango normal? y ¿Qué calificaciones fueron más frecuentes?

Sigue estos pasos para preparar los datos:

·         Importa las bibliotecas antes mencionadas.

·         Carga y selecciona los datos desde un .csv a una variable.

o   ListaEmpleados=pd.read_csv(‘empleados.csv’)

o   Select=ListaEmpleados[(‘TotalAtaque’)]

Cálculos Estadísticos.

·         Utiliza los métodos:

o   media=select.mean()[0] #media para calcular la media.

o   desvstd=np.std(select)[0] #desviación estándar para calcular la desviación estándar.

o   mediana=np.median(select) #mediana para calcular la mediana.

o   varianza=np.var(select)[0] #varianza para calcular la varianza.

·         Guarda todos estos datos en sus respectivas variables para que puedas utilizarlas después.

o   print(“Media=”+str(media))

o   print(“Desviacionstd=”+str(desvstd))

o   print(“Mediana=”+str(mediana))

o   print(“Varianza=”+str(varianza))

Gráfica de histograma y cálculos estadísticos.

Debes pasar los datos que obtuviste del .csv a un arreglo, para que posteriormente los apliques a una gráfica. Una vez teniendo los datos listos sigues estos pasos para graficar el histograma:

·         Usa el método de la biblioteca plt.hist y agrega como parámetros el arreglo de datos y el número de secciones requeridos para dividir la gráfica.

o   sd=select.as_matrix()

o   #histograma de distribución normal.

o   cuenta, cajas, ignorar=plt.hist(sd,20)

·         Traza la media de color azul con el comando:

o   #Trazo de la media y la desviación estándar

o   plt.axvline(media ,color=”b”)

·         Haz las dos líneas para graficar la desviación estándar, restando y sumando al valor de la desviación estándar al valor de la media correspondiente:

o   plt.axvline(media-desVStd,color=’r’)

o   plt.axvline(media+desVStd,color=’r’)

·         Por último, muestra la gráfica con el comando: plt.show(0)


Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

Infografía 4. Mapa Conceptual de Antecedentes de los Filósofos de la Calidad

Análisis de Amparo Dávila – Alta Cocina