Aprender a calcular valores estadísticos mediante la programación te permitirá manejar datos de manera automática desde cualquier otra herramienta como un sitio web o una aplicación móvil.
Para calcular la media, la desviación estándar y graficar histogramas, requieres las siguientes bibliotecas: Pandas, Matplotlib, Numpy.
Definición del problema.
Usa el siguiente ejemplo para definir el problema: El
área de recursos humanos aplicó una prueba psicométrica a 720 de sus empleados
para saber ¿Cuál es la calificación media de su personal? ¿Quiénes se salen del
rango normal? y ¿Qué calificaciones fueron más frecuentes?
Sigue estos pasos para preparar los datos:
·
Importa las bibliotecas antes mencionadas.
·
Carga y selecciona los datos
desde un .csv a una variable.
o ListaEmpleados=pd.read_csv(‘empleados.csv’)
o Select=ListaEmpleados[(‘TotalAtaque’)]
Cálculos Estadísticos.
·
Utiliza los métodos:
o media=select.mean()[0] #media para calcular la media.
o desvstd=np.std(select)[0] #desviación estándar para
calcular la desviación estándar.
o mediana=np.median(select) #mediana para calcular la
mediana.
o varianza=np.var(select)[0] #varianza para calcular la
varianza.
·
Guarda todos estos datos en sus
respectivas variables para que puedas utilizarlas después.
o print(“Media=”+str(media))
o print(“Desviacionstd=”+str(desvstd))
o print(“Mediana=”+str(mediana))
o print(“Varianza=”+str(varianza))
Gráfica de histograma y cálculos estadísticos.
Debes pasar los datos que obtuviste del .csv a un
arreglo, para que posteriormente los apliques a una gráfica. Una vez teniendo
los datos listos sigues estos pasos para graficar el histograma:
· Usa el método de la biblioteca plt.hist y agrega como parámetros el arreglo de datos y el número de secciones requeridos para dividir la gráfica.
o sd=select.as_matrix()
o #histograma de distribución normal.
o cuenta, cajas, ignorar=plt.hist(sd,20)
·
Traza la media de color azul con
el comando:
o #Trazo de la media y la desviación estándar
o plt.axvline(media ,color=”b”)
·
Haz las dos líneas para graficar
la desviación estándar, restando y sumando al valor de la desviación estándar
al valor de la media correspondiente:
o plt.axvline(media-desVStd,color=’r’)
o plt.axvline(media+desVStd,color=’r’)
· Por último, muestra la gráfica con el comando: plt.show(0)
Fuente:
Fundación Carlos Slim – Curso Analista de Datos.
Comentarios
Publicar un comentario
Si deseas comentar dentro de la línea del respeto, eres bienvenido para expresarte