Elaboración de gráficas de dispersión con lenguaje de programación
La programación para obtener gráficas de dispersión y cálculos estadísticos es una herramienta muy útil para representar de mejor manera los resultados de tu análisis.
Los requerimientos para hacer gráficos de dispersión con programación son los siguientes:
·
Python.
·
Biblioteca Pandas.
·
Fuente de datos en formatos .csv.
Preparación de datos.
Sigue estos pasos para preparar tus datos con la
información del siguiente ejemplo: Una empresa de venta de productos de belleza
por Internet ha recopilado una gran cantidad de datos del comportamiento de sus
usuarios en su sitio web, y requiere ver esta información de una manera más
clara y ordenada. Estos datos corresponden a 3 diseños web diferentes.
· Importa las siguientes librerías de Pandas: import pandas as pd, import matplotlib.py plot as pH, import numby as np, import matplotlib, matplotlib.style.use(‘ggplot’).
·
Declara que vas a utilizar, por
ejemplo, los resultados de ventas:
o Ganancia Esp=40
o Tiempo Esp=10
o Visitas de Página Esp=20
o Regreso Visitas Esp=5
·
Importa y guarda en diferentes
variables tus fuentes de datos. Utiliza los archivos .csv que contienen los
datos que se obtuvieron de cada diseño de página.
o tabla1=pd.read_csv(‘Sitio1.csv´)
o tabla2=pd.read_csv(‘Sitio2.csv´)
o tabla3=pd.read_csv(‘Sitio3.csv´)
·
Selecciona y guarda en diferentes
variables los datos que utilizarás en el programa.
o datos1=tabla1[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]
o datos2=tabla2[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]
o datos3=tabla3[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]
·
Saca los promedios de cada una de
las variables de cada set de datos.
o Promedios 1=datos1.apply(np.mean)
o Promedios 2=datos2.apply(np.mean)
o Promedios 3=datos3.apply(np.mean)
Inicialización y declaración de las gráficas.
Por ejemplo: Para obtener un reporte de ventas por
Internet se utilizará un conjunto de gráficos de dispersión que constará de 9
elementos. Se declaran con la siguiente línea de código f,((ax1,ax2,ax3),(ax4,ax5,ax6),(ax7,ax8,ax9)) donde ax1,ax2 y ax3
son las primeras gráficas y van a representar el primer set de datos. Sucederá
lo mismo con los siguientes grupos de variables.
f,((ax1,ax2,ax3),(ax4,ax5,ax6),(ax7,ax8,ax9))=plt.subplots(3,3;sharey=True)
El comando subplot recibe como parámetros de cuanto por cuanto va a ser el conjunto de gráficos, y en este caso, el parámetro para que el eje y sea compartido y solo se muestre una vez.
Graficación de datos.
Una vez que se tienen los datos listos para ser usados
y las gráficas inicializadas, puedes comenzar a graficar de la siguiente forma:
· Dibuja los datos de las variables. El 1° parámetro para la variable del eje x y el segundo en la variable del eje y.
·
Agrega los valores esperados ax1.scatter(datos1.TiempoEnSitio,datos1.Ganancias),
dibujándolos con líneas punteadas como en x como en y, con las siguientes
líneas de código:
o ax1.axvline(TiempoEsp,color=’k’,linestyle=’--')
o ax1.axvline(GananciaEsp,color=’k’,linestyle=’--')
·
Dibuja con líneas continuas los
promedios de las variables que calculaste anteriormente:
o ax1.qxvline(Promedios1.TiempoEnSitio,color=´k´;)
o ax1.qxvline(Promedios1.Ganancias,color=´k´;)
·
Por último, agrega las etiquetas
que requieras en la gráfica, para este caso son las siguientes:
o Como título ‘Estilo 1’ ax1.set_tittle(‘Estilo 1’).
o El nombre de la variable en el eje x ax.set_xlabel(‘TiempoEnSitio’).
o El nombre de la variable en el eje y ax1.set_ylabel(‘Ganancia’).
Repite este procedimiento para las gráficas faltantes, no te olvides de cambiar los sets y las variables relacionadas en cada una de las gráficas.
Fuente:
Fundación Carlos Slim – Curso Analista de Datos.
Comentarios
Publicar un comentario