Elaboración de gráficas de dispersión con lenguaje de programación

La programación para obtener gráficas de dispersión y cálculos estadísticos es una herramienta muy útil para representar de mejor manera los resultados de tu análisis.

Los requerimientos para hacer gráficos de dispersión con programación son los siguientes:

·         Python.

·         Biblioteca Pandas.

·         Fuente de datos en formatos .csv.

Preparación de datos.

Sigue estos pasos para preparar tus datos con la información del siguiente ejemplo: Una empresa de venta de productos de belleza por Internet ha recopilado una gran cantidad de datos del comportamiento de sus usuarios en su sitio web, y requiere ver esta información de una manera más clara y ordenada. Estos datos corresponden a 3 diseños web diferentes.

·         Importa las siguientes librerías de Pandas: import pandas as pd, import matplotlib.py plot as pH, import numby as np, import matplotlib, matplotlib.style.use(‘ggplot’).

·         Declara que vas a utilizar, por ejemplo, los resultados de ventas:

o   Ganancia Esp=40

o   Tiempo Esp=10

o   Visitas de Página Esp=20

o   Regreso Visitas Esp=5

·         Importa y guarda en diferentes variables tus fuentes de datos. Utiliza los archivos .csv que contienen los datos que se obtuvieron de cada diseño de página.

o   tabla1=pd.read_csv(‘Sitio1.csv´)

o   tabla2=pd.read_csv(‘Sitio2.csv´)

o   tabla3=pd.read_csv(‘Sitio3.csv´)

·         Selecciona y guarda en diferentes variables los datos que utilizarás en el programa.

o   datos1=tabla1[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]

o   datos2=tabla2[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]

o   datos3=tabla3[‘Ganancias’,’TiempoenSitio’,’PáginasVistas’,’RegresoVisitas’]

·         Saca los promedios de cada una de las variables de cada set de datos.

o   Promedios 1=datos1.apply(np.mean)

o   Promedios 2=datos2.apply(np.mean)

o   Promedios 3=datos3.apply(np.mean)

Inicialización y declaración de las gráficas.

Por ejemplo: Para obtener un reporte de ventas por Internet se utilizará un conjunto de gráficos de dispersión que constará de 9 elementos. Se declaran con la siguiente línea de código f,((ax1,ax2,ax3),(ax4,ax5,ax6),(ax7,ax8,ax9)) donde ax1,ax2 y ax3 son las primeras gráficas y van a representar el primer set de datos. Sucederá lo mismo con los siguientes grupos de variables.

f,((ax1,ax2,ax3),(ax4,ax5,ax6),(ax7,ax8,ax9))=plt.subplots(3,3;sharey=True)

El comando subplot recibe como parámetros de cuanto por cuanto va a ser el conjunto de gráficos, y en este caso, el parámetro para que el eje y sea compartido y solo se muestre una vez.

Graficación de datos.

Una vez que se tienen los datos listos para ser usados y las gráficas inicializadas, puedes comenzar a graficar de la siguiente forma:

·         Dibuja los datos de las variables. El 1° parámetro para la variable del eje x y el segundo en la variable del eje y.

·         Agrega los valores esperados ax1.scatter(datos1.TiempoEnSitio,datos1.Ganancias), dibujándolos con líneas punteadas como en x como en y, con las siguientes líneas de código:

o   ax1.axvline(TiempoEsp,color=’k’,linestyle=’--')

o   ax1.axvline(GananciaEsp,color=’k’,linestyle=’--')

·         Dibuja con líneas continuas los promedios de las variables que calculaste anteriormente:

o   ax1.qxvline(Promedios1.TiempoEnSitio,color=´k´;)

o   ax1.qxvline(Promedios1.Ganancias,color=´k´;)

·         Por último, agrega las etiquetas que requieras en la gráfica, para este caso son las siguientes:

o   Como título ‘Estilo 1’ ax1.set_tittle(‘Estilo 1’).

o   El nombre de la variable en el eje x ax.set_xlabel(‘TiempoEnSitio’).

o   El nombre de la variable en el eje y ax1.set_ylabel(‘Ganancia’).

Repite este procedimiento para las gráficas faltantes, no te olvides de cambiar los sets y las variables relacionadas en cada una de las gráficas.


Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

Cultura Olmeca