Elaboración de gráficas de dispersión con software

Las herramientas de software utilizadas en la actualidad proporcionan una gran ayuda matemática y visual para el análisis estadístico de los datos recabados.

Diagrama de dispersión.

Un gráfico de dispersión es la manera más usual de presentar la relación de dos variables mostrando sus datos como un conjunto de puntos.

El software de análisis estadístico obtiene los datos de archivos con extensión .csv o .txt a través de la siguiente sintaxis read.csv(“archivo”,header=T) donde header=T significa que el archivo tiene los títulos de columna en el.

La dirección del archivo debe ir con doble diagonal invertida. Ejemplo: C:\\Users\\Octavio\\Desktop\\Totales.csv

Es conveniente asignar los valores del archivo a una variable definida en el software para después hacer uso de ellos. >data.csv.<-read.csv(“C:\\Users\\Octavio\\Desktop\\Totales.csv=,header=T). Este tipo de variable (data.csv) por lo general se visualiza como una tabla y es el resultado de una búsqueda en la base de datos.

Estos datos pueden tener información tipo fecha pero el software a veces no entiende que puede ser de este tipo, por lo que tendrás que cambiar el formato con el siguiente comando >data.csv[,“Dates”]<-as.Date(data.csv[,“Dates”],”%Y_%m_%d”). El formato de año – mes – día puede variar, todo depende de cómo se encuentren los datos del archivo .csv.

Una vez hecho lo anterior, el software interpretará los datos tipo fecha en el archivo.

Para graficar alguna de las columnas de la tabla con respecto de otra se sigue esta sintaxis plot(columna1,columna2). Por ejemplo, en la columna1 se ponen las fechas del archivo y en la columna2 serán los totales de ventas. Esto se logrará con el siguiente comando plot(data.csv$Dates,data.csv$Total).

Para hacer a la gráfica de dispersión más comprensible coloca títulos adecuados. Puedes hacer gráficos de dispersión con respecto a cualquier columna de la tabla. Si buscas practicar con datos precargados dentro del software existen varias tablas que puedes utilizar. Para llamarlas utiliza este comando data(nombre de la tabla). Las tablas precargadas más usadas son: airquality y mtcars.

Para observar las columnas se escribe este comando names(nombre de la tabla).

Para que el sistema entienda que cada una de las columnas debe ser una variable que se pueda graficar escribe lo siguiente attach(nombre de la tabla).

Para graficar varios diagramas de dispersión con respecto a las columnas de la tabla escribe el siguiente comando de ejemplo: pairs(~Ozone+Temp+Solar.R). Las gráficas son la herramienta perfecta para traducir datos complicados a información visual fácil de entender.

Fuente: 
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

25 Trabalenguas de Oficios

Infografía 4. Mapa Conceptual de Antecedentes de los Filósofos de la Calidad

25 Preguntas de Administración