Limpieza de Datos

La limpieza de datos se refiere a la acción de identificar tu información incorrecta y corregirla o eliminarla, según tu criterio, utilizando softwares especiales para esta tarea.

Problemas con los datos.

En un set de datos en formato .csv o .xls se pueden encontrar varios problemas que le restan sentido a la información, los más comunes son:

·         Formato: En ocasiones las hojas de cálculo ocultan celdas, tienen condicionales programadas o guardan números en formato de texto, por lo que otros softwares no pueden trabajar con esta información.

·         Espacios en blanco: Es posible encontrarlos en la información de cada celda, por ejemplo:

o   Espacios ausentes: Ocurre cuando no existe información en una celda.

o   Inconsistencia en los datos: Se trata de palabras mal escritas que no permiten que la información sea agrupada correctamente.

Reglas al limpiar datos.

Debes tomar en cuenta las siguientes reglas al limpiar datos:

·         Siempre realiza un respaldo de tu set de datos antes de limpiarlos, así estarán a salvo si tu llegaras a equivocarte.

·         Evita que se utilicen comas al ingresar los datos, ya que la información podría confundirse al cambiar el formato a .csv.

·         Revisa el campo de los datos numérico y de los campos de fecha, también tienes que verificar que toda la información cumpla con el formato preestablecido.

·         Si llegaras a encontrarte con un registro con errores evidentes, exclúyelo de tu set de datos, pero no lo elimines.

·         Si tienes duda con algún dato, no lo modifiques y pregunta inmediatamente a tus superiores para que te indiquen lo que debes de hacer.

Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

No hay comentarios.:

Publicar un comentario

La recomendación del momento

Albert Einstein-La mente…

En esta ocasión se comparte esta reflexión de Albert Einstein , que aunque breve, es un pensamiento que hay que tener en cuenta para expand...

Lo más popular de la semana