Problemas
con los datos.
En un set de datos en formato .csv o .xls se pueden
encontrar varios problemas que le restan sentido a la información, los más
comunes son:
· Formato: En ocasiones las hojas de cálculo ocultan celdas, tienen condicionales programadas o guardan números en formato de texto, por lo que otros softwares no pueden trabajar con esta información.
· Espacios en blanco: Es posible encontrarlos en la información de cada celda, por ejemplo:
o Espacios
ausentes: Ocurre cuando no existe
información en una celda.
o Inconsistencia
en los datos: Se trata de palabras mal
escritas que no permiten que la información sea agrupada correctamente.
Reglas al limpiar datos.
Debes tomar en cuenta las siguientes reglas al limpiar
datos:
·
Siempre realiza un respaldo de tu
set de datos antes de limpiarlos, así estarán a salvo si tu llegaras a
equivocarte.
·
Evita que se utilicen comas al
ingresar los datos, ya que la información podría confundirse al cambiar el
formato a .csv.
·
Revisa el campo de los datos
numérico y de los campos de fecha, también tienes que verificar que toda la
información cumpla con el formato preestablecido.
·
Si llegaras a encontrarte con un
registro con errores evidentes, exclúyelo de tu set de datos, pero no lo
elimines.
·
Si tienes duda con algún dato, no
lo modifiques y pregunta inmediatamente a tus superiores para que te indiquen
lo que debes de hacer.
Fundación Carlos Slim – Curso Analista de Datos.
Comentarios
Publicar un comentario
Si deseas comentar dentro de la línea del respeto, eres bienvenido para expresarte