Limpieza de Datos No Estructurados

En tu trabajo encontrarás información no estructurada, como datos de redes sociales, enciclopedias en la web, y más, y será tu deber limpiar esos datos para su posterior análisis, para lograrlo harás uso del software de limpieza de datos.

Por ejemplo: Para limpiar los datos que arrojó una búsqueda en alguna red social lo primero que debes hacer es cargar los datos al software de limpieza, después elimina información basura, registros repetidos, registros vacíos.

Eliminar información basura.

Necesitas identificar patrones de información sin importancia, por ejemplo, en una tabla se observan registros sin información valiosa, para eliminarlos se siguen estos pasos:

·         Coloca el cursor en Column y selecciona Text filter.

·         Escribe un carácter o palabra que te sea común en muchos registros con información innecesaria.

·         Marca con una estrella los registros que deseas conservar.

·         Posiciónate en all y selecciona Facet, después Face by star. Incluye los que digan False y excluye los que digan True.

·         Dirígete a all y selecciona Edit rows, después elige Remove all matching rows.


Eliminar registros repetidos.

En ocasiones, la información tiende a repetirse, para solucionarlo elimina los registros con este problema siguiendo estos pasos:

·         Da clic en Column y selecciona facet y después Text facet.

·         Da clic en Count, selecciona un registro que no tenga un 1 como identificador.

·         Por último, ve a Column, selecciona Edit cell y da clic en Blank down.

 

Eliminar registros en blanco.

Después de realizar lo anterior, es posible que se hayan creado espacios en blanco dentro de la tabla, y es de vital importancia eliminarlos, ya que de lo contrario el software de análisis puede confundirse, para realizarlo sigue estos pasos:

·         En Column selecciona Facet y después Text facet.

·         Dirígete a la última opción de la selección proporcionada por el software de limpieza, y selecciona Blank.

·         Dirígete a All y selecciona Edit rows, después elige Remove all matching rows.

El nuevo documento creado tendrá menos información que el documento principal, pero sin duda cada dato será valioso.

Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

25 Preguntas de Economía

Cultura Olmeca

25 Preguntas de Ciencia y Tecnología