Ir al contenido principal

Limpieza de Datos No Estructurados

En tu trabajo encontrarás información no estructurada, como datos de redes sociales, enciclopedias en la web, y más, y será tu deber limpiar esos datos para su posterior análisis, para lograrlo harás uso del software de limpieza de datos.

Por ejemplo: Para limpiar los datos que arrojó una búsqueda en alguna red social lo primero que debes hacer es cargar los datos al software de limpieza, después elimina información basura, registros repetidos, registros vacíos.

Eliminar información basura.

Necesitas identificar patrones de información sin importancia, por ejemplo, en una tabla se observan registros sin información valiosa, para eliminarlos se siguen estos pasos:

·         Coloca el cursor en Column y selecciona Text filter.

·         Escribe un carácter o palabra que te sea común en muchos registros con información innecesaria.

·         Marca con una estrella los registros que deseas conservar.

·         Posiciónate en all y selecciona Facet, después Face by star. Incluye los que digan False y excluye los que digan True.

·         Dirígete a all y selecciona Edit rows, después elige Remove all matching rows.


Eliminar registros repetidos.

En ocasiones, la información tiende a repetirse, para solucionarlo elimina los registros con este problema siguiendo estos pasos:

·         Da clic en Column y selecciona facet y después Text facet.

·         Da clic en Count, selecciona un registro que no tenga un 1 como identificador.

·         Por último, ve a Column, selecciona Edit cell y da clic en Blank down.

 

Eliminar registros en blanco.

Después de realizar lo anterior, es posible que se hayan creado espacios en blanco dentro de la tabla, y es de vital importancia eliminarlos, ya que de lo contrario el software de análisis puede confundirse, para realizarlo sigue estos pasos:

·         En Column selecciona Facet y después Text facet.

·         Dirígete a la última opción de la selección proporcionada por el software de limpieza, y selecciona Blank.

·         Dirígete a All y selecciona Edit rows, después elige Remove all matching rows.

El nuevo documento creado tendrá menos información que el documento principal, pero sin duda cada dato será valioso.

Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Entradas más populares de este blog

TNA – Velvet Sky en Héroes Inmortales.

Calaverita Literaria. Jenny Rivera

Jenny llego muy de prisa Buscando en el panteón Donde está la calaca Que me tiro un buen plantón

Cultura Olmeca

La 1° cultura (al menos de la que se tiene un registro) en aparecer en Mesoamérica, y que es conocida como la "cultura madre", es la de los olmecas , civilización de la cual, en esta lámina que se comparte, se puede ver un poquito de su historia y de los principales elementos que la caracterizaron.