Uso de expresiones regulares

Las expresiones regulares son usadas para filtrar información textual entre los datos, el buen manejo de estas es una herramienta muy poderosa al hacer búsquedas y extraer información. 

Conceptos básicos de una expresión regular.

Las expresiones regulares tienen la capacidad de buscar patrones en datos de tipo texto, utilizando una sintaxis de conversión estandarizada, estas están compuestas de dos tipos de caracteres: metacaracteres y literales.

Metacaracteres: Son operadores que toman un significado diferente al habitual ()?*

Literales: Son los caracteres que estás buscando (A3e)

Por ejemplo: En una base de datos, se deben filtrar y enlistar las palabras que tengan la cadena de caracteres pala o tala, y se utiliza esta expresión regular donde los paréntesis y el símbolo | son metacaracteres y lo que le resta son literales. Los paréntesis son usados para conjuntar dos literales p o t y el | para decidir entre cada una de ellas. 

Metacaracteres.

Existen diversos tipos de metacaracteres, entre los más importantes están los siguientes:

·         El punto . puede tomar el valor de cualquier carácter. Por ejemplo, la siguiente expresión puede coincidir con la siguiente cadena de caracteres: .ama " cama, lama, rama.

·         El signo más + toma el valor de 1 o más ocurrencias de un carácter o subexpresión. Por ejemplo, la siguiente expresión puede coincidir con estas cadenas: am+a " ama, amma, ammma.

·         El signo asterisco * toma el valor de 0 o más ocurrencias de un carácter o subexpresión. Por ejemplo, la siguiente expresión puede coincidir con estas cadenas: a*ma " _ma, ama, aama.

·         El signo de interrogación ? toma el valor de 0 o una ocurrencia de un carácter o subexpresión. Por ejemplo, la siguiente expresión puede coincidir con estas cadenas: ema? " tem _, ema, pero no coincide con esta expresión emaa ya que tiene más de una ocurrencia.

·         Las llaves {} pueden usarse de dos formas distintas:

o   Con una cuenta exacta de ocurrencias. Por ejemplo, con esta expresión regular coinciden la siguiente cadena de caracteres: a{2}ma " aama; pero no coinciden estas cadenas: amas, aaamas

o   Con un intervalo de ocurrencia. Por ejemplo, con esta expresión regular coinciden las siguientes cadenas de caracteres: am{2,4}a " amma, ammma, ammma; pero no coinciden con estas cadenas: ama, ammmmmas.

Con estos conceptos básicos puedes probar haciendo el reconocimiento del formato de un correo electrónico o el de algún número telefónico.

Fuente:
Fundación Carlos Slim – Curso Analista de Datos.

Comentarios

Lo más popular de la semana

25 Preguntas de Economía

Cultura Olmeca

25 Preguntas de Ciencia y Tecnología