Entendendo as Expressões Regulares


Prefácio

E o assunto hoje é Expressões Regulares!

Com algumas vasculhadas pela internet podemos encontrar inúmeras definições para expressões regulares, porém, vou ficar com a da Wikipédia de lingua portuguesa.

Uma expressão regular, na Informática, define um padrão a ser usado para procurar ou substituir palavras ou grupos de palavras. É um meio preciso de se fazer buscas de determinadas porções de texto.

Por exemplo, se o conjunto de palavras for {asa, carro, jardim, ovos, terra} e a expressão regular buscar por um padrão rr, obterá as palavras carro e terra.
Existem diferentes formatos para definir-se expressões regulares, porém com algumas noções gerais é possível entender boa parte das expressões.

Fonte: Wikipédia – Expressão Regular

Conceito

As Expressões Regulares (ER, Ereg ou RegEx – para os mais íntimos), então, são um método rápido e simples de manipulação e combinação avançada de strings.

Vamos partir do princípio! Uma expressão regular é essencialmente um padrão. É com base nesse padrão que a expressão em questão será avaliada. Primeiro vamos aprender a sintaxe das expressões para depois aprender como fazê-las funcionar…

Operador ^

Este é o primeiro operador que vamos aprender. O ^ indica que a expressão deve iniciar com a string dada.

^era

Esta sintaxe irá definir que a string dada deverá começar com ‘era’. No caso, “era uma vez” seria uma string concordante. Porém, se você tentar “Ele era triste”, não obterá sucesso.

Operador $

Já que temos o operador para definir o começo, temos que ter um para definir o final também! Com $ nós definimos a string que deverá conincidir com o final.

fim$

Esta sintaxe irá definir que a string dada deverá terminar com ‘fim’. Tentando validar a string “E nunca terá fim” obteremos sucesso, o que não acontecerá com a string “O fim está próximo”.

Caracteres em Branco e Caracteres de Escape

Assim como no PHP, em expressões regulares nós temos também que nos utilizar de caracteres de escape, a saber: barra invertida (\).

Segue, então, a lista com os caracteres de espaço em branco e alguns caracteres que necessitam de escape.

\t – Caracter de tabulação

\n – Nova linha
\f – Avanço de página
\r – Retorno de carro

\. – Qualquer caractere
\\ – Uma barra invertida literal
\- – Um hífen literal

… e com alguma garimpada pela rede você consegue encontrar uma lista mais completa!

Classes de Caracteres

Classes de caracteres são uma espécie de grupo que contêm todas as ocorrências que deverão (ou não deverão) constar em uma expressão…

Por exemplo… Para permitir apenas letras vogais, usaríamos:

[AaEeIiOoUu]

Então com este código teríamos um padrão que só permitirá que apenas vogais estejam na string dada.

Vamos agora aprender intervalo de caracteres

[a-z] – Qualquer letra minúscula
[A-Z] – Qualquer letra maiúscula
[a-zA-Z] – Qualquer letra maiúscula ou minúscula
[0-9] – Qualquer número

[0-9\.\-] – Qualquer número, ponto ou sinal de subtração

Bom… Tudo muito legal, muito simples… Mas isto serve apenas para combinação de UM caractere.

^[a-z][0-9]$

Neste caso teríamos uma expressão de apenas dois caracteres em que o primeiro tem necessariamente que ser uma letra minúscula e o segundo ser um número.

Agora vamos aprender outra função para o operador ^! Fora de uma classe de caracteres, ele serve para demonstrar o que deve haver no início, porém dentro, ele serve para mostrar o que não deve ocorrer.

^[^0-9][0-9]$

Aqui nós definimos que a expressão deve começar com um caractere que não seja um número e seja imediatamente seguido por um caractere que será um número!

Classes de Caracteres Pré-definidas

Para evitar chateação, foram criadas as classes de caracteres pré-definidas que já vêm junto com o interpretador de ER que você estiver utilizando (lembrando que estão presentes apenas no método POSIX).

[[:alpha:]] // Qualquer letra (alfabético)

[[:digit:]] // Qualquer número (dígito)
[[:alnum:]] // Qualquer letra ou número (alfanumérico)
[[:space:]] // Qualquer caractere de espaço
[[:upper:]] // Qualquer letra maíuscula
[[:lower:]] // Qualquer letra minúscula

[[:punct:]] // Qualquer caractere de pontuação
[[:xdigit:]] // Qualquer dígito hexadecimal (Equivalente a: [0-9a-fA-F])

Ocorrências Múltiplas

Agora vamos pra parte em que realmente começa a fazer sentido usar-se expressões regulares.

^[[:alpha:]]{3}$ // Qualquer palavra de três letras

^a{4}$ // Só fecha com a expressão ‘aaaa’
^a{2,4}$ // Fecha com ‘aa’, ‘aaa’ e ‘aaaa’
^a{2,}$ // Fecha com ‘aa’, ‘aaa’, ‘aaaa’, ‘aaaaa’ e assim por diante

Até aqui… Tudo tranquilo? Então vamos em frente!

Há outros modos de representar a repetição de caracteres!

? – Uma ocorrência ou nenhuma (Equivale a {0,1})
* – Nenhuma ocorrência, uma ocorrência, duas ocorrências e por aí vai (Equivale a {0,})
+ – Uma ou mais ocorrências (Equivale a {1,})

Se até aqui foi tudo tranqüilo, estamos muito bem! 🙂

Vamos então para o tópico final de expressões regulares

Alternação e Parênteses

A alternação se baseia no caractere de “pipe”, o famoso |. Ele é bem parecido com o operador lógico OR. Por exemplo…

r|s é equivalente a [rs]

Para caracteres simples é com certeza mais conveniente utilizar as classes. A alternação é basicamente útil para utilizar alternância de palavras.

João|Maria|José

Esta expressão só irá retornar verdadeiro se a string dada for “João” OU “Maria” OU “José”.

Agora vamos aos parênteses. Eles tem uma função muito importante.
Caso você utilize

feliz+

Somente fecharia com:
feliz

felizz
felizzz
felizzzz

Porém com os parênteses, temos um jeito mais interessante de interar com palavras repetidas.

(feliz)+

Irá fechar com:
feliz
felizfeliz
felizfelizfeliz

Quando utilizados em conjunto, obtemos bastante flexibilidade para nossas expressões regulares.

(fel|g|aprend)iz

Irá fechar com:
feliz
giz
aprendiz

———–
João|Maria$ – Fecha com ‘João’ em qualquer parte da string ou com ‘Maria’ no final

(João|Maria)$ – Fecha tanto com “João” quanto “Maria”, porém, no final da string
([ab])([xy]) – Fecha com ‘ax’, ‘ay’, ‘bx’ e ‘by’

E fim de papo!

Utilizando expressões regulares no PHP

Agora que já aprendemos essa porrada de regras, temos que saber como aplicá-las! (Lembrando que este é o método POSIX. Caso você vá utilizar ER em outra linguagem, pode ter de fazer algumas adaptações)

ereg() e eregi()

Vou ensinar apenas essas duas… Caso você queira se aprofundar mais, olhe no manual do php no capitulo de expressões regulares! 🙂

int ereg(string padrão, string fonte [, array registro]);

Esta função retorna TRUE se o padrão dado for encontrado na fonte e FALSE caso contrário.

<?php

$email

= 'mario@gmail.com';

$padrao = "^(.+)@(.+)\.(.+)$";

if (

ereg($padrao,$mail)) {

print

'Seu email passou na validacao';

}

else {

print 'Seu email nao passou na validacao';

}

?>

O que temos?
A string dada deverá começar com algum caractere qualquer em qualquer quantidade, seguido de uma arroba, seguido de mais qualquer caractere em qualquer quantidade, seguido de um ponto literal, seguido de mais qualquer sequência de caracteres, que deverão então finalizar a string.

A função eregi() se comporta de modo semelhante, porém não diferencia maiúsculas e minúsculas.

Conclusão

O mundo das expressões regulares é muito grande e abrangente. Com certeza não vai ser com essa passada de olho que você vai se tornar um expert em ER, mas serve pra dar uma noção do que elas são e para que servem!

Fonte: www.phphit.com.br