Aprenda a usar expressões regulares para extrair informações de seus arquivos de forma eficiente
Expressões regulares (regex) são sequências de caracteres que formam um padrão de busca. Elas são extremamente úteis para encontrar, validar e extrair informações de textos. No FileDivider, usamos expressões regulares para identificar onde cada seção começa e para extrair informações específicas dos seus arquivos.
Antes de mergulharmos em exemplos específicos, vamos entender alguns conceitos básicos de expressões regulares:
A maioria dos caracteres em uma expressão regular representa a si mesmo. Por exemplo, a expressãoabc corresponde exatamente à sequência "abc".
Alguns caracteres têm significados especiais, como . ^ $ * + ? [ ] \ | ( )
Colchetes definem um conjunto de caracteres. Por exemplo, [abc] corresponde a "a", "b" ou "c".
Especificam quantas vezes um caractere pode aparecer, como * + ? {n} {n,} {n,m}
| Metacaractere | Descrição | Exemplo |
|---|---|---|
. | Qualquer caractere, exceto quebra de linha | a.c corresponde a "abc", "adc", "a1c", etc. |
^ | Início da linha | ^abc corresponde a "abc" apenas no início da linha |
$ | Fim da linha | abc$ corresponde a "abc" apenas no final da linha |
\d | Qualquer dígito (0-9) | \d\d\d corresponde a três dígitos como "123" |
\w | Qualquer caractere alfanumérico ou underscore | \w+ corresponde a uma ou mais letras, números ou underscore |
\s | Qualquer espaço em branco | a\sb corresponde a "a b", "a\tb", etc. |
* | Zero ou mais ocorrências | ab*c corresponde a "ac", "abc", "abbc", etc. |
+ | Uma ou mais ocorrências | ab+c corresponde a "abc", "abbc", mas não a "ac" |
? | Zero ou uma ocorrência | ab?c corresponde a "ac" e "abc" |
Para dividir um documento em seções que começam com "Capítulo" seguido por um número:
Capítulo \d+
Esta expressão corresponderá a textos como "Capítulo 1", "Capítulo 42", etc.
Para extrair um CPF no formato XXX.XXX.XXX-XX:
\d3\.\d3\.\d3-\d2
Esta expressão corresponderá a CPFs como "123.456.789-01".
Para extrair datas no formato DD/MM/AAAA:
\d2/\d2/\d4
Esta expressão corresponderá a datas como "01/01/2023".
Para extrair nomes de clientes que começam com "Cliente:" seguido por qualquer texto:
Cliente: (.+)
Esta expressão corresponderá a textos como "Cliente: João Silva" e capturará "João Silva" como um grupo.
() criam grupos de captura que podem ser referenciados posteriormente, útil para extrair informações específicas.Existem várias ferramentas online que podem ajudar você a testar suas expressões regulares antes de usá-las no FileDivider: