Wyrażenia regularne – czym są i jak pisać własne regex’y?

16 stycznia 20222 marca 2023
Data science
10 min read

Od miesięcy odkładałem plan nauczenia się wyrażeń regularnych (tzw. regexów), ponieważ po pierwszym zetknięciu z nimi wydawały mi się dość skomplikowane, ponadto ta wiedza wydawała mi się niepotrzebna.

Dopiero po jednym z ostatnich zadań w pracy, które polegało na oczyszczeniu tytułów transakcji na potrzeby przygotowania algorytmów i modeli pod listy sankcyjne, doceniłem moc wyrażeń regularnych. Ponadto jak poznałem podstawy, wykorzystałem tę wiedzę w konkursie DataWorkshop, gdzie zająłem drugie miejsce. Mam nadzieję, że ta wiedza przyda się również Tobie!

Czym są wyrażenia regularne?

W uproszczeniu wyrażenia regularne to po prostu wzorzec, który opisuje określony tekst do wyszukania. Dodatkowo warto wspomnieć, że nie jest to żadna biblioteka czy język programowania.

Zwykle wyrażenie regularne w nazywamy „regex” lub „regexp” od skrótu angielskiego terminu: regular expressions.

Troszkę historii

Koncepcję wyrażeń regularnych sformalizował amerykański matematyk Stephen Cole Kleene w latach 50. XX wieku. Wyrażenia regularne weszły do powszechnego użytku w 1968 roku. Wykorzystywano je w dwóch celach – dopasowywanie wzorców w edytorze tekstu i analiza leksykalna w kompilatorze.

Regex’y zostały następnie przyjęte przez szeroką gamę programów, przy czym te wczesne formy zostały ujednolicone w standardzie POSIX.2 w 1992 roku. Dodatkowo w 1997 roku Philip Hazel opracował PCRE (Perl Compatible Regular Expressions), który stara się naśladować funkcjonalność wyrażeń regularnych Perla i jest używany przez wiele nowoczesnych narzędzi.

Obecnie wyrażenia regularne są szeroko obsługiwane w językach programowania i zaawansowanych edytorach tekstu. Obsługa regex jest częścią standardowej biblioteki wielu języków programowania, w tym Java i Python.

Podstawowa składnia regex, którą warto znać

Skoro już wiemy, że regex to wzorzec, który pomaga wyszukać fragment tekstu, to warto zacząć od poznania podstawowych wyrażeń regularnych.

Podzielimy je jeszcze na trzy grupy: znaki, kwantyfikatory i grupowania.

Znaki

Znaki to po prostu sposób zapisu jakiego znaku będziemy w danym ciągu szukać.

\d – dowolna liczba
\D – nie liczba
\w – dowolna litera
\W – nie litera
\s – biały znak
\S – nie biały znak
. – dowolny znak
\ – wyjściowy znak
\b – granica słowa
\B – nie granica słowa
^ – początek ciągu
$ – koniec ciągu

Zastanawiasz się, po co te wszystkie kody i z czym to się je? Już wyjaśniam. Przygotujmy nasze pierwsze regex’y dla poniższego zdania.

Ala ma kota, a kot ma Alę.

Poniżej kilka prostych regex’ów w oparciu o powyższe podstawy:

„a” – znajduje literkę „a”

„^Al” – znajdzie nam ciąg znaków rozpoczynających się od „Al”

„lę.$” – znajdzie ciąg znaków kończących się na „lę.”

„\b” – znajduje granice słów

Kwantyfikatory

* – 0 lub więcej
+ – 1 lub więcej
? – 0 lub 1
{} – dokładna liczba znaków
{min, max} – zakres liczby znaków

Skomplikujmy odrobinkę. Zamiast zdania popatrzmy na zlepek liter, gdzie łatwiej będzie wyjaśnić zasadę działania kwantyfikatorów:

aa, ab, abb, abbbb, ac, abcd, abbc, accd, acd, acdb, acabb

A teraz kilka kolejnych regexów:

„ab*” – dopasowuje ciąg, w którym po „a” następuje „b” zero, jeden lub więcej razy

„ab+” – jak wyżej, ale musi być przynajmniej jedno „b”

„ab?” – może być pojedyncze b lub brak (ale podwójne już nie!)

„a?b+$” – możliwe „a”, po którym następuje jedno lub więcej „b” na końcu ciągu

„ab{2}” – szuka łańcucha gdzie po „a” są dokładnie 2 „b”

„ab{2,4}” – szuka łańcucha gdzie po „a” jest od 2 do 4 „b”

„^.{3}” – ciąg zaczynający się od 3 dowolnych znaków

Jak widzisz, wyrażenia regularne stają się już coraz ciekawsze i mam nadzieję prostsze 🙂.

Grupowanie

[ ] – dopasowuje wszystkie znaki w nawiasach
[^ ] – dopasowuje wszystkie znaki spoza nawiasów
() – grupowanie
| – albo

Użyjmy teraz zdania:

Wykorzystałem rabarbar do zrobienia 10 soków, 2 ciast i 8 galaretek.

I kilka zastosowań grupowań:

” [0-7]” – znajdź dowolną liczbę pomiędzy 0 a 7 poprzedzoną spacją.

„a.[0-9]” – poszukaj ciąg zaczynający się od „a”, po którym następuje dowolny znak, a następnie cyfra.

„[A-Z, ]” – znajdź wszystkie duże litery, przecinki i spacje

„(a|b|r)* ” – ciąg, który składa się z samych liter „a” lub „b” lub „r” i kończy się spacją

Pomoc w nauce – https://regex101.com/

Ta strona posłużyła mi do stworzenia powyższych wizualizacji dla Ciebie. Jak pracuję nad nowym regexpem chętnie z niej korzystam.

Jak działa? Po pierwsze na górze (1) piszę regex’a, którego aktualnie konstruuję, a poniżej (2) mogę wpisać przypadki testowe, by sprawdzić, czy prawidłowo działa. Dodatkowo na stronie widzę (3) podpowiedzi.

Zatem polecam Ci z całego serducha tę stronę internetową, abyś na niej potrenował lub używał do pisania lub walidacji własnych regex’ów.

Super! Znamy podstawy! Zatem teraz spróbujmy wykorzystać tę wiedzę do bardziej praktycznych przykładów, które możemy jako mistrzowie od danych napotkać w codziennej pracy. Tylko najpierw zapoznajmy się z biblioteką re w Python.

Wyrażenia regularne w Python, czyli bilbioteka re

Python ma wbudowany pakiet o nazwie re, którego można używać do pracy z wyrażeniami regularnymi. Zaimportuj moduł re:

import re

Moduł re oferuje zestaw funkcji, które pozwalają nam wyszukać odpowiedni ciąg znaków:

findall – zwraca listę zawierającą wszystkie dopasowania,
search – wraca obiekt Match, jeśli istnieje dopasowanie w dowolnym miejscu ciągu,
split – zwraca listę, w której łańcuch został podzielony przy każdym dopasowaniu,
sub – zastępuje jedno lub wiele dopasowań nowym ciągiem.

Przykład 1 – numery telefonów

Jeśli nie wymusimy na frontend sposobu wpisywania numerów telefonów, wówczas możemy doświadczyć kreatywności użytkowników. A wtedy naszą rolą jest… posprzątanie danych. I tutaj mogą nam się mocno przydać wyrażenia regularne.

Załóżmy, że mamy dane w postaci jakichś numerów telefonów. Chcemy podzielić te numery na 2 oddzielne elementy: numer kraju (pierwsze 2 cyfry) i pozostała część (9 cyfr). Jak zobaczysz poniżej przygotowane przeze mnie przykładowe dane, to wzorce liczbowe nie zawsze są spójne, tj. mają niespójne nawiasy, łączniki czy spacje. Jednak za pomocą wyrażeń regularnych możemy łatwo uchwycić grupy liczbowe.

import pandas as pd

df = pd.DataFrame(['+48 601 602 603', 
                   '(48) 601-602-603',
                   '(+48)601602603',
                   '+48 601602603', 
                   '+48601602603', 
                   '48601602603',
                   ], 
             columns=['phone_orig'])

phone_pattern = ".*?(\\d{2}).*(\\d{3}).*(\\d{3}).*(\\d{3})"

df['country_prefix'] = df['phone_orig'].apply(lambda x: \
                        re.sub(phone_pattern, r'+\1', str(x)))
df['phone'] = df['phone_orig'].apply(lambda x: \
                        re.sub(phone_pattern, r'\2\3\4', str(x)))

df

Wyrażenie regularne – konstrukcja:

.*? – 0 lub 1 znak do uwzględnienia opcjonalnego otwartego nawiasu
(\d{2}) – pierwsza grupa przechwytywania 2-cyfrowe znaki
.* – 0 lub więcej znaków do uwzględnienia opcjonalnego nawiasu zamykającego, łącznika i spacji
(\d{3}) druga grupa przechwytywania – 3-cyfrowe znaki
.* – 0 lub więcej znaków do uwzględnienia opcjonalnego nawiasu zamykającego, łącznika i spacji
(\d{3}) trzecia grupa przechwytywania – 3-cyfrowe znaki
.* – 0 lub więcej znaków do uwzględnienia opcjonalnego nawiasu zamykającego, łącznika i spacji
(\d{3}) czwarta grupa przechwytywania – 3-cyfrowe znaki

Przykład 2 – email

Korzystając z wiedzy, którą mamy już przyswojoną (dzięki najlepszemu blogowi na świecie 🙂 ) na temat wyrażeń regularnych, przygotujmy teraz przykład ciągów zawierających zarówno litery, jak i cyfry. Załóżmy, że mamy listę e-maili w ramce danych i chcemy je porozbijać na login, informacja o domenie i tld (top level domain).

df = pd.DataFrame(['miroslaw_mamczur@miroslawmamczur.pl', 
                   'miroslaw.mamczur@gmail.com',
                   'miroslawmamczur@wp.pl',
                   'mm@wroclaw.com.pl',
                   'hmm@pwr.edu.pl',
                   'miroslaw123456789@ubs.com',
                   ], 
             columns=['email_full'])

email_pattern = "([a-zA-Z0-9\\_\\-\\.]+)@([a-zA-Z]+).(.+)"

df['email_user'] = df['email_full'].apply(lambda x: \
                    re.sub(email_pattern, r'\1', str(x)))
df['email_domain_name'] = df['email_full'].apply(lambda x: \
                    re.sub(email_pattern, r'\2', str(x)))
df['email_tld_name'] = df['email_full'].apply(lambda x: \
                    re.sub(email_pattern, r'\3', str(x)))

df

Wyrażenie regularne – konstrukcja:

([a-zA-Z0-9\_\-\.]+) – odpowiada za użytkownika; regex pozwala na małe i duże litery, cyfry i znaki specjalne: podkreślenia, łączniki i kropki,
@ – trzonem regexpa, ma być znak @, który rozbija nasze wyrażenie regularne na części
([a-zA-Z]+) – druga grupa przechwytywania (nazwa domeny) – szukamy 1 lub więcej małych i wielkich liter
. – pojedynczy znak kropki
(.+) – trzecia grupa przechwytywania – pozwala na 1 lub więcej znaków

Przykład 3 – sprawdzanie „silnego” hasła

Jeśli chcesz zbudować sprawdzanie jakości* hasła, to możesz w prosty sposób wykorzystać regex’y.

_{^{*w sumie ważniejsza jest moim zdaniem ilość znaków niż skomplikowanie, ale przyjmuję nazewnictwo używane przez większość}}

df = pd.DataFrame(['same male literki', 
                   '123456',
                   '123456 i male literki',
                   'małe i duże LITERKI',
                   'małe i duże LITERKI + 123',
                   'M1r0sław!',
                   'to_Je5t Długie.H@sło;Jak+Lubię',
                   ], 
             columns=['password'])

password_pattern = "(?=^.{8,}$)((?=.*\w)(?=.*[A-Z])\
(?=.*[a-z])(?=.*[0-9])(?=.*[|!@#'$%&\/\(\)\?\^\'\\\+\-\*]))^.*"

df['password_frag'] = df['password'].apply(lambda x: 'strong' if re.search(password_pattern, str(x)) else 'weak')

df

Wyrażenie regularne – konstrukcja:

(?=^.{8}$) – odpowiada za to, aby było minimum 8 dowolnych znaków
(?=.\w) – cokolwiek i przynajmniej jedna litera
(?=.[A-Z]) – cokolwiek i przynajmniej jedna duża litera
(?=.[a-z]) – cokolwiek i przynajmniej jedna mała litera
(?=.[0-9]) – cokolwiek i przynajmniej jedna cyfra
(?=)^.[|!@#’$%&\/()\?\^\’\+-*]) – cokolwiek i przynajmniej jeden wymieniony znak

Przykład 4. wyszukanie IP

Pracując dla cyber miałem okazję troszkę lepiej zrozumieć jak działa sieć czy routery. I okazało się, że z samego adresu IP można wywnioskować wiele ciekawych informacji (np. dostawcę internetu, czy użytkownik korzysta z VPN, przybliżoną lokalizację itp. itd.). Zatem możemy skonstruować wyrażenie regularne odpowiadające za wyszukanie IP:

df = pd.DataFrame(['0.0.0.0', 
                   '54.239.128.212',
                   '256.256.256.256',
                   '1.a.255.255',
                   'A to ukryte IP w tekście (89.78.209.42).',
                   'Można ukryć np. dwa IP: (89.78.209.42) i 1.2.3.4'
                   ], 
             columns=['ip'])

ip_pattern = "(?:(?:25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}\
(?:25[0-5]|2[0-4]\d|[01]?\d\d?)"

df['ip_found'] = df['ip'].apply(lambda x: re.findall(ip_pattern, str(x)))

df

Wyrażenie regularne – konstrukcja:

(?:(?:25[0-5]|2[0-4]\d|[01]?\d\d?).){3} – odpowiada za znalezienie liczby od 0 do 255 trzy razy podzielonych kropką
(?:25[0-5]|2[0-4]\d|[01]?\d\d?) – odpowiada za znalezienie ostatnich 3 liczb

Życzę powodzenia w wykorzystaniu Waszych regexpów w praktyce!

Pozdrawiam serdecznie z całego serducha,

Obraz cocoparisienne z Pixabay

[mailerlite_form form_id=5]

Tagi:regex regexp

14 komentarzy do “Wyrażenia regularne – czym są i jak pisać własne regex’y?”

Marcinek 8 października 2025 o 12:22

Odpowiedz

Niektóre przykłady nie działają w PHP, bo od którejś tam wersji, chyba 7.0, usunięto obsługę wyrażeń regularnych typu POSIX.
Kamil 27 sierpnia 2024 o 14:06

Odpowiedz

Przykład nie działa mi w php7.4

Kamil
————————————-
Zoomia.pl – Ogłoszenia
Tomasz 4 marca 2024 o 22:17

Odpowiedz

Fajny tekst, a czy wiesz jak zdefiniować w ramach google search console:
pokaż tylko frazy które mają 5 i więcej kliknięć?
George 22 lutego 2024 o 08:42

Odpowiedz

Pilnie potrzebujesz pieniędzy? Możemy Ci pomóc!
Czy przez obecną sytuację masz kłopoty lub grozi ci tarapatami?
W ten sposób dajemy Ci możliwość podjęcia nowego rozwoju.
Jako bogata osoba czuję się zobowiązana pomagać ludziom, którzy starają się dać im szansę. Każdy zasługiwał na drugą szansę, a ponieważ rząd poniósł porażkę, trzeba będzie dać ją innym.
Żadna kwota nie jest dla nas zbyt szalona, a termin zapadalności ustalamy po obopólnym porozumieniu.
Żadnych niespodzianek, żadnych dodatkowych kosztów, tylko uzgodnione kwoty i nic więcej.
Nie czekaj dłużej i skomentuj ten post. Podaj kwotę, którą chcesz pożyczyć, a my skontaktujemy się z Tobą w sprawie wszystkich możliwości. skontaktuj się z nami już dziś pod adresem george_baker1960@hotmail.com
Tomek 31 lipca 2023 o 09:45

Odpowiedz

Witam,
W arkusz google, musze zrobić tak aby, wyświetlało mi liczby przed znaczkiem €, udało mi się
zrobić tak aby pokazywało liczby całkowite, a nie mogę zrobić takżeby też wyświetlało ułamki,
np wpisuje Mietek 70€ otrzymuje 70€ a jak wpisze Mietek70,1€ nie otrzymuje nic jak to zrobić?

(WARTOŚĆ(regexextract(B20:F20;”[0-9]+€|[0-9]+ €”)
Konrad Noise 18 marca 2023 o 16:00

Odpowiedz

Cześć Mirek 🙂

Porównanie:
RegEx to taki prymitywny SQL.
Uważasz za ok?

pzdr
RYsiek 31 grudnia 2022 o 16:52

Odpowiedz

Witam. A jak zrobić w regex tak aby zaznaczył całe zdanie do wystąpienia znaku?
mam słowo
RazDwaTrzy:CzteryPięć:Sześć:Siedem

Chciałbym by zaznaczał tekst od lewej do pierwszego wystąpienia znaku :
1. Mirek 27 lutego 2023 o 20:39
  
  Odpowiedz
  
  ^([^:]+)
  
  A w pythonie np. tak:
  import re
  
  text = „RazDwaTrzy:CzteryPięć:Sześć:Siedem”
  match = re.match(’^([^:]+)’, text)
  
  if match:
  result = match.group(0)
  print(result)
Oli 14 lipca 2022 o 09:52

Odpowiedz

Te słowa do mnie trafiły – same story:
„…ponadto ta wiedza wydawała mi się niepotrzebna.
Dopiero po jednym z ostatnich zadań w pracy…”

Biorę się do lektury.
1. Mirek 12 września 2022 o 18:45
  
  Odpowiedz
  
  ❤️
dawid 20 lutego 2022 o 10:03

Odpowiedz

Cześć, jak rozumieć tego typu zapis funkcji re.sub(), mógłbyś to rozwinąć?
, r’\2\3\4′
1. Mirek 20 lutego 2022 o 13:42
  
  Odpowiedz
  
  Hej Dawid!
  Jak w patternie używasz nawiasów grupujacych „()”, to np. \2 wskazuje na to co znalazło się we wnętrzu 2-go nawiasu.
Michał 26 stycznia 2022 o 01:30

Odpowiedz

Bardzo dobry artykuł, jak wszystkie w zasadzie 🙂
Dzięki!

Do nauki polecam, jeśli ktoś jeszcze nie zna, poniższą stronę:

https://regexlearn.com/
1. Mirek 5 lutego 2022 o 13:06
  
  Odpowiedz
  
  Hej Michał! Dzięki za fajną stronkę. Rzeczywiście jest bardzo fajna do nauki 🙂

Wyrażenia regularne – czym są i jak pisać własne regex’y?

Czym są wyrażenia regularne?

Troszkę historii

Podstawowa składnia regex, którą warto znać

Znaki

Kwantyfikatory

Grupowanie

Pomoc w nauce – https://regex101.com/

Wyrażenia regularne w Python, czyli bilbioteka re

Przykład 1 – numery telefonów

Przykład 2 – email

Przykład 3 – sprawdzanie „silnego” hasła

Przykład 4. wyszukanie IP

14 komentarzy do “Wyrażenia regularne – czym są i jak pisać własne regex’y?”

Dodaj komentarz Anuluj pisanie odpowiedzi

Podobne posty

Googluj jak PRO

ChatGPT – wywiad o AI

Dall-E2 vs Midjourney vs Stable Diffusion

Spodobało Ci się? Udostępnij ten post w social mediach! ❤️❤️❤️