Regulární výrazy. Motto:

Regulární výrazy Motto:

Programátor musel jednou řešit zajímavý problém. Rozhodl se jej vyřešit použitím regulárních výrazů. Nyní musel řešit dva problémy.

Rudolf Pecinovský [email protected] Copyright © Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 – 17:29

1 z 59

Obsah 1. Základní seznámení 2. Ověření správnosti navržených výrazů 3. Základní syntaxe vzorů – regulárních výrazů 4. Nahrazování textu 5. Pokročilejší syntaxe 6. Použití regulárních výrazů v programu 7. Zdroje

Copyright © Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 – 17:29

2 z 59

1.

Základní seznámení

Obsah 1.1 Co to je 1.2 Datové typy používané při práci s regulárními výrazy 1.3 Princip použití


3 z 59

1.1 Co to je ► Nejsou regulérní, ale opravdu regulární ► Zavedené ve verzi 1.4, ale každá další verze je trochu vylepšila ► Regulární výraz = řetězec popisující vzor (předpis), podle nějž se: ● Rozhoduje o správné podobě zadaného řetězce ● V zadaném řetězci se vyhledává řetězec popsaný vzorem ● V zadaném řetězci se nahrazují výskyty řetězce popsaného jedním vzorem řetězcem popsaným jiným vzorem ► Příklady využití ● Validaci vstupů, kontroly formátu dat ● Dělení řetězce na části podle složitějších kritérií ● Vyhledávání specifikovaných textů v rozsáhlejších textech ● Hromadné vyhledávání a nahrazování ● Hromadné přejmenovávání souborů


4 z 59

1.2 Datové typy používané při práci s regulárními výrazy ► Všechny jsou definovány v balíčku java.util.regex ► Pattern

vnitřní reprezentace programu definovaného daným regulárním výrazem; podle názvu třídy je označován jako pattern – vzor

► MatchResult

Rozhraní definující sadu zpráv, na něž musí umět reagovat výsledek hledání

► Matcher

výsledek aplikace programu (vzoru) na zadaný text ● Implementuje rozhraní MatchResult, ale nabízí ještě další metody

► PatternSyntaxException

výjimka popisující vzniklý problém


5 z 59

1.3 Princip použití 1. Uživatel (programátor) definuje zdrojový kód programu = regulární výraz 2. Výraz se přeloží a získá se jeho vnitřní reprezentace, tzv. vzor (pattern) –

instance třídy java.util.regex.Pattern

3. Program aplikujeme na zadaný text a získáme výsledek hledání,

který je instancí třídy java.util.regex.Matcher

4. Této instance se pak můžeme ptát na nejrůznější informace o výsledku hledání

získaného aplikací programu (regulárního výrazu) na zadaný text.

Pattern p = Pattern.compile("a*b"); //Vnitřní reprezentace výrazu Matcher m = p.matcher("aaaaab"); boolean b = m.matches(); //Anebo zkráceně boolean c = Pattern.matches("a*b", "aaaaab");


6 z 59

2.

Ověření správnosti navržených výrazů

Obsah 2.1 Možnosti předběžného ověření správnosti vzorů 2.2 Desktopový program 2.3 On-line ověřovač 2.4 Jednoduchý testovací program


7 z 59

2.1 Možnosti předběžného ověření správnosti vzorů ► Regulární výrazy bývají často velmi nepřehledné,

a proto je při jejich návrhu velmi vhodné mít možnost si vše někde stranou nezávazně vyzkoušet

► Testovací program je sice jednoduchý, ale stejně dobře můžete použít

i předpřipravené jednoúčelové testery, kterých je plný internet;

● Mnohé z nich lze získat zdarma ● Další řada z nich pracuje v on-line režimu, takže ani nepotřebujete příslušné prostředí ► Při výběru testovacího programu je třeba dát pozor na to,

aby pracoval se regulárními výrazy platnými pro vaši platformu (Java, JavaScript, .NET, PHP, Python, Perl, Ruby, …)

► Programy na následujících stránkách pracují s regulárními výrazy

podle definice platformy Java


8 z 59

2.2 Desktopový program ► Jednoduchý program, který najdete na disku I:


9 z 59

2.3 On-line ověřovač ► Aplet dostupný na adrese http:www.myregexp.com/signedJar.html


10 z 59

2.4 Jednoduchý testovací program ► Ekvivalent následujícího programu si můžete napsat sami

/*************************************************************************** * V zadaném textu najde a vypíše všechny nalezené výskyty * textu odpovídajícho zadanému regulárnímu výrazu. * @param regExp Regulární výraz definující hledaný text * @param text Prohledávaný text */ public static void findAll(String regExp, String text) { System.out.printf("Text: %s%nReg.exp.: %s%n", regExp, text); Pattern pattern = Pattern.compile(regExp); Matcher matcher = pattern.matcher(text); int i = 0; while (matcher.find()) { System.out.printf ("%2d. [%2d..%2d] «%s»%n", ++i, matcher.start(), matcher.end(), matcher.group()); } } Copyright © Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 – 17:29

11 z 59

3.

Základní syntaxe vzorů – regulárních výrazů

Obsah 3.1 Jednotlivé znaky 3.2 Množiny znaků 3.2.1 Příklad 1 3.2.2 Příklad 2 3.3 Skupinové znaky 3.4 Hranice 3.4.1 Hranice ve víceřádkovém režimu 3.5 Práce se skupinami 3.5.1 Příklad 3.5.2 Pojmenované skupiny 3.6 Kvantifikátory (počet opakování) 3.6.1 Agresivita kvantifikátorů 3.7 Další operátory


12 z 59

3.1 Jednotlivé znaky ► S výjimkou znaků speciálního určení vystupuje každý znak sám za sebe ► Platí i escape-sekvence Javy: \\ \uhhhh \t \n \r \f \a \' \" ► Pro znak Escape (\u001B) lze použít \e ► Řídící znaky typu Ctrl+X je možno zadávat ve tvaru \cX ► Znak s kódem do 127 lze zadat také pomocí pouhých dvou číslic: \xhh ► V osmičkové soustavě lze znaky zadat jednou až třemi číslicemi: \0o \0oo \0ooo ► Znaky . ^ + ? * $ | ( [ { } ] ) vystupují jako metaznaky,

takže chceme-li je zadat, musíme před nimi uvést zpětné lomítko – např. \.

► Příklady – text: Okolo "Hradce" v male zahradce ► Vzor: ad

1. [ 9..11] «ad» 2. [26..28] «ad»

► Vzor: \u0020\x22

1. [ 5.. 7] « "»

► Vzor: \x20

1. [ 5.. 6] « » 2. [12..13] « » 3. [14..15] « » 4. [19..20] « »


13 z 59

3.2 Množiny znaků [abc]

Jeden ze znaků uvnitř závorek (zde a či b či c) POZOR! Uvnitř závorek se mění význam většiny metaznaků, které zde označují pouze samy sebe

[âbc]

Žádný ze znaků uvnitř závorek (cokoliv vyjma znaků a či b či c)

[a‐zA‐Z]

Rozsah znaků (zde znaky a až z a znaky A až Z včetně)

[a‐d[m‐p]]

Sjednocení (zde znaky a až d nebo znaky m až p)

[a‐z&&[^qw]] Průnik (zde znaky a až z s výjimkou znaků q a w) [a‐z&&[^m‐p]] Průnik (zde znaky a až z s výjimkou znaků m až p)


14 z 59

3.2.1 Příklad 1 ► Text: Okolo "Hradce" v male zahradce ► Vzor: o[ô]

1. [ 2.. 4] «ol» 2. [ 4.. 6] «o »

► Vzor: [ ][Â‐Z][a‐z]

1. [14..17] « ma» 2. [19..22] « za»

► Vzor: [A‐Z]

1. [ 0.. 1] «O» 2. [ 6.. 7] «H»


15 z 59

3.2.2 Příklad 2 ► Text : Příliš žluťoučký kůň úpěl ďábelské ódy ► Vzor: [^\x00‐\xff] – znaky s diakritikou,

které nejsou v západoevropské znakové sadě 1. [ 1.. 2] «ř» 2. [ 5.. 6] «š» 3. [ 7.. 8] «ž» 4. [10..11] «ť» 5. [13..14] «č» 6. [18..19] «ů» 7. [19..20] «ň» 8. [23..24] «ě» 9. [26..27] «ď»

► Chcete-li v množině povolených znaků uvést také znak – (minus),

musíte jej zadat buď jako poslední nebo jako escape sekvenci \‐


16 z 59

3.3 Skupinové znaky . \d \D \s \S \w \W

(tečka) Libovolný znak (uvnitř hranatých závorek však zastupuje jen sama sebe) Číslice, tj. [0‐9] NEčíslice, tj. [^0‐9] Bílý znak, tj. mezera, tabulátor, konec řádku, konec stránky NE bílý znak Znak [A‐Za‐z0‐9_] Znak [^\w]

► Text: Okolo "Hradce" v male zahradce ► Vzor: \S\s\S

1: [ 4.. 7] «o "» 2: [13..16] «" v» 3: [20..23] «e z»

► Vzor: ..\s..

1: [ 3.. 8] «lo "H» 2: [12..17] «e" v » 3: [19..24] «le za»

► Vzor: \w\W\W\w

1: [ 4.. 8] «o "H» 2: [12..16] «e" v»


17 z 59

3.4 Hranice ^

Začátek řádku

$

Konec řádku

\b

Hranice slova

\B

Není hranice slova

\Q

Začátek citace – od tohoto místa přestávají platit metaznaky

\E

Konec citace – opět začínají platit metaznaky

\A

Začátek vstupu

\z

Konec vstupu

\Z

Konec vstupu bez ukončovacího znaku

\G

Konec předchozí nalezené skupiny


18 z 59

► Text: Okolo Hradce v malé zahrádce ► Vzor: \b\w+\b

1. [ 0.. 5] «Okolo» 2. [ 6..12] «Hradce» 3. [13..14] «v»

► Vzor: \b.a\S*

1. [15..19] «malé» 2. [20..28] «zahrádce»

► Vzor: ...[eé]\b

1. [ 8..12] «adce» 2. [15..19] «malé» 3. [24..28] «ádce»


19 z 59

3.4.1 Hranice ve víceřádkovém režimu ► Znaky ^ a $ implicitně ignorují ukončení řádků a označují jen jejich začátek a konec,

resp. u víceřádkových vstupů začátek a konec celého textu

► V režimu MULTILINE se jejich význam poněkud mění: ● ^ označuje pozici na počátku vstupu a za každým ukončením řádku s výjimkou konce vstupu ● $ označuje pozice před ukončeními řádků a pozici na konci celého vstupu


20 z 59

3.5 Práce se skupinami ► Skupiny jsou části výrazu uzavřené do kulatých závorek ● Chceme-li v textu hledat kulatou závorku, musím ji uvést zpětným lomítkem \( ● Skupiny je možno vnořovat ● Skupiny se označují svým pořadím, přičemž pořadí skupiny se počítá podle její otevírací závorky ● Java 7 zavedla možnost skupiny pojmenovat ► Výraz: ((A)(B(C)))(D) obsahuje následující skupiny:

0. ((A)(B(C)))(D) 1. ((A)(B(C))) 2. (A) 3. (B(C)) 4. (C) 5. (D)

\n

Obsah n-té skupiny Při nahrazování se na danou skupinu odvolává výrazem $n

► V Javě se nelze odvolávat na skupinu s pořadovým číslem >9,

při více skupinách je nutno skupiny pojmenovávat – viz dále pasáž Pojmenované skupiny


21 z 59

3.5.1 Příklad ► Vzor pro kontrolu zadání data:

\b\d{1,2}([./‐])\d{1,2}\1\d{4}\b Ověří, že mezi dnem a měsícem a mezi měsícem a rokem je stejný oddělovač – tečka, pomlčka nebo lomítko. ► Text: 1.2.3456 2,3,4567 23‐4‐5678 4.5‐6789 15/12/7890 123‐45‐6789 ► Hledání

1. [ 0- 8] «1.2.3456» 2. [ 20- 28] «23‐4‐5678» 3. [ 41- 49] «15/12/7890»

► Oddělovač

1. [ 0- 0] «» 2. [ 12- 12] « 2,3,4567 » 3. [ 12- 12] « 4.5‐6789 » 4. [ 12- 12] « 123‐45‐6789»


22 z 59

3.5.2 Pojmenované skupiny ► Od verze 7.0 zavádí Java možnost definovat pojmenované skupiny,

tj. skupiny, které lze pojmenovat a poté se na ně odkazovat jménem (?<jméno> …) Pojmenovaná skupina, pojmenování uzavíráme do špičatých závorek za úvodním otazníkem /k<jméno>

Odvolávka na dříve se vyskytnuvší pojmenovanou skupinu ve vyhledávacím vzoru

► Vzor pro kontrolu zadání data – nazveme-li skupinu obsahující oddělovač odd,

získá výraz z předchozí části podobu: \d{1,2}(?[.\‐/])\d{1,2}\k\d{4}

► Na pojmenované skupiny se nadále můžeme odvolávat i jejich indexem ► Výhody pojmenování oproti indexování ● Pojmenovaných skupin může být více než 9 ● Vložíme-li do výrazu další skupinu či z něj nějakou vyjmeme, odkazy na pojmenované skupiny upravovat nemusíme


23 z 59

3.6 Kvantifikátory (počet opakování) ? + * {n} {n,} {m,n}

0 nebo 1 výskyt předchozího znaku 1 a více výskytů předchozího znaku Libovolný počet výskytů předchozího znaku (včetně 0) Přesně n opakování předchozího znaku Minimálně n opakování předchozího znaku Minimálně m a maximálně n opakování předchozího znaku

► Uvnitř hranatých závorek vystupují ? + * jako obyčejné znaky ► Text: Příliš žluťoučký kůň úpěl ďábelské ódy ► Vzor: [\x00‐\x7F&&[^ ]]{2,}

výsledek je tomto případě ekvivalentní aplikaci vzoru \w{2,} 1: [ 3.. 5] «li» 2: [ 8..10] «lu» 3: [11..13] «ou» 4: [28..33] «belsk» 5: [36..38] «dy»

► Vzor: \s\S+\s (vzhledem k zahrnutým

mezerám se musí nejprve najít další mezera) 1: [ 6..17] « žluťoučký » 2: [20..26] « úpěl »


24 z 59

3.6.1 Agresivita kvantifikátorů ► Přidáme-li za kvantifikátor znak ?, převedeme kvantifikátor na zdráhavý (reluctant);

ten zabere minimální počet znaků požadovaných vzorem

● Zdráhavé kvantifikátory se někdy označují jako líné – lazy ► Standardní kvantifikátory jsou označovány jako hladové (greedy),

protože „spolknou“ všechny akceptovatelné znaky; pokud by však jejich hladovost měla být příčinou nevyhovění vzoru, jsou ochotny část „spolknutých“ znaků vrátit

► Přidáme-li za kvantifikátor znak +, převedeme jej na lakomý (possessive);

ten pracuje zpočátku stejně jako hladový, ale co jednou schvátí, to už nenavrátí

► Text: Okolo Hradce v male zahradce ► Zdráhavý vzor: ([aeo]).*?\1

1. [ 2- 5] «olo» 2. [ 8- 17] «adce v ma» 3. [ 18- 28] «e zahradce»

► Hladový vzor: ([aeo]).*\1

1. [ 2- 5] «olo» 2. [ 8- 25] «adce v male zahra»

► Lakomý vzor: ([aeo]).*+\1

Nic nenalezeno


25 z 59

3.7 Další operátory XY

Znaky X a Y musí jít za sebou,

X|Y

Buď X nebo Y, kde za X a Y můžeme dosadit nejen znaky, ale i jejich posloupnosti a skupiny znaků

\

Další znak nebude považován za metaznak

\Q

Další znaky až po \E budou „citovány“, tj. nebudou považovány za metaznaky

\E

Konec „citace“

► Navrhněte vzor, který by zkontroloval pořadové číslo měsíce

(nezkontroluje jeho správnost, ale pouze to, že za ně lze dané číslo považovat)

\b((1[012])|[1‐9])\b ► Obdobně bychom mohli navrhnout výraz kontrolující základní pravidla pro číslo dne:

\b((3[01])|([12][0‐9])|[1‐9])\b


26 z 59

4.

Nahrazování textu

Obsah 4.1 Základy 4.1.1 Příklad: Datum 4.1.2 Příklad: Záměna křestních jmen a příjmení


27 z 59

4.1 Základy ► V nahrazovacím regulárním výrazu uvedeme,

čím budeme chtít nahradit každý nalezený text odpovídající hledanému výrazu

► Na skupiny znaků v nalezeném se můžeme odvolávat pomocí $n,

kde n je číslo skupiny, jejíž nalezený text chceme na daném místě použít

► Na pojmenované skupiny se odkazujeme výrazem ${název}


28 z 59

4.1.1 Příklad: Datum ► Úkol: Standardizovat tečku jako oddělovač použitý v datech ● Hledat: \b(\d{1,2})([./‐])(\d{1,2})\2(\d{4})\b ● Nahradit: $1.$3.$4 ● Text:

1.2.3456 2,3,4567 3‐4‐5678 4.5‐6789 5/6/7890 123‐45‐6789

● Výsledek: 1.2.3456 2,3,4567 3.4.5678 4.5‐6789 5.6.7890 123‐45‐6789 ► Kdybychom skupinu se separátorem oddělujícím části data v předchozím příkladu

označili sep (separátor), vypadal by vyhledávací vzor

● Hledat: \b(\d{1,2})(?<sep>[./‐])(\d{1,2})\k<sep>(\d{4})\b ● Zbytek se shoduje


29 z 59

4.1.2 Příklad: Záměna křestních jmen a příjmení ► Bez pojmenovaných skupin: ● Hledat: ((\w+)(\s+(\w+))?)\s+(\w+) ● Nahradit: $5 $1 ● Text:

John Fitzgerald Kennedy, Elton John, Martin Luther King

● Výsledek: Kennedy John Fitzgerald, John Elton, King Martin Luther ► Pokud skupinu pro příjmení pojmenujeme: ● Hledat: ((\w+)(\s+(\w+))?)\s+(?<surname>\w+) ● Nahradit: ${surname} $1 ● Text i výsledek jsou shodné ► Uvedený výraz ale nelze použít pro znaky s diakritikou;

§

jak na to bude vysvětleno dále


30 z 59

5.

Pokročilejší syntaxe

Obsah 5.1 Speciální režimy a třídy znaků 5.1.1 Nastavení a zrušení speciálních režimů 5.2 Třídy znaků 5.2.1 Příklad: Záměna křestních jmen a příjmení s diakritikou 5.3 Nezachytávající skupiny (?: …) 5.3.1 Příklad 5.4 Nahlížení vpřed či vzad 5.4.1 Příklad: prohození křestního jména (křestních jmen) a příjmení


31 z 59

5.1 Speciální režimy a třídy znaků ► d – UNIX_LINES

Jako konec řádku pro metaznaky . ^ $ se bude rozpoznávat pouze znak \n

► i – CASE_INSENSITIVE

Při vyhledávání se přestane rozlišovat velikost znaků

► m – MULTILINE

Zapíná jinou interpretaci znaků ^ a $. Při zapnutí režimu definují pozice v okolí konců řádků, při vypnutém označují pouze začátek a konec celé sekvence

► s – DOTALL

V tomto režimu představuje metaznak tečka opravdu všechny znaky včetně konců řádků, které v běžném režimu nezahrnuje.

► u – UNICODE_CASE

V režimu CASE_INSENSITIVE se budou považovat velká a malá písmena za shodná podle definic normy Unicode. Standardně to platí jen pro ASCII znaky

► U – UNICODE_CHARACTER_CLASS

Při nastavení režimu se budou třídy znaků klasifikovat podle Unicode Standard #18

► x – COMMENTS

Umožní vkládání komentářů začínajících znakem # a končících na konci řádku


32 z 59

5.1.1 Nastavení a zrušení speciálních režimů ► Uvnitř regulárního výrazu se režimy nastavují a vypínají pomocí sekvence

(?idmsuxU‐idmsuxU) v níž se uvádějí na předchozí stránce vypsané znaky pro nastavení, resp. vypnutí (pak předchází znak ‐) příslušného režimu ► Režim lze zapnout či vypnout i pouze pro určitou skupinu pomocí sekvence

(?idmsuxU‐idmsuxU:XXX) kde XXX představuje danou skupinu ► Nastavení režimu se neřadí mezi zachytávané skupiny,

a proto se jejich závorky nepočítají

► Text: Okolo Hradce v malé zahrádce ► Vzor: hr

1. [22- 24] «hr»

► Vzor: (?i)hr

1. [ 6- 8] «Hr» 2. [22- 24] «hr»


33 z 59

5.2 Třídy znaků ► \p{Lower}

Malá písmena

► \p{ Upper}

Velká písmena

► \p{ ASCII}

Znaky ASCII [\x00‐\x7F]

► \p{Alpha}

Písmena: [\p{Lower}\p{Upper}]

► \p{Digit}

Dekadické číslice: [0‐9]

► \p{Alnum}

Alfanumerické znaky: [\p{Alpha}\p{Digit}]

► \p{Punct}

Oddělovače – Jeden ze znaků !"#$%&'()*+,‐./:;<=>?@[\]^_`{|}~

► \p{Graph}

Viditelné znaky: [\p{Alnum}\p{Punct}]

► \p{Print}

Tisknutelné znaky: [\p{Graph}\x20]

► \p{Blank}

Mezera nebo tabulátor: [ \t]

► \p{Cntrl}

Řídící znaky: [\x00‐\x1F\x7F]

► \p{XDigit } Hexadecimální číslice: [0‐9a‐fA‐F] ► \p{Space }

Bílý znak: [ \t\n\x0B\f\r]


34 z 59

5.2.1 Příklad: Záměna křestních jmen a příjmení s diakritikou ► Opět prohazujeme křestní jména a příjmení,

ale tentokrát chceme aplikovat nahrazování i pro jména obsahující znaky s diakritikou

● Hledat: ● Nahradit:

(?U:((\p{Alpha}+)(\s+(\p{Alpha}+))?)\s+(?<surname>\p{Alpha}+)) ${surname} $1

● Text:

John Fitzgerald Kennedy, Elton John, Josef Václav Sládek, Přemysl Oráč

● Výsledek:

Kennedy John Fitzgerald, John Elton, Sládek Josef Václav, Oráč Přemysl

►


35 z 59

5.3 Nezachytávající skupiny (?: …) ► Doposud probírané skupiny byly zachytávané ● Zachytávané skupiny se tak jmenují proto, že jejich obsah je zachycen a uložen pro případné budoucí použití. ● Nezachytávané skupiny specifikují pouze pozici v prohledávaném textu, přičemž tato pozice je určena zadaným výrazem ► Nezachytávané skupiny se nepočítají, protože se na ně stejně nedá odkazovat,

při odkazu na nějakou předchozí skupinu se počítají pouze ty zachytávané

► Někdy potřebujeme ověřit, že nějaká skupina v prohledávaném textu je,

ale nebudeme ji pak už potřebovat, takže si ji ani nemusíme pamatovat

● Nemusíme-li si skupinu pamatovat, můžeme tím zefektivnit vyhledávání ● To, že se nečíslují, se hodí v případě více skupin


36 z 59

5.3.1 Příklad ► Text:

1.2.3456 2,3,4567 3.4.5678 4.5‐6789 5.6.7890 12.3.4567 12/34/5678 30‐12‐9876 ► Budeme-li chtít ověřit základní pravidla zápisu data, může mít vzor tvar::

\b((?:3[01])|(?:[12][0‐9])|[1‐9])([./‐])((?:1[012])|[1‐9])\2(\d{4})\b ► 1. [ 1- 9] «1.2.3456»

2. [ 21- 29] «3.4.5678» 3. [ 41- 49] «5.6.7890»

4. [ 50- 59] «12.3.4567» 5. [ 72- 82] «30‐12‐9876»

► Pro sjednocení oddělovačů použijeme nahrazovací výraz: $1;$3;$4

1;2;3456 2,3,4567 3;4;5678 4.5‐6789 5;6;7890 12;3;4567 12/34/5678 30;12;9876


37 z 59

5.4 Nahlížení vpřed či vzad ► V řadě případů může být naše další rozhodování ovlivněno tím,

jestli jsme již narazili na nějaký text anebo jestli na něj v budoucnu narazíme – k takovémuto nahlížení slouží konstrukce: (?= …) Pozitivní náhled vpřed (?! …) Negativní náhled vpřed (?<= …) Pozitivní náhled vzad (?
► Pozitivní náhled povolí interpretaci další částí regulárního výrazu v případě,

kdy se v daném směru popsaný text vyskytuje, negativní náhled v případě, kdy se popsaný text v daném směru nevyskytuje

► Náhledy text „nekonzumují“, pouze zjistí přítomnost či nepřítomnost textu,

takže se tento text může stát součástí dalšího zpracování

► Vhodným použitím náhledů můžeme např. specifikovat pozici,

kam se bude vkládat nějaký text

► Prozkoumávací skupiny probíráme až teď,

protože se uplatní především při nahrazování textu


38 z 59

5.4.1 Příklad: prohození křestního jména (křestních jmen) a příjmení ► Text: 12345678 – chceme do něj vložit oddělovače tisíců ● Hledat: (\d)(?=(\d\d\d)+(?!\d)) ● Nahradit:

$1,

● Text:

123; 1234; 12345; 123456; 1234567; 12345678; 123456789

● Výsledek:

123; 1,234; 12,345; 123,456; 1,234,567; 12,345,678; 123,456,789


39 z 59

5.5 Atomická nezachytávaná skupina ► Syntaxe: (?>…) ► Atomická skupina se chová podobně jako lakomý kvantifikátor:

jakmile je tato skupina v textu nalezena, už takovou navždy zůstane, jinými slovy už z ní nebude možno něco odebrat, aby celý výraz vyšel

► Výhodou lakomých kvantifikátorů oproti atomickým skupinám je to,

že lakomé kvantifikátory lze lépe optimalizovat


40 z 59

6.

Použití regulárních výrazů v programu

Obsah 5.1 Třída Pattern 5.1.1 Metody třídy Pattern 5.1.2 Příznaky ovlivňující překlad – veřejné atributy třídy Pattern 5.1.3 Rozdělení řetězce na částí 5.1.4 Ostatní metody instancí třídy Pattern 5.2 Rozhraní MatchResult 5.3 Třída Matcher 5.3.1 Metody řídící vyhledávání 5.3.2 Ovlivnění chodu vyhledávače 5.3.3 Nahrazováni 5.4 Příklady 5.4.1 Vodácký pokřik 5.4.2 5.4.3 Rozdělení textu na slova 5.4.4


41 z 59

6.1 Třída Pattern ► Instance třídy Pattern představují vnitřní reprezentace

přeložených regulárních výrazů

► Každý regulární výraz musí být před použitím přeložen ► Teprve přeložený regulární výraz můžeme požádat o poskytnutí vyhledávače

(matcher), který bude analyzovat dodaný text


42 z 59

6.1.1 Metody třídy Pattern ► static Pattern compile(String regex)

static Pattern compile(String regex, int flags) Přeloží zadaný text a vytvoří nový vzor při respektování případných zadaných příznaků ● Příznaky jsou celá čísla s jediným, nahozeným bitem, takže je můžeme skládat prostřednictvím sčítání nebo bitového OR (|) ► static boolean matches(String regex, CharSequence input)

Přeloží zadaný regulární výraz regex a ověří, zda mu text input vyhovuje

► static String quote(String s)

Vrátí text, jehož překladem vznikne vzor, kterému bude zadaný text vyhovovat


43 z 59

6.1.2 Příznaky ovlivňující překlad – veřejné atributy třídy Pattern ► CANON_EQ

Písmeno následované akcentem považuje za znak s daným akcentem

► CASE_INSENSITIVE

Nedbá na velikost písmen

► COMMENTS

Ignoruje mezery a povoluje komentáře

začínající znakem #

► DOTALL

V tomto režimu zastupuje znak . (tečka) také konce řádků (jinak ne)

► LITERAL

Metaznaky považuje za normální znaky

► MULTILINE

Umožňuje vyhledávat konce řádků


44 z 59

► UNICODE_CASE

Ignorace velikosti znaků odpovídá standardu Unicode

► UNICODE_CHARACTER_CLASS

Novinka Javy 7 – umožňuje, aby se do jednotlivých tříd započítávaly i znaky ze sady Unicode ● Toto nastavení může výrazně zpomalit vyhodnocování výrazů

► UNIX_LINES

Za konec řádku je považován pouze \n


45 z 59

6.1.3 Rozdělení řetězce na částí ► String[] split(CharSequence input)

String[] split(CharSequence inp, int limit) Vrátí pole podřetězců řetězců zadaného textu daným vzorem s respektováním pořadí. ● Neobsahuje-li text daný vzor, je vrácen celý. ● Parametr limit specifikuje maximální povolenou velikost pole, tj. počet vyhledávání daného vzoru v textu. ● Není-li kladný, není počet vracených řetězců omezen, tj. regulárním výrazem zadaný oddělovač se bude vyhledávat až do konce zadaného textu ● Je-li parametr limit kladný, je posledním vráceným řetězcem veškerý zbylý text za limit-ním nalezeným oddělovačem

Předchozí metody lze vyvolat i prostřednictvím metod třídy String ► public String[] split(String regex)

public String[] split(String regex, int limit) Vrátí pole řetězců obsažených v původním řetězci a oddělených texty odpovídajícími regulárnímu výrazu v parametru


46 z 59

6.1.4 Ostatní metody instancí třídy Pattern ► int flags()

Vrátí číslo, z nějž lze odvodit nastavené příznaky ● Použití např.: if (pattern.flags() & Pattern.COMMENTS) { … }

► Matcher matcher(CharSequence input)

Vytvoří vyhledávač vzoru v zadaném textu

► String pattern()

String toString() Vrátí text, jehož překladem vznikl daný vzor


47 z 59

6.2 Rozhraní MatchResult ► Instance tohoto rozhraní jsou výsledky aplikace vzoru na text.

Jejich metody umožňují jistou analýzu obdrženého výsledku

► int end()

int end(int group) Vrátí index znaku za posledním znakem nalezené/zadané skupiny ► String group()

String group(int group) Vrátí další, resp. zadanou skupinu odpovídající vzoru ► int groupCount()

Vrátí počet nalezených výskytů vzoru v textu

► int start()

int start(int group) Vrátí index prvního znaku nalezené/zadané skupiny


48 z 59

6.3 Třída Matcher ► Instance třídy Matcher fungují jako interprety programu

definovaného regulárním výrazem a pracujícími se zadaným textem jako zdrojem dat

► Při práci se používají tři metody: ● matches() zjišťuje, zda text přesně odpovídá vzoru ● lookingAt() zjistí, zda je text odpovídající vzoru ve vstupním textu obsažen ● find() hledá případný další výskyt daného textu ► Vyhledávač (matcher) nemusí hledat v celém textu, ale lze mu zadat pouhé okénko –

region ► Vedle vyhledávání a kontrolování je vyhledávač schopen také ve vstupním textu

nahrazovat jedny sekvence znaků jinými.

► Vyhledávač je možné resetovat a při té příležitosti mu zadat jiný vstupní text ► Instance vyhledávače nejsou vláknově bezpečné,

při použití ve vícevláknových aplikacích je na to třeba myslet


49 z 59

6.3.1 Metody řídící vyhledávání ► boolean matches()

Zjistí, jestli (celý) text v oblasti odpovídá danému vzoru

► boolean lookingAt()

Zjistí, jestli se v textu nachází pasáž odpovídající danému vzoru; hledá vždy od začátku oblasti

► boolean find()

boolean find(int start) Pokusí se najít další pasáž odpovídající danému vzoru ► MatchResult toMatchResult()

Vrátí objekt s informacemi o výsledcích porovnávání

► boolean hitEnd()

Oznámí, zda bylo při posledním hledání dosaženo konce vstupu

► boolean requireEnd()

Oznámí, zda by další vstupující text mohl ovlivnit úspěšnost nalezení textu odpovídajícího danému vzoru


50 z 59

6.3.2 Ovlivnění chodu vyhledávače ► Pattern pattern()

Vrátí vzor, vůči němuž se prověřuje zadaný text

► Matcher usePattern(Pattern newPattern)

Změní vzor, který bude v textu vyhledáván, nemění se však aktuální pozice v prohledávaném textu

► Matcher region(int start, int end)

Nastaví nové meze prohledávané oblasti v textu

► int regionEnd()

Vrátí index konce prohledávané oblasti

► int regionStart()

Vrátí index počátku prohledávané oblasti

► Matcher reset()

Matcher reset(CharSequence input) Resetuje vyhledávač, v druhém případě jej nastaví na zadaný text. ● Současně nastaví aktuální oblast (region) na celý text. ● Neovlivní nastavení ukotvení okrajů (viz dále) Copyright © Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 – 17:29

51 z 59

► boolean hasAnchoringBounds()

Oznámí, zda má aktuální oblast ukotvené okraje, tj. zda lze její počátek označit metaznakem ^ a konec metaznakem $.

► boolean hasTransparentBounds()

Oznámí, zda má aktuální oblast průhledné okraje, tj. jestli dopředné či zpětné nahlédnutí (lookahead, lookbehind) vidí I za ně

► Matcher useAnchoringBounds(boolean b)

Nastaví (resp. zruší jejich nastavení) ukotvení okrajů

► Matcher useTransparentBounds(boolean b)

Nastaví (resp. zruší jejich nastavení) průhlednosti okrajů


52 z 59

6.3.3 Nahrazováni ► String replaceFirst(String replacement)

String replaceAll(String replacement) Nahradí první(všechny) výskyt(y) vzoru zadaným řetězcem ► Matcher appendReplacement(StringBuffer sb, String replacement)

Přidá na konec zadaného StringBufferu text projitý při posledním hledání přičemž nalezený výraz na konci zadaným způsobem nahradí

► StringBuffer appendTail(StringBuffer sb)

Přidá na konec zadaného StringBufferu doposud neprojitý text, tj. text za posledním nalezeným výskytem vzoru

► static String quoteReplacement(String s)

Vrátí text, kterým by se nahrazoval nalezený text. Nesubstituuje však skupiny a místo nalezených dvojic $n, kde n je číslo skupiny, vkládá do výstupního textu pouze \n.

► Další možností je využít metod třídy String: ● public String replaceFirst(String regex, String replacement) public String replaceAll(String regex, String replacement) Jejich volání se pouze převede na volání stejnojmenných metod třídy Matcher, např.: Pattern.compile(regex).matcher(str).replaceAll(repl) Copyright © Rudolf Pecinovský, Soubor: Regularni_vyrazy.doc, verze 2.00.2549, uloženo út 4.11.2014 – 17:29

53 z 59

► Princip postupného nahrazování textu

public class TestujICPU { public static void Replace() { Pattern p = Pattern.compile("cat"); Matcher m = p.matcher("one cat two cats in the yard"); StringBuffer sb = new StringBuffer(); while (m.find()) { m.appendReplacement(sb, "dog"); } m.appendTail(sb); System.out.println(sb.toString()); } } //Tiskne: one dog two dogs in the yard


54 z 59

6.4 Příklady ► Na následujících stránkách najdete několik jednoduchých příkladů

řešených programem využívajícím regulární výrazy


55 z 59

6.4.1 Vodácký pokřik ► Zadání: Definujte regulární výraz umožňující ověřit,

že řetězec odpovídá vodáckému pokřiku

public static void ahoj() { String[] as = {"ahj", "ahoj", "ahooj", "ahoooj"}; for( String s : as ) { String t = "aho+j"; System.out.println(s + " == " + s.matches( t ) ); } }


56 z 59

6.4.2 Mohl by to být identifikátor? ► Zadání: Napište regulární výraz, pomocí kterého je možno zjistit,

zda lze v Javě považovat zadaný řetězec za identifikátor

public static void identifikátor() { String[] as = { "12a", "_123", "$a7", "_$_" }; String rv = "[\\$\\w&&\\D][\\w\\$]*"; for( String s : as ) { System.out.println( s + " == " + s.matches( rv ) ); } } ► Identifikátor je posloupnost alfanumerických znaků

a znaku $ nezačínající číslicí

► Předchozí vzor neakceptuje znaky s diakritikou


57 z 59

6.4.3 Rozdělení textu na slova ► Zadání: Rozdělte text na slova

public static void slova() { String[] as = { "a b c d", "a b c de" }; String rv = "\\s+"; for( String s : as ) { String[] ss = s.split( rv ); System.out.print( s + " == " ); for( String w : ss ) System.out.print( w + "*" ); System.out.println(); } } ► Druhé dva řádky ukazují

výsledek, kdybychom v regulárním výrazu vynechali kvantifikátor + za označením bílého znaku


58 z 59

7.

Zdroje

► WATT Andrew: Beginning Regular Expressions.

Wiley Publishing, Inc. 2005, ISBN-10: 0-7645-7489-2.

► FRIEDL Jeffrey E. F.: Mastering Regular Expressions – 3rd Edition.

O’Reilly 2006, ISBN-10: 0-596-52812-4.

► GOYVAERTS Jan, LEVITHAN Steven: Regular Expressions Cookbook.

O’Reilly 2006, ISBN-13: 978-0-596-52068-7

► The Java Tutorial, Fourth Edition – Lesson: Regular Expressions.

http://download.oracle.com/javase/tutorial/essential/regex/index.html

► Java 7 API Documentation: http://download.oracle.com/javase/7/docs/api/


59 z 59

Regulární výrazy. Motto:

Recommend Documents