Obsah
´ vod U
1
1
. . . . .
2 2 2 5 6 8
. . . . . .
9 9 12 15 16 16 17
. . . . . .
19 19 20 22 23 24 25
2
3
Teoreticka´ informatika 1.1 Vznik a vy´voj teoreticke´ informatiky . . 1.1.1 Matematika . . . . . . . . . . . . 1.1.2 Jazykoveˇda . . . . . . . . . . . . 1.1.3 Biologie . . . . . . . . . . . . . . 1.2 Mozˇnosti pouzˇitı´ teoreticke´ informatiky
. . . . .
Konecˇne´ automaty 2.1 Konecˇny´ automat . . . . . . . . . . . . . . 2.2 Nedeterminismus . . . . . . . . . . . . . . 2.3 Tota´lnı´ automat . . . . . . . . . . . . . . . 2.4 Odstraneˇnı´ nepotrˇebny´ch stavu˚ automatu 2.4.1 Nedosazˇitelne´ stavy . . . . . . . . 2.4.2 Nadbytecˇne´ stavy . . . . . . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
. . . . .
. . . . . .
Regula´rnı´ jazyky 3.1 Konecˇne´ jazyky . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Pumping Lemma pro regula´rnı´ jazyky a nekonecˇne´ jazyky 3.3 Uza´veˇrove´ vlastnosti trˇ´ıdy regula´rnı´ch jazyku˚ . . . . . . . 3.3.1 Sjednocenı´ . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Zrˇeteˇzenı´ . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Iterace . . . . . . . . . . . . . . . . . . . . . . . . . . I
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
. . . . .
. . . . . .
. . . . . .
OBSAH
II 3.3.4 3.3.5 3.3.6 3.3.7
4
5
6
Pozitivnı´ iterace . Zrcadlovy´ obraz Pru˚nik . . . . . . Homomorfismus
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Regula´rnı´ vy´razy 4.1 Mozˇnosti vyuzˇitı´ regula´rnı´ch vy´razu˚ . . . . . . . . . . . . . 4.2 Definice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Vztah ke konecˇny´m automatu˚m . . . . . . . . . . . . . . . 4.4 Vyuzˇitı´ vztahu regula´rnı´ch vy´razu˚ k reg. jazyku˚m . . . . . 4.4.1 Du˚kazy uza´veˇrovy´ch vlastnostı´ regula´rnı´ch jazyku˚ 4.4.2 Normovany´ automat . . . . . . . . . . . . . . . . . . 4.4.3 Minimalizace konecˇne´ho automatu . . . . . . . . . Forma´lnı´ gramatiky 5.1 Generova´nı´ slov jazyka . . . . . . . . . . . . 5.2 Regula´rnı´ gramatiky . . . . . . . . . . . . . 5.3 Chomske´ho hierarchie gramatik . . . . . . 5.3.1 Gramatiky v Chomske´ho hierarchii 5.3.2 Souvisejı´cı´ typy gramatik . . . . . . 5.4 Operace nad slovy a jazyky . . . . . . . . .
. . . . . .
. . . . . .
Bezkontextove´ jazyky 6.1 Bezkontextove´ gramatiky . . . . . . . . . . . . 6.2 Vlastnosti bezkontextovy´ch gramatik . . . . . 6.2.1 Bezkontextova´ gramatika nezkracujı´cı´ . 6.2.2 Redukovana´ gramatika . . . . . . . . . 6.2.3 Gramatika bez jednoduchy´ch pravidel 6.2.4 Dalsˇ´ı typy bezkontextovy´ch gramatik . 6.3 Norma´lnı´ formy pro bezkontextove´ gramatiky 6.3.1 Chomske´ho norma´lnı´ forma . . . . . . 6.3.2 Greibachova norma´lnı´ forma . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . . .
. . . . . .
. . . . . . . . .
. . . .
. . . . . . .
. . . . . .
. . . . . . . . .
. . . .
26 26 27 29
. . . . . . .
30 30 31 32 36 36 37 38
. . . . . .
44 44 46 50 50 51 52
. . . . . . . . .
54 54 56 56 58 61 62 63 63 65
Kapitola
1
Teoreticka´ informatika Tato kapitola je prˇedevsˇ´ım motivacˇnı´ – dovı´me se zde, jaky´ ma´ teoreticka´ informatika vy´znam, jak vznikla a take´ jake´ jsou mozˇnosti jejı´ho prakticke´ho pouzˇitı´.
1.1
Vznik a vy´voj teoreticke´ informatiky
Vznik teoreticke´ informatiky – trˇi korˇeny: 1. matematika, 2. jazykoveˇda, 3. biologie.
1.1.1 Matematika Pocˇa´tek 20. stoletı´: rozvoj logiky. Roku 1936 – zjisˇteˇnı´: „Nelze cokoliv jednoznacˇneˇ urcˇit a vypocˇ´ıtat.“ Ota´zka: „Co lze vypocˇ´ıtat?“ =⇒ Turingu˚v stroj a dalsˇ´ı vy´pocˇetnı´ modely Alan Turing (1912–1954) Vytvorˇil Turingu˚v stroj jako matematicky´ model „Na tomto stroji lze vypocˇ´ıtat pra´veˇ to, co je vypocˇitatelne´.“
2
KAPITOLA 1 TEORETICKA´ INFORMATIKA
3
⊔ $ 0 1 1 X A $ ⊔ ⊔
J
J
A
(jednostranneˇ) nekonecˇna´ pa´ska
cˇtecı´ a za´pisova´ hlava, pohyb obeˇma smeˇry
Konecˇna´ rˇ´ıdicı´ jednotka
stav (promeˇnna´, vnitrˇnı´ pameˇt’)
Obra´zek 1.1: Turingu˚v stroj Vlastnosti Turingova stroje: • rˇ´ıdicı´ jednotka se vzˇdy nacha´zı´ v neˇktere´m z prˇedem urcˇeny´ch stavu˚, • cˇtecı´ a za´pisova´ hlava je vzˇdy na neˇktere´m polı´cˇku pa´sky, • v kazˇde´m kroku se stroj rˇ´ıdı´ podle stavu jednotky a podle obsahu polı´cˇka, na ktere´ ukazuje hlava, • podle teˇchto dvou u´daju˚ se rozhodne o akci, ktera´ spocˇ´ıva´ – ve zmeˇneˇ stavu jednotky (naprˇ´ıklad ze stavu „nacˇ´ıta´nı´ “ do stavu „nacˇteno“ nebo ze stavu „pracuji“ do stavu „vypı´na´m“), – prˇepsa´nı´ obsahu polı´cˇka na pa´sce neˇcˇ´ım jiny´m (nebo mu˚zˇe polı´cˇko zu˚stat beze zmeˇny), a – posun na pa´sce vpravo, vlevo, a nebo mu˚zˇe hlava zu˚stat na stejne´m polı´cˇku. Vy´sledkem cˇinnosti stroje obvykle by´va´ obsah pa´sky, du˚lezˇitou informacı´ mu˚zˇe by´t stav, ve ktere´m stroj skoncˇil vy´pocˇet (je mnozˇina koncovy´ch stavu˚). Dalsˇı´ modely: Turingu˚v stroj byl moc slozˇity´ pro neˇktere´ jednodusˇsˇ´ı vy´pocˇty, proto vznikly jednodusˇsˇ´ı modely – konecˇny´ automat a za´sobnı´kovy´ automat. Vlastnosti konecˇne´ho automatu: • rˇ´ıdicı´ jednotka se vzˇdy nacha´zı´ v neˇktere´m z prˇedem urcˇeny´ch stavu˚, • cˇtecı´ hlava je vzˇdy na neˇktere´m polı´cˇku pa´sky,
KAPITOLA 1 TEORETICKA´ INFORMATIKA
4 A
b a 0 1 1 a 8 3 f w
J
J
jednostranneˇ nekonecˇna´ pa´ska
cˇtecı´ hlava, pohyb doprava
Konecˇna´ rˇ´ıdicı´ jednotka
stav (promeˇnna´, vnitrˇnı´ pameˇt’)
Obra´zek 1.2: Konecˇny´ automat • v kazˇde´m kroku se stroj rˇ´ıdı´ podle stavu jednotky a podle obsahu polı´cˇka, na ktere´ ukazuje hlava, • podle teˇchto dvou u´daju˚ se rozhodne o akci, ktera´ spocˇ´ıva´ – ve zmeˇneˇ stavu jednotky (naprˇ´ıklad ze stavu „nacˇ´ıta´nı´ “ do stavu „nacˇteno“ nebo ze stavu „pracuji“ do stavu „vypı´na´m“), – posunem na pa´sce o polı´cˇko vpravo. Narozdı´l od Turingova stroje se cˇtecı´ hlava posouva´ v kazˇde´m kroku o polı´cˇko doprava a nema´ mozˇnost zapisovat. Vy´sledkem cˇinnosti automatu je pouze informace o tom, ve ktere´m stavu stroj skoncˇil, a zda prˇecˇetl cely´ obsah pa´sky (kdyzˇ neprˇecˇetl a „zasekl se“ – pro dany´ obsah pole na pa´sce a momenta´lnı´ stav trˇeba nenı´ definova´na zˇa´dna´ akce). A
b a 0 1 1 a 8 3 f w
J
J
jednostranneˇ nekonecˇna´ pa´ska
cˇtecı´ hlava, pohyb doprava
Konecˇna´ rˇ´ıdicı´ jednotka
QQ
HH
5 a za´sobnı´k stav (promeˇnna´, vnitrˇnı´ pameˇt’) Z
Obra´zek 1.3: Za´sobnı´kovy´ automat
KAPITOLA 1 TEORETICKA´ INFORMATIKA
5
Vlastnosti za´sobnı´kove´ho automatu: • rˇ´ıdicı´ jednotka se vzˇdy nacha´zı´ v neˇktere´m z prˇedem urcˇeny´ch stavu˚, • cˇtecı´ hlava je vzˇdy na neˇktere´m polı´cˇku pa´sky, • automat ma´ k dispozici za´sobnı´k, kde prˇida´va´ shora a take´ shora vybı´ra´, • v kazˇde´m kroku automat vyjme jeden prvek ze za´sobnı´ku, a rˇ´ıdı´ se podle tohoto vyjmute´ho symbolu, stavu jednotky a take´ se mu˚zˇe (nemusı´) rˇ´ıdit podle obsahu polı´cˇka, na ktere´ ukazuje hlava, • podle teˇchto trˇ´ı (nebo dvou) u´daju˚ se rozhodne o akci, ktera´ spocˇ´ıva´ – ve zmeˇneˇ stavu jednotky (naprˇ´ıklad ze stavu „nacˇ´ıta´nı´ “ do stavu „nacˇteno“ nebo ze stavu „pracuji“ do stavu „vypı´na´m“), – posunem na pa´sce o polı´cˇko vpravo, pokud v tomto kroku cˇetl symbol ze vstupnı´ pa´sky (tj. kdyzˇ cˇte ze vstupu, za´rovenˇ se posune da´l), – mu˚zˇe ulozˇit do za´sobnı´ku jaky´koliv pocˇet prvku˚ (i zˇa´dny´), a to postupneˇ po jednom, ten, ktery´ vlozˇil jako poslednı´, bude hned v dalsˇ´ım kroku vyjmut. Narozdı´l od konecˇne´ho automatu cˇtecı´ hlava nemusı´ pracovat v kazˇde´m kroku (bud’ cˇte a za´rovenˇ se posune, nebo nepracuje vu˚bec), nema´ mozˇnost zapisovat a pohybuje se jen smeˇrem doprava. Vy´sledkem cˇinnosti je informace o stavu, ve ktere´m stroj skoncˇil, zda prˇecˇetl cely´ obsah pa´sky, a prˇ´ıpadneˇ mu˚zˇe by´t du˚lezˇite´, zda do konce vy´pocˇtu stacˇil vypra´zdnit cely´ za´sobnı´k.
1.1.2 Jazykoveˇda Forma´lnı´ gramatika rˇesˇ´ı, jak se slova utva´rˇejı´ (u matematicky´ch korˇenu˚ byl rˇesˇen proble´m rozpozna´va´nı´ jizˇ utvorˇeny´ch slov cˇi sekvencı´ signa´lu˚). Noam Chomskij Zkoumal syntaxi jazyka a schopnost lidı´ mluvit. „Vsˇechny jazyky jsou utvorˇeny prˇiblizˇneˇ stejny´m zpu˚sobem, majı´ stejny´ za´klad.“ Definice 1.1 (Forma´lnı´ gramatika) Forma´lnı´ gramatika je soubor obecny´ch pravidel, generujeme veˇtu na za´kladeˇ jejı´ struktury (syntaxe).
✍
KAPITOLA 1 TEORETICKA´ INFORMATIKA
6
Prˇı´klad 1.1 S → [begin]A[end] A → P; A → P;A P → [vypis]T T → [pismenko] T → [pismenko]T S ⇒ [begin]A[end] ⇒ [begin]P ; [end] ⇒ [begin]P ; P ; [end] ⇒ ⇒ [begin][vypis]T ; P ; [end] ⇒ ⇒ [begin][vypis][pismenko]T ; P ; [end] ⇒ . . . ⇒ [begin][vypis][pismenko][pismenko][pismenko]; [vypis][pismenko][pismenko][pismenko][pismenko]; [end]
Za´kladnı´ princip: Veˇta se skla´da´ ze slov, prˇi skla´da´nı´ cˇa´stı´ potrˇebujeme take´ pomocna´ slova („obecne´ termı´ny“), za ktera´ mu˚zˇeme dosadit posloupnost skla´dajı´cı´ se ze slov a pomocny´ch slov – rekurze. Pomocna´ slova = netermina´lnı´ symboly, skutecˇna´ slova = termina´lnı´ symboly Typy forma´lnı´ch gramatik: • Gramatika odpovı´dajı´cı´ Turingovu stroji: pravidla α → β • Bezkontextova´ gramatika: pravidla A → β • atd.
1.1.3 Biologie Aristid Lindenmayer. Lindenmayerovy syste´my (L-Syste´my) – zjistil, zˇe kdyzˇ upravı´ forma´lnı´ gramatiku a pozmeˇnı´ jejı´ chova´nı´, doka´zˇe naprˇ´ıklad simulovat ru˚st a vy´voj rostliny nebo deˇlenı´ buneˇk. Pravidlo: b → bb Vy´pocˇet: b ⇒ bb ⇒ b4 ⇒ b8 ⇒ . . .
KAPITOLA 1 TEORETICKA´ INFORMATIKA
7
Jeho zˇa´ci pak prˇisˇli na mozˇnost graficke´ interpretace L-Syste´mu˚ ⇒ ru˚zne´ typy frakta´lu˚. U frakta´lu˚ generovany´ch L-Syste´my jde o to, jak pomeˇrneˇ slozˇity´ na´kres vygenerovat co nejjednodusˇsˇ´ım rˇeteˇzcem „obycˇejny´ch“ symbolu˚, ktere´ majı´ vy´znam urcˇite´ instrukce (vykresli cˇa´ru, popojdi bez vykreslenı´, otocˇ se doprava, doleva, ulozˇ pı´smeno do za´sobnı´ku, vyjmi pı´smeno ze za´sobnı´ku, apod.). Uplatnˇuje se rekurze, tedy tote´zˇ pravidlo (nebo tata´zˇ pravidla) se pouzˇ´ıva´ porˇa´d dokola tak dlouho, dokud nevznikne dostatecˇneˇ dlouha´ a „slozˇita´“ posloupnost instrukcı´.
(a)
(b)
(c)
(d)
Obra´zek 1.4: Neˇkolik frakta´lu˚ vygenerovany´ch pomocı´ L-Syste´mu˚
KAPITOLA 1 TEORETICKA´ INFORMATIKA
8
Naprˇ´ıklad obra´zek 1.4c na straneˇ 7 vznikl z rˇeteˇzce F+F+F+F+F+F tak, zˇe jsme rekurzı´vneˇ vsˇechny symboly F (i ty noveˇ prˇida´vane´) zpracovali pravidlem F → F[+F+F]F.
1.2
Mozˇnosti pouzˇitı´ teoreticke´ informatiky
• stavove´ programova´nı´, prˇekladacˇe • modelova´nı´ matematicky´ch vy´pocˇtu˚ • analy´za prˇirozene´ho jazyka (kontrola pravopisu, prˇeklady, atd.) • L-Syste´my: biologie, frakta´ly (malı´rˇstvı´, filmy, apod.), fyzika (teorie chaosu, modelova´nı´ turbulence, studium torna´d, atd.) • porovna´va´nı´ slozˇitosti ru˚zny´ch algoritmu˚ deˇlajı´cı´ch tote´zˇ • DNA-vy´pocˇty • fyzika – kvantove´ pocˇ´ıtacˇe • ...
Kapitola
2
Konecˇne´ automaty Nejdrˇ´ıv se budeme zaby´vat nejjednodusˇsˇ´ım typem modelu˚, ktere´ byly zmı´neˇny v kapitole 1.1.1 o matematicky´ch korˇenech teoreticke´ informatiky, konecˇny´mi automaty, a take´ se podı´va´me na za´klady pra´ce s jednoduchy´mi gramatikami, se ktery´mi jsme se uzˇ trochu sezna´mili v kapitole 1.1.2.
2.1
Konecˇny´ automat
Konecˇny´ automat je vzˇdy v neˇktere´m (vnitrˇnı´m) stavu, ktery´ si mu˚zˇeme prˇedstavit jako promeˇnnou naby´vajı´cı´ prˇedem stanoveny´ch hodnot. Pracuje jednodusˇe tak, zˇe na za´kladeˇ informace o sve´m momenta´lnı´m stavu a da´le podle signa´lu, ktery´ dostal (symbolu na vstupu) se prˇesune do neˇktere´ho jine´ho stavu a za´rovenˇ se posune na vstupu, tedy ocˇeka´va´ dalsˇ´ı signa´l (je prˇipraven nacˇ´ıst dalsˇ´ı symbol z pa´sky). Na obra´zcı´ch 2.1, 2.2 a 2.3 vidı´me neˇkolik jednoduchy´ch diagramu˚ (orientovany´ch grafu˚) konecˇny´ch automatu˚. Diagram prˇehledneˇ (u jednodusˇsˇ´ıch automatu˚) zobrazuje prˇechody mezi stavy (sˇipky) a signa´ly (symboly), ktere´ jsou prˇi tomto prˇechodu nacˇ´ıta´ny a zpracova´va´ny (ohodnocenı´ sˇipek). vypni V zapni
Popis: V . . . . . . . . . . vypnuto Z . . . . . . . . . . zapnuto
Z
Obra´zek 2.1: Elektricky´ spotrˇebicˇ jako konecˇny´ automat 9
KAPITOLA 2 KONECˇNE´ AUTOMATY
v z
Č t
t v OZ V OČ v t t Z v
10 Popis: V . . . . . . . . . . . . . . . . . . vypnuto Cˇ, Z . . . . . . . . . cˇervena´, zelena´ OCˇ . . . . oranzˇova´ od cˇervene´ OZ . . . . . oranzˇova´ od zelene´
Obra´zek 2.2: Semafor jako konecˇny´ automat
kam Zobrazena vhodit mince kam cena zrušit Připraven vzít lístek
Tisk
Obra´zek 2.3: Automat na jı´zdenky
Definice 2.1 (Konecˇny´ automat) Konecˇny´ automat je usporˇa´dana´ peˇtice A = (Q, Σ, δ, q0 , F ), kde je
✍
Q. . . nepra´zdna´ konecˇna´ mnozˇina stavu˚ Σ. . . nepra´zdna´ konecˇna´ abeceda (mnozˇina signa´lu˚) δ. . . prˇechodova´ funkce, definovana´ nı´zˇe q0 . . . pocˇa´tecˇnı´ stav, q0 ∈ Q F . . . mnozˇina koncovy´ch stavu˚, F ⊆ Q, F 6= ∅ Definice 2.2 (Prˇechodova´ funkce) Prˇechodova´ funkce δ konecˇne´ho automatu (da´le KA) A = (Q, Σ, δ, q0 , F ) je zobrazenı´ δ : Q × Σ → Q δ(stav, signa´l) = stav Naprˇ´ıklad: δ(vypnuto, zapni) = zapnuto
✍
KAPITOLA 2 KONECˇNE´ AUTOMATY
11
Potrˇebujeme veˇdeˇt: • ve ktere´m jsme stavu, • co jesˇteˇ zby´va´ prˇecˇ´ıst (zpracovat). Tyto informace jsou ulozˇeny v konfiguraci automatu, ktera´ se postupneˇ meˇnı´. Definice 2.3 (Konfigurace konecˇne´ho automatu) Oznacˇme Σ∗ mnozˇinu vsˇech slov, ktera´ lze utvorˇit ze symbolu˚ abecedy Σ. Konfigurace KA je usporˇa´dana´ dvojice (q, w), kde q ∈ Q, w ∈ Σ∗ (neprˇecˇtena´ cˇa´st vstupnı´ pa´sky).
✍
• Pocˇa´tecˇnı´ konfigurace: (q0 , w0 ) (jsme v pocˇa´tecˇnı´m stavu a w0 je cele´ zpracova´vane´ slovo) • Koncova´ konfigurace: (qf , ε), qf ∈ F (ε je pra´zdne´ slovo, tj. rˇeteˇzec s de´lkou 0, neboli cele´ slovo jizˇ bylo zpracova´no) Definice 2.4 (Prˇechod mezi konfiguracemi) Relace prˇechodu mezi konfiguracemi je definova´na jako ⊢: (Q, Σ∗ ) × (Q, Σ∗ ), kde platı´: (qi , aw) ⊢ (qj , w) ⇔ δ(qi , a) = qj (relace prˇechodu mezi konfiguracemi je tedy za´visla´ na funkci prˇechodu δ). Definice 2.5 (Vy´pocˇet slova v konecˇne´m automatu) Vy´pocˇet slova v konecˇne´m automatu je posloupnost konfiguracı´ spojeny´ch relacı´ prˇechodu, zacˇ´ınajı´cı´ pocˇa´tecˇnı´ konfiguracı´ s dany´m slovem a koncˇ´ıcı´ neˇkterou koncovou konfiguracı´. Prˇı´klad 2.1 Vy´pocˇet slova v konecˇne´m automatu – semaforu na obra´zku 2.2 na straneˇ 10 mu˚zˇe by´t naprˇ´ıklad takovy´: (V, zttttttv) ⊢ (Cˇ, ttttttv) ⊢ (itshape OCˇ, tttttv) ⊢ (Z, ttttv) ⊢ (OZ, tttv) ⊢ (Cˇ, ttv) ⊢ (OCˇ, tv) ⊢ (Z, v) ⊢ (V, ε) Jiny´ konecˇny´ automat: (q0 , abcd) ⊢ (q3 , bcd) ⊢ (q1 , cd) ⊢ (q3 , d) ⊢ (q3 , ε) kde vsˇechny prˇechody mezi konfiguracemi jsou urcˇeny funkcı´ δ : δ(q0 , a) = q3 , atd., a q3 patrˇ´ı do mnozˇiny koncovy´ch stavu˚.
✍
✍
KAPITOLA 2 KONECˇNE´ AUTOMATY
12
Definice 2.6 (Rozpozna´nı´ (prˇijı´ma´nı´) slova konecˇny´m automatem) Konecˇny´ automat A = (Q, Σ, δ, q0 , F ) rozpozna´va´ (prˇijı´ma´) slovo w, pokud existuje posloupnost vy´pocˇtu tohoto slova v automatu, tedy pokud se lze z pocˇa´tecˇnı´ konfigurace (q0 , w0 ) postupny´m uplatnˇova´nı´m relacı´ prˇechodu dostat do neˇktere´ koncove´ konfigurace. Definice 2.7 (Jazyk) Jazyk L je mnozˇina slov nad danou abecedou Σ (neˇktera´ podmnozˇina mnozˇiny vsˇech slov utvorˇeny´ch z pı´smen abecedy Σ), tedy L ⊆ Σ∗ . Jazyk mu˚zˇe obsahovat take´ pra´zdne´ slovo ε. Definice 2.8 (Jazyk konecˇne´ho automatu) Jazyk konecˇne´ho automatu A je mnozˇina vsˇech slov, ktera´ automat prˇijı´ma´, znacˇ´ıme L(A). Definice 2.9 (Rozpozna´nı´ jazyka automatem) Automat A rozpozna´va´ jazyk Lj , pokud prˇijı´ma´ pra´veˇ slova jazyka Lj (tj. prˇijı´ma´ vsˇechna slova jazyka, ale neprˇijı´ma´ zˇa´dne´ slovo do jazyka nepatrˇ´ıcı´). Znacˇ´ıme Lj = L(A) (jazyk Lj je rozpozna´va´n automatem A, je jeho jazykem). Prˇı´klad 2.2 A = ({q0 , q1 }, {a, b}, δ, q0 , {q1 }) δ funkce:
Diagram: a q0
b b
q1
Tabulka:
δ(q0 , a) = q0 δ(q0 , b) = q1 δ(q1 , b) = q0
stav\vstup
a
b
→ q0 ← q1
q0 -
q1 q0
Jeden z mozˇny´ch vy´pocˇtu˚ v automatu: (q0 , aab) ⊢ (q0 , ab) ⊢ (q0 , b) ⊢ (q1 , ε) Jazyk automatu: L(A) = {a∗ b} · {(ba∗ b)i | i ≥ 0}
2.2
=
{(a∗ bb)∗ a∗ b}
=
{a∗ (bba∗ )∗ b}
Nedeterminismus
V za´kladnı´ definici konecˇne´ho automatu existuje pro kazˇde´ slovo prˇijı´mane´ automatem pra´veˇ jedna cesta v diagramu automatu, a tedy vy´pocˇet je vzˇdy jednoznacˇny´.
✍
✍ ✍ ✍
KAPITOLA 2 KONECˇNE´ AUTOMATY
13
Vy´hodou tohoto postupu je, zˇe takto vytvorˇeny´ konecˇny´ automat se snadneˇji programuje, protozˇe v klasicke´m programova´nı´ je jednoznacˇnost nutnou podmı´nkou. Neˇkdy je vsˇak jednodusˇsˇ´ı vytvorˇit automat, ktery´ tuto vlastnost nema´, tedy pro neˇktera´ prˇijı´mana´ slova mu˚zˇe existovat vı´ce ru˚zny´ch cest v diagramu. Zde si takovy´ automat definujeme a uka´zˇeme si take´ zpu˚sob prˇevedenı´ na pu˚vodnı´ formu. Definice 2.10 (Nedeterministicky´ konecˇny´ automat) Nedeterministicky´ konecˇny´ automat (NKA) je takovy´ konecˇny´ automat A = (Q, Σ, δ, q0 , F ), kde δ : Q × Σ → P(Q).
✍
Pozna´mka: P(Q) je potencˇnı´ mnozˇina mnozˇiny Q, je to mnozˇina vsˇech jejı´ch podmnozˇin (vcˇetneˇ pra´zdne´ mnozˇiny a take´ samotne´ mnozˇiny Q). V neˇktery´ch stavech na urcˇity´ signa´l mu˚zˇe existovat vı´ce nezˇ jedna mozˇnost jak reagovat, dokonce pro neˇktera´ slova mu˚zˇe v grafu automatu existovat vı´ce ru˚zny´ch cest od pocˇa´tecˇnı´ho stavu do neˇktere´ho koncove´ho. V deterministicke´m automatu (DKA) pro jedno slovo existuje pra´veˇ jedna cesta v grafu (je automatem rozpozna´va´no) nebo zˇa´dna´ cesta. Definice 2.11 (Jazyk rozpozna´vany´ NKA) Jazyk rozpozna´vany´ NKA je L(A) = {w ∈ Σ∗ | (q0 , w) ⊢∗ (qf , ε), qf ∈ F }.
✍
Pozna´mka: Jazyk rozpozna´vany´ nedeterministisky´m konecˇny´m automatem je tedy mnozˇina vsˇech slov nad abecedou Σ, pro ktera´ existuje alesponˇ jeden vy´pocˇet (cesta v grafu automatu) od pocˇa´tecˇnı´ho do neˇktere´ho (ktere´hokoliv) koncove´ho stavu. Veˇta 2.1 Necht’A je nedeterministicky´ KA. Potom existuje deterministicky´ KA A′ takovy´, zˇe L(A) = L(A′ ) (tj. rozpozna´vajı´ stejny´ jazyk).
Du˚kaz: A = (Q, Σ, δ, q0 , F ) nedeterministicky´ (ten ma´me) A′ = (Q′ , Σ, δ ′ , q0′ , F ′ ) deterministicky´ (ten chceme vytvorˇit) Stavy nove´ho automatu budou odpovı´dat mnozˇina´m stavu˚ pu˚vodnı´ho. Pro kazˇdou rovnost δ(qi , a) = {qj , qk } stavy (mnozˇiny) {qi }, {qj , qk } budou patrˇit ke stavu˚m nove´ho automatu. Postup: • Q′ = {M | M ⊆ Q} = P(Q) – nova´ mnozˇina stavu˚ bude mnozˇinou vsˇech podmnozˇin pu˚vodnı´ mnozˇiny stavu˚,
KAPITOLA 2 KONECˇNE´ AUTOMATY
14
• q0′ = {q0 } – pocˇa´tecˇnı´ stav je jednoprvkova´ mnozˇina obsahujı´cı´ pu˚vodnı´ pocˇa´tecˇnı´ stav, • M ∈ F ′ ⇔ M ∩ F 6= ∅ – koncove´ stavy jsou vsˇechny, ktere´ (coby mnozˇiny) obsahujı´ alesponˇ jeden pu˚vodnı´ koncovy´ stav, • δ ′ (M, a) = {q | q ∈ δ(p, a), p ∈ M } – vsˇechny prvky mnozˇiny zpracujeme podle pu˚vodnı´ho automatu, pak shrneme vy´sledky do mnozˇiny. 2 Pokud pracujeme s reprezentacı´ δ-funkce ve tvaru tabulky, mu˚zˇeme jednodusˇe postupovat tak, zˇe v tabulce pu˚vodnı´ho automatu „uza´vorkujeme“ ohodnocenı´ rˇa´dku˚ a bunˇky do mnozˇinovy´ch za´vorek a pak pro kazˇdou mnozˇinu z buneˇk, kterou nenı´ ohodnocen zˇa´dny´ rˇa´dek, prˇida´me rˇa´dek tabulky a doplnı´me obsah buneˇk na dane´m rˇa´dku. Jak urcˇit obsah nove´ bunˇky: pokud je rˇa´dek ohodnocen mnozˇinou {qi , qj , . . .}, pak do bunˇky sepı´sˇeme obsah buneˇk na rˇa´dcı´ch {qi }, {qj }, . . . v dane´m sloupci, tedy vlastneˇ sjednocujeme rˇa´dky jednotlivy´ch prvku˚ mnozˇiny. Prˇı´klad 2.3 L = {a, b}∗ bb = {{a, b}n bb | n ≥ 0} A = {q0 , q1 , q2 }, {a, b}, δ, q0 , {q2 }) A′ = (Q′ , Σ, δ ′ , q0′ , F ′ )
Deterministicky´: A′ → {q0 } {q1 } ← {q2 } {q0 , q1 } ← {q0 , q1 , q2 }
Nedeterministicky´: A
a
b
→ q0 q1 ← q2
q0 -
q0 , q1 q2 -
Odstranı´me nepotrˇebne´ stavy: a
b
{q0 } ∅ ∅ {q0 } {q0 }
{q0 , q1 } {q2 } ∅ {q0 , q1 , q2 } {q0 , q1 , q2 }
A′ → {q0 } {q0 , q1 } ← {q0 , q1 , q2 }
a
b
{q0 } {q0 , q1 } {q0 } {q0 , q1 , q2 } {q0 } {q0 , q1 , q2 }
KAPITOLA 2 KONECˇNE´ AUTOMATY
2.3
15
Tota´lnı´ automat
Obvykle nenı´ nutne´, aby automat doka´zal v kazˇde´m stavu reagovat na jaky´koliv signa´l, ale za urcˇity´ch okolnostı´ se tato vlastnost mu˚zˇe hodit. Mu˚zˇeme si prˇedstavit trˇeba situaci, kdy programa´tor chce napsat program dostatecˇneˇ robustnı´, ktery´ by doka´zal reagovat na jaky´koliv vstup, v prˇ´ıpadeˇ chybne´ho vstupu trˇeba chybovy´m hla´sˇenı´m (tedy prˇechodem do chybove´ho stavu s patrˇicˇny´m osˇetrˇenı´m). Definice 2.12 (Tota´lnı´ automat) Tota´lnı´ (u´plny´) konecˇny´ automat je deterministicky´ konecˇny´ automat, ve ktere´m lze ve vsˇech stavech reagovat na ktery´koliv symbol abecedy, tj. prˇechodova´ funkce δ je tota´lnı´: ∀q ∈ Q, ∀a ∈ Σ ∃p ∈ Q : δ(q, a) = p (ke kazˇde´mu stavu a symbolu abecedy existuje stav, do ktere´ho prˇejdeme z dane´ho stavu na dany´ symbol). Veˇta 2.2 Ke kade´mu (deterministicke´mu) konecˇne´mu automatu A existuje tota´lnı´ automat A′ takovy´, zˇe L(A) = L(A′ ).
✍
Na´znak du˚kazu – konstrukce:
• prˇevedeme automat na deterministicky´, • vytvorˇ´ıme novy´ stav ∅, ktery´ bude fungovat jako „odpadkovy´ kosˇ“, • do tohoto stavu nasmeˇrujeme chybeˇjı´cı´ prˇechody, • prˇida´me smycˇku (prˇechod zacˇ´ınajı´cı´ a koncˇ´ıcı´ ve stejne´m stavu) u stavu ∅ pro kazˇdy´ symbol abecedy. Prˇı´klad 2.4
Deterministicky´:
Zu´plneˇnı´:
A
0
1
→A B ←C
A C -
B C
A′
0
1
→A B ←C ∅
A C ∅ ∅
B ∅ C ∅
0 1 A
0 1 A 1
0 ∅ 0,1
B 0 C 1
B 0 C 1
KAPITOLA 2 KONECˇNE´ AUTOMATY
2.4
16
Odstraneˇnı´ nepotrˇebny´ch stavu˚ automatu
Definice 2.13 (Nedosazˇitelny´ stav) Nedosazˇitelny´ stav je stav qi takovy´, zˇe neexistuje posloupnost prˇechodu˚ (q0 , w) ⊢∗ (qi , w′ ) tedy nelze se do tohoto stavu dostat z pocˇa´tecˇnı´ho stavu. Definice 2.14 (Nadbytecˇny´ stav) Nadbytecˇny´ stav je stav qi takovy´, zˇe neexistuje zˇa´dna´ posloupnost prˇechodu˚ (qi , w′ ) ⊢∗ (qf , ε) kde qf ∈ F (koncovy´ stav), tedy z tohoto stavu se nelze dostat do zˇa´dne´ho koncove´ho stavu.
2.4.1 Nedosazˇitelne´ stavy Vytvorˇ´ıme mnozˇinu stavu˚, ke ktery´m se da´ dostat z pocˇa´tecˇnı´ho stavu – postupujeme od startovacı´ho symbolu. Prˇı´klad 2.5
Pu˚vodnı´ automat:
S0 S1 S2 S3
→ q0 q1 ← q2 q3 ← q4
a
b
q1 q2 q4 q1
q1 q1 -
a q0 b
a q3
b a q1 q2
a q4
= {q0 }, hleda´me prvky Si−1 na oznacˇenı´ch rˇa´dku˚, prˇida´me obsah buneˇk rˇa´dku = {q0 , q1 } (z q0 se da´ dostat do q1 ) = {q0 , q1 , q2 } (z q0 a q1 se da´ dostat taky do q2 ) = {q0 , q1 , q2 } = S2 . . . nova´ mnozˇina stavu˚
Po u´praveˇ:
→ q0 q1 ← q2
a
b
q1 q2 -
q1 -
a q0
b a q1 q2
✍
✍
KAPITOLA 2 KONECˇNE´ AUTOMATY
17
Postup: • vytvorˇ´ıme mnozˇinu S0 , do nı´ da´me pocˇa´tecˇnı´ stav automatu, S0 = {q0 }, • vytvorˇ´ıme mnozˇinu S1 tak, zˇe do nı´ da´me prvky mnozˇiny S0 a da´le vsˇechny stavy, do ktery´ch vede prˇechod ze stavu˚ mnozˇiny S0 (tj. zde prˇida´me vsˇechny stavy, do ktery´ch se da´ dostat prˇ´ımo z q0 ), • postupneˇ vytva´rˇ´ıme mnozˇiny Si tak, zˇe do Si zarˇadı´me nejdrˇ´ıv obsah mnozˇiny Si−1 a pak prˇida´me vsˇechny stavy, do ktery´ch vede prˇechod z neˇktere´ho stavu z mnozˇiny Si−1 , • koncˇ´ıme, kdyzˇ uzˇ se do mnozˇiny nic neda´ prˇidat, tedy Si = Si−1 , vy´sledkem je nova´ mnozˇina stavu˚. Vzorec: S0 = {q0 } Si = Si−1 ∪ {q | δ(p, a) ∋ q, p ∈ Si−1 , a ∈ Σ}
2.4.2 Nadbytecˇne´ stavy Prˇı´klad 2.6 Prˇedpokla´da´me zde, zˇe nedosazˇitelne´ stavy jsou jizˇ odstraneˇny. a b
Pu˚vodnı´ automat:
→ q0 ← q1 ← q2 q3 q4 q5
q1 q4 q2 q4 q5 q5
q3 q2 ,q5 q4 -
a q0 b a q3
b q1 b a a q4 b
a q2 a q5
E0 = {q1 , q2 }, hleda´me prvky Ei−1 v bunˇka´ch rˇa´dku˚, prˇida´me oznacˇenı´ rˇa´dku˚ E1 = {q1 , q2 , q0 } (z q0 se da´ dostat do q1 ) E2 = {q1 , q2 , q0 } = E1 . . . nova´ mnozˇina stavu˚
Po u´praveˇ:
→ q0 ← q1 ← q2
a
b
q1
q3 q2 -
q2
a q0
b a q2 q1
KAPITOLA 2 KONECˇNE´ AUTOMATY
18
Postup: • odstranı´me nedosazˇitelne´ stavy, • vytvorˇ´ıme mnozˇinu E0 , do ktere´ zarˇadı´me vsˇechny koncove´ stavy automatu, tj. E0 = F , • vytvorˇ´ıme mnozˇinu E1 tak, zˇe do nı´ da´me prvky mnozˇiny E0 a da´le vsˇechny stavy, ze ktery´ch vede prˇechod do stavu˚ mnozˇiny E0 , • postupneˇ vytva´rˇ´ıme mnozˇiny Ei tak, zˇe do Ei zarˇadı´me nejdrˇ´ıv obsah mnozˇiny Ei−1 a pak prˇida´me vsˇechny stavy, ze ktery´ch vede prˇechod do neˇktere´ho stavu z mnozˇiny Ei−1 , • koncˇ´ıme, kdyzˇ uzˇ se do mnozˇiny nic neda´ prˇidat, tedy Ei = Ei−1 , vy´sledkem je nova´ mnozˇina stavu˚. Vzorec: E0 = F Ei = Ei−1 ∪ {q | δ(q, a) ∋ p, p ∈ Ei−1 , a ∈ Σ}
Kapitola
3
Regula´rnı´ jazyky Definice 3.1 (Regula´rnı´ jazyk) Regula´rnı´mi jazyky oznacˇujeme vsˇechny jazyky, ktere´ jsou rozpozna´vane´ konecˇny´mi automaty. Jazyk je tedy regula´rnı´, pokud lze sestrojit konecˇny´ automat, ktery´ tento jazyk rozpozna´va´.
✍
Ve vsˇech dosud uvedeny´ch prˇ´ıkladech byly pouzˇity jazyky nekonecˇne´, ale k regula´rnı´m jazyku˚m patrˇ´ı take´ konecˇne´ jazyky. Da´le se strucˇneˇ podı´va´me na mozˇnosti konecˇny´ch jazyku˚ a potom na nekonecˇne´ jazyky a jednu z mozˇnostı´, jak zjistit, zda nekonecˇny´ jazyk je cˇi nenı´ regula´rnı´.
3.1
Konecˇne´ jazyky
Definice 3.2 (Konecˇny´ jazyk) Konecˇny´ jazyk je jazyk, ktery´ obsahuje konecˇneˇ mnoho slov. Veˇta 3.1 Vsˇechny konecˇne´ jazyky jsou regula´rnı´. Du˚kaz: Pro konecˇny´ jazyk sestrojı´me konecˇny´ automat jednodusˇe tak, zˇe pro kazˇde´ slovo jazyka vytvorˇ´ıme jednu „veˇtev“ vy´pocˇtu (nedeterministicky´ automat). De´lka veˇtvı´ automatu bude odpovı´dat de´lce jednotlivy´ch slov jazyka. 2 Pozna´mka: Mu˚zˇeme mı´t bud’ jeden koncovy´ stav spolecˇny´ pro vsˇechna rozpozna´vana´ slova, a nebo kazˇde´ slovo bude mı´t svu˚j vlastnı´ koncovy´ stav. Toho se vyuzˇ´ıva´ naprˇ´ıklad u prˇekladacˇu˚, kdy prˇi rozpozna´va´nı´ konecˇne´ho mnozˇstvı´ slov 19
✍
KAPITOLA 3 REGULA´RNI´ JAZYKY
20
(klı´cˇovy´ch slov) pro kazˇde´ slovo ma´me zvla´sˇtnı´ koncovy´ stav, a podle toho, ve ktere´m skoncˇ´ı vy´pocˇet, urcˇ´ıme, o jake´ slovo sˇlo. Prˇı´klad 3.1 L = {if, then, this} Deterministicky´:
Nedeterministicky´ („otrocky´“ postup):
i t S t
f q1
h q3
h q7
q2
e q4
i q8
n q6 q5
s q9
q10
i t S
f q1
h q3
q7
q2
e q4
i q8
n q6 q5
s q9
q10
Reprezentace prˇechodove´ funkce tabulkou (chceme, aby byl automat deterministicky´): A′ i f t h e n s →S A1 A2 A3 A4 A5 ← K1 ← K2 ← K3
3.2
A1
A2 K1 A3
A5
A4 K2 K3
Pumping Lemma pro regula´rnı´ jazyky a nekonecˇne´ jazyky
Motivace. Pumping lemma (pumpovacı´ veˇta) urcˇuje, zˇe nekonecˇne´ regula´rnı´ jazyky majı´ jednu konkre´tnı´ vlastnost. Proto pokud doka´zˇeme, zˇe dany´ jazyk tuto vlastnost nema´, mu˚zˇeme o neˇm rˇ´ıci, zˇe nenı´ regula´rnı´.
☎
KAPITOLA 3 REGULA´RNI´ JAZYKY
21
Abeceda je vzˇdy konecˇna´ mnozˇina a pocˇet stavu˚ automatu je vzˇdy konecˇny´ ⇒ abychom mohli pracovat s dostatecˇneˇ dlouhy´mi slovy (nekonecˇne´ho jazyka) s de´lkou veˇtsˇ´ı nezˇ pocˇet stavu˚ automatu, musı´ by´t neˇkde smycˇka, ktera´ zpu˚sobı´, zˇe se cˇa´st slova opakuje. a q1 q0 b c q2
a q0
a q1
Obra´zek 3.1: Uka´zky grafu˚ konecˇny´ch automatu˚ nekonecˇny´ch jazyku˚
Veˇta 3.2 Necht’ L je regula´rnı´ jazyk. Pak existuje cele´ cˇ´ıslo p, p > 0 tak, zˇe kazˇde´ slovo w ∈ L, |w| > p, lze rozdeˇlit na trˇi cˇa´sti w = xyz tak, zˇe y 6= ε (|y| > 0) a kazˇde´ slovo ve tvaru xy k z, ∀k ∈ N je take´ slovem tohoto jazyka, tedy xy k z ∈ L. Pozna´mka: Za cˇ´ıslo p mu˚zˇeme dosadit pocˇet stavu˚ automatu, pokud ma´me sestrojeny´ konecˇny´ automat. Prˇı´klad 3.2 L = {a2n | n ≥ 0} Zvolı´me p = 2. Pro neˇjake´ i > p mu˚zˇe by´t trˇeba a2i = (a2 ) · (a2(i−1) ) · ε (tedy x = a2 , y = a2(i−1) , z = a0 = ε) Pouzˇijeme cˇ´ıslo k ≥ 0: k = 0 : xy 0 z = a2 ∈ L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . OK k = 1 : xy 1 z = a2i ∈ L . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . OK 2 k = 2 : xy 2 z = a2 a2(i−1) = a2(2i−1) ∈ L . . . . . . . . . . . . OK ... k = p : xy p z = a2 + p ∗ 2(i − 1) = a2(pi−p+1) ∈ L . . . . . OK
Pozna´mka: Pumping lemma se obvykle nepouzˇ´ıva´ v za´kladnı´m tvaru, ale spı´sˇe pro du˚kaz, zˇe dany´ jazyk nenı´ regula´rnı´ – veˇtu obra´tı´me: Pu˚vodnı´: Kdyzˇ je jazyk regula´rnı´, pak existuje p . . . Obra´tı´me: Kdyzˇ neexistuje p . . . , pak jazyka nenı´ regula´rnı´.
KAPITOLA 3 REGULA´RNI´ JAZYKY
22
Postup: Hleda´me dostatecˇneˇ dlouhe´ slovo dane´ho jazyka, pro ktere´ neexistuje zˇa´dne´ rozdeˇlenı´ w = xyz takove´, zˇe xy k z ∈ L.
1. zvolı´me w ∈ L dostatecˇneˇ dlouhe´, 2. zvolı´me rozdeˇlenı´ na w = xyz, 3. zvolı´me k, 4. vyrobı´me wk = xy k z, 5. pokud wk ∈ L
⇒ na´vrat k bodu 3, pokud to jesˇteˇ jde,
6. kdyzˇ to nenı´ mozˇne´ (pro vsˇechna k slovo xy k z patrˇ´ı do jazyka), na´vrat k bodu 2, 7. kdyzˇ to nenı´ mozˇne´ (vsˇechna rozdeˇlenı´ jsme otestovali a fungujı´), na´vrat k bodu 1, 8. jinak: nasˇli jsme slovo w, pro ktere´ neexistuje zˇa´dne´ rozdeˇlenı´ xyz splnˇujı´cı´ uvedene´ podmı´nky, a tedy jsme doka´zali, zˇe L nenı´ regula´rnı´ jazyk. Prˇedposlednı´ bod se u regula´rnı´ho jazyka a take´ neˇktery´ch jazyku˚ neregula´rnı´ch prova´dı´ do nekonecˇna, cozˇ vyply´va´ z faktu, zˇe Pumping Lemma je pouze implikace, ne ekvivalence. Tedy veˇta rˇ´ıka´, zˇe kazˇdy´ regula´rnı´ jazyk ma´ danou vlastnost, ale nerˇ´ıka´, zˇe tuto vlastnost nema´ zˇa´dny´ neregula´rnı´ jazyk. Pozna´mka: Pumping lemma lze ve skutecˇnosti pouzˇ´ıt i v prˇ´ıpadeˇ, zˇe jazyk je konecˇny´ – ve veˇteˇ stojı´ „. . . kazˇde´ slovo w ∈ L, |w| > p, lze. . . “, ovsˇem kdyzˇ zvolı´me p opravdu dostatecˇneˇ dlouhe´ (delsˇ´ı nezˇ ktere´koliv slovo jazyka), pak vlastneˇ nenı´ co testovat a vlastnosti jazyka veˇteˇ odpovı´dajı´.
3.3
Uza´veˇrove´ vlastnosti trˇ´ıdy regula´rnı´ch jazyku˚
Definice 3.3 (Uzavrˇenost trˇı´dy jazyku˚ vzhledem k operaci ϕ) Dana´ trˇ´ıda jazyku˚ je uzavrˇena´ vzhledem k operaci ϕ, pokud po uplatneˇnı´ te´to operace na jazyky z dane´ trˇ´ıdy vy´sledny´ jazyk patrˇ´ı opeˇt do te´to trˇ´ıdy. Pozna´mka: Mozˇne´ operace, ktere´ z tohoto hlediska zkouma´me, jsou sjednocenı´, zrˇeteˇzenı´, iterace, pozitivnı´ iterace, pru˚nik, doplneˇk, zrcadlovy´ obraz (reverze), homomorfismus, substituce.
✍
KAPITOLA 3 REGULA´RNI´ JAZYKY
23
3.3.1 Sjednocenı´ Veˇta 3.3 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci sjednocenı´.
Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktere´ dva regula´rnı´ jazyky L1 a L2 jsou rozpozna´va´ny automaty A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ), A2 = (Q2 , Σ2 , δ2 , q02 , F2 ), L2 = L(A2 ), Q1 ∩ Q2 = ∅. Vytva´rˇ´ıme jazyk L = L1 ∪ L2 a automat A = (Q, Σ, δ, q0 , F ), L = L(A): • Stav q0 je novy´, tedy musı´ platit q0 ∈ / Q1 , q0 ∈ / Q2 , • Q = Q1 ∪ Q2 ∪ {q0 }, • F = F1 ∪ F2 , • Σ = Σ1 ∪ Σ2 . δ-funkce simuluje cesty v pu˚vodnı´ch automatech (prˇejı´ma´ prˇedpisy δ1 a δ2 ), prˇida´va´me pouze „inicializaci“ – prˇechod z pocˇa´tecˇnı´ho stavu q0 , dalsˇ´ı prˇechody jizˇ prˇejı´ma´me. Ze stavu q0 prˇecha´zı´me do teˇch stavu˚, do ktery´ch se prˇecha´zı´ z pu˚vodnı´ch q01 a q02 . δ1 (p, a) | p ∈ Q1 ,
δ(p, a) = δ2 (p, a) | p ∈ Q2 , δ1 (q01 , a) ∪ δ2 (q02 , a) | p = q0
2
Prˇı´klad 3.3 L1 = {ai bj | i > 0, j ≥ 0} L2 = {ai cj | i > 0, j ≥ 0}
A1 = ({p0 , p1 , p2 }, {a, b}, δ1 , p0 , {p1 , p2 }) A2 = ({q0 , q1 , q2 }, {a, c}, δ2 , q0 , {q1 , q2 })
L = L1 ∪ L2 = {ai bj | i > 0, j ≥ 0} ∪ {ai cj | i > 0, j ≥ 0} A = ({s0 , p0 , p1 , p2 , q0 , q1 , q2 }, {a, b, c}, δ, s0 , {p1 , p2 , q1 , q2 }) Pu˚vodnı´: b a b a p2 p1 p0
c a c q2 q1 q0 a
Po sjednocenı´:
a s0 a
b a b a p2 p1 p0
c a c q2 q1 q0 a
KAPITOLA 3 REGULA´RNI´ JAZYKY A1
a
→ p0 ← p1 ← p2
p1 p1
A2
a
→ q0 ← q1 ← q2
q1 q1
b
c
A → s0 p0 ← p1 ← p2 q0 ← q1 ← q2
p2 p2 b
24
c q2 q2
a p 1 , q1 p1 p1 q1 q1
b
c
p2 p2 q2 q2
3.3.2 Zrˇeteˇzenı´ Veˇta 3.4 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci zrˇeteˇzenı´.
Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktere´ dva regula´rnı´ jazyky L1 a L2 jsou rozpozna´va´ny automaty A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ) a A2 = (Q2 , Σ2 , δ2 , q02 , F2 ), L2 = L(A2 ), Q1 ∩ Q2 = ∅. Vytva´rˇ´ıme jazyk L = L1 · L2 a automat A = (Q, Σ, δ, q0 , F ), L = L(A). • q0 = q01 , • Q = Q1 ∪ Q2 , • Σ = Σ1 ∪ Σ2 , • pokud ε ∈ / L2 , pak F = F2 , jinak F = F1 ∪ F2 δ(p, a) =
δ1 (p, a) | p ∈ Q1 − F1 ,
δ2 (p, a) | p ∈ Q2 , δ1 (p, a) ∪ δ2 (q02 , a) | p ∈ F1
Prˇı´klad 3.4 i L1 = {a b | i ≥ 0} n o L2 = (aba)i c{0,1} | i ≥ 0
A1 = ({p0 , p1 }, {a, b}, δ1 , p0 , {p1 }) A2 = ({q0 , . . . , q3 }, {a, b, c}, δ2 , q0 , {q0 , q1 })
A = ({p0 , p1 , q0 , q1 , q2 , q3 }, {a, b, c}, δ, p0 , {p1 , q0 , q1 })
2
KAPITOLA 3 REGULA´RNI´ JAZYKY Pu˚vodnı´: a b p0
25
q1 c a q0 q3 p1 b a q2
Po zrˇeteˇzenı´: a b p0
q1 c c a q0 q3 p1 b a a q2
3.3.3 Iterace Veˇta 3.5 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci iterace.
Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktery´ regula´rnı´ jazyk L1 je rozpozna´va´n automatem A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ). Vytva´rˇ´ıme jazyk L = L∗1 a automat A = (Q, Σ, δ, q0 , F ), L = L(A). • q0 = q01 , • Q = Q1 , • Σ = Σ1 , • F = F1 ∪ {q0 }, δ (p, a) | p ∈ / F1 , 1 δ(p, a) = δ1 (p, a) ∪ δ1 (q01 , a) | p ∈ F1
2
Prˇı´klad 3.5 L1 = {ai bb | i ≥ 0}
A1 = ({p0 , p1 , p2 }, {a, b}, δ1 , p0 , {p2 })
A = ({p0 , p1 , p2 }, {a, b}, δ, p0 , {p0 , p2 }) Po iteraci:
Pu˚vodnı´: a b p0
b p2 p1
a b b p2 p1 p0 b a
KAPITOLA 3 REGULA´RNI´ JAZYKY
26
3.3.4 Pozitivnı´ iterace Veˇta 3.6 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci pozitivnı´ iterace.
Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktery´ regula´rnı´ jazyk L1 je rozpozna´va´n automatem A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ). Vytva´rˇ´ıme jazyk L = L+ 1 a automat A = (Q, Σ, δ, q0 , F ), L = L(A).
• q0 = q01 , • Q = Q1 , • Σ = Σ1 , • F = F1 , δ (p, a); p ∈ / F1 , 1 δ(p, a) = δ1 (p, a) ∪ δ1 (q01 , a); p ∈ F1
2
Prˇı´klad 3.6 L1 = {ai bb | i ≥ 0}
A1 = ({p0 , p1 , p2 }, {a, b}, δ1 , p0 , {p2 })
A = ({p0 , p1 , p2 }, {a, b}, δ, p0 , {p2 }) Po pozitivnı´ iteraci:
Pu˚vodnı´: a b p0
b p2 p1
a b p0
b p2 p1 b a
3.3.5 Zrcadlovy´ obraz Veˇta 3.7 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci zrcadlove´ho obrazu (reverze). Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktery´ regula´rnı´ jazyk L1 je rozpozna´va´n automatem A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ). Vytva´rˇ´ıme jazyk L = LR 1 a automat A = (Q, Σ, δ, q0 , F ), L = L(A).
KAPITOLA 3 REGULA´RNI´ JAZYKY
27
• Princip: obra´tı´me vsˇechny „cesty“ tak, aby zacˇ´ınaly tam, kde pu˚vodneˇ koncˇily a naopak. • q0 je noveˇ prˇida´n (nelze vsˇechny pu˚vodnı´ koncove´ stavy prohla´sit za pocˇa´tecˇnı´), nasmeˇrujeme ho tam, odkud pu˚vodneˇ vedly sˇipky ke koncovy´m stavu˚m, • Q = Q1 ∪ q0 , • Σ = Σ1 , • F = {q01 } {¯ p | δ1 (¯ p, a) ∋ p} p 6= q0 δ(p, a) = {¯ p | δ1 (¯ p, a) = p} ∪ {¯ p | δ1 (¯ p, a) = p ∋ qf , qf ∈ F1 } p = q0
2
Prˇı´klad 3.7 n o L1 = abi a{1,2} | i ≥ 0 ∪ {abi c | i ≥ 0} = {abi | i ≥ 0} ◦ {a, aa, c} A1 = ({q0 , q1 , q2 , q3 }, {a, b, c}, δ1 , q0 , {q2 , q3 }) A = ({q0 , q1 , q2 , q3 , s0 }, {a, b, c}, δ, s0 , {q0 }) i L = LR 1 = {a, aa, c} ◦ {b a | i ≥ 0}
Po zrcadlenı´:
Pu˚vodnı´: a q0
b
a q1 q2 a c q3
b
a,c a a a q0 q1 q2 s0 a c q3
3.3.6 Pru˚nik Pru˚nikem dvou jazyku˚ je jazyk obsahujı´cı´ pra´veˇ ta slova, ktera´ jsou v obou zpracova´vany´ch jazycı´ch. Veˇta 3.8 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci pru˚niku. Du˚kaz: Budeme prˇedpokla´dat, zˇe neˇktere´ dva regula´rnı´ jazyky L1 a L2 jsou rozpozna´va´ny automaty
KAPITOLA 3 REGULA´RNI´ JAZYKY
28
A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ) a A2 = (Q2 , Σ2 , δ2 , q02 , F2 ), L2 = L(A2 ), Q1 ∩ Q2 = ∅. Vytva´rˇ´ıme jazyk L = L1 ∩ L2 a automat A = (Q, Σ, δ, q0 , F ), L = L(A). Do pru˚niku dvou mnozˇin (jazyk nenı´ nic jine´ho nezˇ mnozˇina slov) rˇadı´me pra´veˇ ty prvky (slova), ktere´ jsou v obou mnozˇina´ch za´rovenˇ. Kdyzˇ pouzˇijeme konecˇne´ automaty, spustı´me vy´pocˇet dane´ho slova na obou automatech za´rovenˇ. Protozˇe podle definice musı´ automat v kazˇde´m kroku zpracovat jeden symbol slova, v obou automatech musı´ by´t vy´pocˇet te´hozˇ slova stejneˇ dlouhy´ (na cesteˇ v grafu je stejny´ pocˇet stavu˚), a tyto stavy si tedy mohou vza´jemneˇ odpovı´dat. Proto ve vy´sledne´m – simulujı´cı´m – automatu budou stavy reprezentova´ny usporˇa´dany´mi dvojicemi, kde prvnı´ prvek dvojice je stav prvnı´ho automatu, druhy´ prvek je stav druhe´ho automatu. • Q = {[qi , qj ] | qi ∈ Q1 , qj ∈ Q2 }, • q0 = [q01 , q02 ], • F = {[qi , qj ] | qi ∈ F1 , qj ∈ F2 }, • Σ = Σ1 ∪ Σ2 (nebo Σ = Σ1 ∩ Σ2 , vyjde to nastejno), • δ([qi , qj ], a) = [δ1 (qi , a), δ2 (qj , a)], a ∈ Σ 2 Prˇı´klad 3.8 L1 = {an bb | n ≥ 0} L2 = {abn | n ≥ 0} Dva pu˚vodnı´ automaty: a b p0
a q0
b p2 p1
q1 b
Pracujeme za´rovenˇ v obou automatech: a b p0 2 1 a q0
[0, 0] [0, 1] [1, 1] [2, 1]
Vy´sledny´ automat:
b p2 p1 3 4 q1 b
KAPITOLA 3 REGULA´RNI´ JAZYKY
29
3.3.7 Homomorfismus Definice 3.4 (Homomorfismus) pouzˇity´ na rˇeteˇzce znaku˚ s operacı´ zrˇeteˇzenı´ je jednoznacˇne´ zobrazenı´, ktere´ zachova´va´ neutra´lnı´ prvek (v nasˇem prˇ´ıpadeˇ pra´zdny´ rˇeteˇzec ε) a take´ samotnou operaci zrˇeteˇzenı´, tedy:
✍
h(ε) = ε h(a ◦ w) = h(a) ◦ h(w) Zde si pouze uka´zˇeme postup na prˇ´ıkladu, du˚kaz bude proveden pozdeˇji v jine´ kapitole. Veˇta 3.9 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci homomorfismu. Naznacˇenı´ postupu du˚kazu: Budeme prˇedpokla´dat, zˇe neˇktery´ regula´rnı´ jazyk L1 je rozpozna´va´n automatem A1 = (Q1 , Σ1 , δ1 , q01 , F1 ), L1 = L(A1 ), a da´le zˇe existuje homomorfismus h definovany´ pro vsˇechny symboly jazyka Σ1 . Vytva´rˇ´ıme jazyk L = h(L1 ) a automat A = (Q, Σ, δ, q0 , F ), L = L(A). Postup si uka´zˇeme na prˇ´ıkladu. Prˇı´klad 3.9 L1 = {abi | i > 0} h(a) = ccc, h(b) = cd h(L1 ) = {c3 (cd)i | i > 0} Pu˚vodnı´ automat: a q0
b b q2 q1
Po aplikaci homomorfismu: c q0 c c q4
q3
d q2 q1 d c c q6 q5
Kapitola
4
Regula´rnı´ vy´razy 4.1
Mozˇnosti vyuzˇitı´ regula´rnı´ch vy´razu˚
Regula´rnı´ vy´razy se v ru˚zny´ch podoba´ch vyuzˇ´ıvajı´ v praxi, zejme´na prˇi vyhleda´va´nı´ (na internetu nebo trˇeba hleda´nı´ souboru v pocˇ´ıtacˇi), a nebo tehdy, kdyzˇ chceme neˇco prove´st s mnozˇinou objektu˚ (souboru˚, textu v souborech, v databa´zı´ch, apod.) a potrˇebujeme tuto mnozˇinu neˇjak specifikovat. Vyhleda´va´nı´ na internetu (naprˇ´ıklad Google): faktoria ´l pascal OR C++ – chceme program pro vy´pocˇet faktoria´lu v Pascalu nebo C++ mravenec -Ferda – chceme stra´nky o mravencı´ch, ale ne s Ferdou mravencem Vyhleda´va´nı´ na pocˇ´ıtacˇi (Windows, DOS, Unixy): *.txt – vsˇechny soubory s prˇ´ıponou .txt ?psa*.* – znamena´ trˇeba opsane ´.doc, upsanec.exe, xpsa.xls, atd. Vyhleda´va´nı´ na pocˇ´ıtacˇi (Unixy): [a-z]*[0-9] – vsˇechny rˇeteˇzce zacˇ´ınajı´cı´ maly´m pı´smenem a koncˇ´ıcı´ cˇ´ıslicı´
30
☎
KAPITOLA 4 REGULA´RNI´ VY´RAZY
31
a[!0-9]*.? – vsˇe, co zacˇ´ına´ maly´m a, prˇ´ımo za nı´m mu˚zˇe by´t jaky´koliv rˇeteˇzec, ktery´ nezacˇ´ına´ cˇ´ıslicı´, pak je tecˇka a za nı´ jesˇteˇ jeden znak Mozˇnosti pouzˇitı´: • vyhleda´va´nı´ na internetu, • vyhleda´va´nı´ souboru˚ nebo cˇehokoliv dalsˇ´ıho textove´ho na pocˇ´ıtacˇi, • prohleda´va´nı´ souboru˚ na pocˇ´ıtacˇi (hleda´me rˇeteˇzec) – ve Windows naprˇ´ıklad findstr, v Unixech naprˇ´ıklad grep, • databa´ze, • elektronicke´ slovnı´ky (cizojazycˇne´ i vy´kladove´), • podpora v programovacı´ch jazycı´ch, • atd.
4.2
Definice
Definice 4.1 (Regula´rnı´ vy´raz) Definujeme pomocnou mnozˇinu Φ = {∅, ε, +, ◦, ∗, (, )}. Mnozˇina RV (Σ) vsˇech regula´rnı´ch vy´razu˚ nad abecedou Σ je nejmensˇ´ı mnozˇina slov takova´, zˇe • slova se skla´dajı´ ze symbolu˚ abecedy Σ ∪ Φ, Σ a Φ jsou disjunktnı´, • ∅ ∈ RV (Σ), ε ∈ RV (Σ), a ∈ RV (Σ) pro kazˇde´ a ∈ Σ, • jestlizˇe α, β ∈ RV (Σ), pak taky (α + β) ∈ RV (Σ), (α · β) ∈ RV (Σ), (α)∗ ∈ RV (Σ). Symbol pro zrˇeteˇzenı´ se obvykle nemusı´ psa´t. Regula´rnı´ vy´raz oznacˇuje mnozˇinu rˇeteˇzcu˚ s danou vlastnostı´, jazyk je take´ mnozˇina rˇeteˇzcu˚ (slov) s danou vlastnostı´ ⇒ kazˇdy´ regula´rnı´ vy´raz urcˇuje neˇktery´ jazyk.
✍
KAPITOLA 4 REGULA´RNI´ VY´RAZY
32
Operace nad jazyky: ∅
...
pra´zdny´ jazyk
ε
...
{ε} (jazyk obsahujı´cı´ jen slovo s nulovou de´lkou)
a, a ∈ Σ
...
{a} (jazyk obsahujı´cı´ jen slovo a s de´lkou 1)
α+β
...
{α} ∪ {β} (sjednocenı´)
α·β
...
{α} ◦ {β} (zrˇeteˇzenı´)
(α)∗
...
{α}∗ (iterace)
Sjednocenı´, zrˇeteˇzenı´ a iteraci oznacˇujeme jako regula´rnı´ operace. Prˇı´klad 4.1 Uka´zˇeme si neˇkolik regula´rnı´ch jazyku˚ a ekvivalentnı´ch regula´rnı´ch vy´razu˚. L1 = {ai c(ab)j | i, j ≥ 0} R1 = a∗ c(ab)∗ L2 = {12i w | i > 0, w ∈ {0, 1}∗ } R2 = (11)(11)∗ (0 + 1)∗ L3 = {ai b | i > 0} ∪ {bi a | i ≥ 0} R3 = aa∗ b + b∗ a L4 = {ε} ∪ ({ab4 ai | i ≥ 0} ∪ {b2 a2i+1 | i ≥ 0}) ◦ {cai | i ≥ 0} R4 = ε + (abbbba∗ + bba(aa)∗ )ca∗
4.3
Vztah ke konecˇny´m automatu˚m
Veˇta 4.1 Jazyky urcˇene´ regula´rnı´mi vy´razy jsou pra´veˇ regula´rnı´ jazyky, tedy pra´veˇ jazyky rozpozna´vane´ konecˇny´mi automaty. Du˚kaz: „⇒“ (podle reg. vy´razu sestrojı´me konecˇny´ automat) Regula´rnı´ jazyk je konstruova´n z mnozˇin pomocı´ opera´toru˚ sjednocenı´, zrˇeteˇzenı´ a iterace. Vsˇechny tyto opera´tory majı´ svu˚j ekvivalent u regula´rnı´ch vy´razu˚. Du˚kaz lze prove´st matematickou indukcı´: • ba´ze: pro regula´rnı´ vy´razy ∅, {ε}, {a}, a ∈ Σ doka´zˇeme jednodusˇe zkonstruovat konecˇny´ automat,
KAPITOLA 4 REGULA´RNI´ VY´RAZY q
33 a p q
q
• indukcˇnı´ krok: prˇedpokla´dejme, zˇe pro regula´rnı´ vy´razy α a β doka´zˇeme sestrojit konecˇne´ automaty (vcˇetneˇ teˇch v ba´zi), • jizˇ drˇ´ıve jsme doka´zali (pomocı´ automatu˚), zˇe trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operacı´m sjednocenı´, zrˇeteˇzenı´ a iterace, tedy pouzˇijeme postupy popsane´ v du˚kazech teˇchto operacı´ pro sestrojenı´ konecˇny´ch automatu˚ reprezentujı´cı´ch reg. vy´razy α + β, α · β a (α)∗ . 2 Du˚kaz: „⇐“ (podle automatu sestrojı´me reg. vy´raz) Musı´me popsat regula´rnı´m vy´razem vsˇechny cesty vedoucı´ z pocˇa´tecˇnı´ho stavu do neˇktere´ho koncove´ho stavu automatu. Definujeme: Rij = {w ∈ Σ∗ | (i, w) ⊢∗Ai (j, ε)} Je to mnozˇina vsˇech slov takovy´ch, ktera´ lze v automatu zpracovat tak, zˇe pocˇa´tecˇnı´ stav je i a skoncˇ´ıme ve stavu j. Jestlizˇe je mnozˇina stavu˚ {1, 2, . . . , n}, pak jazykem automatu je mnozˇina [
R1k
k∈F
(sjednotı´me vsˇechny cesty zacˇ´ınajı´cı´ v pocˇa´tecˇnı´m stavu a koncˇ´ıcı´ v neˇktere´m z koncovy´ch stavu˚). 2 Pro postupnou konstrukci mnozˇin Rij pouzˇijeme: k Rij
= {w ∈ Rij | pokud existuje m : (i, w) w 6= u 6= ε, pak m ≤ k}
⊢+ Ai
(m, u)
⊢+ Ai
(j, ε),
(4.1) (4.2)
Je to podmnozˇina mnozˇiny Rij takova´, zˇe na cesteˇ v automatu, ktera´ je zpracova´nı´m slova z te´to mnozˇiny, se nacha´zejı´ pouze stavy s indexem mensˇ´ım nebo rovny´m cˇ´ıslu k (neplatı´ pro „krajnı´ stavy“ i a j, ty mohou by´t i vysˇsˇ´ı nezˇ k).
KAPITOLA 4 REGULA´RNI´ VY´RAZY
34
Postupujeme dle na´sledujı´cı´ho vzorce:
k+1 k k k k Rij = Rij + Ri,k+1 · (Rk+1,k+1 )∗ · Rk+1,j
k To je rekurzivnı´ vzorec pro vy´pocˇet mnozˇin Rij – nejdrˇ´ıv ) k k + 1 Rk+1,k+1 vezmeme vsˇechna slova, ktera´ lze rozpoznat cestou prˇes 3 stavy ≤ k, a pak prˇida´me slova, ktera´ jsou zpracova´va´na k k Rk+1,j Ri,k+1 cestou obsahujı´cı´ nejme´neˇ jednou stav k+1 (tedy nejdrˇ´ıv W k cesta z i do stavu k + 1, pak prˇ´ıpadneˇ smycˇka prˇes tento R j i ij * stav a stavy ≤ k, a potom zpa´tky ze stavu k + 1 do j). Ba´zı´ rekurze jsou jednoduche´ automaty, kde zachycujeme prˇ´ımy´ prˇechod ze stavu i do j: 0 Rij :
a(+ε) i
(ε) a i i
j
• prvnı´ prˇ´ıpad pouzˇijeme, kdyzˇ ve stavu i existuje smycˇka prˇes tento stav: Rii0 = a + ε • druhy´ prˇ´ıpad pouzˇijeme pro stav, ve ktere´m neexistuje smycˇka (ma´me pouze „pra´zdny´ prˇechod“): Rii0 = ε • trˇetı´ prˇ´ıpad pouzˇijeme pro dva ru˚zne´ stavy i a j, mezi ktery´mi vede prˇ´ımy´ 0 prˇechod: Rij =a 0 • pokud mezi stavy i a j nevede prˇ´ımy´ prˇechod, bude Rij = ∅.
Postup: 0 • vytvorˇ´ıme Rij pomocı´ definice automatu (z tabulky nebo diagramu), k • podle rekurzı´vnı´ho vzorce vypocˇteme dalsˇ´ı mnozˇiny Rij azˇ ke k = n, n • platı´ Rij = Rij , dostaneme pro i = 1 a j ∈ F vsˇechny cesty v automatu vedoucı´ od pocˇa´tecˇnı´ho stavu (i = 1) do koncovy´ch stavu˚,
• vy´sledny´ regula´rnı´ vy´raz pro cely´ automat je
S
j∈F
R1j .
Prˇı´klad 4.2 Uvedeny´ postup si uka´zˇeme na automatu se trˇemi stavy. Upozornˇujeme, zˇe slozˇitost postupu naru˚sta´ s mnozˇstvı´m stavu˚ geometrickou rˇadou.
KAPITOLA 4 REGULA´RNI´ VY´RAZY
a →1 ←2 ←3
b
c
2 1 2 3 1 −
3 − −
0 R11 =b+ε 0 R12 = a 0 R13 =c 0 R21 =∅ 0 R22 = a + ε 0 R23 =b 0 R31 =a 0 R32 =∅ 0 R33 = ε
35 b a 1 c
a
a 2 b 3
1 R11 = (b + ε) + ((b + ε)(b + ε)∗ (b + ε)) = b∗ 1 R12 = a + ((b + ε)(b + ε)∗ a) = b∗ a 1 R13 = c + ((b + ε)(b + ε)∗ c) = b∗ c 1 R21 =∅+∅=∅ 1 R22 = (a + ε) + ∅ = a + ε 1 R23 = b + ∅ = b 1 R31 = a + (a(b + ε)∗ (b + ε)) = ab∗ 1 R32 = ∅ + (a(b + ε)∗ a) = ab∗ a 1 R33 = ε + (a(b + ε)∗ c) = ε + ab∗ c
2 R11 = b∗ + (b∗ a(a + ε)∗ ∅) = b∗ 2 R12 = b∗ a + (b∗ a(a + ε)∗ (a + ε) = b∗ aa∗ 2 R13 = b∗ c + (b∗ a(a + ε)∗ b) = b∗ c + b∗ aa∗ b 2 R21 = ∅ + ((a + ε)(a + ε)∗ ∅) = ∅ 2 R22 = (a + ε) + ((a + ε)(a + ε)∗ (a + ε)) = a∗ 2 R23 = b + ((a + ε)(a + ε)∗ b) = a∗ b 2 R31 = ab∗ + (ab∗ a(a + ε)∗ ∅) = ab∗ 2 R32 = ab∗ a + (ab∗ a(a + ε)∗ (a + ε)) = ab∗ aa∗ 2 R33 = (ε + ab∗ c) + (ab∗ a(a + ε)∗ b) = ε + ab∗ c + ab∗ aa∗ b 3 R12 = b∗ aa∗ + ((b∗ c + b∗ aa∗ b)(ε + ab∗ c + ab∗ aa∗ b)∗ ab∗ aa∗ ) = = b∗ aa∗ + ((b∗ c + b∗ aa∗ b)(ab∗ c + ab∗ aa∗ b)∗ ab∗ aa∗ ) 3 R13 = (b∗ c + b∗ aa∗ b) + ((b∗ c + b∗ aa∗ b)(ε + ab∗ c + ab∗ aa∗ b)∗ (ε + ab∗ c + ab∗ aa∗ b)) = = (b∗ c + b∗ aa∗ b) + ((b∗ c + b∗ aa∗ b)(+ab∗ c + ab∗ aa∗ b)∗ (ε + ab∗ c + ab∗ aa∗ b)) 3 3 R12 = R12 , R13 = R13
R(A) = R12 + R13
KAPITOLA 4 REGULA´RNI´ VY´RAZY
4.4
36
Vyuzˇitı´ vztahu regula´rnı´ch vy´razu˚ k reg. jazyku˚m
4.4.1 Du˚kazy uza´veˇrovy´ch vlastnostı´ regula´rnı´ch jazyku˚ Doka´zˇeme uzavrˇenost trˇ´ıdy regula´rnı´ch jazyku˚ vzhledem k substituci, a protozˇe homomorfismus je vlastneˇ specia´lnı´m prˇ´ıpadem substituce, tak i uzavrˇenost trˇ´ıdy regula´rnı´ch jazyku˚ vzhledem k homomorfismu (zatı´m jsme si tuto operaci uka´zali jen na prˇ´ıkladu). Definice 4.2 (Substituce) pouzˇita´ na rˇeteˇzce znaku˚ s operacı´ zrˇeteˇzenı´ je zobrazenı´, ktere´ zachova´va´ neutra´lnı´ prvek (v nasˇem prˇ´ıpadeˇ pra´zdny´ rˇeteˇzec ε) a take´ samotnou operaci zrˇeteˇzenı´, tedy: s(ε) = ε s(a ◦ w) = s(a) ◦ s(w)
✍
Rozdı´l oproti homomorfismu: • homomorfismus prˇirˇazuje kazˇde´mu znaku pu˚vodnı´ abecedy pra´veˇ jeden rˇeteˇzec, • substituce prˇirˇazuje kazˇde´mu znaku pu˚vodnı´ abecedy mnozˇinu rˇeteˇtcu˚, v prˇ´ıpadeˇ regula´rnı´ substituce jde o mnozˇinu, ktera´ je reprezentovana´ regula´rnı´m jazykem, • homomorfismus je tedy specia´lnı´ prˇ´ıpad substituce. Veˇta 4.2 Trˇ´ıda regula´rnı´ch jazyku˚ je uzavrˇena vzhledem k operaci substituce. Du˚kaz: Ma´me jazyk L1 nad abecedou Σ1 reprezentovany´ regula´rnı´m vy´razem. Substituce σ je urcˇena tak, zˇe pro kazˇdy´ prvek abecedy Σ1 , a ∈ Σ1 , ma´me regula´rnı´ vy´raz σ(a) nad abecedou ∆a . Po uplatneˇnı´ substituce vznikne jazyk σ(L1 ) nad abecedou [
∆a
a∈Σ1
tak, zˇe v regula´rnı´m vy´razu pu˚vodnı´ho jazyka nahradı´me vsˇechny symboly abecedy Σ1 prˇ´ıslusˇny´mi regula´rnı´mi vy´razy σ(a). 2
KAPITOLA 4 REGULA´RNI´ VY´RAZY
37
Prˇı´klad 4.3 L = a∗ b + (b∗ a)∗ σ1 (a) = m∗ , σ1 (b) = p∗ q + p ⇒ σ1 (L) = m∗ (p∗ q + p) + ((p∗ q + p)m∗ )∗ σ2 (a) = c, σ2 (b) = c∗ ⇒ σ2 (L) = c∗ c∗ + (c∗ c)∗ = c∗ σ3 (a) = d∗ , σ3 (b) = d ⇒ σ3 (L) = d∗ d + (d∗ d∗ )∗ = d∗ σ4 (a) = e∗ , σ4 (b) = f ∗ ⇒ σ4 (L) = e∗ f ∗ + (e∗ f ∗ )∗ = (e∗ f ∗ )∗ = (e + f )∗
4.4.2 Normovany´ automat Definice 4.3 (Normovany´ automat) Normovany´ automat je deterministicky´ automat bez nedosazˇitelny´ch stavu˚, jehozˇ stavy jsou oznacˇeny jednoznacˇneˇ (jednoznacˇny´m postupem).
✍
´ cˇel: U O dvou ekvivalentnı´ch automatech, ktere´ nejsou normovane´, mu˚zˇeme rˇ´ıci, zˇe jsou stejne´ azˇ na oznacˇenı´ stavu˚. Normova´nı´m si zjednodusˇ´ıme porovna´va´nı´ automatu˚, protozˇe dva ekvivalentnı´ normovane´ automaty jsou shodne´ i vcˇetneˇ oznacˇenı´ stavu˚ (nemusı´me proveˇrˇovat ru˚zne´ kombinace usporˇa´dany´ch dvojic stavu˚). Postup: Stavy i automatu usporˇa´da´me podle nejkratsˇ´ıch slov z jazyku˚ Li (budeme indexovat sestupneˇ, „nejveˇtsˇ´ı“ slovo dostane nejmensˇ´ı index). Porovna´va´me podle de´lky, stejneˇ dlouha´ slova podle abecedy. • u kazˇde´ho stavu i automatu zjistı´me nejkratsˇ´ı slovo prˇ´ıslusˇne´ho jazyka Li , je mozˇne´, zˇe budeme potrˇebovat vı´ce takovy´ch slov, • serˇadı´me podle de´lky sestupneˇ, • pokud vyjdou dveˇ stejneˇ dlouha´ slova u vı´ce stavu˚, porovna´me je podle abecedy,
KAPITOLA 4 REGULA´RNI´ VY´RAZY
38
• pokud vyjdou stejna´ slova u vı´ce stavu˚, pouzˇijeme u kazˇde´ho druhe´ nejkratsˇ´ı slovo (atd. dokud nenajdeme rozdı´l, ten najdeme urcˇiteˇ – jsou to ru˚zne´ jazyky), • serˇazene´ stavy oindexujeme (pojmenujeme) od 1. Prˇı´klad 4.4 Znormujeme automat A = ({q0 , q1 , q2 }, {a, b}, δ, q0 , {q1 })
Pu˚vodnı´ automat:
→ q0 ← q1 q2
a
b
q2 q1 q2
q1 q1
b q1 a q0 a b q2 a
L(q0 ) = ba∗ + aa∗ b, nejmensˇ´ı slova jsou b, ab, ba, aab, . . . L(q1 ) = a∗ , nejmensˇ´ı slova jsou ε, a, aa, . . . L(q2 ) = a∗ b, nejmensˇ´ı slova jsou b, ab, aab, . . . Jak vidı´me, nejkratsˇ´ı slovo obsahuje jazyk L(q1 ), proto tomuto jazyku prˇirˇadı´me nejvysˇsˇ´ı index (3). Zby´vajı´cı´ dva jazyky majı´ prvnı´ dveˇ nejmensˇ´ı slova stejna´, azˇ v trˇetı´m sloveˇ se lisˇ´ı – ba < aab a proto jazyku L(q0 ) prˇirˇadı´me druhy´ nejvysˇsˇ´ı index (2).
Po znormova´nı´:
→2 ←3 2
a
b
1 3 1
3 3
b a 3 2 a b 1 a
Jak si mu˚zˇeme vsˇimnout na prˇ´ıkladu 4.4 a jak mu˚zˇeme take´ zjistit u´vahou, koncove´ stavy veˇtsˇinou mı´vajı´ prˇirˇazeny nejvysˇsˇ´ı indexy a proti smeˇru vy´pocˇtu (tedy smeˇrem od koncovy´ch k pocˇa´tecˇnı´mu stavu) se indexy obvykle snizˇujı´. To vsˇak nenı´ tak u´plneˇ pravidlem – trˇeba v prˇ´ıkladu 4.4 nema´ pocˇa´tecˇnı´ stav nejnizˇsˇ´ı index.
4.4.3 Minimalizace konecˇne´ho automatu Minimalizacı´ budeme rozumeˇt prˇedevsˇ´ım snı´zˇenı´ pocˇtu stavu˚ automatu. Tento postup mu˚zˇe by´t uzˇitecˇny´ prˇi porovna´va´nı´ jazyku˚ rozpozna´vany´ch dveˇma (napo-
KAPITOLA 4 REGULA´RNI´ VY´RAZY
39
hled) ru˚zny´mi automaty, ale take´ prˇi optimalizaci programu˚ vytvorˇeny´ch stavovy´m programova´nı´m podle konecˇne´ho automatu. Definice 4.4 (Ekvivalentnı´ automaty) Dva konecˇne´ automaty A1 a A2 jsou ekvivalentnı´, pokud rozpozna´vajı´ tenty´zˇ jazyk, tj. L(A1 ) = L(A2 ).
✍
Definice 4.5 (Minima´lnı´ automat) Konecˇny´ automat je minima´lnı´, jestlizˇe neexistuje zˇa´dny´ s nı´m ekvivalentnı´ automat, ktery´ ma´ mensˇ´ı pocˇet stavu˚.
✍
Veˇta 4.3 Ke kazˇde´mu konecˇne´mu automatu lze sestrojit ekvivalentnı´ minima´lnı´ konecˇny´ automat.
Postup: • vytvorˇ´ıme ekvivalentnı´ deterministicky´ automat, • odstranı´me nedosazˇitelne´ stavy, • vytvorˇ´ıme ekvivalentnı´ redukovany´ automat, • vhodneˇ prˇeznacˇ´ıme stavy – znormujeme automat. Vyuzˇijeme konstrukci podı´love´ho automatu (viz podı´lova´ grupa apod.). Redukce stavu˚ automatu Redukce stavu˚ automatu A = (Q, Σ, δ, q0 , F ): • pro vsˇechny stavy q automatu vytvorˇ´ıme „pomocne´“ automaty Aq tak, zˇe vezmeme pu˚vodnı´ automat A a stav q pouzˇijeme jako pocˇa´tecˇnı´, tedy ∀q ∈ Q :
Aq = (Q, Σ, δ, q, F ),
oznacˇ´ıme Lq = L(Aq ), • zavedeme relaci ekvivalence ∼ na mnozˇineˇ stavu˚ automatu Q, definujeme ji takto: pro jake´koliv dva stavy p, q ∈ Q platı´: p ∼ q ⇐⇒ Lp = Lq (dva stavy jsou ekvivalentnı´, pokud se rovnajı´ jazyky prˇ´ıslusˇny´ch pomocny´ch automatu˚), • kdyzˇ prˇi postupu ze dvou ru˚zny´ch stavu˚ dosta´va´me tote´zˇ, pak jsou tyto stavy zameˇnitelne´ ⇒ mu˚zˇeme je „shrnout“ do jedine´ho stavu, tedy vsˇechny cesty mı´rˇ´ıcı´ do q prˇesmeˇrujeme do p a stav q odstranı´me,
KAPITOLA 4 REGULA´RNI´ VY´RAZY
40
• toto odstranˇova´nı´ prova´dı´me tak dlouho, dokud v automatu existujı´ ekvivalentnı´ stavy. Definice 4.6 (Podı´lovy´ automat) Necht’ A = (Q, Σ, δ, q0 , F ) je konecˇny´ automat bez nedosazˇitelny´ch stavu˚.
✍
Vytvorˇ´ıme trˇ´ıdy ekvivalence ∼ obsahujı´cı´ neˇktery´ stav q ∈ Q: [q] = {p | p ∈ Q, p ∼ q} Podı´lovy´ automat A∼ podle ekvivalence ∼ je A∼ = {Q∼ , Σ, δ∼ , [q0 ], F∼ ), kde • Q∼ = {[q] | q ∈ Q}, • δ∼ ([q], a) = [δ(q, a)], • F∼ = {[f ] | f ∈ F } Konstrukci podı´love´ho automatu pouzˇijeme pro redukci stavu˚ pu˚vodnı´ho automatu, proto o takto vytvorˇene´m automatu budeme hovorˇit take´ jako o redukovane´m. Je pomeˇrneˇ snadne´ doka´zat, zˇe podı´lovy´ automat je ekvivalentnı´ s pu˚vodnı´m automatem („shrnujeme“ cesty, ktere´ jsou shodne´). Na prˇ´ıkladu si uka´zˇeme vytvorˇenı´ podı´love´ho automatu vcˇetneˇ hleda´nı´ ekvivalentnı´ch stavu˚. Postup: Vytvorˇ´ıme automaty Ai = (Q, Σ, δ, i, F ) (jako pocˇa´tecˇnı´ stav pouzˇijeme i ∈ Q), zajı´majı´ na´s jazyky Li = L(Ai ). Ty pak porovna´me a zpracujeme ekvivalentnı´. Budeme postupovat na´sledovneˇ: 0 k • vytvorˇ´ıme mnozˇiny Rij , rekurzı´vneˇ vypocˇteme dalsˇ´ı mnozˇiny Rij azˇ ke k = 8,
• zjistı´me jazyky L(i) =
[
8 Rif
f ∈F
a porovna´me je, pokud neˇktere´ dva stavy rozpozna´vajı´ stejny´ jazyk, jeden z nich odstranı´me s prˇesmeˇrova´nı´m vsˇech prˇ´ımy´ch cest vedoucı´ch do tohoto stavu, • automat prˇevedeme do norma´lnı´ho tvaru (znormujeme).
KAPITOLA 4 REGULA´RNI´ VY´RAZY
41
Prˇı´klad 4.5 A = (Q, Σ, δ, 1, F ) = ({1, 2, . . . , 8}, {a, b}, δ, 1, {8}) deterministicky´ bez nedosazˇitelny´ch stavu˚
→1 2 3 4 5 6 7 ←8
a
b
2 ∅ 3 5 ∅ 6 7 ∅
4 6 8 3 7 8 8 8
a
1 b
b 2
a 6 a b b 8 3 b
b 4
b b 5
a
7 a
Jazyky Li vytvorˇ´ıme postupem popsany´m vy´sˇe: 8 L1 = R18 = bba∗ bb∗ + aba∗ bb∗ + baba∗ bb∗ 8 L2 = R28 = ba∗ bb∗ 8 L3 = R38 = a∗ bb∗ 8 L4 = R48 = ba∗ bb∗ + aba∗ bb∗ 8 L5 = R58 = ba∗ bb∗
= L2
8 L6 = R68 = a∗ bb∗
= L3
8 L7 = R78 = a∗ bb∗
= L3
8 L8 = R88 = b∗
⇒ zpracujeme stavy 5, 6, 7.
Pu˚vodnı´ automat: a b →1 2 3 4 5 6 7 ←8
2 ∅ 3 5 ∅ 6 7 ∅
4 6 8 3 7 8 8 8
a
1 b
b 2 b 4 a
a 6 a b b 8 3 b b b 5
7 a
KAPITOLA 4 REGULA´RNI´ VY´RAZY Po odstraneˇnı´ stavu 5: →1 2 3 4 6 7 ←8
a
b
2 ∅ 3 2 6 7 ∅
4 6 8 3 8 8 8
a
1 b
Po odstraneˇnı´ stavu 6: →1 2 3 4 7 ←8
a
b
2 ∅ 3 2 7 ∅
4 3 8 3 8 8
a
1 b
Po odstraneˇnı´ stavu 7: →1 2 3 4 ←8
a
b
2 ∅ 3 2 ∅
4 3 8 3 8
a
1 b
42
b 2 a b 4
2 b a b 4
2 b a b 4
a 6 a b b 8 3 b b 7 a
a b 3
8 b b 7 a
a b 3
8 b
Takto vytvorˇeny´ automat je uzˇ sice redukovany´, ale jesˇteˇ ne minima´lnı´. Abychom mohli splnit podmı´nku snadne´ho porovna´va´nı´ automatu˚, musı´me na´sˇ automat jesˇteˇ normovat. Vyuzˇijeme jazyky dı´lcˇ´ıch automatu˚, ktere´ jsme zjistili drˇ´ıve: 8 L1 = R18 = bba∗ bb∗ + aba∗ bb∗ + baba∗ bb∗ 8 L2 = R28 = ba∗ bb∗
KAPITOLA 4 REGULA´RNI´ VY´RAZY
43
8 L3 = R38 = a∗ bb∗ 8 L4 = R48 = ba∗ bb∗ + aba∗ bb∗ 8 L8 = R88 = b∗
Z teˇchto jazyku˚ vybereme nejkratsˇ´ı slova a ta porovna´me: Stav i Nejkratsˇ´ı slovo jazyka Li
Nove´ oznacˇenı´ stavu
abb bb, bab, . . . b bb, abb, . . . ε
1 2 3 4 8
1 2 4 3 5
Vy´sledny´ automat po znormova´nı´:
→1 2 3 4 ←5
a
b
2 ∅ 2 4 ∅
3 4 4 5 5
a
1 b
3 b a b 2
a b 4
5 b
Kapitola
5
Forma´lnı´ gramatiky Azˇ dosud jsme se zaby´vali mozˇnostmi zjisˇt’ova´nı´, zda zadane´ slovo nebo posloupnost signa´lu˚ vyhovuje dany´m podmı´nka´m, tedy zda patrˇ´ı do urcˇite´ho jazyka. V te´to kapitole se budeme zaby´vat mozˇnostmi generova´nı´ slov vyhovujı´cı´ch dany´m podmı´nka´m, tedy patrˇ´ıcı´ch do urcˇite´ho jazyka.
5.1
Generova´nı´ slov jazyka
Definice 5.1 (Za´kladnı´ pojmy forma´lnı´ch gramatik) • Abeceda je nepra´zdna´ konecˇna´ mnozˇina, jejı´zˇ prvky nazy´va´me znaky, symboly, signa´ly. • Slovo nad abecedou Σ je konecˇna´ posloupnost symbolu˚ abecedy Σ, tj. w ∈ Σ∗ . • Jazyk na abecedou Σ je mnozˇina slov L nad abecedou Σ, tj. L ⊆ Σ∗ . • Automat rozpozna´va´ slovo, tj. dostane jizˇ existujı´cı´ slovo na vstup a rozhodne, zda patrˇ´ı do dane´ho jazyka. • Gramatika vytva´rˇ´ı (generuje) slova dane´ho jazyka, popisuje strukturu jazyka. Pouzˇitı´ gramatik prˇi generova´nı´ slov si nejdrˇ´ıv uka´zˇeme na prˇ´ıkladu.
44
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
45
Prˇı´klad 5.1 L = a∗ (bc + cb∗ c) 1
S → aS S → bA
2
S → cB
3
A→c
4
B → bB
5
6
B→c Generujeme slovo cbbc: S⇒ cB⇒ cbB⇒ cbbB⇒ cbbc Nenı´ co prˇepisovat ⇒ konec ´ sporneˇjsˇ´ı a prˇehledneˇjsˇ´ı zpu˚sob za´pisu (shrneme pravidla se stejnou levou U stranou na jeden rˇa´dek):
S → aS | bA | cB
1 , 2 3
,
A→c
4
B → bB | c
5 6
,
Definice 5.2 (Forma´lnı´ gramatika) Forma´lnı´ gramatika je usporˇa´dana´ cˇtverˇice (posloupnost) G = (N, T, P, S), kde
✍
• N je nepra´zdna´ konecˇna´ mnozˇina netermina´lnı´ch symbolu˚ (netermina´lnı´ abeceda), • T je nepra´zdna´ konecˇna´ mnozˇina termina´lnı´ch symbolu˚ (termina´lnı´ abeceda), platı´ N ∩ T = ∅, • P je nepra´zdna´ konecˇna´ mnozˇina pravidel, P ⊆ ((N ∪ T )∗ N (N ∪ T )∗ ) × (N ∪ T )∗ jinak: αAβ → γ, kde A ∈ N, α, β, γ ∈ (N ∪ T )∗ • S je startovacı´ symbol gramatiky, S ∈ N . Definice 5.3 (Relace kroku odvozenı´ ⇒) Necht’ w1 , w2 ∈ (N ∪ T )∗ pro gramatiku G = (N, T, P, S). Slovo w2 lze prˇ´ımo (v jednom kroku) odvodit ze slova w1 (pı´sˇeme w1 ⇒G w2 , obvykle stacˇ´ı ⇒), jestlizˇe existuje pravidlo (α → β) ∈ P , w1 = x1 αx2 , w2 = x1 βx2 (podrˇeteˇzec α nahradı´me rˇeteˇzcem β). Symbol ⇒∗ je reflexivnı´m tranzitivnı´m uza´veˇrem relace ⇒, tj. naprˇ´ıklad za´pis w1 ⇒ w2 ⇒ w3 ⇒ w4 ⇒ w5 lze zkra´tit na w1 ⇒∗ w5 .
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
46
Definice 5.4 (Jazyk) Jazyk generovany´ gramatikou G = (N, T, P, S) je mnozˇina ∗
L(G) = {w ∈ T | S
⇒∗G
✍
w}
Definice 5.5 (Veˇtna´ forma, veˇta) Veˇtna´ forma gramatiky G = (N, T, P, S) je ktere´koliv slovo α takove´, zˇe S ⇒∗G α, tedy je to ktere´koliv slovo, ktere´ lze odvodit ze startovacı´ho symbolu pomocı´ pravidel gramatiky. Veˇta gramatiky G = (N, T, P, S) je takova´ veˇtna´ forma w, ktera´ se skla´da´ pouze z termina´lnı´ch symbolu˚, tedy S ⇒∗G w, w ∈ T ∗ . Mu˚zˇeme rˇ´ıci, zˇe jazyk generovany´ gramatikou je mnozˇina vsˇech veˇt te´to gramatiky.
✍
Definice 5.6 (Ekvivalence gramatik) Gramatiky G1 a G2 jsou ekvivalentnı´, pokud generujı´ tenty´zˇ jazyk, tedy L(G1 ) = L(G2 ).
✍
Definice 5.7 (Derivace) Derivace slova α de´lky n v gramatice G = (N, T, P, S) je posloupnost slov α1 , α2 , . . . αn takova´, zˇe
✍
• α1 = S, • αn = α, • αi ⇒G αi+1 ∀i : 1 ≤ i ≤ n − 1.
5.2
Regula´rnı´ gramatiky
Definice 5.8 (Regula´rnı´ gramatika) Regula´rnı´ gramatika je takova´ forma´lnı´ gramatika G = (N, T, P, S), kde P je mnozˇina pravidel ve tvaru A → a nebo A → aB, kde A, B ∈ N, a ∈ T , pokud se S nevyskytuje na prave´ straneˇ zˇa´dne´ho pravidla, mu˚zˇe existovat i pravidlo S → ε. Veˇta 5.1 Jazyky generovane´ regula´rnı´mi gramatikami jsou pra´veˇ regula´rnı´ jazyky. Postup a princip du˚kazu si nejdrˇ´ıv uka´zˇeme na prˇ´ıkladech. Prˇı´klad 5.2 G = ({S, A}, {a, b, c, d}, P, S), kde v P jsou pravidla S → aS | aA | c A → bA | cS | d
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
47
Vytvorˇeny´ konecˇny´ automat: →S A ←X
a S, A
b A
c X S
b a a A S c c d X
d X
L = a∗ (ab∗ ca∗ )∗ (c + ab∗ d) = a∗ ab∗ (ca∗ ab∗ )∗ d + a∗ (ab∗ ca∗ )∗ c
Prˇı´klad 5.3 G = ({S, A, B}, {a, b}, P, S), kde v P jsou pravidla S → aA | b | ε A → bA | bB B → aA | b Vytvorˇeny´ konecˇny´ automat: a b ↔S A X A A, B B A X ←X
b a S A b b a b B X
L = ε + b + ab∗ b(ab∗ b)∗ b
Du˚kaz: „⇒“ (G = (N, T, P, S)
−→
A = (Q, Σ, δ, q0 , F ))
• abeceda Σ = T , pocˇa´tecˇnı´ stav q0 = S, • stavy Q = N ∪ {X}, musı´ by´t X ∈ / N (X je noveˇ prˇidany´), • koncove´ stavy: – pokud (S → ε) ∈ P , pak F = {X, S}, – jinak F = {X}, • δ funkce: – pro kazˇde´ pravidlo (U → aV ) ∈ P je δ(U, a) ∋ V , – pro kazˇde´ pravidlo (U → a) ∈ P je δ(U, a) ∋ X. 2
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
48
Prˇı´klad 5.4 A = ({q0 , q1 , q2 , q3 }, {a, b}, δ, q0 , {q2 , q3 }) a → q0 q1 ← q2 ← q3
b
a q0 b
q1 q0 , q2 q3
q2 q3
a a b b q3 q2 q1
Automat upravı´me, abychom mohli pouzˇ´ıt postup prˇesneˇ opacˇny´ postupu prˇevodu gramatiky na automat: a → q0 q1 q2 q3 ←X
b
q1 q0 , q2 , X q3 , X
q2 , X q3 , X
a q0 b
b q1 b
a b q2 a,b X
a q3 a
Vy´sledna´ gramatika a jejı´ u´prava (jen nahradı´me netermina´ly velky´mi pı´smeny): q0 q1 q2 q3
→ aq1 → bq0 | bq2 |b → aq2 | bq3 | a | b → aq3 | a
S → aA A → bS | bB | b B → aB | bC | a | b C → aC | a
L = (ab)∗ aba∗ + (ab)∗ aba∗ ba∗ = (ab)∗ aba∗ (ε + ba∗ )
Prˇı´klad 5.5 A = ({q0 , q1 , q2 , q3 }, {a, b, c}, δ, q0 , {q0 , q3 }) a ↔ q0 q1 q2 ← q3
q1 q2 q2
b
c
q0 , q1 q3
b a a q0 q1 b
a c q2
q3
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
49
Upravı´me automat, tentokra´t musı´me rˇesˇit i pocˇa´tecˇnı´ stav: q0 q1 q2 q3 ←X ↔S
a
b
q1 q2 q2
q0 , q1 , X
c
X
S a a q0 b
b a q1 b
q1
a c q3 q2 c X
Stav q3 se sta´va´ nadbytecˇny´m, neexistuje zˇa´dna´ cesta vedoucı´ od neˇho do koncove´ho stavu. Vy´sledna´ gramatika a prˇevedenı´ netermina´lu˚ na velka´ pı´smena: S → aq1 | ε q0 → aq1 q1 → aq2 | bq0 | bq1 |b q2 → aq2 | c
S → aB | ε A → aB B → aC | bA | bB | b C → aC | c
L = ε + (ab∗ b)∗ ab∗ (b + aa∗ c)
Du˚kaz: „⇐“ (A = (Q, Σ, δ, q0 , F )
−→
G = (N, T, P, S))
• upravı´me automat – upraveny´ je A′ = (Q′ , Σ, δ ′ , q0′ , F ′ ) – F ′ = {X}, – duplikujeme prˇ´ıme´ prˇechody vedoucı´ do pu˚vodnı´ch koncovy´ch stavu˚, vytvorˇene´ prˇesmeˇrujeme do X, – pokud q0 ∈ F , vytvorˇ´ıme novy´ pocˇa´tecˇnı´ stav S, F ′ = {X, S}, q0′ = S, ∀a ∈ Σ : δ ′ (S, a) = δ(q0 , a), • T = Σ, N = Q′ − {X}, startovacı´ symbol je q0′ , • pravidla P : – pro vsˇechny prˇechody δ(qi , a) ∋ qj
(qi → aqj ) ∈ P, pokud qj ∈ / F ′,
– jinak (qi → a) ∈ P , – jestlizˇe S ∈ F ′ , pak (S → ε) ∈ P . 2
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
5.3
50
Chomske´ho hierarchie gramatik
Po jazykoveˇdci Noamu Chomske´m je pojmenova´na hierarchie za´kladnı´ch typu˚ forma´lnı´ch gramatik. Gramatiky v te´to hierarchii majı´ jedno spolecˇne´ – sekvencˇnı´ zpu˚sob generova´nı´ slova. To znamena´, zˇe v kazˇde´m kroku odvozenı´ je pouzˇito pra´veˇ jedno pravidlo na pra´veˇ jednom mı´steˇ v prˇepisovane´m sloveˇ. V hierarchii najdeme cˇtyrˇi typy gramatik oznacˇeny´ch cˇ´ısly 0, 1, 2, 3. Trˇ´ıdy (tedy mnozˇiny) jazyku˚ generovane´ teˇmito gramatikami oznacˇujeme L(0), L(1), L(2), L(3). Mimo hierarchii, ale v teˇsne´ vazbeˇ na ni, existujı´ dalsˇ´ı typy gramatik, na ktere´ se take´ podı´va´me.
5.3.1 Gramatiky v Chomske´ho hierarchii Chomske´ho hierarchie zahrnuje tedy cˇtyrˇi typy gramatik. U kazˇde´ho typu si uvedeme prˇ´ıpadny´ slovnı´ na´zev a da´le oznacˇenı´, ktere´ se kromeˇ L(cˇ´ıslo) pouzˇ´ıva´ pro oznacˇenı´ souvisejı´cı´ trˇ´ıdy jazyku˚, tvar pravidel a ekvivalentnı´ stroj, ktery´ rozpozna´va´ stejnou trˇ´ıdu jazyku˚. Definice 5.9 (Gramatiky Chomske´ho hierarchie) 1. Gramatiky typu 0 (rekurzı´vneˇ vycˇ´ıslitelne´, RE – Recursively Enumerable) • zˇa´dne´ zvla´sˇtnı´ podmı´nky na tvar pravidel (jen na leve´ straneˇ musı´ by´t alesponˇ jeden netermina´l): (N ∪ T )∗ N (N ∪ T )∗ × (N ∪ T )∗ jiny´ za´pis: αAβ → γ,
A ∈ N, α, β, γ ∈ (N ∪ T )∗
• ekvivalentnı´ stroj: Turingu˚v stroj (TS) 2. Gramatiky typu 1 (nezkracujı´cı´, monoto´nnı´) • pro pravidla musı´ navı´c kromeˇ podmı´nek gramatik typu 0 platit: α → β,
|α| ≤ |β|,
α, β ∈ (N ∪ T )∗
• mu˚zˇe existovat pravidlo S → ε, pokud se S nenacha´zı´ na prave´ straneˇ zˇa´dne´ho pravidla
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
51
• gramatiky se nazy´vajı´ nezkracujı´cı´, protozˇe generovane´ slovo se po jednotlivy´ch krocı´ch bud’ prodluzˇuje, nebo se jeho de´lka nemeˇnı´, ale nezkracuje se • ekvivalentnı´ stroj: linea´rneˇ ohranicˇeny´ automat (LOA, LBA – Linearly Bounded Automaton) 3. Gramatiky typu 2 (bezkontextove´, CF – Context-free) • pravidla ve tvaru A → α,
A ∈ N, α ∈ (N ∪ T )∗
• ekvivalentnı´ stroj: za´sobnı´kovy´ automat (ZA) 4. Gramatiky typu 3 (regula´rnı´, REG – Regular) • pravidla ve tvaru A → aB, A → a,
A, B ∈ N, a ∈ T
• mu˚zˇe existovat pravidlo S → ε, pokud se S nenacha´zı´ na prave´ straneˇ zˇa´dne´ho pravidla • ekvivalentnı´ stroj: konecˇny´ automat (KA) Veˇta 5.2 Mezi trˇ´ıdami jazyku˚ generovany´ch gramatikami v Chomske´ho hierarchii jsou tyto vztahy: L(3) ⊂ L(2) ⊂ L(1) ⊂ L(0)
Pro korektnı´ du˚kaz tohoto tvrzenı´ jesˇteˇ nema´me dostatek znalostı´, proto si jen uvedeme jazyky, ktere´ lze pouzˇ´ıt v du˚kazu prvnı´ch dvou inkluzı´: LCF = {an bn | n ≥ 1}
∈ (L(2) − L(3))
LM ON = {an bn cn | n ≥ 1}
∈ (L(1) − L(2))
5.3.2 Souvisejı´cı´ typy gramatik Da´le v textu budeme take´ pracovat s teˇmito typy gramatik: 1. Kontextove´ gramatiky (CS – Context Sensitive) • pravidla ve tvaru αAβ → αγβ,
γ 6= ε, A ∈ N, α, β, γ ∈ (N ∪ T )∗
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
52
• mu˚zˇe existovat pravidlo S → ε, pokud se S nenacha´zı´ na prave´ straneˇ zˇa´dne´ho pravidla • tato trˇ´ıda jazyku˚ je ekvivalentnı´ trˇ´ıdeˇ jazyku˚ typu 1 (nezkracujı´cı´m) – CS ∼ = L(1) 2. Linea´rnı´ gramatiky (LIN – Linear) • pravidla ve tvaru A → αBβ, A → α,
A, B ∈ N, α, β ∈ T ∗
• specia´lnı´ prˇ´ıpady linea´rnı´ch gramatik: – pravolinea´rnı´ (RLIN ) A → βB, A → β, stejneˇ definovane´ jako regula´rnı´ – levolinea´rnı´ (LLIN ) A → Bβ, A → β • LIN je specia´lnı´ prˇ´ıpad CF (bezkontextovy´ch) gramatik, da´ se doka´zat, zˇe LIN ⊂ LIN L = {an bn | n ≥ 1}+ ∈ (CF − LIN ) • RLIN = LLIN = REG, da´ se doka´zat, zˇe REG ⊂ LIN L = {an bn | n ≥ 1} ∈ (LIN − REG) 3. Gramatiky generujı´cı´ konecˇne´ jazyky (F IN – Finite languages) • konecˇne´ jazyky lze generovat regula´rnı´mi gramatikami: S → prvnı´ slovo | druhe´ slovo | trˇetı´ slovo | . . . • platı´ F IN ⊂ REG L = a∗ ∈ (REG − F IN )
5.4
Operace nad slovy a jazyky
Na´sledujı´cı´ definice se budou ty´kat jazyku˚ L1 a L2 nad abecedou Σ, prˇ´ıpadneˇ slov w1 a w2 nad touto abecedou. Definice 5.10 (Operace zrˇeteˇzenı´) Operace zrˇeteˇzenı´ slov je definova´na na´sledovneˇ: necht’ w1 = a1 a2 . . . an , w2 = b1 b2 . . . bm . Jejich zrˇeteˇzenı´m je slovo w = w1 · w2 = a1 a2 . . . an b1 b2 . . . bm o de´lce n + m.
✍
KAPITOLA 5 FORMA´LNI´ GRAMATIKY
53
Operace zrˇeteˇzenı´ jazyku˚ je definova´na na´sledovneˇ: Zrˇeteˇzenı´m jazyku˚ L1 a L2 je jazyk L = L1 · L2 = {w1 · w2 | w1 ∈ L1 , w2 ∈ L2 } Definice 5.11 (Operace sjednocenı´ jazyku˚) Sjednocenı´m jazyku˚ L1 a L2 je jazyk
✍
∗
L = L1 ∪ L2 = {w ∈ Σ | w ∈ L1 ∨ w ∈ L2 } Definice 5.12 (Operace pru˚niku jazyku˚) Pru˚nikem jazyku˚ L1 a L2 je jazyk
✍
∗
L = L1 ∩ L2 = {w ∈ Σ | w ∈ L1 &w ∈ L2 } Definice 5.13 (Operace komplementu (doplnˇku) jazyka) Komplementem jazyka L1 v abecedeˇ Σ je jazyk / L1 } L = L1 = {w ∈ Σ∗ | w ∈ Definice 5.14 (Operace uza´veˇru jazyka) (iterace, nekonecˇne´ sjednocenı´) uza´veˇrem jazyka L1 je jazyk L = L∗1 =
✍ ✍
∞ [
Li1 , kde Li1 = L · L1 {z · . . . · L1} |1 i=0 celkem i×
Definice 5.15 (Operace bez ε-nove´ho uza´veˇru jazyka) Je definova´na podobneˇ: L=
L+ 1
=
∞ [
Li1 ,
kde
i=1
Li1
✍
=L · L1 {z · . . . · L1} |1 celkem i×
(rozdı´l je v indexu pod sumou, zde je i > 0) Definice 5.16 (Operace zrcadlove´ho obrazu) Operace zrcadlove´ho obrazu slova je definova´na na´sledovneˇ: necht’ w1 = a1 a2 . . . an . Jeho zrcadlovy´m obrazem je slovo w = w1R = an an−1 . . . a2 a1 . Operace zrcadlove´ho obrazu jazyka je definova´na na´sledovneˇ: Zrcadlovy´m obrazem jazyka L1 je jazyk R L = LR 1 = {w | w ∈ L1 }
✍
Kapitola
6
Bezkontextove´ jazyky V te´to kapitole se budeme zaby´vat jazyky odpovı´dajı´cı´mi trˇ´ıdeˇ jazyku˚ L(2) (resp. CF ) v Chomske´ho hierarchii, tedy bezkontextovy´m gramatika´m.
6.1
Bezkontextove´ gramatiky
Definice 6.1 (Bezkontextova´ gramatika) Bezkontextova´ gramatika je gramatika, jejı´zˇ pravidla jsou ve tvaru A → α, kde A ∈ N, α ∈ (N ∪ T )∗ Prˇı´klad 6.1 L1 = {wwR | w ∈ {a, b}∗ } G1 = ({S}, {a, b}, P, S), kde mnozˇina P obsahuje pravidla S → aSa | bSb | ε Derivace: S ⇒ aSa ⇒ abSba ⇒ abbSbba ⇒ abbbba
Prˇı´klad 6.2 L2 = (an bm cn | m, n > 0} G2 = ({S, A}, {a, b, c}, P, S), kde mnozˇina P obsahuje pravidla S → aSc | aAc A → bA | b Derivace: S ⇒ aSc ⇒ aaAcc ⇒ aabAcc ⇒ aabbAcc ⇒ aabbbcc
54
✍
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
55
Prˇı´klad 6.3 L3 = {0n 1m | 1 ≤ n ≤ m} G3 = ({A}, {0, 1}, P, A), kde mnozˇina P obsahuje pravidla A → 0A1 | A1 | 01 Derivace: A ⇒ 0A1 ⇒ 0A11 ⇒ 00111
Prˇı´klad 6.4 L4 = jazyk matematicky´ch vy´razu˚ obsahujı´cı´ch • cela´ cˇ´ısla • opera´tory +, ∗ (bez ohledu na prioritu) • za´vorky G4 = ({E}, {n, +, ∗, ), (}, P, E), kde mnozˇina P obsahuje pravidla E → E + E | E ∗ E | (E) | n Derivace: E ⇒ E ∗ E ⇒ E + E ∗ E ⇒ n + E ∗ E ⇒ n + (E) ∗ E ⇒ ⇒ n + (E) ∗ n ⇒ n + (n) ∗ n
Definice 6.2 (Derivacˇnı´ strom) Derivacˇnı´ strom neˇktere´ derivace v bezkontextove´ gramatice G = (N, T, P, S) je usporˇa´dany´ korˇenovy´ strom (tj. souvisly´ acyklicky´ graf), jehozˇ uzly jsou ohodnoceny symboly z mnozˇiny N ∪ T ∪ {ε} a platı´: • vsˇechny uzly kromeˇ korˇene majı´ jednoho prˇedchu˚dce, korˇen nema´ zˇa´dne´ho, • pokud je neˇktery´ uzel ohodnocen symbolem A, jeho na´slednı´ci po rˇadeˇ symboly a1 , a2 , . . . an , pak v mnozˇineˇ pravidel P gramatiky existuje pravidlo A → a1 a2 . . . an , • jestlizˇe uzel ohodnoceny´ symbolem A ma´ jedine´ho na´slednı´ka ohodnocene´ho symbolem ε, pak v P existuje pravidlo A → ε, • korˇen stromu je ohodnocen S, listy jsou ohodnoceny symboly ∈ T ∪ {ε}, ostatnı´ symboly ∈ N . V kazˇde´m kroku vytva´rˇenı´ derivacˇnı´ho stromu tvorˇ´ı listy veˇtnou formu v gramatice.
✍
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
56
Prˇı´klad 6.5 Pravidla: E → E + E | E ∗ E | (E) | n Derivace: E ⇒E∗E ⇒E+E∗E ⇒n+E∗E ⇒n+n∗E ⇒n+n∗n Budeme postupneˇ vytva´rˇet derivacˇnı´ strom te´to derivace: E
E n
E
E
∗
E
+
E
n
n
E n
E
E
∗
E
+
E
n
n
E n
E
E
∗
E
+
E
n
n
E
E
E
∗
E
+
E
n
n
n
E
E
∗
E
+
E
n
n
n
Obra´zek 6.1: Postupne´ vytvorˇenı´ derivacˇnı´ho stromu
6.2
Vlastnosti bezkontextovy´ch gramatik
Zde se podı´va´me prˇedevsˇ´ım na neˇktere´ specia´lnı´ tvary bezkontextovy´ch gramatik (u kazˇde´ho tvaru si uvedeme i vztah k obecne´ definici). Tyto specia´lnı´ tvary majı´ smysl prˇedevsˇ´ım tehdy, kdyzˇ navrhneme gramatiku pro urcˇity´ u´cˇel a potrˇebujeme, aby meˇla urcˇite´ vlastnosti – prˇevedeme do neˇktere´ho specia´lnı´ho tvaru, ktery´ tyto vlastnosti ma´ (naprˇ´ıklad z du˚vodu snadneˇjsˇ´ı programovatelnosti, trˇeba u syntakticke´ analy´zy prˇekladacˇe).
6.2.1 Bezkontextova´ gramatika nezkracujı´cı´ Definice 6.3 (Nezkracujı´cı´ bezkontextova´ gramatika) Nezkracujı´cı´ bezkontextovou gramatikou (nevypousˇteˇjı´cı´) nazy´va´me takovou gramatiku, kde mnozˇina pravidel P bud’ neobsahuje zˇa´dne´ ε-pravidlo, a nebo existuje jedine´ ε-pravidlo S → ε a za´rovenˇ S nenı´ na prave´ straneˇ zˇa´dne´ho pravidla. Veˇta 6.1 Necht’ G je bezkontextova´ gramatika. Pak existuje gramatika G′ bez ε-pravidel takova´, zˇe L(G′ ) = L(G) − {ε}.
✍
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
57
Du˚kaz: Pro kazˇdy´ symbol A ∈ N , ktery´ lze prˇepsat na ε: • pro kazˇde´ pravidlo B → β0 Aβ1 A . . . Aβn , kde je A na prave´ straneˇ pravidla, simulujeme pouzˇitı´ pravidla A → ε na ru˚zny´ch mı´stech – prˇida´me pravidla B→ B→ ... B→ B→ ... B→
β0 β1 Aβ2 . . .βn−1 Aβn β0 Aβ1 β2 . . .βn−1 Aβn β0 Aβ1 Aβ2 . . .βn−1 βn β0 β1 β2 . . .βn−1 Aβn β0 β1 β2 . . .βn−1 βn
• odstranı´me pravidlo A → ε 2 Veˇta 6.2 Necht’ G je bezkontextova´ gramatika. Pak existuje gramatika G′ bez ε-pravidel nezkracujı´cı´ takova´, zˇe L(G′ ) = L(G).
Du˚kaz: Postup za´visı´ na tom, zda ε ∈ / L(G).
• Pokud ε ∈ / L(G), postupujeme dle prˇedchozı´ho du˚kazu. • Pokud ε ∈ L(G), postupujeme dle na´sledujı´cı´ho sche´matu (v G′ bude jedine´ ε-ove´ pravidlo S ′ → ε): G = (N, T, P, S) ⇓ G1 = (N, T, P1 , S) (vytvorˇ´ıme podle postupu v prˇedchozı´m du˚kazu) ⇓ G′ = (N ∪ {S ′ }, T, P ′ , S ′ ), kde P ′ = P1 ∪ {S ′ → ε | S} 2 Prˇevod obecne´ bezkontextove´ gramatiky na nezkracujı´cı´ si uka´zˇeme na gramatice v prˇ´ıkladu 6.6.
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
58
Prˇı´klad 6.6 Zada´nı´: G = ({S, A, B}, {a, b, c}, P, S) S → AaB | ε A → AbbA | aBc | ε B → bAB | aS Po prvnı´m kroku: S → AaB | aB A → AbbA | bbA | Abb | bb | aBc B → bAB | bB | aS | a Vy´sledek: G′ = ({S ′ , S, A, B}, {a, b, c}, P ′ , S ′ ) S′ → S | ε S → AaB | aB A → AbbA | bbA | Abb | bb | aBc B → bAB | bB | aS | a
6.2.2 Redukovana´ gramatika Definice 6.4 (Nadbytecˇny´ netermina´l) (zbytecˇny´)X je nadbytecˇny´ netermina´l, pokud neexistuje zˇa´dne´ termina´lnı´ slovo, ktere´ lze z tohoto symbolu vygenerovat, tj. neexistuje derivace X ⇒∗ w, w ∈ T ∗ .
✍
Definice 6.5 (Nedostupny´ symbol) Symbol X ∈ (N ∪ T ) je nedostupny´, jestlizˇe se nemu˚zˇe objevit v zˇa´dne´ veˇtne´ formeˇ, tj. neexistuje derivace S ⇒∗ αXβ, α, β ∈ (N ∪ T )∗ .
✍
Definice 6.6 (Redukovana´ gramatika) Bezkontextova´ gramatika je redukovana´, pokud neobsahuje zˇa´dne´ nadbytecˇne´ a nedostupne´ symboly.
✍
Postup: • odstranı´me nadbytecˇne´ symboly,
• potom odstranı´me nedostupne´ symboly. Veˇta 6.3 Ke kazˇde´ bezkontextove´ gramatice G existuje redukovana´ gramatika G′ takova´, zˇe L(G) = L(G′ ).
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
59
Algoritmus odstraneˇnı´ nadbytecˇny´ch symbolu˚
1. N0 = T ∗ 2. Ni = Ni−1 ∪ {A ∈ N | (A → α) ∈ P, α ∈ Ni−1 }
3. Ni 6= Ni−1
=⇒
inc(i), prˇechod na bod 2
4. Ni = Ni−1
=⇒
konec algoritmu, N ′ = Ni ∩ N
Prˇı´klad 6.7 Odstraneˇnı´ nadbytecˇny´ch symbolu˚: S → aAbC | c A → aA | Cc B → cB | dD C → cB | aA | b D → Bd N0 = T N1 = {S, C} ∪ T N2 = {S, C, A} ∪ T N3 = N2 =⇒ N ′ = N3 ∩ N = {S, A, C} P ′ = {S → aAbC | c, A → aA | Cc, C → aA | b}
Algoritmus odstraneˇnı´ nedosazˇitelny´ch symbolu˚
1. V0 = {S} ∗ 2. Vi = Vi−1 ∪ {X ∈ (N ∪ T ) | (A → αXβ) ∈ P, A ∈ Vi−1 }
3. Vi 6= Vi−1
=⇒
inc(i), prˇechod na bod 2
4. Vi = Vi−1
=⇒
konec algoritmu,
N ′ = Vi ∩ N , T ′ = Vi ∩ T Prˇı´klad 6.8 P : S → aA | bB | c A → cS | aA B → bB | cAB C → aA | b
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
60
P ′ : S → aA | bB | c A → cS | aA B → bB | cAB C → aA | b S → aA | bB | c A → cS | aA B → bB | cAB C → aA | b P ′′ : N0 = T N1 = {S, C} ∪ T N2 = {S, C, A} ∪ T N3 = N2 =⇒ N ′ = N3 ∩ N = {S, A, C}
V0 = {S} V1 = {S, A, a, c} V2 = V1 =⇒ N ′′ = V2 ∩ N ′ = {S, A} =⇒ T ′′ = V2 ∩ T = {a, c}
GREDU K = (N ′′ , T ′′ , P ′′ , S)
Du˚kaz:
1. sestrojı´me mnozˇiny Nε = {A ∈ N | A ⇒∗ ε} (podle postupu pro nadbytecˇne´ symboly, N0 = {ε}) 2. sestrojı´me novou mnozˇinu pravidel P ′ : (a) pro kazˇde´ pravidlo ve tvaru A → α0 B1 α1 B2 . . . Bk αk ∈ P, k ≥ 0, Bi ∈ Nε ∀i, 1 ≤ i ≤ k, ∀aj ∈ αi : aj ∈ / Nε do P ′ prˇida´me vsˇechna pravidla ve tvaru A → α0 X1 α1 X2 . . . Xk αk , kde Xi ∈ {Bi , ε}, pokud vznikne A → ε, neprˇida´me ho, (b) S ∈ Nε
=⇒ (S ′ → ε | S) ∈ P ′ , N ′ = N ∪ {S ′ }
(c) S ∈ / Nε
=⇒ N ′ = N, S ′ = S
3. G′ = (N ′ , T, P ′ , S ′ ) 2
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
61
6.2.3 Gramatika bez jednoduchy´ch pravidel Definice 6.7 (Jednoducha´ pravidla) Jednoducha´ pravidla jsou pravidla ve tvaru A → B, A, B ∈ N (tedy na prave´ i leve´ straneˇ je jediny´ netermina´l).
✍
Veˇta 6.4 Ke kazˇde´ bezkontextove´ gramatice G lze sestrojit gramatiku bez jednoduchy´ch pravidel G′ takovou, zˇe L(G) = L(G′ ).
Du˚kaz:
1. ∀A =∈ N sestrojı´me mnozˇinu NA : (a) NA,0 = {A}, (b) NA,i = NA,i−1 ∪ {X ∈ N | (B → X) ∈ P, B ∈ NA,i−1 } (c) NA,i 6= NA,i−1 =⇒ inc(i), prˇesun na b), NA,i = NA,i−1 =⇒ konec algoritmu, NA = NA,i 2. sestrojı´me P ′ : ∀(B → α) ∈ P , ktere´ nenı´ jednoduche´, ∀A ∈ N takove´, zˇe B ∈ NA , da´me do P ′ pravidlo A → α 2 Prˇı´klad 6.9 E →E+T |T T →T ∗F |F F → (E) | i NE,0 = {E} NE,1 = {E, T } NE,2 = {E, T, F } = NE NF,0 = {F } = NF E → E + T | T ∗ F | (E) | i T → T ∗ F | (E) | i F → (E) | i
NT,0 = {T } NT,1 = {T, F } = NT
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
62
6.2.4 Dalsˇı´ typy bezkontextovy´ch gramatik Definice 6.8 (Gramatika bez cyklu) Gramatika bez cyklu je takova´ gramatika, ve ktere´ neexistuje derivace A ⇒+ A pro zˇa´dne´ A ∈ N .
✍
Pozna´mka: Nezkracujı´cı´ gramatika bez jednoduchy´ch pravidel je vzˇdy bez cyklu (pozor, pouze implikace, protozˇe mohou existovat gramatiky bez cyklu, ktere´ nejsou nezkracujı´cı´ nebo ktere´ nejsou bez jednoduchy´ch pravidel). Definice 6.9 (Vlastnı´ gramatika) Vlastnı´ gramatika je gramatika bez cyklu, nezkracujı´cı´, bez nadbytecˇny´ch symbolu˚. Definice 6.10 (Gramatika bez leve´ rekurze) Gramatika bez leve´ rekurze je gramatika, ve ktere´ pro zˇa´dny´ netermina´l A ∈ N neexistuje derivace A ⇒+ Aα. Prˇ´ıma´ leva´ rekurze znamena´ existenci pravidla A → Aα, neprˇ´ıma´ existenci pravidla A → βAα, kde β ⇒∗ ε.
✍ ✍
Definice 6.11 (Gramatika bez prave´ rekurze) Obdobneˇ jako u leve´ rekurze, vymeˇnı´me slovo „leva´“ za „prava´“.
✍
Veˇta 6.5 Ke kazˇde´ bezkontextove´ gramatice G existuje gramatika bez leve´ rekurze G′ takova´, zˇe L(G) = L(G′ ).
Du˚kaz:
(Odstraneˇnı´ leve´ rekurze)
1. prˇevedeme gramatiku na vlastnı´ (bez cyklu, nezkracujı´cı´, bez nadbytecˇny´ch symbolu˚), 2. kazˇdou sadu pravidel s levou rekurzı´ A → Aα1 | Aα2 | . . . | Aαn | β1 | β2 | . . . | βm nahradı´me sadou pravidel A → β1 A′ | β2 A′ | . . . | βm A′ | β1 | β2 | . . . | βm A′ → α1 A′ | α2 A′ | . . . |αn A′ | α1 | α2 | . . . | αn Procˇ: pu˚vodnı´ sada pravidel generuje sekvenci rˇeteˇzcu˚ αi , rekurze je ukoncˇena tak, zˇe prˇed vsˇechny rˇeteˇzce αi je vygenerova´n jeden z rˇeteˇzcu˚ βj , tedy vlastneˇ vygenerujeme tote´zˇ, jen jiny´mi pravidly. A ⇒ Aα3 ⇒ Aα1 α3 ⇒ Aα7 α1 α3 ⇒ β2 α7 α1 α3 2
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
63
Prˇı´klad 6.10 Odstraneˇnı´ leve´ rekurze: A → BC | a B → BaC | Ab | ba C → CC | b | CbA → BC | a B → BaC | Ab | ba C → CC | b | Cb A → BC | a B → AbB ′ | baB ′ | ab | ba B ′ → aCB ′ | aC C → bC ′ | b C ′ → CC ′ | bC ′ | C | b
6.3
Norma´lnı´ formy pro bezkontextove´ gramatiky
Pro bezkontextove´ gramatiky mu˚zˇeme pouzˇ´ıt tyto norma´lnı´ formy: 1. Chomske´ho norma´lnı´ forma 2. Greibachova norma´lnı´ forma Jejich u´cˇel je podobny´ jako u´cˇel drˇ´ıve uvedeny´ch specia´lnı´ch typu˚ bezkontextovy´ch gramatik – jejich vlastnosti se na´m za urcˇity´ch okolnostı´ mohou hodit.
6.3.1 Chomske´ho norma´lnı´ forma Definice 6.12 (Chomske´ho norma´lnı´ forma) Bezkontextova´ gramatika je v Chomske´ho norma´lnı´ formeˇ (CNF), jestlizˇe kazˇde´ pravidlo z mnozˇiny P je v neˇktere´m z teˇchto tvaru˚:
✍
• A → BC, A, B, C ∈ N , • A → a, A ∈ N, a ∈ T , • S → ε, jestlizˇe S nenı´ na prave´ straneˇ zˇa´dne´ho pravidla. Veˇta 6.6 Ke kazˇde´ bezkontextove´ gramatice G existuje gramatika G′ v CNF takova´, zˇe L(G) = L(G′ ).
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
64
Du˚kaz: 1. Prˇevedeme gramatiku do tvaru vlastnı´ gramatiky (nezkracujı´cı´, odstranı´me jednoducha´ pravidla). 2. ∀A → α, kde |α| ≥ 2, nahradı´me kazˇdy´ vy´skyt jake´hokoliv termina´lu a netermina´lem Na ⇒ v pravidlech s pravou stranou delsˇ´ı nezˇ 1 se vyskytujı´ pouze netermina´ly. 3. Prˇida´me pravidla Na → a. 4. pro kazˇde´ pravidlo A → Y1 Y2 . . . Yn , n ≥ 3, A, Yi ∈ N : A → Y1 Z1 , Z1 → Y2 Z2 , . . . Zn−3 → Yn−2 Zn−2 , Zn−2 → Yn−1 Yn (rozkouskujeme dlouha´ pravidla) 2 Prˇı´klad 6.11 Pu˚vodnı´ gramatika G = ({S, A, B}, {0, 1}, P, S) S → A | 0SA | ε A → 1A | 1 | B1 B → 0B | 0 | 0SBA ´ prava 1: Nezkracujı´cı´ gramatika U G′ = ({S ′ , S, A, B}, {0, 1}, P ′ , S ′ ) S → A | 0SA | 0A A → 1A | 1 | B1 B → 0B | 0 | 0SBA | 0BA S′ → S | ε ´ prava 2: Odstraneˇnı´ jednoduchy´ch pravidel U G′′ = ({S ′ , S, A, B}, {0, 1}, P ′′ , S ′ ) S → 1A | 1 | B1 | 0SA | 0A A → 1A | 1 | B1 B → 0B | 0 | 0SBA | 0BA S ′ → 1A | 1 | B1 | 0SA | 0A | ε
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
65
´ prava 3: Termina´ly v pravidlech s pravou stranou delsˇ´ı nezˇ 1 U G′′′ = ({S ′ , S, A, B, N0 , N1 }, {0, 1}, P ′′′ , S ′ ) S → N1 A | 1 | BN1 | N0 SA | N0 A A → N1 A | 1 | BN1 B → N0 B | 0 | N0 SBA | N0 BA S ′ → N1 A | 1 | BN1 | N0 SA | N0 A | ε N0 → 0 N1 → 1 ´ prava 4: Rozkouskova´nı´ pravidel U G′′′′ = ({S ′ , S, A, B, N0 , N1 , Z1 , Z2 , Z3 }, {0, 1}, P ′′′′ , S ′ ) S → N1 A | 1 | BN1 | N0 Z1 | N0 A Z1 → SA A → N1 A | 1 | BN1 B → N0 B | 0 | N0 Z2 | N0 Z3 Z2 → SZ3 Z3 → BA S ′ → N1 A | 1 | BN1 | N0 Z1 | N0 A | ε N0 → 0 N1 → 1
6.3.2 Greibachova norma´lnı´ forma Definice 6.13 (Greibachova norma´lnı´ forma) Bezkontextova´ gramatika je v Greibachove´ho norma´lnı´ formeˇ (GNF), jestlizˇe kazˇde´ pravidlo z mnozˇiny P je v neˇktere´m z teˇchto tvaru˚:
✍
• A → aB1 B2 . . . Bn , n ≥ 0, A, B1 , B2 , . . . Bn ∈ N , a ∈ T , • S → ε, jestlizˇe S nenı´ na prave´ straneˇ zˇa´dne´ho pravidla. Veˇta 6.7 Ke kazˇde´ bezkontextove´ gramatice G existuje gramatika G′ v GNF takova´, zˇe L(G) = L(G′ ).
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY
66
Du˚kaz: 1. Prˇevedeme gramatiku do tvaru vlastnı´ gramatiky (nezkracujı´cı´, odstranı´me jednoducha´ pravidla), odstranı´me levou rekurzi. 2. V kazˇde´m pravidle za nejleveˇjsˇ´ı netermina´l dosazujeme vsˇechna jeho pravidla rekurzı´vneˇ tak dlouho, dokud rˇeteˇzec nezacˇ´ına´ termina´lem. 3. Termina´ly a, ktere´ nejsou na zacˇa´tku neˇktere´ho pravidla, nahradı´me pomocny´mi netermina´ly Na . 4. Prˇida´me pravidla Na → a. 2
Prˇı´klad 6.12 Pu˚vodnı´ gramatika G = ({E, F }, {(, ), +, i}, P, E) E →E+F |F F → (E) | i ´ prava 1: Odstraneˇnı´ leve´ rekurze U G′ = ({E, E ′ , F }, {(, ), +, i}, P ′ , E) E → F E′ | F E ′ → +F E ′ | + F F → (E) | i ´ prava 2: Odstraneˇnı´ jednoduchy´ch pravidel U G′′ = ({E, E ′ , F }, {(, ), +, i}, P ′′ , E) E → F E ′ | (E) | i E ′ → +F E ′ | + F F → (E) | i ´ prava 3: Rekurzivnı´ nahrazova´nı´ U G′′′ = ({E, E ′ , F }, {(, ), +, i}, P ′′′ , E) E → (E)E ′ | iE ′ | (E) | i E ′ → +F E ′ | + F F → (E) | i
KAPITOLA 6 BEZKONTEXTOVE´ JAZYKY ´ prava 4: Termina´ly U G′′′′ = ({E, E ′ , F, N) }, {(, ), +, i}, P ′′′′ , E) E → (EN) E ′ | iE ′ | (EN) | i E ′ → +F E ′ | + F F → (EN) | i N) →)
67