VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

ˇ ˇ VYSOKÉ UCENÍ TECHNICKÉ V BRNE BRNO UNIVERSITY OF TECHNOLOGY

ˇ FAKULTA INFORMACNÍCH TECHNOLOGIÍ ˇ ˇ ÚSTAV POCÍTACOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

DATABÁZE XML PRO SPRÁVU SLOVNÍKOVÝCH DAT

ˇ BAKALÁRSKÁ PRÁCE BACHELOR’S THESIS

AUTOR PRÁCE AUTHOR

BRNO 2008

MARTIN SKALICKÝ

ˇ ˇ VYSOKÉ UCENÍ TECHNICKÉ V BRNE BRNO UNIVERSITY OF TECHNOLOGY

ˇ FAKULTA INFORMACNÍCH TECHNOLOGIÍ ˇ ˇ ÚSTAV POCÍTA COVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

DATABÁZE XML PRO SPRÁVU SLOVNÍKOVÝCH DAT XML DATABASES FOR DICTIONARY DATA MANAGEMENT

ˇ BAKALÁRSKÁ PRÁCE BACHELOR’S THESIS

AUTOR PRÁCE

MARTIN SKALICKÝ

AUTHOR

VEDOUCÍ PRÁCE SUPERVISOR

BRNO 2008

doc. RNDr. PAVEL SMRŽ, Ph.D.

Abstrakt C´ılem praktické ˇca´sti této práce je pˇrevést nevalidn´ı pseudoXML data do validn´ıho XML a dále pak provádˇet pokroˇcilou validaci pomoc´ı Schematronu. Teoretická ˇca´st se t´ yká popisu znaˇckovac´ıho jazyka XML. Dále se vˇenuje ukázkám a popisu ˇ ast, kde je popsána implemendat a rozd´ıl˚ u standard˚ u OLIF, ISLE/MILE a dalˇs´ıch. C´ tace, vysvˇetluje problémy vzniklé pˇri pˇrevodu do standartu a postup práce. V závˇeru práce je vyhodnocen´ı statistik.

Kl´ıˇ cov´ a slova XML, slovn´ıky, OLIF, pˇrevody, Schematron, ISLE/MILE, DTD., TBX, Saxon, statistiky slovn´ıku, Python

Abstract This Bachelor’s thesis practical part’s main goal is transformation of invalid pseudoXML data into valid XML and use Schematron for advance validation. Teoretical part is about XML markup language. Next part ilustrates and describes data storing in OLIF, ISLE/MILE etc. standards and differences between them. Part, where the thesis concentrates on implementation, describes problems and work progress. Last part is about statistic evaluation.

Keywords XML, dictionary, OLIF, transformation, Schematron, ISLE/MILE, DTD., TBX, Saxon, dictionary statistics, Python

Citace Martin Skalick´ y: Databáze XML pro správu slovn´ıkov´ ych dat, bakaláˇrská práce, Brno, FIT VUT v Brnˇe, 2008

Datab´ aze XML pro spr´ avu slovn´ıkov´ ych dat Prohl´ aˇ sen´ı Prohlaˇsuji, ˇze jsem tuto bakaláˇrskou práci vypracoval samostatnˇe pod veden´ım pana doc. RNDr. Pavla Smrˇze Ph.D. Uvedl jsem vˇsechny literárn´ı prameny a publikace, ze kter´ ych jsem ˇcerpal. ...................... Martin Skalick´ y 13. kvˇetna 2008

Podˇ ekov´ an´ı Zde bych chtˇel podˇekovat vedouc´ımu mé bakaláˇrské práce doc. RNDr. Pavlu Smrˇzovi Ph.D. za urˇcován´ı smˇeru mé bakaláˇrské práce a odbornou pomoc pˇri jej´ı tvorbˇe.

c Martin Skalick´

y, 2008. Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokém uˇcen´ı technickém v Brnˇe, Fakultˇe informaˇcn´ıch technologi´ı. Práce je chránˇena autorským zákonem a jej´ı uˇzit´ı bez udˇelen´ı oprávnˇen´ı autorem je nezákonné, s výjimkou zákonem definovaných pˇr´ıpad˚ u.

Obsah ´ 1 Uvod

3

2 Znaˇ ckovac´ı jazyk XML ´ 2.1 Uvod do XML . . . . . . . . . . . . . . . 2.1.1 Jazyková podpora . . . . . . . . . 2.1.2 Obsah dokumentu XML . . . . . 2.1.3 Transformace a zobrazen´ı formátu 2.2 Syntaxe XML dokumentu . . . . . . . . 2.2.1 XML znaˇcky . . . . . . . . . . . 2.3 Parsován´ı XML . . . . . . . . . . . . . . 2.3.1 DOM . . . . . . . . . . . . . . . 2.3.2 SAX 1.0 . . . . . . . . . . . . . . 2.4 Struktura a validace dokumentu XML . 2.4.1 DTD . . . . . . . . . . . . . . . . 2.4.2 Schéma XML . . . . . . . . . . . 2.4.3 Relax NG . . . . . . . . . . . . . 2.4.4 Schematron . . . . . . . . . . . . 2.5 XSL transformace 1.0 . . . . . . . . . . . 2.5.1 Model zaloˇzen´ y na vzorech . . . . 2.5.2 Proceduráln´ı model . . . . . . . 2.5.3 Deklarativn´ı model . . . . . . . . 2.6 Adresace v XML . . . . . . . . . . . . .

. . . . . . . . . . . . XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Slovn´ıkov´ e datab´ aze 3.1 TBX . . . . . . . . . . . . . . . . . . . . . . 3.2 OLIF . . . . . . . . . . . . . . . . . . . . . 3.2.1 Historie OLIFu . . . . . . . . . . . . 3.2.2 Metamodel standardu OLIF . . . . . 3.2.3 Dokument XML ve standardu OLIF 3.3 Dalˇs´ı standardy . . . . . . . . . . . . . . . . 3.3.1 ISLE/MILE . . . . . . . . . . . . . . 3.3.2 XLIFF . . . . . . . . . . . . . . . . .

1

. . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

. . . . . . . .

. . . . . . . . . . . . . . . . . . .

4 4 4 4 5 5 5 5 6 7 7 7 8 8 9 9 10 10 11 12

. . . . . . . .

13 13 17 17 17 18 22 22 25

4 Implementace 4.1 Vstupn´ı data . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Statistiky ze vstupn´ıch dat . . . . . . . . . . . 4.2 Parser pro pˇrevod dat do OLIFu . . . . . . . . . . . . 4.3 Schematron pro validaci v´ ysledného XML dokumentu 4.3.1 Programy pro spuˇstˇen´ı schematronu . . . . . . 4.3.2 Pˇredpis schematronu pro validaci . . . . . . . 4.4 Problémy pˇri implementaci a moˇznosti ˇreˇsen´ı . . . . .

. . . . . . .

26 26 27 28 29 29 30 32

5 Statistiky 5.1 Implementace skriptu pro z´ıskán´ı statistik . . . . . . . . . . . . . . . 5.2 V´ ysledné statistiky . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34 34 34

6 Z´ avˇ er

37

A Pˇ r´ılohy bakal´ aˇ rsk´ e pr´ ace

40

2

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

Kapitola 1 ´ Uvod Tato bakaláˇrská práce se t´ yká databáz´ı ve formátu XML pro správu slovn´ıkov´ ych dat a je rozdˇelena na teoretickou a prakticou ˇcást. Teoretická ˇca´st práce se zamˇeˇruje na slovn´ıky, které jsou nejˇcastˇeji v kniˇzn´ı podobˇe a proto je potˇreba ˇreˇsit jejich uchováván´ı v univerzáln´ım a dostupném formátu. Vhodné podm´ınky pro ukládán´ı tˇechto informac´ı poskytuje znaˇckovac´ı jazyk XML, kter´ y je bl´ıˇze popsán v 2. kapitole práce. V tomto jazyce existuj´ı standardy pro ukládán´ı slovn´ıkov´ ych dat, jejich popisu a rozd´ıl˚ u mezi nˇemi se vˇenuji v kapitole (3). Mezi takovéto standardy patˇr´ı napˇr´ıklad OLIF (3.2. kapitola), TBX(3.1. kapitola) a dalˇs´ı (3.3. kapitola). Praktická ˇcást práce je implementace parseru v jazyce Python, jehoˇz popis se nacház´ı ve 4. kapitole. V této kapitole je vysvˇetlen postup pro pˇrevod nestandardn´ıho a nevalidn´ıho pseudoXML do standardu OLIF a problémy, které se pˇri pˇrevodu vyskytly. Praktická ˇcást se zab´ yvá také pokroˇcilé validace dokumentu XML ve standardu OLIF, kter´ y jsem si vybral jako reprezentaci pˇreveden´ ych dat, pomoc´ı Schematronu (viz 4.3) a javovského programu saxon. 5. kapitola obsahuje popis z´ıskáván´ı statistik za pomoci jazyku Python a parseru sax ze slovn´ıku ve formátu OLIF a také nˇekteré z´ıskané statistiky z v´ ysledného pˇrevedeného slovn´ıku.

3

Kapitola 2 Znaˇ ckovac´ı jazyk XML XML (eXtensible Markup Language, ˇcesky rozˇsiˇriteln´ y znaˇckovac´ı jazyk)[1] je znaˇckovac´ı jazyk, kter´ y byl vyvinut a standardizován konsorciem W3C. I kdyˇz se o XML mluv´ı pˇredevˇs´ım v souvislosti s webov´ ymi aplikacemi (nástupce HTML)[9], je jeho rozˇs´ıˇren´ı daleko vˇetˇs´ı. D´ıky tomu, ˇze umoˇzn ˇuje popsat strukturu dokumentu z hlediska vˇecného obsahu i jednotliv´ ych ˇca´st´ı, pouˇz´ıvá se napˇr. pro ukládán´ı dat, v´ ymˇenu informac´ı mezi aplikacemi, tvorbˇe technické dokumentace atd.

2.1

´ Uvod do XML

Specifikace jazyku XML je zdarma dostupná kaˇzdému, a to na stránkách konzorcia W3C. V minulosti se pouˇz´ıvalo mnoho r˚ uzn´ ych formát˚ u pro uchováván´ı informac´ı (napˇr. DOC, XLS nebo PPT), které potˇrebovaly pro korektn´ı zobrazen´ı obsaˇzen´ ych dat speciáln´ı software od r˚ uzn´ ych distributor˚ u. Dnes jiˇz tento zp˚ usob nen´ı vhodn´ y, protoˇze mnoho firem a uˇzivatel˚ u pouˇz´ıvá odliˇsné operaˇcn´ı a informaˇcn´ı systémy a nen´ı jisté, zda kaˇzd´ y vlastn´ı pˇr´ısluˇsné aplikace. Vzniká tedy potˇreba univerzáln´ıho, jednoduchého a volnˇe pˇr´ıstupného formátu pro uchováván´ı dat. A pˇresnˇe pro tento u ´ˇcel je vhodné XML.

2.1.1

Jazykov´ a podpora

V´ yhodou XML je jiˇz od poˇca´tku podpora r˚ uzn´ ych svˇetov´ ych jazyk˚ u a znakov´ ych sad (implicitnˇe je to ISO 10646). V jednom XML dokumentu m˚ uˇzeme m´ıt texty v r˚ uzn´ ych jazyc´ıch. Explicitnˇe se m˚ uˇze pouˇz´ıvat i jiné kódován´ı napˇr. utf8, windows1250, iso-8859-2 atd. Informace o zvoleném kódován´ı mus´ı b´ yt v kaˇzdém dokumentu pˇresnˇe urˇcena.

2.1.2

Obsah dokumentu XML

V´ yznam jednotliv´ ych ˇca´st´ı dokumentu, napsaného pomoc´ı XML, urˇcuj´ı pouˇzité tagy (znaˇcky). Takto napsan´ y dokument obsahuje v´ıce informac´ı neˇz dokument, kter´ y nese 4

jeˇstˇe nav´ıc prvky vzhledu dokumentu, jako napˇr. vzhled p´ısma, odsazen´ı, rozloˇzen´ı a podobnˇe. XML nemá ˇzádné prostˇredky pro urˇcen´ı vlastn´ıho vzhledu a o definici vzhledu se stará nˇekolik stylov´ ych jazyk˚ u. Tyto jazyky urˇcuj´ı, jak se maj´ı jednotlivé elementy zobrazit.

2.1.3

Transformace a zobrazen´ı form´ atu XML

Jeden styl (viz kapitola 2.1.2) m˚ uˇzeme pouˇz´ıvat na dokumenty stejného typu, stejnˇe tak je moˇznost pro jeden dokument urˇcit v´ıce r˚ uzn´ ych styl˚ u. Existuje nˇekolik stylov´ ych jazyk˚ u. D´ıky vyuˇzit´ı ve webov´ ych aplikac´ıch patˇr´ı mezi nejznámˇejˇs´ı kaskádové styly (CSS). Ale lze je pouˇz´ıt pouze pro jednoduché formátován´ı dokumentu, které slouˇz´ı k zobrazen´ı dokumentu na obrazovce. Moˇznost´ı pˇrevodu formátu XML do jiného formátu je rodina jazyk˚ u XSL (eXtensible Stylesheet Language) (bl´ıˇze v kapitole 2.5). Umoˇzn ˇuje dokument r˚ uznˇe upravit a transformovat. V´ ysledkem m˚ uˇze b´ yt HTML kód, PostScriptov´ y soubor, zdrojov´ y kód pro TEX a dalˇs´ı.

2.2 2.2.1

Syntaxe XML dokumentu XML znaˇ cky

Samotné XML neobsahuje pˇreddefinované znaˇcky (elementy, tagy), které tvoˇr´ı vˇetˇsinu obsahu XML. Proto je tˇreba vytvoˇrit vlastn´ı elementy, jeˇz budou popisovat a omezovat logické struktury dokumentu. Mohou obsahovat atributy, které dále popisuj´ı element (viz pˇr´ıklad 1). Pˇ r´ıklad 1 jednoduch´ y zápis element˚ u v XML 2.2.1 <Jmeno>Martin Skalick´ y 15.04.1986

Pro kontrolu správnosti takového XML dokumentu slouˇz´ı parsery (kapitola 2.3) a validátory (kapitola 2.4).

2.3

Parsov´ an´ı XML

Kdyˇz potˇrebujeme pracovat s XML dokumenty, tak nen´ı nutné psát vlastn´ı analyzátor. Pro tento u ´ˇcel m˚ uˇzeme vyuˇz´ıt nˇekteré z jiˇz existuj´ıc´ıch parser˚ u, napˇr. SAX (kapitola 2.3.2) nebo DOM (kapitola 2.3.1). Samotn´ y XML parser je program nebo programátorská knihovna, která se stará o naˇcten´ı, n´ızko´ urovˇ novou syntaktickou anal´ yzu XML dokumentu a jeho pˇrevod do infosetu. Infoset[20] popisuje informace, 5

jeˇz lze z´ıskat (o uzlu, elementu, dokumentu, atributu a dalˇs´ı). Pˇri parsován´ı XML dokumentu se vyuˇz´ıvaj´ı dva hlavn´ı pˇr´ıstupy. Prvn´ım je událostmi ˇr´ızené zpracován´ı XML dokumentu. Tento zp˚ usob má dvˇe velké v´ yhody: • je rychl´ y • má malé pamˇet’ové nároky. Naopak nev´ yhodou z˚ ustává nutnost zpracovat XML dokument bˇehem jednoho sekvenˇcn´ıho pr˚ uchodu. Druh´ y pˇr´ıstup ke zpracován´ı XML dokumentu pˇredstavuje pˇr´ıstup zaloˇzen´ y na stromové reprezentaci dokumentu. Pˇri tomto zp˚ usobu m˚ uˇze - po naˇcten´ı celého XML dokumentu (zaplat´ıme za to niˇzˇs´ı rychlost´ı a velkou pamˇet’ovou nároˇcnost´ı) - programátor kdykoliv pˇristupovat k libovolné ˇca´sti XML dokumentu. Kaˇzd´ y objekt odpov´ıdá jednomu uzlu ve stromu XML dokumentu a nab´ız´ı metody pro zjiˇstˇen´ı svého typu a hodnoty sv´ ych potomk˚ u a rodiˇc˚ u.

2.3.1

DOM

Nejznámˇejˇs´ım rozhran´ım zaloˇzen´ ym na stromové reprezentaci XML dokumentu (viz kapitola 2.3.1) je DOM (Document Object Model)[19], kter´ y definuje standard pro pˇr´ıstup a práci s XML dokumenty. Tento standard vytvoˇrilo konsorcium W3C a je zcela nezávislé na pouˇz´ıvaném programovac´ım jazyku. XML dokument je reprezentován objekty, jeˇz zastupuj´ı jednotlivé prvky XML dokumentu (elementy, atributy, textov´ y obsah atd.). Tyto objekty nab´ız´ı metody pro zjiˇstˇen´ı sv´ ych vlastnost´ı (typ, hodnota, rodiˇce, potomci a dalˇs´ı).

Obrázek 2.1: Ukázka stromové struktury DOM

6

Strom dokumentu lze procházet libovolnˇe a opakovanˇe, d´ıky ˇcemuˇz je zpracován´ı XML dokumentu velmi jednoduché.

2.3.2

SAX 1.0

Asi nejznámˇejˇs´ı rozhran´ı pouˇz´ıvaj´ıc´ı událostmi ˇr´ızen´ y pˇr´ıstup je SAX[12] (Simple API for XML). SAX nen´ı standard W3C, ale vytvoˇrila ho skupina lid´ı kolem konference XML-DEV. P˚ uvodn´ı návrh SAXu je pro programovac´ı jazyk Java, ale jeho implementace se rozˇs´ıˇrila pro mnoho dalˇs´ıch jazyk˚ u napˇr´ıklad Python. Oproti pˇr´ıstupu DOM je SAX vhodnˇejˇs´ı na velké dokumenty, protoˇze je nemus´ı ukládat v pamˇeti. Jeho pomoc´ı se m˚ uˇzeme zamˇeˇrit pouze na ˇcást dokumentu, se kterou potˇrebujeme pracovat a vytvoˇrit si ji jako strom. Nev´ yhody SAXu spoˇc´ıvaj´ı v tom, ˇze si nem˚ uˇzeme dokument upravit a nelze se vrátit na jiˇz zpracovaná data.

2.4

Struktura a validace dokumentu XML

Jazyk XML dovoluje vytváˇren´ı vlastn´ıch znaˇcek (tag˚ u), a proto také nastává potˇreba popsat strukturu dokumentu XML. K tomuto u ´ˇcelu slouˇz´ı schémata. V takovém schématu pak bude popsáno, jak bude vypadat struktura a omezen´ı naˇseho nového znaˇckovac´ıho jazyku. V´ yhoda formalizované specifikace je v tom, ˇze znemoˇzn ˇuje r˚ uzné interpretace v´ yznamu poloˇzek. Schéma jednoznaˇcnˇe definuje, jak má XML dokument vypadat a proto ho lze vyuˇz´ıt pro validaci (ovˇeˇren´ı správnosti), coˇz je hlavn´ı pouˇzit´ı schémat. Validace je proces, pˇri kterém je ovˇeˇrena správnost dodrˇzen´ı popisu schématu. Tato vlastnost se hod´ı, kdyˇz si potˇrebujeme ovˇeˇrit, jestli je dokument, kter´ y nám poslal kolega, v dohodnutém formátu. Validace ulehˇcuje práci i aplikac´ım, které nemus´ı provádˇet kontrolu poˇzadovaného dokumentu. O tento u ´kol se stará právˇe validace. Nˇekteré jazyky pro popis schématu dokumentu dokonce umoˇzn ˇuj´ı urˇcit poˇzadovan´ y typ dat jednotliv´ ych element˚ u a atribut˚ u, jako ˇretˇezec, ˇc´ıslo, datum a dalˇs´ı. Bˇehem validace se pak jednotliv´ ym ˇcástem pˇriˇrazuje jejich datov´ y typ, coˇz je v´ yhodné, protoˇze aplikace pak nepracuje jenom s ˇretˇezci (jak je bˇeˇzná praxe), ale s urˇcen´ ymi datov´ ymi typy.

2.4.1

DTD

DTD (Document Type Definition)[18] je starˇs´ı a podporováno mnoˇzstv´ım aplikac´ı. Pokud je specifikováno DTD, je moˇzné automaticky kontrolovat, jestli je XML podle jeho pˇredpisu. Tuto práci provád´ı parser (viz pˇr´ıklad 2.3). DTD nen´ı jedin´ ym definiˇcn´ım jazykem pro XML. Jeho nev´ yhodou je, ˇze nepodporuje moˇznost kontroly typu dat (ˇc´ısla, mˇenové u ´daje, datum a ˇcas) a má prakticky nulovou podporu jmenn´ ych prostor˚ u (umoˇzn ˇuje jednoznaˇcnou indentifikaci element˚ u) viz pˇr´ıklad 2.

7

Pˇ r´ıklad 2 velice jednoduché DTD 2.4.1 ]>

Pomoc´ı DTD byla vytvoˇrena r˚ uzná schémata, která definuj´ı znaˇcky (názvy element˚ u) pro konkrétn´ı typy dokument˚ u. Pˇr´ıkladem m˚ uˇze b´ yt starˇs´ı verze slovn´ıku OLIF, kter´ y definuje struktury pro ukládán´ı slov´ıkov´ ych dat. K nˇekter´ ym schémat˚ um jsou dodávany i XSL soubory pro dalˇs´ı zpracováván´ı dat. Dalˇs´ı vlastnost´ı XML je, ˇze v jednom dokumentu m˚ uˇzeme pouˇz´ıvat najednou nezávisle na sobˇe nˇekolik druh˚ u znaˇckovan´ı pomoc´ı jmenn´ ych prostor˚ u (namespaces). To umoˇzn ˇuje kombinovat v jednom dokument˚ u nˇekolik r˚ uzn´ ych definic ve formˇe DTD nebo schémat bez konflikt˚ u v pojmenován´ı element˚ u.

2.4.2

Sch´ ema XML

Kvalitnˇejˇs´ı moˇznost´ı popisu schéma XML dokumentu je XML schéma (XML Schema Definition (XSD)), které uˇz umoˇzn ˇuje pro jednotlivé elementy definovat jejich datov´ y typ a je celé zapsáno syntax´ı XML. Sloˇzité XSD soubory nen´ı vˇsak pˇr´ıliˇs dobré tvoˇrit jinak neˇz za pomoci specializovan´ ych editor˚ u schémat. XML schéma definuje: • M´ısta v dokumentu, na kter´ ych se mohou vyskytovat r˚ uzné elementy. • Které elementy jsou potomky jin´ ych element˚ u. • Atributy, jejich datové typy a hodnoty. • Poˇrad´ı, poˇcty, datové typy a hodnoty element˚ u. • Zda element m˚ uˇze b´ yt prázdn´ y, nebo zda mus´ı obsahovat text.

2.4.3

Relax NG

Navrhnut´ y sdruˇzen´ım OASIS (The Organization for the Advancement of Structured Information Standards) je v dneˇsn´ı dobˇe ISO standardem. Je postaven´ y na základech jazyk˚ u RELAX a TREX. • RELAX (Regular Language for XML, Description XML) - jednoduch´ y jazyk zaloˇzen´ y na matematické teorii alejov´ ych automat˚ u aplikovanou XML stromy. • TREX je jazyk pro validaci XML dokument˚ u.

8

Relax NG (REgular LAnguage for XML Next Generation) [15] je momentálnˇe obl´ıbenˇejˇs´ı a kvalitnˇejˇs´ı [2] podporou pro psan´ı schémat XML dokumentu. Relax NG je zaloˇzen na vzorech a ne na datov´ ych typech jako tˇreba XSD. To znamená, ˇze celé schéma je vzorem dokumentu, kter´ y se skládá ze vzor˚ u pro elemety, atributy a textové uzly. Vlastnosti vzor˚ u: • Mohou b´ yt dále kombinovány do uspoˇrádan´ ych i neuspoˇrádan´ ych skupin. • Mohou b´ yt volitelné a m˚ uˇze u nich b´ yt urˇcen poˇcet opakován´ı. D´ıky tˇemto vlastnostem a solidn´ımu matematickému základu m˚ uˇzeme snadno a pˇrehlednˇe popsat i sloˇzité struktury dokumentu. Dalˇs´ı vlastnost´ı, jeˇz dˇelá Relax NG jeˇstˇe o nˇeco lepˇs´ı, je zápis schématu v textové syntaxi, která je u ´spornˇejˇs´ı neˇz zápis zaloˇzen´ y na XML, kter´ y lze pro zápis také pouˇz´ıt. Relax NG samo o sobˇe nepodporuje datové typy a pro jejich doplnˇen´ı je potˇreba vyuˇz´ıt rozˇs´ıˇren´ı.

2.4.4

Schematron

V´ yˇse zm´ınˇená schémata zvládaj´ı validaci XML dokumentu, ale jejich hlavn´ı ˇcinnost´ı je popis struktury dokumentu XML. Jazyk Schematron je zaloˇzen na zcela odliˇsném principu. Jeho pomoc´ı lze zjistit pˇr´ıtomnost nebo absenci urˇcit´ ych vzor˚ u v dokumentu. K zápisu vzor˚ u pro kontrolu dokumentu XML se vyuˇz´ıvá jazyku XPath (viz 2.6). D´ıky spojen´ı Schematronu a XPathu, kdy z´ıskáváme jeho silné vyjadˇrovac´ı prostˇredky, nám pro validaci staˇc´ı XSLT procesor, protoˇze schematronové schéma lze pˇrevést na XSLT transformaci. Struktura schéma je velice jednoduchá. Elementy schematronu patˇr´ı do jmenného prostoru http://purl.oclc.org/dsdl/schematron. Koˇrenov´ y element schema, stejnˇe jako ostatn´ı elementy, obsahuje nˇekolik vzor˚ u pattern. Kaˇzd´ y vzor je sloˇzen z jednoho nebo v´ıce pravidel rule, které maj´ı v atributu context vzor zapsan´ y v jazyce XPath, kter´ y ze vstupn´ıho dokumentu vybere uzly, jeˇz se chápou jako aktuáln´ı uzly pro vyhodnocen´ı XPath v´ yraz˚ u uvnitˇr pravidla. V pravidle se pak pouˇz´ıvaj´ı elementy assert report, které maj´ı pˇripojen atribut test obsahuj´ıc´ı XPath v´ yraz. • Assert - ovˇeˇruje nesplnˇen´ı zadan´ ych podm´ınek (napˇr. neexistuje urˇcit´ y záznam, takˇze vyp´ıˇse hláˇsen´ı). • Report - ovˇeˇruje splnˇen´ı zadané podm´ınky (napˇr. elementy obsahuj´ı souˇcet, vyˇsˇs´ı neˇz je u ńosné). Uvnitˇr textu validaˇcn´ıho hláˇsen´ı m˚ uˇzeme pouˇz´ıvat dalˇs´ı elementy.

2.5

XSL transformace 1.0

XSL je jazyk zaloˇzen´ y na XML, kter´ y slouˇz´ı k pˇrevodu XML dokument˚ u na dokumenty jiného typu nebo stejného typu, kdyˇz je potˇreba odstranit nekompatibilitu 9

napˇr. mezi verzemi návrh˚ u XML dokument˚ u. XSLT [14] nab´ız´ı tˇri odliˇsné modely programován´ı: Model zaloˇzen´ y na vzorech, proceduráln´ı model a deklarativn´ı model.

2.5.1

Model zaloˇ zen´ y na vzorech

Tento model je nejjednoduˇsˇs´ı a umoˇzn ˇuje vz´ıt ˇsablonu XML dokumentu a naplnit ji XSLT v´ yrazy, které dále dynamicky napln´ı pˇr´ısluˇsná m´ısta dokumentu odpov´ıdaj´ıc´ım obsahem. Aby byl tento model pouˇziteln´ y pro náˇs uˇcel tak mus´ı: 1. B´ yt dobˇre strukturovan´ y XML dokument. 2. B´ yt specifikováno ˇc´ıslo verze XSLT (napˇr. xslt:version=’1.0’). Tato transformace odpov´ıdá situaci, kdy máme jednu ˇsablonu, která obsahuje cel´ y vzorov´ y dokument jako v´ ysledn´ y element viz pˇr´ıklad 3 Pˇ r´ıklad 3 pˇrevod do HTML pomoc´ı modelu zaloˇzeného na vzorech 2.5.1
<xsl:value-of select="concat(/v1:zam/krestniJmeno, ’ ’, /v1:zam/prijmeni)"/>

<xsl:value-of select=’/v1:zam/pozice’/>

2.5.2

Procedur´ aln´ı model

ˇ XSLT také umoˇzn ˇuje oddˇelit a zobecnit transformaˇcn´ı logiku od ˇsablony. Sablony mohou b´ yt volány jako funkce stejnˇe jako v proceduráln´ıch programovac´ıch jazyc´ıch (viz pˇr´ıklad 4)

10

Pˇ r´ıklad 4 zápis Proceduráln´ıho modelu 2.5.2 <xsl:transform xmlns:v1=’urn:zamestnanec:v1’ xmlns:v2=’urn:zamestnanec:v2’ xmlns:xsl=’http://www.w3.org/1999/XSL/Transform’ version=’1.0’> <xsl:template name="vytvorJmeno"> <jmeno> <xsl:value-of select="concat(/v1:zam/krestni, ’ ’, /v1:zam/prijmeni)" /> <xsl:template match="/"> <xsl:call-template name="vytvorJmeno"/>

2.5.3

Deklarativn´ı model

XSLT nab´ız´ı siln´ y a pruˇzn´ y model, kter´ y je podobn´ y deklarativn´ım jazyk˚ um jako Prolog, Lisp a Scheme. Tento model je zaloˇzen na asociaci ˇsablon se vzory ˇci pravidly. Pˇri provádˇen´ı transformace procesor nejdˇr´ıve vyhledá ˇsablonu se vzorem odpov´ıdaj´ıc´ım koˇreni vstupn´ıho stromu. Uvnitˇr ˇsablony si uˇz m˚ uˇzeme samy urˇcit uzly, kter´ ymi bude procesor procházet. XSLT definuje nˇekolik vestavˇen´ ych ˇsablon, které jsou souˇca´st´ı kaˇzdého programu (pokud nejsou explicitnˇe pˇrekryty). Tyto ˇsablony maj´ı na programovac´ı model hlubok´ y u ´ˇcinek. Vestavˇená ˇsablona apply-templates ˇr´ıká, aby zpracován´ı pokraˇcovalo na vˇsech dˇetsk´ ych uzlech. Deklarativn´ı model umoˇzn ˇuje rozdˇelit transformaˇcn´ı logiku do v´ıce modul˚ u. V´ yvojáˇr se dále nemus´ı zab´ yvat t´ım, kdy a jak je ˇsablona volána, staˇc´ı deklarovat, ˇze daná ˇsablona se volá pro konkrétn´ı uzel. S t´ımto pˇr´ıstupem se dá snadno vytvoˇrit program pro transformaci extrémnˇe sloˇzit´ ych dokument˚ u (pˇr´ıklad jednoduchého dokumentu viz 5).

11

Pˇ r´ıklad 5 zápis Deklarativn´ıho modelu 2.5.3 <xsl:transform xmlns:v1=’urn:zamestnanec:v1’ xmlns:v2=’urn:zamestnanec:v2’ xmlns:xsl=’http://www.w3.org/1999/XSL/Transform’ version=’1.0’> <xsl:template match="text()|@*" /> <xsl:template match="pozice"> <xsl:value-of select="." /> <xsl:template match="krestni"> <jmeno> <xsl:value-of select="concat(., ’ ’, following-sibling::prijmeni)" /> <xsl:template match="v1:zam"> <xsl:apply-templates select="*"/>

Pˇrestoˇze transformace zaloˇzené na vzorech dovoluj´ı v´ ystup pouze ve formátu XML (pˇr´ıpadnˇe správnˇe strukturovaném HTML), zbylé dva pˇr´ıstupy umoˇzn ˇuj´ı v´ ystup v XML, HTML nebo prostém textu.

2.6

Adresace v XML

XML stejnˇe jako HTML umoˇzn ˇuje vytváˇren´ı odkaz˚ u v rámci jednoho dokumentu i mezi dokumenty, má vˇsak v´ıce moˇznost´ı. Je moˇzné vytváˇret i v´ıcesmˇerné odkazy, které spojuj´ı v´ıce dokument˚ u dohromady. Tvorba odkaz˚ u je popsána ve tˇrech standardech – XLink, XPointer a XPath. • XPath (XML Path Language) je jazyk, kter´ y vyhodnot´ı v´ yrazy podle stromu XML dokumentu a vrát´ı odpov´ıdaj´ıc´ı uzly (elementy, atributy atd.). • XPointer (XML Pointer Language), je rozˇs´ıˇren´ım XPath. Nen´ı nutné ˇcásti dokumentu, na které chceme odkazovat, explicitnˇe oznaˇcovat pomoc´ı návˇest´ı jako v HTML. • XLink (XML Linking Language) je samotn´ y jazyk pro tvorbu odkaz˚ u. Jednotlivé dokumenty se urˇcuj´ı pomoc´ı jejich URL adresy, za kterou lze uvést jeˇstˇe XPointer pro pˇresnˇejˇs´ı urˇcen´ı ˇcásti dokumentu.

12

Kapitola 3 Slovn´ıkov´ e datab´ aze Slovn´ık [21] je nejv´ yznamnˇejˇs´ım, vˇetˇsinou abecednˇe ˇrazen´ ym zdrojem informac´ı o slovn´ı zásobˇe jazyka. Slovn´ıky vysvˇetluj´ı slova z v´ıce hledisek. Lexikografie je lingvistická discipl´ına zab´ yvaj´ıc´ı se sestavován´ım slovn´ık˚ u. Slovn´ıky se vyskytuj´ı tradiˇcnˇe v kniˇzn´ı podobˇe, z ˇcehoˇz vypl´ yvá, ˇze data v nich uloˇzená nejsou pˇr´ımo urˇcena pro poˇc´ıtaˇcové aplikace. S v´ yvojem informatiky se vˇsak objevuj´ı i digitáln´ı slovn´ıky, dostupné na CD nebo na internetu. Podle typu dˇel´ıme slovn´ıky na: • V´ ykladové (jednojazyˇcné) - jsou napsány celé v jednom jazyce, u kaˇzdého slova lze nalézt informace ve stejném jazyku. • Souˇcasného jazyka (v´ yznamové, pravopisné, frazeologické, slovn´ıky synonym, slovn´ıky ciz´ıch slov atd.). • Jednotliv´ ych historick´ ych obdob´ı a slovn´ıky etymologické. • Popisuj´ıc´ı slovn´ı zásobu profesn´ıch skupin (napˇr. Filosofick´ y slovn´ık, Defektologick´ y slovn´ık, Biblick´ y slovn´ık apod.). • Speciáln´ı (retrográdn´ı, frekvenˇcn´ı, valenˇcn´ı atd.). • Pˇrekladové (v´ıcejazyˇcné). Poˇcet slov ve slovn´ıc´ıch se pohybuje mezi 10 000 - 60 000 hesel. A kaˇzd´ y v´ı jak zdlouhavé m˚ uˇze b´ yt nalézt poˇzadovanou informaci ve velkém kniˇzn´ım slovn´ıku. Proto je v´ yhodnˇejˇs´ı pouˇz´ıvat aplikace, které pracuj´ı se slovn´ıkov´ ymi databázemi, vyhledávaj´ıc´ı automaticky poˇzadované informace. Pro takovou databázi m˚ uˇze b´ yt velice dobˇre pouˇziteln´ y právˇe dokument XML. N´ıˇze budou popsány nˇekteré osvˇedˇcené standardy pro uchováván´ı slovn´ıkov´ ych dat.

3.1

TBX

TBX(Term Base eXchange) [5] je jeden z prvn´ıch standard˚ u pro ukládán´ı slovn´ıkov´ ych dat ve formátu XML a proto si zaslouˇz´ı alespoˇ n krátk´ y popis. TBX popisuje terminologická slovn´ıková hesla, která jsou zaloˇzená na rozd´ılech mezi pojmy (v´ yznamové 13

jednotky) a term´ıny (urˇcuj´ı vstupy v r˚ uzn´ ych jazyc´ıch) [16]. Rozd´ıl mezi pojmy a term´ıny je základn´ım prvkem architektury TBX. Terminologická hesla jsou uspoˇrádána v pojmy, které jsou základn´ımi v´ yznamov´ ymi jednotkami a m˚ uˇzou obsahovat globáln´ı atributy jako oblast znalost´ı, pˇr´ıbuzné pojmy, definice, pˇr´ıklady, vzorové vˇety atd. Poté m˚ uˇzou b´ yt popsány jazykovˇe pˇr´ıbuzn´ ym pojmenován´ım skupin informac´ı o term´ınu ohraniˇcuj´ıc´ım jednotlivé term´ıny. Zápis v´ yrazového pojmu je ukázán na obrázku 3.1.

Obrázek 3.1: Ukázka v´ yrazového vstupu TBX V´ yrazové pojmy tvoˇr´ı jádro TBX dokumentu, kter´ y je zároveˇ n XML dokumentem, obsahuj´ıc´ıho následuj´ıc´ı sloˇzky: • Hlaviˇcku - popisuje dokument poskytnut´ım nˇekter´ ych obecn´ ych a administrativn´ıch informac´ı (obsah, status validace, kontakt, kódován´ı, revize a dalˇs´ı). • Tˇelo - obsahuje sadu vstup˚ u, jeden vstup na pojem z databáze. Tˇelo m˚ uˇze m´ıt u ´vodn´ı a závˇereˇcné elementy. Popis element˚ u a jejich atribut˚ u v pˇr´ıkladu jednoduchého dokumentu TBX: 6. pˇr´ıklad: •
14

• <martifHeader: Obsahuje obecné informace o kolekci: Popis souboru (fileDesc element), kter´ y ˇr´ıká, ˇze pˇr´ıklad je odvozen´ y ze záznamu v Oraclu. TBX XCS viz v´ yˇse. • : V´ yznam elementu text, do kterého náleˇz´ı element body, je kompatibilita s Text Encoding Initiative guidelines [7]. Element body obsahuje kolekce pojmovˇe orientovan´ ych ”Terminologick´ ych záznam˚ u” . • : Urˇcuje do jakého jazyku náleˇz´ı následuj´ıc´ı terminologick´ y záznam. • : Obashuje term´ın ve v´ yˇse uˇceném jazyce. Atribut id urˇcuje: [indentifik´ ator z´ aznamu] + jméno databáze [Oracle] + sériové ˇc´ıslo záznamu (67) + jazykov´ y kód. • : Uzavˇren´ı elementu tig. • : Uzavˇren´ı anglické sekce langSet. • : Tady zaˇc´ıná mad’arská sekce pˇrekladu slova. • : Obashuje mad’arsk´ y term´ın pro v´ yˇse uveden´ y anglick´ y term´ın. Protoˇze nˇekteré mad’arské znaky nejsou podle standardu ISO 646, tak je záznam reprezentován nˇekolika Unikódov´ ymi hexa znaky. Správn´ y mad’arsk´ y v´ yraz je pak: ”Alfa sim´ıtási tényezõ”. • : Konec mad’arské jazykové sekce. • : Konec v´ yrazové sekce. • : Ukonˇcuj´ıc´ı tag pro terminologické záznamy, které v naˇsem pˇr´ıpadˇe obsahovalo pouze jeden vstup. • : Konec TBX dokumentu.

15

Pˇ r´ıklad 6 zápis jednoduchého XML dokumentu podle standardu TBX 3.1 <martif type=’TBX’ xml:lang=’en’> <martifHeader> <sourceDesc> ’
from an Oracle corporation termBase
’ <encodingDesc>
TBXmasterXCSV01.XML
<descrip type=’subjectField’>manufacturing <descrip type=’definition’>A value between 0 and 1 used in ... alpha smoothing factor fullForm Alfa simítási tényezõ

V dobˇe, kdy se zaˇcalo pracovat na v´ ymˇenném formátu pro strojové pˇrekladové slovn´ıky, bylo zˇrejmé, ˇze TBX formát nebude schopen uspokojit poˇzadavky pro tákové slovn´ıky. Pˇri v´ ymˇenˇe informac´ı strojov´ ych pˇreklad˚ u hledáme odpovˇedi na tˇri základn´ı otázky: 1. Jaké záznamy vymˇen ˇujeme? 2. Jak m˚ uˇze b´ yt popis jednotlivého záznamu vysvˇetlen? 3. Jak jsou mezi záznamy popsány vztahy? Proˇc tedy nen´ı TBX vhodné? 16

• Nen´ı uspokojen poˇzadavek na jazykovou v´ ymˇenu, protoˇze jsou vysvˇetleny jenom nˇekteré popisy slov jako slovn´ı druh, rod, ˇc´ıslo. Ve standardu TBX také nen´ı ˇzádná pˇredstava o skloˇ nován´ı, syntaktick´ ych typech, v´ yznamov´ ych rysech atd., které jsou základn´ı vlastnost´ı vymˇeny strojov´ ych pˇreklad˚ u. • Nen´ı jasné uspoˇrádán´ı jazykov´ ych popis˚ u. Nˇekteré jsou spojeny s pojmovou u ´rovn´ı (jako definice, pˇr´ıklady, vzahy) a dalˇs´ı jsou souˇca´st´ı slovn´ıho druhu spojeného s term´ınovou u ´rovn´ı. Z toho vypl´ yvá nezbytná potˇreba definován´ı základn´ıch popis˚ u (atributy a jejich platné hodnoty) pro lingvistické informace.

3.2 3.2.1

OLIF Historie OLIFu

Následn´ıkem standardu TBX se stal OLIF[3] (Open Lexicon Interchange Format), kter´ y odstraˇ nuje nedostatky a doplˇ nuje pravidla, se kter´ ymi se ve standardu TBX nepoˇc´ıtalo. OLIF je otevˇren´ y slovn´ıkov´ y v´ ymˇenn´ y formát a nejdˇr´ıve byl definován v EC projektu OTELO. P˚ uvodnˇe bylo zam´ yˇsleno zpˇr´ıstupnit v´ ymˇenu sad strojov´ ych pˇrekladov´ ych (dále jen SP) záznam˚ u mezi SP automaty a uˇzivateli. Jedn´ım z d˚ uvod˚ u bylo poskytnout v´ yrazová data pro SP systémy jako Logos nebo METAL, coˇz zahrnovalo samotn´ y v´ ymˇenn´ y formát a pˇrevodn´ıky z/do OLIFu poskytované SP automaty. Pozdˇejˇs´ı verze v´ ymˇenn´ ych formát˚ u byly vyvinuty konzorciem OLIF za u ´ˇcasti hlavn´ıch SP poskytovatel˚ u (Systran, Logos, SailLabs, linguatec), terminologick´ ych poskytovatel˚ u a uˇzivatel˚ u (Trados, Microsoft, IBM, European Commission a dalˇs´ı). Hlavn´ı podnˇet byl(a stále je) veden od SAP(Systems - Applications - Products in data processing). Souˇcasné verze pˇridaly hlaviˇckovou strukturu, jako je tomu u TBX, a poskytuj´ı v´ıcejazyˇcné ontologie (v´ yslovn´ y popis urˇcité problematiky), lepˇs´ı strukturován´ı XML, nˇekolik nástroj˚ u a podp˚ urn´ ych komponent [16].

3.2.2

Metamodel standardu OLIF

Základn´ı rozhodovac´ı architektura OLIFu je zaloˇzená na pojmench (základn´ı jednotka je sémantická entita). Pojmy v OLIFu, narozd´ıl od TBX koncept˚ u, jsou definovány pro dan´ y jazyk. Mezi pojmy jsou odkazy, z jednoho bodu urˇcitého pojmu do druhého, tyto odkazy m˚ uˇzou b´ yt monolinguáln´ı (na základˇe slovn´ıkov´ ych vztah˚ u) nebo multilinguáln´ı (na základˇe pˇreklad˚ u). Ve v´ ysledku m˚ uˇze b´ yt metamodel OLIFu chrakterizován: • Jako zaloˇzen´ y na pojmech, které jsou monolinguáln´ı a maj´ı jazykové vysvˇetlivky. • Jako multilinguáln´ı (m˚ uˇzou zde b´ yt odkazy z pojmu na v´ıce c´ılov´ ych uzl˚ u), ale pˇr´ım´ y (odkazy maj´ı zdroj a c´ıl a nejsou snadno zpˇetnˇe pˇrevedeny).

17

3.2.3

Dokument XML ve standardu OLIF

Charakteristika kl´ıˇ c˚ u (Key) Prvn´ı vˇec´ı je charakteristika záznam˚ u ve v´ ymˇenném formátu. Vstupy ve formátu OLIF jsou chrakterizovány ˇctyˇrmi typy informac´ı: 1. Kanonická forma (popis rozd´ıl˚ u mezi slovy napˇr. Bank a Bank (anglicky banka nebo tˇreba bˇreh ˇreky)). 2. Jazyk (jazyk ve kterém je definice záznam˚ u). 3. V´ yslovnost. 4. Sémantické popisy (poskytuje popis rozd´ıl˚ u v praktick´ ych situac´ıch). Uk´ azka a popis dokumentu XML podle OLIF Koˇrenov´ ym elementem u formátu OLIF je element olif. Stejnˇe jako u standardu TBX je dokument OLIFu rozdˇelen na dvˇe sekce. 1. Header - hlaviˇcka obsahuj´ıc´ı obecné informace o slovn´ıku. 2. Body - tˇelo dokumentu, které obsahuje slovn´ıková data. Jaká data bsahuje se pokus´ım vysvˇetlit právˇe v této kapitole. Tˇelo dokumentu ˇcili tag body mus´ı obsahovat 1-N element˚ u typu entry. Dále pak obsahuje: • Jednojazyˇcné informace (Monolingual Information) - skupina jednojazyˇcn´ ych informac´ı zahrnuje vˇsechny datové kategorie, které jsou p˚ uvodnˇe jednojazyˇcné: – Kategorie kl´ıˇc˚ u viz 3.2.3. – Administrativn´ı datové kategorie. – Morfologické datové kategorie - jako struktura, skloˇ nován´ı, pád, ˇc´ıslo, osoba a ˇcas. – Sémantické datové kategorie - definice, sémantika, typ a pohlav´ı. – Obecné datové kategorie -pˇr´ıklad, poznámka. • Odkazované informace (CrossReference informations) - jsou skupiny informac´ı o pˇr´ıbuzn´ ych záznamech ve stejném jazyce jako je pˇrekládané slovo a obsahuj´ı tyto kategorie: – Kategorie kl´ıˇc˚ u viz 3.2.3. – Druh vztahu - podle doporuˇcen´ı z EuroWorldNetu to m˚ uˇzou b´ yt asociativn´ı v´ yraz, hypernym (obecné slovo pro v´ıce specifick´ ych slov jako dopravn´ı prostˇredek je obecné slovo pro automobil, autobus nebo tˇreba letadlo), meronym (oznaˇcuje základn´ı ˇcást nebo ˇclena nˇeˇceho napˇr. prst je meronym ruky, kolo je meronym automobilu). 18

• Informace o pˇrekladu (Transfer informations) - jsou skupiny informac´ı o záznamech v jazyce, kter´ y je odliˇsn´ y od vstupn´ıho jazyku. OLIF podporuje pˇr´ımé v´ıcejazyˇcné pˇreklady (dvojjazyˇcné pˇreklady jsou speciáln´ı pˇr´ıpad). Obsahuje kategorie pro: – Kategorie kl´ıˇc˚ u viz 3.2.3. – Typ rovnosti (napˇr. plná (full)). – Omezen´ı, které urˇcuj´ı podm´ınky, za kter´ ych je pˇreklad platn´ y. – Datové skupiny, které vysvˇetluj´ı strukturáln´ı zmˇeny pro dan´ y pˇreklad. (zhasnout -> switch off). Pˇ r´ıklad z´ aznamu jednoho slova ve form´ atu OLIF Ukázka pˇrekladu jednoho slova za pouˇzit´ı OLIFu v pˇr´ıkladu 7, kdy: • element mono obsahuje informace o pˇrekládaném slovˇe v elementech: – canForm obsahuje kanonick´ y tvar pˇrekládaného slova – language jazyk, do kterého slovo náleˇz´ı – subjField oblast v´ yskytu slova – pronunciation v´ yslovnost slova • element transfer obsahuje informace o pˇrekladu slova v elementech: – canForm obsahuje kanonick´ y tvar slova – language jazyk, do kterého slovo náleˇz´ı – subjField oblast v´ yskytu slova

19

Pˇ r´ıklad 7 Pˇreklad jednoho slova ve slovn´ıku OLIF 3.2.3 <entry> <mono> abbatial en <subjField>general <pronunciation>{beiˇ sl opatsk´ y cs <subjField>general abatyˇ ssk´ y cs <subjField>general

Pˇ r´ıklad z´ aznamu slova ve slovn´ıku OLIF s odkazem na dalˇ s´ı slovo V pˇr´ıkladu 8 bude ukázáno jak vypadá pˇreklad slova s odkazem na dalˇs´ı slovo ve stejném jazyce a s pomocn´ ymi informacemi. Vysvˇetlen´ı element˚ u, které neobsahuje pˇr´ıklad 7: • Element generalDC obsahuje informace o tom, jak slovo pouˇz´ıt nebo poznámku pˇrekladatele. • Element crossRefer nese informace o odkazu na varianty pˇrekládaného slova: – Element crLinkType urˇcuje, o jak´ y typ odkazu jde. V naˇsem pˇr´ıpadˇe headword (hlavn´ı slovo kanonické formy). • Element monoMorph - uvád´ıme informace o morfologii slova. V morphStruct je uvedena stavba slova, inflexn´ı vzor, rod, ˇc´ıslo, vid a dalˇs´ı. – Element number - informace o ˇc´ısle. • Element crLinkType - obsahuje roli, kterou slovo hraje v kontextu, napˇr. orthvariant ˇze jde o jinou variantu slova nebo headword, ˇze jde o slovo, ze kterého vycház´ı napˇr. fráze. 20

Pˇ r´ıklad 8 Pˇreklad slova s odkazem na dalˇs´ı slovo v OLIFu 3.2.3 <entry> <mono> A en noun <subjField>general <pronunciation>ei <monoDC> <monoMorph> pl <usage>p´ ısmeno a en noun <subjField>general orth-variant A cs noun <subjField>general

Pˇ r´ıklad fr´ aze ve slovn´ıku OLIF V posledn´ım, (9). pˇr´ıkladu, kter´ y se t´ yká slovn´ıku OLIF uvedu, jak vypadá fráze a jej´ı pˇreklad. Nav´ıc oproti minul´ ym pˇr´ıklad˚ um se objevuje element monoAdmin, kter´ y obsahuje vlastn´ıka slova, lokalitu pouˇz´ıván´ı slova a podobnˇe. Napˇr´ıklad v elementu entryFormation uveden´ y typ záznamu (napˇr. fráze).

21

Pˇ r´ıklad 9 Fráze ve slovn´ıku OLIF 3.2.3 <entry> <mono> an A1 population en other <subjField>general <monoDC> <monoAdmin> <entryFormation>phr A en noun <subjField>general <usage>hovor. headword obyvatelstvo v dokonal´ em zdravotn´ ım stavu cs other <subjField>general

3.3 3.3.1

Dalˇ s´ı standardy ISLE/MILE

ISLE (Internation Standards for Language Engineering)[22] je název projektu a celá sada organizovan´ ych aktivit t´ ykaj´ıc´ıch se oblasti terminologie lidského jazyka (HLT Human Language Technology). ISLE spadá pod iniciativu EAGLES (Expert Advisory 22

Group for Language Engineering Standards), která vykazuje u ´spˇeˇsn´ y v´ yvoj a znaˇcné mnoˇzstv´ı doporuˇcen´ı a standard˚ u. ISLE je zamˇeˇreno na 3 hlavn´ı oblasti: • mnohojazyˇcné slovn´ıky • pˇrirozená interakce a multimodalita • vyhodnocen´ı HLT systém˚ u Standard MILE (Multilingual ISLE Lexical Entry)[6] je v´ ysledkem v´ yzkumu zaloˇzeného právˇe na EAGLES/PAROLE. Pˇredstavuje reprezentaci multilinguáln´ıch informac´ı v konstrukci vrstven´ ych lexikáln´ıch reprezentaˇcn´ıch standard˚ u. Morfologická skladba je definována podle projektu PAROLE, sémantika podle projektu SIMPLE a v´ıcejazyˇcnost podle projektu ISLE. Rozd´ıl mezi MILE a OLIF Narozd´ıl od standardu OLIF, MILE pokr´ yvá nejen informaˇcn´ı poloˇzky, které jsou dostupné ve dneˇsn´ıch SP slovn´ıc´ıch, ale hodlá pˇredstavovat kompletn´ı lexikáln´ı popis vˇcetnˇe sémantické reprezentace v´ıcejazyˇcnosti. MILE nen´ı v´ ymˇenn´ y standard, ale je reprezentaˇcn´ı standard a m˚ uˇze b´ yt pˇreveden do mnoha r˚ uzn´ ych v´ ymˇenn´ ych formát˚ u (dokud budou m´ıt potˇrebnou vyjadˇrovac´ı s´ılu podporovat MILE). Záznamy v MILE m˚ uˇzou definovat poˇrad´ı popisovac´ıch podm´ınek k vyjádˇren´ı specifického omezen´ı sady v pˇrekladovém kontextu bez vlivu na monolinguáln´ı vyjádˇren´ı záznamu. Pˇ r´ıklad z´ aznamu v MILE Lexikáln´ı záznam v MILE je ideáln´ı strukturou pro pˇrevody RDF(Resource Definition Framework)/OWL(Ontology Web Language). To spoˇc´ıvá v hierarchii lexikáln´ıch objekt˚ u, které jsou postavené na vrstveném zp˚ usobu kombinován´ım základn´ıch datov´ ych kategori´ı pomoc´ı jasnˇe dan´ ych vztah˚ u. Uvnitˇr kaˇzdé vrstvy slovn´ıku MILE jsou dva typy objekt˚ u: 1. Lexikáln´ı tˇr´ıda MILE(LTM). • Hlavn´ı stavebn´ı blok lexikáln´ıch záznam˚ u. • Formalizuje základn´ı lexikáln´ı pojmy podle projektu ISLE. • Lexikáln´ı model MILE(LMM) Definuje kaˇzdou tˇr´ıdu specifikován´ım jej´ıch atribut˚ u a vztah˚ u mezi nimy. • Popisuje pojmy jako syntaktická vlastnost, synset atd. 2. Lexikáln´ı operace - speciáln´ı lexikáln´ı záznamy, které dovoluj´ı uˇzivatel˚ um popsat podm´ınky a vykonávat komplexn´ı operace nad lexikáln´ımi vstupy.

23

Pˇr´ıklad plného záznamu ve slovn´ıku MILE (10). Vyuˇz´ıvá vyˇc´ıslovac´ı tˇr´ıdy v LDCR pro SynFeatureName a SynFeatureValue. V tomto pˇr´ıpadˇe LDCR pouze poskytuje uzavˇren´ y seznam moˇzn´ ych hodnot, ze kter´ ych mus´ı b´ yt urˇcená hodnota vybrána. Pˇ r´ıklad 10 Pˇr´ıklad plného záznamu ve slovn´ıku MILE 3.3.1 <Entry rdf:ID="eat1"> <SynU rdf:ID="eat1-SynU"> <example>John ate the cake <SyntacticFrame rdf:ID="eat1SynFrame"> <Self rdf:ID="eat1Self"> <SynFeature> <slot> <SlotRealization rdf:ID="NPsubj"> <slot> <SlotRealization rdf:ID="NPobj">

24

3.3.2

XLIFF

XLIFF [4] je dalˇs´ım XML formátem pro slovn´ıková data, kter´ y umoˇzn ˇuje zamˇeˇren´ı se na pˇrekládan´ y text. D´ıky XLIFFu je lokalizaˇcn´ı technika snaˇzˇs´ı: jak jednou pˇrevedete data ze sv´ ych zdroj˚ u, tak uˇz m˚ uˇzete jednoduˇse napsat nové nástroje pro práci s XLIFFem a nestarat se o p˚ uvodn´ı formát. XLIFF také podporuje pln´ y lokalizaˇcn´ı proces, t´ım ˇze poskytuje tagy a atributy pro shrnut´ı, status pˇrekladu jednotliv´ ych ˇretˇezc˚ u atd. Formát XLIFF se vyv´ıjel ve spolupráci v´ıce spoleˇcnost´ı, ale nakonec se dostal pod kˇr´ıdla spoleˇcnosti OASIS. XLIFF se zamˇeˇruje na: • Oddˇelen´ı textu k lokalizaci od formátován´ı. • Zpˇr´ıstupnˇen´ı ˇrady nástroj˚ u k práci se zdrojov´ ymi ˇretˇezci a pˇridáván´ım dat o ˇretˇezci. • Ukládán´ı unformac´ı, které jsou uˇziteˇcné k podpoˇre lokalizaˇcn´ıho procesu. V nejjednoduˇsˇs´ı formˇe sestává XLIFF z jednoho nebo v´ıce souborov´ ych element˚ u. Kaˇzd´ y z nich obsahuje sekce header (hlaviˇcka) a body (tˇelo). Header obsahuje stejnˇe jako u pˇredeˇsl´ ych formát˚ u informace o projektu, autorovi atd. Body pak obsahuje elementy trans-unit, coˇz jsou hlavn´ı elementy dokumentu XLIFF, v nichˇz je uloˇzen lokalizovateln´ y text a jeho pˇreklady. Tyto elementy reprezentuj´ı segmenty (obvykle vˇety ze zdrojového souboru, které mohou b´ yt nezávisle pˇreloˇzeny). Elementy transunit obsahuj´ı zdroj, c´ıl, alt-trans a dalˇs´ı uˇziteˇcné elementy.

25

Kapitola 4 Implementace V této kapitole jsou popsány praktické ˇcásti bakaláˇrské práce. Vysvˇetl´ım, s jak´ ymi daty jsem pracoval a jak jsem je pˇrevádˇel do slovn´ıkového standardu OLIF. Následuje postup pokroˇcilé validace dokumentu OLIF a na závˇer shrnu s jak´ ymi problémy jsem se setkal.

4.1

Vstupn´ı data

Vstupn´ı data, se kter´ ymi jsem pracoval by se dala charakterizovat jako pseudo XML data. Jedná se o anglicko-ˇcesk´ y slovn´ık pro p´ısmena a-v rozdˇelen´ y do 127 textov´ ych soubor˚ u, které jsem spojil do jednoho pro dalˇs´ı jednoduˇsˇs´ı práci. Ukázka vzorku dat z p˚ uvodn´ıho textového souboru a1_xml.txt (viz 1). abbreviation <pronun1>[??bri:vi?eiˇ s?n] <sectn1>1 z|kr´ acen´ ı <sectn1>2 zkratka @@@@@

Ukázka 1: popis vstupn´ıch dat(4.1) Jak m˚ uˇzeme vidˇet v ukázce, anglické slovo urˇcené k pˇrekladu je logicky obsaˇzeno v elementu hewn1 (v naˇsem pˇr´ıpadˇe se jedná o slovo abbreviation). Za t´ımto elementem následuje znaˇcka pronun1 s v´ yslovnost´ı, která nen´ı podle pravidel SAMPA [11], takˇze ji v programu pˇrevád´ım do tohoto formátu. Tag sectn1 oddˇeluje moˇznosti pˇrekladu anglického slova, v tomto pˇr´ıpadˇe se objevuje dvakrát, a to pro ˇceská slova v elementu hwecs1. Vstupn´ı data obsahuj´ı mnohem v´ıce tag˚ u, takˇze zde uvád´ım popis kaˇzdého z nich: • hwen1 - anglické slovo urˇcené k pˇrekladu • vwen1 - dalˇs´ı tvar anglické slova 26

• pronun1 - v´ yslovnost anglického slova • hwecs1 - ˇcesk´ y pˇreklad anglického slova • phrwen1 - fráze v angliˇctinˇe • phrven1 - fráze v angliˇctinˇe • phrecs1 - ˇceská fráze pro anglickou frázi uvedenou v phrwen1 nebo phrven1 • examen1 - anglick´ y pˇr´ıklad uˇzit´ı slova za pomoci fráze • examcs1 - ˇcesk´ y pˇreklad pro examen1 • compen1 - obsahuje usage pro anglické slovo • undef1 - dalˇs´ı role anglické fráze nebo slova • hypodkaz - odkaz na slova stejného v´ yznamu • sectn1 - v´ yznamové sekce pro anglická slova • habbren1 - v´ yznam anglické zkratky • undefi1 - nacház´ı se pˇred undef1 a ˇr´ıká, ˇze undef1 je dalˇs´ı tvar pro anglické slovo nebo frázi • indcs1 - pˇr´ıklad uˇzit´ı pro ˇceské slova nebo oblasti uˇzit´ı slova • regcs1 - regionáln´ı uˇzit´ı slova • gram1 - slovn´ı druh • partp1 - oddˇeluje pˇr´ıklady • partc1 - také oddˇeluje pˇr´ıklady • hwsen - oddˇeluje v´ yznamy anglického slova

4.1.1

Statistiky ze vstupn´ıch dat

Statistiky ze vstupn´ıch dat jsem z´ıskával za pomoci jazyku Python. Tyto statistiky jsem vyuˇz´ıval k urˇcen´ı hodnot, kter´ ych nab´ yvaj´ı elementy slovn´ıku OLIF pro fixn´ı hodnoty. Napˇr. v elementu gram1 je hodnota adj:, která ˇr´ıká, ˇze se jedná o pˇr´ıdavné jméno. Také jsem potˇreboval zjistit nejdelˇs´ı vzdálenost v´ yznamu slov pro funkci urˇcován´ı v´ yznamu slov v parseru, kdy v´ım ˇze v´ yznam slova je pˇred slovem, takˇze hledám regulárn´ım v´ yrazem nejbliˇzˇs´ı v´ yznam pˇred slovem a to od pozice: vzdálenost = pozice slova - nejvˇetˇs´ı vzdálenost. Jen pro zaj´ımavost je v p˚ uvodn´ıch datech: • Nejdelˇs´ı záznam pro slovo go a má 102716 znak˚ u (i se znaˇckami).

27

• Je po rozdˇelen´ı vˇsech záznam˚ u nesouc´ıch informace o anglick´ ych slovech - 90177 r˚ uzn´ ych slov. • Nejˇcastˇejˇs´ım slovem z tˇechto záznam˚ u pak je slovo: ”the”, které je pˇr´ıtomno ve vˇsech záznamech 37889 krát. • Je po rozdˇelen´ı vˇsech záznam˚ u nesouc´ıch informace o ˇcesk´ ych slovech - 112355 r˚ uzn´ ych slov. • Nejˇcastˇejˇs´ım slovem z tˇechto záznam˚ u pak je slovo: ”se”, které je pˇr´ıtomno ve vˇsech záznamech 21946 krát.

4.2

Parser pro pˇ revod dat do OLIFu

Pro pˇrevod dat z pseudo XML jsem vyuˇzil jiˇz existuj´ıc´ıho pythonovského parseru, kter´ y jsem upravil pro moje specifické vstupy. Dále jsem pˇridal funkce pro doplnˇen´ı kˇr´ıˇzov´ ych odkaz˚ u, které tam chybˇely, coˇz jsou zkratky slov napˇr. AAA znamená Agricultural Adjustment Act, funkci pro pˇridˇelen´ı správné hodnoty usage a subjField k ˇcesk´ ym pˇreklad˚ um slov a funkci pro vyhledán´ı a urˇcen´ı dalˇs´ı role fráze nebo slova uloˇzené v tagu undefi1. Také jsem program doplnil pro kontrolu existence anglick´ ych slov ve slovn´ıku ispell.words. Prvn´ım (nejjednoduˇsˇs´ım) zp˚ usobem bylo volán´ı extern´ıch program˚ u cat a grep pomoc´ı pythonovského modulu Popen: cat ispell.words| grep -E ’^slovo’$, coˇz provede v´ ypis vˇseho, co je v souboru ispell.words a následnou kontrolu existence slova pomoc´ı regulárn´ıho v´ yrazu. Toto ˇreˇsen´ı je velice neefektivn´ı a pomalé, takˇze jsem se rozhodl tento soubor na zaˇcátku naˇc´ıst do pole a vyhledávat v nˇem slovo pomoc´ı funkce pythonovské struktury slovn´ıku: dict.has_key(). Pokud slovo nebylo ve slovn´ıku nalezeno tak ho zap´ıˇsu do souboru notFoundEN.txt. Ostatn´ı chyby a hláˇsen´ı se zapisuj´ı do souboru errors.txt, m˚ uˇzou tam b´ yt napˇr´ıklad geografické uˇzit´ı slov bez ekvivalentu v poli geografick´ ych uˇzit´ı, nerozpoznan´ y slovn´ı druh a dalˇs´ı. Vzhledem k tomu, ˇze v m´ ych datech se nalézá v´ıce geografick´ ych uˇzit´ı neˇz v p˚ uvodn´ım skriptu, tak byla chybˇej´ıc´ı data doplnˇena. Jak jiˇz je napsáno v´ yˇse, element obsahuje jak data pro usage tzn. uˇzit´ı slova, kde se m˚ uˇze nacházet jak´ ykoliv ˇretˇezec, tak nˇekteré zkratky jako práv. coˇz se dá pouˇz´ıt v elementu <subjField>, kter´ y má omezen´ y v´ ybˇer hodnot napˇr. pro práv. law. Problém je v tom, ˇze tyto zkratky jsou zapsány v delˇs´ım ˇretˇezci a oddˇeleny ,;:, takˇze pomoc´ı regulárn´ıho v´ yrazu tyto slova oddˇeluji a vyb´ırám z pole, kde jsem ruˇcnˇe zapsal moˇzné zkratky pro zápis do <subjField>. Dalˇs´ı v´ yznamn´ y element, kter´ y nese informaci o slovn´ım druhu, je a pole pro jeho hodnoty byla také doplnˇena. Pole s hodnotami pro je také doplnˇená pro hodnoty z m´ ych vstupn´ıch dat a to ve formátu mezinárodn´ıch poˇstovn´ıch zkratek [13]. Pokud je slovo uˇz´ıváno ve v´ıce zem´ıch tak pˇridávám mezi jednotlivá slova slovo and (napˇr. USA and AUS and NZL coˇz znamená, ˇze je slovo typické pro Spojené státy americké, Austrálii a Nov´ y Zéland.)

28

4.3

Schematron pro validaci v´ ysledn´ eho XML dokumentu

Obecn´ y popis nástroje schematronu je v kapitole 2.4.4. Já schematron pouˇz´ıvám na kontrolu hodnot v elementech OLIFu. A to konkrétnˇe pouze v elementech, které obsahuj´ı fixn´ı hodnoty [17]. V mém dokumentu OLIF to jsou: • - obsahuje slovn´ı druh (noun, verb, adj a dalˇs´ı) • <subjField> - v jaké oblasti se slovo vyuˇz´ıvá (economics, botany/zoology, law a dalˇs´ı) • - ˇc´ıslo slova (sg(jednotné), pl, sgt, plt, du, invar a un) • - vid slova (simp, perf, imperf a dalˇs´ı) • - vztah jednoho slova k druhému ve stejném jazyce (headword, orthvariant, abbreviation a dalˇs´ı)

4.3.1

Programy pro spuˇ stˇ en´ı schematronu

Pro zpracován´ı schematronu se daj´ı pouˇz´ıt r˚ uzné programy. Napˇr´ıklad pouˇz´ıvám program XT [10], coˇz je program napsan´ y v jazyce Java, kter´ y um´ı XSL transformace. Je volnˇe ke staˇzen´ı. Pro správn´ y chod staˇc´ı m´ıt staˇzené nástroje pro Java Virtual Machine, nastavit si v souboru build.bat (pro Windows) nebo build.sh (pro Linux) cestu k adresáˇri, kde je um´ıstˇen Java Virtual Machine a pak uˇz jenom spustit vybran´ y soubor, kter´ y vytvoˇr´ı spustiteln´ y program XT pro práci s pˇredpisy ve schematronu. V dalˇs´ı ukázce je pˇr´ıklad spuˇstˇen´ı transformace pomoc´ı programu XT, kdy rozd´ıl oproti pˇr´ıkladu saxonu (4.3.1) je ten, ˇze pouˇz´ıvám styly pro transformaci v´ ypisu chyb do souboru shcematron-errors.html, kde jsou odkazy na urˇcité ˇrádky, obsahuj´ıc´ı hláˇsku ze schématu, ve schematron-out.html. Dalˇs´ı zaj´ımavou moˇznost´ı je wysiwyg editor Oxygen XML, kter´ y v sobˇe obsahuje i v´ yˇse zm´ınˇen´ y saxon a dalˇs´ı nástroje pro provádˇen´ı XSL transformac´ı. M˚ uˇzou se v nˇem vytváˇret dokumenty XML, XSL, SCM atd, obsahuje debuger a validátor dokumentu. xt.exe schematron-predpis.xml schematron-report.xsl xt.exe example.xml xxx.xsl schematron-errors.html xt.exe example.xml verbid.xsl schematron-out.html

xxx.xsl

Ukázka 2: spuˇstˇen´ı transformace pomoc´ı XT Já pro vyhodnocen´ı pˇredpisu schematronu pouˇz´ıvám saxon [8], coˇz je XSLT procesor, kter´ y ze schematronového schématu vygeneruje dalˇs´ı XSLT styl. T´ımto stylem pak m˚ uˇzeme transformovat dokument, kter´ y chceme validovat. V´ ysledkem 29

transformace je pak seznam chyb. Ukázka spuˇstˇen´ı programu pomoc´ı saxonu (4.3.1), kdy pˇrep´ınaˇc -o validuj.xsl v prvn´ım ˇrádku znamená, ˇze v´ ystupn´ı XSL soubor, kter´ y se pouˇzije pro transformaci na v´ ypis chyb, se bude jmenovat validuj.xsl. Dalˇs´ı parametry na prvn´ım ˇrádku jsou pˇredpis pomoc´ı schematronu a styl schematronu, kter´ y jenom vygeneruje v´ yˇse zm´ınˇen´ y styl. V´ ypis se provede do souboru schematron_report.txt. java -jar ./Schematron/saxon/saxon9.jar -o ./Schematron/validuj.xsl \ ./Schematron/schematron-predpis.sch \ ./Schematron/iso_schematron_skeleton.xsl java -Xms5m -Xmx2548m -jar ./Schematron/saxon/saxon9.jar -o schematron_report.txt out.xml ./Schematron/validuj.xsl

Ukázka 3: spuˇstˇen´ı transformace pomoc´ı saxonu

4.3.2

Pˇ redpis schematronu pro validaci

Kaˇzd´ y dokument schematronu by mˇel zaˇc´ınat dekalrac´ı XML: Dále by mˇel v koˇrenovém elementu obsahovat jmenn´ y prostor v mém pˇr´ıpadˇe: <schema xmlns="http://www.ascc.net/xml/schematron"> Pro správné hledán´ı vzor˚ u je potˇreba doplnit namespace dokumentu OLIF. <ns prefix="o" uri="http://www.w3.org/2001/XMLSchema-instance" /> Schematron vyuˇz´ıvá pro zápis vzor˚ u jazyku XPath, element˚ u assert a report. Pro uschován´ı dat se nastavuje v elementu let název promˇenné a jej´ı hodnota. • assert - vyp´ıˇse urˇcenou hláˇsku pokud nen´ı podm´ınka v atributu test splnˇena • report - vyp´ıˇse urˇcenou hláˇsku pokud je podm´ınka v atributu test splnˇena • let - promˇenná pojmenovaná v atributu name a s hodnotou v atributu value Tyto patˇr´ı do elementu rule, kter´ y má v atributu context v´ yraz urˇcuj´ıc´ı, ke kterému prvku v dokumentu se vztahuje napˇr. "/", jeˇz se vztahuje na vˇsechny podelementy koˇrenového elementu. Vˇsechny v´ yˇse zm´ınˇené znaˇcky patˇr´ı do elementu pattern. Ve svém pˇredpisu schematronu vyuˇz´ıvám vˇsechny v´ yˇse zm´ınˇené znaˇcky pro z´ıskán´ı dat ze slovn´ıku OLIF. Zjiˇstˇen´ı fráz´ı v dokumentu OLIFu, které nemaj´ı crLink je v pˇr´ıkladu 4.3.2, kdy hledám v elementech entry. Pokud tyto elementy obsahuj´ı entryFormation a zároveˇ n neobsahuj´ı element crLink nebo hodnoty phr a headword, tak zahlás´ı report o frázi, která nemá headword.

30

Pˇ r´ıklad 11 zjiˇstˇen´ı poˇctu fráz´ı v dokumentu OLIF <pattern> Fr´ aze, kter´ e nemaj´ ı headword Fr´ aze, kter´ a nem´ a headword:

Validace fixn´ıch hodnot OLIFu za pomoci schematronu V dalˇs´ım pˇr´ıkladu (viz 4.3.2) bude ukázáno, jak ovˇeˇruji fixn´ı hodnoty, které maj´ı obsahovat nˇekteré elementy. V tomto pˇr´ıkladu prohledávám hodnoty elementu subjField a pro dohledáván´ı chyb si vˇzdy kaˇzd´ y záznam, ke kterému se dan´ y subjField vztahuje ukládám do promˇenné name. Dále v pˇr´ıkladu pouˇz´ıvám element report na zjiˇstˇen´ı toho zda hodnota neobsahuje ani jednu z fixn´ıch hodnot slovn´ıku OLIF. Pokud tuto hodnotu neobsahuje, tak vyp´ıˇsu hláˇsku záznam obsahuj´ıc´ı tuto nepovolenou hodnotu. Podobn´ ym zp˚ usobem je zpracované ovˇeˇrován´ı dalˇs´ıch fixn´ıch hodnot.

31

Pˇ r´ıklad 12 validace správnosti fixn´ıch hodnot elementu subjField z 4.3.2.kapitoly <pattern name="Element subjField obsahuje nepovolen´ e hodnoty"> subjField obsahuje nepovolenou hodnotu pro z´ aznam:

4.4

Probl´ emy pˇ ri implementaci a moˇ znosti ˇ reˇ sen´ı

Z´ıskáván´ı informac´ı o existenci slov (jak anglick´ ych tak ˇcesk´ ych) ve slovn´ıc´ıch jsem chtˇel zahrnout do implementace parseru, ale vzhledem k ˇcasové nároˇcnosti vykonáván´ı ˇcesk´ ych slov volán´ım extern´ıho programu pro zjiˇst’ován´ı existence ˇcesk´ ych slov v jiném slovn´ıku jsem tuto ˇca´st zahrnul do jiného Pythonovského skriptu. V implementaci parseru tak zbylo pouze ovˇeˇren´ı existence slov v anglickém slovn´ıku (viz kapitola 4.2). Problém ˇcasové nároˇcnosti volán´ı extern´ıho programu napsaného jazykem C++ vˇsak pˇretrvává i v novém skriptu. V budoucnosti by bylo moˇznou cestou k vyˇreˇsen´ı problému vytvoˇrit pomoc´ı programu SWIG modul pro python (verze SWIGu, se kter´ ymi jsem pracoval mi nevytvoˇril ˇzádn´ y modul schopn´ y obstarat správnou funkˇcnost). Dalˇs´ım problémem bylo zjiˇst’en´ı nejˇcastˇejˇs´ıho slova z v´ ysledného dokumentu na coˇz mi

32

nestaˇcila vyjadˇrovac´ı s´ıla jazyku XPath a Schematronu. Proto jsem opˇet pouˇzil skript v jazyce Python, kde vˇse probˇehne rychle a bez problém˚ u.

33

Kapitola 5 Statistiky Statistiky z´ıskané ze slovn´ıku ve formátu OLIF slouˇz´ı k vyhodnocen´ı základn´ıch informac´ı o slovn´ıku. Napˇr´ıklad poˇcet záznam˚ u ve slovn´ıku, nejˇcastˇejˇs´ı slova v r˚ uzn´ ych jazyc´ıch, slovo s nejvˇetˇs´ım poˇctem pˇreklad˚ u, poˇcet zkratek, poˇcet fráz´ı a dalˇs´ı. Ze statistik se daj´ı odvodit chyby, které mohly nastat pˇri implementaci parseru, napˇr. kdyˇz bych mˇel 200 000 slov v angliˇctinˇe a vedˇel, ˇze vstupn´ı data maj´ı informace o v´ yslovnosti nˇekter´ ych z nich a ve v´ ysledn´ ych statistikách bych nemˇel ani jeden záznam s v´ yslovnost´ı.

5.1

Implementace skriptu pro z´ısk´ an´ı statistik

Pro z´ıskán´ı statistik ze slovn´ıku OLIF jsem pouˇzil skriptovac´ı jazyk Python. Vzhledem k tomu, ˇze v´ ysledn´ y slovn´ık obsahuje velké mnoˇzstv´ı dat a jazyk python podporuje parsovan´ı pomoc´ı sax, tak jsem pro práci s dokumentem XML zvolil právˇe sax (viz kapitola 2.3.2), protoˇze mi pro statistiky staˇc´ı data zpracovat jenom jednou a hledané hodnoty si uloˇzit do promˇenn´ ych a struktur pythonu. Pro hodnoty, kdy si ukládám slova a ˇcetnost jejich pouˇzit´ı, pouˇz´ıvám pythonovskou strukturu Dictionary, coˇz je asociativn´ı pole záznam˚ u. Po zpracován´ı vˇsech dat pole seˇrad´ım podle ˇcetnosti v´ yskytu slov a vyp´ıˇsu si tˇri prvn´ı záznamy.

5.2

V´ ysledn´ e statistiky

V´ ysledné statistiky pak zapisuji do dokumentu XML viz 5.2. Vysvˇetlen´ı jednotliv´ ych element˚ u a jejich atribut˚ u: • entries - poˇcet vstup˚ u • english - obsahuje anglická slova a jejich poˇcet atribut count ˇr´ıká kolikrát je nalezeno – first - prvn´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm – second - druhé slovo podle poˇctu v´ yskyt˚ u v elementu canForm – third - tˇret´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm 34

• czech - obsahuje ˇceská slova a jejich poˇcet – first - prvn´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno – second - druhé slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno – third - tˇret´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno • overal - obsahuje vˇsechna slova a jejich poˇcet – first - prvn´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno – second - druhé slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno – third - tˇret´ı slovo podle poˇctu v´ yskyt˚ u v elementu canForm atribut count ˇr´ıká kolikrát je nalezeno • trans - vztahuje se k pˇreklad˚ um anglick´ ych slov do ˇceˇstiny – words - obsahuje anglická slova a poˇcet jejich pˇreklad˚ u do ˇceˇstiny atribut count ˇr´ıká kolikrát je nalezeno ∗ first - prvn´ı slovo podle poˇctu pˇreklad˚ u ∗ second - druhé slovo podle poˇctu pˇreklad˚ u ∗ third - tˇret´ı slovo podle poˇctu pˇreklad˚ u – moretrans - obsahuje ˇc´ıslo, které ˇr´ıká kolik slov má v´ıce pˇreklad˚ u – onetrans - kolik slov má právˇe jeden pˇreklad – notrans - kolik slov nemá ˇzádn´ y pˇreklad (napˇr. zkratky, fráze bez pˇrekladu) – avgtrans - jak´ y je pr˚ umˇeˇr pˇreklad˚ u k anglick´ ym slov˚ um • pronunciation - kolik anglick´ ych slov má v´ yslovnost • usages - kolik anglick´ ych a ˇcesk´ ych slov má pˇr´ıklad uˇzit´ı slova • abbrevations - kolik je ve slovn´ıku zkratek • oth-variation - kolik je ve slovn´ıku ortografick´ ych variant slova • headwords - kolik slov má headword tzn. kolik je ve slovn´ıku fráz´ı Z v´ ysledn´ ych statistik mˇe pˇrekvapil poˇcet pˇreklad˚ u slova run, které je pˇreloˇzeno 851 krát.

35

<stats> <entries>220940 <words> <english> go <second count="624">take get d´ at <second count="147">v´ est j´ ıt go <second count="624">take get <words> run <second count="848">set go <moretrans>67123 81863 <notrans>60832 2.09365891192 <pronunciation>83293 <usages>279687 14739 1820 126463

Ukázka 4: V´ ysledné statistiky ze slovn´ıku OLIF

36

Kapitola 6 Z´ avˇ er Bakaláˇrská práce se t´ yká popisu, vyuˇzit´ı, nástroj˚ u a v´ yhod jazyku XML pro ukládán´ı slovn´ıkov´ ych dat do standard˚ u k tomu urˇcen´ ych. Popisuje r˚ uzné XML standarty pro ukládán´ı slovn´ıkov´ ych dat a ˇcerpán´ı informac´ı r˚ uzn´ ych zdroj˚ u, popisuje jejich odliˇsnosti a v´ yhody. Jedn´ım z c´ıl˚ u práce byla transformace p˚ uvodn´ıch pseudo XML dat do jednoho ze standard˚ u pro ukládán´ı slovn´ıkov´ ych dat. Za tento standard jsem si zvolil OLIF. Za u ´ˇcelem pˇrevodu jsem rozˇs´ıˇril implementaci jiˇz existuj´ıc´ıho pythonovského parseru pro specifické datové vstupy. Zpracován´ı vˇsech vstupn´ıch dat bylo dle oˇcekáván´ı ˇcasovˇe nároˇcné. Dále jsem se v práci zamˇeˇril na pokroˇcilou validaci XML dokumentu podle standardu OLIF a to pomoc´ı schematronu. Konkrétnˇe pak na validaci správnosti fixn´ıch hodnot, které má dokument OLIF obsahovat. Pro tento u ´ˇcel jsem si vytvoˇril pˇredpis schematronu a aplikoval ho za pomoci jiˇz existuj´ıc´ıho programu pro zpracován´ı XSL transformac´ı, saxonu. I tato ˇca´st byla ˇcasovˇe i pamˇet’ovˇe nároˇcná. Posledn´ı ˇcást´ı práce bylo zvolen´ı vhodného postupu a z´ıskán´ı statistik ze slovn´ıku. K tomuto u ´ˇcelu jsem opˇet vyuˇzil jazyku python a ke zpracován´ı XML dokumentu parseru sax. I tato ˇca´st je ˇcasovˇe nároˇcná avˇsak pamˇet’ovˇe, d´ıky saxu, ne. Kaˇzdá ˇca´st práce poˇzadovala specifické znalosti z oblasti zpracován´ı XML dokument˚ u. Vyuˇz´ıván´ı ˇci rozˇsiˇrován´ı r˚ uzn´ ych jiˇz implementovan´ ych nástroj˚ u i vytváˇren´ı vlastn´ıch bylo pro mé znalosti znateln´ ym pˇr´ınosem.

37

Literatura [1] Bray, T.; et al.: Extensible Markup Language (XML) 1.0 (Second Edition). [online], [cit. 1.4.2008]. URL [2] Cimprich, P.: Akta X: Relax NG se prosazuje. [online], [cit. 19.4.2008]. URL [3] Consortium, O.: OLIF. [online], [cit. 19.4.2008]. URL [4] Corrigan, J.; Foster, T.: XLIFF: An Aid To Localization. [online], [cit. 2.5.2008]. URL [5] Group, L. T. S. I.: TBX Specification. [online], [cit. 19.4.2008]. URL [6] Ide, N.; Lenci, A.; Calzolari, N.: RDF Instantiation of ISLE/MILE Lexical Entries. 2003. URL [7] Initiaitve), T. T. E.: The Test Encoding Initiative Guidelines. [online], [cit. 19.4.2008]. URL [8] Kay, M. H.: SAXON. [online], [cit. 5.5.2008]. URL [9] Kosek, J.: XML pro kaˇzdého. [online], [cit. 5.5.2008]. URL [10] Lindsey, B.: XT. [online], [cit. 5.5.2008]. URL [11] LINGUISTICS, U. D. O. P. .: SAMPA computer readable phonetic alphabet. [online], [cit. 2.5.2008]. URL 38

[12] Megginson, D.: SAX. [online], [cit. 11.4.2008]. URL [13] RootsWeb.com: Abbreviations and Character Codes For RootsWeb.com Users. [online], [cit. 5.5.2008]. URL [14] Skonnard, A.; Gudgin, M.: XML - pohotová referenˇcn´ı pˇr´ıruˇcka. Grada Publishing, a.s., 2006. [15] for the Advancement of Structured Information Standards, T. O.: RELAX NG Specification. [online], [cit. 19.4.2008]. URL [16] Thurmair, G.: Exchange Formats: TBX, OLIF, and Beyond. [online], [cit. 19.4.2008]. URL [17] W3C: Fixed Values for OLIF Data Categories. [online], [cit. 5.5.2008]. URL [18] w3schools: DTD Tutorial. [online], [cit. 10.4.2008]. URL [19] w3schools: XML DOM(Document Object Model) Tutorial. [online], [cit. 10.4.2008]. URL [20] w3schools: XML Information Set (Second Edition). [online], [cit. 10.4.2008]. URL [21] Wikipedia: Slovn´ık. [online], [cit. 19.4.2008]. URL [22] Zampolli, A.; Baroni, P.: International Standards for Language Engineering. [online], [cit. 2.5.2008]. URL

39

Dodatek A Pˇ r´ılohy bakal´ aˇ rsk´ e pr´ ace Jako pˇr´ıloha bakaláˇrské práce je jedno DVD s pouˇzit´ ymi nástroji.

40

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Recommend Documents

<xsl:value-of select="concat(/v1:zam/krestniJmeno, ’ ’, /v1:zam/prijmeni)"/>

<xsl:value-of select=’/v1:zam/pozice’/>