Komprese XML souborů Compression of XML Files

ˇ – Technicka´ univerzita Ostrava VSB Fakulta elektrotechniky a informatiky Katedra informatiky

Komprese XML souboru˚ Compression of XML Files

2010

Pavel Hruˇska

Souhlas´ım se zveˇrejnˇen´ım této diplomové práce dle poˇzadavku˚ cˇ l. 26, odst. 9 Studijn´ıho ˇ a zkuˇsebn´ıho rˇa´ du pro studium v magisterských programech VSB-TU Ostrava.

V Ostravˇe 7. kvˇetna 2010

.............................

Prohlaˇsuji, zˇ e jsem tuto diplomovou práci vypracoval samostatnˇe. Uvedl jsem vˇsechny literárn´ı prameny a publikace, ze kterych ´ jsem cˇ erpal.

V Ostravˇe 7. kvˇetna 2010

.............................

Dˇekuji vˇsem, kteˇr´ı mi pomáhali bˇehem pˇr´ıprav této diplomové práce, pˇredevˇs´ım vedouc´ımu práce Ing.Janu Martinoviˇcovi, Ph.D. za jeho ochotu, trpˇelivost a cenné rady.

Abstrakt Práce s XML soubory je dnes cˇ ´ım dál t´ım v´ıce cˇ astˇejˇs´ı. Existuj´ı také XML dokumenty, které obsahuj´ı velké mnoˇzstv´ı dat. Tato diplomová práce popisuje existuj´ıc´ı algoritmy ˚ pouˇz´ıvané ke kompresi XML dokumentu˚ a také popisuje nˇekteré nové zpusoby, jak stávaj´ıc´ı pˇr´ıstupy vylepˇsit. Zamˇerˇ uje se na nˇekolik populárn´ıch kompresn´ıch algoritmu˚ a jejich pouˇzit´ı jak pˇri kompresi XML jako textu, tak i pˇri kompresi XML s vyuˇzit´ım sémantickych ´ informac´ı dostupnych ´ v XML dokumentech. Dále popisuje rozˇs´ırˇ en´ı tˇechto metod o optimalizaci XML pomoc´ı shlukován´ı. Na základˇe provedenych ´ testu˚ jsou porovnány efektivnosti jednotlivych ´ algoritmu˚ a vysloven závˇer, zda lze rozˇs´ırˇ en´ım stávaj´ıc´ıch metod komprese XML dokumentu˚ dosáhnout lepˇs´ıch vysledk u˚ komprese. ´ ˇ a´ slova: komprese, komprese textu, XML, shlukován´ı dokumentu, ˚ analyza Kl´ıcov ´ XML.

Abstract Working with XML files is now becoming more frequent. There are XML documents containing large amount of data. This thesis deals with existing algorithms used for XML compression and some new ways of improving current approaches. This thesis focuses on some popular text compression algorithms and their application either in standard text file compression or in XML compression through semantic information that is present in XML documents. The thesis also describes extending the methods with XML optimization through agglomerative clustering. Various compression methods are compared on the basis of testing in order to find out whether XML compression methods extension can achieve better results. Keywords: Compression, Text Compression, XML, Documents Clustering, Parsing XML.

1

Obsah 1

´ Uvod 1.1 Struktura práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 4

2

XML 2.1 Charakteristika XML 2.2 Vyhody XML . . . . ´ 2.3 Nevyhody XML . . . ´ 2.4 Zpracován´ı XML . . 2.5 Analyza ´ XML . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

6 6 6 7 7 9

Komprese XML 3.1 Principy komprese . . . . . . . . . . . . . 3.2 Komprese XML jako textu . . . . . . . . . 3.3 XML-Aware komprese . . . . . . . . . . . 3.4 Komprese XML s podporou dotazován´ı . 3.5 Komprese XML bez podpory dotazován´ı

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

11 11 12 16 17 20

4

XMill 4.1 Architektura XMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.2 Pˇr´ıklad kodov´ an´ı ukázkového XML . . . . . . . . . . . . . . . . . . . . . . 4.3 Datovy´ formát XMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25 26 28 30

5

SharpXMill 5.1 Návrh architektury SharpXMill . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Podporované kompresn´ı metody . . . . . . . . . . . . . . . . . . . . . . . . 5.3 SXMill – rozˇs´ırˇ en´ı funkcionality XMill . . . . . . . . . . . . . . . . . . . . .

34 34 36 36

6

Testován´ı 6.1 Parametry testován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Vysledky testován´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´

38 38 40

7

Závˇer

50

8

Reference

51

3

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

2

Seznam tabulek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Pˇrehled sémantickych ´ kompresoru˚ nástroje XPRESS . . . . . . Standardn´ı sémantické kompresory XMill . . . . . . . . . . . . Kombinované kompresory XMill . . . . . . . . . . . . . . . . . XMill – pˇrehled cˇ a´ st´ı ukázkového fragmentu XML . . . . . . . XMill – pˇr´ıklad naplnˇen´ı slovn´ıku . . . . . . . . . . . . . . . . XMill – pˇr´ıklad datovych ´ kontejneru˚ . . . . . . . . . . . . . . . XMill – Pˇr´ıklad obsahu kontejneru struktury . . . . . . . . . . XMill – uloˇzen´ı cˇ ´ısel bez znaménka (uint32) . . . . . . . . . . . XMill – uloˇzen´ı cˇ ´ısel se znaménkem (sint32) . . . . . . . . . . . XMill – formát souboru XMI . . . . . . . . . . . . . . . . . . . . XMill – pˇr´ıkazy kontejneru struktury . . . . . . . . . . . . . . . Sada testovac´ıch XML souboru˚ . . . . . . . . . . . . . . . . . . Testovac´ı soubory XML pˇred a po normalizaci . . . . . . . . . Parametry komprese bˇezˇ nymi programy . . . . . . . . . . . . ´ Parametry komprese SXMill . . . . . . . . . . . . . . . . . . . . Notace pouˇzitá pˇri prezentaci vysledk u˚ experimentu˚ . . . . . ´ Absolutn´ı vysledky komprese bˇezˇ nymi nástroji . . . . . . . . . ´ ´ Kompresn´ı pomˇery pˇri pouˇzit´ı bˇezˇ nych ´ nástroju˚ . . . . . . . . Srovnán´ı XMill a bˇezˇ né komprese . . . . . . . . . . . . . . . . . ˇ Casov´ a nároˇcnost XMill komprese se shlukován´ım kontejneru˚ XMill komprese se shlukován´ım kontejneru˚ . . . . . . . . . . . Parametry shlukován´ı celych ´ XML souboru˚ . . . . . . . . . . . Komprese shlukovanych nástroji . . . ´ XML souboru˚ bˇezˇ nymi ´ Komprese shlukovanych ´ XML souboru˚ pomoc´ı XMill . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .

19 26 26 28 30 31 31 32 32 33 33 39 39 40 40 41 43 43 44 46 46 47 49 49

3

´ u˚ Seznam obrazk 1 2 3 4 5 6 7 8 9 10 11 12 13

Obecny´ model zpracován´ı XML . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıklad XML s nejasnˇe analyzovatelnou strukturou . . . . . . . . . . . . . Pˇr´ıklad DTD [13] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pˇr´ıklad XML pro kompresi pomoc´ı DTD [13] . . . . . . . . . . . . . . . . . Model architektury XMill [14] . . . . . . . . . . . . . . . . . . . . . . . . . . XMill – ukázkovy´ fragment XML pro pˇr´ıklad zpracován´ı dat . . . . . . . . Architektura SharpXMill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kompresn´ı pomˇery bˇezˇ nych ´ nástroju˚ . . . . . . . . . . . . . . . . . . . . . . ˚ ci bˇezˇ né kompresi . . . . . . . . . . Srovnán´ı vysledk u˚ XMill komprese vuˇ ´ Zlepˇsen´ı komprese v závislosti na velikosti pamˇet’ového okna . . . . . . . XMill komprese se shlukován´ım kontejneru˚ . . . . . . . . . . . . . . . . . . Srovnán´ı bˇezˇ né komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚ Srovnán´ı XMill komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚ .

8 9 23 24 27 29 35 42 42 45 47 48 48

4

1

´ Uvod

XML [29] je v dneˇsn´ı dobˇe velmi rozˇs´ırˇ eny´ jazyk pro ukládán´ı a vymˇ ´ enu dat. Pˇres své ne´ sporné vyhody, kter´ e pramen´ ı pˇ r edevˇ s ı m z jeho univerz´ a lnosti a také z textové podoby ´ jeho datového formátu (dobˇre cˇ itelného pro cˇ lovˇeka), má i nˇekteré nevyhody. Mezi hlavn´ı ´ patˇr´ı pˇredevˇs´ım nutnost analyzy ´ XML dat pˇred jejich pouˇzit´ım. Pokud jej srovnáme s nativn´ımi binárn´ımi formáty, jedná se také o relativnˇe vyˇ ´ reˇcny´ jazyk, ktery´ klade vˇetˇs´ı nároky na prostor nutny´ k uloˇzen´ı reprezentovanych ´ dat. V této práci struˇcnˇe charakterizujeme XML a zabyv´ ´ ame se také problematikou spojenou s jeho analyzou. ´ Problém vyˇ ´ reˇcnosti XML lze rˇ eˇsit pomoc´ı komprese dat. Jelikoˇz se na XML dá d´ıvat ˚ e poˇzadavky, je z v´ıce pohledu˚ a i na samotnou kompresi XML se mohou klást ruzn´ ˚ moˇzné také k problematice komprese XML pˇristupovat v´ıce zpusoby. Jelikoˇz je XML v podstatˇe textovy´ dokument, je pˇrirozená myˇslenka komprimovat jej bˇezˇ nými kompresn´ımi nástroji, které dennˇe pouˇz´ıváme pro kompresi jinych ´ nejen textovych ´ dokumentu˚ a ˚ Tyto nástroje vyuˇz´ıvaj´ı osvˇedˇcené kompresn´ı algoritmy, které jsou d´ıky obecnˇe souboru. bohaté historii prakticky ovˇerˇ ené a velmi cˇ asto vyuˇz´ıvané jako spolehlivé prostˇredky ke kompresi dat. Jejich pouˇzit´ı je tedy velmi snadné a vysledky se dostavuj´ı okamˇzitˇe. ´ V této práci testujeme kompresi XML souboru˚ pomoc´ı algoritmu˚ Deflate, BZip2, PPMdI a LZMA. Kompresi XML lze rˇ eˇsit i specializovanymi nástroji, ty se nazyvaj´ ´ ´ ı XML-aware kompre˚ které jsme shromázˇ dili studiem sory. V této práci uvád´ıme pˇrehled nástroju˚ a algoritmu, odbornych ´ cˇ lánku˚ a internetovych ´ zdroju˚ vˇenuj´ıc´ıch se XML kompresi. Dále se podrobnˇeji vˇenujeme nástroji XMill. Popisujeme zde v´ıce detailnˇeji jeho princip komprese, datovy´ formát a dalˇs´ı informace. S t´ımto nástrojem pak dále pracujeme, pˇredevˇs´ım s naˇs´ı vlastn´ı implementac´ı v prostˇred´ı .NET Framework (v jazyce C#). XMill jsme si zvolili pˇredevˇs´ım proto, zˇ e se jedná o velmi populárn´ıho zástupce XML-aware komprese, ktery´ velmi cˇ asto slouˇz´ı jako etalon pˇri srovnán´ı odliˇsnych ´ pˇr´ıstupu˚ komprese XML. Nav´ıc je velmi dobˇre zdokumentován. Po detailn´ım popisu XMill dále popisujeme naˇs´ı implementaci tohoto nástroje, kterym ´ je SXMill (SharpXMill). Zamˇerˇ ujeme se pˇredevˇs´ım na základn´ı architekturu navrˇzeného ˚ systému a na jeho odliˇsnosti oproti puvodn´ ımu XMill. Dále se vˇenujeme problematice shlukován´ı dat, pˇredevˇs´ım vyuˇzit´ı této metody ve spojen´ı s kompres´ı XML. Konkrétnˇe jsme shlukován´ı dat vyuˇzili k optimalizaci XML a experimentovali jsme, zda nepovede k dosaˇzen´ı lepˇs´ıch vysledk u˚ komprese. Vyzkouˇseli ´ jsme dvˇe moˇzné cesty optimalizace — shlukován´ı dat v kontejnerech bˇehem XMill komprese a shlukován´ı celých XML souboru. ˚ V závˇeru práce pak vyhodnocujeme provedené experimenty. Testovali jsme bˇezˇ né metody komprese dat i navrˇzené optimalizace. Veˇskeré vysledky srovnáváme v kontextu ´ ˚ jednotlivych ´ metod komprese a nástroju.

1.1

´ Struktura prace

Charakteristikou XML a jeho vyhodami a nevyhodami se zabyv´ ´ ´ ´ ame v sekci 2. V sekci ˚ zpra2.4 se vˇenujeme problematice zpracován´ı XML a nejˇcastˇeji pouˇz´ıvanym ´ modelum

5

cován´ı XML — XML DOM a SAX. Kompresi XML je vˇenována sekce 3, konkrétnˇe v sekci 3.2 popisujeme kompresi XML jako textu (vˇcetnˇe popisu jednotlivych metod kompre´ se) a v sekc´ıch 3.3, 3.4 a 3.5 se zamˇerˇ ujeme na kompresi specializovanymi (XML-aware) ´ nástroji, kde postupnˇe rozeb´ıráme kompresi XML s podporou dotazovan´ı a následnˇe bez podpory dotazován´ı. Sekce 4 se podrobnˇe vˇenuje nástroji XMill, ktery´ je typickym ´ pˇredstavitelem kategorie XML-aware komprese bez podpory dotazován´ı. V sekci 4.1 popisujeme jeho architekturu, v sekci 4.2 uvád´ıme na jednoduchém pˇr´ıkladu j´ım pouˇz´ıvany´ princip oddˇelen´ı struktury od dat a v sekci 4.3 popisujeme datovy´ formát tohoto nástroje. Sekce 5 popisuje námi implementovany´ nástroj SXMill (SharpXMill). Jeho architektura je popsána v sekci 5.1, podporované kompresn´ı metody pak v sekci 5.2 a popis ˚ rozˇs´ırˇ en´ı oproti puvodn´ ımu XMill je uveden v sekci 5.3. ˚ V sekci 6.2.1 jsou Sekce 6 se vˇenuje prezentaci vysledk u˚ provedenych ´ ´ experimentu. k dispozici vysledky komprese XML souboru˚ jako textu (bˇezˇ ná komprese), v sekci 6.2.2 ´ uvád´ıme vysledky komprese pomoc´ı nástroje XMill. Sekce 6.2.3 se zabyv´ ´ ´ a otázkou, jak ’ ˇ ´ esˇ nost komprese pˇri pouˇzit´ı u nástroje XMill ovlivnuje velikost pamˇet ového okna jeho uspˇ jednotlivych ´ kompresn´ıch metod. Sekce 6.2.4 se vˇenuje kompresi XML pomoc´ı nástroje XMill s optimalizac´ı kontejneru˚ vyuˇz´ıvaj´ıc´ı shlukován´ı. V sekci 6.2.5 ukazujeme vysledky ´ ˚ komprese XML bˇezˇ nou kompres´ı po proveden´ı shlukován´ı celych ´ XML souboru. V sekci 7 shrnujeme vysledky experimentu˚ a vyslovujeme závˇer, zda je moˇzné pomoc´ı ´ ˚ shlukován´ı vylepˇsit stávaj´ıc´ı metody komprese XML souboru.

6

2

XML

XML (eXtensible Markup Language, cˇ esky rozˇsiˇritelny´ znaˇckovac´ı jazyk) je obecny, ´ otevrˇ eny´ znaˇckovac´ı jazyk, standardizovany´ konsorciem W3C. Vznik tohoto jazyka se datuje do roku 1998, kdy byla standardizována verze 1.0. XML je zaloˇzen na obecném metajazyku SGML, pˇresnˇeji rˇ eˇceno tvoˇr´ı jeho podmnoˇzinu. Ve srovnán´ı s SGML je jednoduˇssˇ´ı, snadnˇeji se analyzuje 1 [29, 32].

2.1

Charakteristika XML

ˇ XML je obecny´ jazyk, ktery´ umoˇznuje definovat vlastn´ı jazyky — pˇredstavuje sadu pravi˚ V dneˇsn´ı dobˇe se vyuˇz´ıvá pˇredevˇs´ım del, které se pouˇz´ıvaj´ı k definici konkrétn´ıch jazyku. jako prostˇredek pro vymˇ ´ enu dat v prostˇred´ı internetu, napˇr. u rˇ eˇsen´ı B2B2 [5] apod. D´ıky ˚ u kterych své univerzálnosti mu dávaj´ı vyvoj´ ´ arˇ i pˇrednost u systému, ´ nen´ı v dobˇe návrhu pˇredem jasné, s jakymi dalˇs´ımi systémy bude nutné komunikovat. XML nacház´ı uplat´ ´ ziˇstˇe, velmi populárn´ı jsou v dneˇsn´ı dobˇe také na nˇen´ı také jako univerzáln´ı datové uloˇ XML zaloˇzené konfiguraˇcn´ı soubory. ˚ kde znakem se rozum´ı libovolny´ UniXML dokument je tvoˇren posloupnost´ı znaku, code znak. XML je tedy ve své podstatˇe textovy´ dokument. V XML dokumentu se rozliˇsuj´ı dva základn´ı elementy — znaˇcky a obsah. Znaˇcky jsou uvozeny znakem <“ (menˇs´ı) a ” konˇc´ı >“ (vˇetˇs´ı), nebo zaˇc´ınaj´ı znakem &“ (ampersand) a konˇc´ı znakem ;“ (stˇredn´ık). ” ” ” Vˇse ostatn´ı, co nen´ı znaˇcka, je obsah [29]. XML je strukturovany´ jazyk, jeho struktura se tvoˇr´ı vzájemnym ´ vnoˇrován´ım znaˇcek. ˇ Jako kaˇzdy´ jazyk, má i XML svou syntaxi. Kaˇzdy´ XML soubor mus´ı splnovat minimálnˇe pravidla well-formed XML3 zápisu. Well-formed XML nedovoluje napˇr´ıklad pouˇzit´ı pˇrekˇr´ızˇ enych ´ znaˇcek [29]. Na jazyku XML jsou postaveny nˇekteré dalˇs´ı jazyky. Jedná se napˇr´ıklad o RSS [34] a Atom [20] (syndikace obsahu), SOAP [36] (vymˇ ´ ena zpráv), XML-RPC (vzdálené volán´ı procedur) [40] cˇ i XHTML [37] (rozˇsiˇritelny´ hypertextovy´ znaˇckovac´ı jazyk). Mnoho aplikac´ı zaˇc´ıná vyuˇz´ıvat XML také jako základn´ı datovy´ formát, napˇr´ıklad jako populárn´ı kancelárˇ ské bal´ıky Microsoft Office (formát Open XML) [31] a OpenOffice.org (formát OpenDocument) [3].

2.2

Vyhody ´ XML

Jak jiˇz bylo rˇ eˇceno, XML je velmi rozˇs´ırˇ enym ´ a hojnˇe pouˇz´ıvanym ´ jazykem v praxi. Jeho velké rozˇs´ırˇ en´ı pramen´ı z nespornych kterymi tento jazyk disponuje. Pˇredevˇs´ım ´ vyhod, ´ ´ se jedná o univerzáln´ı jazyk, do kterého je moˇzné serializovat4 a zpˇetnˇe z nˇej deserializovat5 libovolná data. D´ıky tomu se velmi cˇ asto pouˇz´ıvá jako prostˇredn´ık u vzájemné ko1

Z anglického parse. Business-to-Business 3 ˚ Syntaktická pravidla pro zápis XML dokumentu. 4 ˚ které reprezentuj´ı stav nˇejaké informace. Vytvoˇren´ı proudu symbolu, 5 Reverzn´ı operace k operaci serializace. 2

7

˚ ymi munikace mezi ruzn ´ systémy, které vnitˇrnˇe vyuˇz´ıvaj´ı odliˇsné formáty, ale pro vymˇ ´ enu ˚ dat pouˇz´ıvaj´ı univerzáln´ı XML. T´ım odpadá nutnost vytvárˇ et specifické pˇrevodn´ı mustky pro kaˇzdy´ novy´ partnersky´ systém, se kterym ´ je potˇreba komunikovat, pˇri jejichˇz tvorbˇe se dopodrobna mus´ıme seznámit s formátem druhé strany. Nam´ısto toho se definuje ˚ ze komunikovat jakykoliv pouze XML rozhran´ı, se kterym systém, aniˇz by znal ´ pak muˇ ´ vnitˇrn´ı strukturu dat daného systému. Textovy´ formát je v neposledn´ı rˇ adˇe také dobˇre cˇ itelny´ pro cˇ lovˇeka.

2.3

Nevyhody ´ XML

Zm´ınˇené vyhody XML pˇrinásˇ ej´ı na druhou stranu i jeho nevyhody. Mezi hlavn´ı nevyho´ ´ ´ du XML patˇr´ı pˇredevˇs´ım jeho vyˇ ´ reˇcnost. Vyˇ ´ reˇcnost vede v porovnán´ı s konkrétn´ımi ˚ Pokud s XML datovymi formáty k mnohem vˇetˇs´ı datové nároˇcnosti XML dokumentu. ´ ˚ ze chceme pracovat, je také nutné nejdˇr´ıve jej analyzovat (anglicky parse XML), coˇz muˇ pˇredevˇs´ım pˇri zpracován´ı rozsáhlejˇs´ıch XML znamenat vyznamnou zátˇezˇ pro vypoˇ ´ ´ cetn´ı vykon systému [19]. ´ Tyto nevyhody jsou obecnˇe známé, proto vznikl napˇr´ıklad XML Binary. Jedná se o ´ standardizovany´ formát, ktery´ se neshoduje se specifikac´ı XML, ale pouze si zachovává ˚ ˚ ze jisty´ vztah s puvodn´ ım XML [39]. XML Binary tak lze pouˇz´ıt u aplikac´ı, u kterych ´ muˇ byt ´ vyˇ ´ reˇcnost bˇezˇ ného XML problém, ale existuje u nich poˇzadavek na vyuˇzit´ı standardizovaného formátu vymˇ ´ eny dat.

2.4

´ ı XML Zpracovan´

˚ datovym ´ ziˇstˇem jsou pak tyXML data jsou pˇredstavována séri´ı Unicode symbolu, ´ uloˇ picky textové soubory. Pˇri práci proto mus´ı bˇezˇ né aplikace tuto lineárn´ı strukturu zpracovat — analyzovat — a identifikovat v n´ı jednotlivé prvky struktury a samotnych ´ dat. ´ Samozˇrejmˇe je nutné m´ıt k dispozici i inverzn´ı operaci, tedy vytvoˇren´ı a upravu wellformed XML reprezentuj´ıc´ıho danou strukturu a obsahuj´ıc´ıho poˇzadovaná data. Existuje nˇekolik modelu˚ zpracován´ı XML, dva nejˇcastˇeji pouˇz´ıvané SAX (Simple Api for XML) [35] a XML DOM (XML Document Object Model) [28] struˇcnˇe pˇredstav´ıme v dalˇs´ı ˚ zitou cˇ a´ st´ı analýza XML, protoˇze právˇe ona cˇ a´ sti textu. U zpracován´ı XML je velmi duleˇ ˚ ze m´ıt zásadn´ı vliv na chován´ı c´ılové aplikace. Problematice analyzy muˇ ´ XML se vˇenujeme v následuj´ıc´ım textu této kapitoly. ˚ Obecny´ model zpracován´ı XML dat popisuje zpusob cˇ ten´ı a zápisu XML dat ve vztahu ke klientské aplikaci. Jeden z modelu˚ je znázornˇen na obrázku 1. Obrázek ukazuje ´ na nejvyˇssˇ´ı urovni klientskou aplikaci, která cˇ te, popˇr. mˇen´ı XML data. Niˇzsˇ´ı vrstvy ˇ ı tuto aplikaci od operac´ı spojenych pak odstinuj´ ´ s vlastn´ım zpracován´ım XML dat. D´ıky ˚ ze aplikace pˇristupovat k XML na vyˇssˇ´ı, abstraktnˇejˇs´ı urovni. ´ tomuto modelu muˇ Pod klientskou aplikac´ı jsou v modelu znázornˇeny vrstvy XML Core (ta obsahuje funkce pro zpracován´ı XML dat dle konkrétn´ıch poˇzadavku˚ implementace cˇ i prostˇred´ı) a dvojice komponent XML Writer a XML Parser (ty slouˇz´ı ke cˇ ten´ı a zápisu XML).

8

Klientská aplikace

SAX

DOM

XML Model

XML Core

XML Writer

XML Parser

Obrázek 1: Obecny´ model zpracován´ı XML 2.4.1

XML DOM (XML Document Object Model)

XML DOM (XML Document Object Model) vycház´ı z obecné definice DOM (Document ˇ Object Model), coˇz je jazykovˇe a platformˇe neutráln´ı rozhran´ı, které umoˇznuje progra˚ a skriptum ˚ dynamicky pˇristupovat a aktualizovat obsah, strukturu a styl dokumum mentu˚ [28]. ˚ KoˇrenoXML DOM nahl´ızˇ ´ı na XML jako na strom, ktery´ se skládá z jednotlivych ´ uzlu. ´ ˚ ze obsahovat uzly podˇr´ızené. Rekurzivnˇe vym a ten muˇ ´ uzlem je uzel na nejvyˇssˇ´ı urovni tato vlastnost plat´ı i pro podˇr´ızené uzly, tedy podˇr´ızené prvky mohou obsahovat sobˇe podˇr´ızené prvky a tak dále. Bˇehem analyzy ´ vstupn´ıch dat se v pamˇeti postupnˇe vytvoˇr´ı jim odpov´ıdaj´ıc´ı strom. ´ Upravy pak prob´ıhaj´ı v pamˇeti a cely´ strom nebo jeho cˇ a´ st je kdykoliv moˇzné zapsat ve ˚ formátu XML. Z uvedeného zpusobu práce je patrné, zˇ e XML DOM potˇrebuje m´ıt ke své ˚ ze cˇ init problém pˇri zprapráci v pamˇeti neustále celou strukturu i samotná data, coˇz muˇ ˚ Vyhodou ˚ ze cován´ı rozsáhlych tohoto modelu je fakt, zˇ e aplikace muˇ ´ XML dokumentu. ´ ˇ ´ ˇ libovolnˇe cıst i mˇenit strukturu a data, protoˇze DOM podporuje operace cten´ı i modifikace a to typicky objektovˇe. 2.4.2

SAX (Simple API for XML)

SAX provád´ı postupnou analyzou vstupn´ıch XML dat a bˇehem n´ı identifikuje jednotlivé ´ cˇ a´ sti XML dokumentu, jako jsou znaˇcky, atributy, entity, komentárˇ e atp. SAX je zaloˇzen na událostech, na které se klientská aplikace vázˇ e a pomoc´ı nichˇz pak z´ıskává data. Hlavn´ı rozd´ıl oproti dˇr´ıve zm´ınˇenému modelu DOM je v tom, zˇ e SAX neudrˇzuje v pamˇeti strukturu ani data celého dokumentu, ale pouze data aktuálnˇe analyzované cˇ a´ sti [35]. D´ıky tomu je moˇzné zpracovat libovolnˇe rozsáhly´ XML dokument, nicménˇe, z principu je moˇzné data pouze cˇ ´ıst a to pouze lineárnˇe. V praxi se bˇezˇ nˇe SAX model implemen-

9

<poloˇzka> ´ an´ ´ ı textu Formatov <popis>V textu muˇ ˚ zeme pouˇz´ıt tuˇcne´ p´ısmo ale ne kurz´ıvu. ... <poloˇzka> ´ ´ Pˇr´ıklad platneho zaznamu ˇ ı: Nepouˇz´ıvat! <popis>Upozornen´ ...

Obrázek 2: Pˇr´ıklad XML s nejasnˇe analyzovatelnou strukturou tuje jako SAX parser, coˇz je konkrétn´ı analyzátor podporuj´ıc´ı model SAX. SAX je vhodny´ pˇri pouˇzit´ı s aplikacemi, které potˇrebuj´ı vstupn´ı data pouze cˇ ´ıst a nevyˇzaduj´ı v jednom okamˇziku komplexn´ı pohled na cely´ XML dokument.

2.5

Analyza ´ XML

XML se skládá ze znaˇcek a obsahu [29]. Znaˇcky jsou definovány pomoc´ı speciáln´ıch ˚ ze znaku˚ ( <“ a >“). Vˇse, co nen´ı znaˇcka, je povaˇzováno za obsah. Ne vˇzdy ovˇsem muˇ ” ” byt ´ rozdˇelen´ı znaˇcek a obsahu zcela zˇrejmé. U well-formed XML dokumentu nen´ı problém identifikovat veˇskeré znaˇcky, nicménˇe nˇekteré znaˇcky nemus´ı m´ıt vyznam znaˇcky ´ ˚ ze se jednat o znaˇcku, která je um´ıstˇena v kontextu nˇejakého jako definuj´ıc´ı strukturu, ale muˇ obsahu jako formátovac´ı nebo jiny´ pomocný prvek (napˇr. oznaˇcen´ı tuˇcného textu znaˇckou ˚ ze m´ıt za následek nestandardn´ı chován´ı c´ılové aplikace. Pˇr´ıklad kon). To muˇ krétn´ıho XML, ktery´ odpov´ıdá podobnému popisu, je znázornˇen na obrázku 2. ˚ Zpusob analyzy ´ takového XML souboru má vliv na strukturu a obsah informac´ı, jaké ´ aplikace z´ıská od analyzátoru. Dvˇe konkrétn´ı uskal´ ı popisuj´ı následuj´ıc´ı dvˇe podkapitoly. 2.5.1

Analyza ´ struktury a obsahu

Ukázkovy´ pˇr´ıklad obsahuje dle formáln´ı definice XML celkem cˇ tyˇri jedineˇcné znaˇcky poloˇzka, nadpis, b, i a k nim odpov´ıdaj´ıc´ı koncové znaˇcky. Nicménˇe tyto znaˇcky v daném kontextu spadaj´ı do dvou kategori´ı. Prvn´ı kategorii tvoˇr´ı znaˇcky, pomoc´ı kterych ´ se tvoˇr´ı poˇzadovaná struktura dat — to jsou znaˇcky poloˇzka a nadpis. Vˇse ostatn´ı, tedy texty um´ıstˇené uvnitˇr tˇechto znaˇcek, má byt ´ povaˇzováno za obsah. Ovˇsem vloˇzen´ı textu podobnému naˇsemu pˇr´ıkladu tuto myˇslenku rozb´ıj´ı. Znaˇcky b a i, které slouˇz´ı v kontextu pouze ˚ jako formátovac´ı prvky, vytvárˇ´ı v puvodn´ ı definici XML dodateˇcnou strukturu. Jak je patrné, v tomto pˇr´ıkladu nejsou znaˇcky b a i znaˇckami ve smyslu struktury ˚ ze m´ıt neˇza´ douc´ı vliv na choXML, ale jsou souˇca´ st´ı obsahu znaˇcky popis. A právˇe to muˇ ván´ı aplikace, pokud analyzátor nebude o definované struktuˇre dostateˇcnˇe informován (napˇr. XML schématem). Nav´ıc, dané XML je v tuto chv´ıli velmi citlivé na zpracován´ı formátován´ı, neboli white-spaces.

10

2.5.2

´ ´ ı dokumentu (white-spaces) Analyza ´ formatov an´

˚ zeme prozradit, zˇ e XMill6 ve vychoz´ S pˇredstihem muˇ ım nastaven´ı vyuˇz´ıvá optimalizaci ´ ˇ komprese XML t´ım, zˇ e odstranuje formátován´ı XML (white-spaces), které pak vytvárˇ´ı pˇri dekompresi programovˇe. Dalˇs´ı podrobnosti o nástroji XMill jsou v sekci 4. XML podporuje celkem cˇ tyˇri druhy white-spaces7 : carriage-return (\r), line-feed (\n), ˚ ze zdát, zˇ e tyto informace nenetab (\t) a spacebar (mezera) [29]. Na prvn´ı pohled se muˇ ˇ sou obsahovou informaci, proto právˇe zminovan y´ XMill ve vychoz´ ım nastaven´ı white´ spaces ignoruje a bˇehem dekomprese je rekonstruuje programovˇe [38]. Pokud se ale pod´ıváme na námi uvádˇeny´ pˇr´ıklad, bude m´ıt pouˇzit´ı této optimalizace vliv na obsah dat, protoˇze pˇri provádˇen´ı dekomprese nebudou white-spaces rekonstruována korektnˇe. V pˇr´ıkladu se za koncovou znaˇckou (mezi slovy p´ısmo a ale) nacház´ı mezera a pˇri aktivn´ı optimalizaci by se bˇehem komprese jako white-space symbol ignorovala. T´ım by doˇslo ke ztrátˇe informace, protoˇze pˇri programové rekonstrukci formátován´ı XMill nikdy nedává za znaˇcku mezeru, maximálnˇe odsazuje následuj´ıc´ı obsah na dalˇs´ı rˇ a´ dek. Bˇehem naˇsich experimentu˚ jsme proto vˇzdy tento druh optimalizace potlaˇcili a to i ˚ u kterych u souboru, ´ to vzhledem k jejich obsahu nebylo nutné. Toto opatˇren´ı nám také ˚ zajistilo, zˇ e se po dekompresi soubory zcela shodovaly s puvodn´ ımi originály. Jedinou nevyhodou je to, zˇ e se spolu s komprimovanymi ´ ´ daty mus´ı ukládat i vlastn´ı formátován´ı, coˇz m´ırnˇe zhorˇsuje vysledek komprese. ´ 2.5.3

Analyza ´ XML v kontextu komprese XML

Pˇri experimentech s nástrojem XMill a následnˇe i bˇehem vyvoje vlastn´ıho nástroje SXMill ´ ˚ zitym jsme doˇsli k závˇeru, zˇ e duleˇ ´ bodem komprese XML je analyza ´ vstupn´ıch XML dat. ˚ zité je Na uvedenych pˇr´ıkladech z pˇredchoz´ı kapitoly jsme se snaˇzili ukázat, jak duleˇ ´ správnˇe vyhodnotit strukturu dokumentu a identifikovat v n´ı data. Nesprávné rozliˇsen´ı ˚ ze m´ıt neˇza´ douc´ı vliv na efektivitu komprese, protoˇze bude tˇechto dvou elementu˚ muˇ ˇ ˚ ze vést docházet k nesprávnému odvozen´ı sémantickych a analyza ´ vazeb. Spatn´ ´ ale muˇ ˇ aˇz ke ztrátˇe dat. Vylepˇsen´ı analyzátoru XML, ktery´ by uvedené skuteˇcnosti zohlednoval, je proto tématem dalˇs´ıho vyvoje. ´ V praktické cˇ a´ sti této diplomové práce jsme se pˇresvˇedˇcili o tom, zˇ e typickym ´ pˇredsta˚ u nichˇz je tˇreba specifickym ˚ vitelem kategorie XML souboru, analyzovat struk´ zpusobem turu XML, je soubor wiki.xml. Podrobnosti jsou k dispozici v kapitole 6, která se vˇenuje testován´ı.

6 7

XMill je specializovany´ XML-aware kompresor. B´ılá m´ısta.

11

3

Komprese XML

XML je ze své podstaty velmi vyˇ ´ reˇcnym ´ formátem. Veˇskeré informace jsou v XML uloˇzeny v textové podobˇe (samotné texty ale i cˇ ´ıselné hodnoty, vyˇ ´ ctové typy a dalˇs´ı specifické informace, které se do textové podoby pˇrevádˇej´ı serializac´ı dat). Nav´ıc u kaˇzdé poloˇzky se neustále opakuje jej´ı sémantická definice, tedy jej´ı znaˇcka. Ta urˇcuje vyznam obsahu, ´ ktery´ je v n´ı uzavˇren. Napˇr´ıklad pokud je v XML uloˇzeno nˇekolik poloˇzek obsahuj´ıc´ıch informaci o autorech knihy, napˇr´ıklad pomoc´ı znaˇcky , bude se neustále tato dvojice znaˇcek opakovat u kaˇzdého jednotlivého jména autora. A t´ım velice rychle roste objem dat v XML souboru. Zm´ınˇené vlastnosti XML mohou pˇredstavovat problém pˇri práci s rozsáhlymi XML ´ ˚ ze pˇredstavovat zátˇezˇ pro vypoˇ soubory. Jednak je nutné XML data analyzovat, coˇz muˇ ´ cet˚ ze byt n´ı vykon systému, ktery´ s XML pracuje. Problémem muˇ ´ ´ také velké mnoˇzstv´ı dat, které je nutné archivovat na disku nebo jiném médiu, cˇ i pˇrenásˇ et po s´ıti nebo pomalych ´ ˇ ˚ ze rˇ eˇsit právˇe komprese XML. WAN8 linkách. A oba zminovan´ e nedostatky muˇ

3.1

Principy komprese

˚ které lze pouˇz´ıt ke kompresi XML dat. Obecnˇe je moˇzné Existuje celá rˇ ada algoritmu, vˇsechny rozdˇelit do dvou skupin: • XML komprese bez podpory dotazován´ı • XML komprese s podporu dotazován´ı Algoritmy prvn´ı kategorie se zamˇerˇ uj´ı na zmenˇsen´ı velikosti XML dat s t´ım, zˇ e pokud s komprimovanymi daty potˇrebujeme pozdˇeji pracovat, mus´ıme je nejdˇr´ıve dekompri´ movat jako celek, zpracovat a posléze jako celek znovu komprimovat. V této diplomové ˚ Tyto algoritmy lze dále práci se zamˇerˇ ujeme pˇredevˇs´ım na tuto kategorii algoritmu. rozdˇelit na dalˇs´ı dvˇe podskupiny: • Komprese XML jako textu (bˇezˇ ná komprese) • Komprese XML s vyuˇzit´ım sémantickych ´ informac´ı (XML-aware komprese) Na kompresi XML jako textu se vyuˇz´ıvaj´ı bˇezˇ né kompresn´ı nástroje, které v praxi ˚ Vzhledem k tomu, zˇ e XML data slouˇz´ı ke kompresi i jinych, nejen textovych ´ ´ souboru. jsou v podstatˇe text, dosahuj´ı nejlepˇs´ıch vysledk u˚ programy implementuj´ıc´ı metody spe´ cializuj´ıc´ı se na kompresi textu. Pˇredstaviteli této kategorie komprese XML jsou napˇr´ıklad programy GZip, BZip29 cˇ i 7-zip, ale existuj´ı i mnohé dalˇs´ı. My si dále v následuj´ıc´ım textu ˚ ymi pop´ısˇ eme nejˇcastˇejˇs´ı metody komprese, které se napˇr´ıcˇ ruzn programy pouˇz´ıvaj´ı. ´ XML-aware kompresory obecnˇe vyuˇz´ıvaj´ı sémantiku dostupnou v XML datech (pracuj´ı se strukturou XML), ale ve svém jádru stále zamˇestnávaj´ı klasické kompresn´ı algoritmy. Fináln´ı komprese tedy prob´ıhá napˇr´ıklad algoritmem Deflate cˇ i BZip2 [14]. Od 8 9

Wide-Area-Network, rozsáhlé s´ıtˇe. ˚ které vyuˇz´ıvaj´ı kompresn´ı algoritmy Deflate, resp. BZip2. GZip, resp. BZip2 jsou názvy programu,

12

˚ komprese XML jako textu se odliˇsuj´ı pˇredevˇs´ım t´ım, zˇ e se snaˇz´ı specifickym ´ zpusobem ˚ neˇz pˇripravit XML data tak, aby komprese bˇezˇ nymi algoritmy dosáhla lepˇs´ıch vysledk u, ´ ´ jakych se dosahuje pˇri kompresi XML jako textu. Vyuˇz´ıvá se pˇritom znalost principu˚ ´ ˚ komprese danych ´ kompresn´ıch algoritmu. XML-aware kompresory s podporou dotazován´ı pak zachovávaj´ı u komprimovanych ´ ˚ dat moˇznost dotazován´ı. Dotazován´ı m´ıvá ruznou podporu — liˇs´ı se rozsah podporovanych ´ dotazu˚ i to, zda je moˇzné data pouze cˇ ´ıst nebo i mˇenit. Tyto algoritmy ve srovnán´ı s doposud popsanymi algoritmy dosahuj´ı obvykle horˇs´ıch pomˇeru˚ komprese. Nicménˇe ´ vedle sn´ızˇ en´ı datové nároˇcnosti mohou odlehˇcit i vypoˇ potˇrebnému ke ´ cetn´ımu vykonu ´ ˚ ze byt zpracován´ı XML dat — vzhledem k nutnosti zpracovat menˇs´ı mnoˇzstv´ı dat muˇ ´ zpracován´ı komprimovanych ´ dat paradoxnˇe ménˇe nároˇcné a to i s pˇrihlédnut´ım na vypo´ cˇ etn´ı vykon, ktery´ je vyˇzadovany´ k dekompresi cˇ a´ st´ı XML dokumentu. ´

3.2

Komprese XML jako textu

Pˇri kompresi XML jako textu se soubor komprimuje jako celek bez ohledu na vnitˇrn´ı strukturu. Na soubor se pohl´ızˇ ´ı jako na bˇezˇ ny´ soubor, nicménˇe vzhledem k tomu, zˇ e se ´ esˇ nˇe aplikovat algoritmy specializuj´ıc´ı se na komjedná o textovy´ soubor, lze na nˇej uspˇ ˚ presi textu. Vyhoda toho zpusobu komprese je pˇredevˇs´ım v jednoduchosti jeho nasazen´ı, ´ ˚ které se zamˇerˇ uj´ı na kompresi dat, existuje celá rˇ ada. Modern´ı algoprotoˇze programu, ritmy komprese textu jsou nav´ıc velmi efektivn´ı (jak ukazuj´ı napˇr´ıklad vysledky naˇsich ´ experimentu˚ v kapitole 6). 3.2.1

Deflate (gzip)

Deflate je bezeztrátová metoda, která kombinuje kompresi pomoc´ı LZ77 a Huffmanovo kódován´ı [10]. Jedná se o velmi populárn´ı metodu komprese dat, coˇz napˇr´ıklad dokazuje fakt, zˇ e jej´ı podpora je implementována ve vˇetˇsinˇe modern´ıch vyvojov ych ´ ´ prostˇred´ıch nebo operaˇcn´ıch systémech. Metodu Deflate vyuˇz´ıvá známy´ program a formát ZIP, to je mimo jiné také obecnˇe zaˇzity´ pojem vyjadˇruj´ıc´ı kompresi dat10 nejen u laické veˇrejnosti. Deflate je pomˇernˇe rychly´ algoritmus, coˇz se tyk´ ´ a jak komprese, tak i pˇredevˇs´ım dekomprese. Jeho nespornou vyhodou je i to, zˇ e nen´ı pamˇet’ovˇe pˇr´ıliˇs nároˇcny. ´ ´ Proud dat komprimovany´ metodou Deflate je tvoˇren nˇekolika bloky, kde kaˇzdy´ blok ˚ ze byt ˚ muˇ u˚ [10]: ´ uloˇzen jedn´ım z následuj´ıc´ıch zpusob ´ • Blok uloˇzeny´ bez kodov´ an´ı / komprese (hrubá data) ´ • Blok kodovan y´ pomoc´ı pˇredem dohodnutého Huffmanova stromu ´ • Blok kodovan y´ pomoc´ı Huffmanova stromu, ktery´ je souˇca´ st´ı bloku Samotná komprese metodou Deflate prob´ıhá dvoufázovˇe: 1. Pomoc´ı LZ77 jsou odstranˇeny opakuj´ıc´ı se rˇ etˇezce 10

Slangovˇe se cˇ asto pouˇz´ıvá term´ın zazipovat soubor“ ”

13

´ ´ 2. Vystup (1.) je kodov´ an pomoc´ı Huffmanova kodov´ an´ı ´ Huffmanovo kodov´ ´ an´ı [11] patˇr´ı do skupiny statistických kompresn´ıch algoritmu. ˚ Statistické metody pracuj´ı s cˇ etnost´ı jednotlivych ´ znaku˚ (nebo jejich skupin) ve vstupn´ım sou˚ s vyˇssˇ´ı cˇ etnost´ı jsou pˇriˇrazovány kratˇs´ı kody ´ (ménˇe bitu, ˚ napˇr. nejˇcastˇeboru dat. Znakum ˚ ze byt ´ ˚ s ménˇe cˇ astym ji se vyskytuj´ıc´ı znak muˇ an pouze jedn´ım bitem) a znakum ´ kodov´ ´ ´ vyskytem jsou pˇriˇrazovány kody delˇs´ı. ´ Existuj´ı dvˇe varianty tohoto algoritmu. Statická varianta provád´ı kompresi ve dvou ˚ pˇri fáz´ıch — v prvn´ı fázi je provedena statistika cˇ etnosti vyskytu jednotlivych znaku, ´ ´ ´ ´ které je vytvoˇren strom kodov´ an´ı, ve druhé fázi docház´ı k samotnému zakodov´ an´ı vstupn´ıch dat s vyuˇzit´ım z´ıskané statistiky. Vyhodou této metody je vytvoˇren´ı optimáln´ı statis´ tiky pro cely´ vstupn´ı soubor, nevyhodou je pomalé zpracován´ı, protoˇze jsou nutné dva ´ ˚ pruchody celého vstupn´ıho souboru. Dalˇs´ı nevyhodou je nutnost uloˇzen´ı binárn´ıho stro´ mu spolu s komprimovanymi daty. Dynamická varianta vytvárˇ´ı statistiku cˇ etnosti znaku˚ a ´ ´ ˚ samotné kodov´ an´ı bˇehem jediného pruchodu. To plat´ı jak pˇri kompresi, tak i pˇri dekompresi. D´ıky tomu nen´ı nutné ukládat binárn´ı strom spolu s komprimovanymi daty. Záro´ venˇ je proces komprese rychlejˇs´ı, protoˇze nen´ı nutné vstupn´ı soubor procházet dvakrát, ale na druhou stranu je nutné upravovat strom cˇ etnost´ı, coˇz samotny´ proces komprese ve srovnán´ı se statickou variantou zpomaluje. Jelikoˇz má kompresor informace o cˇ etnosti ´ u˚ znaku˚ pouze u té cˇ a´ sti souboru dat, kterou doposud proˇsel, nemus´ı byt ´ pˇriˇrazen´ı kod ˚ ze docházet v rámci celého souboru k dosaˇzen´ı horˇs´ıho vysledku zcela optimáln´ı, cˇ ´ımˇz muˇ ´ komprese. LZ77 [23], publikovany´ v roce 1977 Abrehamem Lempelem a Jacobem Zivem, je algo˚ Algoritmus vyuˇz´ıvá tzv. ritmus patˇr´ıc´ı do skupiny slovn´ıkovych ´ kompresn´ıch algoritmu. posuvné okno — sliding window — které obsahuje konec (typicky posledn´ıch nˇekolik kB) doposud pˇreˇctenych ´ dat ze zdrojového souboru. Bˇehem komprese se algoritmus snaˇz´ı naj´ıt v oknˇe opakuj´ıc´ı se vyskyt cˇ a´ sti vstupn´ıch dat, d´ıky cˇ emuˇz by bylo moˇzné tento ´ ´ vyskyt zakodovat pouze jako ofset a délku v posuvném oknˇe. Pˇri dekompresi je nutné ´ ˚ posuvné okno udrˇzovat stejnym jak tomu bylo bˇehem fáze komprese. ´ zpusobem, ˚ e varianty algoritmu, liˇs´ıc´ı se v závislosti na tom, jak koduj´ ´ Existuj´ı ruzn´ ı vystup. Jako ´ ˚ zeme uvést varianty LZSS, LZH a LZB [2]. pˇr´ıklad muˇ 3.2.2

BZip2

BZip2 je svobodny, ´ bezeztrátovy´ kompresn´ı algoritmus a také program. Jeho autorem je Julian Seward, ktery´ prvn´ı verzi publikoval v roce 1996. Jedná se opˇet o pomˇernˇe rychly´ algoritmus, ktery´ ve srovnán´ı s metodou Deflate dosahuje ve vˇetˇsinˇe pˇr´ıpadu˚ ´ cinnˇejˇs´ı algoritmus. Prvn´ı verze tohoto allepˇs´ıch vysledk u˚ a jedná se tak celkovˇe o uˇ ´ goritmu vyuˇz´ıvala aritmetické kódován´ı, které ale bylo záhy nahrazeno Huffmanovym ´ ´ kodov´ an´ım. Algoritmus komprimuje bloky dat o velikosti v rozmez´ı 100 aˇz 900kB (nastavitelné skokovˇe po 100kB). Kombinuje techniky BWT (Burrows-Wheeler Transform), MTF (Move-To-Front transform), Huffmanovo kódován´ı a RLE (Run-Length Encoding) [26]. Burrows-Wheeler Transform [16] je transformace známá také pod oznaˇcen´ım komprese blokovým tˇr´ıdˇen´ım. Tato transformace ve vstupn´ım souboru nemˇen´ı hodnotu zˇ a´ dného

14

symbolu, provád´ı pouze permutaci jejich poˇrad´ı. Pokud vstupn´ı soubor obsahuje opakuj´ıc´ı se podˇretˇezce, budou po proveden´ı transformace ve vystupu m´ısta, na kterych se ´ ´ budou za sebou nacházet stejné opakuj´ıc´ı se znaky. A to je pˇredpoklad, d´ıky kterému je moˇzné následnˇe dosáhnout lepˇs´ıho vysledku komprese. Transformace se provád´ı setˇr´ıdˇe´ n´ım vˇsech rotac´ı textu v tabulce a jako vystup se pouˇzije posledn´ı sloupec dané tabulky. ´ ˇ ´ BWT transformace, inverzn´ı operaci pak zobrazuje Algoritmus 1 znázornuje pseudokod algoritmus 2. Algoritmus 1 Transformace BWT (string s) ´ dky jsou vˇsechny moˇzné rotace s 1: vytvoˇr tabulku, rˇ a ´ dky abecednˇe 2: setˇrid’ rˇ a 3: return posledn´ı sloupec tabulky

Algoritmus 2 Inverzn´ı BWT (string s) 1: vytvoˇr pr´ azdnou tabulku 2: for i = 1 to délka(s) do 3: vloˇz s jako sloupec tabulky pˇred prvn´ı sloupec tabulky 4: . (prvn´ım vloˇzen´ım se vytvoˇr´ı prvn´ı sloupec) ’ 5: setˇrid sloupce tabulky abecednˇe 6: end for ´ dek, u kterého sloupec konˇc´ı znakem EOF 7: return rˇ a Move-To-Front transform [4], cˇ esky pˇresunˇ na zaˇca´ tek, je metoda, která pracuje na principu nahrazován´ı symbolu˚ vstupn´ı abecedy za jejich indexy do pole symbolu˚ a naopak. Jedná se o reverzibiln´ı transformaci, tzn. zˇ e existuje inverzn´ı operace, kterou je ˚ moˇzné data vrátit do puvodn´ ı podoby. Proces transformace MTF je následuj´ıc´ı — kaˇzdá ´ hodnota vstupu je kodov´ ana pomoc´ı indexu, ktery´ odkazuje do pole. Toto pole se v ˚ ehu transformace neustále mˇen´ı. Tedy — v poli je nalezena odpov´ıdaj´ıc´ı hodnota prubˇ znaku na vstupu a index této hodnoty je zapsán na vystup. Na zaˇca´ tku je pole uspoˇra´ dáno ´ ´ podle hodnot (napˇr´ıklad kodujeme-li jednobajtovˇe, pak 0, 1, . . . , 255), prvn´ı hodnota vs´ ´ tupu je tak vˇzdy zakodov´ ana vlastn´ı“ hodnotou. Po zakodov´ an´ı kaˇzdého znaku je v poli ” znak pˇresunut na zaˇca´ tek (odtud název metody). Reverzn´ı MTF transformace prob´ıhá tak, zˇ e se ve vychoz´ ım stavu opˇet zaˇc´ıná s uspo´ ´ rˇ a´ danym an´ı prob´ıhá postupnˇe tak, zˇ e ´ polem (napˇr. hodnoty 0, 1, . . . , 255). Dekodov´ ´ zakodovan´ a hodnota ze vstupu urˇcuje index v poli, kde je uloˇzena hodnota pro vystup. ´ ´ Po dekodov´ an´ı kaˇzdého znaku docház´ı k pˇresunut´ı tohoto znaku na zaˇca´ tek, stejnˇe jako ´ bˇehem procesu kodov´ an´ı. ´ MTF transformace je zobrazen na vypisu ´ inPseudokod algoritmus 3, pseudokod ´ verzn´ı operace MTF je pak znázornˇen na vypisu algoritmus 4. ´ RLE (Run-length encoding) pˇredstavuje jednoduchou formu bezeztrátové kompre´ se. Koduje vstupn´ı data tak, zˇ e opakuj´ıc´ı se posloupnosti znaku˚ zapisuje jako dvojici

15

Algoritmus 3 MTF (string s) ´ dané jednobajtové hodnoty (0..255)) 1: vytvoˇr pole p (obsahuj´ıc´ı uspoˇra 2: for all (char z in s) do 3: v poli p vyhledej index i znaku z 4: zapiˇs i na vystup v ´ 5: v poli p pˇresunˇ z na zaˇca´ tek 6: end for 7: return vystup v ´ Algoritmus 4 Invezn´ı MTF (int[] vstup) ´ dané jednobajtové hodnoty (0..255)) 1: vytvoˇr pole p (obsahuj´ıc´ı uspoˇra 2: for all (int i in vstup) do 3: na vystup v zapiˇs znak z v poli p um´ıstˇeny´ na pozici i ´ 4: v poli p pˇresunˇ znak z na zaˇca´ tek 5: end for 6: return vystup v ´

´ . Nevyhodou tohoto kodov´ an´ı je to, zˇ e vyskyt jednoho opa´ ´ ´ kován´ı znaku (jeden bajt) je nutné kodovat pomoc´ı dvojice <1, znak> (dva bajty) a t´ım ´ cinnost komprese proto závis´ı na charakteru vstup˚ docház´ı k neˇza´ douc´ımu nárustu dat. Uˇ n´ıch dat. 3.2.3

LZMA

LZMA (Lempel-Ziv-Markov-Chain Algorithm) je vylepˇsená verze algoritmu Deflate, resp. ˚ vyuˇz´ıvá vylepˇsenou verzi algoritmu LZ77. LZMA pouˇz´ıvá stejnˇe jako puvodn´ ı LZ77 slovn´ık, ale narozd´ıl od nˇej podporuje jeho mnohem vˇetˇs´ı velikost (aˇz 4GB) a tuto velikost je moˇzné uˇzivatelsky nastavit. LZMA se skládá celkem ze tˇr´ı souˇca´ st´ı — vedle ´ vylepˇseného LZ77 pak jeˇstˇe z kodov´ an´ı Markov-Chain a range kodéru. Algoritmus dosahuje vˇetˇsinou lepˇs´ıch vysledk u˚ neˇz Deflate nebo BZip2, jedná se ale o pamˇet’ovˇe nároˇcnˇejˇs´ı al´ goritmus, coˇz plat´ı hlavnˇe pro kompresi. Komprese dat je také vyraznˇ e pomalejˇs´ı, nicmé´ nˇe dekomprese je extrémnˇe rychlá a pamˇet’ovˇe málo nároˇcná. LZMA je vychoz´ ı kom´ presn´ı metodou formátu 7z programu 7-zip [25]. ´ Range kodér, neboli kódován´ı pomoc´ı intervalu, vyuˇz´ıvá k zakodov´ an´ı vˇsech symbolu˚ ´ zprávy pouze jedno cˇ ´ıslo — narozd´ıl napˇr´ıklad od Huffmanova kodov´ an´ı, které kaˇzdému ˚ co nejsymbolu pˇriˇrazuje urˇcitou bitovou reprezentaci (nejˇcastˇeji se opakuj´ıc´ım znakum ˚ a na vystup ´ ménˇe bitu) pak ukládá postupnˇe za sebou odpov´ıdaj´ıc´ı kody. D´ıky této ´ ˚ ze kodov´ ´ ˚ neˇz je horn´ı odliˇsnosti muˇ an´ı pomoc´ı intervalu dosáhnout lepˇs´ıch vysledk u, ´ ´ ´ hranice jeden-bit-na-symbol u Huffmanova kodov´ an´ı [15]. Kodov´ an´ı pomoc´ı intervalu je ´ matematicky ekvivalentn´ı k aritmetickému kodov´ an´ı. Podrobnˇejˇs´ı informace o principu této metody jsou dostupné napˇr´ıklad v [15].

16

Markov-chain je matematická metoda pro statistické modelován´ı. Podrobnˇejˇs´ı informace jsou k dispozici napˇr´ıklad v [9]. 3.2.4

PPM (Prediction by Partial Matching)

PPM [8] je adaptivn´ı, statistická metoda komprese dat, zaloˇzená na modelech kontextu a ˚ Od svého vzniku, tedy od 90. let minulého stolet´ı, patˇr´ı PPM k pˇredpov´ıdán´ı symbolu. ˚ komprese textu˚ v pˇrirozeném jazyce. Jeho historie sahá nejv´ıce efektivn´ım algoritmum jeˇstˇe dále, jeho dˇr´ıvˇejˇs´ımu rozˇs´ırˇ en´ı bránil ale fakt, zˇ e je velmi nároˇcny´ na pamˇet’ové prostˇredky. Jedná se také o cˇ asovˇe nároˇcnˇejˇs´ı metodu a to se tyk´ ´ a jak komprese, tak i dekomprese. Existuje nˇekolik variant této metody, nˇekteré z nich implementuj´ı napˇr´ıklad programy WinRAR nebo 7-zip. Metoda PPM je zaloˇzena na modelech [6, 8]. Kaˇzdy´ z modelu˚ si udrˇzuje statistiky ˚ Kaˇzdy´ model má doposud zhlédnutych ´ symbolu˚ v kontextu pˇredcházej´ıc´ıch symbolu. urˇceno, kolik symbolu˚ si bude takto udrˇzovat. Celá metoda PPM pak udrˇzuje nˇekolik ˚ y´ poˇcet symbolu˚ — od nula symbolu˚ aˇz po tˇechto modelu˚ a kaˇzdy´ z nich udrˇzuje ruzn maximáln´ı poˇcet n, kde hodnota n pˇredstavuje stupenˇ PPM a znaˇc´ı se typicky PPM(n). ˇ nejsou tedy nijak limitovány Existuj´ı také varianty, které nemaj´ı pevnˇe stanoveny´ stupen, délkou kontextu, ty se oznaˇcuj´ı PPM*. Modely slouˇz´ı k vypoˇ ´ ctu pˇredpovˇed´ı toho, s jakou pravdˇepodobnost´ı se budou vyskytovat následuj´ıc´ı symboly. Vypoˇctená pravdˇepodob´ nost se pak pouˇz´ıvá k zakodov´ an´ı daného symbolu pomoc´ı aritmetického kódován´ı. Po zpracován´ı kaˇzdého symbolu se model uprav´ı tak, aby zachytil právˇe zpracovany´ symbol. Pˇredpovˇed’ pravdˇepodobnosti pracuje následovnˇe. Pokud je symbol nalezen v nejdelˇs´ım kontextu, je pravdˇepodobnost urˇcena jako relativn´ı cˇ etnost symbolu v daném kontextu. Pokud nen´ı v tomto kontextu symbol nalezen, pouˇzije se dalˇs´ı nejdelˇs´ı kontext. Pˇrechod na jiny´ kontext je indikován zápisem tzv. escape-znaku [6]. Tento proces se opakuje do té doby, dokud nen´ı nalezena shoda, nebo dokud nen´ı k dispozici zˇ a´ dny´ dalˇs´ı kontext. V pˇr´ıpadˇe, zˇ e jiˇz nelze pravdˇepodobnost urˇcit z zˇ a´ dného modelu, docház´ı k proveden´ı fixn´ı pˇredpovˇedi. ˚ e varianty PPM se liˇs´ı v tom, jak rˇ eˇs´ı problematiku urˇcen´ı pravdˇepodobnosti Ruzn´ ˚ Nˇekteré varianty tˇemto symbolum ˚ pˇriˇrazuj´ı konstantnˇe doposud neznámych ´ symbolu. hodnotu 1. Varianta PPMd, kterou jsme vyuˇzili prakticky pˇri implementaci algoritmu˚ komprese XML, navyˇsuje hodnotu pro kaˇzdy´ doposud neshlédnuty´ symbol o jedna a pravdˇepodobnost vyskytu tohoto symbolu je pak vypoˇctena jako pomˇer jedineˇcnych ´ ´ ˚ symbolu˚ k celkovému poˇctu doposud shlédnutych ´ symbolu.

3.3

XML-Aware komprese

Metody komprese, které se pˇr´ımo zamˇerˇ uj´ı na XML, vyuˇz´ıvaj´ı sémantické informace uloˇzené v XML datech. Tyto informace jsou v XML pˇr´ıtomny v podobˇe znaˇcek — ty dávaj´ı sémanticky´ vyznam obsahu, ktery´ je v nich uzavˇren. Základn´ı myˇslenka vˇetˇsiny tˇechto ´ kompresoru˚ je pˇripravit data XML souboru pro bˇezˇ né kompresn´ı algoritmy tak, aby se vyuˇzit´ım vlastnost´ı tˇechto algoritmu˚ dosáhlo efektivnˇejˇs´ı komprese [1, 6, 14]. Existuj´ı

17

i algoritmy, které se specializuj´ı na kompresi struktury XML, pˇriˇcemˇz vyuˇz´ıvaj´ı schémat XML (napˇr´ıklad DTD), nicménˇe i ty provád´ı fináln´ı kompresi bˇezˇ nymi algoritmy [13]. ´ XML-aware algoritmy lze rozdˇelit do dvou základn´ıch skupin — algoritmy s podporou dotazován´ı a algoritmy bez podpory dotazován´ı.

3.4

´ ı Komprese XML s podporou dotazovan´

Komprese s podporou dotazován´ı komprimuje vstupn´ı XML data a pˇri tom ponechává moˇznost dále s daty pracovat i v komprimované podobˇe. Motivace k pouˇzit´ı toho ˚ principu komprese XML nemus´ı byt zmenˇsen´ı datové nároˇcnosti se za´ cˇ istˇe z duvodu chován´ım dotazován´ı. Práce s komprimovanymi daty a dekomprese pouze vybranych ´ ´ ˚ ze byt cˇ a´ st´ı XML muˇ stejného XML v nekompri´ cˇ asovˇe ménˇe nároˇcnˇejˇs´ı, neˇz analyza ´ mované podobˇe. Typickymi pˇredstaviteli této kategorie jsou metody XGrind, XPRESS a ´ XQzip. 3.4.1

XGrind

˚ ktery´ se zaˇcal zabyvat XGrind je dle dostupnych ´ materiálu˚ jedn´ım z prvn´ıch nástroju, ´ problematikou komprese XML s podporou dotazován´ı. Podrobnˇejˇs´ı informace jsou k dispozici v [21]. ´ ´ XGrind oddˇeluje strukturu od dat a strukturu koduje slovn´ıkovym an´ım. U nˇej ´ kodov´ ´ koduje kaˇzdou znaˇcku jako T (tag) a atribut jako A následované jedineˇcnym ´ identifikátorem. Pomoc´ı tohoto identifikátoru se pak odkazuje do slovn´ıku, ktery´ obsahuje ˚ ´ ´ puvodn´ ı upln y´ zápis znaˇcky nebo názvu atributu. Koncové znaˇcky se pak koduj´ ı speciáln´ım znakem, XGrind pouˇz´ıvá konkrétnˇe symbol /. Pˇri dekompresi je koncová znaˇcka vˇzdy odvozena z kontextu11 , nen´ı tedy nutné pro konkrétn´ı koncové znaˇcky vytvárˇ et záznamy ve slovn´ıku. ´ Kodov´ an´ı struktury je homomorfn´ı, to znamená, zˇ e komprimovany´ soubor je také strukturovany. nástroji, jaké ´ T´ım pádem je moˇzné prohl´ızˇ et jej a zpracovávat stejnymi ´ se pouˇz´ıvaj´ı pro práci s XML v bˇezˇ né formˇe [21]. Tento pˇr´ıstup má nˇekolik vyhod: ´ ´ • Upravy dokumentu lze provádˇet pˇr´ımo v komprimované verzi. • Lze vyuˇz´ıt osvˇedˇcené techniky vyvinuté pro práci s XML (analyza ´ cˇ i dotazován´ı). ˚ ci komprimované verzi sché• Komprimovanou verzi XML dat je moˇzné ovˇerˇ it vuˇ matu XML dokumentu. XGrind pracuje specificky s vyˇ ´ ctovymi ´ typy. K jejich identifikaci vyuˇz´ıvá DTD schéma ´ ´ a koduje je pomoc´ı log2 K kodov´ an´ı, kde K je celkovy´ poˇcet hodnot dané domény vyˇ ´ ctového typu [21]. Data XGrind komprimuje pomoc´ı bezkontextové komprese12 . Bezkontextová komˇ prese umoˇznuje lokalizovat rˇ etˇezce pˇr´ımo v komprimovanych datech bez nutnosti je ´ 11

ˇ Vzpomenme, zˇ e well-formed XML dokumenty nedovoluj´ı pˇrekˇr´ızˇ en´ı znaˇcek. ´ ˚ tak, zˇ e tyto kody ´ Bezkontextová komprese pˇriˇrazuje kody jednotlivym nejsou závislé na ´ rˇ etˇezcum aktuáln´ı pozici daného rˇ etˇezce ve zdrojovém souboru dat. 12

18

˚ pˇri jejich hledán´ı dekomprimovat. Toho se dosahuje jednoduchym protoˇze ´ zpusobem, hledany´ rˇ etˇezec je nejdˇr´ıve komprimován stejnou metodou, jaká se pouˇzila pˇri kompresi vstupn´ıho souboru. Takto komprimovany´ rˇ etˇezec se pak pˇr´ımo hledá v komprimovanych ´ datech. ´ Proto XGrind vyuˇz´ıvá konkrétnˇe neadaptivn´ı Huffmanovo kodov´ an´ı. Kontextové13 algoritmy, jako napˇr´ıklad LZ77, nejsou pro pouˇzit´ı v této situaci vhodné. Pokud by se ˚ pouˇzila kontextová komprese, doˇslo by k nárustu reˇzie nutné k dekompresi kaˇzdého rˇ etˇezce pˇred jeho porovnán´ım s hledanou hodnotou a pˇred proveden´ım samotné dekomprese by musela aplikace vyhodnotit pozici rˇ etˇezce v souboru a podle toho urˇcit pˇr´ısluˇsné ´ kodov´ an´ı. ´ Pro zvyˇ an´ı rozd´ılné tabulky roz´ sen´ı efektivity komprese pouˇz´ıvá XGrind pˇri kodov´ loˇzen´ı cˇ etnosti znaku˚ a to zvlásˇ t’ pro jednotlivé prvky a pro nevyˇ ´ ctové atributy. T´ım ˇ zohlednuje sémantiku dat, protoˇze jak jiˇz bylo nˇekolikrát zm´ınˇeno, data uloˇzená ve stejné struktuˇre byvaj´ ´ ı sémanticky pˇr´ıbuzná. Architektura XGrind podporuje dotazován´ı v komprimovanych ´ datech v závislosti na typu dotazu. Dotazy na pˇresnou shodu, pˇri kterych se hledá znaˇcka nebo atribut ´ pˇresnˇe se shoduj´ıc´ı s hledanym a dotazy na shodu prefixu, pˇri kterych ´ vyrazem ´ ´ se hledá prefix znaˇcky odpov´ıdaj´ıc´ı hledané hodnotˇe. V obou pˇr´ıpadech XGrind komprimuje cestu dotazu a predikát dotazu stejnou metodou, jakou pouˇzil pˇri kompresi dat. D´ıky tomu, zˇ e ´ se v obou pˇr´ıpadech vyuˇz´ıvá bezkontextová komprese, odpov´ıdaj´ı kodovan´ e hodnoty dotazu pˇresnˇe hodnotám v komprimovanych ´ datech. XGrind vyuˇz´ıvá bajtové zarovnán´ı ´ ˚ coˇz je mnohem rychlejˇs´ı (nikoliv bitové), tzn. porovnáván´ı prob´ıhá vˇzdy na urovni bajtu, neˇz pˇri operac´ıch s jednotlivymi bity, nicménˇe nen´ı tak efektivn´ı. Teprve aˇz po nalezen´ı ´ poˇzadovaného prvku docház´ı k jeho dekompresi. U dotazu˚ na cˇ a´ steˇcnou shodu a rozsah ˚ komprimuje XGrind pouze cestu dotazu. Pˇri postupném pruchodu komprimovanych ´ dat pak vyhledává vˇsechny shody hledané cesty a teprve u odpov´ıdaj´ıc´ıch provád´ı dekompresi hodnot a vyhodnocen´ı dotazu. Tento typ dotazu je tedy nároˇcnˇejˇs´ı na vyhodnocen´ı. ˚ Dany´ zpusob dotazován´ı nen´ı zcela optimáln´ı, jeho nedostatky jsou nast´ınˇeny v kapitole 3.4.3. 3.4.2

XPRESS

XPRESS je dalˇs´ım nástrojem pro kompresi XML z rodiny algoritmu˚ podporuj´ıc´ıch dotazován´ı. Pˇri jeho návrhu vycházeli autoˇri pˇredevˇs´ım z vlastnost´ı nástroje XGrind. XPRESS pˇredstavil nové, efektivnˇejˇs´ı metody komprese XML a optimalizoval principy dotazován´ı v komprimovanych ´ datech [18]. ´ XPRESS vyuˇz´ıvá automatické odvozen´ı datovych ´ typu˚ a provád´ı jejich efektivn´ı koˇ dován´ı. Autoˇri se inspirovali XML-aware kompresorem XMill, ktery´ také umoˇznuje efek´ tivnˇe kodovat specifické datové typy (celá cˇ ´ısla atp.), nicménˇe XPRESS narozd´ıl od XMill provád´ı jejich automatickou detekci bez nutnosti uˇzivatelského zásahu. Podporuje celkem sˇ est sémantických kompresoru, ˚ jejichˇz pˇrehled zobrazuje tabulka 1. Sémantické kom13

´ Pˇri kontextové kompresi jsou generované kody závislé na pozici symbolu ve vstupn´ıch datech.

19

presory u8, u16, u32 a f32 jsou rozd´ılové kodéry cˇ ´ıselnych ´ hodnot a kompresory dict8 a ´ huff jsou urˇcené pro kodov´ an´ı textu. kod ´ u8 u16 u32 f32 dict8 huff

popis kompresoru ´ kodov´ an´ı celych ´ cˇ ´ısel, kde max − min < 27 ´ kodov´ an´ı celych ´ cˇ ´ısel, kde 27 + 1 < max − min < 215 ´ kodov´ an´ı celych ´ cˇ ´ısel, kde 215 + 1 < max − min < 231 ´ kodov´ an´ı cˇ ´ısel s desetinnou cˇ a´ rkou ´ kodov´ an´ı vyˇ ´ ctovych ´ dat ´ Huffmanovo kodov´ an´ı textovych ´ dat

Tabulka 1: Pˇrehled sémantickych ´ kompresoru˚ nástroje XPRESS ´ XPRESS komprimuje data bezkontextovˇe — kodov´ an´ı prob´ıhá bez závislosti na jeˇ jich pozici v souboru. To opˇet umoˇznuje provádˇet dotazován´ı pˇr´ımo v komprimovanych ´ datech. Vystup je, stejnˇe jako u XGrind, homomorfn´ı [18]. ´ ˚ XPRESS oddˇeluje strukturu od dat. Oproti ostatn´ım algoritmum, popsanych ´ v tomto ´ ´ textu, ale zcela jinak pˇristupuje k jej´ımu kodov´ an´ı. XPRESS nevyuˇz´ıvá slovn´ıkové kodován´ı, ale reverzn´ı aritmetické kódován´ı. Pˇri nˇem pˇriˇrazuje kaˇzdé cestˇe, nebo jej´ı podmnoˇzinˇe, ´ jednoznaˇcny´ interval v rozmez´ı <0.0, 1.0). Reverzn´ı aritmetické kodov´ an´ı rozdˇeluje cely´ ˚ Kaˇzdému subinterval na subintervaly a jednotlivé subintervaly jsou pˇriˇrazeny prvkum. ´ erná cˇ etnosti intervalu je pˇriˇrazen právˇe jeden prvek. Velikost kaˇzdého intervalu je umˇ ˚ Podrobnosti postupu vypoˇ prvku (v pomˇeru k celkové cˇ etnosti prvku). ´ ctu intervalu jsou k dispozici napˇr´ıklad v [18]. ˚ Procesor dotazu Vyhodnocen´ı cesty dotazu pak pˇredstavuje vyhodnocen´ı intervalu. pˇrevede cestu dotazu (posloupnost prvku˚ od koˇrene k aktuáln´ımu prvku) na interval ˚ stejnym jakym ´ zpusobem, ´ to provedl u cest bˇehem komprese XML. Poté vyhledá ty prvky, které odpov´ıdaj´ı dané cestˇe podle toho, zda interval cesty dotazu leˇz´ı v intervalu ˚ které odpov´ıdaj´ı hledané cesty prvku. Vyhodnocen´ı dotazu pak prob´ıhá pouze u prvku, cestˇe. Tento postup je tedy efektivnˇejˇs´ı, neˇz v pˇr´ıpadˇe XGrind, ktery´ porovnává kaˇzdou ˚ cestu. Nicménˇe ani tento zpusob nen´ı zcela optimáln´ı, jak je popsáno v následuj´ıc´ı kapitole 3.4.3. 3.4.3

XQzip

Autoˇri XQzip si vˇsimli u kompresn´ıch algoritmu˚ XGrind a XPRESS nˇekolika nedostatku˚ a navrhli dalˇs´ı metodu komprese XML s podporou dotazován´ı. XQZip rˇ eˇs´ı efektivnˇejˇs´ım ´ kodov´ an´ım struktury jak samotnou kompresi, tak i efektivnˇejˇs´ı dotazován´ı. Pro zvyˇ ´ sen´ı efektivity také pracuje s vyrovnávac´ı pamˇet´ı, pomoc´ı které zrychluje provádˇen´ı opakovanych ´ cˇ i podobnych ´ dotazu˚ [7]. Nejdˇr´ıve k problematickym ´ parti´ım XGrind a XPRESS. XGrind mus´ı pˇri vyhodno´ cen´ı dotazu procházet cely´ dokument a u kaˇzdého zakodovan´ eho prvku cˇ i atributu mus´ı porovnávat jeho cestu s cestou dotazu. Pokud se cesty shoduj´ı, dotaz se vyhodnot´ı. Pˇri

20

provádˇen´ı dotazu tak mus´ı proj´ıt cely´ soubor a porovnávat jednotlivé cesty. XPRESS rˇ eˇs´ı ´ ˇ tuto problematiku pomoc´ı reverzn´ıho aritmetického kodov´ an´ı, které odstranuje nutnost porovnávat kaˇzdou cestu, protoˇze se s vyuˇzit´ım intervalu˚ vybere pouze odpov´ıdaj´ıc´ı podmnoˇzina cest. Nicménˇe i zde je nutné dále vyhodnotit cestu kaˇzdého prvku této ˚ ze byt podmnoˇziny a tato podmnoˇzina muˇ ´ stále velmi obsáhlá (pˇredevˇs´ım u rozsáhlych ´ ˚ u kterych XML dokumentu, ´ se cˇ asto opakuje stejná struktura). XGrind i XPRESS vytvárˇ´ı ˇ homomorfn´ı vystup, ktery´ je stejnˇe strukturovany´ jako vstup, coˇz má pˇres zminovan´ e ´ vyhody i jednu nevyhodu — pokud se v dokumentu objevuje v´ıce dat um´ıstˇenych ´ ´ ´ ve ˚ stejné struktuˇre, docház´ı k nárustu dat samotné struktury, protoˇze se uloˇzen´ı struktury nijak neoptimalizuje [7]. XQzip rˇ eˇs´ı oba uvedené problémy zaveden´ım struktury SIT (Structure Index Tree), d´ıky které docház´ı k odstranˇen´ı duplikovanych struktur. Pomoc´ı hashovac´ıch tabulek ´ ˚ této struktury. XQzip dokápak pˇriˇrazuje komprimované bloky dat jednotlivym ´ prvkum ˚ zˇ e efektivnˇeji vyhodnocovat dotazy, protoˇze nemus´ı prohledávat celou puvodn´ ı strukturu, ale pouze optimalizovanou v podobˇe SIT [7]. XQzip podporuje sˇ irˇs´ı sˇ kálu XPath dotazu˚ [7], nab´ız´ı tak rozsáhlejˇs´ı moˇznosti dotazovan´ı v komprimovanych ´ datech, neˇz jak je tomu u XGrind cˇ i XPRESS. Dalˇs´ı optimalizaˇcn´ı technikou, kterou XQzip vyuˇz´ıvá, je buffer-pool, ktery´ v pamˇeti udrˇzuje posledn´ı dekomprimované bloky dat, cˇ ´ımˇz se cˇ a´ steˇcnˇe ˇ odstranuje reˇzie potˇrebná pro opakovanou dekompresi dat u podobnych ´ cˇ i stejnych ´ dota˚ zu. Dalˇs´ı podrobnosti o XQzip jsou k dispozici napˇr´ıklad v [7].

3.5

´ ı Komprese XML bez podpory dotazovan´

Kategorie kompresn´ıch algoritmu˚ bez podpory dotazovan´ı zahrnuje ty algoritmy, které komprimuj´ı XML data s vyuˇzit´ım sémantickych ´ informac´ı (z´ıskanych ´ ze struktury XML). Pokud ale chceme s daty pracovat, mus´ıme je nejdˇr´ıve jako celek dekomprimovat, pak zpracovat a následnˇe opˇet jako celek komprimovat. Do této kategorie patˇr´ı napˇr´ıklad XMill, MHMPPM (XMLPPM), SCMPPM a Xml Structure Compression. Prvn´ı tˇri pˇredstavitelé — XMill, XMLPPM a SCMPPM — pracuj´ı na stejném principu. Zpracovávaj´ı a pˇripravuj´ı XML data tak, aby vyuˇzili co nejv´ıce vlastnost´ı kompresn´ıch ˚ které pouˇz´ıvaj´ı k fináln´ı kompresi. Mezi ty patˇr´ı pˇredevˇs´ım GZip, BZip2 a algoritmu, PPM. Metoda Xml Structure Compression se nezabyv´ ´ a kompres´ı samotnych ´ dat, ale speciali´ zuje se na efektivn´ı kodov´ an´ı struktury. K tomu vyuˇz´ıvá schémata XML, konkrétnˇe DTD. 3.5.1

XMill

˚ XMill [14] patˇr´ı mezi nejznámˇejˇs´ı pˇredstavitele této kategorie kompresn´ıch algoritmu. Jako jeden z prvn´ıch pouˇzil myˇslenku komprimovat XML oddˇelen´ım struktury od dat a ´ data seskupit podle jejich sémantické pˇr´ıbuznosti. Struktura se koduje pomoc´ı slovn´ıkového ´ kodov´ an´ı, znaˇcky a názvy atributu˚ jsou tedy m´ısto neustálého vypisován´ı nahrazeny ˚ ´ odkazy do slovn´ıku. Uˇz jen tento zpusob kodov´ an´ı zaruˇc´ı sn´ızˇ en´ı datové nároˇcnosti ´ kodovan ych dat. Data se ukládaj´ı oddˇelenˇe, seskupená podle sémantického vyznamu ´ ´

21

(jinak rˇ eˇceno podle jejich um´ıstˇen´ı v XML), a pak se komprimuj´ı nˇekterym ´ z bˇezˇ nych ´ al˚ Puvodn´ ˚ goritmu. ı verze XMill podporuje metody Deflate, BZip2 a PPM. Tomuto nástroji se v této diplomové práci vˇenujeme podrobnˇeji a jeho popisu je vˇenována speciáln´ı kapitola, konkrétnˇe kapitola 4. 3.5.2

MHMPPM (XMLPPM)

MHMPPM (Multiplexed Hierarchical Modeling based on Prediction by Parital Match) [6] pˇred˚ stavuje dalˇs´ı zpusob komprese XML zaloˇzeny´ na obdobném principu, jaky´ pouˇz´ıvá XMill. ˚ ´ Rozd´ıl mezi nimi je pˇredevˇs´ım ve zpusobu kodov´ an´ı struktury a samotnych ´ dat. MHMPPM je zaloˇzen na pouˇzit´ı metody PPM [6]. MHMPPM pracuje dvoufázovˇe. V ´ prvn´ı fázi prob´ıhá kodov´ an´ı vstupn´ıho XML metodou ESAX (Encoded SAX) a v druhé ´ fázi je vystup ESAX kodov´ an pomoc´ı metody PPM. ´ ˚ ´ Bˇehem prvn´ıch experimentu˚ se autoˇri zamˇerˇ ili na odliˇsny´ zpusob kodov´ an´ı, neˇz jaky´ pouˇz´ıvá XMill. Zvolili ESAX, ktery´ je zaloˇzen na SAX modelu, kdy se jednotlivé události ´ vyvolávané SAX analyzátorem koduj´ ı dle následuj´ıc´ıho postupu. Jednotlivé události (za´ ˚ Pˇri cˇ a´ tek znaˇcky, konec znaˇcky, atributy, poznámky, . . . ) se koduj´ ı jako sekvence bajtu. ˚ V pˇr´ıpadˇe, zˇ e jejich tvorbˇe si kodér a dekodér udrˇzuj´ı konzistentn´ı tabulky symbolu. ´ a ten zap´ısˇ e do kodér naraz´ı na novy, ´ dosud neznámy´ symbol, pˇriˇrad´ı mu novy´ kod ´ pak zap´ısˇ e jeho samotnou hodnotu. Pˇri opakovaném vystupu. Ihned za kaˇzdy´ novy´ kod ´ ´ ´ kodov´ an´ı stejného symbolu (ˇretˇezce) se pak do vystupu zapisuje pouze dany´ kod. ´ ´ Ukázku kodov´ an´ı pomoc´ı ESAX si ukázˇ eme na pˇr´ıkladu následuj´ıc´ı znaˇcky [6]: <elt att ="asdf">XYZ Nyn´ı budeme pˇredpokládat, zˇ e kodér jiˇz v minulosti narazil na znaˇcku <elt> a pˇriˇra´ 10. Naopak na atribut att v tuto chv´ıli naraz´ı poprvé a pˇriˇrad´ı mu prvn´ı dostupdil ji kod ´ pro atributy, coˇz je 0D. Vysledek ´ ny´ volny´ kod kodov´ an´ı pak bude následuj´ıc´ı [6]: ´ <elt | att = | "asdf" | > | XYZ | 10| 0D a t t 00 | a s d f 00 | FF | FE X Y Z 00 | FF ´ Takto kodovan y´ vystup je bˇehem druhé fáze komprimován metodou PPM nebo jinou ´ dostupnou metodou komprese dat. Dalˇs´ım vylepˇsen´ım algoritmu bylo pouˇzit´ı metody Multiplexed Hierarchical Modeling. ˚ ´ U puvodn´ ı varianty vyuˇz´ıval ESAX bˇehem kodov´ an´ı pouze jeden model, pomoc´ı které´ ho postupnˇe zapisoval kodovan´ a data. Nová metoda pouˇz´ıvá celkem cˇ tyˇri modely, mezi kterymi pˇrep´ıná14 a do kterych zapisuje vystup. Jedná se o modely pro názvy prvku˚ a ´ ´ ´ ˚ vlastn´ı stav, atributu, ˚ strukturu prvku, ˚ atributy a rˇetˇezce. Kaˇzdy´ model si pak udrˇzuje svuj ale vˇsechny cˇ tyˇri modely sd´ılej´ı spoleˇcny´ aritmeticky´ kodér [6]. ´ Násˇ dˇr´ıve uvedeny´ pˇr´ıklad by se do jednotlivych násle´ modelu˚ rozdˇelil a zakodoval dovnˇe [6]: 14

Odtud název multiplexed.

22

Prvky: Att: Znaky: Symb:

| <elt |10 | | |

| att = | | 0D | | a t t | 00

| "asdf" | > | | | a s d f 00 | FF | | | |

| XYZ | FE | | X Y Z | 00 | |

| | FF | | |

Pouˇzit´ım nˇekolika od sebe oddˇelenych u˚ predikce ´ modelu˚ se dosahuje lepˇs´ıch vysledk ´ pravdˇepodobnosti symbolu˚ a dosahuje se tak efektivnˇejˇs´ı komprese. MHMPPM vyuˇz´ıvá jeˇstˇe dalˇs´ı optimalizaˇcn´ı techniky, kdy do jednotlivych modelu˚ vkládá dalˇs´ı pomocné ´ ˚ Podrobnosti v [6]. informace, aby metoda PPM dosáhla jeˇstˇe lepˇs´ıch vysledk u. ´ 3.5.3

SCMPPM

Dalˇs´ı metodou komprese XML vyuˇz´ıvaj´ıc´ı PPM je SCMPPM (Structural Contexts Model and Prediction by Partial Matching). Kombinuje obecny´ model pro kompresi strukturovanych ´ dokumentu˚ SCM (Structural Context Model) a kompresn´ı techniku PPM (Prediction by Partial Matching) [1]. ˚ ktery´ vycház´ı z mySCM je obecny´ model komprese strukturovanych ´ dokumentu, sˇ lenky, zˇ e informace uloˇzené ve stejné struktuˇre budou m´ıt velmi podobnou slovn´ıkovou distribuci a naopak, zˇ e informace uloˇzené v odliˇsné struktuˇre budou m´ıt tuto distribuci odliˇsnou [1]. I zde se tedy pˇredpokládá, zˇ e data ve stejné struktuˇre jsou sémanticky pˇr´ıbuzná a jejich seskupen´ım se bude dosahovat lepˇs´ıch vysledk u˚ komprese. Mohou ale ´ existovat i pˇr´ıpady, zˇ e i data z odliˇsnych ´ struktur jsou sémanticky pˇr´ıbuzná. Pˇredstavme si informace o kniˇzn´ıch záznamech, kde mohou byt ´ informace o autorovi knihy a dále ˚ informace o lidech, kteˇr´ı knihy nˇejakym revidovali nebo hodnotili — vˇsechny ´ zpusobem ’ tyto záznamy, byt um´ıstˇené v jiné struktuˇre, obsahuj´ı jména lid´ı. Proto SCM provád´ı heuristické sluˇcován´ı sémanticky pˇr´ıbuznych ´ skupin do spoleˇcného kontextu [1]. SCMPPM udrˇzuje PPM model pro kaˇzdy´ kontext. Ty se vytvárˇ´ı a udrˇzuj´ı pro kaˇzdou ˚ strukturu. Bˇehem pruchodu skrz XML pak SCMPPM mezi jednotlivymi modely pˇrep´ıná ´ ´ a zapisuje do nich data. Kodov´ an´ı vystupu pouˇz´ıvá sd´ıleny´ aritmeticky´ kodéru. SCMPPM ´ ´ pˇrep´ınán´ı modelu˚ je uveden na vypisu obsahuje vˇzdy jeden vychoz´ ı model. Pseudokod ´ ´ algoritmu 5. SCMPPM pracuje na velmi podobném principu jako XMill. Dalˇs´ı podrobnosti o této metodˇe jsou k dispozici pˇredevˇs´ım v [1]. 3.5.4

Komprese struktury XML

Doposud popsané metody komprese XML se zamˇerˇ uj´ı na vyuˇzit´ı sémantickych infor´ mac´ı pˇr´ıtomnych ´ v XML datech k seskupen´ı sémanticky pˇr´ıbuznych ´ dat a následnˇe je˚ Strukturu koduj´ ´ jich kompresi nˇekterym ı s vyuˇzit´ım ´ z bˇezˇ nych ´ kompresn´ıch algoritmu. ´ slovn´ıkového kodov´ an´ı, které ale nijak dále neoptimalizuj´ı. Xml Structure Compression ´ [13] (komprese struktury Xml) se zabyv´ struk´ a pˇredevˇs´ım moˇznost´ı efektivnˇeji kodovat turu XML a to v pˇr´ıpadˇe, zˇ e je k dispozici ke konkrétn´ımu jazyku jeho schéma DTD. Document Type Definition (DTD) definuje strukturu XML dokumentu t´ım, zˇ e urˇcuje ˚ DTD lze vloˇzit pˇr´ımo do XML (inline), nebo jej lze seznam povolenych ´ prvku˚ a atributu. pouˇz´ıt pomoc´ı reference na extern´ı soubor [30].

23

Algoritmus 5 Pˇrep´ınán´ı modelu˚ MHMPPM 1: aktualniM odel ← def aultM odel 2: while existuje slovo ke zpracov´ an´ı do 3: slovo ← prectiDalsiSlovo() 4: for all symbol ze slovo do 5: kodujDekduj(symbol, aktualniM odel) 6: end for 7: if slovo je then 8: ulozNaZasobnik(aktualniM odel) 9: aktualniM odel ← modelP roSlovo 10: else 11: if slovo je then 12: aktualniM odel ← vyzvedniM odelZeZasobniku() 13: end if 14: end if 15: end while

Obrázek 3: Pˇr´ıklad DTD [13] Princip komprese je následuj´ıc´ı — eliminovat informace definované ve schématu, které se nacházej´ı redundantnˇe také v samotném XML souboru. Komprese struktury pracuje s DTD schématem, ze kterého jeho analyzou z´ıskává charakteristiku XML doku´ ˚ které jsou vuˇ ˚ ci nˇemu validn´ı. Tyto informace pak pouˇz´ıvá k efektivn´ımu kodov´ ´ mentu, an´ı struktury konkrétn´ıho XML dokumentu. Postup komprese si ukázˇ eme na jednoduchém pˇr´ıkladu. Vzorové schéma DTD je ˚ ci nˇemu validn´ı vzorová XML data jsou pak zobrazena na znázornˇeno na obrázku 3, vuˇ ˚ ci DTD obrázku 4 (pro správnou kompresi je nutné, aby konkrétn´ı XML data byla vuˇ ˚ Napˇr´ıklad u prvku book specivalidn´ı). Dané DTD schéma popisuje celkem sˇ est prvku. fikuje, zˇ e jeho prvn´ı podˇr´ızeny´ prvek bude prvek author, druhy´ title a dále bude násle˚ podˇr´ızeny´ prvek mus´ı dovat jeden nebo v´ıce prvku˚ chapter. Prvek chapter pak jako svuj obsahovat prvek title, za kterym ´ mus´ı následovat jeden nebo v´ıce prvku˚ paragraph nebo figure. Podrobné informace o pravidlech zápisu DTD jsou k dispozici napˇr´ıklad v [30]. ˚ patrnych ´ Vzhledem k uvedenym nˇekteré in´ pravidlum ´ z DTD, nen´ı nutné kodovat formace pˇr´ımo do struktury XML. Napˇr´ıklad prvek book mus´ı obsahovat jako své pod´ rˇ´ızené prvky author a title v daném poˇrad´ı. Proto je nutné do vystupu zakodovat pouze ´ informaci o poˇctu následuj´ıc´ıch prvku˚ paragraph nebo figure. V naˇsem pˇr´ıpadˇe tedy hod-

24

Darrell Huff < title >How to Lie with Statistics < title >Introduction
<paragraph>With prospects of ... <paragraph>Then a Sunday newspaper ... [ 8 more paragraphs ] < title >The Sample with the Built−in Bias [ 53 paragraphs and 7 figures ]

Obrázek 4: Pˇr´ıklad XML pro kompresi pomoc´ı DTD [13] notu 11 (dekadicky), coˇz odpov´ıdá souˇctu jednoho prvku figure a deseti prvku˚ paragraph. Analogicky postupujeme pro dalˇs´ı prvky. Bˇehem fáze dekomprese se k odvozen´ı pouˇzitych ´ dat). ´ pravidel pouˇzije opˇet dané DTD (které je souˇca´ st´ı komprimovanych ´ Komprimovany´ vystup se pak skládá celkem ze tˇr´ı cˇ a´ st´ı — DTD, kodovan´ e struk´ tury a dat. Ke kompresi dat lze pouˇz´ıt nˇekterou z metod, kterou vyuˇz´ıvaj´ı dˇr´ıve popsané kompresory XML. Podrobnosti a pˇr´ıklady komprese struktury jsou dále k dispozici v [13].

25

4

XMill

XMill [14] je specializovany´ nástroj pro kompresi XML dat. Základn´ım principem jeho komprese je zpracován´ı a pˇr´ıprava XML dat tak, aby existuj´ıc´ı kompresn´ı algoritmy ˚ neˇz jaké dosahuj´ı pˇri kompresi XML jako celku. K pˇr´ıpravˇe dosáhli lepˇs´ıch vysledk u, ´ dat se vyuˇz´ıvaj´ı sémantické informace pˇr´ıtomné v XML datech — znaˇcky, které urˇcuj´ı vyznam obsahu v nich uzavˇreném. ´ XMill je zaloˇzeny´ na knihovnˇe zlib (podporuje tedy kompresi pomoc´ı GZip a BZip2) ˇ a vyuˇz´ıvá nˇekolik vlastn´ıch sémantických kompresoru. ˚ Architektura XMill nav´ıc umoˇznuje rozˇs´ırˇ en´ı o dalˇs´ı uˇzivatelsky definované kompresory pro komplexn´ı a specifická data ˚ ych ruzn ´ aplikac´ı [14]. ´ esˇ né komprese u dat, jeXMill vycház´ı z toho, zˇ e slovn´ıkové algoritmy dosahuj´ı uspˇ jichˇz slovn´ıkové rozloˇzen´ı je podobné. XMill pˇredpokládá, zˇ e data um´ıstˇená uvnitˇr stejné struktury jsou sémanticky pˇr´ıbuzná — napˇr´ıklad vˇsechna data um´ıstˇená ve struktuˇre budou obsahovat jména autoru˚ knihy — a tud´ızˇ budou m´ıt podobné slovn´ıkové rozloˇzen´ı [14]. ˚ které prob´ıhá auVedle pˇr´ıpravy dat seskupován´ım sémanticky pˇr´ıbuznych ´ prvku, ˇ tomaticky na základˇe struktury XML dokumentu, umoˇznuje XMill dále ruˇcnˇe doladit parametry komprese uˇzivatelskym ´ zásahem dle jeho osobn´ıch znalost´ı komprimovaného ´ XML, pˇredevˇs´ım jeho struktury. Jednou z moˇznost´ı je uprava automatického seskupován´ı sémanticky pˇr´ıbuznych dat. Typicky´ je jiˇz zm´ınˇeny´ pˇr´ıklad se jmény autoru˚ kniˇzn´ıch ´ ˚ ke kterym ˚ zeme pˇridat dalˇs´ı jména lid´ı, kteˇr´ı se na pˇr´ıpravˇe knih nˇejakym titulu, ´ muˇ ´ ˚ zpusobem pod´ıleli. Tyto informace jsou ale vˇetˇsinou k dispozici v jiné struktuˇre, napˇr´ıklad v , ale protoˇze se stále jedná o jména, bude vhodné je seskupit a komprimovat jako jednu skupinu. K dosaˇzen´ı efektivnˇejˇs´ı komprese vyuˇz´ıvá XMill typovˇe závislé kompresory15 . Po´ moc´ı nich se snaˇz´ı kodovat specifické informace do efektivnˇejˇs´ı binárn´ı podoby. XMill nenab´ız´ı automatickou detekci datovych ´ typu˚ 16 , ale nechává definici na uˇzivateli. Uˇzivatel ˚ ze urˇcit dvojici struktura-datový typ a bˇehem komprese je text v dané struktuˇre tak muˇ analyzován a pˇreveden na odpov´ıdaj´ıc´ı datovy´ typ v binárn´ı podobˇe. Zcela pˇrirozené je pouˇz´ıt tuto myˇslenku na cˇ ´ıselné hodnoty. XMill nab´ız´ı celkem osm vestavˇenych ´ séman˚ jejich seznam je uveden v tabulce 2. tickych ´ kompresoru, Sémantické kompresory je moˇzné dále kombinovat. K dispozici jsou sekvenˇcn´ı, stˇr´ıdavý ´ a opakovaný kompresor. Sekvenˇcn´ı kompresor lze pouˇz´ıt napˇr´ıklad ke kodov´ an´ı IP adres17 . Vzhledem k formátu IP adresy (ˇctyˇri cˇ ´ısla v rozsahu 0–255, oddˇelená navzájem teˇckou, ´ napˇr´ıklad 192.168.10.50) je moˇzné zakodovat ji jako cˇ tveˇrici jednobajtovych ´ hodnot. Vyˇ ´ cet vˇsech sekvenˇcn´ıch kompresoru˚ je uveden v tabulce 3. ˇ Architektura XMill umoˇznuje rozˇs´ırˇ it nab´ıdku sémantickych ´ kompresoru˚ pomoc´ı uˇzivatelských kompresoru. ˚ Ty se k XMill pˇripojuj´ı pomoc´ı specializovaného API18 rozhran´ı SCAPI (Semantic Compressor API). Vyhodou pouˇzit´ı vlastn´ıch sémantickych ´ ´ kompresoru˚ 15

Nˇekdy oznaˇcované jako sémantické kompresory. Automatickou detekci vyuˇz´ıvá napˇr´ıklad nástroj pro kompresi dat s podporou dotazován´ı XPRESS 17 IP adresa identifikuje s´ıt’ové rozhran´ı v poˇc´ıtaˇcové s´ıti pˇri pouˇzit´ı IP protokolu. 18 Application Programming Interface, rozhran´ı pro programován´ı aplikac´ı. 16

26

kod ´ t u i u8 di rl e ...

popis kompresoru Vychoz´ ı textovy´ kompresor ´ Kompresor pro kladná celá cˇ ´ısla Kompresor pro celá cˇ ´ısla Kompresor pro cˇ ´ısla menˇs´ı neˇz 256 Kompresor rozd´ılu˚ celych ´ cˇ ´ısel Run-length kodér Kodér vyˇ ´ ctovych ´ typu˚ (enumeration) Kompresor konstant

Tabulka 2: Standardn´ı sémantické kompresory XMill kod ´ seq alt rep

popis kompresoru Sekvenˇcn´ı kompresor seq(s1 s2 . . . ). Stˇr´ıdavy´ kompresor or(s1 s2). Opakovany´ kompresor rep(ds), kde d je oddˇelovaˇc a s sémanticky´ kompresor. Tabulka 3: Kombinované kompresory XMill

˚ ze byt muˇ ´ pˇresné c´ılen´ı komprese na specifickou doménu. Pˇri jejich pouˇzit´ı se ale stává komprimovany´ soubor závisly´ na daném kompresoru a nen´ı bez nˇej moˇzné provést dekompresi. Dalˇs´ı podrobnosti o sémantickych ´ kompresorech a jejich kombinován´ı jsou k dispozici v [14].

4.1

Architektura XMill

Architektura XMill je postavena na tˇrech základech. Prvn´ım je oddˇelen´ı struktury od dat, druhym dat a tˇret´ım komprese pomoc´ı exis´ seskupen´ı sémanticky pˇr´ıbuznych ´ tuj´ıc´ıch kompresn´ıch algoritmu. ˚ Model architektury je znázornˇen na obrázku 5 [14]. Nyn´ı si pop´ısˇ eme základn´ı prvky architektury. SAX parser analyzuje vstupn´ı XML data a identifikuje strukturu a obsah XML dat. Analyzované cˇ a´ sti pos´ılá dále ke zpracován´ı do Path Procesoru. Path procesor je zodpovˇedny´ za mapován´ı jednotlivych ´ elementu˚ z´ıskanych ´ ze SAX ˚ Path Processor lze ovlivnit definován´ım uˇzivaparseru do odpov´ıdaj´ıc´ıch kontejneru. ˚ coˇz je v podstatˇe vlastn´ı definice sémanticky pˇr´ıbuznych telskych u, ´ vyraz ´ ´ dat. Kontejnery obsahuj´ı data a jsou vytvárˇ eny dle potˇreby. Path Processor rozhoduje o tom, zda dany´ prvek um´ıst´ı do jiˇz existuj´ıc´ıho kontejneru, nebo zda vytvoˇr´ı kontejner novy. ´ Ke kaˇzdému kontejneru je pˇriˇrazen právˇe jeden sémanticky´ kompresor. Existuj´ı také speciáln´ı kontejnery, jako napˇr´ıklad kontejner struktury.

27

Obrázek 5: Model architektury XMill [14] Sémanticky´ kompresor je zodpovˇedny´ za analýzu dat vstupuj´ıc´ıch do kontejneru a jejich uloˇzen´ı v odpov´ıdaj´ıc´ım datovém formátu19 . Základn´ım sémantickym ´ kompresorem ˚ je textový kompresor, ktery´ vstupn´ı data vubec neupravuje a um´ıst’uje je pˇr´ımo do kontejneru˚ jako rˇ etˇezce. Pˇrehled vˇsech sémantickych ´ kompresoru˚ ukazuje tabulka 2. Napˇr´ıklad sémanticky´ kompresor pro celoˇc´ıselné hodnoty vstupn´ı data analyzuje a pˇrevád´ı na binárn´ı hodnotu. V pˇr´ıpadˇe, zˇ e analyza ´ sémantickym ´ kompresorem selˇze, pˇredá se hodnota dalˇs´ımu, v hierarchii nadˇr´ızenému sémantickému kompresoru. Na vrcholu hierarchie je vychoz´ ı textovy´ kompresor, tzn. zˇ e nejpozdˇeji zde se podaˇr´ı danou hodnotu do ´ nˇekterého z kontejneru˚ um´ıstit. Komprese dat prob´ıhá nad pamˇet’ovým oknem20 . Pamˇet’ové okno je kompresorem rezervovaná pamˇet’, do které se postupnˇe zapisuj´ı doposud zpracované informace. Velikost pamˇet’ového okna je volitelná. Standardn´ı XMill pracuje ve vychoz´ ım nastaven´ı ´ ’ s pamˇet ovym ´ oknem o velikosti 8MB, naˇsi implementaci SXMill jsme pˇri experimentech nejˇcastˇeji pouˇz´ıvali s velikost´ı okna 32MB21 . Jakmile dojde k zaplnˇen´ı pamˇet’ového okna, pˇrejde se k fázi komprese tohoto okna. Bˇehem n´ı se postupnˇe komprimuj´ı jednotlivé cˇ a´ sti okna — kontejnery. Kaˇzdy´ kontejner je komprimován zvlásˇ t’ do samostatného komprimovaného bloku dat a to pomoc´ı urˇceného kompresoru (gzip, bzip2, ppmdi atd.). Takto komprimované bloky se postupnˇe za sebou ukládaj´ı na vystup. Obecnˇe by komprimova´ 19

Napˇr´ıklad pˇrevod celého cˇ ´ısla z textové podoby do binárn´ı. Memory window v terminologii XMill. 21 ´ cinnost komprese u modern´ıch textovych ˚ v´ıce viz Velikost pamˇet’ového okna má vliv na uˇ ´ kompresoru, vysledky testován´ı. ´ 20

28

Typ (1) Otev´ırac´ı znaˇcky (2) Názvy atributu˚ (3) Hodnoty (data) (4) Koncové znaˇcky

Pˇr´ıklad ; ; ; ... id; type 0001; Cake; 1001; Regular; 5001; None, ... ; ; ; ...

Tabulka 4: XMill – pˇrehled cˇ a´ st´ı ukázkového fragmentu XML

˚ ymi ny´ soubor mohl obsahovat bloky komprimované ruzn kompresory (za pˇredpokladu, ´ zˇ e kaˇzdy´ blok je uvozen hlaviˇckou — coˇz standardnˇe je), nicménˇe v praxi se vyuˇz´ıvá v rámci jednoho souboru pouze jedna kompresn´ı metoda. ´ Pamˇet’ové okno je rezervované m´ısto v pamˇeti, do kterého XMill ukládá kodovan´ a data. Um´ıst’uje se zde hlaviˇcka, kontejner struktury, datové a dalˇs´ı speciáln´ı kontejnery. V okamˇziku zaplnˇen´ı pamˇet’ového okna, popˇr. po dosaˇzen´ı konce vstupn´ıho XML souboru, vzniká bˇeh, ktery´ je ihned komprimován a zapsán na vystup. ´ Bˇeh22 je term´ın, kterym ı kom´ se oznaˇcuj´ı data jednoho pamˇet’ového okna. Vystupn´ ´ ˚ primovany´ soubor se skládá z jednoho nebo v´ıce po sobˇe následuj´ıc´ıch bˇehu.

4.2

´ ´ ı ukazkov ´ ´ Pˇr´ıklad kodov an´ eho XML

Pˇri zpracován´ı vstupn´ıho souboru provád´ı XMill nˇekolik operac´ı, jejichˇz vysledkem je ´ vystup série komprimovanych ´ ´ dat. Princip komprese si ukázˇ eme na pˇr´ıkladu XML, ktery´ je uveden na obrázku 6. V tabulce 4 je uveden pˇrehled cˇ a´ st´ı vyskytuj´ıc´ıch se v uvedeném XML. Pˇri zpracován´ı vstupn´ıch dat provád´ı XMill postupnˇe tyto operace: 1. Oddˇelen´ı struktury od dat. 2. Zpracován´ı dat sémantickymi kompresory. ´ ˚ 3. Um´ıstˇen´ı dat do odpov´ıdaj´ıc´ıch kontejneru. 4. Komprese jednotlivych ´ kontejneru˚ (kaˇzdého zvlásˇ t’) zvolenou kompresn´ı metodou. 5. Zápis komprimovanych ıho souboru. ´ dat do vystupn´ ´ Body 1 aˇz 3 prob´ıhaj´ı bˇehem analyzy ´ vstupn´ıch dat (odpovˇednost maj´ı komponenty SAX Parser, path processor a jednotlivé sémantické kompresory), body 4 a 5 prob´ıhaj´ı po naplnˇen´ı pamˇet’ového okna (nebo po dosaˇzen´ı konce vstupn´ıch XML dat). ´ ´ Struktura se koduje pomoc´ı slovn´ıkového kodov´ an´ı, kde názvy znaˇcek (1) a atributu˚ (2) se oznaˇcuj´ı jako návˇesˇ t´ı a kaˇzdé nové, doposud neznámé návˇesˇ t´ı se pˇridá na konec slovn´ıku. XMill udrˇzuje speciáln´ı kontejner struktury (na modelu je vidˇet zcela vlevo). Do ˚ nˇej se ukládaj´ı informace o struktuˇre XML dokumentu v podobˇe jednoduchych ´ pˇr´ıkazu. 22

run v terminologii XMill.

29

Cake Regular Chocolate Blueberry None Glazed Sugar Sprinkles Chocolate Maple

Obrázek 6: XMill – ukázkovy´ fragment XML pro pˇr´ıklad zpracován´ı dat Tyto pˇr´ıkazy jsou napˇr. , , , kde parametr id pˇredstavuje odkaz na konkrétn´ı návˇesˇ t´ı, resp. kontejner. U ˚ ˚ ehu komnˇekterych uvádˇen, protoˇze je patrny´ z kontextu prubˇ ´ pˇr´ıkazu˚ nen´ı odkaz vubec prese cˇ i dekomprese (napˇr´ıklad vloˇzen´ı koncové znaˇcky, protoˇze well-formed XML nedovoluje pˇrekˇr´ızˇ en´ı znaˇcek). ´ ˚ Napˇr´ıklad pro rozliˇsen´ı odkazu na XMill vyuˇz´ıvá sofistikované kodov´ an´ı pˇr´ıkazu. návˇesˇ t´ı od odkazu na kontejner se vyuˇz´ıvá znaménka u indexu. Zda se má dané návˇesˇ t´ı ˚ ehu zpracován´ı dat. Veˇskeré pˇr´ıkazy zpracovat jako znaˇcka nebo atribut, je patrné z prubˇ jsou tak v kontejneru struktury uloˇzeny jako jedna hodnota — cˇ ´ıslo. Záporná cˇ ´ısla odkazuj´ı na datové kontejnery, kladná cˇ ´ısla pak na znaˇcky a atributy. Speciáln´ı pˇr´ıkazy (vloˇzen´ı koncové znaˇcky apod.) maj´ı pˇridˇelenu konstantn´ı hodnotu reprezentuj´ıc´ı dany´ pˇr´ıkaz a je jim vyhrazen prostor v rozsahu indexu˚ návˇesˇ t´ı, kdy cˇ ´ısla do urˇcité hodnoty pˇredstavuj´ı speciáln´ı pˇr´ıkazy a nad touto hodnotou se jedná o odkazy do slovn´ıku (ab˚ solutn´ı hodnotu indexu z´ıskáme po odeˇcten´ı konstanty poˇctu definovanych ´ pˇr´ıkazu). Data (3) se vkládaj´ı do samostatnych ´ kontejneru˚ a to v závislosti na jejich um´ıstˇen´ı ve struktuˇre XML dokumentu. V kontejneru struktury se po jejich um´ıstˇen´ı do konkrétn´ıho kontejneru vytvoˇr´ı pˇr´ıkaz odkazuj´ıc´ı na pˇr´ısluˇsny´ kontejner. ´ ktery´ se jako pˇr´ıkaz Vˇsem koncovým znaˇckám (4) je pˇridˇelen speciáln´ı konstantn´ı kod, vkládá do kontejneru struktury. Koncová znaˇcka se pˇridává i na konci kaˇzdého atributu. Tabulka 5 ukazuje slovn´ık návˇesˇ t´ı naplnˇeny´ tak, jak by vypadal po zpracován´ı ukázkového XML souboru. Rozliˇsen´ı znaˇcky a atributu nen´ı nikde uloˇzeno, jak jiˇz bylo zm´ınˇeno, je patrné z kontextu bˇehem zpracován´ı dat. V tabulce je uvedeno pouze pro orientaci. Bˇehem zpracován´ı ukázkovych ´ XML dat dojde k vytvoˇren´ı nˇekolika datovych ´ kon˚ Jejich pˇrehled ukazuje tabulka 6. V tabulce jsou v cestˇe odliˇseny atributy od tejneru. znaˇcek pomoc´ı znaku @. Jak je patrné, pro kaˇzdou znaˇcku nebo atribut dané struktury je vytvoˇren jeden kontejner, do kterého jsou um´ıst’ovány postupnˇe za sebou zpracovaná

30

Kod ´ 1 2 3 4 5 6 7 8 9

Typ Znaˇcka Znaˇcka Atribut Atribut Znaˇcka Znaˇcka Znaˇcka Znaˇcka Znaˇcka

Návˇesˇ t´ı items item id type name ppu batters batter topping

Tabulka 5: XMill – pˇr´ıklad naplnˇen´ı slovn´ıku

data. V naˇsem pˇr´ıpadˇe neuvaˇzujeme pouˇzit´ı zˇ a´ dnych ´ speciáln´ıch sémantickych ´ kompre˚ proto jsou vˇsechna data uloˇzena ve formˇe textu. Bˇehem dekomprese se pak z konsoru, tejneru˚ postupnˇe vyzvedávaj´ı jednotlivé prvky a zapisuj´ı do vystupn´ ıho XML souboru. ´ Kontejnery pracuj´ı na principu fronty — FIFO. Tabulka 7 ukazuje obsah kontejneru struktury. Kaˇzdá hodnota pˇredstavuje jeden pˇr´ıkaz, ktery´ se bˇehem dekomprese provede. Kladná cˇ ´ısla odkazuj´ı do slovn´ıku návˇesˇ t´ı (uveden v tabulce 5) a záporná cˇ ´ısla odkazuj´ı do datovych kontejneru˚ (uvedeny v ta´ bulce 6). Ve vypisu kontejneru struktury je zástupnym ´ ´ symbolem tˇr´ı teˇcek (...) nahrazeno pˇetinásobné opakován´ı cˇ a´ sti YYY. Poznamenejme, zˇ e v tomto pˇr´ıkladu jsme nebrali v potaz formátován´ı dokumentu (whitespaces). Pseu´ K je pˇr´ıkaz ke vloˇzen´ı koncové znaˇcky a pseudokod ´ PK je pˇr´ıkaz k vloˇzen´ı prázdné dokod znaˇcky (<priklad />). Symbolem # je znázornˇen konec kontejneru. ˇ ı pˇredpoklady pro Pˇri pohledu na kontejner struktury je patrné, zˇ e jeho data splnuj´ efektivn´ı kompresi pomoc´ı slovn´ıkovych algoritmu˚ (Deflate, . . . ). I pˇres rozd´ılná data ´ ´ nˇekterych cˇ a´ st´ı vstupn´ıho XML je struktura kodov´ ana stejnymi sekvencemi (zm´ınˇená ´ ´ vynechaná cˇ a´ st pˇetinásobného opakován´ı), protoˇze se zde vyskytuj´ı odkazy na stejná m´ısta ve slovn´ıku a odkazy na stejné datové kontejnery. V praxi opravdu komprese kon´ cinnosti napˇr´ıcˇ vˇsemi testovanymi tejneru struktury dosahuje velmi vysoké uˇ algoritmy. ´

4.3

´ XMill Datovy´ format

´ ˚ ymi XMill zpracovává vstupn´ı XML data a koduje je nˇekolika ruzn ´ technikami do vystup´ n´ıho souboru. Základn´ı vlastnosti formátu souboru XMill v0.8 (v dobˇe psan´ı tohoto textu posledn´ı verze, datovaná bˇrezen 2008) si nyn´ı pop´ısˇ eme. 4.3.1

ˇ ısel, rˇetezc ˇ u˚ a seznamu˚ Uloˇzen´ı c´

˚ XMill pracuje pouze s celymi cˇ ´ısly (s vyjimkou specifickych ´ ´ ´ sémantickych ´ kompresoru). ˇ ısla se ukládaj´ı pomoc´ı jednoFormát uloˇzen´ı cˇ ´ısel je podobny, ´ jako se pouˇz´ıvá u UTF-8. C´ ˚ Poˇcet bajtu˚ se urˇcuje podle specifickych ho, dvou nebo cˇ tyˇrech bajtu. bitu˚ u prvn´ıho ´

31

Kod ´ 1 2 3 4

Cesta /items/item/@id /items/item/@type /items/item/name /items/item/batters/batter/@id

5

/items/item/batters/batter

6

/items/item/topping/@id

7

/items/item/topping/

Hodnoty 0001 donut Cake 1001 1002 1003 Regular Chocolate Blueberry 5001 5002 5005 5006 5003 5004 None Glazed Sugar Sprinkles Chocolate Maple

Tabulka 6: XMill – pˇr´ıklad datovych ´ kontejneru˚

1 8 K

2 3 K

3 -4 K

-4 K #

K -5

4 K

-2 8

K 3

5 -4

-3 K

K -5

6 K

PK K

7 9

8 3

3 -6

-4 K

Tabulka 7: XMill – Pˇr´ıklad obsahu kontejneru struktury

K -7

-5 K

K ...

32

Bity 1.bajtu b7=0 b7=1 b6=0 b7=1 b6=1

Popis 7 bitové cˇ ´ıslo (hodnota b6 – b0) 14 bitové cˇ ´ıslo (hodnota b5 – b0 tohoto bajtu a b7 – b0 dalˇs´ıho bajtu) 30 bitové cˇ ´ıslo ˚ (hodnota b5 – b0 tohoto a b7 – b0 následuj´ıc´ıch tˇrech bajtu)

Tabulka 8: XMill – uloˇzen´ı cˇ ´ısel bez znaménka (uint32) Bity 1.bajtu b7=0 b7=1 b6=0 b7=1 b6=1

Popis 6 bitové cˇ ´ıslo (znaménko b6, hodnota b5 – b0) 13 bitové cˇ ´ıslo (znaménko b5, hodnota b4 – b0 tohoto bajtu a b7 – b0 dalˇs´ıho bajtu) 29 bitové cˇ ´ıslo ˚ (znaménkob5, hodnota b4 – b0 tohoto a b7 – b0 následuj´ıc´ıch tˇrech bajtu) Tabulka 9: XMill – uloˇzen´ı cˇ ´ısel se znaménkem (sint32)

naˇcteného bajtu (viz tabulky 8 a 9). Data jsou ukládána v ne-intelovském23 formátu. V tabulkách se odvoláváme na jednotlivé bity v bajtu. Bity cˇ ´ıslujeme od 7 (bit s nejvˇetˇs´ım vyznamem) do 0 (bit s nejmenˇs´ım vyznamem). Binárn´ı cˇ ´ıslo zapsané jako 10000000 (de´ ´ kadicky 128) má bit b7 (bit na pozici 7) nastaven na hodnotu 1, ostatn´ı b6 aˇz b0 jsou nastaveny na hodnotu 0. Ukládán´ı cˇ ´ısel bez znaménka, oznaˇcované jako uint32, se rˇ´ıd´ı logikou uvedenou v tabulce 8. Ukládán´ı cˇ ´ısel se znaménkem, oznaˇcované jako sint32, se pak rˇ´ıd´ı logikou popsanou v tabulce 9. ˇ ezce jsou ukládány s prefixem obsahuj´ıc´ım délku rˇ etˇezce (uint32), za kterym Retˇ ´ násleˇ duj´ı jednotlivé znaky rˇ etˇezce. Retˇezec nen´ı ukonˇcen zˇ a´ dnym ´ speciáln´ım znakem. Jedná se o datovy´ typ oznaˇcovany´ jako lstring. Seznamy hodnot jsou ukládány ve formátu prefix + seznam hodnot. Hodnota prefixu urˇcuje poˇcet elementu˚ v seznamu. Prvky seznamu mohou byt ´ cˇ ´ısla (uint32, sint32) nebo ˚ rˇ etˇezce. Seznam rˇ etˇezcu˚ se v XMill vyskytuje pomˇernˇe cˇ asto (napˇr´ıklad data kontejneru) a oznaˇcuje se jako slist. 4.3.2

´ souboru XMI Format

XMill ukládá komprimovaná data do souboru ve formátu XMI. Ten se skládá ze série komprimovanych bloku˚ a kaˇzdy´ blok je komprimovany´ nˇekterym ´ ´ z podporovanych ´ kompresn´ıch algoritmu˚ (gzip, bzip2, . . . ). Kaˇzdy´ komprimovany´ blok je uloˇzen vˇcetnˇe hlaviˇcky a signatury kompresoru. 23

network Byte order

33

Komprimovany´ blok 1 globáln´ı hlaviˇcka hlaviˇcka bˇehu 1 Komprimovany´ blok i − 1 datovy´ blok j bˇehu 1 (datovy´ kontejner) Komprimovany´ blok i + 2 datovy´ blok 2 bˇehu 2 (datovy´ kontejner)

Komprimovany´ blok 2 datovy´ blok 1 bˇehu 1 (datovy´ kontejner) Komprimovany´ blok i hlaviˇcka bˇehu 2 Komprimovany´ blok i + 3 datovy´ blok 3 bˇehu 2

Komprimovany´ blok 3 datovy´ blok 2 bˇehu 1 (datovy´ kontejner) Komprimovany´ blok i + 1 datovy´ blok 1 bˇehu 2 (datovy´ kontejner) Komprimovany´ blok ... ...

Tabulka 10: XMill – formát souboru XMI Id 0 1 2 3 4 5 a v´ıce záporné

Pˇr´ıkaz Vloˇz koncovou znaˇcku Vloˇz prázdnou koncovou znaˇcku Vloˇz formátován´ı Vloˇz formátován´ı atributu Vloˇz data speciáln´ıho kontejneru Vloˇz odpov´ıdaj´ıc´ı návˇesˇ t´ı (index = id − 5) Vloˇz data z odpov´ıdaj´ıc´ıho kontejneru

Tabulka 11: XMill – pˇr´ıkazy kontejneru struktury

Globáln´ı hlaviˇcka obsahuje základn´ı informace popisuj´ıc´ı XMI soubor. Jsou zde ulozˇ eny informace o verzi formátu souboru, zda bylo bˇehem komprese ignorováno formátován´ı (white-spaces) a informace o path expressions. Hlaviˇcka bˇehu uvád´ı kaˇzdy´ bˇeh. Hlaviˇcka mimo popisnych ´ informac´ı následuj´ıc´ıho bˇehu obsahuje také data malých kontejneru. ˚ Jako maly´ kontejner se bˇehem komprese oznaˇc´ı kaˇzdy´ kontejner, jehoˇz velikost je menˇs´ı neˇz stanovená hodnota (vychoz´ ı, v aplikaci pevnˇe ´ nastavená, hodnota je 2kB). Uloˇzen´ı malého mnoˇzstv´ı dat pˇr´ımo do hlaviˇcky vycház´ı faktu, zˇ e kompresn´ı algoritmy dosahuj´ı horˇs´ıch vysledk u˚ komprese nad malym ´ ´ mnoˇz˚ ze reˇzie spojená s kompres´ı objem dat dokonce stv´ım dat a v nˇekterych ´ pˇr´ıpadech muˇ zvˇetˇsit. Hlaviˇcka bˇehu se komprimuje jako jeden proud dat. ˚ Datové bloky obsahuj´ı data kontejneru. Kontejnery obsahuj´ı samotná data. XMill rozliˇsuje celkem cˇ tyˇri druhy kontejneru˚ — kontejner struktury, kontejner speciáln´ıch dat (zde se ukládaj´ı procesn´ı informace, DTD, ˇ CDATA a komentárˇ e), kontejner formátován´ı a datové kontejnery. Prvn´ı tˇri zminovan´ e kontejnery se nacház´ı vˇzdy v prvn´ım datovém bloku a tento datovy´ blok existuje v kaˇzdém bˇehu.

34

5

SharpXMill

´ cely proveden´ı experimentu˚ jsme v prostˇred´ı rozhran´ı .NET Framework, konkrétnˇe Pro uˇ v jazyce C#, implementovali vlastn´ı verzi nástroje XMill. Bˇehem implementace jsme se soustˇredili na pokryt´ı základn´ı funkcionality standardn´ıho XMill, proto jsme implemen´ cely tovali podporu pouze textového sémantického kompresoru, coˇz ovˇsem bylo pro uˇ naˇsich experimentu˚ zcela dostaˇcuj´ıc´ı. V prvn´ı fázi vyvoje jsme vytvoˇrili aplikaci kompati´ ˚ biln´ı s datovym ıho nástroje XMill. Dále jsme aplikaci rozˇs´ırˇ ili o pod´ formátem puvodn´ poru dalˇs´ıch kompresn´ıch algoritmu˚ (konkrétnˇe LZMA a PPMdI) a o podporu shluko˚ ván´ı kontejneru.

5.1

´ Navrh architektury SharpXMill

Pˇri návrhu architektury jsme se soustˇredili na dodrˇzen´ı kompatibility datového formátu ´ cely testován´ı. Plnˇe jsme vyuˇzili moˇznost´ı a na moˇznosti rozˇs´ırˇ en´ı funkcionality pro uˇ objektovˇe orientovaného pˇr´ıstupu návrhu a programován´ı, pˇredevˇs´ım dˇediˇcnosti a poly˚ zité komponenty morfizmu. Architektura systému je zachycena na obrázku 7. Mezi duleˇ architektury v rámci procesu komprese XML patˇr´ı: • SAX Parser – analyzuje vstupn´ı XML data a jako události reportuje jednotlivé elementy vyˇssˇ´ı vrstvˇe architektury. • XMICompress – komponenta pˇrij´ımá data od SAX Parseru a je zodpovˇedná za ´ rˇ´ızen´ı vytvárˇ en´ı aktuáln´ıho bˇehu, kontroly obsazenosti pamˇet’ového okna, zakodován´ı bˇehu do formátu XMill (vytvárˇ en´ı jednotlivych, zat´ım nekomprimovanych, ´ ´ proudu˚ dat) a je zodpovˇedná za rˇ´ızen´ı komprese jednotlivych ´ proudu˚ dat zvolenym ´ ˚ ych kompresorem. Je zodpovˇedná také za reportován´ı ruzn ´ statistickych ´ informac´ı ˚ potˇrebnych ´ pro vyhodnocen´ı experimentu. ´ ziˇstˇe vˇsech dat aktuálnˇe vytvárˇ eného bˇehu. Obsahuje • XMIRun – slouˇz´ı jako uloˇ návˇesˇ t´ı, bloky kontejneru˚ a jednotlivé kontejnery. ´ • XMIRunEncoder – koduje cˇ a´ sti XMIRun do jednotlivych ´ bloku˚ (nekomprimovanych) dat. Samotná komprese je spuˇstˇena v okamˇziku, jakmile je zaplnˇeno pamˇet’ové ´ okno. • BaseStreamEncoder – obecné rozhran´ı pro kompresi bloku dat. Jednotlivé konkrétn´ı algoritmy (gzip, bzip2, . . . ) jsou implementovány ve tˇr´ıdách odvozenych ´ z této tˇr´ıdy. ˚ zité komponenty architektury v rámci procesu dekomprese XML zahrnuj´ı: Duleˇ • BaseStreamDecoder – obecné rozhran´ı pro dekompresi bloku dat. Dekomprimuje data jednoho komprimovaného bloku a pˇredává je dále ke zpracován´ı.

35

0123456317839 36 839 3 96353839 36 839 76322 839 76322

35

96353839 36

!839 36 839 3" #1$31360 9% 839 3!$3136 839 3 5136 839 3!

536 ! '653( 7

76322 76322

51360 9% &1#3

0123 5136

!9 36 9 3" #1$31360 9% 9 3!$3136 9 3 5136 9 3!

536 4569563 5136 01234563179 36 9 3

416236 1623 53256

963539 36

')5341932 5136

85151 77352 5136 45116 5136 963539 36

Obrázek 7: Architektura SharpXMill ˚ ehu dekomprese • XMIDecompress – tato komponenta je zodpovˇedná za rˇ´ızen´ı prubˇ ˇ ıd´ı naˇc´ıtán´ı komprimovanych ˚ jejich dekompresi a vytvárˇ en´ı objektu dat. R´ ´ bloku, XMIRun. ´ • XMIRunDecoder – dekoduje vstupn´ı proud dat formátu XMill a vytvárˇ´ı objekt XMIRun. • XMIRun – stejnˇe jako bˇehem fáze komprese, je XMIRun zodpovˇedny´ za repre´ ˚ obsah zapsat také do zentaci vˇsech naˇctenych ych ´ a dekodovan ´ dat. Dokázˇ e svuj XML souboru. 5.1.1

SAX Parser

Bˇehem implementace jsme museli vyˇreˇsit problematiku analyzy ´ XML. Zjistili jsme totiˇz, zˇ e XML-aware komprese vyˇzaduje specificky´ pˇr´ıstup k analyze ı rˇ eˇsen´ı, ´ XML. Vychoz´ ´ které vyuˇz´ıvalo tˇr´ıdy dostupné pˇr´ımo v prostˇred´ı .NET Framework (konkrétnˇe tˇr´ıdu XMLTextReader), jsme museli opustit, protoˇze pˇri práci s XML daty docházelo k neˇza´ douc´ımu zpracován´ı obsahu. Tˇr´ıda XMLTextReader je odvozena od tˇr´ıdy XmlReader, tato základn´ı tˇr´ıda slouˇz´ı v prostˇred´ı .NET Framework k analyze ´ a zpracován´ı XML. XmlTextReader je velmi komplexn´ı a flexibiln´ı tˇr´ıda, která dokázˇ e mimo základn´ı analyzy ´ XML (rozliˇsen´ı jednotlivych ´ elementu˚ XML) také provádˇet nadstandardn´ı XML ope´ cely race, jako je zpracován´ı odkazu˚ znakovych entit, DTD entit apod. Bohuˇzel, pro uˇ ´ ´ cely komprese XML, se ukázala tato funkcionalita jako naˇseho projektu, a obecnˇe pro uˇ

36

zcela neˇza´ douc´ı, protoˇze takto zpracované soubory se neshodovaly s originály, i kdyˇz docházelo k tomu, zˇ e dle specifikace XML obsahovaly stejnou informaci. Nˇekteré tyto nadstandardn´ı operace jsme nedokázali deaktivovat, proto jsme museli od pouˇzit´ı této tˇr´ıdy upustit. Implementovali jsme proto vlastn´ı SAX parser (XMLRawReader), coˇz je tˇr´ıda, která je odvozená od základn´ı abstraktn´ı tˇr´ıdy XmlReader. XMLRawReader bˇehem analyzy ´ identifikuje následuj´ıc´ı základn´ı prvky XML: • Otev´ırac´ı znaˇcky (napˇr. ). • Koncové znaˇcky (napˇr. ). • Prázdné znaˇcky (napˇr. ). • Atributy (názvy a jejich hodnoty). • Formátován´ı (white-spaces). • Obsah (textové prvky). • Speciáln´ı prvky (komentárˇ e, deklarace XML, CDATA apod.), které vrac´ı jako text. ˚ pˇredává aplikaci bez jakéhokoliv zpraVeˇskery´ obsah (textové prvky, obsah atributu) ´ cován´ı nebo zmˇeny kodov´ an´ı.

5.2

Podporovane´ kompresn´ı metody

˚ SXMill Ned´ılnou souˇca´ st´ı celého systému je podpora bˇezˇ nych ´ kompresn´ıch algoritmu. podporuje kompresi pomoc´ı GZip, BZip2, LZMA a PPMdI. Metody GZip a BZip2 jsou pˇrevzaty z knihovny #ziplib (SharpZipLib) [24]. Podporu komprese LZMA jsme z´ıskali d´ıky LZMA-SDK, které je dostupné na webu autora aplikace 7-zip [25]. Podpora PPMdI je zajiˇstˇena knihovnou SharpPpmd, která je dispozici na [27].

5.3

ˇ ırˇen´ı funkcionality XMill SXMill – rozs´

´ cely testován´ı jsme rozˇs´ırˇ ili puvodn´ ˚ Pro uˇ ı XMill o následuj´ıc´ı funkcionalitu: • Podpora novych ´ kompresoru˚ LZMA a PPMdI. • Podpora shlukován´ı kontejneru˚ s vyuˇzit´ım shlukován´ı. Bˇehem testu˚ s kompres´ı XML jsme experimentovali s vyuˇzit´ım metody shlukován´ı dat. Shluková analyza nebo podobnymi vla´ je proces rozdˇelen´ı dokumentu se stejnymi ´ ´ ´ stnostmi (obsahem) do skupin, které jsou relevantn´ı pro stejné poˇzadavky. Uzce vztaˇzené ˚ ci tymˇ ˚ [17]. dokumenty smˇerˇ uji k tomu, zˇ e jsou relevantn´ı vuˇ ´ z poˇzadavkum Algoritmy shlukován´ı se dˇel´ı do nˇekolika skupin, podrobné rozdˇelen´ı shlukovac´ıch algoritmu˚ je napˇr´ıklad v [22]. My jsme konkrétnˇe vyuˇzili aglomerativn´ı shlukován´ı. Do

37

skupiny hierarchickych ´ algoritmu˚ pak patˇr´ı napˇr´ıklad jeˇstˇe divizivn´ı hierarchické shluková˚ n´ı. Rozd´ıl mezi nimi je v postupu tvorby shluku. Aglomerativn´ı shlukován´ı nejdˇr´ıve vytvoˇr´ı pro kaˇzdy´ objekt jeden shluk. Následnˇe vybere vˇzdy dva nejpodobnˇejˇs´ı shluky a ty slouˇc´ı do jednoho shluku. V posledn´ım kroku jsou pak vˇsechny shluky sjednoceny do jediného shluku. Naopak divizivn´ı hierarchické ˚ Nejdˇr´ıve je tedy vytvoˇren jeden shluk, shlukován´ı vytvárˇ´ı rozklady existuj´ıc´ıch shluku. ktery´ se postupnˇe dˇel´ı tak, aˇz jsou vˇsechny shluky jednoprvkové. Dalˇs´ı podrobnosti o shlukové analyze ´ jsou napˇr´ıklad v [17, 22].

38

´ ı Testovan´

6

˚ Soustˇredili jsme se V této kapitole shrnujeme vysledky námi provedenych ´ ´ experimentu. ´ cinnosti komprese nˇekolika zpusob ˚ bˇehem nich na porovnán´ı uˇ u˚ komprese XML dat. Do testu˚ jsme zahrnuli jak bˇezˇ nˇe dostupné kompresn´ı programy (RAR [33], 7-zip [25]), tak i ˚ XML-aware kompresor XMill [14] v puvodn´ ı a námi modifikované variantˇe.

´ ı Parametry testovan´

6.1

˚ jejichˇz seJako vstupn´ı data pro experimenty jsme zvolili sadu reálnych ´ XML souboru, znam uvád´ı tabulka 12. Testovac´ı soubory jsme pˇred pouˇzit´ım normalizovali, abychom dosáhli jednotné formy XML dat — vˇsechny atributy jsou uzavˇreny do uvozovek (nˇekteré XML soubory pouˇz´ıvaly apostrofy), doˇslo k sjednocen´ı formátován´ı (u atributu˚ jedna ´ celem normezera mezi znakem rovná se (=) zleva i zprava, jednotné odsazen´ı) atp. Uˇ malizace bylo poskytnout vstupn´ı data ve stejném formátu tak, aby vysledky nebyly ´ ˚ ovlivnˇeny právˇe odliˇsnym zápisu. Vysledkem normalizace je to, zˇ e po zpra´ zpusobem ´ cován´ı normalizovanych souboru˚ naˇsimi nástroji doˇslo k vytvoˇren´ı vˇzdy identickych ´ ´ ˚ souboru˚ (po kompresi a dekompresi, shlukován´ı). Informace o puvodn´ ıch a normalizovanych ´ souborech shrnuje tabulka 1324 . 6.1.1

Testovac´ı stroje

Na proveden´ı experimentu˚ jsme pouˇzili dva hlavn´ı testovac´ı stroje. Konfigurace stroje A byla následuj´ıc´ı: • Intel Core 2 Quad CPU Q6600 2,40 GHz. • 4 GB operaˇcn´ı pamˇeti. • 32 bitovy´ operaˇcn´ı systém Windows Vista Business SP2. U stroje B se jednalo o virtuáln´ı stroj, jehoˇz (virtuáln´ı) parametry byly následuj´ıc´ı: • Six-Core AMD Opteron 8425 HE 2.08 GHz25 . • 16 GB operaˇcn´ı pamˇeti. • 64 bitovy´ operaˇcn´ı systém Windows Server Enterprise SP2. ˚ stroj B pouze pro nˇekteré pˇr´ıpady Stroj A jsme pouˇzili k proveden´ı drtivé vˇetˇsiny testu, ’ pamˇet ovˇe nároˇcnych ´ operac´ı (shlukován´ı a nˇekteré testy s kompres´ı LZMA). 24

˚ Normalizace probˇehla autoSoubor wiki.xml vznikl spojen´ım nˇekolika tis´ıc jednotlivych ´ XML souboru. ˚ maticky bˇehem spojován´ı souboru. 25 Na virtuáln´ım stroji bylo k dispozici bylo pouze jedno jádro.

39

Soubor psd 7003.xml

Velikost 683 MB

dblp.xml

681 MB

wiki.xml

516 MB

swissprot.xml

109 MB

nasa.xml

23,8 MB

mondial.xml

1,7 MB

sigmod.xml

0,5 MB

hamlet.xml

0,3 MB

Zdroj XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ Wikipedia XML Corpus http://www-connex.lip6.fr/ denoyer/wikipediaXML/ XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ XML Data Repository http://www.cs.washington.edu/research/xmldatasets/ The Plays of Shakespeare in XML http://xml.coverpages.org/bosakShakespeare200.html

Tabulka 12: Sada testovac´ıch XML souboru˚

Soubor psd 7003.xml dblp.xml wiki.xml swissprot.xml nasa.xml mondial.xml sigmod.xml hamlet.xml

S0 716 853 016 B 714 339 712 B –B 114 820 211 B 25 050 288 B 1 784 825 B 478 416 B 288 735 B

Sn 716 860 101 B 714 338 879 B 541 873 094 B 114 820 211 B 25 054 691 B 1 511 087 B 478 416 B 288 735 B

Tabulka 13: Testovac´ı soubory XML pˇred a po normalizaci

40

Metoda GZip BZip2 PPMd (var. PPMdH)

Program 7-zip 4.65 7-zip 4.65 7-zip 4.65

LZMA

7-zip 4.65

RAR (PPMd var. PPMII)

WinRAR 3.90

Parametry Slovn´ık 32kB, velikost slova 32 Slovn´ık 900kB Slovn´ık 256 MB, ppm-order 16, blok dat 4 GB) Slovn´ık 32 MB, velikost slova 64, blok 4 GB Vynucená komprese textu, ppm-order 16, slovn´ık 128 MB (max. dostupná hodnota)

Tabulka 14: Parametry komprese bˇezˇ nymi programy ´ Metoda xmill/gzip xmill/bzip2 xmill/ppm xmill/lzma

Parametry Pamˇet’ové okno 32MB, zachován´ı white-spaces

Tabulka 15: Parametry komprese SXMill

6.1.2

Parametry komprese

V prvn´ı fázi experimentu˚ jsme provedli kompresi XML bˇezˇ nymi nástroji pro kompresi ´ ˚ Parametry jednotlivych souboru. testu˚ shrnuje tabulka 14. Druhá cˇ a´ st experimentu˚ se ´ soustˇredila na testy provádˇené XML-aware nástrojem SXMill. Parametry tˇechto testu˚ byly shodné napˇr´ıcˇ pouˇzitymi metodami komprese, vˇse shrnuje tabulka 15. ´

6.2

´ ı Vysledky ´ testovan´

V následuj´ıc´ım textu budeme pouˇz´ıvat k oznaˇcen´ı jednotlivych u˚ ´ parametru˚ a vysledk ´ testu˚ notaci, kterou shrnuje tabulka 16. Pokud to má vyznam, je v pˇrehledu vysledk u˚ ´ ´ nejlepˇs´ı hodnota ze skupiny oznaˇcena tuˇcnˇe. U srovnán´ı pomˇeru˚ vysledk u˚ komprese ´ ´ cinnosti komprese dané metody (hodnoty vˇetˇs´ı jak 100%) jsou hodnoty znaˇc´ıc´ı zhorˇsen´ı uˇ oznaˇceny odliˇsnou barvou. 6.2.1

Komprese XML jako textu

Pro z´ıskán´ı referenˇcn´ıch hodnot komprese XML jsme provedli kompresi vˇsech testo˚ Tabulka 17 uvád´ı absolutn´ı vanych ´ XML souboru˚ pomoc´ı bˇezˇ nych ´ kompresn´ıch nástroju. velikosti souboru˚ pˇred a po proveden´ı komprese a tabulka 18 spoleˇcnˇe s grafem 8 shrnuje kompresn´ı pomˇery.

41

Symbol S0 Sn

Vyznam ´ ˚ Velikost puvodn´ ıho souboru ˚ Velikost normalizovaného puvodn´ ıho souboru

Jednotky bajty bajty

CSrar CSgz CSbz CSlz CSpp

Velikost souboru komprimovaného metodou RAR Velikost souboru komprimovaného metodou Deflate (gzip) Velikost souboru komprimovaného metodou BZip2 Velikost souboru komprimovaného metodou LZMA Velikost souboru komprimovaného metodou PPMdI

bajty bajty bajty bajty bajty

CRrar CRgz CRbz CRlz CRpp

Pomˇer komprese pˇri pouˇzit´ı metody RAR Pomˇer komprese pˇri pouˇzit´ı metody Deflate (gzip) Pomˇer komprese pˇri pouˇzit´ı metody BZip2 Pomˇer komprese pˇri pouˇzit´ı metody LZMA Pomˇer komprese pˇri pouˇzit´ı metody PPMdI

procenta procenta procenta procenta procenta

CSx/gz CSx/bz CSx/lz CSx/pp

Velikost souboru komprimovaného metodou XMill/gzip Velikost souboru komprimovaného metodou XMill/bzip2 Velikost souboru komprimovaného metodou XMill/lzma Velikost souboru komprimovaného metodou XMill/ppmdi

bajty bajty bajty bajty

CRx/gz CRx/bz CRx/lz CRx/pp

Kompresn´ı pomˇer pˇri pouˇzit´ı metody XMill/gzip Kompresn´ı pomˇer pˇri pouˇzit´ı metody XMill/bzip2 Kompresn´ı pomˇer pˇri pouˇzit´ı metody XMill/lzma Kompresn´ı pomˇer pˇri pouˇzit´ı metody XMill/ppmdi

procenta procenta procenta procenta

CRwavg

˚ er kompresn´ıch pomˇeru˚ jednotlivych Vázˇ eny´ prumˇ ´ metod

procenta

∆CR

Pomˇer pomˇeru˚ vysledk u˚ komprese ´ (vˇzdy srovnán´ı odpov´ıdaj´ıc´ıch metod komprese) ∆CR < 100 zlepˇsen´ı, ∆CR > 100 zhorˇsen´ı, ∆CR = 100 beze zmˇeny

procenta

T Cα

ˇ komprese Cas α ∈ {rar, gz, bz, lz, pp, x/gz, x/bz, x/lz, x/pp}

hh:mm:ss

Tabulka 16: Notace pouˇzitá pˇri prezentaci vysledk u˚ experimentu˚ ´

42

Obrázek 8: Kompresn´ı pomˇery bˇezˇ nych ´ nástroju˚

˚ ci bˇezˇ né kompresi Obrázek 9: Srovnán´ı vysledk u˚ XMill komprese vuˇ ´

43

Soubor psd7003 dblp wiki SwissProt nasa mondial Sigmod hamlet

Sn 716 860 101 714 338 879 541 873 094 114 820 211 25 054 691 1 511 087 478 416 288 735

CSrar 65 448 403 59 472 588 62 938 063 6 217 395 2 065 876 103 064 42 513 52 603

CSgz 104 095 774 117 402 883 105 741 871 13 790 955 3 723 344 158 973 80 443 77 906

CSbz 76 760 863 77 896 607 80 597 419 8 724 363 2 752 252 108 516 48 638 57 615

CSpp 65 470 863 56 460 030 59 888 861 5 914 738 1 945 651 103 241 42 346 52 586

CSlz 61 473 674 77 717 175 72 825 200 6 775 538 2 415 560 115 248 59 945 69 555

Tabulka 17: Absolutn´ı vysledky komprese bˇezˇ nymi nástroji ´ ´ Soubor psd7003 dblp wiki SwissProt nasa mondial Sigmod hamlet CRwavg

CRrar 9,12 8,32 11,61 5,41 8,24 6,82 8,88 18,21 8,28

CRgz 14,52 16,44 19,51 12,01 14,86 10,52 16,81 26,98 14,78

CRbz 10,71 10,90 14,87 7,60 10,98 7,18 10,17 19,95 10,86

CRpp 9,13 7,90 11,05 5,15 7,77 6,83 8,85 18,21 7,84

CRlz 8,58 10,88 13,44 5,90 9,64 7,63 12,53 24,09 9,73

Tabulka 18: Kompresn´ı pomˇery pˇri pouˇzit´ı bˇezˇ nych ´ nástroju˚

Z vysledk u˚ je patrné, zˇ e nejlepˇs´ıch vysledk u˚ dosahuje metoda PPM, kterou imple´ ´ ˚ rozd´ıly plynou mentuje jak WinRAR, tak i 7-zip. Oba dosahuj´ı podobnych vysledk u, ´ ´ z m´ırnˇe odliˇsnych variant implementovanych algoritmu˚ PPM a ne zcela identickych ´ ´ ´ ˚ erná hodnota kompresn´ıho pomˇeru metody PPM byla 7,85%. parametru˚ komprese. Prumˇ ˚ ernou hodnotou 14,78%. Pokud tyto dvˇe Nejhorˇs´ıch vysledk u˚ dosahoval GZip s prumˇ ´ ˚ metody srovnáme, dosahuje PPM témˇerˇ o 50% lepˇs´ıch vysledk u. ´ 6.2.2

XML-aware komprese XMill

Testovac´ı soubory jsme dále komprimovali pomoc´ı nástroje SXMill. Pouˇzité metody komprese jsme volili tak, abychom mohli provést srovnán´ı s bˇezˇ nymi kompresn´ımi nástroji ´ (uvedené v pˇredchoz´ı kapitole). V tabulce 19 a v grafu na obrázku 9 jsou uvedeny kom˚ ci vysledku ˚ presn´ı pomˇery jednotlivych komprese bˇezˇ nych ´ metod a pomˇer vuˇ ´ ´ nástroju. ˚ eru doˇslo ke zlepˇsen´ı u metod GZip (∼ 19%) a BZip2 Z vysledk u˚ je patrné, zˇ e v prumˇ ´ (∼ 5%), naopak pouˇzit´ı XMill spolu s PPM vedlo ke zhorˇsen´ı (∼ 7%) a pˇri pouˇzit´ı LZMA ˚ jako u bˇezˇ né komprese. jsme dosáhli srovnatelnych u, ´ vysledk ´

44

Soubor psd7003 dblp wiki SwissProt nasa mondial Sigmod hamlet CRwavg

CRx/gz 10,48 13,59 18,90 7,40 12,48 7,87 12,43 26,56 13,54

∆CR 72,14 82,69 96,87 61,58 83,97 74,83 73,92 98,45 81,61

CRx/bz 9,67 10,57 15,62 5,79 10,37 6,93 10,65 21,81 11,30

∆CR 90,33 96,96 104,99 76,25 94,38 96,53 104,75 109,30 95,62

CRx/pp 8,61 8,89 13,27 4,82 8,59 6,49 9,42 19,86 9,69

∆CR 94,22 112,46 120,09 93,49 110,66 94,94 106,44 109,02 107,17

CRx/lz 8,25 10,32 15,39 5,49 9,72 6,50 11,50 24,02 10,65

∆CR 96,17 94,82 114,55 93,07 100,80 85,16 91,74 99,69 100,30

Tabulka 19: Srovnán´ı XMill a bˇezˇ né komprese

Pˇri podrobnˇejˇs´ım prozkoumán´ı vysledk u˚ jednotlivych ´ ´ metod komprese je zˇrejmé, zˇ e metoda PPM dosahuje velmi dobrych u˚ komprese pˇri kompresi XML jako textu a ´ vysledk ´ zˇ e pouˇzit´ı strukturáln´ı komprese (XMill) pˇrinásˇ´ı zlepˇsen´ı pouze v nˇekterych ´ pˇr´ıpadech a to nav´ıc pouze nepatrné (v rˇ a´ du jednotek procent). PPM, stejnˇe jako i LZMA, pracuj´ı pˇri kompresi s velmi dlouhym ´ objemech textu generovat ´ kontextem a zvládaj´ı pˇri velkych ´ efektivn´ı kodov´ an´ı s vyuˇzit´ım statistiky pracuj´ıc´ı s dlouhou histori´ı (jedná se o pamˇet’ovˇe nároˇcnˇejˇs´ı algoritmy). Proto nedocház´ı pˇri pouˇzit´ı strukturáln´ı komprese, kdy se data ˚ k vyrazn´ tˇr´ısˇ t´ı do jednotlivych emu vylepˇsen´ı komprese. ´ kontejneru, ´ Nav´ıc po proveden´ı testu˚ bylo ihned zˇrejmé, zˇ e soubor wiki.xml je zcela nevhodny´ pro kompresi nástrojem XMill. Po zjiˇstˇen´ı vysledk u˚ komprese u tohoto souboru jsme proto ´ podrobnˇeji prozkoumali jeho obsah. Zjistili jsme, zˇ e se jedná o specificky´ pˇr´ıpad XML souboru. Danou problematiku popisujeme v kapitole 2.5, resp. 2.5.3. V souboru wiki.xml ˚ kdy jednotlivé cˇ lánky jsou uzavˇreny mezi znaˇckami <article> je obsaˇzen souhrn cˇ lánku, ´ a (jediná znaˇcka na 1. urovni). Veˇskery´ dalˇs´ı obsah pˇredstavuj´ı jednotlivé cˇ lánky. Ostatn´ı znaˇcky, které se v nich vyskytuj´ı, maj´ı pouze formátovac´ı vyznam, nikoliv ´ ˚ sémanticky. ı myˇslenku ´ Seskupován´ı dat dle tˇechto informac´ı pak zcela postrádá puvodn´ a v´ıce ménˇe prob´ıhá chaoticky. Mimo to ovlivnil vysledek komprese také fakt, zˇ e doˇslo k ´ vytvoˇren´ı velmi velkého mnoˇzstv´ı kontejneru˚ — vzniklo jich v´ıce jak 4000. 6.2.3

ˇ ’ove´ okno XMill Pamet

Pˇri kompresi XML pracuje XMill s pamˇet’ovym ´ oknem, coˇz je rezervované m´ısto v pamˇeti, do kterého se ukládaj´ı doposud zpracovaná data. Po zaplnˇen´ı tohoto okna jsou data ˚ zkomprimována. Puvodn´ ı XMill [14] pracuje s vychoz´ ı velikost´ı tohoto okna 8MB, my ´ ˚ jsme pˇri testech pracovali s oknem o velikosti 32MB. Zaj´ımalo nás, jakym ´ zpusobem ˇ ´ esˇ nost jednotlivych ˇ ovlivnuje velikost okna uspˇ metod komprese. Graf 10 znázornuje ´ závislost zlepˇsen´ı komprese na rostouc´ı velikosti pamˇet’ového okna. ˚ Puvodn´ ı XMill byl navrˇzen pˇredevˇs´ım pro pouˇzit´ı s metodami GZip a BZip2 a jako vychoz´ ı hodnotu pro velikost pamˇet’ového okna zvolili autoˇri hodnotu 8MB. Jak je z ´

45

Obrázek 10: Zlepˇsen´ı komprese v závislosti na velikosti pamˇet’ového okna grafu patrné, byla tato hodnota zvolena jako kompromis, pˇri kterém jiˇz dalˇs´ım zvˇetˇsován´ım efektivita komprese neroste natolik, aby se vyplatilo klást vˇetˇs´ı nároky na pamˇet’. Metody PPM a LZMA ale ukazuj´ı, zˇ e efektivita jejich komprese roste s vˇetˇs´ım mnoˇzstv´ım ˚ zlepˇsen´ı komprese ustává souˇcasnˇe komprimovanych dat, kdy relativnˇe velky´ nárust ´ aˇz kolem hranice velikosti okna 128MB, resp. 256MB a dále i za touto hranic´ı docház´ı ˚ pˇri takto objemnych stále k zaj´ımavému zlepˇsen´ı. Vzhledem k pamˇet’ovym ´ nárokum ´ pamˇet’ovych oknech se ale praktické vyuˇzit´ı ukazuje jako nereálné a sp´ısˇ e to ukazuje ´ na fakt, zˇ e architektura XMill nen´ı vhodná pro efektivn´ı vyuˇzit´ı tˇechto metod komprese. 6.2.4

´ ı kontejneru˚ Shlukovan´

˚ Jeden z provedenych u˚ optimalizace XML komprese bylo provádˇen´ı shlukován´ı ´ zpusob ˚ Jedná se o metodu, pˇri které pˇred komprimac´ı jednotlivych kontejneru. ´ kontejneru˚ provád´ıme shlukovan´ı dat v nich obsaˇzenych. Vzhledem k architektuˇre XMill je ale nutné po ´ ˚ proveden´ı shlukován´ı uloˇzit dodateˇcné informace o puvodn´ ım rozloˇzen´ı prvku˚ kontejneru˚ do paty bˇehu (v komprimované podobˇe) — t´ım ale vzniká jisty´ overhead, ktery´ negaˇ tivnˇe ovlivnuje vysledek komprese. ´ Bˇehem provádˇen´ı praktickych ´ testu˚ jsme narazili na dva zásadn´ı problémy: • Shlukován´ı kontejneru˚ je v souˇcasné implementaci cˇ asovˇe velmi nároˇcné. ˚ ale overhead celkovou kompresi zhorˇsu• Shlukován´ı zlepˇsuje kompresi kontejneru, je.

46

Soubor nasa

Velikost 25 054 691

T Cx/gz 3:45:26

T Cx/bz 3:33:57

T Cx/pp 3:36:22

T Cx/lz 3:38:05

ˇ Tabulka 20: Casov´ a nároˇcnost XMill komprese se shlukován´ım kontejneru˚ α x/gz x/bz x/pp x/lz

CSα 3 477 590 2 973 524 2 523 919 2 645 959

z toho reˇzie 507 785 441 997 420 525 300 488

∆CR bez reˇzie 94,99 97,45 97,69 96,33

∆CR s reˇz´ı 111,24 114,47 117,22 108,67

Tabulka 21: XMill komprese se shlukován´ım kontejneru˚

Vzhledem k cˇ asové nároˇcnosti testu˚ jsme uskuteˇcnili prakticky´ test pouze na jednom XML souboru (nasa.xml) a u nˇej jsme provedli kompresi vˇsemi testovanymi algoritmy ´ ˇ ˚ Casovou spolu s aktivn´ım shlukován´ım kontejneru. nároˇcnost shrnuje tabulka 20. Tabulka 21 a graf 11 zobrazuj´ı dosaˇzené vysledky. U vˇsech metod komprese doˇslo ´ d´ıky shlukován´ı kontejneru˚ ke zlepˇsen´ı komprese (∼ 3%), ale zapoˇcten´ım reˇzie, která mus´ı byt ´ uloˇzena u kaˇzdého bˇehu, doˇslo k celkovému zhorˇsen´ı komprese v rozmez´ı 8 aˇz 14 %. Vzhledem k proveden´ı pouze jednoho testu je tˇezˇ ké u této metody uˇcinit závˇer. Nicménˇe je jasné, zˇ e bez vylepˇsen´ı cˇ asové nároˇcnosti a navrhnut´ı efektivnˇejˇs´ıho uloˇzen´ı ˚ puvodn´ ıho uspoˇra´ dán´ı prvku˚ v kontejnerech, nelze tuto metodu v praxi aplikovat. 6.2.5

´ ı celych Shlukovan´ ´ XML souboru˚

U vybranych ´ XML souboru˚ jsme provedli následuj´ıc´ı optimalizaci: ´ 1. Rozdˇelen´ı XML od prvn´ı urovnˇ e na jednotlivé podsoubory. ˚ 2. Proveden´ı shlukován´ı tˇechto souboru. 3. Sloˇzen´ı souboru˚ zpˇet do jednoho XML dle vysledk u˚ shlukován´ı. ´ Vzhledem k tomu, zˇ e jsme provádˇeli pˇreházen´ı jednotlivych ´ prvku˚ v XML souboru, nen´ı moˇzné v praxi tuto optimalizaci pouˇz´ıt obecnˇe na vˇsechny XML soubory. Vhodny´ ˇ XML soubor mus´ı splnovat tato kritéria: • Pˇreházen´ı prvku˚ je povoleno (nezakazuje ho napˇr´ıklad schéma). ´ • Obsahuje nˇekolik prvku˚ na prvn´ı urovni, v ideáln´ım pˇr´ıpadˇe vhodnych ´ pro shlukován´ı (obsáhlejˇs´ı texty). My jsme vhodné soubory vybrali ruˇcnˇe, neˇreˇsili jsme vybˇ ´ er vhodnych ´ souboru˚ algoritmicky. Takto optimalizované XML soubory jsme komprimovali nejdˇr´ıve bˇezˇ nymi ´

47

Obrázek 11: XMill komprese se shlukován´ım kontejneru˚ Soubor psd7003 dblp wiki SwissProt nasa

Treshold 0,05 0,05 0,05 0,05 0,05

Prvku/soubor ˚ 5 30 1 1 1

Souboru˚ 52 506 71 988 75 036 50 000 2 435

ˇ Cas 0:27:08 0:52:24 0:38:10 0:12:41 0:00:19

Tabulka 22: Parametry shlukován´ı celych ´ XML souboru˚

˚ Seznam nástroji a pak pomoc´ı XMill ve standardn´ım reˇzimu (bez shlukován´ı kontejneru). vybranych ´ souboru˚ a základn´ı parametry shlukován´ı shrnuje tabulka 22. ˚ vˇcetnˇe srovnán´ı Vysledky komprese bˇezˇ nymi nástroji celych ´ ´ ´ shlukovanych ´ souboru, ˚ ci kompresi bˇezˇ nymi pomˇeru vuˇ nástroji bez proveden´ı shlukován´ı, shrnuje tabulka 23 a ´ graf na obrázku 12. Jak je vidˇet, aˇz na jeden pˇr´ıpad, kdy doˇslo k nepatrnému zhorˇsen´ı, mˇelo shlukován´ı celych komprese. Komprese ´ XML souboru˚ pozitivn´ı vliv na vysledek ´ ˚ eru zlepˇsila (∼3 aˇz 5 %). U souboru wiki.xml doˇslo k témˇerˇ desetiprocentn´ımu se v prumˇ zlepˇsen´ı, coˇz je vysledek dany´ povahou obsahu tohoto souboru — tento vysledek je v ´ ´ kontrastu s vysledky komprese wiki.xml pomoc´ı XMill. ´ ˚ vˇcetnˇe srovnán´ı pomˇeru˚ Vysledky komprese pomoc´ı XMill u shlukovanych ´ ´ souboru, ˚ ci kompresi XMill u souboru˚ bez proveden´ı shlukován´ı, shrnuje tabulka 24 a graf na vuˇ ˚ eru k m´ırnému zlepˇsen´ı obrázku 13. Vysledky ukazuj´ı, zˇ e u této metody doˇslo v prumˇ ´ vysledk u˚ komprese (∼ 1 aˇz 3%). U nˇekolika jednotlivych ´ ´ XML souboru˚ ale doˇslo k m´ırnému zhorˇsen´ı.

48

Obrázek 12: Srovnán´ı bˇezˇ né komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚

Obrázek 13: Srovnán´ı XMill komprese po proveden´ı shlukovan´ı celych ´ XML souboru˚

∆CR 98,34 99,46 90,40 95,51 98,93 96,53

CRgz 13,64 16,52 17,94 10,40 14,01 15,54

∆CR 100,51 93,92 91,92 86,60 94,23 95,24

CRbz 10,51 10,79 13,06 6,84 10,61 11,06

∆CR 98,91 98,14 87,79 89,98 96,59 95,28

CRpp 8,95 7,87 10,09 4,94 7,75 8,64

∆CR 99,52 97,99 91,26 95,90 99,80 96,69

∆CR 100,44 99,92 93,01 92,38 97,93 97,89

CRx/bz 9,68 10,42 14,71 5,54 10,32 11,00

∆CR 100,10 98,55 94,17 95,60 99,47 97,80

CRx/pp 8,58 8,93 12,61 4,67 8,60 9,52

∆CR 99,69 100,50 94,98 96,87 100,01 98,60

CRx/lz 8,53 10,74 12,65 5,77 9,58 10,19

Tabulka 24: Komprese shlukovanych ´ XML souboru˚ pomoc´ı XMill

CRx/gz 10,52 13,58 17,58 6,83 12,22 13,19

∆CR 98,69 99,43 94,14 97,71 99,31 97,73

∆CR 101,56 101,05 94,67 95,29 99,70 99,26

CRlz 8,53 10,74 12,65 5,77 9,58 10,19

Tabulka 23: Komprese shlukovanych nástroji ´ XML souboru˚ bˇezˇ nymi ´

CRrar 9,08 8,19 10,50 5,17 8,16 8,92

Soubor psd7003 dblp wiki SwissProt nasa CRwavg

Soubor psd7003 dblp wiki SwissProt nasa CRwavg

49

50

7

´ er ˇ Zav

Z provedeného sˇ etˇren´ı vyplyv´ ´ a, zˇ e ke kompresi XML souboru˚ lze vyuˇz´ıt jak bˇezˇ né nástroje pro kompresi (archivaci) dat, tak i specializované XML-aware nástroje. Populárn´ım nástrojem v kategorii XML-aware komprese je XMill. XMill v dobˇe svého vzniku dosáhl zaj´ımavého zlepˇsen´ı u algoritmu˚ GZip a BZip2 t´ım, zˇ e vyuˇzil strukturáln´ı informace pˇr´ıtomné v XML. Seskupen´ım sémanticky pˇr´ıbuznych ´ ˚ dosáhnout lepˇs´ıch vysledk dat pomáhá slovn´ıkovym u˚ komprese. Z námi ´ algoritmum ´ provedenych ´ testu˚ ale vyplyv´ ´ a, zˇ e modern´ı kompresn´ı metody, jako jsou PPM a LZMA, ˚ eru s minimálnˇe srovnatelnou uˇ ´ cindokázˇ ´ı komprimovat XML soubory jako text v prumˇ ˚ jako uvedené metody GZip a BZip2 pˇri pouˇzit´ı nost´ı (v implementaci bˇezˇ nych ´ nástroju), strukturáln´ı komprese (implementované v XMill). Ukázalo se také, zˇ e architektura XMill nen´ı pˇr´ıliˇs vhodná pro nahrazen´ı metod GZip a BZip2 metodami PPM cˇ i LZMA, protoˇze ˚ tˇr´ısˇ tˇen´ı dat do skupin (kontejneru) ˚ naplno vyuˇz´ıt jejich s´ıly. Vyuˇzit´ı tˇechto nedokázˇ e kvuli nástroju˚ by mˇelo smysl pouze s velmi obsáhlym ´ pamˇet’ovym ´ oknem, coˇz by ale kladlo ’ velké nároky na pamˇet jak pˇri procesu komprese, tak i dekomprese. Z provedenych testu˚ také vyplynulo, zˇ e XML-aware komprese je velice citlivá na ´ ˚ zitá je správná identifikace a oddˇelen´ı od sebe analyzu vstupn´ıch XML dat. Velice duleˇ ´ ´ cinnost komprese. Ukázalo struktury od dat. Nesprávné proveden´ı analyzy ´ má vliv na uˇ ˚ se také, zˇ e nˇekteré XML soubory nejsou vubec vhodné pro kompresi XML-aware nástrojem XMill a lepˇs´ıch vysledk u˚ se dosáhne jejich kompres´ı jako textu. ´ Ukázali jsme také, zˇ e efektivitu XML komprese lze zvyˇ ´ sit pouˇzit´ım metod shlukován´ı dat. Otestovali jsme shlukován´ı dat v kontejnerech nástroje XMill a také shlukován´ı celych kompresory a pomoc´ı XMill. ´ XML souboru˚ a jejich následnou kompresi bˇezˇ nymi ´ Shlukován´ı kontejneru˚ m´ırnˇe jejich kompresi zlepˇsuje, ale v aktuáln´ı implementaci je ˇ cˇ asovˇe pˇr´ıliˇs nároˇcné a nav´ıc tak vzniká dodateˇcná reˇzie, která celkovˇe zabranuje dosaˇzen´ı zlepˇsen´ı komprese. Naproti tomu shlukován´ı celych ´ XML souboru˚ u drtivé vˇetˇsiny testovac´ıch souboru˚ vedlo ke zlepˇsen´ı komprese a to jak pˇri jejich kompresi jako textu, tak ˚ eru jsme dosáhli m´ırného zlepˇsen´ı v rˇ a´ du nˇekolika i pˇri kompresi pomoc´ı XMill. V prumˇ procent, u individuáln´ıch souboru˚ bylo zlepˇsen´ı aˇz o 10 % v závislosti na pouˇzité metodˇe komprese.

51

8

Reference

[1] J. Adiego, G. Navarro, P. Fuente. Using Structural Contexts to Compress Semistructured Text Collections. Depto. de Informática, Universidad de Valladolid, Depto. de Ciencias de la Computación, Universidad de Chile, Depto. de Informática, Universidad de Valladolid, 2007. [2] T. Bell, D. Kulp. Longest-match String Searching for Ziv–Lempel Compression. 1993. [3] M. Brauer, P. Durusaum, G. Edwards, D. Faure, T. Magliery, D. Vogelheim. Open Document Format for Office Applications (OpenDocument) v1.0. OASIS Standard, 2005. [4] M. Burrows and D.J. Wheeler. A Block-sorting Lossless Data Compression Algorithm. 1994. [5] Ch. Bussler. B2B Protocol Standards and their Role in Semantic B2B Integration Engines. Oracle Corporation, 2001. [6] J. Cheney. Compressing XML with Multiplexed Hierarchical PPM Models. Cornell University, Ithaca, 2001. [7] J. Cheng, Wilfred Ng. XQzip: Querying Compressed XML Using Structural Indexing. Department of Computer Science, Hong Kong University of Science and Technology, Clear Water Bay, Hong Kong, 2004. [8] J. G. Cleary, I. H. Witten. Data Compression Using Adaptive Coding and Partial String Matching. 1984. [9] G. V. Cormack, R. N. S. Horspool. Data Compression Using Dynamic Markov Modelling. 1986. [10] P. Deutsch. DEFLATE Compressed Data Format Specification version 1.3. RFC 1951. 2003. [11] D. Huffman. A method for the construction of minimum redundancy codes. 1952. ˇ an. Shluková analyza. [12] J. Kelbel, D. Silh´ ´ [13] M. Levene, P. Wood. XML Structure Compression. Birkbeck College, University of London, 2002. [14] H. Liefke, D. Suciu. XMill: an Efficient Compressor for XML Data. Univ. of Pennsylvania, 2000. [15] G. N. N. Martin. Range encoding: an algorithm for removing redundancy from a digitised message. 1979. http://www.compressconsult.com/rangecoder/rngcod.pdf.gz

52

[16] G. Manzini. The Burrows-Wheeler Transform: Theory and Practice. 1999. [17] J. Martinoviˇc. Search in Documents based on Similarity. Department of Computer Sciˇ – Technical University ence, Faculty of Electrical Engineering and Computer Science, VSB of Ostrava, 2008. [18] J. Min, M. Park, Ch. Chung. XPRESS: A Queriable Compression for XML Data. Division of Computer Science, Department of Electrical Engineering & Computer Science Korea Advanced Institute of Science and Technology, Taejon, Korea, 2003. [19] M. Nicola J. John. XML Parsing: A Threat to Database Performance. 2003. [20] M. Nottingham, R. Sayre. The Atom Syndication Format. RFC 4287, 2005 [21] P. M. Tolani, J.R. Haritsa. XGRIND: A Query-friendly XML Compressor. Dept. of Comput. Sci. & Autom., Indian Inst. of Sci., Bangalore, 2002. ˇ – Technická univerzita Ostra[22] M. Vicher. Shlukován´ı pomoc´ı algoritmu COBWEB. VSB va, 2010. [23] J. Ziv, A. Lempel. A universal algorithm for sequential data compression. IEEE Transactions on Information Theory. 1977. [24] .NET Zip Library #ziplib (3.5.2010). http://www.icsharpcode.net/OpenSource/SharpZipLib/Default.aspx [25] 7-Zip – domovská stránka (3.5.2010). http://www.7-zip.org/ [26] BZip2 Manual (3.5.2010). http://www.bzip.org/1.0.5/bzip2-manual-1.0.5.pdf [27] Dmitry Shkarin’s PPMd Ported To C# by Michael Bone (3.5.2010). http://users.senet.com.au/ mjbone/Compression.html [28] Document Object Model (DOM) (3.5.2010). http://www.w3.org/DOM/ [29] Extensible Markup Language (XML) (3.5.2010). http://www.w3.org/XML/ [30] Introduction to DTD (3.5.2010). http://www.w3schools.com/dtd/dtd intro.asp [31] Introducing the Office (2007) Open XML File Formats (3.5.2010). http://msdn.microsoft.com/en-us/library/aa338205.aspx [32] Overview of SGML Resources (3.5.2010). http://www.w3.org/MarkUp/SGML/

53

[33] WinRAR – domovská stránka (v cˇ eˇstinˇe) (3.5.2010). http://www.rar.cz/ [34] RSS 2.0 Specification (3.5.2010). http://www.rssboard.org/rss-specification [35] SAX Project (3.5.2010). http://www.saxproject.org/ [36] SOAP Specifications (3.5.2010). http://www.w3.org/TR/soap/ [37] XHTML 1.0: The Extensible HyperText Markup Language (Second Edition) (3.5.2010). http://www.w3.org/TR/xhtml1/ [38] XMill project at sourceforge.net (3.5.2010). http://sourceforge.net/projects/xmill/ [39] XML Binary Characterization (3.5.2010). http://www.w3.org/TR/xbc-characterization/ [40] XML-RPC Specification (3.5.2010). http://www.xmlrpc.com/spec

Komprese XML souborů Compression of XML Files

Recommend Documents