XQuery Novelties revisited Door Geert Josten,
[email protected]]
Op XML Holland 2010[1] heb ik een presentatie gegeven over de laatste nieuwtjes van XQuery [2]. Leuk en aardig, maar waarvoor gebruik je XQuery nou eigenlijk? En waarom XQuery gebruiken boven allerlei andere, al dan niet aan XML gerelateerde alternatieven? In dit artikel probeer ik hierop antwoord te geven en leg ik ook uit wat zo interessant is aan de (relatief nieuwe) uitbreidingen op XQuery.
Waarvoor gebruik je XQuery? XQuery [3] staat voor XML Query Language [4]. Dat geeft al een beetje de essentie weer. Het is een taal waarmee subsets en substructuren uit een grote verzameling XML-bestanden gehaald kunnen worden. Deze kunnen daarbij bewerkt worden tot iets dat geschikt is om te verwerken in een volgend proces, of bijvoorbeeld om te tonen in een webbrowser. XQuery maakt daarbij veel gebruik van XPath [5]. 1.
xquery version '1.0';
2. 3.
(: Een voorbeeldje XQuery code dat zoekt naar
4.
boeken met XQuery in de titel.. :)
5. 6.
7.
8.
{
9. 10.
(: Doorzoek alle boeken :)
11.
for $b in collection('books')/book
12. 13.
(: Pak degene met ‘XQuery’ in de titel :)
14.
where contains($b/title, 'XQuery')
15. 16.
(: Maak van het resultaat een HTML lijstje :)
17. 18.
return
- { data($b/title) }
19. 20.
21.
22.
<> PAG
30 14
n
NR 3
}
Alle XML-standaarden kennen zo hun eigen toepassingsgebied. Om nog een aantal voorbeelden te noemen: XSLT [6] is een taal om XML om te zetten naar een ander formaat. XPointer [7] is een uitbreiding op XPath om met meer precisie substructuren of nog kleiner te adresseren. XLink [8] is een standaard om relaties vast te leggen. XInclude [9] is een standaard om op basis van relaties samenstellingen uit losse stukken XML te realiseren. En XProc [10] is een standaard waarmee in XML beschreven kan worden hoe XML-documenten in één of meerdere stappen met behulp van zogeheten XML-Pipelines verwerkt moeten worden tot het gewenste eindresultaat. Daarbij kan gebruik gemaakt worden van bijvoorbeeld XQuery, XSLT en XInclude en indirect dus ook van XPath, XPointer en XLink. Alle standaarden hangen met elkaar samen, ze vormen één geheel. De samenhang tussen een aantal van deze XML-standaarden wordt heel aardig samengevat in figuur 1 dat je op W3Schools [11] kunt vinden:
XQuery versus XSLT XQuery heeft dus van oorsprong een tamelijk specifiek doel: stukjes XML extraheren uit een grote(re) verzameling. Dit is heel wat anders dan XSLT, een taal die zich specifiek richt op het omzetten van een XML-document in ander XML-document, een HTML-document of een document in een nog ander formaat. Je zou denken dat het vrij duidelijk zou moeten zijn wanneer en waarvoor je welke standaard moet gebruiken. Toch hoor je vaak de vraag wanneer je beter XSLT kunt gebruiken en wanneer je beter kunt kiezen voor XQuery. Het punt is namelijk dat deze twee talen, meer dan de andere, een grote overlap vertonen. Er zijn veel taken die je in XSLT kunt doen, die je ook in XQuery kunt doen, en vice versa. Deze vraag is in zekere zin onterecht en in andere zin niet altijd van belang. Toch zal ik hier wat dieper op ingaan, dan wordt vanzelf duidelijk waarom. Als je iets op meerdere manieren kunt aanpakken en beide manieren doen het met vergelijkbaar gemak, dan is er niet echt reden om een van de twee boven de ander te verkiezen. Toch zal je zien dat bepaalde mensen voorkeur hebben voor XQuery. De syntax van XQuery is namelijk veel compacter, aangezien het niet in XML wordt uitgedrukt zoals XSLT. XSLT werkt echter heel anders en dat maakt bijvoorbeeld het doen van bepaalde structuurwijzigingen veel eenvoudiger. In deze zin komt het dus vooral neer op enerzijds persoonlijke smaak en anderzijds de specifieke uitdagingen van de taak die voor handen ligt, welke van de twee door iemand Figuur 1: Samenhang XMLgebruikt wordt. standaarden
1. 2.
(: Een vergelijking tussen XQuery en XSLT code :)
3. 4.
(: For-each in XQuery.. :)
5. 6.
for $b in $books
7.
order by $b/title
8.
return
9.
$b/title
10. 11.
(: For-each in XSLT.. :)
12. 13.
<xsl:for-each select="$books">
14.
<xsl:sort select="title"/>
15.
<xsl:copy-of select="title"/>
16.
17.
Nu is het echter zo dat XQuery veel toegepast wordt in combinatie met databases. Dat brengt extra overwegingen met zich mee. Ten eerst zijn XSLT-fans niet altijd mensen die zich ook bezighouden met databases. XSLT kom je vaker tegen bij bijvoorbeeld documentconversies. Ten tweede brengen databases extra uitdagingen met zich mee, vaak ook van een totaal andere orde. De XQuery Extensions spelen hier op in, terwijl XSLT geen (officiële) Extensions kent en die ook niet echt nodig heeft. Kortom, XQuery en XSLT laten zich moeilijk vergelijken — dat is dan ook meestal zinloos.
XQuery relatief onbekend Het feit dat XSLT al veel langer bestaat dan XQuery heeft overigens ook invloed gehad. In het begin had men niet zoveel keus; later was men gewend aan het snel volwassen geworden XSLT en stond XQuery nog de nodige jaren in de kinderschoenen.
<> PAG
15
n
NR 3
Het idee voor een XML Query Language is al ten tijde van de opkomst van XML ontstaan, maar het heeft veel langer geduurd voor het tot een W3C Recommendation is gekomen. Je zou dus kunnen zeggen dat XQuery, ten opzichte van bijvoorbeeld XSLT en XPath, nog maar net om de hoek komt kijken. Een van de oorzaken hiervoor is dat men, na de lancering van XPath in 1999, al snel in de gaten kreeg dat zo’n taal grotendeels gebaseerd kon worden op XPath. Dit heeft in 2001 tot de eerste Working Draft van zowel XQuery 1.0 als XPath 2.0 geleid. XSLT kon en moest hier natuurlijk ook van profiteren. De Working Draft voor XSLT 2.0 werd in diezelfde tijd opgepakt. De Recommendations van deze drie zijn uiteindelijk min of meer tegelijk gelanceerd. We spreken dan inmiddels over 2007! XQuery is dus pas sinds 2007 een Recommendation, terwijl XSLT en XPath al sinds 1999 een Recommendation zijn en al snel volop in gebruik waren. XQuery heeft nog altijd achterstand in te halen op XSLT en XPath. Daar komt bij dat in 1999 XML en alles wat daar bij hoorde ‘booming business’ was. Tegenwoordig lopen de ontwikkelingen op XML-gebied langzamer en trekken nieuwe hypes als JSON [12] en NoSQL [13] alle aandacht. XQuery heeft wat dat betreft ook achterstand in te halen op XML-databases. Deze databases ontstonden in velerlei vormen na de opkomst van XML, maar het idee voor één generieke Query Language kwam pas een aantal jaar later. Ook het feit dat XQuery pas sinds enkele jaren een Recommendation is heeft brede ondersteuning in commerciële database-producten afgeremd. Enkele grote partijen zoals IBM waren vanaf begin betrokken bij XQuery, andere partijen zoals Oracle volgden pas later. Met commerciële XML-databases ging het ook zo: er waren enkele early adopters maar vooral partijen die liever de kat uit de boom keken.
Relatie met databases Dat XQuery populair is in combinatie met databases is overigens geen toeval. Het is voor de hand liggend om grote verzamelingen XML in een (XML-)database te stoppen. Databases zijn immers bedoeld voor grootschalige opslag en efficiënte extractie daaruit. Dat sluit dus perfect aan op het doel van XQuery. En ook dat is geen toeval. XQuery is namelijk (indirect) ontstaan uit databasetalen als SQL. Met de komst van XML ontstonden ook de eerste ideeën voor XML-opslag in databases. In eerste instantie deed men dat vooral in relationele databases. Talen zoals SQL zijn niet toegerust op het ontsluiten van XML, dus ontstonden als vanzelf allerlei uitbreidingen en varianten daarop. Tegen de tijd dat de XSLT- en XPathRecommendations een feit waren, werd ingezien dat er ook behoefte was aan één generieke Querytaal. Dit resulteerde in 2000 in de taal Quilt [14]. Na adoptie door W3C werd dit omgedoopt tot de naam XQuery. Het volgende schema dat ik aan sheets van een lesprogramma over XML en databases [15] ontleend heb, geeft een en ander beknopt weer.
<> PAG
30 16
n
NR 3
Figuur 2: Ontstaansgeschiedenis XPath en XQuery
Het is dus geen toeval dat XQuery en databases zo goed samengaan. XQuery is juist voor een belangrijk deel ontwikkeld en bedoeld voor databases. Wel is door W3C bewust gekozen het daartoe expliciet niet beperkt te houden.
Relatie met database-functionaliteit De ontwikkeling rond XQuery heeft dan wel lang geduurd, maar heeft al die jaren geenszins stilgestaan. XQuery kent de nodige uitbreidingen, die de kracht van de taal flink vergroten. Deze uitbreidingen komen voor een deel voort uit toepassingen binnen databases. Ronald Bourret heeft in het verleden een zeer informatieve website opgezet, waarin XML en databases [16] uitgebreid aan bod komen. Daarin noemt hij een aantal basisfunctionaliteiten waar elke database aan moet voldoen. De belangrijkste zijn: n Efficiënte opslag en extractive. n (Full-tekst) zoeken. n Transactionele updates. n Data-integriteit en ‘triggers’. n Parallelle toegang en bewerking. n Beveiliging en crash recovery. n Versionering van gegevens. Opslag is natuurlijk inherent aan databases. En zo horen bij een goede database ook voorzieningen voor parallelle toegang en updates, beveiliging en crash recovery. Extractie correspondeert met XQuery 1.0. Voor het zoeken is een Full-Text zoekstandaard ontwikkeld, voor updates een Update standaard. En ook voor dataintegriteit en versioning zijn uitbreidingen bedacht, zij het nog onofficieel.
Uitbreidingen op XQuery XQuery 1.0 leunt op XPath 2.0, het is in feite een uitbreiding daarop. XPath is een krachtige taal om substructuren te adresseren, maar voor zoeken is het niet bedoeld. XQuery biedt daar zelf ook niet de juiste functionaliteit voor. Dat draait meer rond bewerking voor vervolgstappen. Daarom is een extra uitbreiding op deze talen ontwikkeld: de XQuery and XPath Full Text 1.0 [17] standaard, die sinds maart dit jaar een W3C Recommendation [18] is. 1. 2.
(: Een voorbeeldje XPath Full Text.. :)
3. 4.
(: Zoek boeken waarvan titel begint met XQuery novelties :)
5.
//book[
6.
title contains text 'XQuery' ftand 'novelties'
7. 8.
ordered distance at most 2 words at start
]
9.
XQuery is geschikt om gegevens te extraheren en te bewerken, maar niet om wijzigingen door te voeren. Sinds maart dit jaar is de XQuery Update Facility 1.0 [19] standaard een W3C Recommendation. Dat is een uitbreiding die wel blijvende aanpassingen op de XML-structuren mogelijk maakt. 1. 2.
(: Een voorbeeldje Update Facility.. :)
3. 4.
(: Voeg nieuw boek toe.. :)
5.
insert node
6.
7.
XQuery novelties revisited as last into doc('books.xml')/books
8.
Voor data integriteit is een (onofficieel) voorstel [20] gepresenteerd op XML Prague 2010 [21]. Deze uitbreiding maakt het mogelijk definities van datacollecties, indexen en data-constraints in je XQuery-code op te nemen. In plaats van dit bijvoor-
<> PAG
17
n
NR 3
beeld in de databaseconfiguratie te moeten vastleggen, wordt het onderdeel van de applicatiecode zelf. Dat maakt onderhoud veel overzichtelijker, zodat het door de ontwikkelaar zelf gedaan kan worden, zonder al te veel kennis van de achterliggende database. 1. 2.
(: Voorbeeld XQuery Data Definition Facility :)
3. 4.
(: definitie voor een ‘users’ collectie :)
5.
declare collection users as element()*;
6. 7.
(: index defintie voor ‘users’ op basis van @id :)
8.
declare automatically maintained index users-by-id
9.
10.
on nodes xqddf:collection( xs:QName("users") ) by @id as xs:string;
11. 12.
(: collectie vullen en uitlezen via index :)
13.
xqddf:insert-nodes(
14.
xs:QName("users"), <user id="geert"/>);
15. 16. 17.
xqddf:probe-index-point(
xs:QName("users-by-id"), "geert");
18.
Versioning wordt veel gebruikt bij Content Management, maar wordt ook voor andere doeleinden ingezet zoals traceability. Ook hiervoor is een (onofficieel) voorstel [22] gepresenteerd op XML Prague 2010. Deze uitbreiding gaat tamelijk ver. Volgens de Update Facility-standaard worden alle mutaties verzameld in een zogeheten Pending Update List. Aan het einde van het script wordt het resultaat van alle mutaties in dat script opgeslagen. Dit voorstel beschrijft het idee om de gegevens op alle opslagmomenten te bewaren. Om dit efficiënt te doen wordt gesproken over zogeheten Pending Update List compositions. Het resultaat is in ieder geval dat de volledige historie ter beschikking komt. Om deze te ontsluiten worden onder andere twee nieuwe ‘assen’ aan XPath toegevoegd, waarmee je integraal door alle versies heen kunt navigeren. 1. 2.
(: Voorbeeld benutting versiehistorie :)
3. 4.
(: zoek naar oudere versies van huidige boek
5.
: waarvan de prijs dubbel zo duur was.
6.
:)
7. 8.
past::book[(price div 2) ge current()/price]
9.
Het opslaan van al die gegevens kost veel schijfruimte, maar die is tegenwoordig dusdanig goedkoop, dat kosten niet meer het probleem zijn.
Beyond scope
<> PAG
30 18
n
NR 3
XQuery beperkt zich echter niet alleen tot databasefunctionaliteit. Naast de al genoemde uitbreidingen zijn er nog twee die daar bovenuit gaan. Zo is er de opvolger van XQuery 1.0: XQuery 1.1 of eigenlijk XQuery 3.0 [23], momenteel nog een W3C Working Draft. Deze opvolger voegt een aantal mogelijkheden toe die de expressiekracht flink vergroten, zoals try/catch-constructies, outputdeclaraties, groeperen in de for-loop, maar ook dynamisch aanroepen van functies, of anders gezegd: functies als datatype. Dit tilt XQuery naar een geheel nieuw niveau. Ook is de zogeheten XQuery Scripting Extension 1.0 [24] standaard in ontwikkeling. Deze uitbreiding kent een aantal nieuwe mogelijkheden die de taal veel meer het allure van een (procedurele) programmeertaal geven, zoals een while-constructie,
het herdefiniëren van variabelen en een exit statement. Het bouwt ook voort op de XQuery Update Facility-standaard en maakt cumulatieve (sequentiële) updates mogelijk. 1. 2.
(: Een voorbeeldje XQuery 3.0 + Scripting Extensions.. :)
3. 4.
(: Dit voorbeeld is ontleend aan een Twitter applicatie
5.
: geschreven in XQuery, met als doel een Twitter gebruiker
6.
: aan de eigen contacten toe te voegen.
7.
:
8.
: Het maakt gebruik van het MVC design pattern.
9.
:)
10. 11.
(: Follow functionaliteit van Twitter :)
12.
declare sequential function twitter:follow-friend()
13.
{
14.
(: Vraag user-id op van te volgen persoon.. :)
15.
declare $user_id :=
16.
util:get-request-param("USER_ID");
17. 18.
(: Controleer gebruikersessie.. :)
19.
declare $is-loggedin as xs:boolean :=
20.
model:is-loggedin();
21. 22.
(: Toon login als sessie is verlopen.. :)
23.
if (not($is-isloggedin)) then
24. 25.
exit returning view:show-login("Session expired")
else ();
26. 27.
(: Pas data-model aan.. :)
28.
try {
29. 30.
model:follow-friend($user_id);
31. 32.
} catch * ($code, $msg, $val) {
33.
(: Toon melding als update actie faalt.. :)
34.
exit returning view:show-home(concat("ERROR: ", $msg))
35.
};
36. 37.
(: Ververs het scherm bij succes.. :)
38.
view:show-home("Friend added successfully");
39.
};
40.
Dit maakt XQuery bijzonder geschikt als ‘scripting’-taal en gaat het in zekere zin de concurrentie aan met talen zoals JSP, ASP en PHP, maar in feite ook met talen als Java en .Net in hun web-toepassingen. W3C kopt niet voor niets met: “XQuery is replacing proprietary middleware languages and Web Application development languages. XQuery is replacing complex Java or C++ programs with a few lines of code…” [25]
Programmeertaal XQuery 3.0 en de Scripting Extension tillen XQuery naar een hoger niveau. Ze geven XQuery het allure van een programmeertaal. Het is dan ook niet vreemd dat W3C zegt dat XQuery steeds meer database-specifieke talen én programmeertalen vervangt. XQuery is uitermate geschikt als taal voor database-ontsluiting, maar dankzij deze laatste uitbreidingen gaat het nog veel verder. XQuery vormt de lijm die alle applicatielagen bij elkaar kan brengen. Het is ook ruim krachtig genoeg om bekende Design Patterns [26] zonder veel problemen te ondersteunen. Niet
<> PAG
19
n
NR 3
alleen het alom bekende Model-View-Controller [27] pattern, maar ook andere nuttige patterns, zoals Observer, Strategy en andere [28]. Om de werkelijke kracht van XQuery te laten zien, kan ik het beste verwijzen naar de applicatie die ik samen met 2 van mijn (oud-)collega’s gemaakt heb in het kader van een programmeerwedstrijd [29]. Het doel was simpel: maak een XQueryapplicatie die aanspreekt en goed in elkaar zit. Het resultaat was Socialito [30]: een Social Media Dashboard waarin de tweets en andere informatie van je Twitter-account overzichtelijk weergegeven worden. Het gebruikersinterface maakt gebruik van HTML en JavaScript (JQuery [31]), maar voor de rest wordt uitsluitend XQuery gebruikt. De gegevens worden daarbij opgeslagen in de XML structuur van Twitter zelf. Kortom, XQuery is dus niet alleen voor Querying XML, allang niet meer. In XQuery kun je de applicatielogica uitwerken en alle applicatielagen samenbrengen. Het vormt daarmee de kern van je hele applicatie. Dit gaat veel verder dan alle andere XML-standaarden.
Meer weten? Iedereen die meer wil weten en de kracht van XQuery in de praktijk zou willen zien, raad ik aan een bezoek te brengen aan XML Amsterdam 2011 op woensdag 26 oktober aanstaande. Daar komen diverse Open Standaarden aan bod en wordt een diepgaand praatje gehouden over XQuery. [1] XML Holland congres: http://www.xmlholland.nl/jaarcongres [2] Laatste nieuwtjes van XQuery: http://xmlholland.nl/sites/default/files/Geert Josten-XMLHolland2010.pdf [3] XQuery: http://www.w3.org/TR/xquery/ [4] XML Query Language: http://www.w3.org/XML/Query/ [5] XPath: http://www.w3.org/TR/xpath20/ [6] XSLT: http://www.w3.org/TR/xslt20/ [7] XPointer: http://www.w3.org/TR/xptr-framework/ [8] XLink: http://www.w3.org/TR/xlink11/ [9] XInclude: http://www.w3.org/TR/xinclude/ [10] XProc: http://www.w3.org/TR/xproc/ [11] W3Schools: http://www.w3schools.com/xpath/xpath_intro.asp [12] JSON: http://en.wikipedia.org/wiki/JSON [13] NoSQL: http://en.wikipedia.org/wiki/NoSQL [14] Quilt: http://xml.coverpages.org/quilt_euro.html [15] XML en databases: http://www.inf.uni-konstanz.de/dbis/teaching/ws0708/xml/ [16] XML en databases: http://www.rpbourret.com/xml/XMLAndDatabases.htm [17] XQuery and XPath Full Text 1.0: http://www.w3.org/TR/xpath-full-text-10/ [18] W3C Recommendation: http://www.w3.org/TR/ [19] XQuery Update Facility 1.0: http://www.w3.org/TR/xquery-update-10/ [20] Voorstel: http://www.xmlprague.cz/2010/presentations/Matthias Brantner Extending_XQuery_with_Collections_Indexes_and_Integrity_Constraints.pdf [21] XML Prague 2010 congres: http://www.xmlprague.cz/2010/index.html [22] Voorstel: http://www.xmlprague.cz/2010/sessions.html [23] XQuery 3.0: http://www.w3.org/TR/xquery-30/ [24] XQuery Scripting Extension 1.0: http://www.w3.org/TR/xquery-sx-10/ [25] W3C over XQuery: http://www.w3.org/XML/Query/ [26] Design Patterns: http://en.wikipedia.org/wiki/Design_pattern_(computer_ science) [27] Model-View-Controller: http://code.google.com/p/xqmvc/ [28] Observer, Strategy en andere: http://patterns.28msec.com/ [29] Programmeerwedstrijd: http://www.28msec.com/contest/results [30] Socialito: http://socialito.my28msec.com/ [31] JQuery: http://jquery.com/ [32] Geerts persoonlijke blog: http://grtjn.blogspot.com/ [33] Blog van Daidalos: http://www.daidalos.nl/blogs/blog/author/Geert/ Geert Josten werkt al vanaf 2000 als IT-consultant bij Daidalos. Zijn werkterrein is breed, maar hij is het meest actief als content engineer met de nadruk op XML en gerelateerde standaarden.<<<4
3<<<
<> PAG
30 20
n
NR 3