Blauwdruk voor onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen.
Piet van Sterkenburg, Truus Kruyt en Peter van der Kamp Instituut voor Nederlandse Lexicologie December 2001
Met medewerking van: Diana Binnenpoorte Speech Processing Expertise Centre (SPEX) November 2002
1
Voorwoord. Deze Blauwdruk is een pleidooi voor hergebruik van door de overheid gefinancieerde digitale materialen. Daarom is in de Blauwdruk beschreven welke verschillende aspecten van verwerving, bewerking, administratie, verrijking, beheer, onderhoud en distributie van TSTmaterialen van vitaal belang zijn om tot een solide basis te komen waarop productontwikkeling en onderzoek kunnen plaatsvinden. De Blauwdruk werd geschreven in opdracht van de Nederlandse Taalunie in de periode september 2000 - 31 december 2001. Het onderzoek werd begeleid door Elisabeth D'Halleweyn (Nederlandse Taalunie), Hans Bennis (Meertensinstituut), Theo van den Heuvel (Polderland Language and Speech Technology), Cees Klapwijk (Digitale Bibliotheek voor de Nederlandse Letteren), Willy Martin (Commissie lexicografische Vertaalvoorzieningen) en Frieda Steurs (Lessius Hogeschool). Wij danken de leden van de begeleidingscommissie voor hun commentaar tijdens vier bijeenkomsten waarin de eerste concepten van de verschillende hoofdstukken werden besproken. Deze Blauwdruk zou niet binnen zo'n relatief korte periode tot stand zijn gekomen als niet zo veel medewerkers van het Instituut voor Nederlandse Lexicologie hun medewerking zo belangenloos hadden verleend. Zij verdienen hier daarom een eresaluut: Jeannine Beeken, Marjolijn van Bennekom, Petra Coppens, Katrien Depuydt, Sonja Deutekom, Jesse de Does, Tilly Dutilh, Dirk Geirnaert, Bart Hoogeveen, Dennis Schenk, Rob van Strien, Paulette Tacx, Rob Tempelaars, Boukje Verheij, John van der Voort van der Kleij en Roald Wiegeraad. Leiden, december 2001 Piet van Sterkenburg, Truus Kruyt en Peter van der Kamp Addendum Op verzoek van de Nederlandse Taalunie heeft SPEX, in de persoon van Diana Binnenpoorte, in de loop van 2002 de Blauwdruk bekeken vanuit het perspectief van de spraakwereld. Dit heeft geresulteerd in aanvullingen en wijzigingen waarover overeenstemming bestaat tussen SPEX en het INL. De paragrafen die integraal door SPEX zijn toegevoegd zijn 2.3.2.2., 3.3., 3.3.1., 3.3.2, 3.3.3., 4.2.3.3., 4.2.3.3.1., 4.2.3.3.2. en 4.2.3.3.3. Verder leverde SPEX bijdragen aan de paragrafen 1.2., 2.5., 2.5.2., 2.8., 2.8.1.,3.4., 4.2.3., 4.2.6.3., 4.3.3., 4.5., 6.2., 6.2.1., 6.2.2., 6.7. en 7.4. Leiden, november 2002 Piet van Sterkenburg, Truus Kruyt, Peter van der Kamp en Diana Binnenpoorte
2
Inhoudsopgave 1
INLEIDING ................................................................................................................................................. 8 1.1 1.2 1.3 1.4 1.5
2
ALGEMEEN ................................................................................................................................................ 8 OM WELKE MATERIALEN GAAT HET?......................................................................................................... 8 CONCENTRATIEPUNT VAN DE BLAUWDRUK ................................................................................................ 9 MOGELIJKE GEBRUIKERS ........................................................................................................................... 9 DOELSTELLINGEN BLAUWDRUK ............................................................................................................... 10
VERWERVING......................................................................................................................................... 15 2.1 INLEIDING ................................................................................................................................................ 15 2.2 SCENARIO'S VOOR VERWERVING.............................................................................................................. 15 2.2.1 Individueel..................................................................................................................................... 15 2.2.2 Institutioneel.................................................................................................................................. 15 2.2.3 Collectief ....................................................................................................................................... 16 2.3 SPECIFIEKE EISEN .................................................................................................................................... 16 2.3.1 Juridische aspecten ....................................................................................................................... 16 2.3.2 Financiële aspecten....................................................................................................................... 19 2.3.2.1 2.3.2.2 2.3.2.3
Ontwikkeling van een elektronische tekstenverzameling ......................................................................... 19 Ontwikkeling van een elektronische verzameling spraak ......................................................................... 22 Kosten van door derden ontwikkelde data ................................................................................................ 24
2.4 SELECTIE VAN EEN ELEKTRONISCHE VERZAMELING TEKSTEN ................................................................. 25 2.4.1 Algemeen ....................................................................................................................................... 25 2.4.2 Selectie door een non-profitorganisatie ........................................................................................ 26 2.4.3 Selectie door individuele onderzoekers ......................................................................................... 27 2.4.4 Selectie door taal- en spraaktechnologen ..................................................................................... 27 2.5 ONTWIKKELING VAN EEN ELEKTRONISCHE VERZAMELING SPRAAK......................................................... 28 2.5.1 Algemeen ....................................................................................................................................... 28 2.5.2 Selectie door een non-profitorganisatie ........................................................................................ 29 2.5.3 Selectie door individuele onderzoekers ......................................................................................... 32 2.6 PRODUCTIE EN VERWERVING VAN DIGITALE TEKSTBESTANDEN .............................................................. 32 2.6.1 Scannen ......................................................................................................................................... 33 2.6.2 Overtypen ...................................................................................................................................... 34 2.6.3 Verwerving van teksten via Internet .............................................................................................. 34 2.6.4 Verwerving van databases............................................................................................................. 35 2.6.5 Verwerving software ..................................................................................................................... 36 2.7 TECHNISCHE ASPECTEN VAN AANLEVERING VAN VERWORVEN DIGITALE TEKSTEN................................. 36 2.7.1 Aanlevering op magnetische en optische media............................................................................ 36 2.7.2 Aanlevering van teksten via Internet ............................................................................................. 36 2.7.3 Aanlevering van verworven databases.......................................................................................... 38 2.7.4 Aanlevering van verworven software ............................................................................................ 38 2.7.4.1 2.7.4.2
Aanlevering als binary .............................................................................................................................. 38 Aanlevering als broncode ......................................................................................................................... 39
2.8 PRODUCTIE EN VERWERVING VAN DIGITALE SPRAAKOPNAMEN .............................................................. 39 2.8.1 Verwerving van reeds bestaande digitale opnamen ...................................................................... 41 2.9 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES............................................................. 41 2.10 BIJLAGEN BIJ HOOFDSTUK 2................................................................................................................ 44 2.10.1 Overeenkomst tussen rechthebbende en TST-centrale .................................................................. 44 2.10.2 Overdrachtsovereenkomsten bij de opbouw van een spraakcorpus.............................................. 44 2.10.3 Licentieovereenkomst computerprogrammatuur........................................................................... 45 2.10.4 Gekozen teksten en corpus ............................................................................................................ 47 3
VERWERKING EN BEWERKING VAN VERWORVEN DATA ...................................................... 50 3.1 INLEIDING ................................................................................................................................................ 50 3.2 VERWERKING EN BEWERKING VAN DATA VOOR EEN ELEKTRONISCHE TEKSTENVERZAMELING ............... 50 3.2.1 Procedures .................................................................................................................................... 51 3.2.1.1 3.2.1.2 3.2.1.3 3.2.1.4 3.2.1.5
Procedure voor bestanden uit tekstverwerkers.......................................................................................... 52 Procedure voor zetbestanden .................................................................................................................... 52 Procedure voor ASCII-bestanden ............................................................................................................. 53 Procedure voor SGML-, XML- en HTML-coderingen............................................................................. 53 Procedure voor overige bestanden ............................................................................................................ 54
3
3.2.1.6
Procedure voor databases.......................................................................................................................... 54
3.3 VERWERKING EN BEWERKING VAN DATA VOOR EEN ELEKTRONISCHE VERZAMELING SPRAAK................ 55 3.3.1 Opnameapparatuur en digitalisering ............................................................................................ 55 3.3.2 Metadata ....................................................................................................................................... 56 3.3.3 Annotaties...................................................................................................................................... 56 3.3.4 Voorbeeld uit het Corpus Gesproken Nederlands......................................................................... 57 3.4 DE DIRECTORY OF DIRECTORYSTRUCTUUR .............................................................................................. 57 3.5 ADMINISTRATIE ....................................................................................................................................... 59 3.5.1 Van aangeleverde data.................................................................................................................. 60 3.5.2 Van de verwerking en bewerking van verworven data.................................................................. 60 3.6 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES............................................................. 61 4
TAALKUNDIGE BEWERKING VAN TAALMATERIAAL .............................................................. 63 4.1 INLEIDING ................................................................................................................................................ 63 4.2 INHOUDELIJKE EN VORMELIJKE ASPECTEN VAN VERRIJKING ................................................................... 66 4.2.1 Algemene aspecten ........................................................................................................................ 66 4.2.1.1 4.2.1.2 4.2.1.3 4.2.1.4
4.2.2
Niveaus en soorten van verrijking ............................................................................................................ 66 Relatie tussen verrijking en de gebruiker.................................................................................................. 67 Standaarden .............................................................................................................................................. 68 Procedurele en personele aspecten............................................................................................................ 70
Verrijking van corpora van geschreven taal ................................................................................. 71
4.2.2.1 Verrijking van het corpus als geheel......................................................................................................... 72 4.2.2.2 Verrijking van afzonderlijke teksten......................................................................................................... 73 4.2.2.3 Verrijking van tekststructurele eenheden binnen de tekst......................................................................... 74 4.2.2.4 Verrijking van taalkundige eenheden binnen de tekst............................................................................... 75 4.2.2.4.1 Morfologische eigenschappen........................................................................................................ 76 4.2.2.4.2 Morfosyntactische eigenschappen.................................................................................................. 76 4.2.2.4.3 Lemma (trefwoord) ........................................................................................................................ 77 4.2.2.4.4 Syntactische eigenschappen ........................................................................................................... 77 4.2.2.4.5 Semantische eigenschappen ........................................................................................................... 78 4.2.2.4.6 Pragmatische eigenschappen.......................................................................................................... 79
4.2.3
Verrijking van corpora van gesproken taal en spraakcorpora ..................................................... 79
4.2.3.1
Verrijking van het corpus als geheel en van de afzonderlijke getranscribeerde gesproken-taalfragmenten 80 4.2.3.2 Verrijking van eenheden binnen getranscribeerde gesproken-taalfragmenten.......................................... 80 4.2.3.3 Verrijking van spraakcorpora ................................................................................................................... 81 4.2.3.3.1 Verrijking – algemeen .................................................................................................................... 81 4.2.3.3.2 Andere mogelijke verrijkingen, annotatielagen.............................................................................. 81 4.2.3.3.3 Standaarden en evaluatie................................................................................................................ 84
4.2.4
Verrijking van digitale woordenboeken ........................................................................................ 85
4.2.4.1 4.2.4.2
4.2.5 4.2.6
Verrijking van een woordenboekcorpus als geheel en van de afzonderlijke woordenboeken .................. 85 Verrijking van eenheden binnen een woordenboek .................................................................................. 85
Computationeel lexicon................................................................................................................. 86 Stappenplannen met werklast en kostenberekening ...................................................................... 87
4.2.6.1 Algemene uitgangspunten......................................................................................................................... 87 4.2.6.2 Stappenplan met werklast voor de verrijking van een corpus van geschreven taal................................... 89 4.2.6.2.1 Verrijking van tekststructurele eenheden in de tekst ...................................................................... 89 4.2.6.2.2 Verrijking van taalkundige eenheden in de tekst............................................................................ 91 4.2.6.3 Stappenplan met werklast voor de verrijking van een spraakcorpus......................................................... 96 4.2.6.4 Stappenplan met werklast voor de verrijking van een digitaal woordenboek ........................................... 97 4.2.6.5 Stappenplan met werklast voor de ontwikkeling van een computationeel lexicon ................................. 100
4.3 VERRIJKINGSSOFTWARE ........................................................................................................................ 104 4.3.1 Overzicht ..................................................................................................................................... 104 4.3.1.1 4.3.1.2
4.3.2
Algemene zaken...................................................................................................................................... 104 Stand van zaken: kort overzicht.............................................................................................................. 105
Verrijkingssoftware voor corpora van geschreven taal .............................................................. 109
4.3.2.1 Software voor tekstclassificatie .............................................................................................................. 109 4.3.2.2 Software voor verrijking van tekststructurele eenheden ......................................................................... 110 4.3.2.3 Software voor verrijking van taalkundige eenheden............................................................................... 110 4.3.2.3.1 Tokeniseren.................................................................................................................................. 110 4.3.2.3.2 Zinsgrenzen.................................................................................................................................. 111 4.3.2.3.3 Morfosyntactische analyse en lexiconlook-up.............................................................................. 111 4.3.2.3.4 Woordsoorttagging....................................................................................................................... 113 4.3.2.3.5 Lemmatiseren............................................................................................................................... 116 4.3.2.3.6 Het herkennen van woordgroepen................................................................................................ 116
4
4.3.2.3.7
4.3.3
Syntactische annotatie .................................................................................................................. 117
Verrijkingssoftware voor spraakcorpora en corpora van gesproken taal .................................. 121
4.3.3.1 Software voor tekstclassificatie .............................................................................................................. 122 4.3.3.2 Software voor verrijking van tekststructurele eenheden ......................................................................... 122 4.3.3.3 Software voor verrijking van taalkundige eenheden............................................................................... 122 4.3.3.3.1 Tokeniseren en zinsgrensdetectie ................................................................................................. 122 4.3.3.3.2 Toekenning van woordsoorttags .................................................................................................. 123 4.3.3.3.3 Lemmatiseren............................................................................................................................... 123 4.3.3.3.4 Postprocessing en lexicon ............................................................................................................ 123 4.3.3.3.5 Syntactische annotatie .................................................................................................................. 123 4.3.3.3.6 Semantische en pragmatische annotatie ....................................................................................... 124 4.3.3.3.7 Prosodische annotatie................................................................................................................... 124 4.3.3.4 Overige automatische verrijking van spraakcorpora............................................................................... 124
4.3.4 4.3.5
Software voor de codering van informatiecategorieën in woordenboeken ................................. 124 Software voor de ontwikkeling van een computationeel lexicon ................................................. 125 BIJLAGEN BIJ § 4.3 .......................................................................................................................................... 125 4.3.A Korte uitleg van een aantal classificatieprocedures ........................................................................ 125 4.3.B Informatie over genoemde datasets.................................................................................................. 127 4.4 CRITERIA VOOR KEUZES BIJ PROGRAMMATUURONTWIKKELING ............................................................ 129 4.4.1 Criteria voor de keuze van hardwareplatform en besturingssysteem.......................................... 129 4.4.1.1 4.4.1.2 4.4.1.3 4.4.1.4 4.4.1.5 4.4.1.6
4.4.2
Criteria voor de keuze van te gebruiken programmeertalen....................................................... 130
4.4.2.1 4.4.2.2 4.4.2.3 4.4.2.4 4.4.2.5 4.4.2.6 4.4.2.7 4.4.2.8
4.4.3
Het opbouwen van documentatie m.b.v. daarvoor beschikbare gereedschappen.................................... 134 Zonder documentatiegereedschappen ..................................................................................................... 134 Commentaar in de broncode en aparte (technische) documentatie ......................................................... 135
Het gebruik van ontwikkelmethoden ........................................................................................... 135
4.4.5.1 4.4.5.2 4.4.5.3 4.4.5.4 4.4.5.5 4.4.5.6 4.4.5.7
4.4.6
Naamgeving............................................................................................................................................ 133 Eenmaligheid van codering .................................................................................................................... 134
Documentatie .............................................................................................................................. 134
4.4.4.1 4.4.4.2 4.4.4.3
4.4.5
Beoogde duurzaamheid van de programmatuur...................................................................................... 130 Hergebruik.............................................................................................................................................. 131 Oplossingsmethodiek.............................................................................................................................. 131 Integrabiliteit en interoperabiliteit .......................................................................................................... 132 Gebruiksaspecten van de programmeeromgevingen............................................................................... 132 Verkrijgbaarheid van compilers; platformonafhankelijkheid.................................................................. 133 Snelheid .................................................................................................................................................. 133 Kosten..................................................................................................................................................... 133
Richtlijnen op het niveau van programmeren: namen van variabelen, functies, etc................... 133
4.4.3.1 4.4.3.2
4.4.4
Verspreiding van programmatuur ........................................................................................................... 129 Usances binnen het vakgebied ................................................................................................................ 129 Leveranciersregelingen ........................................................................................................................... 129 Beschikbaarheid van ontwikkelprogrammatuur...................................................................................... 130 Beschikbare middelen............................................................................................................................. 130 Programmatuureisen ............................................................................................................................... 130
Algemeen................................................................................................................................................ 135 Toepasbaarheid....................................................................................................................................... 135 Integratie in bestaande/toekomstige infrastructuren (uniformiteit) ......................................................... 136 Bijdrage aan kwaliteit ............................................................................................................................. 136 Relatie onderhoudskosten van de programmatuur .................................................................................. 136 Ontwikkelingskosten .............................................................................................................................. 136 Probleemoplossend vermogen ................................................................................................................ 137
Richtlijnen voor het opbouwen en gebruiken van testprocedures ............................................... 137
4.4.6.1 4.4.6.2 4.4.6.3 4.4.6.4 4.4.6.5
Inleiding.................................................................................................................................................. 137 Organisatie.............................................................................................................................................. 137 Planning van het testen ........................................................................................................................... 138 Testomgeving ......................................................................................................................................... 138 Het testen zelf ......................................................................................................................................... 138
BIJLAGE BIJ § 4.4. ........................................................................................................................................... 139 4.5 EVALUATIE VAN TST-BASISMATERIALEN ............................................................................................. 143 4.6 INFRASTRUCTURELE VOORZIENINGEN ................................................................................................... 143 4.7 FINANCIËLE ASPECTEN .......................................................................................................................... 145 4.8 AANBEVELINGEN VOOR BELEID ............................................................................................................. 145 5
BEHEER .................................................................................................................................................. 148 5.1 5.2
INLEIDING .............................................................................................................................................. 148 BEHEER UITBESTEDEN VS. ZELF BEHEREN ............................................................................................. 148
5
5.3 PERSONEEL ............................................................................................................................................ 149 5.4 TECHNISCH BEHEER ............................................................................................................................... 149 5.4.1 Beheer apparatuur ...................................................................................................................... 150 5.4.2 Beheer data en software .............................................................................................................. 150 5.4.2.1 Versiebeheer data ................................................................................................................................... 151 5.4.2.2 Versiebeheer software............................................................................................................................. 152 5.4.2.3 Archivering............................................................................................................................................. 153 5.4.2.3.1 Systeembeheer.............................................................................................................................. 154 5.4.2.3.2 Onderhoudspersoneel................................................................................................................... 154
5.4.3 Conversie van informatiedragers/digitale duurzaamheid ........................................................... 154 5.5 BEVEILIGING ......................................................................................................................................... 155 5.5.1 Beveiliging tijdens opslag en verwerking van gegevens.............................................................. 156 5.5.1.1 5.5.1.2 5.5.1.3 5.5.1.4
5.5.2
Toegangsbeveiliging............................................................................................................................... 156 Back-up................................................................................................................................................... 156 Restore.................................................................................................................................................... 157 Fysieke beveiliging................................................................................................................................. 157
Beveiliging tijdens transport van gegevens................................................................................. 157
5.5.2.1 Netwerkbeveiliging................................................................................................................................. 157 5.5.2.1.1 Beveiliging netwerktoegang......................................................................................................... 158 5.5.2.1.2 Beveiliging gegevens op netwerk................................................................................................. 158
5.5.3 Controle beveiligingsmaatregelen .............................................................................................. 158 5.6 ADMINISTRATIE ..................................................................................................................................... 159 5.6.1 Met betrekking tot beheer apparatuur......................................................................................... 159 5.6.2 Met betrekking tot beheer data en software ................................................................................ 159 5.6.3 Met betrekking tot beveiliging..................................................................................................... 160 5.6.4 Met betrekking tot back-up/restore ............................................................................................. 160 5.6.5 Met betrekking tot archivering .................................................................................................... 160 5.7 KOSTEN BEHEER .................................................................................................................................... 160 5.8 CONCLUSIES EN AANBEVELINGEN VOOR HET BELEID ............................................................................ 161 BIJLAGEN BIJ HOOFDSTUK 5 ............................................................................................................................ 162 Bijlage 1. Onderwerpen in een SLA .......................................................................................................... 162 Bijlage 2. De verschillende rechten t.b.v. beveiliging ............................................................................... 162 Bijlage 3. Back-upprocedure..................................................................................................................... 162 6
ONDERHOUD......................................................................................................................................... 164 6.1 INLEIDING .............................................................................................................................................. 164 6.2 ONDERHOUD VAN DATA ........................................................................................................................ 164 6.2.1 De eigenlijke data ....................................................................................................................... 164 6.2.2 Annotaties bij de data en hun taalkundige formats ..................................................................... 166 6.2.3 Onderhoud technische formats.................................................................................................... 168 6.3 ONDERHOUD VAN TAALKUNDIGE SOFTWARE EN DATA DIE DOOR DIE SOFTWARE GEBRUIKT WORDEN .. 169 6.3.1 Taalkundige software .................................................................................................................. 169 6.3.2 Data voor taalkundige software .................................................................................................. 169 6.4 ONDERHOUD SYSTEEM- EN APPLICATIESOFTWARE, COMPUTERPLATFORMS EN INFORMATIEDRAGERS ........ 170 6.4.1 Systeem- en applicatiesoftware ................................................................................................... 170 6.4.1.1 6.4.1.2
Systeemsoftware ..................................................................................................................................... 171 Applicatiesoftware.................................................................................................................................. 171
6.4.2 Computerplatforms...................................................................................................................... 173 6.4.3 Informatiedragers........................................................................................................................ 174 6.4.4 Administratie
DISTRIBUTIE......................................................................................................................................... 177 7.1 INLEIDING .............................................................................................................................................. 177 7.2 SCENARIO'S VOOR DISTRIBUTIE ............................................................................................................. 177 7.2.1 Institutioneel................................................................................................................................ 177 7.2.2 Uitbesteding ................................................................................................................................ 177 7.3 SPECIFIEKE EISEN .................................................................................................................................. 178 7.3.1 Juridische aspecten ..................................................................................................................... 178 7.3.2 Financiële aspecten..................................................................................................................... 180
6
7.4 TECHNISCHE ASPECTEN VAN DISTRIBUTIE VAN TST-MATERIAAL.......................................................... 181 7.5 PRAKTISCHE ASPECTEN VAN DISTRIBUTIE ............................................................................................. 182 7.6 CONCLUSIES EN AANBEVELINGEN VOOR BELEIDSORGANISATIES........................................................... 183 7.7 BIJLAGEN BIJ HOOFDSTUK 7 .................................................................................................................. 186 7.7.1 Overeenkomst tussen distributeur en gebruiker .......................................................................... 186 7.7.2 Contract tussen leverancier en ELDA......................................................................................... 188 7.7.3 Contract tussen eindgebruiker en ELDA..................................................................................... 190 7.7.4 Contract tussen een 'value-added reseller' en Elda .................................................................... 192 8
elpdesksoftware ........................................................................................................................ 196 8.4.2 Personele organisatie.................................................................................................................. 197 8.5 LEVERING VAN SOFTWARE EN DATA 'OP MAAT' ..................................................................................... 197 8.6 SOFTWARESERVICES.............................................................................................................................. 198 8.7 ADVISERING .......................................................................................................................................... 198 8.8 KOSTEN ................................................................................................................................................. 199 8.9 BELEIDSAANBEVELINGEN...................................................................................................................... 199
9
BELEIDSAANBEVELINGEN............................................................................................................... 200 9.1 9.2
INLEIDING .............................................................................................................................................. 200 AANBEVELINGEN................................................................................................................................... 200
BIBLIOGRAFIE............................................................................................................................................... 204
7
1 1.1
Inleiding Algemeen
Op 19 april 1999 werd door de Nederlandse Taalunie een Nederlands-Vlaams platform voor de Nederlandse taal- en spraaktechnologie (TST) ingesteld. In dit platform zijn de beleidsorganisaties vertegenwoordigd die in Nederland en Vlaanderen verantwoordelijk zijn voor het beleid ten aanzien van taal- en spraaktechnologie. Naast de Nederlandse Taalunie zijn dit in Nederland: het Ministerie van Onderwijs, Cultuur en Wetenschappen, het Ministerie van Economische Zaken, de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en Senter; in Vlaanderen: het Ministerie van de Vlaamse Gemeenschap/Administratie Wetenschap en Innovatie (AWI), het Instituut voor de Bevordering van het Wetenschappelijk-Technologisch Onderzoek in de Industrie (IWT) en het Fonds voor Wetenschappelijk Onderzoek (FWO). Dit platform stelde in 1999 het Actieplan voor het Nederlands in taal- en spraaktechnologie vast, waarin vier actielijnen, A, B, C en D, gedefinieerd zijn. Actielijn A streeft een betere samenwerking tussen industrie, academia en beleidsinstanties na en wil de zichtbaarheid van het veld verbeteren. Actielijn B heeft als taak te definiëren wat de BATAVO (Basis-Taal&Spraak-Voorziening) voor het Nederlands moet inhouden, welke materialen met voorrang dienen te worden ontwikkeld (prioriteitenlijst) en welke kosten daaraan verbonden zijn. Actielijn C heeft als doel een lijst met criteria op te stellen waaraan basismaterialen moeten voldoen en stelt standaarden op voor de validatie van de materialen. Actielijn D uit het Actieplan betreft het laten uitwerken van een Blauwdruk voor verwerving, onderhoud, beheer en distributie van door de overheid gefinancierde digitale materialen. Waarom zo'n Blauwdruk? Verschillende organisaties worden in de praktijk geconfronteerd met verwerving, beheer, onderhoud en distributie van TST-materialen. Instanties financieren vaak alleen het ontwikkelen van materialen en voelen zich niet meer verantwoordelijk na afloop van het project. Materialen die niet worden onderhouden, verminderen echter snel in waarde en onduidelijke auteursrechtelijke afspraken kunnen exploitatie bemoeilijken. 1.2
Om welke materialen gaat het?
Om elk misverstand uit te sluiten benadrukken wij dat het hier hoofdzakelijk gaat om materialen voor taal- en spraaktechnologie die met overheidsgelden buiten een permanente institutionele infrastructuur gemaakt worden. De Nederlandse Taalunie heeft gevraagd bij de uitwerking van de Blauwdruk het hoofdaccent op juist die materialen te leggen. De consequentie van die keuze is dat de Blauwdruk slechts incidenteel en wanneer dat om contrastieve redenen onvermijdelijk is, in kan gaan op aspecten die buiten deze focus vallen. Zo zullen er wel raakvlakken zijn met bijvoorbeeld de wijze waarop literaire corpora verworven, beheerd en gedistribueerd kunnen worden, maar hoe een tekst literair verrijkt kan of bij voorkeur dient te worden, zal men er niet in vinden. Ook de problematiek waarvoor bijvoorbeeld een instelling als het Meertens-Instituut geplaatst is met zijn grote hoeveelheden met de hand ingevulde dialectvragenlijsten valt buiten het kader van deze Blauwdruk. Hetzelfde geldt voor het beheren van twee- of meertalige bestanden en voor terminologieën. Wat expliciet uitgesloten is in de Blauwdruk zijn de digitale materialen van archieven en bibliotheken. Dat geldt, op verzoek van Taalunie, voorlopig ook voor de materialen en methoden die ontwikkeld zijn door het bedrijfsleven.
8
De materialen die wel onderwerp van bespreking zijn, zijn primair corpora van geschreven en gesproken Nederlands, spraakcorpora1, computationele lexica, elektronische traditionele woordenboeken en software voor taal- en spraaktechnologie; in het vervolg TSTmaterialen genoemd, of specifieker TST-data en TST-software. 1.3
Concentratiepunt van de Blauwdruk
De Blauwdruk houdt rekening met algemene, internationale tendensen en geeft nadruk aan wat op binationaal niveau (Nederland en Vlaanderen) wordt nagestreefd. Dat betekent dat de vigerende internationale hoofdstromen ten aanzien van materialen en methoden van verwerving, taalkundige verrijking, opslag en beheer e.d. besproken zullen worden. In nauwe aansluiting daarbij zullen als leidraad voor deze beschrijving dienen de vigerende nationale aanbevelingen uit de rapporten van Viskil (1999) en Bouma en Schuurman (1998), alsmede het Actieplan voor het Nederlands in Taal- en Spraaktechnologie (1999) van de Nederlandse Taalunie, zeer in het bijzonder Actielijn D. Rekening houden met algemene, internationale tendensen impliceert echter niet dat er geen andere of zelfs betere protocollen denkbaar zijn. Zo is wat er geschreven wordt over de grote multifunctionele corpora van geschreven taal met al hun faciliteiten voor selectie van subcorpora wel een internationale tendens, maar wordt die beschrijving niet als het ultieme protocol aangeboden van de manier waarop corpora opgebouwd dienen te worden. Ook worden er voorbeelden gegeven zonder dat ze als standaard bepleit worden. Zo is wat gezegd wordt van het Corpus Gesproken Nederlands slechts een voorbeeld van hoe je een spraakcorpus naar analogie van het British National Corpus kunt opbouwen. In de Blauwdruk wordt door de stellers ervan verantwoord hoe dingen elders gedaan worden en hoe zij zelf hun oplossingen inrichten. Het is evident dat elke andere instelling haar eigen protocollen naar eigen inzichten zal hanteren. Wat hier gepresenteerd wordt, is informatief beschrijvend en geen wet. 1.4
Mogelijke gebruikers
Gebruikers kunnen vanuit diverse invalshoeken beschouwd worden: 1) Wie zijn degenen die gebruik willen maken van TST-materiaal dat met overheidsgelden buiten een permanente institutionele infrastructuur gemaakt is? 2) Voor welke doeleinden willen ze dat materiaal gebruiken? 3) Welke status heeft de gebruiker? 4) Welke relatie heeft de gebruiker tot andere betrokkenen? De impliciete achtergrond van (1) is dat genoemd materiaal het meest rendeert als zo veel mogelijk gebruikers van hetzelfde TST-materiaal gebruik maken. De relatie die beoogd wordt tussen gebruikers en hergebruik van TST-materialen is gebaseerd op multifunctionaliteit. Een Europese studie naar wie die gebruikers zijn en waaraan ze behoefte hebben, was onderdeel 1
Corpora bestaande uit getranscribeerde lopende spraak worden in de corpuslinguïstiek 'corpora van gesproken taal' of 'gesproken-taalcorpora' genoemd, als tegenhanger van de veel frequenter voorkomende corpora van geschreven taal. In de spraakwereld wordt een andere terminologie gehanteerd. Onder de corpora van gesproken taal worden de corpora die naast de orthografische transcripties ook de bijbehorende spraakfiles bevatten “spraakcorpora” genoemd. Een spraakcorpus is mitsdien een verzameling van spraakbestanden, met minstens een orthografische transcriptie in elektronische vorm, met bijbehorende documentatie (labelfiles en transcriptieconventies) en eventueel met een lexicon. Deze moeten zijn opgeslagen in een formaat dat leesbaar en bereikbaar is met een computer. Het onderscheid in terminologie werd duidelijk tijdens de bijdrage van SPEX aan de Blauwdruk; hoewel de nodige aanpassingen zijn aangebracht, is inconsistent gebruik van de terminologie niet uitgesloten. Vgl. ook 4.2.3.
9
van o.a. het NERC-project (Teubert 1995). Een dergelijke studie gericht op de huidige situatie voor het Nederlandse taalgebied valt buiten het bestek van deze Blauwdruk. Niettemin kunnen wel een aantal gebruikersgroepen genoemd worden: (a) Taal- en spraaktechnologen, waaronder we al diegenen rekenen die zich op welke wijze dan ook bezig houden met natuurlijke-taalverwerking door computers, dus onderzoekers die onderzoeken hoe je komt tot de beste automatische taalontleders (in de meest ruime zin: van spellingcheckers tot automatische semantische analyse), tot automatische spraakherkenning en spraaksynthese, maar ook commerciële ontwikkelaars van natuurlijke-taalverwerkende (modules van) systemen voor bijvoorbeeld automatisch vertalen, automatisch samenvatten, documentretrieval, mens-machinecommunicatie, informatieretrieval, natuurlijke-taalgeneratie, tekst-naar-spraakomzetting, etc. Hieronder kunnen ook begrepen worden ontwikkelaars van hulpmiddelen voor bepaalde categorieën gehandicapten. (b) De onderwijssector, waar TST-materiaal gebruikt wordt als lesmateriaal. Onder andere via Kennisnet worden digitale bestanden verworven en gebruikt. (c) Onderzoekers, overheidsinstellingen, geïnteresseerde particulieren, documentalisten en anderen die TST-data willen bevragen als een kennisbank. (d) Deze opsomming laat zien dat TST-materiaal voor zeer diverse doeleinden gebruikt wordt. Vanuit de tweede invalshoek is de volgende indeling in gebruikersgroepen relevant vanwege potentiële juridische en financiële consequenties voor het gebruik van het materiaal: (a) Gebruikers die onderzoek doen met TST-materiaal zonder enig winstoogmerk en zonder dat een commerciële toepassing die uit dit gebruik kan voortkomen waarschijnlijk is. (b) Gebruikers die onderzoek doen met als oogmerk de ontwikkeling van commerciële toepassingen, diensten of (half)producten. In dit stadium wordt winst beoogd maar nog niet verkregen. (c) Onderzoekers en (overheids-, onderwijs-)instellingen die TST-materiaal gebruiken in en voor commerciële toepassingen, diensten of (half)producten. Vanuit de derde invalshoek zijn de volgende gebruikersgroepen te onderscheiden, eveneens vanwege potentiële juridische en financiële consequenties voor het gebruik van het materiaal: (a) De gebruiker is een individu. (b) De gebruiker is werkzaam in een onderzoeksgroep of (dienstverlenende) nonprofitorganisatie. (c) De gebruiker is werkzaam in het bedrijfsleven. (d) De gebruiker is een onderzoeksinstelling of (dienstverlenende) non-profitorganisatie. (e) De gebruiker is een commercieel bedrijf. Vanuit de vierde invalshoek is er onderscheid tussen: (a) De gebruiker is geheel en al de maker van het TST-materiaal. (b) De gebruiker is de bewerker van materiaal van anderen. (c) De gebruiker betrekt zijn materiaal van een beherende en/of distribuerende instantie. 1.5
Doelstellingen Blauwdruk
Op grond van bovenstaande constateringen wil de hier voorliggende Blauwdruk beantwoorden aan de volgende doelstellingen:
10
1) Hij moet informatie leveren en evaluatiecriteria aanreiken waarop beleidsorganisaties zich kunnen baseren bij het beoordelen van projectaanvragen die betrekking hebben op het ontwikkelen van TST-materialen. 2) Hij moet informatie leveren waarop beleidsorganisaties zich kunnen baseren bij het opstellen van beleidsplannen en begrotingen waarin verwerving, onderhoud, beheer en distributie van TST-materialen een rol spelen. 3) Hij moet praktische informatie leveren aan organisaties die in de praktijk geconfronteerd worden met verwerving, onderhoud, beheer en/of distributie van TST-materialen. 4) Hij moet een antwoord geven op de vragen hoe TST-materiaal na voltooiing van grote projecten, nationaal en internationaal hergebruikt kan worden en aan welke prioriteiten moet worden voldaan om die doelstelling te verwezenlijken. 5) De gevraagde informatie over het ontwikkelen, beheren, onderhouden en distribueren zal in acht hoofdstukken worden uitgewerkt. Hoofdstuk 2 Verwerving In dit hoofdstuk wordt aandacht besteed aan scenario's voor de verwerving van materialen voor taal- en spraaktechnologie (2.2.). Vervolgens worden specifieke juridische (zie 2.3.1.) en financiële (2.3.2.) eisen besproken. Deze paragrafen betreffen aspecten die algemeen gelden voor TST-materialen (TST-data en TST-software). Daarom worden die aspecten voorop geplaatst in de uitwerking van dit hoofdstuk. Voorts wordt meer specifiek aandacht besteed aan de selectie van een elektronische tekstenverzameling (zie 2.4.) en aan die van een elektronische verzameling spraak (2.5.). Bij beide dataverzamelingen komen zaken van selectie en ontwikkeling aan de orde, die achtereenvolgens vanuit het perspectief van een non-profitorganisatie, maar ook vanuit dat van de individuele onderzoeker zullen worden besproken. Vervolgens wordt aandacht gevraagd voor zaken als: verwerving, productie en aard van de digitale tekstbestanden dan wel technische aspecten bij aanlevering van digitale bestanden (2.6. en 2.7.) en de productie en verwerving van (digitale) opnamen van spraakcorpora (2.8.). De ontwikkeling van andere TST-data (zoals bijvoorbeeld corpusgebaseerde computationele lexica, trainingscorpora, (multimodale) corpora) en van TST-software (zoals bijvoorbeeld woordsoorttaggers, automatische zinsontleders, annotatiesoftware) komt aan de orde in hoofdstuk 4. In 2.9., dat weer een algemener karakter heeft, zullen omtrent de verwerving van TSTmaterialen aanbevelingen worden gedaan aan beleidsorganisaties. In bijlagen worden modellen van juridische overeenkomsten toegevoegd (2.10.). Hoofdstuk 3 Verwerking en bewerking van verworven data In dit hoofdstuk staan verwerking, bewerking en administratie van TST-data centraal, in het bijzonder die van verzamelingen teksten en spraak. In paragraaf 3.2. beschrijven wij procedures voor de wijze waarop data voor een elektronische tekstenverzameling verwerkt, bewerkt en geadministreerd worden. Paragraaf 3.3. besteedt aandacht aan de verwerking en bewerking van data in een elektronische verzameling spraak. Zoals zal blijken, spelen conversie- en adaptatieprocedures in dit hoofdstuk een belangrijke rol (3.2.1. en 3.3.1.). Waarom het opzetten van een goed gestructureerde directory van vitaal belang is bij de opslag van verworven data wordt beschreven in 3.4. Ten slotte worden de voordelen van een inzichtelijke en functionele administratie in 3.5. besproken. In paragraaf 3.6. worden conclusies getrokken en aanbevelingen voor beleidsorganisaties gedaan.
11
Hoofdstuk 4 Taalkundige bewerking van taalmateriaal Dit hoofdstuk gaat over taalkundige bewerking van taalmateriaal, dat wil zeggen het toevoegen van taalkundige informatie aan digitaal taal- en spraakmateriaal ('verrijking)'. Het digitale materiaal betreft corpora van geschreven en gesproken taal (dat verworven en technisch bewerkt is als uiteengezet in de hoofdstukken 2 en 3), spraakcorpora, digitale woordenboeken, computationele lexica, uitspraaklexica, etc.. In de inleiding (4.1.) wordt het nut van verrijking uitgelegd en wordt een gedetailleerde opzet van dit hoofdstuk gegeven. 4.2. gaat over de inhoudelijke en vormelijke aspecten van verrijking. De opzet van deze paragraaf is van algemeen naar specifiek. 4.2.1. is bedoeld voor lezers die een globaal beeld willen hebben van wat aan de orde is bij verrijking. De volgende vier paragrafen, 4.2.2.– 4.2.5., bieden nadere informatie aan lezers die hun weg willen vinden in de wereld van resp. de verrijking van geschreven-taalcorpora en spraakcorpora, de verrijking van digitale woordenboeken tot elektronische woordenboeken en de ontwikkeling van computationele lexica, (multimodale) spraakcorpora, etc. 4.2.6. geeft stappenplannen om te komen tot resp. een verrijkt tekstcorpus (4.2.6.2.), een verrijkt of geannoteerd spraakcorpus (4.2.6.3.), een elektronisch woordenboek (4.2.6.4.) en een computationeel lexicon (4.2.6.5.), met daarbij het type personeel dat nodig is en indicaties van de werklast. Deze paragraaf is bedoeld voor wie deze typen verrijkte data wil gaan ontwikkelen, voor de beoordelaars van dergelijke dataontwikkelingsprojecten en voor wie verrijkte data moet onderhouden. Tevens is deze paragraaf de basis voor kostenramingen betreffende het onderhoud van dergelijke data (vgl. 6.6.) 4.3. gaat over taalkundige programmatuur waarmee verschillende vormen van verrijking, zoals behandeld in 4.2., automatisch kunnen worden aangebracht. Ook deze paragraaf heeft een opzet van algemeen naar specifiek. Deze paragraaf is bedoeld voor taaltechnologen die zich op het Nederlands richten. In 4.3.1. worden algemeen geldige aspecten behandeld. Deze paragraaf is bedoeld voor genoemde taaltechnologen en voor wie een project waarin automatische taalkundige verrijking beoogd wordt, wil opzetten of beoordelen. In 4.3.2.-4.3.5. wordt meer in detail aandacht besteed aan resp. software voor de verschillende vormen van verrijking van corpora van geschreven en gesproken taal, software voor de codering van informatiecategorieën in digitale traditionele woordenboeken en software voor de ontwikkeling van een computationeel lexicon. De werklast van automatische taalkundige verrijking is verwerkt in 4.2.6. 4.4. gaat in op keuzes die een organisatie die TST-materialen ontwikkelt moet maken bij de ontwikkeling en het testen van taalkundige programmatuur. Die keuzes betreffen hardwareplatforms, besturingssystemen, programmeertalen. Ook komen richtlijnen voor het programmeren, documentatieaspecten, het gebruik van ontwikkelmethoden en criteria voor het opbouwen en gebruiken van testprocedures aan de orde. Deze paragraaf is bedoeld voor automatiseringsdeskundigen en op onderdelen voor computerlinguïsten. 4.5. geeft de stand van zaken weer met betrekking tot de evaluatie van de dataverzamelingen en taalkundige software die in de voorgaande paragrafen besproken zijn. 4.6. gaat over infrastructurele voorzieningen, op internationaal, nationaal en lokaal niveau. 4.7. behandelt financiële aspecten, gebaseerd op 4.2.6. en op 4.6. 4.8. biedt aanbevelingen voor beleid, vanuit het perspectief van dit hoofdstuk en de taken van de TST-centrale daarbij.
12
Hoofdstuk 5 Beheer In dit hoofdstuk staat het beheer centraal van de verzameling digitale teksten en/of de verzameling spraak, hierna aangeduid met 'data', alsook het beheer van software. Onder software wordt in dit hoofdstuk verstaan: TST-programmatuur, al dan niet in eigen beheer ontwikkeld en overige software zoals bijvoorbeeld systeemprogrammatuur. Het optimaal gebruik van data en software valt of staat met goed beheer. De uitval van een computer waarop data zijn opgeslagen die snel beschikbaar moeten zijn, is op zich al vervelend, maar kan ernstige vormen aannemen als bijv. blijkt dat het onderhoud van de betreffende computer niet goed is geregeld. Over dit soort aspecten gaat het onder meer in dit hoofdstuk. De indeling van dit hoofdstuk is als volgt. Eerst zal in 5.2. aandacht worden besteed aan de vraag of het beheer moet worden uitbesteed of dat het in eigen hand moet worden gehouden. In aansluiting daarop wordt in 5.3. ingegaan op de kwalificaties voor het personeel dat de beheertaken moet uitvoeren. In 5.4. zal het technische beheer worden besproken. Onderdelen van deze paragraaf zijn beheer van de apparatuur (5.4.1.), beheer van data en software en archiveringskwesties (5.4.2.) en de conversie van informatiedragers (5.4.3.). In 5.5. staat beveiliging centraal. Hierbij wordt onderscheid gemaakt tussen beveiliging tijdens opslag en verwerking (5.5.1.) en beveiliging tijdens transport van gegevens (5.5.2.). In 5.6. zal de administratie m.b.t. beheer aan de orde komen. In 5.7. worden kosten genoemd die met beheer samenhangen. Het hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsorganisaties (5.8.). Hoofdstuk 6 Onderhoud Eenmaal verworven of ontwikkelde taalmaterialen voor TST vereisen onderhoud om hun bruikbaarheid te behouden. In de planning van tijdelijke projecten waarin taalmateriaal wordt ontwikkeld, is het aspect onderhoud veelal afwezig of onderbelicht (ook financieel), mede doordat onderhoud vooral speelt na afloop van een project. Dit leidt op den duur tot kapitaalvernietiging doordat de taalmaterialen niet meer bruikbaar zijn. In het kader van de actielijnen van het TST-platform is het zaak voor de Nederlands Taalunie om aan het onderhoudsaspect voldoende aandacht te geven. Dit hoofdstuk biedt daartoe de instrumenten. Onderhoud omvat (a) technisch onderhoud, (b) inhoudelijk onderhoud en (c) juridisch onderhoud. Hetgeen onderhoud vereist zijn data, eventuele annotaties daarbij en hun taalkundige en technische formats (6.2.), taalkundige software en data die door die software gebruikt worden (6.3.) systeemsoftware, computerplatforms en informatiedragers (6.4.) en contracten met leveranciers, ontwikkelaars, distributeurs, gebruikers en sprekers (6.5.). Bij al deze onderwerpen zijn er relaties met andere hoofdstukken. Dit hoofdstuk wordt besloten met een financiële paragraaf (6.6.) en beleidsaanbevelingen (6.7.). Hoofdstuk 7 Distributie De distributie van materialen ten behoeve van taal- en spraaktechnologie (TST-materialen) kan geschieden volgens verschillende scenario's (7.2.). In paragraaf 7.3.1. worden juridische eisen besproken die bij de distributie van TST-materialen vervuld moeten worden. De financiële zaken die samenhangen met distributie wordt geschetst in paragraaf 7.3.2. Hoe de data technisch gedistribueerd kunnen worden staat te lezen in paragraaf 7.4. In 7.5. worden andere randvoorwaarden voor distributie behandeld met een praktisch karakter, zoals het voorzien in een handleiding en documentatie bij het gedistribueerde product. Ook komen daar overwegingen aan de orde voor het maken van technische keuzen en de automatische
13
financiële verrekening en afhandeling. Dit hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsmakers (7.6.) en modelcontracten (7.7.). Hoofdstuk 8 Gebruikersondersteuning Distributie impliceert gebruikersondersteuning: gebruikers moeten terecht kunnen met vragen en verzoeken. De beschreven ondersteuning betreft een website met on-line helpinformatie (8.2.), een helpdesk (8.3.), een mailinglijst (8.4.), de levering van software en data 'op maat' (8.5.), softwareservices (8.6.) en advisering (8.7.). Paragraaf 8.8. gaat in op het kostenaspect en 8.9. geeft enige aanbevelingen voor beleid. Hoofdstuk 9 Beleidsaanbevelingen Op basis van het voorgaande worden in dit hoofdstuk een achttal aanbevelingen gedaan. In de eerste aanbeveling wordt de instelling van een zogeheten TST-centrale bepleit. De tweede betreft de vorm van de TST-centrale en de rol van de Nederlandse Taalunie. De derde bespreekt de taken van de TST-centrale, onderscheiden in hoofd- en neventaken. De vierde en vijfde gaan over de kosten die door resp. de overheid en de gebruikers van de TST-centrale gedragen moeten worden. De overige gaan achtereenvolgens over de voorwaarden van acceptatie van TST-materialen door de TST-centrale, internationale participatie en de ontwikkeling en het behoud van TST-expertise.
14
2
Verwerving
2.1
Inleiding
Het verwerven van materialen voor taal- en spraaktechnologie kan geschieden volgens verschillende scenario's (2.2.) en stelt bovendien zijn specifieke juridische (zie 2.3.1.) en financiële (2.3.2.) eisen. Deze paragrafen betreffen aspecten die algemeen gelden voor TSTmaterialen (TST-data en TST-software). Daarom zullen wij die aspecten voorop plaatsen in de uitwerking van dit hoofdstuk. Voorts zullen wij meer specifiek aandacht besteden aan de selectie van een elektronische tekstenverzameling (zie 2.4.) en aan die van een elektronische verzameling spraak (2.5.). Bij beide dataverzamelingen komen zaken van selectie en ontwikkeling aan de orde, die achtereenvolgens vanuit het perspectief van een non-profitorganisatie, maar ook vanuit dat van de individuele onderzoeker zullen worden besproken. Vervolgens wordt aandacht gevraagd voor zaken als: verwerving, productie en aard van de digitale tekstbestanden dan wel technische aspecten bij aanlevering van digitale bestanden (2.6. en 2.7.) en de productie en verwerving van (digitale) opnamen van spraak (2.8.). Voor de ontwikkeling van andere TST-data (zoals corpusgebaseerde computationele lexica, trainingscorpora voor taalkundige toepassing, (multimodale) corpora, etc.) en van TSTsoftware (zoals woordsoorttaggers, automatische zinsontleders, annotatiesoftware, etc.) verwijzen wij naar hoofdstuk 4. In 2.9., dat weer een algemener karakter heeft, zullen omtrent de verwerving van TSTmaterialen aanbevelingen worden gedaan aan beleidsorganisaties. In bijlagen worden modellen van juridische overeenkomsten toegevoegd (2.10.). 2.2 2.2.1
Scenario's voor verwerving Individueel
Elke onderzoeker kan met kennis van zaken en via persoonlijke contacten proberen zelf zijn weg te vinden in de her en der (toevallig) beschikbare, al dan niet gedocumenteerde TSTmaterialen. Bij veel onderzoekers is evenwel niet altijd bekend of en waar er voor hun onderzoek geschikte TST-materialen beschikbaar zijn. En zijn zij al beschikbaar, dan ontbreekt vaak een goed inzicht in de kwaliteit en gebruiksvoorwaarden daarvan. Regelmatig zijn onderzoekers ook niet bekend met belendende problemen van juridische, financiële en technische aard. In veel gevallen is het dan ook niet zonder risico om bij de acquisitie van TST-materialen alleen op het eigen kompas te varen. 2.2.2
Institutioneel
De onderzoeker kan grote juridische en financieel-economische problemen voorkomen door TST-materiaal te betrekken van of te laten aanmaken door een reeds bestaande nationale of internationale organisatie die met overheidsgelden binnen een permanente institutionele infrastructuur TST-materialen aanmaakt en verwerft. Ook kan zo'n instelling voorzien in technische aspecten (computerplatform, formaat, conversie e.d.). Binnen het veld van taal- en spraaktechnologie is er evenwel enige aarzeling om één instelling verantwoordelijk te stellen voor de verwerving en aanmaak van TST-materialen. Die aarzeling wordt vooral gevoed doordat zo'n instelling vaak zeer gespecialiseerd is in slechts een beperkt domein van taal- en spraaktechnologie, zoals bijvoorbeeld in de aanleg
15
van corpora van geschreven taal of van spraakcorpora, in de ontwikkeling van taalkundige software of van bevragingssoftware etc. 2.2.3
Collectief
Instellingen die beschikken over een permanente institutionele infrastructuur en die tevens duidelijk afgebakende statutaire doelstellingen hebben zouden samen één rechtspersoon moeten vormen (een consortium bijvoorbeeld) die zich verantwoordelijk stelt voor de verwerving en aanmaak van TST-materialen. Iedere instelling die aangesloten is bij zo'n consortium blijft de kwalitatief goede TST-materialen ontwikkelen waarin ze gespecialiseerd is. De onderlinge afstemming en samenwerking tussen de leden van het consortium wordt geregeld door een coördinerende instantie. Een dergelijke constructie, in het vervolg de TSTcentrale genoemd, zal het meest renderen voor het taal- en spraaktechnologisch onderzoek. 2.3 2.3.1
Specifieke eisen Juridische aspecten
Op TST-materialen, of het nu gaat om TST-data of TST-software, berust auteursrecht. "Aan elk werk van letterkunde, wetenschap of kunst is van rechtswege vanaf zijn ontstaan een exclusief beschikkingsrecht voor de maker verbonden. Dit exclusieve beschikkingsrecht omvat onder andere de rechten om te beslissen over openbaarmaking en verveelvoudiging (exploitatierechten), om als maker te worden aangemerkt en om te beslissen over wijzigingen in het werk (persoonlijkheidsrechten). Voor auteursrechtelijke bescherming moet het betreffende werk wel een voldoende oorspronkelijk karakter hebben. De exploitatierechten zijn overdraagbaar. Persoonlijkheidsrechten zijn in principe niet overdraagbaar, de rechthebbende kan wel te kennen geven dat hij zich niet op bedoeld recht zal beroepen." (Bouma en Schuurman 1998: 16). Als TST-materialen auteursrechtelijk beschermd zijn, mogen ze zelden zonder voorafgaande afspraken door derden gebruikt worden. Het is verboden ze 'openbaar te maken' en te 'vermenigvuldigen', behalve onder bepaalde condities en voor strikt persoonlijk gebruik. Het auteursrecht laat anderzijds alles toe waarover overeenstemming bereikt is tussen de gebruiker of een intermediërende instantie enerzijds en de auteursrechthebbende(n) anderzijds. De centrale vraag is dus hoe wij de toestemming voor hergebruik van TST-materialen kunnen verwerven. Daarbij moet duidelijk zijn waar de rechten op die materialen liggen en wat er onder gebruik en hergebruik wordt verstaan. Wat de verschillende rechten betreft, blijken die te vaak niet ondubbelzinnig te zijn vastgelegd. Zo is de feitelijke maker bijvoorbeeld niet de juridische maker als het werk volgens een nauw omschreven opdracht wordt gemaakt of als het werk gemaakt wordt door een werknemer die hiervoor in dienst is genomen. De rechten komen dan niet toe aan de werkelijke maker van een werk (de werknemer-auteur), maar aan degene die door de wet als fictieve maker (de werkgever) wordt beschouwd. (Bouma en Schuurman 1998: 18). Een complicerende factor is nog of die werknemer is tewerkgesteld bij een universiteit of een andere kennisinstelling, dan wel een bedrijf en of het daarbij wel of niet gaat om een project gefinancierd door derden (bijvoorbeeld EU). Daarnaast moet niet worden vergeten dat personen die hun spraak lenen aan de verzameling van een spraakcorpus de eigenaar blijven van het bestand waarin hun spraak is opgeslagen. Zij kunnen dit recht overdragen aan de maker van het corpus door het tekenen van een zogenoemde vrijgaveverklaring.
16
In elk taalgebied worden door zowel professionelen als amateurs TST-materialen ontwikkeld. De makers van die materialen zijn de rechthebbenden in de zin van de auteurswet. Zij kunnen dat auteursrecht overdragen aan een uitgever of aan een andere rechtverkrijgende, dan wel een gebruikslicentie verlenen. "Met het verlenen van een licentie wordt aan een niet-rechthebbende de toestemming gegeven om het auteursrechtelijk beschermde werk op een andere wijze openbaar te maken of te verveelvoudigen. Het auteursrecht zelf blijft in handen van de licentiegever. In geval van niet-exclusieve licentie blijft de auteursrechthebbende ook zelf gerechtigd tot het zelfstandig exploiteren van het werk en kan hij ook anderen een soortgelijke toestemming geven. Bij een exclusieve licentie verplicht hij zich tegenover de licentienemer om aan anderen geen soortgelijke toestemming te verlenen." (Bouma en Schuurman 1998: 16). Met uitzondering van commerciële ondernemers, ontwikkelen de meeste rechthebbenden hun TST-materialen voor eigen behoeften en vaak voor ad-hocgebruik. Het geschikt maken voor hergebruik, het op peil houden en valideren van die TST-materialen behoort meestal niet tot de kern van hun activiteiten. Om die reden is een TST-centrale nodig die rechthebbenden stimuleert om dergelijke TST-materialen onder nader overeen te komen voorwaarden ter beschikking te stellen van anderen. Toestemming van de rechthebbende(n) moet vooraf verkregen worden voordat werk, d.w.z. tijd en geld, besteed wordt aan de bewerking van geselecteerd en verworven TST-materiaal. Dit geldt ook ingeval een individuele onderzoeker TST-materiaal aanlevert aan de TSTcentrale. Het verdient aanbeveling die toestemming schriftelijk te verkrijgen in de vorm van een contract. Bij voorkeur wordt gewerkt met een standaardmodel voor dat contract tussen de recht- of licentieverwervende en de rechthebbende(n), met verschillende opties of verschillende contractvarianten voor de diverse typen van gebruik c.q. gebruikers (vgl. 1.4.). Dit maakt enerzijds de administratieve afwikkeling efficiënter, anderzijds perkt het een diversiteit aan gebruikscondities in. Zo'n standaardmodel bevat onder meer clausules die vastleggen wat door wie wanneer met de TST-materialen gedaan mag worden. De formulering hiervan vergt een uiterste zorgvuldigheid. Expliciet moet voorzien worden in een nauwkeurige beschrijving van het type gebruik of gebruiker. De voorwaarden moeten bij voorkeur zo geformuleerd worden, dat voorkomen wordt dat in een later stadium opnieuw toestemming moet worden gevraagd voor een ander type gebruik of gebruiker. De formulering van de condities op het gebruik van TST-materialen moet dus enerzijds heel expliciet zijn en anderzijds voldoende ruimte laten om niet voorzien gebruik te dekken. In het contract met rechthebbenden moet bepaald worden of een gebruikersovereenkomst uitsluitend met individuen gesloten zal worden of ook met onderzoeksgroepen respectievelijk instellingen. Contracten die de verantwoordelijkheden en verplichtingen regelen van beide partijen dienen door zo'n TST-centrale opgesteld te worden. In het volgende schema, dat wij ontlenen aan de European Language Resources Association (Choukri, Mance & Mapelli 2000: 69), wordt rekening gehouden met het belang van beide partijen, t.w. rechthebbende(n) en gebruikers.
17
rechthebbende(n)
TST-centrale
gebruikers zonder winstoogmerk
gebruikers t.b.v. productontwikkeling , nog zonder winst
gebruikers t.b.v. productontwikkeli ng, met winst
Indien wij het model verwoorden, dan worden er contracten gesloten tussen de TST-centrale en de rechthebbende(n) van TST-materialen enerzijds en tussen de TST-centrale en de gebruiker van de TST-materialen anderzijds. Het kan ook voorkomen dat de TST-centrale een contract sluit met een gebruiker die de TST-materialen, na ze verrijkt te hebben, doorverkoopt. Belangrijk is dat de TST-centrale verifieert of aanbieders van TST-materialen de rechten bezitten die berusten op het aangeboden materiaal. Zij dient dus de voorwaarden die door de rechthebbenden gesteld zijn, recht te doen. In de praktijk wordt meestal onderscheiden tussen de volgende soorten gebruikers (vgl. 1.4.): (a) Onderzoekers, particulieren en (onderwijs)instellingen die onderzoek doen of anderszins gebruikmaken van TST-materialen zonder enig winstoogmerk en zonder enige commercieel denkbare toepassing die uit dat gebruik kan voortkomen. (b) Onderzoekers en instellingen die TST-materialen gebruiken ten behoeve van de ontwikkeling van commerciële toepassingen, diensten en (half)producten. In dit stadium wordt winst beoogd, maar nog niet verkregen. (c) Onderzoekers en instellingen die TST-materialen gebruiken in en voor commerciële toepassing, diensten of (half)producten. De voorwaarden waaronder een overeenkomst wordt gesloten, verschillen al naar gelang het type gebruik(er). Dit geldt zowel voor de rechthebbende die een overeenkomst sluit met de TST-centrale als intermediaire leverancier (2.10.1.) als voor de TST-centrale die een overeenkomst sluit met de gebruiker (7.7.1.). Buiten beschouwing moet hier blijven de juridisch buitengewoon gecompliceerde situatie die zich voor kan doen in geval van verwerving van TST-materialen met vele rechthebbenden, zoals complete corpora (vgl. hieronder). Complexe relaties waarvoor een juridische regeling dringend noodzakelijk is, maar die in deze Blauwdruk niet uitgewerkt kunnen worden, zijn die tussen universiteiten en bedrijfsleven, tussen tools, halfproducten en producten, tussen werknemers van een universiteit en andere werknemers. Bij voorkeur de Nederlandse Taalunie zou als intergouvernementele verdragsorganisatie in Nederland en
18
Vlaanderen haar binnen het project CGN opgedane expertise ook kunnen aanwenden voor genoemde domeinen. We gaan nu in op enige bijzonderheden ten aanzien van corpora en TST-software. Bij het opbouwen van een spraakcorpus zijn er vele rechthebbenden (sprekers, opnameleiders, transcribenten en vele andere medewerkers). Hun aantal kan zelfs groter zijn dan bij een gevarieerd samengesteld corpus van geschreven taal met vele tekstleveranciers. Om de logistieke problemen die gemoeid zijn met het voeren van onderhandelingen met en het contracteren van vele rechthebbenden te vergemakkelijken, is het raadzaam, waar mogelijk, de auteursrechten zoveel mogelijk in één rechtspersoon te concentreren. "Bij het ontwikkelen van nieuwe materialen is het (…) belangrijk al bij de start van een project bindende afspraken te maken met alle eventuele rechthebbenden zodat de materialen zonder ongewenste auteursrechtelijke beperkingen kunnen worden gedistribueerd." (Bouma en Schuurman 1998: 18). Om die reden is reeds bij de start van het CGN besloten dat alle rechten op dat corpus zullen worden ondergebracht bij de Nederlandse Taalunie, die die rol zou moeten relateren aan de werking van de TST-centrale (zie 2.9. en hoofdstuk 9). Tenslotte wordt nog vermeld dat volgens ter zake deskundige juristen bij voorkeur zogenaamde aktes van rechtenoverdracht worden toegepast, indien men from scratch begint met de aanleg van een verzameling spraak. Zie verder paragraaf 2.10.2. TST-software is net als TST-data auteursrechtelijk beschermd, maar bij de verwerving hoeft het gebruik minder vaak expliciet contractueel geregeld te worden. In het algemeen worden bij software de rechten en plichten van de gebruiker geregeld in een zogenaamde licentie. Niet-commerciële software wordt echter ook beschikbaar gesteld onder de GNU General Public Licence (GPL). De software mag dan vrijelijk worden verspreid, mits dat gebeurt met gebruikmaking van de GNU GPL. De consequentie is dat eenieder de software kan omvormen tot een commercieel product waarop dan weer wel copyright rust. De tekst van de GNU GPL-licentie is beschikbaar op http://www.gnu.org/copyleft/gpl.txt. Meer informatie over GNU-licenties is te vinden op http://www.gnu.org/philosophy/license-list.html. Zie verder hoofdstuk 7. 2.3.2
Financiële aspecten
2.3.2.1 Ontwikkeling van een elektronische tekstenverzameling In deze paragraaf beperken wij ons tot de directe personele en materiële kosten die gemoeid zijn met het aanleggen van een elektronische tekstenverzameling en tot een doorberekening van de afschrijving van de benodigde apparatuur. Indirecte kosten voor wat betreft huisvesting en administratieve ondersteuning blijven buiten beschouwing. Voorts gaan wij uit van het gegeven dat de TST-centrale, wier activiteiten uit publieke, academische en andere fondsen gefinancierd worden (zie hoofdstuk 9), de garantie geeft dat teksten tegen een billijk tarief toegankelijk zijn voor gebruik. Onderstaande kostenspecificatie vormt een basis voor de berekening van de totale kosten van de aanleg van een elektronische tekstenverzameling, waarbij de mate van dekking door overheid respectievelijk gebruikers buiten beschouwing gelaten wordt. Zie voor een omschrijving van de werkzaamheden verbonden aan diverse kostenposten: 2.6. en 2.7. Als directe personele kosten kunnen worden aangemerkt: Voorbereiden document Voorbereiden scanning
19
Voorbereiden codering Scanning en OCR Keyboarding Correctie Tekstcodering Als directe materiële kosten kunnen worden aangemerkt: Kosten van verwerving van teksten (op papier of (semi--)elektronisch beschikbaar Aankoop en ontwikkeling van applicatiesoftware Juridische kosten Als indirecte kosten kunnen worden aangemerkt: Afschrijving gebruikte apparatuur en software Materiaalopslag Beveiligingskosten Voor onvoorzien kan een opslag van 10% gehanteerd worden. Alvorens deze kosten kunnen worden verwerkt in de voorcalculatie dienen de volgende gegevens ingeschat te worden of bekend te zijn: (1)
Inhoud van de totale opdracht: - Onderscheid in teksten en boeken welke bewerkt moeten worden en externe materialen. - Onderscheid in de staat waarin het materiaal zich bevindt. - Aantal pagina's per boek of tekst - Gemiddeld aantal woorden per pagina - Aantal karakters (inclusief spaties en leestekens) per woord
(2)
De bewerkingen die de verschillende materialen moeten ondergaan, zijn: 1. Scannen en OCR 2. Keyboarding 3. Correctie van scanning en keyboarding 4. Tekstcodering 5. Conversie extern materiaal 6. Voorbewerking van teksten rekeninghoudend met de reeds aanwezige formele kenmerken in het bestand. 7. Ontwikkeling van software 8. Controlewerkzaamheden 9. Daadwerkelijke conversie
(3)
Locatie(s) waar de bewerkingen zullen plaatsvinden: Extern in lageloonlanden Extern in eigen land Intern bij instelling/non-profitorganisatie
(4)
Een inschatting per bewerking: hoeveel karakters, woorden of pagina's per uur verwerkt kunnen worden..
20
(5) Welke mensen zullen met deze opdracht belast worden? uurloon (schaalbedrag * 3 (maanden)/ 13 (weken)/ normweektaak) aantal beschikbare uren (6) Welke programmatuur of apparatuur moet gebruikt of aangeschaft worden? Aan de hand van deze informatie kunnen de kosten per bladzijde voor de verschillende bewerkingen als volgt worden berekend. Daarbij onderscheiden wij de volgende tarieven: Tarief 1
Scannen en OCR
Tarief per pagina = uurloon + exploitatiekosten per uur gedeeld door het aantal pagina's per uur Exploitatiekosten bestaan uit de doorberekende afschrijvingskosten apparatuur en software. Tarief 2
Handmatig invoeren
Tarief per karakter = uurloon gedeeld door het aantal karakters per uur. Tarief 3
Correctie
Tarief per woord = uurloon gedeeld door het aantal woorden per uur. Tarief 4
Tekstcodering
Tarief per woord = uurloon gedeeld door het aantal woorden per uur. Tarief 5
Conversie
Tarief per woord = uurloon gedeeld door het aantal woorden voorbereiding per uur + het aantal uren conversietijd maal uurloon gedeeld door het aantal woorden. Door het verschil in kwaliteit kunnen er meerdere tarieven per bewerking ontstaan. De voorcalculatie gaat er dan als volgt uitzien: Het aantal te scannen pagina's maal tarief 1 Het aantal handmatig in te voeren karakters maal tarief 2 Het aantal te corrigeren woorden maal tarief 3 Het aantal te coderen woorden maal tarief 4 + Kosten verwerken extern materiaal: Het aantal te converteren woorden Het aantal te coderen woorden
maal tarief 5 maal tarief 4 +
21
Kosten verwerven materialen: Kosten aanschaf specifieke applicatiesoftware Diverse overige kosten
+
10 % onvoorzien
+
Totaal Het is wenselijk, tijdens het proces aan de hand van ervaringcijfers en achteraf door middel van een nacalculatie, de voorcalculatie te evalueren. 2.3.2.2 Ontwikkeling van een elektronische verzameling spraak Verwerving van spraakcorpora kan grofweg op twee manieren plaatshebben. Een corpus kan worden aangekocht of het wordt gratis beschikbaar gesteld door de eigenaar, al dan niet met de bijbehorende annotaties. Maar een spraakcorpus kan ook zelf worden gemaakt door sprekers te werven, opnames te maken en de spraakdata te verrijken met de benodigde en gewenste annotaties. Voor beide manieren geldt dat het kan geschieden volgens verschillende scenario's, zie paragraaf 2.2 met de daarbij behorende juridische en financiële aspecten. Bij de opbouw van een spraakcorpus dienen zich de volgende werkzaamheden aan: (1) het opstellen van een corpusdesign dat geschikt is de beoogde toepassing te verwezenlijken; (2) het maken van prompts, indien het doel van het corpus daarom vraagt; (3) het inventariseren van welk deel van de data in eigen beheer wordt vervaardigd en welk deel verkregen of aangekocht zal (kan) worden; (4) het ontwikkelen of aanschaffen en daarna testen van opnameapparatuur of opnameplatform; (5) het werven van sprekers; (6) het maken van de opnames; (7) het specificeren van de metadata die bij de spraakdata opgenomen moet worden, zoals sprekerinformatie (bijv. geslacht, leeftijd, afkomst), bron van opname (gebruikte microfoons), locatie van opname (bijv. studio, auto), prompttekst (indien aanwezig); (8) het specificeren van de annotaties, zoals het opstellen van een transcriptieprotocol; (9) het produceren van een orthografische transcriptie; (10) het produceren van eventuele andere annotaties, zoals bijvoorbeeld de koppeling van het geluidsignaal en de transcriptie, of een fonetische transcriptie, etc.. Aan deze bewerkingen zijn de volgende kosten verbonden: (1) Directe personele kosten - voorbereiden en corpusdesign - correctie - kosten voor het werven van sprekers - kosten voor het maken van opnames - sprekerkosten - transcriptiekosten - kosten voor overige annotatie (2) Directe materiele kosten - verwerving data - beveiligingskosten
22
- juridische kosten - materiele opnamekosten (tapes e.d.) - materiele opleverkosten (CD-ROM's, DVD's, e.d.) - aankoop en ontwikkeling van specifieke applicatiesoftware - fysieke materiaalopslag, back-upfaciliteiten (3) Indirecte kosten - afschrijving gebruikte apparatuur (waaronder computerapparatuur, datarecorders, bandrecorder e.d.) - afschrijving software - materiaalopslag, back-upfaciliteiten (bijvoorbeeld brandkasten) Indirecte kosten voor wat betreft huisvesting, administratieve ondersteuning, documentatie en reiskosten zijn niet in de kosten opgenomen. Ter illustratie volgt hieronder de begroting zoals die in november 1999 is gepubliceerd in de tweede Nieuwsbrief (zie: http://lands.let.kun.nl/cgn/publs/nieuws2.pdf) van het Corpus Gesproken Nederlands project. Het geeft een overzicht van de verwachte kosten voor zowel Vlaanderen als Nederland. TOTALE BEGROTING VAN HET VLAAMSE EN NEDERLANDSE LUIK (in EURO) Begroting van uitgaven (in EURO) Personeel Projecten Corpusopbouw Projecten Corpusannotatie Projecten Signaalanalyse Projectleiding Exploitatiesoftware Documentatie Bureau, beheer en coördinatie Onvoorzien / nader te verdelen Totaal personeel bestuur / stuurgroep workshops kwaliteitsbewaking apparatuur nog ongespecificeerde apparatuur specifieke exploitatie Subtotaal Centraal beheer Totaal uitgaven
VLAANDEREN NEDERLAND TOTAAL (1998-2003) (1998-2003) (1998-2003) 381.583 251.612 470.799 106.594 0 7.933 6.197 0
667.717 687.455 516.182 151.818 187.000 34.091 136.818 248.330
1.049.300 939.066 986.981 258.412 187.000 42.024 143.016 248.330
1.224.718
2.629.410
3.854.129
0 0 0 74.368 0 120.600
6.818 45.455 68.182 97.364 50.043 193.637
6.818 45.455 68.182 171.732 50.043 314.237
1.419.686
3.090.909
4.510.595
141.969
0
141.969
1.561.655
3.090.909
4.652.564
23
2.3.2.3 Kosten van door derden ontwikkelde data Men kan natuurlijk ook kant-en-klare TST-data kopen van derden. De markt voor bestaande TST-data is in ontwikkeling; er is daardoor nog weinig ervaring in het recht doen aan de financiële eisen en beperkingen opgelegd door de leverancier van de betreffende TST-data. De prijs die betaald moet worden voor een bestaand commercieel product wordt in het algemeen door de leverancier vastgesteld op basis van de productiekosten, maar die prijs is vaak onderhandelbaar. Voor producten ontwikkeld in academische kringen wordt ook het principe van doorberekening van productiekosten gehanteerd, maar uit marktoverwegingen wordt noodzakelijkerwijs vaak een veel lagere, niet kostendekkende prijs berekend. In een enkel geval zijn er geen kosten aan de verwerving verbonden, bijvoorbeeld als de overheid het product heeft gefinancierd, bijvoorbeeld Nederlandse Taalunie, NWO, IWT enz. De prijs, ook als die om niet is, moet altijd worden vastgelegd in een contract. Verder worden inzake de levering de volgende afspraken vastgelegd: Hoe wordt het materiaal aangeleverd ? TST-materiaal, zeker wanneer het om spraak gaat, is vaak omvangrijk. Voor de aanlevering kunnen de volgende dragers, in volgorde van grote capaciteit naar klein, worden gebruikt: harddisk, DVD, cdrom, floppy en tape en voor transfers: ftp en e-mail. In welk formaat (welke structuur) wordt het materiaal aangeleverd ? Word, WordPerfect, ASCII-tekst, RTF, HTML, PS, SGML, LaTex, Wav, ALW, PCM, NIST, samplefrequentie, bitresolutie. Hoe zal het materiaal tegen derden beveiligd worden ? Na levering van het materiaal door de externe leverancier is vaak een conversie nodig. Zie daarvoor verder hoofdstuk 3. Belemmeringen bij het verhandelen van onderhavige TST-data zijn vaak van tweeërlei aard: juridisch en financieel. De leverancier kan de toestemming voor gebruik van zijn product beperken tot bepaalde typen gebruik(ers) (vgl. 2.3.1.). Ook kan hij voor diverse typen gebruik(ers) verschillende tarieven voor de data hanteren. In Europees verband worden drie categorieën gebruikers onderscheiden: (a) universiteiten die onderzoek verrichten, (b) commerciële organisaties die onderzoek verrichten en (c) commerciële gebruikers. De European Language Resources Association hanteert voor niet-leden de volgende prijzen (wij volgen het prijsniveau van 12 oktober 2000 in EURO). 1. Tekstcorpora British National Corpus MTP annotated German Corpus Swedish Corpus Press Monolingual Greek Corpus Karl May Korpus Dutch Parole Corpus French Parole Corpus Portuguese Parole Corpus Enz. 2. Lexica Dutch Lexicon (LanTmark) CELEX Dutch lexicon (complete set) French Lexicon (LanTmark)
a 254 3500 20000 600 800 300 4300 1250
12800 10000
b
c
1000
3500 2500
2250
3500
102400 42490 80000
24
LexIn 2: e Swedish Lexicon Danish Lexicon Dutch Parole Lexicon Greek Parole Lexicon Lusolex Portuguese Lexicon Enz. 3. Spraak Polyphone Dutch SpeechDatII Groningen British-English SpeechDat-Car German SpeechDat(II) Spanish SpeechDat(M)-DB1 Swedish SpeechDat(II) Enz.
25000 400 5100 5000
20000 28000 800 120000 45000 14000 22000
3000
22000 100000 10000 30000
35000 35000 3200 120000 55000 20000 25000
Het Linguistic Data Consortium van de University of Pennsylvania in Philadelphia http://www.ldc.upenn.edu of
[email protected] heeft een top tien lijst samengesteld van de meest verkochte lexica, tekstcorpora en spraakcorpora. Genoemde data worden op cd-rom aangeleverd. De kosten van de cd's variëren als volgt, prijzen in EURO: 1. Tekstcorpora Pennsylvanian Treebank-2 ACL/DataCollection Initiative 2. Lexica Celex 3. Spraakcorpora TIMIT TI-DIGIT N-TIMIT YOHO speaker verification Resource Management Corpus RM1 Tidigits Corpus van Texas Instruments Texas Instruments 46-Word Vocabulary Acoustic-Phonetic Continuous Speech Corpus 2.4 2.4.1
2954,54 118,18 177,27 111,70 279,25 279,25 558,50 472,72 295,45 147,70 118,18
Selectie van een elektronische verzameling teksten Algemeen
Aan de vraag hoe een verzameling digitale tekstbestanden, in het vervolg 'corpus' genoemd, aangelegd en hergebruikt kan worden, gaat de vraag vooraf welke teksten in aanmerking komen voor een corpus. Er dient allereerst een inventaris te worden aangelegd van teksten die voor een bepaald doel, een bepaald project of een bepaald onderzoeksinstrument, gewenst zijn. Een verzameling digitale tekstbestanden die als onderzoeksinstrument wil fungeren, is nu eenmaal niet willekeurig. De geschiktheid van een corpus om op betrouwbare wijze een bepaald type taal te vertegenwoordigen, hangt af van de grootte en variatie ervan en van de vaardigheden van hen die het samenstellen (Sinclair 2001).
25
Wat er voor het Nederlands nodig is, is een landelijk gedragen programma dat gericht is op de totstandkoming van digitale corpora (onder andere ten behoeve van corpusgebaseerde lexica; zie hoofdstuk 4) en software om die corpora op te slaan, toegankelijk te maken, te beheren, te actualiseren en te bevragen. Aan dat digitaliseringsprogramma dienen volgens ons mutatis mutandis de volgende in de beleidsnota Een digitale bibliotheek voor de geesteswetenschappen (1999) door Viskil geformuleerde uitgangspunten ten grondslag te liggen: a) Te digitaliseren teksten voor corpora dienen in dienst te staan van het onderzoek. b) Een programma voor het digitaliseren van teksten voor corpora moet leiden tot een gefaseerde en geconcentreerde ontsluiting van bronnenmateriaal. c) Een programma voor het digitaliseren van teksten voor corpora moet recht doen aan de pluriformiteit van de vraag. d) Een programma voor het digitaliseren van teksten voor corpora moet stimulansen bieden voor experiment en navolging. e) Digitale teksten voor corpora dienen voor zoveel mogelijk onderzoekers en andere geïnteresseerden toegankelijk te zijn. In de woorden van Daelemans en Strik in Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen. (2002) (Actielijnen B en C) heet het dan ook: "De beschikbaarheid van grote verzamelingen tekst of spraak is essentieel geworden voor de ontwikkeling van de taaltechnologie. Deze corpora worden liefst gebalanceerd geconstrueerd (met alle relevante types van taalgebruik), kunnen al dan niet geannoteerd zijn met taalkundige beschrijvingen (bijv. morfologische structuur en woordsoort van woorden, syntactische structuur van zinnen, …), en kunnen verbanden leggen tussen verschillende talen (bilinguale corpora) of verschillende modaliteiten (multimodale corpora)." Voor uitgangspunten die een rol spelen bij de keuze van teksten voor de opbouw van een corpus verwijzen wij naar paragraaf 2.10.4. 2.4.2
Selectie door een non-profitorganisatie
Zoals uiteengezet in 2.4.1. en in 2.10.4. is een corpus niet zo maar een verzameling teksten. Een corpus probeert een taal of een deel van een taal te vertegenwoordigen waarop empirisch taalonderzoek kan plaatsvinden. De beste blauwdruk van een corpus hangt samen met wat het wil vertegenwoordigen. Het is de representativiteit van een corpus die bepaalt welke onderzoeksvragen eraan gesteld kunnen worden (Biber 1998: 247). Een gesubsidieerde nonprofit organisatie die diensten aan derden wil verlenen met een elektronische tekstenverzameling dient bij de opbouw daarvan rekening te houden met de volgende noodzakelijke voorwaarden. Het corpus moet multifunctioneel zijn, d.w.z. binnen een bepaald veld voor zo veel mogelijk onderzoek bruikbaar zijn. Het moet groot zijn en een grote verscheidenheid aan complete teksten bevatten, die allerlei variaties die een taal kent, vertegenwoordigen (Vgl. bijvoorbeeld Biber 1998; Zampolli 1995, 2000). De teksten die een onderdeel uitmaken van de tekstverzameling dienen goed gedocumenteerd te zijn in termen van bibliografische gegevens en diverse tekstclassificaties (zie 2.10.4., 4.2.2.1., 4.2.2.2.), zodanig dat onderzoekers uit de totale tekstenverzameling het voor hun onderzoeksdoel geschikte subcorpus kunnen samenstellen. Voorbeelden van dergelijke non-profitorganisaties in het Nederlands taalgebied zijn Digitale Bibliotheek Nederlandse Letteren (DBNL) voor het literaire veld, het Meertens-Insituut voor het veld dat de verscheidenheid van taal en cultuur in Nederland bestudeert, de toekomstige TST-centrale voor het veld van taal- en spraaktechnologie.
26
2.4.3 Selectie door individuele onderzoekers Individuele onderzoekers die met een corpus willen werken, dienen zich bij de aanmaak of selectie daarvan te realiseren dat de aard van hun onderzoek de samenstelling van het corpus dirigeert. De vraag die hier altijd vooropstaat is: "Hoe bewerkstellig ik dat mijn corpus representatief genoeg is voor de specifieke onderzoeksvragen die ik er aan wil stellen?" Een onderzoeker die een lexicon wil maken van woorden uit de bijbel die nog in het hedendaags Nederlands gebruikt worden, kan materiaal betrekken van een non-profitorganisatie, maar zal zijn corpus ook graag uitbreiden met teksten die voor dit onderzoek relevant zijn en die niet aanwezig zijn bij de non-profitorganisatie. De individuele onderzoeker stelt zijn corpus geheel in dienst van de aard van zijn onderzoek. 2.4.4
Selectie door taal- en spraaktechnologen
De automatische verwerking van natuurlijke taal en de toepassing ervan binnen de informatietechnologie en telematica, kortom de taaltechnologie, heeft vele gezichten en dito toepassingen. Wij noemen hier slechts de ontwikkeling van automatische vertaalsystemen (Eurotra), mens-machinecommunicatie en de bouw van NLP-systemen. Taaltechnologen vinden representativiteit voor taaltechnologisch onderzoek (bijvoorbeeld voor de ontwikkeling van taggers, syntactische parsers, enz.) of voor de ontwikkeling respectievelijk verbetering van hun commerciële producten over het algemeen van minder belang. Zij geven aan vooral behoefte te hebben aan veel data (zie Church & Mercer 1993: 17-19), soms zelfs maar van een bepaald type tekst. Focussen wij uitsluitend op spraaktechnologie, op technische ingrepen die communicatie via spraak tussen mensen onderling of tussen een mens en een machine efficiënter kunnen maken (zie Boves http://lands.let.kun.nl/intens/informant/archive/Boves_spraaktechnologie.html), dan is ook hier evident dat de aard van het onderzoek of van het op de markt te brengen product de selectie stuurt. Elke individuele onderzoeker, onderzoeksgroep of instelling kan de criteria en protocollen formuleren die tot een selectie leiden die het geschiktst is voor de door hem of haar gestelde onderzoeksvragen. Die selectie is met andere woorden anders in geval van spraakcodering en spraaksynthese, bij onderzoek van tekst naar spraak of bij dat naar spraakherkenning of onderzoek van spraak naar tekst. Bij dit laatste zijn soms zeer beperkte woordenschatten nodig in tegenstelling tot dat van tekst naar spraak, zoals ons het voorbeeld van Boves over het dagblad Trouw leert: deze krant wordt zes nachten per week compleet via een radiozender naar de pc's van een vijftigtal blinden gestuurd, waar alles op schijf wordt opgeslagen. 's Ochtends kan de ontvanger met behulp van een eenvoudig zoekprogramma langs de koppen van de artikelen lopen, die door een tekst-naar-spraak-omzetter worden voorgelezen. Als een blinde een artikel treft dat interessant lijkt, is een druk op de knop genoeg om de synthetisator te vragen de tekst voor te lezen. Kleine vocabulaires kunnen 100 tot 200 woorden bevatten. Dat zijn dan in de praktijk de woorden die nodig zijn voor een specifieke toepassing, zoals het sorteren van bagage op een luchthaven of data-invoer tijdens kwaliteitscontrole in een slachthuis. Grotere vocabulaires kunnen uit zo'n 1000 woorden bestaan. Met een dergelijke woordenschat kan men een conversatie voeren met een machine die vlucht- of theaterreserveringen doet. Een inventaris van corpora voor spraak- en taaltechnologie vindt men bij Bouma en Schuurman (1998: 22-24). Het gaat daar met name om verzamelingen van telefoongesprekken, teksten van radionieuwsuitzendingen, kindertaal, korte gelezen teksten, commandowoorden, gespelde woorden, spontane taaluitingen enz. Een update van die
27
inventaris is sinds eind 2001 beschikbaar bij de Nederlandse Taalunie (Het Nederlands in taalen spraaktechnologie: prioriteiten voor basisvoorzieningen, Daelemans en Strik (2002)). 2.5
Ontwikkeling van een elektronische verzameling spraak
De opbouw van een spraakcorpus en de selectie van het materiaal zijn vrijwel altijd afhankelijk van de uiteindelijke applicatie die beoogd wordt. Zo is het voor bijvoorbeeld de ontwikkeling van een spraakgestuurde dienst in een auto niet nodig om spraak van kinderen op te nemen, en is het juist gewenst om spraak op te nemen met de geluiden die in de applicatieomgeving gaan voorkomen, zoals motorgeluiden in een auto. Van alle bestaande Nederlandstalige spraakcorpora zijn de meeste ontstaan tijdens het maken van een toepassing, of tijdens onderzoek. Binnen het Nederlandse taalgebied is op 1 juni 1998 het project Corpus Gesproken Nederlands (CGN) officieel van start gegaan. Het Corpus Gesproken Nederlands is een voorbeeld van een corpus dat niet geproduceerd is tijdens de ontwikkeling van een applicatie of tijdens onderzoek, maar dat gemaakt wordt om juist zoveel mogelijk toekomstige gebruikers, onderzoekers of applicatiebouwers, tegemoet te komen. Voor dit corpus is het van belang een plausibele steekproef van het hedendaags gesproken Nederlands te verzamelen voor uiteenlopende doeleinden. Alle rechten van het CGN, inclusief die inzake het beheer en de distributie, berusten bij de Nederlandse Taalunie. Het CGN kan gezien worden als een basiscorpus dat door onderzoekers van verschillende disciplines verder kan worden uitgewerkt. Zowel voor de paragraaf selectie (2.5.2.) als voor die over productie (2.8.) van (digitale) opnamen volgen wij de afwegingen die in dat project gemaakt zijn op de voet. Men zie voor gedetailleerder informatie ter zake http://lands.let.kun.nl/cgn/. 2.5.1
Algemeen
Aan de vraag hoe digitale bestanden van spraak aangemaakt of verworven en voor (her)gebruik geschikt gemaakt kunnen worden, dient een beschouwing over beperkingen toegevoegd te worden. Idealiter zou zijn een corpus te voorzien dat zo samengesteld en van een zodanige omvang is dat het optimaal bruikbaar is voor diverse doelstellingen zoals die in de verschillende onderzoeksdisciplines en toepassingsgebieden worden nagestreefd. We leven evenwel niet in een ideale wereld waarin omnifunctionele corpora kunnen worden geproduceerd. Het gesproken Nederlands bijvoorbeeld wordt – net als het geschreven Nederlands overigens - gekenmerkt door een grote mate aan diversiteit en de interessen van verschillende gebruikersgroepen en de daaruit voortvloeiende vereisten blijken ten aanzien van een corpus op een aantal punten nogal uiteenlopend. Bovendien zijn er beperkende factoren die het onmogelijk maken in principe ongelimiteerd gedifferentieerde spraakdata te verzamelen, te annoteren en te distribueren. Tot die beperkende factoren behoren: (1) de beschikbare tijd en middelen, (2) de technische mogelijkheden waarover men kan beschikken voor het maken van de opnames en de verdere verwerking van data en (3) de juridische regelgeving waaraan men gehouden is met betrekking tot het verzamelen en openbaar maken van data. De zo-even genoemde factoren (1) en (3) gelden ook voor geschreven corpora. Alleen, spraakcorpora zijn veel minder voorhanden en kleiner in omvang omdat de ontwikkeling ervan nog kostbaarder en arbeidsintensiever is dan die van tekstcorpora (onder meer door opslagcapaciteit, opnames, transcriptie en koppeling daarvan aan het akoestisch signaal). Bij het selecteren van materiaal voor een spraakcorpus doet men er eveneens goed aan een ontwerp voor de selectie van data te vervaardigen zodat het resulterende corpus
28
beschouwd kan worden als een noodzakelijkerwijs beperkte doch plausibele steekproef van het hedendaags gesproken Standaardnederlands, waarbij tevens zoveel mogelijk tegemoet gekomen wordt aan de wensen en behoeften van de verschillende groepen potentiële gebruikers. Voorts dient rekening gehouden te worden met de databestanden die reeds beschikbaar zijn, dit om duplicatie te voorkomen en de beschikbare middelen optimaal in te zetten. 2.5.2
Selectie door een non-profitorganisatie
Dat de opbouw van een verzameling gesproken data van de standaardtaal een kostbare aangelegenheid is en dat er allerlei beperkingen gelden bij het samenstellen van zo'n verzameling zagen wij in de vorige paragraaf. Het is zaak om, indien er nog weinig wetenschappelijk opgebouwde, digitale corpora voorhanden zijn een corpus op te bouwen van bijvoorbeeld 10 miljoen woorden dat een plausibele steekproef mag heten van het hedendaags Standaardnederlands, zoals dat in Nederland en Vlaanderen gesproken wordt. Een dergelijke taak gaat de financiële en inhoudelijke capaciteit van de individuele onderzoeker te boven. Een samenwerkingsverband van bestaande instellingen is daartoe derhalve de geijkte opdrachtnemer. Het CGN wordt in het kader van de Vlaams-Nederlandse samenwerking tot stand gebracht door het Vlaams Instituut voor de Bevordering van het WetenschappelijkTechnologisch Onderzoek in de Industrie (IWT), met het Ministerie van de Vlaamse Gemeenschap Departement Wetenschap, Innovatie en Media Administratie Wetenschap en Innovatie (AWI) en met de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). De Nederlandse Taalunie zal dit corpus na voltooiing van de werkzaamheden voor hergebruik (laten) beheren. Bij het ontwerp voor de opbouw van het corpus gaat men uit van een getrapte sampling. Op basis van een aantal situationele parameters onderscheidt men dan een aantal taalvariëteiten die elk een component in het corpus moeten gaan vormen. Binnen elke component wordt vervolgens een verdere detaillering aangebracht waarbij naast aanvullende situationele parameters ook sprekerskenmerken een rol spelen. Een globaal ontwerp voor een basiscorpus, zoals dat van het CGN, kan schematisch worden weergegeven als in tabel 1.
29
Tabel 1. Ontwerp van een basiscorpus
Dialoog / multiloog 8.110.000
Privé 6.635.000
Spontaan 6.635.000
'direct' Conversaties ('face-to3.460.000 face') 3.000.000 Interviews 460.000 Telefoondialogen 'distanced' 3.000.000 Zakelijke 3.175.000 onderhandelingen 175.000
Publiek Uitgezonmin of meer 1.475.000 den voorbereid 750.000 750.000 Niet Spontaan 725.000 uitgezonden 725.000 Monoloog min of meer Privé 40.000 1.890.000 voorbereid 40.000 Publiek UitgezonSpontaan 250.000 1.850.000 den 950.000 min of meer voorbereid 700.000
Niet min of meer uitgezon- voorbereid 900.000 den 900.000
VL
NL
1.000.000 230.000
2.000.000 230.000
1.000.000
2.000.000
0
175.000
Interviews en discussies 750.000
230.000 Discussies, debatten, vergaderingen 375.000 130.000
520.000
Lessen 350.000
110.000
240.000
40.000
0
70.000
180.000
80.000
170.000
80.000
170.000
60.000
140.000
Beschrijving van route of plaatjes 40.000 Spontaan commentaar 250.000 Actualiteitenrubrieken, reportages 250.000 Nieuwsbulletins 250.000 Beschouwingen, commentaren 200.000 Lezingen, toespraken 275.000 Voorgelezen tekst 625.000 (+375.000)
245.000
95.000 180.000 210.000 415.000 (+125.000) (+250.000)
Deze tabel verdient nadere toelichting: (1) In de opbouw van een dergelijk corpus dient op basis van het aantal sprekers een onderscheid gemaakt te worden tussen monologen enerzijds en dialogen/multilogen anderzijds. (2) Het verdient aanbeveling een onderscheid te maken tussen privé en publiek, d.w.z. op het al dan niet aanwezig zijn van toehoorders. Dialogen of gesprekken tussen meerdere personen die enkel bestemd zijn voor en gevoerd worden ten behoeve van de participanten - hoewel ze mogelijkerwijs gehoord kunnen worden door anderen die niet aan het gesprek deelnemen - worden aangeduid als privé. De als publiek aangeduide dialogen of gesprekken worden gevoerd door de gesprekspartners, maar zijn nadrukkelijk bedoeld gehoord te worden door anderen. In het laatste geval is het gespreksonderwerp meestal en zijn eventuele vragen en discussiepunten vaak vooraf vastgesteld en bekend bij de gesprekspartners. Dit in tegenstelling tot als privé aangemerkte dialogen of gesprekken waarin het onderwerp kan variëren.
30
(3) Er dient onderscheiden te worden tussen 'direct' en 'distanced'. Dit onderscheid heeft betrekking op het gegeven of de gesprekspartner al dan niet toegang heeft tot extralinguale communicatieve informatie (bijvoorbeeld gebaren en mimiek) die door de ander tijdens het spreken gemaakt worden, kennis van de omgeving waarin hun gesprekspartner zich bevindt, e.d. Een duidelijk voorbeeld van 'distanced' dialogen zijn dialogen via de telefoon. Met name waar het gaat om 'direct' dialogen kan het van belang zijn een groot aantal situationele contexten te samplen. Uitgaande van de globale opbouw zoals geschetst in Tabel 1, kan voor elk van de componenten van het corpus een verdere specificatie worden gemaakt waarbij onder andere aanvullende situationele parameters en sprekerskenmerken kunnen worden ingebracht daar waar dat zinvol is. De hier gehanteerde benadering biedt een maximum aan flexibiliteit. Steekproefgroottes, sprekersaantallen, demografische spreiding, etc. kunnen per component nader worden bepaald. In het algemeen kan gesteld worden dat een ruime mate van spreiding wordt nagestreefd in de sampling van sprekers, gespreksonderwerpen, gesprekssituaties, etc. Vooralsnog gaan we ervan uit dat aan de omvang die per component is vastgesteld niet behoeft te worden getornd. Bij het vaststellen van de totale omvang van de componenten zijn de volgende overwegingen een beslissende factor geweest: (1) Er bestaat vooral behoefte aan spontaan gesproken data. (2) Interactie is een wezenlijk bestanddeel van gesproken communicatie en dient derhalve in ruime mate vertegenwoordigd te zijn. Met andere woorden, er zijn meer opnamen van dialogen en multilogen dan van monologen. (3) Bepaalde, in termen van de verschillende componenten onderscheiden, variëteiten vertonen een grotere mate aan diversiteit dan andere. Heterogene componenten vereisen een groter aantal fragmenten dan homogene componenten om een redelijke spreiding in de steekproef te kunnen aanbrengen. (4) De omvang van de fragmenten loopt van component tot component uiteen en is afhankelijk van de gebruikte 'bron' of de te vullen cel in het design. Daarnaast is er nog de notie 'bruikbaar materiaal'. Van een opname blijkt vaak niet alles bruikbaar te zijn, om verschillende redenen (privacy aspecten, opnamekwaliteit etc.). (5) Bepaalde data zijn eenvoudiger te verzamelen dan andere. (6) Om van nut te kunnen zijn voor bepaalde toepassingsgebieden moet voldaan worden aan zekere minimumeisen. Dit geldt met name voor data die in een later stadium input zijn voor verschillende technologische toepassingen. Het Corpus Gesproken Nederlands moet een omnifunctionele verzameling spraak worden. Echter de meeste spraakcorpora die zijn ontwikkeld, dienden een gerichter doel, namelijk ten behoeve van de ontwikkeling van spraakgestuurde applicaties (bijvoorbeeld over de telefoon). Afhankelijk van het soort applicatie, zoals sprekerverificatie, spraakherkenning in auto's, spraakherkenning via GSM, groot vocabulaire applicatie, dicteerapplicaties, etc., worden een functiebeschrijving en een design voor het te maken corpus opgesteld. Hierin zijn zaken gespecificeerd als: (1) aantal sprekers; (2) geografische spreiding van sprekers; 31
(3) (4) (5) (6) (7) (8)
leeftijd van sprekers; opnameomgeving; prompts; hoeveelheid spraak, per spreker, per item; aantal tokens per woord, per foneem etc.; etc.
Dit soort spraakcorpora worden meestal niet gemaakt door non-profitorganisaties, maar vaak door commerciële bedrijven of door een samenwerkingsverband tussen bedrijven en nonprofitorganisaties. 2.5.3
Selectie door individuele onderzoekers
Individuele onderzoekers zijn wegens de enorme kosten die verbonden zijn aan en de arbeidsintensiteit van het verzamelen van data van spraak meestal slechts in staat om beperkte verzamelingen spraakdata aan te leggen. Het gaat daarbij vaak om specifiek en ipso facto gericht onderzoek op beperkte schaal. Men kan bijvoorbeeld denken aan onderzoek naar aspecten van kindertaal of aan bepaalde typen van socio- en psycholinguïstisch onderzoek. Ondanks de kleinschaligheid van dergelijk individueel onderzoek dient ook hier voor de opbouw van een corpus uitgegaan te worden van een getrapte sampling, van nader te definiëren aan het onderzoek gerelateerde situationele parameters en van sprekerskenmerken. Steekproefgroottes, sprekersaantallen, demografische spreiding enz. zullen vanzelfsprekend afhankelijk van de aard van het beoogde onderzoek moeten worden vastgesteld. 2.6
Productie en verwerving van digitale tekstbestanden
Als wij weten welke teksten voor een multifunctioneel of gebalanceerd tekstcorpus gewenst zijn, loont het de moeite te achterhalen wat van die inventaris mogelijk al digitaal beschikbaar en van acceptabele kwaliteit is en wat nog gedigitaliseerd, aangepast of gecorrigeerd moet worden. Het verwerven van digitale bestanden voor corpora kan via persoonlijk contacten binnen de vakgebieden worden ingezet of via uitgevers, via schriftelijke vragen aan bezitters van bestanden en corpora, via enquêtes, die al dan niet verspreid worden via het Internet (zie voor aspecten van technische aanlevering van elders verworven teksten paragraaf 2.6.3. en 2.7.). Indien nog geen digitale versie van een gewenste tekst bestaat, zijn er twee mogelijkheden om digitalisering te bewerkstelligen. De eerste mogelijkheid is het scannen, d.w.z. het elektronisch maken van een tekst en deze door Optical Character Recognition (OCR) laten interpreteren als een mogelijke sequentie van letters, leestekens enz.; de tweede is het geheel overtypen van een tekst. Wij beperken ons hier tot mechanisch tot stand gekomen teksten. Daarmee geven wij geen impliciete oordelen over het belang van het digitaliseren van unieke geschreven bronnen als vragenlijsten van diverse dialectcentrales, de Woordentas van Gezelle of de Reeks Nederlandse Dialectatlassen. Digitalisering vanaf het origineel van deze bronnen kan niet snel genoeg ter hand worden genomen. Dat zij hier slechts terloops vermeld worden, heeft alles te maken met de door de Taalunie tot uitgangspunt van deze Blauwdruk gekozen digitale materialen: die welke met overheidsgelden buiten een permanente institutionele infrastructuur worden gemaakt ten behoeve van taal- en spraaktechnologie.
32
2.6.1 Scannen Het scannen met behulp van een scanner of digitale camera, waarbij een icoon per gescande bladzijde ontstaat, laten wij hier buiten beschouwing omdat dit technisch procédé het zoeken naar strings in het desbetreffende icoon onmogelijk maakt. OCR of tekstherkenning is in sterke mate afhankelijk van de kwaliteit van het te scannen drukwerk. OCR geeft de beste resultaten als het gaat om teksten met een scherp getekend en modern lettertype. Ook het zwart-witcontrast is daarbij van wezenlijk belang om het foutenpercentage drastisch te beperken. Een hedendaagse bron gedrukt in een gangbaar lettertype geeft weinig of geen leesfouten. Een achttiende-eeuwse bron op zeer onregelmatig golvend papier bijvoorbeeld levert daarentegen flink wat problemen. Door de golvingen in het papier ontstaan er schaduwpartijen. Deze kunnen deels worden opgeheven door een stevig stuk karton achter de te scannen bladzijde te leggen en via de instellingen van de scanner schaduwen en halftonen bij te stellen. Een andere, goed bruikbare optie is het werken met fotokopieën. Het kleinere contrast van letters en papier op sterk vergeelde bladzijden kan worden vergroot door ofwel de instellingen van het programma aan te passen, ofwel de bladzijden eerst te kopiëren. Dit laatste kan ook van belang zijn bij boeken die niet geheel opengevouwen op de scanner gelegd kunnen worden. Problematisch is tot voor kort altijd geweest het herkennen van afwijkende lettertekens, zoals de lange s en ligaturen als st, or, dr e.d. Momenteel is er echter software op de markt met ampele mogelijkheden om op een zeer efficiënte manier het programma te trainen op het herkennen van deze afwijkende lettervormen, ligaturen enzovoort. Natuurlijk blijven er werken waarbij scannen nooit een goed resultaat op zal leveren, met name zestiende-eeuwse boeken met gotische lettertekens. Voor een aantal boeken zal altijd blijven gelden dat per geval vastgesteld moet worden of scannen wel zin heeft. Men dient bij scannen bovendien te bedenken dat na de digitalisering iedere tekst nog aan een algehele manuele correctieronde is onderworpen. Foutloos scannen is duur (zie 2.3.2. voor financiële aspecten van scannen). Bij het Nederlands Instituut voor Wetenschappelijke Informatica (NIWI), de Digitale Bibliotheek Nederlandse Letterkunde (DBNL) en het Instituut voor Nederlandse Lexicologie (INL) wordt gewerkt met het OCR-programma FineReader 5.0 van het softwarehouse Abbyy in Moskou (zie voor meer informatie www.abbyy.com). Leverancier voor de Lage Landen is momenteel Easy Data in Amersfoort. Om een inzicht te krijgen in de relatie tussen tijd, kwantiteit en kwaliteit bij het scannen van grotere teksten werd met FineReader een complete roman van gemiddelde omvang en van normale papier- en drukkwaliteit ingelezen. Het betrof Het woeden der gehele wereld van Maarten 't Hart uit 1993, 282 pagina's waarvan 265 tekst. De resultaten zonder correctie waren als volgt: Scannen, inclusief lezen door FineReader van gescande pagina's en exporteren naar Word: Aantal pagina's: 265 Aantal woorden: 90.011 Totale tijd: 386 minuten = 23.160 seconden Tijd per pagina: 90 seconden Tijd per woord: 4 seconden Het gemiddelde aantal fouten per pagina van gemiddeld 340 woorden bedroeg 4,5. Sommige fouten kunnen automatisch met een zoek-vervang-operatie hersteld worden. Het is hoe dan ook zinvol om systematische fouten automatisch te corrigeren. De vraag of en zo ja welke fouten handmatig moeten worden gecorrigeerd hangt in de eerste plaats af van wat als een acceptabel foutenpercentage wordt beschouwd en kan natuurlijk per onderzoek verschillen. In de tweede plaats dient bedacht te worden, dat fouten nogal eens nonsenswoorden zullen
33
opleveren die er bij het maken van een concordantie van een tekst automatisch als zogenaamde ruis uitrollen. Enkele voorbeelden zijn liggen gelezen als Uggen, in als iri en Rotterdams als P^otterdams. Wanneer een mislezing een correct woord oplevert zal dit in de meeste gevallen op syntactisch niveau eruit komen. 2.6.2
Overtypen
Een alternatief voor scannen is het overtikken van teksten. Men kan dat door moedertaalsprekers laten doen. Die optie verdient de voorkeur als het teksten met problematische lettertypes betreft (bijvoorbeeld gotische letters) of teksten met een speciale typografie of lay-out. Daartoe dient per tekst steeds een document aangemaakt te worden, waarin expliciet wordt beschreven op welk platform en in welk formaat of in welke structuur de tekst gedigitaliseerd moet worden, waarop speciaal gelet moet worden en wat er moet gebeuren met hoofdstuktitels, regelnummers, paginering, voetnoten enz. Overtikken van teksten kan men ook laten doen in zogenaamde lagelonenlanden. Deze methode is vooral te verkiezen in geval van teksten van een relatief grote omvang. Noodzakelijk is daarbij eveneens de aanlevering bij elke tekst van een document waarin expliciet beschreven wordt hoe de tekst gedigitaliseerd moet worden, waarop speciaal gelet moet worden, wat moet gebeuren met hoofdstuktitels, regelnummers, paginering, voetnoten enz. Intrigerend is dat typisten in lagelonenlanden opvallend minder fouten maken bij het overtypen van een tekst dan typekrachten uit het eigen taalgebied. Kennis van de taal van de te digitaliseren teksten zorgt meestal voor een hoger foutenpercentage. Vooraleer teksten gedigitaliseerd worden, moet eerst van de editeurs, uitgeverijen of andere rechthebbenden de schriftelijke toestemming verkregen worden voor digitalisering en verder (wetenschappelijk) (her)gebruik van de teksten (vgl. 2.3.1.). 2.6.3
Verwerving van teksten via Internet
Met behulp van het "Wereldwijde Web" (www) kan eenvoudig en snel een grote hoeveelheid, gevarieerde teksten binnengehaald worden die kunnen dienen als basismateriaal voor een corpus. Naast de grote voordelen die het Internet te bieden heeft, mag en kan men zijn ogen niet sluiten voor de praktische en fundamentele bezwaren die bij het gebruikmaken van Internet een rol spelen. De meest in het oog springende kwestie is die van het copyright: er bestaat op het moment geen sluitende wetgeving die het copyright van via het Internet aangeboden teksten regelt, laat staan een sluitende wetgeving die het niet-commerciële, voor wetenschapsdoeleinden gebruik daarvan tot in detail vastlegt, en al helemaal niet een regeling die recht doet aan alle categorieën gebruikers. Afgezien van de heikele juridische kwesties kunnen zich problemen voordoen die, zoals gezegd, van meer praktische, technische aard zijn of die fundamenteler voorkomen uit de aard van het Internet zelf. Hier volgen enige van die bezwaren (waarbij niet naar volledigheid is gestreefd). Het Internet is per definitie instabiel, mede omdat er geen sprake is van een centraal geregeld beheer. Informatie die op een bepaald moment beschikbaar is, kan na verloop van tijd weer verdwijnen. Dit geldt zowel voor hele websites als voor diverse onderdelen van websites. Consequentie: relevante informatie moet dus altijd tijdig vastgelegd worden, liefst in niet-gewijzigde vorm, omdat controle achteraf vaak niet meer mogelijk is. Informatie die wel via het Web beschikbaar blijft, is vaak niet geactualiseerd. Ook dit geldt voor zowel hele websites als voor bepaalde onderdelen van websites. Consequentie: altijd
34
moet worden gecontroleerd of de gegeven informatie de jongste stand van zaken geeft, of de gegeven informatie inmiddels niet achterhaald is. Informatie die via het Web onder een bepaald adres (URL) gevonden kon worden, kan na verloop van tijd alleen nog onder een ander adres te vinden zijn. Zeer regelmatig gebeurt het dat websites van adres veranderen. Consequentie: het adressenbestand van relevante websites moet voortdurend geactualiseerd zijn. Een extra probleem daarbij is dat de links in zoekmachines of op websites vaak evenmin geactualiseerd zijn. Sommige websites zijn via een bepaalde server niet of niet meer bereikbaar, veelal om technische redenen. De consequentie is dat het adressenbestand van relevante websites niet alleen voortdurend geactualiseerd moet zijn, maar ook telkens op zijn waarde getoetst moet worden. Net als bij de veranderingen van URL is een extra probleem daarbij dat de links in zoekmachines of op websites vaak evenmin getoetst zijn op hun waarde. Een deel van de informatie die via Internet beschikbaar is, wordt ook door de krachtigste zoekmachines niet bereikt. De beste zoekmachines weten nog geen 50% van de beschikbare informatie te vinden, omdat zij vooral in het centrale gedeelte van Internet speuren. Bovendien is alle informatie die op wel gevonden websites staat, niet altijd geïndexeerd en dus niet via een zoekmachine te vinden. Consequentie: een deel van de weliswaar aanwezige Internet-informatie is niet beschikbaar voor iedereen. Een groot bezwaar is dat paradoxaal genoeg niet, gelet op het volgende punt. Een zeer reëel probleem is dat het Internet, ook al is maar een deel van de informatie via een zoekmachine te bereiken, dikwijls een overstelpende hoeveelheid informatie oplevert. De hoeveelheid informatie of het aantal resultaten per zoekactie is dermate groot, dat er niet aan te denken valt alle resultaten te bekijken. In dit opzicht lijkt Internet ten gronde te gaan aan zijn eigen succes, temeer daar het Web zich dagelijks nog enorm uitbreidt. Consequentie: er moeten bepaalde strategieën gehanteerd worden om de hoeveelheid informatie beheersbaar te maken. De strategie en de keuze van de zoekmachine moeten afgestemd worden op de zoekvraag. Omdat het iedereen vrij staat om naar hartelust informatie op het Web te zetten, moet die informatie altijd op betrouwbaarheid gecontroleerd worden. Consequentie: er moet een strategie ontwikkeld worden om vast te stellen welke informatie wel en welke informatie niet betrouwbaar is. Het Internet is een jong medium en kent derhalve nauwelijks een eigen "geschiedenis", d.w.z. het merendeel van de informatie die beschikbaar is dateert hoogstens van het begin van de jaren negentig van de vorige eeuw. Het aanbod van oudere teksten en gegevens over oudere fasen is schraal. Consequentie: voor de fase van vóór circa 1992 heeft men aan het Internet betrekkelijk weinig en moeten andere bronnen aangeboord worden. Wie zich op het Wereldwijde Web begeeft, zal te maken krijgen met allerlei ongemakken die inherent zijn aan het Web zelf: ongewenste reclame of andere informatie, hackers, bronnen of programma's die alleen tegen (forse) betaling beschikbaar zijn, programma's die niet werken e.d. Voor systematische bestudering van wat het Internet te bieden heeft, is bovendien een snelle computer benodigd. 2.6.4
Verwerving van databases
Op welke verschillende manieren digitale tekstbestanden tot stand kunnen komen en hoe zij verworven kunnen worden, zagen wij in het voorafgaande. Wat wij nog niet besproken hebben, is het verwerven van reeds bestaande databases of liever nog van een verzameling teksten die in de vorm van een database verpakt is. Hoe nu kunnen wij het begrip database het best omschrijven?
35
Een database of database management systeem (DBMS) is een combinatie van software en een bepaalde opslagstructuur met behulp waarvan diverse bewerkingen op data kunnen worden uitgevoerd, zoals bewaren, wijzigen, verwijderen en zoeken. Een verzameling 'losse' teksten voldoet niet aan deze definitie, teksten die deel uit maken van bijvoorbeeld een Microsoft Access database weer wel. Zie 2.7.3. voor aspecten van de technische aanlevering van elders verworven databases. 2.6.5
Verwerving software
Het verwerven van software kan via persoonlijke contacten binnen de vakgebieden gebeuren, via uitgevers, via schriftelijke vragen aan bezitters van bestanden en corpora, via enquêtes, die al dan niet verspreid worden via Internet. Zie voor aspecten van de technische aanlevering van elders verworven software 2.7.4. 2.7
Technische aspecten van aanlevering van verworven digitale teksten
In deze paragraaf ligt de nadruk op de aanlevering van gegevens die extern, bijvoorbeeld bij uitgevers, digitaal beschikbaar zijn of extern worden gedigitaliseerd. Hierbij maken wij geen onderscheid tussen individuele leveranciers en een non-profitorganisatie als leverancier aan gebruikers. De meeste bepalingen gelden ook voor de individuele onderzoeker die gegevens aanlevert. Wanneer in dat geval een bepaling niet of minder relevant is, zal dat hierna worden aangegeven. Te onderscheiden zijn procedures voor de aanlevering op magnetische en optische media en procedures voor aanlevering via Internet. 2.7.1
Aanlevering op magnetische en optische media
Onder magnetische en optische media worden ondermeer verstaan floppy's, tapes, zip-drives, cd-roms en dvd's. Hoe dienen de digitale gegevens aangeleverd te worden? De ontvangende partij gaat allereerst na welke media gelezen kunnen worden door bij haar aanwezige apparatuur. Ook dient zij na te gaan of zowel het formaat waarin de gegevens worden verstuurd als het formaat van de gegevens zelf (bijvoorbeeld Word97, PDF enz.) door haar verwerkt kunnen worden met behulp van daartoe bestemde programmatuur. Het gebruik van twee verschillende formaten - voor respectievelijk verzending en de gegevens zelf – zal zich vooral voordoen bij aanlevering via floppy. Bij dit medium kan het, gezien de beperkte capaciteit ervan, nodig zijn de gegevens te comprimeren in bijvoorbeeld het zogenaamde zip-formaat. Verder wordt aanbevolen dat de ontvangende partij aan de leverancier voldoende informatiedragers ter beschikking stelt. Tevens moet de ontvanger er zich van vergewissen dat verzonden media ook daadwerkelijk aankomen. Hulpmiddel hierbij kan zijn dat met de leverancier vaste tijdstippen voor verzending worden afgesproken. Natuurlijk mag men van de leverancier, behoudens als het gaat om individuele onderzoekers die materiaal geven aan een non-profitorganisatie, procedures verwachten die de regelmatige aanlevering van data garanderen. 2.7.2
Aanlevering van teksten via Internet
De twee meest bekende wijzen van aanlevering via Internet zijn ftp en e- mail. Voor beide geldt dat de ontvangende partij moet nagaan of zowel het formaat waarin de gegevens worden verstuurd als het formaat van de gegevens zelf door haar kan worden verwerkt met behulp van
36
daartoe bestemde programmatuur. Het is niet ongebruikelijk dat gegevens via Internet worden verstuurd in gecomprimeerde vorm, bijvoorbeeld in het zogenaamde zip-formaat. Eerst wordt nu de aanlevering via e-mail besproken. Beide partijen gaan na of het nodig is bepaalde veiligheidsmaatregelen te treffen zodat de gegevens voor derden niet toegankelijk zijn indien bijvoorbeeld Internetverbindingen worden afgeluisterd. PGP 'Pretty Good Privacy' is een van die maatregelen tot beveiliging. De ontvangende partij verstrekt een e-mailadres waarnaar de gegevens kunnen worden verstuurd door de leverancier. Tevens zorgt de ontvangende partij ervoor dat de naar het opgegeven adres verstuurde e-mails regelmatig worden gelezen en dat de toegezonden gegevens op correcte ontvangst worden gecontroleerd. De leverancier dient er zorg voor te dragen, behoudens als het gaat om individuele onderzoekers die materiaal geven aan een non-profitorganisatie, dat er geautomatiseerde procedures ontwikkeld worden die de regelmatige aanlevering van data garanderen. Indien leverantie plaats heeft via ftp dan zijn er twee situaties denkbaar: (a) de leverancier plaatst de gegevens bij de ontvangende partij, of (b) de ontvangende partij haalt de gegevens op bij de leverancier. De keuze voor een van beide wordt in overleg tussen leverancier en ontvangende partij bepaald waarbij overwegingen van praktische aard een rol spelen. Gaan wij uit van situatie (a) dan verstrekt de ontvangende partij aan de leverancier de netwerknaam of het zogenaamde IP-adres van de computer waarop de data moeten worden geplaatst. Het is eveneens de ontvangende partij die aan de leverancier accountgegevens verstrekt waarmee de ftp-verbinding tot stand kan worden gebracht. Accountgegevens zijn in het algemeen de naam van de server, de usernaam en het password. De ontvangende partij zorgt er ook voor dat de eventuele beveiligingsmaatregelen die op de betreffende computer van toepassing zijn zodanig worden aangepast dat de leverancier de computer kan bereiken en dat de gegevens automatisch op een daartoe aangewezen plaats op genoemde computer terechtkomen. Dit is in het algemeen een bepaalde directory die alleen toegankelijk is voor de leverancier en bevoegd personeel van de ontvangende partij. Directory's en de inrichting van een directorystructuur worden besproken in hoofdstuk 3. Indien er problemen zijn bij de totstandkoming van de ftp-verbinding moet de leverancier dit kunnen melden bij de ontvangende partij. Die laatste brengt vervolgens daartoe aangesteld personeel, bijvoorbeeld een systeembeheerder, op de hoogte van het probleem. De afdeling systeembeheer dient er zorg voor te dragen dat het probleem wordt opgelost. De ontvangende partij dient eveneens zelf regelmatig controle uit te oefenen op de betrouwbaarheid van de ftp-verbinding en actie te ondernemen wanneer de betrouwbaarheid te wensen overlaat. Tenslotte dient de ontvangende partij de leverancier te berichten wanneer genoemde computer voor langere tijd niet beschikbaar is (bijvoorbeeld ten gevolge van onderhoud) en zorg te dragen voor een computer waarnaar uitgeweken kan worden. Ook dient zij te controleren of de aanlevering regelmatig plaatsvindt, alsmede of zij de aangeleverde gegevens op correcte wijze ontvangt. De leverancier zorgt voor al dan niet geautomatiseerde procedures die de regelmatige aanlevering van data garanderen. Tevens dient hij voorzieningen te treffen dat de usernaam en het passwoord alleen ter beschikking worden gesteld aan personeel dat de ftp-verbinding tot stand mag brengen. De laatste bepalingen zijn niet van toepassing op de individuele onderzoekers die materiaal geven aan een non-profitorganisatie. Voor situatie (b) geldt hetgeen is beschreven voor (a). Hierbij is het veelal voldoende de rollen van leverancier en ontvangende partij te verwisselen. Op de punten beveiligingsmaatregelen en controle op aanlevering wijkt de procedure echter af. Ten aanzien van de beveiligingsmaatregelen zorgt de leverancier ervoor dat de ontvangende partij toegang heeft tot de directory waar de op te halen bestanden zich bevinden en de bestanden kan
37
ontsluiten. En wat de controle betreft, moet de ontvangende partij zelf controleren of bestanden regelmatig bij de leverancier worden opgehaald. 2.7.3
Aanlevering van verworven databases
Een database kan op dezelfde wijze worden aangeleverd als digitale teksten of opnamen, t.w. op magnetische en optische media of via Internet. Vrijwel dezelfde vereisten zijn van toepassing, zoals het kunnen verwerken van het formaat waarin de database wordt aangeleverd, zijn van toepassing. Allereerst moet de ontvangende partij nagaan met welk DBMS de database is gemaakt. Is dat bijvoorbeeld met Acces, Oracle, Informix of een andere? Vervolgens moet zij nagaan of zij beschikt over dat DBMS; daarbij moet ook het versienummer of release worden betrokken: een Oracle database gemaakt met Oracle DBMS 8.0 zal vermoedelijk niet verwerkt kunnen worden met Oracle DBMS 7.0. Wij wijzen er hier op dat binnen taal- en spraaktechnologie veelal gebruik gemaakt wordt van eigen ontwikkelde DBMS'en. Dat gebeurt onder meer als de commerciële producten niet kunnen voorzien in de functionaliteit die voor een bepaalde TST toepassing is vereist. Indien de ontvangende partij niet beschikt over het vereiste DBMS wordt zij voor de keuze gesteld om tot de aanschaf c.q. verkrijging van het DBMS over te gaan of om af te zien van verwerving van de database. De kosten voor een commerciële database kunnen hoog zijn en zijn onder meer afhankelijk van het platform, aantal gelijktijdige gebruikers (concurrent use) en gewenste vorm van ondersteuning. Voor educatieve instellingen gelden in het algemeen bepaalde kortingspercentages. Indien de kosten te hoog worden bevonden, kan, afhankelijk van het gebruik dat van de database wordt gemaakt, overwogen worden een zogenaamde run time-versie van het DBMS te kopen. De kosten zijn in dat geval lager omdat een dergelijke versie onder andere de functionaliteit mist waarmee wijzigingen in de structuur van de database kunnen worden aangebracht, zoals het toevoegen van extra informatiecategorieën. De data die zijn opgeslagen in de database kunnen echter wel worden gewijzigd en geraadpleegd. Indien de ontvangende partij wel beschikt over het DBMS moet zij nagaan of door de verwerving van de database het gelijktijdig gebruik van het DBMS toeneemt. In dat geval zal het aantal gebruikslicenties moeten worden uitgebreid. 2.7.4
Aanlevering van verworven software
Software kan op dezelfde wijze worden aangeleverd als digitale teksten of opnamen, t.w. op magnetische en optische media of via Internet. Vrijwel dezelfde vereisten zijn van toepassing, zoals het kunnen verwerken van het formaat waarin de software wordt aangeleverd, zijn van toepassing. Het verschil wordt gevormd door de twee vormen waarin software ter beschikking kan worden gesteld: als broncode (sources) of als zogenaamde binary. Beide vormen stellen verschillende eisen voor het tot daadwerkelijk gebruik van de software kan komen. 2.7.4.1 Aanlevering als binary Een binary (ook wel executable file (exe)) is een computerprogramma dat direct door de computer kan worden uitgevoerd, i.e. het bevat, in een voor de computer begrijpelijke taal alle instructies die ertoe leiden dat het programma een bepaald resultaat geeft. Binary's zijn altijd hardwareplatform afhankelijk: een binary voor het zogenaamde Intel-platform (vrijwel alle PC's) zal niet werken op bijvoorbeeld het Sun-platform. De ontvangende partij moet dus nagaan of een aan te leveren binary op een bij haar aanwezig platform kan werken.
38
De sinds enige jaren beschikbare JAVA-technologie maakt het mogelijk software te maken die in principe hardwareplatform onafhankelijk is ("write once, run everywhere"). 2.7.4.2 Aanlevering als broncode Broncode (ook wel source) is een computerprogramma dat in voor de informaticus begrijpelijke (programmeer)taal alle instructies bevat die het programma tot een bepaald resultaat brengt. Alvorens het bruikbaar is voor een computer moet het een bewerking ondergaan die bekend staat als compileren. Het daarvoor gebruikte programma is een compiler. Compilers zijn voor vrijwel elk hardwareplatform beschikbaar. Door de broncode op verschillende hardwareplatforms te compileren, kan een programma voor verschillende platforms beschikbaar komen. Elke programmeertaal vereist zijn eigen compiler: de taal C een C-compiler, de taal Pascal een Pascal-compiler etc. De ontvangende partij moet allereerst nagaan of zij beschikt over een compiler die de taal waarin de software zal worden aangeleverd kan compileren. Verder moet zij nagaan of in de aangeleverde software instructies zijn opgenomen die platformspecifiek zijn. Zo kunnen er bijvoorbeeld instructies zijn opgenomen die gebruikmaken van eigenschappen van het Intelplatform. Dergelijke instructies werken dan niet op bijvoorbeeld het Sun-platform. De broncode moet bij voorkeur dus platformonafhankelijk zijn. Als aan beide voorwaarden is voldaan (juiste compiler beschikbaar, software platformonafhankelijk) kan de ontvangende partij de software compileren. Als dit succesvol verloopt, is de software vervolgens gebruiksklaar. Als de software niet platformonafhankelijk is hangt het van de licentie af of de software veranderd mag worden. Als de software onder de GNU GPL licentie is verkregen zal dit in het algemeen geen probleem zijn. De ontvangende partij heeft zo de mogelijkheid de broncode wel platformonafhankeliik te maken. Er moet daarbij gewaakt worden voor het instandhouden van de oorspronkelijke functionaliteit van de software. 2.8
Productie en verwerving van digitale spraakopnamen
Als het ontwerp voor een spraakcorpus is vastgesteld en reeds bepaald is hoeveel uren spraak nodig zijn en de prompts (indien gebruikt) zijn ontworpen, moet, voordat de sprekerwerving van start gaat, een opnameplatform of opnameapparatuur worden ontwikkeld en getest. Wederom afhankelijk van het beoogde doel van een corpus kan verschillende opnameapparatuur gebruikt worden. Voor opnames van telefoondialogen is een opnameplatform gewenst dat automatisch de gesprekken, na goedvinden van de sprekers, opneemt. Voor opnames in een auto is een draagbare DAT-recorder, of een andere digitale recorder gewenst die kan worden aangesloten op de accu in de auto. Het is zeer belangrijk de gekozen apparatuur uitvoerig te testen alvorens over te gaan tot het maken van de opnames met de vaak moeilijk te vinden sprekers. Voor verschillende soorten spraakcorpora zijn er verschillende factoren die meespelen in het werven van sprekers, zie Sanders (2001): 1) opnameconditie (waar wordt de opname gemaakt); 2) speciale opdracht voor de spreker (meerdere keren bijvoorbeeld naar een systeem bellen dat de spraak opneemt); 3) land of cultuur waar de opname gemaakt wordt (bereidheid om mee te werken is niet overal even hoog); 4) aantal en spreiding van de sprekers; 5) moment van opname (tijdens vakanties).
39
Al deze factoren spelen mee in de wijze waarop sprekers kunnen worden geworven. De volgende strategieën zijn mogelijk met elk zijn voor- en nadelen: 1) 2) 3) 4) 5) 6) 7) 8)
via vrienden, familie, collega's of kennissen; advertenties; persberichten; via 'direct mail' of via de telefoon; e-maillijst; posters, folders, contact op straat; WWW; sneeuwbaleffect: sprekers werven sprekers.
Vaak wordt meer dan één strategie gevolgd. Als de juiste opnames zijn gemaakt, dient het ruwe spraakmateriaal vaak bewerkt te worden. Het stadium waarin men dan is aangekomen is punt 5 in onderstaande opsomming: 1) 2) 3) 4) 5)
corpusdesign; vaststellen prompts indien nodig; ontwikkelen en testen van opnameapparatuur of –platform; sprekerwerving; digitaliseren (indien analoge opnames zijn gemaakt A/D-conversie) ten behoeve van digitale opslag van de data; 6) transcriptieprotocol opstellen. Hierin wordt bijvoorbeeld gespecificeerd welkegeluiden getranscribeerd worden (achtergrondgeluiden, sprekergeluiden), maar ook hoe getranscribeerd wordt (orthografisch, fonetisch), met al dan niet coderingen, etc..; 7) selecteren van bruikbaar materiaal, op basis van inhoud van opname (sprekeranonimiteit waarborgen) en kwaliteit van opname (afhankelijk van het doel van de opnames); 8) transcriberen, orthografisch of fonetisch; 9) eventuele overige annotaties toevoegen, zoals part-of-speech tagging, syntactische annotaties, prosodische annotatie; 10) eventuele signaalbewerking door koppeling van bijvoorbeeld de orthografie aan het signaal op bijvoorbeeld woordniveau; 11) schrijven van documentatie; 12) controleren van bovenstaande bewerkingsslagen met behulp van vooraf gedefinieerde en onafhankelijke validatiecriteria. Dit wordt vaak vereist van corpora die worden opgenomen in een consortiumverband om uitwisselbaarheid van de data onder andere te kunnen waarborgen gegeven een bepaalde kwaliteit. Zie ook Heuvel (2000a). Als het ontwerp voor een corpus als het CGN is vastgesteld, als de sprekers zijn geselecteerd, als bepaald is hoeveel uren spraak men wil vastleggen om het corpus representatief te noemen, kan met de feitelijke productie van de digitale opnamen worden begonnen. Daarbij wordt gewerkt met verschillende samplingcriteria. De belangrijkste daarbij zijn: 1) Eenheid en omvang van het corpus. Voor het gehele corpus geldt als minimale eenheid een fragment samenhangende discourse. De omvang van de fragmenten kan uiteenlopen. Over het algemeen dient gepoogd te worden de fragmenten te laten samenvallen met hetgeen min of meer een natuurlijke eenheid vormt in een groter geheel. Daarbij kan
40
gebruik gemaakt worden van voorgegeven breekpunten zoals de sprekerswisseling in een dialoog, de wisseling van item in een nieuwsbericht, etc. 2) Het aantal sprekers per component is in principe variabel. Voor een viertal componenten, t.w. de conversaties, de interviews, de telefoondialogen en de voorgelezen tekst, dient het minimum aantal sprekers vooraf nader gespecificeerd. 3) Sprekerskenmerken. De sprekerskenmerken die in meer of mindere mate, afhankelijk van de component, een rol spelen in het bepalen van de steekproef zijn de volgende: geslacht, leeftijd, geografische regio, sociaal-economische klasse en opleidingsniveau. 4) Kwaliteit van opname. De kwaliteit van het signaal kan wisselend zijn. Uiteraard dient gepoogd te worden de kwaliteit in alle gevallen zo hoog mogelijk te laten zijn. Opnamecondities kunnen echter nogal sterk uiteenlopen, waardoor het niet altijd mogelijk is dezelfde goede kwaliteit te garanderen. Met name voor bepaalde spraaktechnologische toepassingen is een betrekkelijk goede kwaliteit essentieel. 2.8.1
Verwerving van reeds bestaande digitale opnamen
De technische aspecten van aanlevering van reeds bestaande digitale opnamen zijn vrijwel gelijk aan die zoals besproken in paragraaf 2.7.1. Alleen zijn voor digitale opnamen andere formaten van toepassing dan voor tekst, bijvoorbeeld audio cd- formaat, MP3 en WAVformaat, en is een enorme opslagcapaciteit vereist. Een ander verschil is dat de leverancier zelf voor de fysieke informatiedragers zorgt en een niet onderhandelbaar, zij het algemeen gangbaar, formaat voor de data hanteert. 2.9
Conclusies en aanbevelingen voor beleidsorganisaties
De centrale vraag van dit hoofdstuk luidde: "Hoe verwerf je digitale materialen voor taal- en spraaktechnologie (TST-materialen)?" De ervaring heeft geleerd dat veel TST-materialen zijn ontwikkeld met het oog op specifieke onderzoeksdoelstellingen. Daarbij bleken gekozen formaten en systemen niet altijd compatibel en/of platformonafhankelijk te zijn, waardoor de materialen voor hergebruik minder geschikt zijn. Tevens is gebleken dat deze TST-materialen inhoudelijk niet altijd voldoen aan de hoge kwaliteitseisen die hergebruik stelt. Toch is de verwerving van reeds bestaand TST-materiaal voor hergebruik van groot belang, al was het alleen al om kapitaalsvernietiging te voorkomen. Dit geldt te meer voor TST-materialen die met overheidsgelden zijn ontwikkeld. De vraag daarbij is wie die acquisitie voor zijn of haar rekening neemt, wie de daarbij behorende juridische en financiële aspecten behartigt, wie de TST-materialen toegankelijk maakt voor hergebruik en wie ze gaat onderhouden en beheren. Hoewel deze aspecten in sommige opzichten sterk gerelateerd zijn, is hier het accent op de verwerving en wat daarmee samenhangt. Zie voor het overige de hoofdstukken 5, 6 en 7. In paragraaf 2.2. beschreven wij drie scenario's die tot verwerving van genoemde materialen kunnen leiden. Daarbij wordt door ons de instelling van een rechtspersoon aanbevolen die zich verantwoordelijk stelt voor de verwerving en aanmaak van TST-materialen: de "TSTcentrale". Deze heeft de vorm van een consortium van ter zake kundige instellingen en een coördinerende instantie (zie verder 2.2.3.). Immers, het inventariseren, op waarde taxeren en verwerven van wat in het veld beschikbaar is, met alle daarbij komende aspecten (juridische, financieel, technisch, organisatorisch) gaat de expertise en werkkracht van de individuele onderzoeker te boven en vraagt een geïnstitutionaliseerde inspanning. Voor het CGN wordt een soortgelijk consortium met Vlaamse en Nederlandse partners beoogd, dat gezamenlijk verantwoordelijk is voor niet alleen de verdere ontwikkeling, maar ook het onderhoud en beheer, het beter toegankelijk maken en de distributie van het corpus. Het verwerven, creëren
41
en beheren van digitale verzamelingen liggen immers in elkaars verlengde (Viskil 1999: 100). Ook Daelemans en Strik (2002: 17) suggereren een gedistribueerde organisatievorm. Bij het verwerven of accepteren van TST-materialen moet de TST-centrale beoordelen in welke mate de TST-materialen voldoen aan de eisen van herbruikbaarheid. Een criterium voor de mate van herbruikbaarheid is dat de eventuele kosten voor aanpassing van het materiaal ten behoeve van hergebruik significant lager zijn dan de kosten voor geheel nieuwe ontwikkeling. Vanuit het perspectief van herbruikbaarheid voert de TST-centrale tevens een actief beleid om data volgens vigerende standaarden (vgl. hoofdstuk 4 en 6) toegankelijk te maken en verzorgt zonodig in dat kader de conversie van aangeleverde bestanden (zie hoofdstuk 3). Bij nieuwe projectaanvragen kan een onderzoeker die een bepaald soort onderzoek wil doen TST-materiaal gebruiken van de TST-centrale of TST-materiaal aanleggen in overleg met genoemde organisatie, die adviseert over de daarbij te volgen methode, techniek en standaard. Beleidsorganisaties dienen de TST-centrale de subsidievoorwaarde te stellen die TSTmaterialen te verwerven waaraan een brede behoefte is binnen het TST-veld. De materialen die met overheidsgelden buiten een permanente infrastructuur zijn ontwikkeld komen 'per definitie' naar de TST-centrale, die daarvoor immers is ingesteld. Ook TST-materialen ontwikkeld door wetenschappelijke instellingen, TST-bedrijven of uitgevers zouden in aanmerking kunnen komen voor verwerving. Al die materialen moeten optimaal toegankelijk worden gemaakt voor hergebruik. Onder dat optimaal toegankelijk maken, is inbegrepen dat algemeen aanvaarde standaarden bij met name opslag en representatie van TST-materialen worden toegepast, omdat die standaarden de mogelijkheden van hergebruik vergroten (vgl. hoofdstuk 4). Ook wordt daardoor de integratie van gegevens die op verschillende manieren worden gerepresenteerd vergemakkelijkt en kunnen data zonder verlies van informatie worden uitgewisseld. Het stellen van subsidievoorwaarden impliceert dat de beleidsorganisaties de financiële ruimte moeten scheppen voor de verwerving van digitaal materiaal, voor de aanschaf van apparatuur en programmatuur alsook voor de kosten die gepaard gaan met de inzet van personeel, juridisch advies e.d.: "Om digitale collecties te kunnen opbouwen die bruikbaar zijn in onderzoek, zal het geregeld nodig zijn om specialistische software te (laten) ontwikkelen waarmee deze collecties bevraagd kunnen worden. Bovendien zal een deel van de invoer en het verrijken van het materiaal door geschoold personeel moeten worden verricht" (Viskil 1999: 112). Vergelijk ook hoofdstuk 4. Bij het creëren van TST-materialen zijn vaak vele 'makers' betrokken. Hierdoor dient rekening gehouden te worden met een groot aantal potentiële rechthebbenden (vgl. 2.3.1.). In een aantal gevallen zal gezien de werkrelaties bovendien onduidelijk zijn aan wie de auteursrechten toekomen. Het grote aantal potentiële auteursrechthebbenden kan de verdere exploitatie bemoeilijken. Om de logistieke problemen die gemoeid zijn met het voeren van onderhandelingen en contracteren met vele rechthebbenden te vergemakkelijken, is het raadzaam de auteursrechten zoveel mogelijk in één rechtspersoon te concentreren. Deze rechtspersoon, in onze ogen de TST-centrale, moet beschikken over de volledige auteursrechten op alle mogelijke exploitaties van het materiaal. Vereist is daarom dat alle betrokkenen hun auteursrechten (volledig) en persoonlijkheidsrechten (zoveel mogelijk) overdragen aan deze rechtspersoon. Deze overdracht dient te geschieden in de vorm van een schriftelijke akte. Wetenschappelijke instellingen behouden de vrijheid hun bijdragen voor wetenschappelijke doeleinden te gebruiken en te reproduceren. De rechtspersoon moet de rechten niet enkel beheren, maar er ook op toezien dat de rechten niet worden geschonden.
42
Niet alleen de bouwers van het materiaal kunnen als 'makers' worden aangemerkt, ook andere rechthebbenden (zoals auteurs of uitgevers van teksten) kunnen hun rechten laten gelden. Met de betrokkenen moeten schriftelijke afspraken worden gemaakt over het gebruik van hun materiaal in de vorm van een licentie (zie voor voorbeelden van contracten de paragrafen 2.10.1. - 2.10.3. Voorts kan auteursrecht op de gebruikte software exploitatie bemoeilijken. Een adequate licentie voor de gebruikte programmatuur en gebruikersinterfaces moet verzekerd zijn (Bouma en Schuurman 1998: 16-19; Taalunie 1999). Gegeven de veelheid aan complexe juridische relaties (zie 2.3.1.) bepleiten we hier dat de Nederlandse Taalunie als intergouvernementele verdragsorganisatie in Nederland en Vlaanderen zorgt voor sluitende juridische voorzieningen.
43
2.10 Bijlagen bij hoofdstuk 2 2.10.1 Overeenkomst tussen rechthebbende en TST-centrale Bij een TST-centrale zullen de volgende voorwaarden worden gehanteerd bij het ter beschikking stellen van digitale bestanden van rechthebbende(n) aan derden: 1) Zonder nadere toestemming van de rechthebbende en eventueel zonder betaling van een vergoeding zullen digitale bestanden on-line niet raadpleegbaar zijn voor onderzoekers, studenten en andere geïnteresseerden die via het Internet gebruik maken van de diensten van de TST-centrale. 2) Het is de TST-centrale niet toegestaan de digitale bestanden op papier of in digitale vorm te vermenigvuldigen, te verspreiden en/of openbaar maken op een andere wijze dan in een overeenkomst met rechthebbenden is aangegeven. 3) Tenzij daartoe een expliciete overeenkomst met de rechthebbende(n) is afgesloten, is het de TST-centrale niet toegestaan met derden overeen te komen dat zij de bestanden mogen vermenigvuldigen, verspreiden en/of openbaar te maken. 4) Aan onderzoekers, studenten en andere geïnteresseerden wordt de mogelijkheid geboden de bestanden on-line op te vragen en op alle mogelijke aspecten te doorzoeken en te inventariseren ten behoeve van niet-commercieel wetenschappelijk onderzoek. 5) Onderzoekers, studenten en andere geïnteresseerden mogen een digitale kopie van (delen van) het bestand voor eigen onderzoek of studie opslaan op een digitale informatiedrager. 6) Onderzoekers, studenten en andere geïnteresseerden mogen een papieren afdruk maken van het bestand voor eigen onderzoek of studie. 7) Het is slechts toegestaan de digitale bestanden te hergebruiken (bijvoorbeeld het opnemen in onderzoeksresultaten die openbaar worden gemaakt), voorzover (a) het gaat om nietsubstantiële gedeelten, (b) dit noodzakelijk is voor het behoorlijk weergeven van het onderzoek (c) dit niet plaatsvindt in het kader van een commerciële publicatie en (d) dit de gerechtvaardigde commerciële belangen van de rechthebbenden niet schaadt. 8) De TST-centrale zal aan ieder digitaal bestand een identificatiedocument verbinden waarin de rechten op het bestand alsmede de naam en het adres en het e-mailadres van de rechthebbende(n), een eventuele andere door de rechthebbende(n) gewenste informatie zal zijn opgenomen. Deze informatie kan op verzoek beschikbaar worden gesteld aan derden. 9) Wanneer een rechthebbende op enig moment van het aangaan van een overeenkomst schriftelijk verzoekt om een door hem beschikbaar gesteld digitaal bestand niet langer voor algemene raadpleging beschikbaar te stellen, zal de TST-centrale daar gehoor aan geven, en wel zo snel als technisch en praktisch uitvoerbaar is. 2.10.2 Overdrachtsovereenkomsten bij de opbouw van een spraakcorpus De Nederlandse Taalunie hanteert in dat verband bijvoorbeeld de volgende overdrachtsovereenkomsten voor het CGN. Model 1 Ondergetekende
verklaart een gesproken bijdrage te hebben geleverd aan de totstandkoming van het Corpus Gesproken Nederlands, en draagt hierbij over aan de Nederlandse Taalunie zijn eventuele auteurs- en naburige rechten met betrekking tot zijn/haar bijdrage Deze overdracht is bedoeld in de meest ruime zin; zij omvat in elk geval, doch niet uitsluitend, het recht zijn/haar bijdrage in een geluids- of informatiedrager vast te leggen,
44
digitaal of anderszins te bewerken, te coderen, te annoteren, uit te schrijven, in een databank op te slaan, alsmede door middel van een databank of anderszins ter beschikking te stellen van het publiek. Ondergetekende doet voorts, voor zover mogelijk, jegens de Taalunie afstand van zijn persoonlijkheidsrechten met betrekking tot zijn/haar bijdrage. Tevens verklaart ondergetekende ermee bekend te zijn dat zijn persoonsgegevens voor wetenschappelijke doeleinden zullen worden geregistreerd en opgenomen in een databank; ondergetekende verleent hiertoe toestemming. Tenslotte verklaart ondergetekende ermee in te stemmen dat de inhoud van zijn/haar bijdrage in geanonimiseerde vorm zal worden vastgelegd, uitgeschreven en door middel van een databank openbaar worden gemaakt. Model 2 Ondergetekende verklaart geluidsopnamen te zullen maken c.q. te hebben gemaakt ten behoeve van de totstandkoming van het Corpus Gesproken Nederlands, en draagt hierbij over aan de Nederlandse Taalunie zijn eventuele auteurs- en naburige rechten met betrekking tot deze opnamen. Deze overdracht is bedoeld in de meest ruime zin; zij omvat in elk geval, doch niet uitsluitend, het recht de opnamen in digitale vorm of anderszins te reproduceren en te bewerken, te coderen, te annoteren, uit te schrijven, in een databank op te slaan, alsmede door middel van een databank of anderszins ter beschikking te stellen van het publiek. Ondergetekende doet voorts, voor zover mogelijk, jegens de Taalunie afstand van zijn persoonlijkheidsrechten met betrekking tot de opnamen. Model 3 Ondergetekende verklaart een bijdrage te zullen leveren c.q. te hebben geleverd aan de totstandkoming van de databank Corpus Gesproken Nederlands, en draagt hierbij over aan de Nederlandse Taalunie zijn eventuele auteursrechten, naburige rechten en/of andere rechten van intellectuele eigendom met betrekking tot deze bijdrage. Deze overdracht is bedoeld in de meest ruime zin; zij omvat in elk geval, doch niet uitsluitend, het recht de bijdrage in digitale vorm of anderszins te gebruiken, te reproduceren en te bewerken, in een databank op te slaan en ter beschikking te stellen van het puibliek, alsmede de rechten op de databank geheel of gedeeltelijk, al dan niet voor commerciële doeleinden, in (sub)licentie te geven of over te dragen Ondergetekende doet voorts, voor zover mogelijk, jegens de Taalunie afstand van zijn persoonlijkheidsrechten met betrekking tot zijn/haar bijdrage. Ondergetekende blijft bevoegd zijn eigen bijdragen aan het Corpus gesproken Nederlands voor eigen wetenschappelijke onderzoeksdoeleinden te reproduceren en te gebruiken. 2.10.3 Licentieovereenkomst computerprogrammatuur Ondergetekenden: 1. xxx, woonachtig te xxx, hierna te noemen: 'Softwareproducent'; en 2. De Nederlandse Taalunie, gevestigd te Den Haag, Postbus 10595, 2501 HN 'sGravenhage, vertegenwoordigd door de heer K. Jaspaert, hierna te noemen: 'Taalunie';
45
Overwegende: dat de Taalunie een databank heeft geproduceerd waarin in gedigitaliseerde vorm korte geluidsfragmenten van gesproken Nederlands en daaraan gerelateerde gegevens worden vastgelegd en ontsloten, hierna te noemen 'Corpus Gesproken Nederlands'; dat het Corpus Gesproken Nederlands in cd-rom formaat zal worden gereproduceerd en gedistribueerd; dat Softwareproducent het programma xxx, hierna te noemen 'het Programma', heeft ontwikkeld; dat de Taalunie van Softwareproducent het recht wenst te verwerven dit programma voor gebruik in combinatie met het Corpus Gesproken Nederlands te reproduceren en te distribueren of daartoe toestemming te verlenen; Komen overeen als volgt: 1. Softwareproducent verleent aan de Taalunie het niet-exclusieve recht het Programma, als omschreven in Bijlage 1, voor gebruik in combinatie met het Corpus Gesproken Nederlands op cd-rom of vergelijkbare drager te reproduceren, te distribueren, te verkopen of voor gebruik te licentiëren, dan wel daartoe aan derden toestemming te verlenen. 2. De Taalunie verplicht zich op alle door haar of met haar toestemming te reproduceren exemplaren van het Corpus Gesproken Nederlands waarop het Programma is gereproduceerd, de volgende aanduiding of mededeling(en) op te (doen) nemen: "Nieuwere versies zijn te verkrijgen via www.xxx.com". 3. De Taalunie verplicht zich op alle door haar of met haar toestemming te reproduceren exemplaren van het Corpus Gesproken Nederlands waarop het Programma wordt gereproduceerd, van het Programma de meest recente versies op te nemen voor alle beschikbare systemen (op dit moment Macintosh, Windows, Linux, SGI, Solaris en HPUX). 4. Softwareproducent verklaart het volledige auteursrecht op het Programma in al zijn onderdelen te bezitten, en vrijwaart de Taalunie voor alle aanspraken van derden terzake van inbreuk op rechten van intellectuele en industriële eigendom, vergelijkbare aanspraken met betrekking tot knowhow, ongeoorloofde mededinging e.d. daaronder begrepen. 5. De Taalunie verplicht zich ervoor zorg te dragen dat het gebruikers van exemplaren van het Corpus Gesproken Nederlands waarop het Programma is gereproduceerd niet wordt toegestaan het Programma anders dan voor gebruik in combinatie met het Corpus Gesproken Nederlands te gebruiken of toe te passen. 6. Deze overeenkomst wordt aangegaan voor onbepaalde tijd. 7. Op deze overeenkomst is Nederlands recht van toepassing. Eventuele geschillen in verband met deze overeenkomst zullen uitsluitend aan de bevoegde rechter in het arrondissement 's-Gravenhage worden voorgelegd. Aldus overeengekomen en in tweevoud getekend op ……….
46
………………
……………..
[Softwareproducent]
Nederlandse Taalunie
[….]
[…..]
2.10.4 Gekozen teksten en corpus Er bestaan twee fundamentele uitgangspunten bij de keuze van teksten voor een corpus. Het corpus bevat een verzameling van teksten die samengebracht zijn overeenkomstig een van te voren beredeneerde set van selectiecriteria, of het is een willekeurige verzameling teksten die beschikbaar is in machineleesbare vorm. In dit laatste geval wordt de term corpus bij voorkeur niet gebruikt (vgl. Summers 1991; Atkins e.a. 1991; Zampolli 1995). Een corpus moet representatief zijn. Representativiteit duidt op de mate waarin een deel van het materiaal het gehele spectrum aan variatie van een populatie impliceert (vgl. Biber 1998). In de opbouw van een corpus is statistische representativiteit nauwelijks haalbaar (Martin 1986; Atkins e.a. 1991). Daarom opteert men tegenwoordig vooral voor gebalanceerdheid. Een gebalanceerd corpus is zo fijn afgesteld dat dit het beoogde beheersbare kleinschalige model van linguïstisch materiaal binnen handbereik brengt (Atkins e.a. 1991). Voor de bestudering van taal moeten teksten gekozen en geclassificeerd worden op basis van criteria die afgeleid worden van socioculturele categorieën en parameters. Deze worden externe criteria genoemd om hen te onderscheiden van classificaties die afgeleid worden van kenmerken van de taal van de documenten zelf (interne criteria). Ieder document heeft een maatschappelijke rol en dito plaats, en een corpus wordt gedefinieerd door de opeenstapeling van deze kenmerken, die van buiten de tekst zelf komen (Sinclair 2001). Topic of onderwerp waarover een tekst gaat (toerisme, economie, sport) is een voorbeeld van een extern criterium, maar ook genre en register. Een gebalanceerd corpus is gebaseerd op zowel externe situationele als interne linguïstische parameters. Het opbouwen van een corpus kan daarom het best voorgesteld worden als een cyclisch verfijningsproces, waarin interne en externe criteria nauw aan elkaar gerelateerd zijn (vgl. Biber 1998; Sinclair 2001). Hierbij moet worden aangetekend dat een dergelijke werkwijze nog nauwelijks wordt toegepast, omdat nog niet voldoende duidelijk is welke linguïstische kenmerken als intern criterium moeten fungeren. Aangezien er zeer grote tekstcorpora bestaan, is er een tendens om tot opname van teksten te besluiten meer op grond van beschikbaarheid, dan op basis van gebalanceerdheid (Summers 1991). Zeer grote tekstenverzamelingen worden aangelegd. In het project Bank of English "data collection is now regarded as an ongoing activity with no particular target size. Corpus selection criteria are becoming less significant at the data acquisition stage because varying amounts and types of data can be made available according to the needs of a particular project or user" (Krishnamurty 1992: 4). De omvang van corpora loopt van ongeveer een half miljoen woordvormen tot meer dan 200 miljoen (Bank of English, ACL Data Collection Initiative). Voor verschillende Europese talen zijn er corpora beschikbaar van tientallen tot honderdtallen miljoen woordvormen. Ook van het Nederlands. Momenteel is er een tendens om steeds grotere corpora te bouwen. Dat komt niet primair door de toename van de beschikbaarheid van machineleesbaar materiaal en de verbeterde hardware- en softwarefaciliteiten om grote hoeveelheden data te manipuleren. Een belangrijke reden is dat men denkt dat grote corpora een breder onderzoek en ruimere toepassingen bevorderen. Zo zijn grootschalige corpora als
47
representanten van "echt" taalgebruik, van groot belang voor de ontwikkeling en evaluatie van producten waarin natuurlijke (menselijke) taal door computers verwerkt wordt (bijvoorbeeld intelligente spelling- en grammaticacheckers). Reden waarom de Europese Commissie een groot aantal corpusontwikkelingsprojecten, zoals NERC, Parole, Multext en Telri geïnitieerd en gesubsidieerd heeft. Deze corpora moeten "generisch", d.w.z. multifunctioneel zijn en daarom de "algemene" taal vertegenwoordigen (zie Zampolli 1995, 2000). Als men een corpus wil opbouwen kan men uit diverse mogelijkheden kiezen: een corpus van samples, een corpus van volledige teksten en een monitor corpus. Een corpus van samples bevat slechts fragmenten van geselecteerde documenten. Een corpus van volledige teksten omvat integrale documenten. Een monitorcorpus is een groot en dynamisch corpus van volledige teksten: het tekstmateriaal wordt geanalyseerd door filters voor specifieke taalof tekstverschijnselen en vervolgens ter zijde gelegd en vervangen door nieuw materiaal (Sinclair 1991). Het streven naar gebalanceerde corpora heeft de bouw van samplecorpora bevorderd omdat zij op korte termijn en met povere hard- en softwarevoorzieningen betere resultaten bieden. Voorbeelden van samplecorpora zijn het Brown Corpus, het LOB (Lancaster-OsloBergen Corpus) en het Longman Lancaster Corpus. Argumenten voor corpora van volledige teksten zijn dat zij een breder onderzoek mogelijk maken en dat men zich geen zorgen hoeft te maken over de gemarkeerde verschillen tussen de verschillende delen van een tekst en ook niet over de waarde van sampletechnieken. Bovendien kan een samplecorpus altijd afgeleid worden van een groot fulltextcorpus, maar het omgekeerde niet. Het is een bekend feit dat in de vroege fases van het verzamelen de dekking van een fulltextcorpus niet zo goed is als die van een verzameling kleine samples (Sinclair 1991), maar op termijn neemt men aan dat de voordelen groter zijn. Dit geldt vooral voor zeer omvangrijke corpora. Fulltextcorpora zijn momenteel veruit in de meerderheid. Als de opbouwcriteria bepaald zijn, blijft de vraag hoe wij een kleinschalig model kunnen maken van het taalmateriaal dat bestudeerd moet worden. Nog concreter, welke principes sturen het onderscheid in teksttypes en hun onderlinge relatie? EAGLES, een standaardiseringsproject vanuit taaltechnologisch perspectief, biedt een corpus- en teksttypologie, die overigens alleen in elektronische vorm beschikbaar is (http://www.ilc.pi.cnr.it/). In de corpuspraktijk zijn de leidende principes voor corpusbouw echter zeer verschillend, als zij al expliciet vermeld worden. Het is noodzakelijk dat vooraf besloten wordt welke types tekst in een corpus opgenomen worden en welke niet, hoe zij hiërarchisch gestructureerd zijn en wat hun relatieve proporties zijn. Aan deze beslissingen dient evenwel een andere vooraf te gaan: wij moeten eerst definiëren wat een teksttype is. Teksttypes kunnen worden gedefinieerd op basis van interne of externe parameters. Interne parameters zijn taalkundige kenmerken (lexicon, syntaxis enz.). Externe parameters, wij zagen het hierboven reeds, zijn niet-taalkundige kenmerken, zoals herkomst (wie is de auteur, tekstbezorger, uitgever, rechthebbende, vertaler, bewerker?), status van de tekst (geschreven of gesproken), beoogd doel (is de tekst bestemd voor een klein of groot publiek, algemeen publiek, voor leken, specialisten, studenten?), topic, genre, stijl enz. (Atkins e.a. 1991; Sinclair 2001). Externe parameters kunnen meestal gedetermineerd worden zonder de tekst in kwestie te lezen. In de hedendaagse praktijk worden teksttypes die in corpora onderscheiden worden dikwijls niet gedefinieerd, maar alleen maar geïdentificeerd door hen te noemen. Zij kunnen van zeer verschillende aard zijn (afhankelijk van o.a. het selectieprincipe) en van verschillende abstractieniveaus, variërend van zeer algemeen (bijvoorbeeld tekstboeken) tot zeer specifiek (bijvoorbeeld romantische fictie). De meeste ervan zijn impliciet gebaseerd op externe criteria. De analyse van gemeenschappelijke kenmerken in de verschillende
48
corpuscomposities resulteert in een lijst teksttypes die vaak onderscheiden worden in corpora (Kruyt & Putter 1992, Kruyt &Van Sterkenburg 1995). Net als de teksttypes zelf wordt hun hiërarchische structuur meestal beschreven, maar niet verantwoord. Corpora laten zeer verschillende structuren zien, variërend van een platte indeling die uit slechts enkele teksttypes bestaat, tot hoog gestructureerde hiërarchieën van vele types tekst. Soortgelijke teksttypes kunnen vertegenwoordigd zijn op verschillende niveaus in de verschillende corpora (Kruyt & Putter 1992). Indien de teksttypes en de subteksttypes vastgesteld zijn, rijst de vraag in welke kwantitatieve proporties zij vertegenwoordigd zullen zijn in het corpus. Er zijn verschillende strategieën voor een goed onderbouwde beslissing. Een analyse van de beoogde populatie resulteert in beginsel mogelijk in statistisch zuivere proporties. Statistische methodes zijn hoe dan ook met weinig succes toegepast bij de opbouw van corpora (Atkins e.a. 1991). Niettegenstaande dat kan de statistiek helpen de samenstelling van het corpus te verbeteren (Biber 1998). Ook verkoopcijfers kunnen gebruikt worden of het aantal gepubliceerde titels per teksttype. Een praktisch probleem hierbij is dat dit soort gegevens, als zij al beschikbaar zijn, vaak niet openbaar is. Men kan ook een groep deskundigen laten beslissen over de verschillende proporties. In de praktijk blijkt dat meestal in het geheel geen criteria gegeven worden. De proporties worden beschreven, maar niet verantwoord. Reden daarvoor kan zijn dat "The specification of a corpus – the types and proportions of material in it – is hardly a job for linguists, but more appropriate to the sociology of culture … until we know a lot more about the effects of our design strategies, we must rely on publishing a list of exactly what is in a corpus" (Sinclair 1991: 13). Als wij weten welke teksttypes in het corpus moeten worden ondergebracht, moeten wij de vraag beantwoorden op basis van welke criteria individuele teksten worden geselecteerd. In wezen zijn er twee benaderingen: of wel baseert men het leidende selectieprincipe op tekstproductie of wel op tekstreceptie. Zo kan men kiezen voor een willekeurige selectie uit een bibliografische bron (leidend beginsel: productie). Deze methode is toegepast voor het Brown Corpus en de microkosmische sectie van het Longman Lancaster English Language Corpus (Summers 1991). Een ander criterium is een groot lezerspubliek (leidend beginsel: receptie). Populaire en op grote schaal gelezen teksten kan men ontlenen aan de lijsten van bestsellers, leeslijsten van scholen en universiteiten, uitgeverscatalogi, nominaties voor een boekenprijs enz. Vertegenwoordigers van deze methode zijn bijvoorbeeld het Cobuild-corpus en Spaanse corpora (Ife 1992). Een derde selectiecriterium kan zijn de invloed die een bepaalde tekst heeft (sturend beginsel: receptie). Teksten worden aanbevolen door docenten en deskundigen op een bepaald terrein of geselecteerd op grond van boekbesprekingen. Dit criterium is o.a. gebruikt door Longman Lancaster Corpus (Summers 1991).
49
3 3.1
Verwerking en bewerking van verworven data Inleiding
In dit hoofdstuk staan verwerking, bewerking en administratie van TST-data centraal, in het bijzonder die van verzamelingen teksten en spraak. In paragraaf 3.2. beschrijven wij procedures voor de wijze waarop data voor een elektronische tekstenverzameling verwerkt, bewerkt en geadministreerd worden. Paragraaf 3.3. besteedt aandacht aan de verwerking en bewerking van data in een elektronische verzameling spraak. Zoals zal blijken, spelen conversie- en adaptatieprocedures in dit hoofdstuk een belangrijke rol (3.2.1. en 3.3.1.). Waarom het opzetten van een goed gestructureerde directory van vitaal belang is bij de opslag van verworven data wordt beschreven in 3.4. Ten slotte worden de voordelen van een inzichtelijke en functionele administratie in 3.5. besproken (voor de administratie inz. TSTsoftware zie 4.4.4. en 5.6.2.). In paragraaf 3.6. worden conclusies getrokken en aanbevelingen voor beleidsorganisaties gedaan. 3.2
Verwerking en bewerking van data voor een elektronische tekstenverzameling
De TST-centrale (2.2.3.), die zich statutair bekommert om hergebruik van dataverzamelingen, ontvangt data van verschillende zijden. Die data worden aangeleverd op diverse soorten informatiedragers: floppy disk, cd-rom en Internetfaciliteiten als e-mail en ftp. Ook zijn bestanden op die informatiedragers opgebouwd volgens allerlei formaten, zoals Wordperfect, Word, MacWord, MacWrite, PDF, zetmachines enz. Al deze aangeboden data dienen te worden geconverteerd naar een algemeen en omgevingonafhankelijk formaat waarin onder meer de coderingen voor de tekstkenmerken van de diverse tekstverwerkers zijn omgezet naar een leesbaar en herkenbaar formaat. Dat laatste dient niet alleen geschikt te zijn voor de technische omgeving waarin de TST-centrale werkt, maar ook voor elektronisch hergebruik in het algemeen. Bij de keuze voor een bepaald formaat dienen platform- en softwareonafhankelijkheid de te hanteren criteria te zijn. Omdat het converteren naar een algemeen formaat dezelfde problemen en stappen inhoudt voor individuele onderzoekers, gespecialiseerde gebruikers zoals taal- en spraaktechnologen en een TST-centrale, hebben wij in de opbouw van dit hoofdstuk geen afzonderlijke paragrafen ingeruimd voor die drie geledingen. We gebruiken een 'ontvangende partij' als model om te laten zien welke stappen er bij verwerking en bewerking van elektronische data gezet dienen te worden. Onder converteren verstaan wij niet alleen het in het goede formaat brengen van de beschikbaar gestelde dataverzamelingen, maar ook het verwijderen van overbodige codes als zetinstructies, technische informatie e.d. Overigens mag dit verwijderen niet ten koste gaan van de integriteit van het bestand. Zo mogen er niet zo maar witregels weggehaald worden of aanduidingen van het type 'hier begint kopje'. De integriteit van het bestand dient met andere woorden op alle niveaus zo veel mogelijk behouden te blijven. Voorbeelden van die verschillende niveaus waarop geconverteerd moet worden zijn: metatekst (auteur, titel, omvang, domein, type, onderwerp enz.), intertekstueel (hoofdstukken, artikelen), intratekstuele structuur (inhoudsopgave, headers, paginanummers, voetnoten, titels, paragrafen, citaten, tabellen, figuren, referenties en kruisverbanden enz.), intratekstuele layout (cursief, vet, opsommingen enz.), spelling (diakritische tekens, afkortingen, symbolen enz.).
50
3.2.1 Procedures Converteren is een absolute noodzaak om de gewenste uniformering en flexibiliteit te bereiken. Aangezien het echter ondoenbaar is om een overkoepelende standaardprocedure voor de conversie van aangeleverde teksten te geven, willen we aan de hand van enkele voorbeeldprocedures een indruk geven van de belangrijkste activiteiten bij een conversie. Hierbij wordt onderscheid gemaakt tussen materiaal dat in het formaat van tekstverwerkingssoftware is aangeleverd (bijv. WordPerfect, Word etc.), materiaal afkomstig uit zetbestanden van drukkers, materiaal dat als ASCII is aangeleverd en materiaal met SGML-, XML- en HTML-coderingen. Verder is het een evidente zaak dat de ontvangende partij over de nodige software beschikt om deze formaten te verwerken. Conversie in het kader van digitale duurzaamheid zal worden besproken in 5.4.3. Alvorens de verschillende procedures te beschrijven, worden eerst drie punten van algemene aard besproken, t.w. samenvoeging van tekstmateriaal, de verwerking van tekstexterne informatie en het coderen van diakritische tekens. 1) Samenvoeging. Onafhankelijk van het formaat kan het nodig zijn teksten samen te voegen tot één geheel. Deze situatie doet zich bijv. voor als de hoofdstukken van een boek, de artikelen van een tijdschrift als afzonderlijke bestanden zijn aangeleverd. Men dient er op bedacht te zijn dat informatie waaruit de volgorde van de hoofdstukken of artikelen is af te leiden niet altijd aanwezig is, zodat naast de elektronische informatiedrager een gedrukte versie van de tekst, het artikel enz. moet helpen om deze informatie te reconstrueren of alsnog te verkrijgen. 2) Tekstexterne informatie. Aangeleverde bestanden kunnen informatie bevatten over de tekst, zoals bijv. onderwerp of rubriek, die van belang kan zijn bij onder meer tekstretrievalactiviteiten. Deze informatie kan bijv. onderdeel zijn van de bestandsnaam of kan in het bestand aanwezig zijn als een code. Deze informatie moet bij de conversie in de een of andere vorm behouden blijven, bij voorkeur als (SGML-)header in het bestand, voorafgaand aan de eigenlijke tekst. Bijv. Eigenlijke tekst 1) Diakritische tekens. Veel computersystemen ondersteunen de zgn. ISO Latin-1 karakterset. Dat betekent dat bijv. een 'é' gemaakt in softwareomgeving en platform X ook een 'é' is op softwareomgeving en platform Y. Indien de tekstleverancier een andere karakterset gebruikt dan de ontvangende partij, dan kan de oorspronkelijke 'é' gewijzigd zijn in bijv. 'ö'. Indien zich dat voordoet, dan is het manuele dan wel automatische herstel van de oorspronkelijke diakritische tekens natuurlijk onderdeel van de procedure. Hierbij moet er rekening mee worden gehouden dat ook bij de ontvangende partij wisseling van computersysteem kan optreden: een tekst die eerst bewerkt wordt met bijv. Word op een PC (het bronplatform) zou uiteindelijk kunnen eindigen op bijv. een Unix-computer (het doelplatform). Sinds enige jaren wordt er gewerkt aan standaardisering van de manier waarop computers met karaktersets kunnen omgaan. Een algemeen aanvaarde standaard is Unicode (http://www.unicode.org/). Unicode probeert, ongeacht het platform, programma of taal de
51
nummers, die representaties van karakters zijn, te standaardiseren. Inmiddels wordt Unicode door bekende ICT-bedrijven als IBM, Sun, Microsoft ondersteund. Ook de huidige Internetbrowsers kunnen er bevredigend mee overweg. Voorzover in een aangeleverde tekst geen gebruik is gemaakt van Unicode, verdient het aanbeveling daar bij de conversie van die tekst wel gebruik van te maken. 3.2.1.1 Procedure voor bestanden uit tekstverwerkers De procedure is de volgende: 1) Maak, indien nodig, van afzonderlijke bestanden één geheel en bewaar dit bestand onder een nieuwe naam. Hierbij moet per originele, afzonderlijke aangeleverde tekstcomponent de tekstexterne informatie behouden blijven. 2) Doe een visuele inspectie op de tekst om na te gaan welke opmaak (vet, cursief, lettersoort etc.) in de tekst is toegepast en of er diakritische tekens en symbolen in de tekst voorkomen. 3) Schrijf een zgn. macro (stukje software waarmee handmatige handelingen kunnen worden geautomatiseerd) die zoekt naar de code voor een bepaalde opmaak en die deze code vervangt door een voor de mens leesbare codering. Zo kan 'vet woord' vervangen worden door bijv. de SGML-codering vet woord waarbij (van bold) het begin van de vet afgedrukte passage aanduidt en het einde. Hoewel het in dit stadium niet strikt noodzakelijk is aan te sluiten bij internationale standaards wordt dat wel aangeraden. Het verdient aanbeveling voor elke code een aparte macro te maken hetgeen later de controleerbaarheid van het conversieproces optimaliseert. Wij merken hier op dat voor bepaalde tekstverwerkers ook zogenaamde 'developer toolkits' verkrijgbaar zijn waarin het precieze formaat van de door die tekstverwerker gemaakte keuzen in coderingen voor bestanden, tekstonderdelen en karakters beschreven staat alsmede andere informatie die van belang is als men met gestandaardiseerde of zelfontwikkelde software de bestanden wil bewerken. Een programmeur kan met behulp van deze informatie het bestand als het ware ontleden en met behulp van eigen software een conversie bewerkstelligen. De keuze om met een macro te werken of met een eigen programma wordt onder meer bepaald door de omvang van het bestand, het gewenste resultaat en de aard van de conversie. 4) Schrijf, indien nodig een macro die de oorspronkelijke diakritische tekens herstelt. Controleer bijvoorbeeld de aanwezigheid van bepaalde diakritische tekens (accenten) aan de hand van een goed functionerende spellingchecker. 5) Nadat zekerheid is verkregen over de correcte werking van de afzonderlijke codespecifieke macro's kunnen zij worden samengevoegd tot één macro. 6) Verwerk vervolgens alle daarvoor in aanmerking komende teksten met de macro uit stap 5 en controleer het resultaat. 7) Bewaar het uit stap 6 resulterende bestand onder een nieuwe bestandsnaam in het gewenste formaat (bijvoorbeeld DOS-bestand of ASCII-bestand). 8) Breng het bestand zonodig over naar het doelplatform en controleer of de tekst op alle vormelijke en inhoudelijke niveaus intact is gebleven. 9) Indien de tekst niet intact is gebleven, ga dan na of er sprake is van een systematisch dan wel ad-hocprobleem. In geval van een systematische fout, kan software worden aangemaakt waarmee het probleem kan worden opgelost. Pas vervolgens deze software toe op de betreffende bestanden. Breng het tekstbestand ten slotte over naar de daarvoor bestemde directory (zie 3.2.3.). 3.2.1.2 Procedure voor zetbestanden
52
Materiaal dat is aangeleverd in het oorspronkelijke formaat van de zetsoftware zal buiten de grafische industrie moeilijk verwerkt kunnen worden vanwege het specifieke karakter van die software en het gebrek aan adequate conversiesoftware. Indien de tekstleverancier in staat is een zgn. export te doen naar een meer algemeen formaat dan verdient dat de voorkeur. In de hiernavolgende procedure wordt uitgegaan van het algemene ASCII-formaat. 1) Maak indien nodig van afzonderlijke bestanden één geheel en bewaar dit bestand onder een nieuwe naam. Hierbij moet de tekstexterne informatie behouden blijven. 2) Ga m.b.v. de door de leverancier verstrekte lijst met zetcodes na welke zetcodes geconverteerd moeten worden naar het door de ontvangende partij gehanteerde standaardformaat en welke zetcodes verwijderd kunnen worden. 3) Maak software voor het verwijderen en converteren van de zetcodes en voor het converteren van de diakritische tekens. Het verdient aanbeveling de software zo te maken dat de verwerking van elke zetcode herkenbaar is bijv. door gebruik van modules of subroutines. Test vervolgens elke module of subroutine afzonderlijk. 4) Verwerk met deze software alle daarvoor in aanmerking komende bestanden en controleer het resultaat. Zorg ervoor dat het oorspronkelijke bestand niet verloren gaat. Bewaar het resultaat dus onder een nieuwe bestandsnaam. 5) Breng het bestand zonodig over naar het doelplatform en controleer of de tekst en de tekstopmaak inhoudelijk intact zijn gebleven. 6) Ga, indien de tekst inhoudelijk niet intact is gebleven, na of het een systematisch probleem is. Is dat het geval, ontwerp dan software waarmee het probleem kan worden opgelost en pas deze software toe op de betreffende bestanden. 7) Breng het tekstbestand ten slotte over naar de daarvoor bestemde directory (zie 3.2.3.). 3.2.1.3 Procedure voor ASCII-bestanden Hoewel in de vorige paragraaf ASCII-bestanden al even aan de orde zijn geweest, gaat het nu om bestanden die bij aanlevering al van een zodanige goede kwaliteit zijn dat conversie van inhoud en structuur niet of nauwelijks nodig is. Deze teksten kenmerken zich o.m. door de afwezigheid van platform- of softwarespecifieke codes en door consistentie in codering voor macro- en microtekststructuur. Dat laatste wil niet zeggen dat daarbij altijd internationale standaards worden gehanteerd, maar wel dat de leverancier de tekstuele codering consistent heeft toegepast (Bijv. .DA. als codering voor datum, .RU. als codering voor rubriek. Variaties hierop als .DAT., .DATUM. komen niet voor). Een mix van codes kan ook voorkomen: eigen codes voor tekststructuur, diakritische tekens gecodeerd volgens de (internationale) SGML-norm. De bewerkingen die op deze bestanden worden uitgevoerd zijn dezelfde als die genoemd in 3.2.1.2., met dit verschil dat 'zetcodes' worden vervangen door 'door de leverancier gebruikte codes'. Indien de diakritische tekens reeds als SGML-karakterentiteit gecodeerd zijn, is conversie niet nodig. 3.2.1.4 Procedure voor SGML-, XML- en HTML-coderingen Aangeleverde bestanden waarin consistent gebruik is gemaakt van SGML-, XML- en HTMLcoderingen zijn weinig problematisch voor een conversieprocedure, zowel wat de inhoud aangaat als de structuur. SGML staat voor Standard Generalized Markup Language, XML voor Extensible Markup Language en HTML voor Hypertext Markup Language.
53
Een conversieprocedure is niet nodig als de bestanden reeds in het formaat staan dat door de ontvangende partij als standaard wordt gehanteerd. In andere gevallen zijn de bewerkingen die op deze bestanden moeten worden uitgevoerd dezelfde als die genoemd in 3.2.1.2., met dit verschil dat 'zetcodes' worden vervangen door 'door de leverancier gebruikte codes'. 3.2.1.5 Procedure voor overige bestanden Onder overige bestanden wordt verstaan die bestanden die niet in een van de voorafgaande paragrafen konden worden ondergebracht. Het gaat hier om bestanden die niet bestemd zijn om door mensen bewerkt te worden, maar die bedoeld zijn om printers zo efficiënt mogelijk aan te sturen. Voorbeelden van deze bestanden zijn PostScript-bestanden, die vrijwel altijd de extensie .ps hebben, en PDF-bestanden (Portable Document Format met als extensie .pdf). PostScript- en PDF-files zijn populair op Internet omdat zij wel gelezen kunnen worden, maar niet bewerkt, in tegenstelling tot bijvoorbeeld Word-bestanden. De productie van deze bestanden begint altijd vanuit een tekstverwerker waarna het resultaat met behulp van daartoe verkrijgbare software wordt geconverteerd naar PostScript of PDF. De conversie andersom, met de bedoeling er weer een leesbaar bestand van te maken is niet triviaal. Zo moeten bijvoorbeeld in een PDF-document de coördinaten die de printer vertellen waar een woord moet worden afgedrukt, worden omgerekend om te bepalen welk woord tot welke zin behoort. Hiervoor moet software worden gemaakt. Indien dit niet tot de mogelijkheden behoort dan zijn er twee alternatieven: (a) het document printen en vervolgens scannen met gebruikmaking van OCR-software of (b) gebruikmaken van een besturingssysteem dat 'cut & paste' ondersteunt. De procedure bij dit laatste is als volgt. Open het PDF-document met de daarvoor bestemde software (AcrobatReader van Adobe, www.adobe.com), selecteer het gehele document en 'plak' het vervolgens in bijvoorbeeld Word (zie voor de noodzakelijke vervolgbewerkingen 3.2.1.1.). Men dient er wel op bedacht te zijn dat niet alle opmaakkenmerken of bijzondere lettertekens van het PDF-document correct worden overgenomen. Hetzelfde is van toepassing op PostScript-bestanden, zij het dat dan andere software nodig is om de bestanden te kunnen lezen, nl. GhostView. Beide programma's kunnen vrij worden gedownload vanaf Internet. Bovengenoemde opties zijn alleen bruikbaar wanneer zij slechts incidenteel toepassing behoeven. Voor grote aantallen PDF- en PostScript-documenten zijn zij minder geschikt. 3.2.1.6 Procedure voor databases In 2.6.4. is aandacht besteed aan de verwerving van databases. Gegeven de kosten die hiermee gepaard kunnen gaan en het feit dat bij TST-toepassingen veelal geen standaarddatabasetechnologie wordt gebruikt (vgl. 2.7.3.), maakt dat conversie (met het oog op software- en platformonafhankelijkheid) een minder voor de hand liggende bewerking zal zijn: de nadruk zal liggen op het gebruik van de database. Vanuit het perspectief van digitale duurzaamheid (zie 5.4.3.) kan overigens wel conversie nodig zijn. Voor conversie van een database zijn onder meer de hierna genoemde mogelijkheden beschikbaar: 1) Het maken van eigen software waarmee de informatie in de database benaderd kan worden. Voorwaarde is dat het DBMS voorzieningen heeft waardoor de conversiesoftware de data kan raadplegen. Als de database zogenaamde ODBC- of JDBCcompliant is (resp. Open DataBase Connectivity en Java DataBase Connectivity) zal dit in het algemeen geen probleem zijn.
54
2) Export-functie. Een DBMS als bijv. Microsoft Access is met een dergelijke functie uitgerust. Dit houdt in dat de data op een zodanige manier uit de database kunnen worden gehaald (geëxporteerd) dat andere software dan het DBMS de data kan verwerken. Veelal kan tijdens de export extra informatie worden toegevoegd zodat bijv. bekend is welke data wat representeren. 3) Zoekresultaat kunnen opslaan in bestand. De vraagtaal die bij veel DBMS'en wordt gebruikt is SQL, Structured Query Language. Het zoekresultaat van SQL-query's verschijnt in het algemeen op het beeldscherm. Als het resultaat kan worden bewaard in een bestand, dan kan dit bestand de basis zijn voor conversie. Men moet erop bedacht zijn dat de 'herkenbaarheid' van de outputdata minder kan zijn dan bij een machinale export. Dat is echter geheel afhankelijk van de mogelijkheden die het DBMS terzake biedt. 4) Commerciële conversiesoftware. Deze software is er alleen voor DBMS'en als Oracle, Informix. De mogelijkheden beperken zich meestal tot conversie van de data en de structuur van de database. Databasefunctionaliteiten als bijvoorbeeld triggers vallen buiten de conversie. Eigen ontwikkelde DBMS'en ten behoeve van TST-toepassingen kunnen met de commerciële producten die nu op de markt aanwezig zijn, niet worden geconverteerd. Welke van de opties voor een bepaalde situatie het meest geschikt is, hangt onder andere af van de omvang van de database, functionaliteiten van het DBMS, bij de ontvangende partij beschikbare kennis en specifieke conversie-eisen. Zo ligt het maken van een zelfontworpen programma voor het raadplegen van de database minder voor de hand als het DBMS over exportfunctionaliteit beschikt. 3.3
Verwerking en bewerking van data voor een elektronische verzameling spraak
Een spraakcorpus is een verzameling spraak, uitgeschreven in elektronische vorm (een annotatie) met bijbehorende documentatie eventueel met een lexicon dat gestructureerd is opgeslagen in een formaat dat leesbaar en bereikbaar is met een computer. De documentatie bestaat uit labelfiles, transcriptieconventies, formaat van data, opnamecondities, etc. Indien voorhanden dient ook bijhorende metadata, i.e. informatie over de sprekers, soort opname, etc., bijgeleverd te worden. 3.3.1
Opnameapparatuur en digitalisering
Opnames van spraak kunnen in eigen beheer worden gemaakt dan wel worden aangeleverd door derden. In het laatste geval staat de keuze voor opnameapparatuur vast en moeten de opnames al dan niet gedigitaliseerd worden. Digitaliseren is het inlezen van de data zodanig dat deze kunnen worden opgeslagen op een harddisk in een computer. Wanneer de opnames worden aangeleverd op analoge media, zoals cassettebandjes, vindt er bij de digitalisatie een A/D-conversie plaats; het analoge signaal wordt omgezet in concrete eenheden, samples, en daarna opgeslagen. Goede A/D-conversie met zo min mogelijk informatieverlies vereist goede hard- en software. Tegenwoordig wordt meer en meer gebruik gemaakt van opnameapparatuur dat direct digitaal opneemt, zoals een DAT-recorder of een minidiskspeler. Ook wordt de spraakdata vaak al digitaal aangeleverd op CDROM of DVD. In het geval een computer niet is uitgerust met een DAT-speler of CDROM moet de data van het digitale medium via een CD, DAT of minidiskspeler getransporteerd worden naar een harddisk van een computer. Dit transporteren dient te geschieden middels een optische kabel zodat het digitale signaal ook daadwerkelijk
55
digitaal wordt overgezet. De opslag van de spraakdata op een harddisk is vaak noodzakelijk voor het gebruik van veel data; een harddisk kan veel data bevatten en is snel toegankelijk. Als de spraakdata is gedigitaliseerd of overgezet op een harddisk, zou deze in die hoedanigheid moeten worden bewaard. Om kwaliteit- en informatieverlies te voorkomen moeten conversies niet op ruwe data plaatsvinden, maar op een kopie daarvan. Naast redenen van kwaliteitsverlies is het vaak applicatieafhankelijk wat het gewenste formaat van de spraakdata is, telefoonspraak versus breedbandspraak, en dient de uiteindelijke gebruiker of bewerker soms zijn eigen conversies te doen. In voorkomende gevallen moeten lange fragmenten worden geknipt in kleinere gedeeltes, maar hierdoor verandert er niets aan de kwaliteit van de spraak. Andere bewerkingen, zoals het verwijderen van stiltes, versterken van de intensiteit, dienen door een gebruiker of bewerker zelf te worden uitgevoerd, afhankelijk van de wensen. 3.3.2
Metadata
Afhankelijk van de situatie waarin de spraak is opgenomen, bijvoorbeeld tijdens het testen van een telefonische dienst, tijdens het voorlezen van prompts in een auto, of tijdens een spontaan gesprek, is er informatie beschikbaar over het signaal en de sprekers zelf. Het soort informatie, duur van opname, plaats van opname, geslacht / leeftijd van spreker, etc., verschilt per spraakcorpus. Deze informatie wordt vaak ondergebracht in labelfiles of in metadata waarbij de informatie gekoppeld is, via naamgeving of anderzijds, aan het spraaksignaal. Al deze informatie dient te worden bewaard, een gebruiker kiest daaruit voor hem relevante gedeeltes. 3.3.3
Annotaties
Een verzameling spraak is vaak pas bruikbaar als er ook beschikking is over bijbehorende transcripties in digitale vorm. Een transcriptie is een weergave van het geluidssignaal. Deze weergave kan woordelijk zijn, een orthografische transcriptie. Ze kan bestaan uit een reeks van foneemsymbolen, een fonetische transcriptie, maar ze kan bijvoorbeeld ook bestaan uit prosodische markeringen, een prosodische transcriptie, etc.. Meestal zorgt een orthografische transcriptie voor toegang tot de data en wordt daarmee begonnen. Spraak is sterk variabel en is onmogelijk uitsluitend te omschrijven of transcriberen met standaardspelling: woorden worden zelden uitgesproken zoals ze gespeld zijn; er is veel variatie. Mede hierdoor en om redenen van consistentie, in geval van meerdere menselijke transcribenten, moeten er duidelijke afspraken worden gemaakt over de wijze van transcriberen. Wordt de standaardspelling gevolgd? Worden uitspraakfouten gemarkeerd en hoe? Worden onverstaanbare gedeeltes gemarkeerd en hoe? Worden achtergrondgeluiden weergegeven? Hoe worden vervormingen of storingen in het geluidssignaal weergegeven? Moet een lang signaal worden gesegmenteerd middels segmentgrenzen? Alle overwegingen moeten vooraf in een document worden ondergebracht zodanig dat dit tijdens de transcriptie kan worden geraadpleegd, alsmede later door gebruikers van het spraakcorpus kan worden ingezien om kennis te nemen van de transcriptieconventies, zodat bekend is wat kan worden verwacht. De uiteindelijke transcripties moeten net zoals de labelfiles of metadata worden gekoppeld aan een uniek geluidsfragment, door middel van naamgeving of anderzijds. Als laatste moet nog worden vermeld dat het handmatig transcriberen van spraak een tijdrovende en dus kostbare bezigheid is, zodat het aanbeveling verdient om vooraf duidelijke transcriptieconventies op te stellen die het doel van het spraakcorpus kunnen bewerkstelligen.
56
3.3.4 Voorbeeld uit het Corpus Gesproken Nederlands Hieronder volgt een beschrijving van specifiek de orthografische transcriptie zoals die binnen het Corpus Gesproken Nederlands wordt gemaakt. De orthografische transcriptie sluit nauw aan op het geschreven Nederlands. De orthografische transcriptie dient tevens een oplijning op chunkniveau te bevatten en een codeaanduiding van de verschillende sprekers. Onder oplijnen verstaan wij het koppelen van een stukje transcriptie aan een stukje geluidssignaal door middel van het plaatsen van grenzen. Deze grenzen bepalen de begin- en eindtijd van de stukjes transcriptie. Met chunk wordt een stukje spraak van ongeveer 2 à 3 seconden bedoeld dat aan beide zijden begrensd wordt door een (korte) met apparatuur zichtbaar gemaakte en hoorbare pauze. Chunks hoeven niet overeen te komen met zinnen of zinsdelen, ze worden enkel bepaald door pauzes in het spraaksignaal. Het wordt aangemoedigd om (indien het geluidssignaal het toelaat) de chunks zo kort mogelijk te houden. Ook de aanduiding van ruis (bijvoorbeeld achtergrondgeluiden) en een veld voor opmerkingen, dienen voorzien te zijn in de transcriptie. Natuurlijk dient het transcript in overeenstemming te zijn met de regels die daarvoor zijn vastgelegd in een protocol. Zie verder de website van het CGN-project http://lands.let.kun.nl/cgn/. 3.4
De directory of directorystructuur
De directory of directorystructuur is een van de beheersinstrumenten vergelijkbaar met een databankstructuur, waarmee een verzameling bestanden beheersbaar kan worden gehouden. Het beheren van die bestanden is belangrijk bij alle onderwerpen die in het voorafgaande de revue zijn gepasseerd: verwerving, verwerking en bewerking. De directorystructuur hoeft zich daarbij niet noodzakelijkerwijs op één lokale computer te bevinden. Moderne besturingssystemen beschikken over faciliteiten (bijvoorbeeld clustersoftware, Network File System (NFS)), waarmee fysiek verspreide directory's zich logisch-technisch gezien als één geheel laten benaderen. In deze paragraaf zal achtereenvolgens ingegaan worden op beheer en administratie bij de aanlevering van data, de verwerking en de bewerking. Daarbij zullen voorbeelden worden gebruikt die ontleend zijn aan de praktijk van het Instituut voor Nederlandse Lexicologie, maar die zich zonder veel problemen laten vertalen naar andere (non-profit)organisaties. Zodra er met de leverancier afspraken zijn gemaakt over de aanlevering van elektronische data, moet de ontvangende partij, en met name de systeembeheerder, ervoor zorgen dat de aangeleverde data makkelijk zijn terug te vinden. Het mechanisme dat hiervoor wordt gebruikt hangt af van de wijze waarop de data worden aangeleverd en vervolgens bewaard. Er zijn daarbij twee opties: (a) de data blijven vooralsnog bewaard op de aangeleverde magnetische of optische informatiedrager, en (b) de data worden vanaf de magnetische of optische informatiedrager gekopieerd naar een harddisk van bijvoorbeeld een pc, werkstation of centraal opgestelde server of rechtstreeks op een harddisk geplaatst in geval aanlevering plaats heeft via ftp of e-mail. Voor optie (a) geldt dat een adequate administratie (zie 3.5.) de wegwijzer is naar de juiste locatie van de bestanden. Voor optie (b) moet op de harddisk(s) een structuur aanwezig zijn die de data eenvoudig kan traceren. Dit is de directorystructuur die bestaat uit een of meer directory's die ieder afzonderlijk kunnen zijn onderverdeeld in subdirectory's. De directorystructuur is in dat geval de wegwijzer naar de aangeleverde bestanden. Behalve dat de directorystructuur directory's moet bevatten waar het aangeleverde materiaal kan worden opgeslagen, moeten er ook directory's zijn waar het geconverteerde materiaal kan worden bewaard.
57
Bij het inrichten van de directorystructuur verdient het aanbeveling om namen te hanteren die aansluiten bij de naam van de dataleverancier of bij de naam van de aangeleverde tekst. Het nu volgende voorbeeld van een directorystructuur maakt duidelijk dat een verantwoording van de diepte van de (boom)structuur van de directory noodzakelijk is. Onder diepte van de structuur verstaan wij de verschillende niveaus die in die structuur zijn aangebracht. Een voorbeeld: P08DATA─┬─AANVOER ├─BOEKEN──────┬─ANKHHER │ └─DIVUITG ├─KRANTEN─────┬─KNIP │ ├─MEPCRT │ ├─NRC │ ├─STAND─────────9505 │ └─STBLAD ├─NIETINGD────┬─JURIDIS │ └─POLISSEN ├─ONDERTTL──────NOB ├─REPSPEE ├─SCREEN ├─STATIST ├─TIJDSCRF────┬─ARCHIMED │ ├─GREENP │ ├─LIBREV────────OUD │ ├─ONZETAAL │ ├─PLAYBOY │ ├─PYTHAG │ ├─ROVRMAG │ ├─WADBUL │ ├─WATERK │ └─ZENIT ├─WORK └─WRI2BSPO────┬─NOSJGD ├─NOSJNL └─TRNREDES Elke directorystructuur heeft een startpunt, de zogenaamde root. Dit is het hoogste niveau in de structuur. In ons voorbeeld is er met andere woorden sprake van een rootdirectory die luistert naar de naam 'P08data' (deze naam is conform de INL-conventie en is omwille van het voorbeeld gehandhaafd, maar kan door elke willekeurige andere worden vervangen). Op het niveau onder de root (in de tweede kolom) staan in alfabetische volgorde de subdirectory's. De directory AANVOER bevat alle bestanden die via ftp en e-mail zijn verworven. De directory SCREEN, afkorting voor screening, bevat informatie over de opbouw van het bestand, zoals de aard van de coderingen die het bevat en in welke hoeveelheden. Die informatie is wezenlijk voor het uitvoeren van de conversies. In de subdirectory STATIST, afkorting voor statistiek, staat allerlei statistische informatie. Alle andere directory's bevatten dataverzamelingen die een aantal bewerkingen hebben ondergaan: 1) De directory BOEKEN bevat tekstbestanden die door verschillende uitgeverijen zijn aangeleverd. 58
2) De directory KRANTEN bevat dagbladen. De verschillende soorten dagbladen zijn voorts onderverdeeld in subdirectory's die de naam van de desbetreffende krant dragen: STAND voor Standaard, MEPCRT voor Meppeler Courant, NRC voor Nieuwe Rotterdamse Courant, STBLAD voor Staatsblad en KNIP voor krantenknipsels. 3) De directory NIETING, afkorting voor 'niet ingedeeld', bevat alles wat niet onder de andere categorieën in te delen is. De directory is verder onderverdeeld in de subdirectory's JURIDIS (een selectie wetsteksten) en POLISSEN. 4) De directory ONDERTTL, afkorting voor ondertiteling, bevat de Nederlandse ondertitels bij niet-Nederlandse televisieprogramma's en films. De directory bevat voorts een subdirectory, t.w. NOB. Dat wil zeggen dat het Nederlands Omroepbedrijf de data heeft aangeleverd. 5) De directory REPSPEE, Reported Speech, bevat de handelingen van de Tweede Kamer. 6) De directory TIJDSCRF, afkorting voor tijdschriften, bevat tijdschriften onderverdeeld in subdirectory's naar de naam van het tijdschrift: Archimedes, Greenpeace Magazine, Liberaal Reveil, Onze Taal, Playboy Magazine, Pythagoras, Rooie vrouwen Magazine, Wadden Bulletin, Waterkampioen en Zenit. 7) De directory WORK bevat tijdelijke (hulp)bestanden. 8) De directory WRI2BSPO, afkorting voor 'written to be spoken', bevat geschreven taal bestemd om voorgelezen te worden. Deze directory is onderverdeeld in de subdirectory's NOSJGD, Jeugdjournaal; NOSJNL, Journaal van acht uur; en TRNREDES, troonredes. Abstraheren wij van bovenstaand voorbeeld, dan kunnen wij concluderen dat de tweede kolom de tekstsoort aanduidt van het tekstmateriaal en dat het derde een mengeling is van de naam van leverancier c.q. de rechthebbende plus de naam van de bron. Op niveau drie kan nog verder gesplitst worden, bijvoorbeeld in jaren en maanden. Voor het ontwerpen van een directorystructuur voor een spraakcorpus zijn de volgende overwegingen van toepassing. Bij het maken van een spraakcorpus, dus inclusief transcripties, wordt een directorystructuur aangehouden die niet perse moet worden overgenomen bij de oplevering van een spraakcorpus. Het is de conventie dat bij de oplevering van het corpus de spraakfiles gescheiden worden van de labelfiles en de transcriptiefiles (welke dan ook). Deze laatste twee soorten files worden vaak met eventueel nog andere beschikbare informatie of software op een aparte CDROM of DVD gezet. Als een gebruiker de spraakdata en de metadata op een harddisk kopieert, is deze scheiding niet noodzakelijk. Er bestaan geen conventies over de directorystructuur van de spraakfiles zelf. Afhankelijk van het soort spraakcorpus kan gekozen worden om dezelfde soort spraak, bijvoorbeeld voorgelezen fragmenten, in een zelfde directory te houden, of om juist spraak van één spreker bij elkaar te houden in één directory. De keuze die hiervoor gemaakt wordt, dient te worden beschreven in de bijgeleverde documentatie, waarin onder andere ook de transcriptieconventies dienen te worden beschreven. 3.5
Administratie
Het bijhouden van een administratie met betrekking tot aanlevering, verwerking en bewerking van de verworven data heeft onder meer tot doel op elk gewenst moment inzicht te hebben in bijvoorbeeld de samenstelling en omvang van de data en ook om inzicht te hebben in de bewerkingen die data hebben ondergaan. Dit laatste is onder meer bepalend voor de vraag of een bestand wel of niet voor bepaalde doeleinden kan worden gebruikt. De hier en in de volgende hoofdstukken aan de orde komende administraties kunnen handmatig worden
59
gevoerd, maar dat heeft als nadeel dat bijvoorbeeld uitbreiding van de administratie op problemen stuit en ook de toegankelijkheid van de handmatige administratie voor anderen beperkt is. Automatisering van de administratie verdient dus de voorkeur. Speciale software is daartoe niet nodig; spreadsheet- of databasesoftware kan volstaan. Het verdient daarbij aanbeveling de administratie zo op te zetten dat de gegevens ook voor andere doeleinden bruikbaar zijn, bijvoorbeeld het automatisch creëren van headers op basis van bibliografische gegevens. De administratie moet worden bijgehouden bij (a) aanlevering van data en (b) verwerking en bewerking van de data. Deze punten zullen hierna worden uitgewerkt. 3.5.1
Van aangeleverde data
De inrichting van de administratie voor de aangeleverde data moet zodanig zijn opgezet dat op elk moment kan worden nagegaan welke bestanden zijn aangeleverd en waar zij zich bevinden. De gegevens die bij ontvangst van bestanden worden vastgelegd, betreffen onder meer: (a) de datum van ontvangst, (b) het type informatiedrager (floppy, cd-rom enz.), (c) bibliografische gegevens, (d) de aanwezigheid van een begeleidend schrijven, (e) het aantal (deel)bestanden op de informatiedrager, (e) locatiegegevens van de bestanden (dit kan bijvoorbeeld een kluis zijn als de bestanden op de originele informatiedrager worden bewaard of op een (root)directory op een server), (f) locatiegegevens over de begeleidende informatie, (g) de naam van auteur/eigenaar, (h) de omvang van de bestanden enz.. Men dient erop bedacht te zijn dat bijvoorbeeld bibliografische gegevens niet altijd beschikbaar zijn in de bestanden zelf. Zij kunnen bijvoorbeeld opgenomen zijn in een begeleidend schrijven of in een begeleidende e-mail. Ook die informatie dient bewaard te blijven. 3.5.2
Van de verwerking en bewerking van verworven data
De inrichting van de administratie van de verwerking van de verschillende databestanden wordt bepaald door het aantal bewerkingen dat een tekst moet ondergaan en de informatie die per bewerking dient te worden vastgelegd. Men kan daarbij denken aan bijvoorbeeld de volgende bewerkingen (vgl. 3.2.1.): 1) Indien de bron wordt aangeleverd in deelbestanden, dan moeten die samen worden gevoegd tot een geheel. Vaak worden hoofdstukken van een boek als afzonderlijke bestanden aangeleverd; hetzelfde gebeurt met artikelen uit tijdschriften. Indien deze unificerende handelingen zich hebben voltrokken, wordt dat geadministreerd. 2) Er dient een inventarisatie plaats te vinden van o.a. opmaakcodes van een tekstbestand. Is dat geschied, dan worden die codes geconverteerd naar software- en platformonafhankelijke codes. Het voltooien van deze operaties wordt eveneens geadministreerd. 3) Het bewerkte bestand wordt van het formaat van de tekstverwerker waarin het is aangeleverd geconverteerd naar het meest algemene ASCII-formaat. Ook dit dient geregistreerd te worden. 4) Een bestand dat de bewerkingen die hier onder (1) t/m (3) zijn beschreven, heeft ondergaan, moet naar de juiste directory worden overgebracht. Ook dat dient geregistreerd te worden.
60
3.6
Conclusies en aanbevelingen voor beleidsorganisaties
In dit hoofdstuk stonden centraal de verwerking, bewerking en administratie van data in een elektronische tekstenverzameling en in een elektronische verzameling spraak. In 3.2. werden de procedures besproken die bij de verwerking en bewerking van aangeleverde elektronische teksten een belangrijke rol spelen. Bij de productie van data worden door de verschillende leveranciers verschillende informatiedragers, bestandsformaten, bewerkingsprogramma's en informatiecodes gebruikt. Deze als hinderlijk ervaren variabiliteit van het aanwezige materiaal moet worden weggewerkt om het voor verschillende onderzoeksen toepassingsdoeleinden daadwerkelijk beschikbaar en bruikbaar te maken. Elk aspect van het aangeleverde materiaal dient telkens een (bij voorkeur) geautomatiseerde conversie te ondergaan naar een omgevingsonafhankelijke, flexibele en herbruikbare versie. Om een goed beeld te krijgen van de complexiteit van de conversie worden concrete voorbeelden gegeven waarin gedetailleerd wordt uiteengezet hoe bij een ontvangende partij (in dit kader met name de TST-centrale) uit een platform-, software- en codeafhankelijke bron een geüniformeerd platform-, software- en codeonafhankelijk product kan worden gegenereerd. De genoemde complexiteit heeft enerzijds te maken met het omzetten van een bepaalde specifieke input naar een onafhankelijke, bij voorkeur gestandaardiseerde technische output; het betreft hier onder meer het technische platform en de programmatuur. Anderzijds heeft de complexiteit te maken met het behouden, completeren en elimineren van de gecodificeerde informatie in het bronmateriaal naar een multifunctionele output anderzijds; het betreft hier de gecodeerde informatie die eerder werd gemotiveerd als metatekstueel, intertekstueel, infratekstuele structuur en lay-out en orthografische karakteristieken. Uit de gebruikte voorbeelden blijkt duidelijk dat de inspanningen en middelen die hiermee gepaard gaan de capaciteit als-ook de onderzoeksopzet van de individuele onderzoekers en onderzoeksgroepen veruit te boven gaan en alleen kunnen worden gedragen door een geïnstitutionaliseerde TST-centrale die zich statutair bekommert om het hergebruik van digitale dataverzamelingen (zie 2.2.3.). Het is daarbij overigens niet realistisch om van een TST-centrale te verwachten dat ze alle kennis en expertise permanent in huis heeft die vereist is voor alle typen conversies. Bovendien is het bewerkstelligen van een (vrijwel) feilloos functionerend en volledig uitgewerkt conversiepakket slechts eenmaal interessant; alle volgende keren zijn een herhaling of routineklus. De TST-centrale kan wel de volgende oplossingen voorstellen: (a) Zij kan per conversietraject financiële middelen inzetten voor de eenmalige uitwerking van een specifiek conversiepakket en het up-to-date houden en beheren van dat pakket. Die uitwerking kan binnenshuis gebeuren door het aanstellen van een tijdelijke werkkracht of door het gedeeltelijk inzetten van een permanente medewerker, ofwel buitenshuis door het inhuren van een expertisecentrum. Het onderhoud kan in dat geval gebeuren door een interne kracht of door het expertisecentrum door middel van een onderhoudscontract. Voor het beheer en de administratie van het materiaal wordt verder een beroep gedaan op de aanwezige gecentraliseerde diensten van de TST-centrale. (b) De TST-centrale fungeert als een metakenniscentrum waar informatie beschikbaar is over wie beschikt over welke conversiekennis of wie in aanmerking kan of wil komen voor het uitvoeren van een nieuwe conversie of bepaalde onderdelen van een conversiepakket. Wellicht verdient het de voorkeur dat de TST-centrale van alle bovengenoemde mogelijkheden gebruik kan maken, afhankelijk van het takenpakket dat voorligt. De TST-centrale kan met andere woorden tegelijkertijd zelf bepaalde conversieprojecten uitvoeren waarbij ze reeds aanwezige kennis en capaciteit kan inzetten,
61
bepaalde opdrachten in samenwerking met andere centra uitvoeren, specifieke conversieopdrachten uitbesteden aan expertisecentra en fungeren als metakenniscentrum dat alle informatie over conversiepakketten centraliseert. In 3.3. werden de problemen en mogelijke oplossingen van naderbij bekeken die te maken hebben met de verwerking en bewerking van data van een elektronische verzameling spraak. De procedures daarvoor werden verdeeld in een pretekstuele fase en een tekstfase. Voor deze laatste fase wordt in principe een procedure gevolgd vergelijkbaar met die voor een tekstenverzameling. Tot de pretekstuele fase worden de digitalisering, formattering, de metatekstuele en orthografische transcriptie gerekend. Om dezelfde reden als bij de behandeling van tekstenverzamelingen wordt voor de verwerking van spraak bij voorkeur een beroep gedaan op de faciliteiten en capaciteiten die de hoofdtaak uitmaken van de TSTcentrale, vanzelfsprekend in duidelijk overleg met de experts en leveranciers ter zake. De paragrafen 3.4. en 3.5. beschrijven hoe een efficiënt en adequaat beheer en een goed georganiseerde centrale administratie de concrete aanlevering, verwerking en bewerking van data ondersteunen. Bij het beheer wordt vooral aandacht besteed aan de terugvindbaarheid van de locatie van de data tijdens de verschillende fasen van de aanlevering, verwerking en bewerking, en aan het lokaliseren van de verschillende bestanden, componenten en meta-, inter- en intratekstuele informatietypen in een hiërarchisch georganiseerde directorystructuur, beheerd door een centrale instantie, de TST-centrale. De bij voorkeur geautomatiseerde en bij de TST-centrale ondergebrachte administratie maakt gebruik van het resultaat van de beheerstaken om zowel intern als extern, wanneer dat gewenst wordt, up-to-date informatie te kunnen verschaffen over de actuele stand van zaken waarin een bepaalde verzameling gesproken of geschreven data zich bevindt in termen van technische en inhoudelijke identificatie, fysieke locatie, fase van technische conversie en bewerking en fase van inhoudelijke conversie en verwerking. Hierdoor kan meteen ook een gefundeerd antwoord worden gegeven over de mogelijke inzetbaarheid van bepaalde data in een bepaald stadium van een project of als onderdeel van een onderzoeksvraag of onderzoeksopzet.
62
4 4.1
Taalkundige bewerking van taalmateriaal Inleiding
Dit hoofdstuk gaat over taalkundige bewerking van taalmateriaal, dat wil zeggen het toevoegen van taalkundige informatie aan digitaal taalmateriaal. Toevoeging van literaire, historische en andersoortige informatie valt buiten het bestek van dit hoofdstuk. Immers, deze Blauwdruk gaat primair uit van de taal- en spraaktechnologie (TST) (zie hoofdstuk 1). Het digitale taalmateriaal betreft corpora van geschreven en gesproken taal (dat verworven en technisch bewerkt is als uiteengezet in de hoofdstukken 2 en 3), digitale woordenboeken en computationele lexica. Het toevoegen van taalkundige informatie aan teksten en getranscribeerde gesproken taal of spraak levert een taalkundig verrijkte tekst op. Als aan de 'eigenlijke tekst' van een woordenboekbestand expliciete informatie wordt toegevoegd over de verschillende soorten van informatie in het woordenboek, dan wordt het digitale woordenboek een verrijkt digitaal woordenboek, hier verder elektronisch woordenboek genoemd. Een computationeel lexicon kan in dit kader, zij het enigszins simplistisch, worden beschouwd als een digitale woordenlijst verrijkt met expliciete taalkundige informatie die door een computerprogramma kan worden verwerkt2. Waarom verrijking? Verrijking is op te vatten als het toevoegen van 'kennis' over eigenschappen van het digitale taalmateriaal in het digitale bestand. Kennis die niet of niet expliciet in het taalmateriaal aanwezig is; kennis die een deskundige wel heeft maar 'een computer' niet. Die aan het taalmateriaal toegevoegde kennis heeft een computerprogramma nodig om op een intelligentere manier met het materiaal om te kunnen gaan dan mogelijk is met niet-verrijkt taalmateriaal. Verrijking is dus een vorm van waardetoevoeging. Nietverrijkt taalmateriaal is te beperkt (te 'arm') voor allerlei soorten computerondersteund en computationeel taalkundig onderzoek en voor vele toepassingen waarin natuurlijke (menselijke) taal door een computerprogramma wordt verwerkt (bijv. grammaticacheckers, mens-machinecommunicatie, systemen voor computerondersteund onderwijs etc.; vgl. 1.4). Dit hoofdstuk behandelt de taalkundige bewerkingen op taalmateriaal die wenselijk zijn om dat taalmateriaal beter verwerkbaar te maken door de computer, waardoor dat materiaal vervolgens bredere gebruiksmogelijkheden krijgt. De reden dat in deze Blauwdruk ruim aandacht wordt besteed aan verrijking en daaraan gerelateerde aspecten, is dat materialen voor taal- en spraaktechnologie (TST-materialen) in de meeste gevallen verrijkt zijn. Het beheer en onderhoud van die materialen, met name wanneer ze ontwikkeld zijn buiten een permanente infrastructuur (1.2.), vallen doorgaans onder de verantwoordelijkheden van de TST-centrale als bedoeld in 2.2.3. (vgl. de hoofdstukken 5 en 6). Onderhoud is nodig om genoemde materialen herbruikbaar te maken en te houden. Onder onderhoud wordt ook het onderhouden van verrijkte data en verrijkingssoftware gerekend; zie hoofdstuk 6. Omdat verrijking een veelomvattende materie is, wordt hieraan een afzonderlijk hoofdstuk gewijd, waarin de onderlinge samenhangen goed tot hun recht kunnen komen. Een afzonderlijke behandeling van verrijking komt de 2
De definities in deze alinea zijn bedoeld om het verband aan te geven tussen de diverse soorten verrijkt taalmateriaal: het gaat in alle gevallen om eigenlijke taaldata met toegevoegde informatie. Vanuit het perspectief van data-ontwikkeling zijn andere verbanden relevant. Woordenboeken en computationele lexica worden tegenwoordig bij voorkeur gebaseerd op gegevens ontleend aan corpora. Idealiter zijn een elektronisch woordenboek (voor gebruik door mensen) en een computationeel lexicon (voor gebruik door computers) beide als producten afleidbaar uit één, daartoe ingerichte lexicale database (vgl. Oppentocht 1999). Zie verder 4.2.5.
63
transparantheid van hoofdstuk 6 ten goede, doordat voor verdere gegevens verwezen kan worden naar paragrafen van dit hoofdstuk. Ook biedt zo'n afzonderlijke behandeling betere mogelijkheden om de doelstellingen van deze Blauwdruk (1.5.) te realiseren. De inhoud van dit hoofdstuk is als volgt gestructureerd. Paragraaf 4.2. gaat over de inhoudelijke en vormelijke aspecten van verrijking. De opzet van deze paragraaf is van algemeen naar specifiek. In 4.2.1. wordt algemeen geldige informatie over verrijking gegeven. Daarbij komt aan de orde welke soorten en vormen van verrijking er zijn, welk doel ze hebben voor specifieke gebruikersgroepen, welke standaarden er zijn, hoe de verrijking procedureel kan worden aangebracht en personele aspecten van verrijking. Deze paragraaf is bedoeld voor lezers die een globaal beeld willen hebben van wat aan de orde is bij verrijking. De volgende vier paragrafen, 4.2.2.– 4.2.5., bieden nadere informatie aan lezers die hun weg willen vinden in de wereld van resp. de verrijking van geschreven-taalcorpora en gesproken-taalcorpora, de verrijking van digitale woordenboeken tot elektronische woordenboeken en de ontwikkeling van computationele lexica. Steeds wordt kort uiteengezet waar het om gaat, met verwijzingen naar literatuur en websites voor meer gedetailleerde informatie. 4.2.2., de meest uitgebreide van deze vier paragrafen, gaat in op de verrijking van corpora van geschreven taal. Verschillende niveaus van verrijking worden besproken, met daarbij vigerende standaarden, procedurele aspecten van verrijking en het nut van de diverse verrijkingsvormen in TST-perspectief. 4.2.3. gaat over de verrijking van corpora van gesproken taal en spraakcorpora. Omdat er overeenkomsten zijn met 4.2.2., is 4.2.3. met name gericht op bijzonderheden van spraak, met het accent op het Corpus Gesproken Nederlands. In 4.2.4. wordt de verrijking van reeds bestaande traditionele digitale woordenboeken behandeld, vanuit het perspectief van informatie-extractie ten behoeve van de ontwikkeling van een computationeel lexicon. 4.2.5. gaat over de ontwikkeling van computationele lexica. 4.2.6. geeft stappenplannen om te komen tot resp. een verrijkt tekstcorpus (4.2.6.2.), een verrijkt gesproken-taalcorpus (4.2.6.3.), een elektronisch woordenboek (4.2.6.4.) en een computationeel lexicon (4.2.6.5.), met daarbij het type personeel dat nodig is en indicaties van de werklast. Deze paragraaf is bedoeld voor wie deze typen verrijkte data wil gaan ontwikkelen, voor de beoordelaars van dergelijke dataontwikkelingsprojecten en voor wie verrijkte data moet onderhouden. Tevens is deze paragraaf de basis voor kostenramingen betreffende het onderhoud van dergelijke data (vgl. 6.6.) Heel paragraaf 4.2. wordt bekend verondersteld, alsmede onderdelen van 4.3. en 4.4. Paragraaf 4.3. gaat over taalkundige programmatuur waarmee verschillende vormen van verrijking, zoals behandeld in 4.2., automatisch kunnen worden aangebracht. Kort wordt uiteengezet waar het om gaat, met veel verwijzingen naar literatuur en websites. Ook deze paragraaf heeft een opzet van algemeen naar specifiek. Deze paragraaf is bedoeld voor taaltechnologen die zich op het Nederlands richten. Anders dan in Daelemans en Strik (2002), wordt hier noch een uitputtende inventarisatie noch een evaluatie van die programmatuur beoogd. In 4.3.1. worden algemeen geldige aspecten behandeld. Daarin komen o.a. aan de orde welke methodologieën voor automatische verrijking worden toegepast en wat daarvoor nodig is. Tevens wordt voor elk van de in 4.2. onderscheiden typen van verrijking kort beschreven welke software er algemeen beschikbaar is voor het Nederlands of welke taalonafhankelijke
64
software bruikbaar is. Deze paragraaf is bedoeld voor genoemde taaltechnologen en voor wie een project waarin automatische taalkundige verrijking beoogd wordt, wil opzetten of beoordelen. De paragrafen 4.3.2.-4.3.5. behandelen meer in detail resp. software voor de verschillende vormen van verrijking van corpora van geschreven en gesproken taal, software voor de codering van informatiecategorieën in digitale woordenboeken en software voor de ontwikkeling van een computationeel lexicon. De werklast van automatische taalkundige verrijking is verwerkt in 4.2.6. Paragraaf 4.4. gaat in op keuzes die een organisatie die TST-materialen ontwikkelt moet maken bij de ontwikkeling en het testen van taalkundige programmatuur. Van standaardisatie is hier nog nauwelijks sprake. Aan de orde komen criteria voor de keuze van hardwareplatforms en besturingssystemen, voor de keuze van programmeertalen, richtlijnen voor het programmeren, documentatieaspecten, het gebruik van ontwikkelmethoden en criteria voor het opbouwen en gebruiken van testprocedures. Deze paragraaf is bedoeld voor automatiseringsdeskundigen en op onderdelen voor computerlinguïsten. Paragraaf 4.5. geeft de stand van zaken weer met betrekking tot de evaluatie van de dataverzamelingen en taalkundige software die in de voorgaande paragrafen besproken zijn. Paragraaf 4.6. gaat over infrastructurele voorzieningen, op internationaal, nationaal en lokaal niveau. Paragraaf 4.7. behandelt financiële aspecten, gebaseerd op 4.2.6. en op 4.6. Paragraaf 4.8. biedt aanbevelingen voor beleid, vanuit het perspectief van dit hoofdstuk en de taken van de TST-centrale daarbij.
65
4.2 4.2.1
Inhoudelijke en vormelijke aspecten van verrijking Algemene aspecten
4.2.1.1 Niveaus en soorten van verrijking Verrijken wordt ook annoteren genoemd, verrijking ook annotatie. Er zijn verschillende inhoudelijke soorten van verrijking op verschillende niveaus; zie voor een gedetailleerdere uitwerking 4.2.2.-4.2.6. Verrijking wordt doorgaans aangebracht in de vorm van codes; zie voor verdere vormelijke aspecten (representatie) van verrijking 4.2.1.3. en 4.2.2. - 4.2.5. Op het niveau van een corpus van geschreven of gesproken taal is verrijken het expliciet toevoegen van eigenschappen die voor de complete verzameling (gesproken) teksten gelden zoals bijvoorbeeld het kenmerk 'gesproken taal' resp. 'geschreven (gedrukte) taal' of bij een corpus van krantenteksten het kenmerk 'tekstdrager=krant' of bij een gespecialiseerd, domeinspecifiek juridisch corpus het kenmerk 'onderwerpsdomein=juridisch'. Op het niveau van een afzonderlijke (gesproken) tekst is verrijken het expliciet toevoegen van eigenschappen van de gehele tekst, bijv. de bibliografische gegevens, of de zojuist genoemde kenmerken indien ze van toepassing zijn op een geïsoleerde tekst of op een afzonderlijke tekst in een corpus dat niet als geheel die eigenschappen heeft. Op het niveau van eenheden binnen de (gesproken) tekst, waarbij inbegrepen een traditioneel woordenboek en een computationeel lexicon, is verrijken het expliciet toevoegen van specifieke eigenschappen van teksteenheden binnen de tekst. In een tekst te onderscheiden teksteenheden zijn bijv. afzonderlijke woorden3 (eigenlijk: woordvormen of 'tokens'), woordgroepen (combinaties van woordvormen), zinnen (combinaties van woordgroepen), groepen van zinnen e.d., die als taalkundige eenheden beschouwd kunnen worden. Maar in een tekst zijn ook alinea's, hoofdstukken, hoofdstuktitels e.d. te onderscheiden, die eerder als tekststructurele eenheden kunnen worden opgevat4. Bij de taalkundige eenheden zijn (afhankelijk van hun aard) taalkundige eigenschappen te noemen als: trefwoordvorm, woordsoortcategorie met eventueel andere morfosyntactische kenmerken, grammaticale categorie (NP, PP) en/of grammaticale functie (subject, object e.d.), verbindbaarheid met andere woorden (valenties, selectierestricties en andere subcategorisatiepatronen), betekenisinformatie (betekenis, semantische functie in de zin, de referent waarnaar een woord verwijst, enz.). Verrijken is hier het expliciet toevoegen van dergelijke taalkundige eigenschappen aan de desbetreffende taalkundige eenheden. Bij tekststructurele eenheden is verrijking het expliciet toevoegen van de aard van de eenheid, bijv. de eigenschap 'titel' aan alle tekstfragmenten die een titel zijn. Bij een traditioneel elektronisch woordenboek betreft de verrijking het expliciet maken van het type informatie dat door een teksteenheid wordt uitgedrukt, bijv. het expliciet toevoegen van de eigenschap 'trefwoord' bij elk van de trefwoorden, of de eigenschap 'betekenis' bij elk van de betekenisomschrijvingen van de trefwoorden. Net als bij teksten kunnen eventueel ook hier tekststructurele eenheden als zodanig verrijkt worden. In een computationeel lexicon is verrijking het toevoegen van taalkundige eigenschappen aan de taalkundige eenheid 'ingang'. Een ingang kan bestaan uit woordvormen 3
Elke afzonderlijke woordvorm in een tekst wordt een 'token' genoemd. Alle identieke woordvormen gezamenlijk wordt een 'type' genoemd. Aan elk token en aan elk type kan een trefwoordvorm worden toegekend. 4 Zie voor een definitie van tekststructuurcodering en tekststructurele eenheid 4.2.2. Een teksteenheid kan overigens fungeren als taalkundige eenheid en als tekststructurele eenheid; vgl.. 4.2.2.3. en 4.2.2.4.
66
('typen'; zie noot 3) en/of trefwoorden (zoals in een woordenboek). Naast een-woordige ingangen zijn er meer-woordige ingangen die uit (min of meer vaste) woordcombinaties bestaan (bijv. 'als de wiedeweerga', 'met het oog op'). De aan de ingangen toe te voegen taalkundige eigenschappen zijn van dezelfde aard als die van de hierboven genoemde taalkundige eenheden in teksten. Bij al deze vormen van verrijking worden aan taalmateriaal of eenheden daarbinnen een of meer eigenschappen gekoppeld, waardoor alle eenheden met dezelfde eigenschap(pen) gemakkelijk automatisch als leden van een verzameling te identificeren zijn. Zo kunnen corpusteksten die een verrijkingskenmerk 'juridisch' gekregen hebben, gemakkelijk als verzameling 'juridische teksten' binnen het corpus geïdentificeerd worden. Bij een nietverrijkte tekst (voornamelijk bestaande uit letters, cijfers, interpunctie, typografie en spaties) weet een computerprogramma niet dat de in die tekst voorkomende woordvormen 'lopen', 'loopt', 'liepen', en 'gelopen' vormen van het trefwoord 'lopen' zijn. Als alle woordvormen in die tekst verrijkt zijn met het corresponderende trefwoord, dan zijn genoemde woordvormen wel automatisch te identificeren als de verzameling woordvormen behorend bij het trefwoord 'lopen'. De annotatie biedt de computer dus de mogelijkheid om op een hoger niveau dan dat van de fysieke tekst eenheden te identificeren als 'eenheden die een bepaalde eigenschap gemeen hebben', i.c. 'trefwoord=lopen'. Vele vormen van natuurlijke taalverwerking zijn terug te voeren op dit principe, waardoor een computer veel intelligenter ('inhoudelijker') kan omgaan met gegevens. Dit is van belang voor niet-basaal computerondersteund en computationeel taalkundig onderzoek en voor taaltechnologische toepassingen. Enkele concrete voorbeelden: het selecteren van een domeinspecifiek subcorpus uit een groter corpus ten behoeve van een domeinspecifieke natuurlijke-taalverwerkende applicatie; het extraheren van een trefwoordenlijst uit een verzameling teksten als basis voor een computationeel lexicon; voor hetzelfde doel kan een lijst van trefwoorden met hun betekenissen uit een traditioneel elektronisch woordenboek afgeleid worden, zonder de voor het doel irrelevante andere woordenboeksinformatie; het extraheren van alle eigennamen uit een verzameling van krantenteksten ten behoeve van een document-retrievalsysteem. 4.2.1.2 Relatie tussen verrijking en de gebruiker Zoals hierboven gesteld, is verrijking het aan taalmateriaal toevoegen van geëxpliciteerde 'kennis' over eigenschappen van dat materiaal. Het antwoord op de vraag of, en zo ja welke typen verrijking wenselijk zijn hangt af van het onderwerp van onderzoek of van de aard van de toepassing. We lichten dit hier in algemene termen toe met een paar voorbeelden. Zie voor overzichten van verrijkingscategorieën 4.2.2.-4.2.5. Tekstarchieven als bijv. in het Nederlandse taalgebied de Digitale Bibliotheek Nederlandse Letteren (DBNL) en het Electronic Text Centre Leiden (ETCL) hebben behoefte aan een bepaald niveau van tekststructuurcodering (zie voor het ETCL: http://www.etcl.nl). Gegeven de diversiteit aan collecties waarover het ETCL beschikt, zou een karakterisering van die collecties mogelijk zijn op een wijze die vergelijkbaar is met de hierboven genoemde verrijking van een corpus. De DBNL (http://www.dbnl.nl) is, omwille van een inzichtelijke ontsluiting van de tekstencollectie, op termijn van plan de teksten of elementen daarbinnen te verrijken met diverse soorten meta-informatie, zoals trefwoorden of gecodeerde begrippen en identificatiecodes voor auteursnamen, titels, plaatsnamen en bijbelplaatsen. Corpusgebaseerd taalkundig onderzoek en veel taaltechnologische toepassingen hebben daarentegen baat bij taaldata die op allerlei taalkundige niveaus verrijkt zijn: woordsoort en andere morfosyntactische kenmerken, trefwoord (lemma), syntactische structuur, semantische kenmerken etc. Zo is voor de ontwikkeling van een
67
computerprogramma dat automatisch woordsoorten toekent aan de woorden in een tekst ('tagger'), bij bepaalde methodes behoefte aan trainingsmateriaal dat reeds met woordsoort verrijkt is (vgl. 4.3.2.3.5.). Evenzo kan voor het maken van een automatische zinsontleder ('parser') syntactisch verrijkt trainingsmateriaal nodig zijn (vgl. 4.3.2.3.7.). Voor het evalueren van computerprogramma's die automatisch de woordbetekenis van woorden in een tekst disambigueren ('word sense disambiguation') is o.a. een lexicon met woordbetekenissen en een gecorrigeerd tekstcorpus verrijkt met woordbetekenissen nodig (vgl. Kilgarriff en Rosenzweig 2000: 4.2.2.4.). Een van de uitkomsten van Bouma en Schuurman (1998: 65) is dat er voor het Nederlands een vrij algemene behoefte bestaat aan grotere, rijk geannoteerde corpora en aan verschillende vormen van lexicale informatie. Nu kan men zich voorstellen dat ieder onderzoek of iedere applicatie zijn eigen eisen stelt aan de verrijking. In principe is dat ook zo. Niettemin zijn bepaalde soorten van verrijking zinvol voor diverse onderzoeksvragen resp. applicaties. Ook is bij bepaalde typen verrijking een zekere mate van consensus over de taaltheoretische basis van de verrijking, hetgeen de bruikbaarheid voor diverse doeleinden bevordert. Vgl. 4.2.2.4. Omdat er enorme menskracht en investeringen gemoeid zijn met de ontwikkeling van verrijkt taalmateriaal (vgl. 4.2.6., 4.7.), is het begrijpelijk dat reeds bestaand verrijkt materiaal ook door anderen dan de ontwikkelaars zelf gebruikt wordt (bijv. Longman Dictionary of Contemporary English: Boguraev en Briscoe 1989; WordNet: Fellbaum 1998; Rubio et al. 1998; Gavrilidou et al. 2000) (zie voor de juridische aspecten: 2.3.1.). Alleen al het bestaan van distributiecentra als de European Language Resources Association (ELRA) (http://www.icp.grenet.fr/ELRA/home.html), het Linguistic Data Consortium (http://www.ldc.upenn.edu) en TRACTOR (TELRI Research Archive of Computational Tools and Resources) (http://www.tractor.de), die alle overigens ook niet-verrijkte data ter beschikking stellen, wijst op de behoefte aan 'hergebruik' van data (en tools) voor verschillende doeleinden. In tal van taaltechnologische projecten die door de Europese Commissie geïnitieerd en gesubsidieerd zijn, is inmiddels herbruikbaarheid ('reusability') van taalmateriaal een doel op zichzelf geworden in de ontwikkelingsfase. Omdat hergebruik vaak tijd en middelen spaart, hanteren we in dit hoofdstuk, waar mogelijk en relevant, herbruikbaarheid als principe. De toepassing van standaarden is voor herbruikbaarheid van wezenlijk belang. Daarover gaat de volgende paragraaf. 4.2.1.3 Standaarden Lange tijd bewerkte ieder op eigen wijze taalmateriaal. Dat wil in dit verband zeggen, dat ieder vanuit zijn eigen linguïstische theorie zijn eigen inhoudelijke verrijkingscategorieën onderscheidde en daar op eigen wijze een coderingsvorm (representatie) aan gaf. Dit bemoeilijkte het hergebruik door anderen: het vereiste kennisverwerving van het gebruikte coderingsstelsel en eventueel ook inhoudelijke en vormelijke conversies naar een eigen systeem, en dat steeds opnieuw voor elke andere verzameling taaldata. De functie van standaardisering is dat dezelfde inhoudelijke verrijking steeds dezelfde codenaam en dezelfde coderingsvorm krijgt, ongeacht wie de ontwikkelaar ervan is (overigens wordt deze ideale situatie in de praktijk niet altijd bereikt; vgl. hieronder). Daardoor wordt uitwisseling en hergebruik van data veel efficiënter. In het Nederlandse taalgebied heeft het woordsoortcoderingsstelsel van het Eindhovencorpus (Uit den Boogaart 1975) enige navolging gekregen. Dit is een vroeg voorbeeld van (onopzettelijke) standaardisatie. Sinds ca. 1990 zijn en worden op mondiaal niveau standaarden ontwikkeld die betrekking hebben op verrijking van taalmateriaal. De
68
belangrijkste daarvan zijn in dit verband TEI (Text Encoding Initiative) en EAGLES (Expert Advisory Group on Language Engineering Standards), die ontwikkeld zijn voor respectievelijk de humaniora (in de Nederlandse opvatting)5 en de taaltechnologie. De TEI (http://www.tei-c.org) biedt richtlijnen voor de codering van tekstkenmerken voor proza, drama, poëzie en woordenboeken, waaronder tekststructurele eenheden als hierboven in 4.2.1.1. genoemd. De voorzieningen voor taalkundige verrijking betreffen richtlijnen voor de codering van taalkundige informatie binnen de tekst (maar niet, zoals EAGLES, voor de keuze van taalkundige categorieën). Ook heeft de TEI richtlijnen voor de transcriptie van gesproken taal ontwikkeld en een TIF (Terminology Interchange Format) voor terminologische databases (vgl. hieronder). Voor nadere informatie over het lidmaatschap van het TEI-consortium, zie http://www.tei-c.org/Consortium/memship.html. Er is ook een TEI-discussielijst (stuur een e-mail naar [email protected] met in de body van de tekst "subscribe tei-l", zonder de aanhalingstekens). EAGLES (http://www.ilc.pi.cnr.it/EAGLES/home.html) biedt aanbevelingen voor diverse linguïstische domeinen, zoals een corpus- en een teksttypologie (vgl. 2.10.5.), een Corpus Encoding Standard (CES) voor corpusgebaseerd werk voor natuurlijketaalverwerkende toepassingen (zie voor een XML-versie van de CES: http://www.cs.vassar.edu/XCES en Ide et al. 2000), aanbevelingen voor de taalkundige annotatie van morfosyntactische en syntactische informatie in lexica en corpora en een aanzet tot aanbevelingen voor semantische annotatie. Wat betreft een bijzonder aspect van standaardisering, t.w. de linguïstische theorie die ten grondslag ligt aan de organisatie, beschrijving en annotatie van taalmateriaal, is bij de EAGLES-aanbevelingen steeds gestreefd naar de facto linguïstische standaarden, die gebaseerd zijn op consensus binnen belangrijke Europese projecten (vgl. Zampolli 1995: XVIII-XXII). Voor de codering van tekstkenmerken begint sinds een paar jaar XML (Extensible Markup Language) een steeds prominentere rol te spelen als standaard (http://www.w3.org/XML/ ). XML is ontwikkeld in de ICT-wereld (e-commerce e.d.), dus in een geheel andere context dan de TEI en EAGLES. Deze taal wordt algemeen beschouwd als een goede vervanger voor het te complexe SGML (Standard Generalized Markup Language) en het te beperkte HTML (HyperText Markup Language, gebruikt voor codering van documenten op het WWW). XML is alleen bedoeld voor codering van tekstuele inhoud. Codering van vorm zoals lettergrootte etc. wordt gerealiseerd via XSL (Extensible Stylesheet Language). De grote mate van vrijheid die XML biedt voor het ontwerpen en implementeren van een eigen coderingsstelsel leek in eerste instantie strijdig te zijn met de hierboven genoemde standaarden. Inmiddels worden echter XML-versies ontwikkeld van de CES en de TEI. Overigens is de ideale wereld als hierboven geschetst in werkelijkheid niet zo ideaal. Problemen met de interpretatie van de onderscheiden categorieën dan wel vrijheden bij de toepassing van de standaarden kunnen leiden tot verschillen, ondanks het gebruik van eenzelfde standaard. Ook bestaan er verschillende versies van eenzelfde standaard. Zo heeft de EAGLES-standaard tijdens zijn ontwikkeling verschillende uitwerkingen gekregen in verschillende Europese projecten (vgl. Van Eynde 2000). Verder bestaan er verschillende standaarden naast elkaar, waartussen soms weinig verband lijkt te zijn (vgl. de vorige alinea). Dit geldt ook voor andere domeinen. Zo geeft Budin (2000) aan dat er binnen de multilinguale terminologie veel verschillende standaarden bestaan, waaronder TEI (TIF; vgl. hierboven), OLIF (Open Lexicon Interchange Format) en MARTIF (Machine-Readable Terminology Interchange Format). In het SALT-project (Standards-based Access to 5
"Humaniora" betekent in Vlaanderen in de eerste plaats "secundair onderwijs". Dit wordt hier niet bedoeld.
69
multilingual Lexicons and Terminologies), dat in 2000 gestart is, wordt een poging gedaan de laatste twee te combineren in een XML-gebaseerde database voor multilinguale lexica en terminologische databases (zie http://www.ttt.org/salt/description.html). Voor nadere details over de toepassing van standaarden voor de verschillende taalmaterialen verwijzen we naar 4.2.2.-4.2.5. 4.2.1.4 Procedurele en personele aspecten Er zijn procedureel twee typen van verrijking te onderscheiden. De ene is het toevoegen van informatie die ontleend wordt aan een andere bron dan het te verrijken taalmateriaal. Enkele voorbeelden zijn: het aanmaken van een lexicon met informatie uit reeds bestaande elektronische verrijkte woordenlijsten of woordenboeken; het automatisch lemmatiseren en taggen van woorden in een tekst met behulp van een computationeel lexicon met informatie over het lemma (trefwoord) en de woordsoort van de ingangen. Er zijn vaak conversieslagen nodig, zowel taalkundig-inhoudelijk als vormelijk (representatie). Zie verder 4.2.2.4. en 4.2.5. De andere is het expliciteren van informatie die reeds in de tekst begrepen is, zoals het expliciet als 'artikel' coderen van alle afzonderlijke artikelen van een woordenboek of het expliciet als 'hoofdstuk' coderen van alle afzonderlijke hoofdstukken van een boek. Als dit automatisch gebeurt, moet eerst worden vastgesteld of en zo ja welk systematisch verband er is tussen inhoud en vorm; nauwkeuriger geformuleerd: tussen de aard van een tekstfragment (bijv. 'hoofdstuk') enerzijds en vorm- en structuurkenmerken van het tekstfragment en de context anderzijds, zodanig dat de aard van een tekstfragment automatisch identificeerbaar is binnen de context. Zie ook hieronder en verder 4.2.2.3. en 4.2.4. Er zijn drie manieren om verrijking aan te brengen: handmatig, semi-automatisch (computerondersteund) en volledig automatisch. Computers en software zijn in principe krachtig genoeg voor het aanbrengen van taalkundige verrijking. Toch wordt automatische verrijking niet altijd toegepast. Of automatische verrijking wenselijk en/of haalbaar is hangt af van verschillende factoren, zoals de omvang van het te verrijken taalmateriaal (weegt de werklast van softwareontwikkeling op tegen die van handmatige of computerondersteunde verrijking?), het type verrijking (vgl. 4.3.), de beschikbaarheid van gekwalificeerd personeel en in bepaalde gevallen de beschikbaarheid van trainingsmateriaal (vgl. 4.2.2.4. en 4.3.). De ontwikkeling van taalkundige verrijkingssoftware (zoals een woordsoorttagger, syntactische parser e.d.) en software voor inhoudelijke conversies van het ene taalkundige stelsel naar het andere (vgl. hierboven), vereist hooggekwalificeerde computerlinguïsten (waartoe we hier ook computationeel linguïsten rekenen), mensen die een goede kennis hebben van zowel linguïstiek als informatica en die goed en efficiënt kunnen programmeren6. Computerlinguïsten zijn schaars, mede doordat er pas betrekkelijk recent gespecialiseerde opleidingsmogelijkheden gekomen zijn. Indien nodig, kan een ter zake gespecialiseerde linguïst behulpzaam zijn bij taalkundige problemen. Verrijking in de vorm van het expliciteren van informatie die reeds in de tekst begrepen is, vergt altijd vooraf een analyse van de relatie tussen vorm en inhoud. De uitkomsten daarvan worden vervolgens verwerkt in het computerprogramma dat de codering aanbrengt. Het geheel kan gedaan worden door een computerlinguïst, of kan worden uitgevoerd in samenwerking met een neerlandicus (vgl. 4.2.6.1.1.). Bij de analyse van niet al te complexe 6
Een andere methode is dat een linguïst het taalkundig denkwerk doet en een niet-taalkundig geschoolde programmeur de software maakt. Deze methode werd in de begintijd van de computerlinguïstiek noodzakelijkerwijs altijd toegepast, bij gebrek aan computerlinguïsten. Nu lijkt de hierboven genoemde situatie de voorkeur te hebben, waarbij bijdragen van een linguïst op gespecialiseerde onderdelen niet uitgesloten zijn.
70
teksten kan ondersteuning geboden worden door daarop getraind personeel op het niveau van HAVO/VWO resp. de vergelijkbare richtingen in het Belgische ASO (Algemeen Secundair Onderwijs). Voor de infrastructurele aspecten verwijzen we naar 4.6. Volledig automatische verrijking levert nooit 100% correcte en consistente annotaties op, handmatige verrijking overigens ook niet (bijv. Zavrel 1999, intern rapport genoemd in LREC 2000, p. 1433; Van Halteren op http://ilk.kub.nl/clin2000/abstracts/vanhalteren.txt). Computerondersteunde verrijking biedt het voordeel dat al tijdens de verrijking controlemechanismen kunnen worden ingebouwd. Vaak is correctie achteraf ('postprocessing') gewenst, die, afhankelijk van het type fouten, automatisch, semi-automatisch of handmatig uitgevoerd kan worden. Bij de foutenanalyse en de correctie zelf kan veelal ondersteuning geboden worden door personeel op het niveau van HAVO/VWO resp. de vergelijkbare richtingen in het Belgische ASO. Zie verder 4.2.6. Concluderend kunnen we stellen dat de taalkundige bewerkingen op taalmateriaal divers en veelomvattend zijn en verschillende typen specialistische expertises vereisen. Die specialistische expertises zijn verspreid in het Nederlandse taalgebied aanwezig. De TSTcentrale zoals opgevat in 2.2.3. zal voor de taalkundige bewerking van taalmateriaal moeten samenwerken met externe specialisten, maar zal uitdrukkelijk ook zelf een personele basisvoorziening moeten hebben om die kennis 'van buiten' te kunnen implementeren, de verrijkte data te onderhouden (vgl. hoofdstuk 6), de data 'op maat' aan te passen en andere vormen van dienstverlening te kunnen bieden (vgl. hoofdstuk 8). Die basisvoorziening bestaat uit ondersteunend personeel, linguïsten en computerlinguïsten, alsmede deskundigen op het gebied van automatisering om op een verantwoorde manier dat verrijkte materiaal te beheren en te distribueren (vgl. 5.3. en hoofdstuk 7). De taken van zo'n basisvoorziening zijn te veel omvattend om als nevenactiviteit te laten uitvoeren door een reeds aanwezige personele formatie; er zullen dus middelen moeten komen voor additionele formatieplaatsen gealloceerd aan de taken van de TST-centrale, wil die haar taken naar behoren kunnen uitvoeren. Vgl. ook 4.6. en 4.8. 4.2.2
Verrijking van corpora van geschreven taal
In deze paragraaf gaan we nader in op de verschillende soorten verrijking die kunnen worden toegepast op corpora van geschreven taal. Soortgelijke informatie voor corpora van gesproken taal, spraakcorpora, elektronische woordenboeken en lexica wordt gegeven in resp. 4.2.3., 4.2.4. en 4.2.5. Voor corpora van geschreven taal zijn er verscheidene niveaus van verrijking te onderscheiden (vgl. 4.2.1.1.): - verrijking van het corpus als geheel - verrijking van afzonderlijke teksten - verrijking van tekststructurele eenheden7 binnen de tekst - verrijking van taalkundige eenheden binnen de tekst 7
Onder tekststructuurcodering verstaan we in dit stuk het coderen van eigenschappen van tekststructuele eenheden. Onder tekststructurele eenheden rekenen we hier alle onderdelen van een tekst (zie 4.2.2.3.). De binnen TEI gebruikelijke term 'text encoding', tekstcodering, is in dit verband niet specifiek genoeg om het onderscheid te maken tussen de explicitering van de aard van de tekstuele eenheden en het toevoegen van taalkundige eigenschappen aan tekstuele eenheden (vgl. 4.2.14.).
71
Voor elk van deze niveaus worden mogelijke verrijkingscategorieën en hun representatie besproken, met inbegrip van de voor corpora relevante standaarden TEI, CES en EAGLES (vgl. 4.2.1.3.). Het gebruik van deze standaarden is in het algemeen te prefereren, met name in het geval van projecten (van individuele onderzoekers of organisaties) waar rekening gehouden wordt met hergebruik van de ontwikkelde corpora door anderen. Echter, een waarschuwing is hier op zijn plaats voor wat betreft de TEI. Men dient er rekening mee te houden dat het een substantiële inspanning vergt om zich die materie eigen te maken (vele mensmaanden). Het is in dit bestek dan ook onmogelijk inhoudelijk diep in te gaan op de TEI. Zie voor een inleiding tot de TEI http://www.hcu.ox.ac.uk/TEI/Tutorials/. De meest recente versie van de volledige TEI Guidelines, de P3, staat op http://www.teic.org/Guidelines2/index.html. De CES (http://www.cs.vassar.edu/CES/) is ontwikkeld binnen EAGLES met het oog op corpusgebaseerd werk voor natuurlijke-taalverwerkende toepassingen en is compatibel met de TEI. Zowel de TEI als de CES zijn toepassingen van de ISO-standaard SGML (Standard Generalized Markup Language). Zie voor software waarmee verrijking van Nederlands taalmateriaal automatisch kan worden aangebracht 4.3. 4.2.2.1 Verrijking van het corpus als geheel Aan een corpus als geheel werden tot voor kort zelden of nooit verrijkingscategorieën toegekend (vgl. de corpora besproken in Bouma en Schuurman 1998: 2.1.1.). Eigenschappen van het corpus als geheel (bijv. de taal, inhoudelijke samenstelling, de periode die het corpus bestrijkt, welke taalkundige verrijking toegepast is etc.) werden hooguit gedocumenteerd. Als een corpus wordt ontwikkeld volgens de TEI of de CES, komt er een uitputtende verantwoording van het corpus in de zogeheten corpusheader, die daarvoor speciaal is ingericht. De header bevat een 'file description', een 'encoding description', een 'profile description' en een 'revision description'. De 'file description' bevat een beschrijving van het elektronische corpusbestand (naam, omvang, wie het corpus distribueert, welk gebruik is toegestaan etc.), alsmede eventueel een volledige bibliografische beschrijving van de bronteksten (vgl. Dunlop 1995: 88). De 'encoding description' verantwoordt onder meer de op het corpus toegepaste systemen voor tekstclassificatie en taalkundige verrijking, en geeft een overzicht van alle in het corpus voorkomende verrijkingscodes. De 'profile description' bevat onder meer informatie over de talen die in het corpus voorkomen (deze informatie wordt in detail vastgelegd in de tekstheader; zie hieronder). De 'revision description' ten slotte vat samen welke revisies het corpus achtereenvolgens heeft ondergaan. De TEI en CES schrijven voor hoe al deze informatie gerepresenteerd moet worden. In zijn simpelste vorm staat informatie tussen een begin- en een eind-'tag', een code tussen vishaken. Begin- en eindtag hebben dezelfde codenaam en onderscheiden zich van elkaar door een slash in de eindtag (zie voorbeeld hieronder). Er wordt gewerkt met een soort grammatica (DTD: document type definition) waarin de mate van verplichtheid van de tags en de onderlinge hiërarchische relaties tussen de verschillende soorten tags beregeld zijn: binnen bepaalde begin- en eindtags kunnen andere tags met hun begin- en eind-tag voorkomen ('nesting'). Door middel van standaardprogrammatuur (nsgmls) kan worden gecheckt of een corpus (of een tekst) 'valideert', d.w.z. voldoet aan de vormelijke regels van de grammatica (er is geen check op de juistheid van de inhoud). De hoofdstructuur van de header ziet er volgens de CES als volgt uit:
72
<encodingDesc> <profileDesc>
…tekst met informatie… …tekst met informatie… …tekst met informatie… …tekst met informatie…
De vier soorten descriptions zijn dus ingebed ('genest') in de header. Binnen elk van de descriptions worden nog ingebedde andere categorieën onderscheiden; zie daarvoor de genoemde website-adressen. De corpusheader kan deels automatisch ingevuld worden op basis van gegevens op tekstniveau (in de tekstheader; zie hieronder). De corpusheader fungeert voor de gebruiker als informatiebron over alle eigenschappen van het corpus, inclusief een verantwoording van de gemaakte keuzes. Dit is te meer van belang als er voor een bepaald onderzoeksdoel of applicatie verscheidene corpora voorhanden zijn, al dan niet bij (non-profit) organisaties op diverse plaatsen. Als al die corpora een standaard TEI- of CES-header hebben, is snel te bepalen welk corpus het meest geschikt is. Een corpus is nooit een doel op zichzelf maar altijd een onderzoeksinstrument. De header is dan ook op te vatten als een qua structuur gestandaardiseerde handleiding bij dat instrument. 4.2.2.2 Verrijking van afzonderlijke teksten Ook voordat de TEI of CES werd toegepast, werden altijd bepaalde gegevens per tekst op een of andere wijze in het corpussysteem vastgelegd, zoals bibliografische gegevens en een of meer tekstclassificaties waaraan de tekst voldoet (bijv. tekstdrager=tijdschrift; onderwerpsdomein=sport). Daarmee kan uit het corpusopslagsysteem een subcorpus worden afgeleid op grond van bijv. de auteursnaam, de titel, het jaar van publicatie, het type tekstdrager (krant vs. boek vs. tijdschrift e.d.) en combinaties van dergelijke eigenschappen. De gebruiker kan daardoor zijn onderzoek betrekken op het specifiek door hem gekozen taalmateriaal (dat zelfs slechts een enkele tekst kan omvatten). Een organisatie als de TSTcentrale kan zo vrij eenvoudig 'data op maat' selecteren en leveren aan derden (restricties door copyright hier buiten beschouwing gelaten). Een voorbeeld van een flexibele subcorpusselectie door de gebruiker zelf zijn de 3 corpora die het INL door middel van een retrievalsysteem raadpleegbaar stelt via Internet (www.inl.nl/corp/corp.htm). De mogelijkheden tot subcorpusselectie zijn hier gerealiseerd door vastlegging en verwerking van alle parameters voor subcorpusselectie in het opslag- en retrievalsysteem. Volgens de richtlijnen van de TEI en CES worden de eigenschappen van een tekst ook in een header vastgelegd, een header op tekstniveau. Deze header heeft dezelfde hoofdstructuur als hierboven voor een geheel corpus is aangegeven. De informatie is natuurlijk anders: in deze header staat die informatie die betrekking heeft op uitsluitend de onderhavige tekst. Daarin worden onder meer opgenomen gegevens over de oorspronkelijke tekst en de auteur, de in de tekst voorkomende tags, de tekstclassificaties, de in de tekst voorkomende talen, de voorwaarden voor gebruik etc.; ook kunnen gegevens worden vastgelegd als het aantal woorden in de tekst, of voor die tekst geldende kwantitatieve gegevens met betrekking tot de verrijking, bijv. het aantal woorden (tokens; zie noot 3) per woordsoortcategorie. De tekstheader kan soms deels automatisch worden ingevuld op basis van gegevens in de afzonderlijke tekstbestanden. Zie voor software voor de automatische classificatie van teksten 4.3.2.1.
73
Net als hierboven fungeert de tekstheader voor de gebruiker als informatiebron over alle eigenschappen van een tekst. Zo kunnen voor een taaltechnologische applicatie op basis van de headerinformatie die teksten uit het corpus geselecteerd worden die meer dan bepaald aantal woorden bevatten, en/of een bepaald aantal eigennamen. De TEI en de CES bieden middelen voor de representatie van informatie over een tekst; voor een inhoudelijke teksttypologie heeft EAGLES 'preliminary recommendations' opgesteld (http://www.ilc.pi.cnr.it/EAGLES96/texttyp/texttyp.html; voor de status van deze aanbevelingen zie http://www.ilc.pi.cnr.it/EAGLES96/status.html). Vergelijk ook 2.10.5. 4.2.2.3 Verrijking van tekststructurele eenheden binnen de tekst Verrijking kan ook betrekking hebben op eenheden binnen een tekst: taalkundig relevante eenheden (zie 4.2.1.1. en 4.2.2.5.) en tekststructerele eenheden. Op de laatstgenoemde gaan we hier nader in. Binnen de TEI en de CES worden in een tekst drie hoofdonderdelen onderscheiden: de 'front' (al het 'voorwerk' met inhoudsopgaven, voorwoorden e.d.), de 'body' (de eigenlijke tekst) en de 'back' (al het 'nawerk', bijv. nawoorden, registers, noten e.d.)8. Onder tekststructurele eenheden rekenen we hier alle onderdelen van een tekst: vanaf het niveau van de afzonderlijke letters en interpunctie tot de hiërarchisch hoogste front, body en back. De door verrijking te expliciteren eigenschappen (dus de te coderen informatie) variëren van typografische kenmerken tot de codering van bijv. een hoofdstuk met een begin- en eindtag voor 'hoofdstuk' (vgl. 4.2.1.4.) of de eigenlijke tekst met begin- en eindtag voor 'body'. De hoofdprincipes zijn dezelfde als die beschreven in 4.2.2.1.: het is een grammatica voor het plaatsen van tags, die ofwel binnen een hiërarchisch hogere 'parent'-tag gebruikt kunnen worden, ofwel hiërarchisch lagere 'children'-tags kunnen omvatten. Zowel de TEI als de CES biedt voorzieningen voor de codering van eigenschappen van tekststructurele eenheden, maar er is een verschil in gerichtheid. De TEI is ontwikkeld voor de humaniora (zie noot 5), dus voor een zeer breed terrein van onderzoek, en biedt dan ook oplossingen voor een geweldige hoeveelheid eigenschappen van tekststructurele eenheden, binnen zowel de logische structuur van een tekst als de fysieke structuur9. Wie tekststructurele eenheden gaat coderen volgens de TEI doet er goed aan zich vooraf duidelijk de vraag stellen welke verrijking nodig is voor het onderzoek. De functie van dit type verrijking ligt immers in de sfeer van de retrieval: het gaat om ofwel de retrieval van tekstfragmenten met een bepaalde eigenschap (bijv. 'inhoudsopgave') ofwel om het zoekdomein af te bakenen (bijv. zoek naar twee woorden binnen één zin). De CES is primair ontwikkeld ten behoeve van corpusgebaseerd werk voor taaltechnologisch onderzoek en toepassingen en is een op deze doeleinden toegespitste selectie uit de TEI, uitgebreid met voorzieningen die de TEI nog niet bood. De CES stelt een minimaal niveau van corpuscodering vast, waaraan corpora moeten voldoen om als gestandaardiseerd beschouwd te kunnen worden wat betreft de representatie van structurele en taalkundige informatie. Zie verder http://www.cs.vassar.edu/CES/CES1-0.html. Zie voor een overzicht van projecten waarin de CES is toegepast http://www.cs.vassar.edu/CES/CESP.html. Of en hoe van de CES-codering gebruik gemaakt wordt in natuurlijke-taalverwerkend 8
Welke informatie zich in de front, body of back bevindt, kan per tekst verschillen. Zo kunnen voetnoten allemaal in de back staan of in de body van de tekst onderaan de pagina of aan het eind van een hoofdstuk. Een inhoudsopgave kan in de front of in de back staan etc. 9 De logische structuur van een tekst betreft de hiërarchische structuurindeling van een tekst die direct betrekking heeft op de inhoud van de tekst: de indeling in hoofdstukken, alinea's e.d. De fysieke structuur van een tekst staat in directe relatie tot de tekstdrager: voor gedrukte boeken bijv. de paginering.
74
onderzoek of toepassingen, is niet eenvoudig te achterhalen; een goed voorbeeld is computationeel linguïstisch onderzoek van parallelle bijbelteksten door Resnik et al. (1997) op http://benjamin.umd.edu/parallel/bible.html. Er zijn verscheidene andere initiatieven om selecties uit de TEI te formeren. De belangrijkste is de TEI-Lite (http://www.tei-c.org/Lite/index.html), die een goede ingang biedt tot de TEI. Binnen de neerlandistiek wordt de behoefte gevoeld om tot een nog verdergaande reductie van de TEI te komen: een gemeenschappelijk minimumniveau van TEI-codering dat voor velerlei typen van neerlandistisch onderzoek een nuttig basis zou kunnen vormen. Het Electronic Text Centre Leiden (ETCL) heeft daarvoor een eerste, voorlopig voorstel gedaan (http://www.etcl.nl/teiguide/), nadat een discussieforum, waarin diverse Nederlandse en Vlaamse instellingen10 vertegenwoordigd waren, het idee van zo'n minimumniveau ondersteund had. De non-profitorganisatie die het verworven materiaal bewerkt en/of onderhoudt, zou kunnen bijdragen aan de verdere uitwerking hiervan vanuit het perspectief van de in de praktijk blijkende gebruikersbehoeften. Bij toepassing van zowel de TEI als de CES geldt de vraag of de codering geheel handmatig, computerondersteund of automatisch moet worden aangebracht (vgl. http://www.teic.org/Software/index.html). Automatische codering heeft alleen zin als aan twee voorwaarden voldaan is. Ten eerste moet het verband tussen inhoud en vorm voldoende regelmatig zijn, omdat er anders te veel fouten in de codering komen en de gecodeerde tekst niet valideert. Immers, bij deze vorm van verrijken gaat het om het expliciteren van informatie die reeds in de tekst begrepen is (zie 4.2.1.4.). Ten tweede moet er een zeer grote hoeveelheid tekst met dezelfde structuur te coderen zijn (bijv. uitgaven van een krant of tijdschrift); dan kan veel tekst met hetzelfde programma worden gecodeerd en is automatische codering efficiënter dan handmatig coderen (vgl. 4.2.6.1.1.). 4.2.2.4 Verrijking van taalkundige eenheden binnen de tekst Ook taalkundig relevante eenheden zijn eenheden binnen een tekst die voor verrijking in aanmerking komen. De belangrijkste eenheden zijn morfeem, woordvorm ('token'; zie noot 3), combinaties van woordvormen (woordgroepen), zinnen en combinaties van samenhangende zinnen. De te annoteren eigenschappen kunnen van morfologische, morfosyntactische, syntactische, semantische en pragmatische aard zijn. Welke verrijking zinvol is, hangt af van het onderzoeksdoel of de applicatie. Een van de functies van dit type verrijking is retrieval te kunnen plegen op tekstuele eenheden met een bepaalde taalkundige eigenschap (of combinatie van eigenschappen), dan wel die eenheden als zoekdomein te kunnen gebruiken, ongeacht de vraag of het gaat om retrieval op de tekst als doel op zich of in functie van het maken van (half)producten zoals een computationeel lexicon e.d. (vgl. 4.1.2.1.). Een andere functie van dit type verrijking is patronen/systematiek in taalgebruik te kunnen identificeren op een hoger abstractieniveau dan dat van de afzonderlijke woordvormen; deze functie heeft verrijking bijv. in softwareontwikkeling op basis van trainingscorpora (vgl. 4.3.1.1.). Bouma en Schuurman (1998: 65) tonen aan dat voor allerlei TST-toepassingen behoefte is aan o.a. heel grote, rijk geannoteerde corpora; zij specificeren ook welke annotatie gewenst is in een ideale infrastructuur voor TST (sectie 1.7.). Zie voor de relatie tussen verrijking en het gebruik verder 4.2.1.2.
10
Bureau voor Editiewetenschap en Bronnenstudie (Antwerpen), Universiteitsbibliotheek Leiden, Nederlandse Taalunie, Instituut voor Nederlandse Lexicologie, Constantijn Huygens Instituut voor Teksteditie, Electronic text Centre.
75
Eenieder kan in principe eigen taalkundige eenheden en de te verrijken eigenschappen daarvan bepalen. Die eigenschappen met hun codenamen vormen de 'tagset' of het 'annotatieschema' (zie hieronder voor voorbeelden). Vaak moet ook een beslissing worden genomen over de wijze waarop het annotatieschema moet worden toegepast op het nietverrijkte taalmateriaal. Zo zijn er twee essentieel verschillende methodes (met tussenvormen) voor toepassing van een woordsoorttagset op corpusdata: ofwel wordt er geen rekening gehouden met de context (de woordsoort wordt beschouwd als inherent aan de woordvorm of het trefwoord; bijv. 'sterk' is altijd een adjectief), ofwel wordt de woordsoort bepaald door de functie van de woordvorm binnen een grotere taalkundige eenheid (bijv. 'sterk' wordt verrijkt als 'bijwoord' in 'sterk geurend'). Ook de representatievorm van de verrijking in corpusteksten is in principe vrij, hoewel een dwingende eis voor computergebruik van de gecodeerde data is dat de codering altijd ondubbelzinnig te onderscheiden is van de eigenlijke tekst. Wanneer hergebruik van de verrijkte corpusdata beoogd wordt voor TST-doeleinden, is het in het algemeen aan te bevelen de standaarden van EAGLES (http://www.ilc.pi.cnr.it/EAGLES/browse.html) toe te passen (vgl. 4.2.1.3.). We gaan in deze paragraaf hier verder van uit. Voor diverse andere verrijkingsmethoden die toegepast zijn voor het Nederlands en daarvoor ontwikkelde software verwijzen we naar Bouma en Schuurman (1998: hoofdstuk 2); zie ook 4.3. De verrijking van taalkundige eenheden kan in principe altijd handmatig en in bepaalde gevallen automatisch worden aangebracht. Handmatige verrijking is nauwelijks haalbaar als het om grote corpora gaat (de grootte van bestaande handmatig verrijkte corpora varieert van 0.5 tot 2 miljoen woorden). Zie 4.3. voor software die beschikbaar is voor het Nederlands, alsmede voor allerlei randcondities voor automatische verrijking. Anders dan bij de verrijking van tekststructurele eenheden (4.2.2.3.) gaat het bij taalkundige verrijking niet om het expliciteren van informatie maar om het toevoegen van informatie aan teksteenheden. Wanneer daarbij gebruik wordt gemaakt van bestaande annotatieschema's (tagsets), kan automatische of manuele conversie nodig zijn. We gaan nu in op de afzonderlijke taalkundige eigenschappen. Het zal duidelijk worden dat het bij deze vorm van verrijking gaat om diverse linguïstische specialismen (vgl. de conclusie van 4.2.1.4.). 4.2.2.4.1 Morfologische eigenschappen De TEI biedt middelen voor de representatie van de morfeemeigenschappen 'prefix', 'root' en 'suffix' van woordvormen. EAGLES besteedt geen aandacht aan dit niveau. Voor zover bekend zijn er geen corpora van geschreven taal verrijkt op morfeemniveau. Mogelijk is dit niveau van taalkundige verrijking eerder van toepassing op lexica (vgl. Bouma en Schuurman: 14). 4.2.2.4.2 Morfosyntactische eigenschappen Op http://www.ilc.pi.cnr.it/EAGLES96/annotate/annotate.html zijn EAGLES-aanbevelingen te vinden voor de morfosyntactische verrijking van de woordvormen in een corpus. Het betreft een stelsel voor woordsoortbenoeming (de 'tagset'), waarbij voor iedere woordsoorttag een aantal 'features' voorzien is (bijv. features 'meervoud' en 'geslacht' bij woordsoort 'noun'). Voor de representatie van deze informatie binnen de tekst bieden de TEI en de CES richtlijnen.
76
Een groot deel van de EAGLES-tagset is 'cross-linguistic', d.w.z. van toepassing op een groot aantal West- en Oost-Europese talen. Verder biedt de tagset mogelijkheden voor het benoemen van taalspecifieke eigenschappen. Taaltheoretisch is de morfosyntaxis een domein waarover veel consensus is (http://www.ilc.pi.cnr.it/EAGLES96/morphsyn/node8.html). De EAGLES-richtlijnen zijn in verscheidene Europese taaltechnologische projecten toegepast, zij het met onderlinge verschillen en met afwijkingen van EAGLES doordat tijdens die projecten de EAGLES-standaard nog in ontwikkeling was (vgl. Van Eynde 2000). Een Nederlands corpus waarin de EAGLES-standaard een uitwerking heeft gekregen is een subcorpus van het PAROLE-corpus (Kruyt 1998; www.inl.nl). Dit subcorpus met 250.000 morfosyntactisch getagde woorden is onderdeel van het PAROLE Distributable Corpus (3 miljoen woorden); zie www.inl.nl/corp/parole.htm, waar ook een link naar de toegepaste tagset is. In de loop van 2001 zal het gehele PAROLE-corpus (20 miljoen woorden) worden verrijkt met PAROLE-woordsoort en met trefwoord. Vanuit TST-perspectief vormt morfosyntactische verrijking vaak een basis voor andere typen van taalkundige verrijking, zoals automatisch lemmatiseren en syntactisch verrijken (zie 4.3.). Ook worden morfosyntactische verrijkte corpusdata gebruikt bij bepaalde technieken voor de acquisitie van semantische informatie; zie de sectie hieronder over semantische verrijking. 4.2.2.4.3 Lemma (trefwoord) De verrijking met de trefwoordvorm van een woordvorm, zoals die in het woordenboek te vinden is, is nauw gerelateerd aan de verrijking met woordsoort in verband met ambiguïteit. Bijv. voor een woordvorm als 'sleep' zijn er drie mogelijkheden: (1) lemma 'sleep' met woordsoort 'noun' en feature (o.a.) 'enkelvoud', (2) lemma 'slepen' met woordsoort 'werkwoord' en features (o.a.) 1e persoon enkelvoud' van de 'tegenwoordige tijd', en (3) lemma 'slijpen' met woordsoort 'werkwoord' en features '1e1e-3e persoon enkelvoud' van de 'onvoltooid verleden tijd'. Het lemma is ambigu zolang de woordsoort en features nog niet bepaald zijn. Er is geen internationale standaard voor lemmatisering, of voor de principes die bij lemmatisering worden toegepast. Toch is het lemmatiseren niet geheel probleemloos. De keuze van het lemma is niet zonder meer duidelijk voor bijv. woordvormen als 'me', 'ikzelf', 'mijzelf' en 'mezelf'. Ook zijn er problemen bij het lemmatiseren van woordvormen als 'koning(in)', van woorddelen als 'rijks-' in 'rijks- en gemeentegrenzen', van scheidbare woorden, van meerwoordsingangen als 'van ganser harte' (met vaste woordkeus en woordvolgorde) en 'te rade gaan' (met flexie en vrijere woordvolgorde). Er lijkt minder aandacht te zijn voor lemmatiseren dan bijv. voor woordsoorttagging. Niettemin is lemmatiseren van belang voor bijv. document- en informatieretrieval, voor computerondersteund vertalen, voor lexiconopbouw, voor de extractie van collocaties en andere meerwoordspatronen op trefwoordniveau. Vgl. ook Hajičová et al. (2000), waar pragmatische verrijking wordt gekoppeld aan lemma. 4.2.2.4.4 Syntactische eigenschappen De EAGLES-richtlijnen voor syntactische verrijking van woordgroepen en zinnen hebben de status 'preliminary recommendation' (zie http://www.ilc.pi.cnr.it/EAGLES96/status.html) en dus nog niet een status vergelijkbaar met die voor morfosyntactische verrijking. Waar het om gaat is het onderscheiden van woordgroepen ('bracketing'), het benoemen van woordgroepen naar hun aard (bijv. adjective phrase, prepositional phrase, noun phrase, verb phrase, clause,
77
sentence) en het vaststellen van de onderlinge verbanden tussen woordgroepen ('coordination'). De richtlijnen bieden diverse niveaus van verdergaande karakterisering van woordgroepen (zoals subcategorisatie van clauses, of de functionele benoeming van een noun phrase als grammaticaal object), waarbij ook bepaalde vormen van semantiek aan de orde komen. Zie verder http://www.ilc.pi.cnr.it/EAGLES96/segsasg1/segsasg1.html., waar ook een bespreking van andere problematieken met betrekking tot syntactische verrijking te vinden is. De EAGLES-richtlijnen voor syntactische verrijking zijn vooral gebaseerd op het Engels. Dit komt doordat syntactische verrijking van corpora een betrekkelijk nieuw verschijnsel is en er dus, behalve voor het Engels, weinig voorbeelden van andere talen beschikbaar waren op basis waarvan een de facto consensusmodel ontwikkeld had kunnen worden (voor het Nederlands diende het annotatieschema van het AMAZON/CASUSsysteem11 als voorbeeld). De richtlijnen worden om die reden tentatief toepasbaar genoemd op Europese talen in het algemeen; er is dan ook geen onderscheid tussen generieke en taalspecifieke annotatie. Ook zijn er, anders dan bij de morfosyntactische verrijking, nog geen verplicht toe te passen niveaus van syntactische verrijking. Wordt daarvoor in EAGLES 'bracketing' nog een mogelijke kandidaat genoemd, recente ontwikkelingen (Corpus Gesproken Nederlands) abstraheren van de afbakening van zinsconstituenten en concentreren zich op het vastleggen en benoemen van afhankelijkheidsrelaties. Voor TST-doeleinden zijn syntactisch verrijkte corpora van belang voor de ontwikkeling (trainen) en het testen van robuuste 'wide-coverage' syntactische parsers (automatische zinsontleders), alsmede voor de ontwikkeling van probabilistische grammatica's. Ook worden syntactisch verrijkte corpusdata gebruikt voor de acquisitie van semantische informatie; zie hieronder. 4.2.2.4.5 Semantische eigenschappen Alle taalkundige eenheden in een zin kunnen in principe voor semantische verrijking in aanmerking komen. Er zijn veel typen semantische verrijking en veel semantische taaltheoretische modellen die de basis voor semantische verrijking kunnen vormen. EAGLES heeft (nog?) geen richtlijnen ontwikkeld voor de semantische verrijking van corpora. Ook de TEI en de CES bieden geen representatie voor semantische informatie. Voor onderzoekers en organisaties op taaltechnologisch gebied is relevant dat de EAGLES Lexicon Interest Group wel voorlopige aanbevelingen heeft gedaan voor de lexicaalsemantische codering van lexica; zie hiervoor het rapport EAGLES LE3-4244 (1999) op http://www.ilc.pi.cnr.it/EAGLES96/EAGLESLE.PDF (295 pp.). In deel III daarvan wordt besproken welke semantische informatie nodig is voor taaltechnologische applicaties op het gebied van automatisch vertalen, 'information retrieval', 'information extraction', automatische tekstsamenvatting en automatische generatie van natuurlijke taal. Technieken om aan die semantische informatie te komen zijn woordclustering, de herkenning en extractie van meerwoordspatronen, de disambiguering van de betekenis van woorden in hun context (word sense disambiguation WSD) en de herkenning en classificatie van eigennamen. Deze technieken, met name WSD, zijn overigens nog niet uitontwikkeld. Verscheidene methodologieën binnen die technieken maken gebruik van ongeannoteerde corpora, andere daarentegen van morfosyntactische en/of syntactische verrijkte corpusdata. Corpusdata waarin de corpuswoorden getagd zijn met hun betekenis worden gebruikt als trainingscorpus en als
11
Voor meer informatie over dit project en de huidige status ervan: http://lands.let.kun.nl/TSpublic/dreumel/amazon_casus.nl.html en http://lands.let.kun.nl/projects/structuralist.nl.html.
78
testbed voor automatische WSD-technieken. Zie voor nadere gegevens hierover hoofdstuk 5 van genoemd EAGLES-rapport. Lexicaal-semantisch verrijkte corpora staan momenteel erg in de belangstelling, mede doordat sinds 1998 evaluaties van beschikbare WSD-software georganiseerd worden (Senseval, Romanseval; zie http://www.itri.brighton.ac.uk/events/senseval/). Zie ook het themanummer over 'semantic tagging' van het tijdschrift Natural Language Engineering (juni 1999) en de proceedings van de Second International Conference on Language Resources and Evaluation LREC (Gavrilidou et al. 2000). Ook de interesse in automatische herkenning en classificatie van eigennamen, bekend onder de naam Named Entity Recognition, is sterk toegenomen om de kwaliteit van informatie- en document-retrieval te verhogen. Als trainingscorpus worden corpora verrijkt met diverse typen eigennamen gebruikt. Zie verder genoemde LREC-proceedings en daarin voor het Nederlands Buchholz en Van den Bosch (pp. 1215-1221). 4.2.2.4.6 Pragmatische eigenschappen Evenals de semantiek is de pragmatiek een veelomvattend domein, waarvoor de taaltechnologie nog nauwelijks wordt ingezet. Een vorm van pragmatische verrijking die in de taaltechnologie wel een actueel item is, is het leggen van een verband tussen teksteenheden (woorden, waaronder namen, en woordgroepen) die naar hetzelfde concept verwijzen. Die teksteenheden kunnen zich in dezelfde of in verschillende zinnen bevinden. Een natuurlijketaalverwerkende computer heeft hier grote moeite mee. Termen die in dit verband gebruikt worden zijn anafora, referentie en co-referentie, zij het op verschillende manieren (Kibble en Van Deemter in LREC 2000: 1281-1286). Als trainingscorpus voor het ontwikkelen en testen van software worden corpora geannoteerd met co-referentierelaties; zie voor nadere informatie de Message Understanding Conferences (MUC), voor de zesde http://cs.nyu.edu/cs/faculty/grishman/muc6.html, en voor de zevende http://www.muc.saic.com. Hajičová et al.(2000), ten slotte, beschrijven een procedure voor de annotatie van coreferentie in het nationale Tsjechische corpus ten behoeve van linguïstisch onderzoek. 4.2.3
Verrijking van corpora van gesproken taal en spraakcorpora
In deze paragraaf gaan we nader in op de verschillende soorten verrijking die kunnen worden toegepast op corpora van gesproken taal. We doen dit in 4.2.3.1. en 4.2.3.2. vanuit het perspectief van de corpuslinguïstiek, inclusief de corpusgebaseerde lexicografie. In 4.2.3.3. belicht SPEX deze problematiek vanuit het perspectief van de spraakgemeenschap. Zie voor de verschillende behoeften van de corpuslinguïstiek en de spraakgemeenschap de introductie van de hieronder genoemde aanbevelingen van EAGLES. Aangezien vanuit het hier gekozen perspectief een corpus van gesproken taal na de orthografische transcriptie fysiek op te vatten is als een corpus van geschreven taal, is er veel gemeenschappelijks met paragraaf 4.2.2. Hieronder wordt die paragraaf dan ook als bekend verondersteld; hier leggen we het accent op bijzonderheden van gesproken-taalcorpora. EAGLES heeft 'preliminary recommendations' gedaan voor corpora van gesproken taal, gebaseerd op onder meer de voorstellen van NERC (vgl. Calzolari et al. 1995 en http://www.ilc.pi.cnr.it/EAGLES96/spokentx/node19.html), de richtlijnen van de TEI en het EAGLES Handbook on Spoken Language Systems van de EAGLES Spoken Language Working Group (http://coral.lili.uni-bielefeld.de/~gibbon/EAGLES/). Zie voor een
79
inhoudsopgave met aan het einde een samenvatting van de voorstellen: http://www.ilc.pi.cnr.it/EAGLES96/spokentx/node1.html. Voor de inhoud van het themanummer 'Speech Annotation and Corpus Tools' van het tijdschrift Speech Communication 33 (2001), waarin ook linguïstische annotatie aan de orde komt, zie http://www.ldc.upenn.edu/annotation/specom.html. Voor een inventarisatie en beschrijving van Nederlandstalige spraakcorpora, zie Hoofdstuk 10 in het rapport van actielijn B&C 'Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen', W. Daelemans en H. Strik (2002). 4.2.3.1 Verrijking van het corpus als geheel en van de afzonderlijke getranscribeerde gesproken-taalfragmenten De TEI-header biedt mogelijkheden voor de documentatie van verrijkingsgegevens die betrekking hebben op het hele corpus dan wel op het niveau van de afzonderlijke getranscribeerde gesproken-taalfragmenten. Uit de aard der zaak zijn de verrijkingscategorieën en hun waarden in aantal opzichten verschillend van die van corpora van geschreven taal. In het project Corpus Gesproken Nederlands (CGN) is voorzien dat verrijkingsinformatie op deze niveaus worden gedocumenteerd in een corpusheader resp. in tekstheaders die zoveel mogelijk aansluiten bij de TEI/CES-headers (zie bijlage 2 bij CGN-intern stuk "Corpus Gesproken Nederlands: Administratie en registratie"). De headers worden automatisch gegenereerd vanuit de opnamedatabase en de sprekerdatabase. Zie ook 4.2.3.3. 4.2.3.2 Verrijking van eenheden binnen getranscribeerde gesproken-taalfragmenten Afwijkend van corpusteksten in geschreven-taalcorpora, zijn er binnen de getranscribeerde gesproken-taalfragmenten meer typen eenheden te onderscheiden dan uitsluitend tekststructurele en taalkundige eenheden. In een orthografische transcriptie komen eenheden voor als afgebroken woorden, pauzes, aarzelingen en zelfcorrecties, niet-lexicale elementen (bijv. de representatie van onverstaanbare elementen en sprekergeluiden), sprekerwisselingen, sprekeridentiteit etc. (zie ook 4.2.3.3.) EAGLES biedt aanbevelingen voor de typen eenheden die onderscheiden kunnen worden in gesproken taal en baseert zich onder meer op de TEI voor de codering van die eenheden in de transcriptie. In het project Corpus Gesproken Nederlands wordt aan verrijking op dit niveau het volgende gedaan (zie voor verdere gegevens http://lands.let.kun.nl/cgn/home.htm, waar links naar alle inhoudelijke rapporten zijn; zie ook CGN-Nieuwsbrief mei 2001). De woordvormen in de orthografische transcriptie worden verrijkt met woordsoort en trefwoord (zie F. van Eynde (2001), Part of Speech Tagging en Lemmatisering, versie juni 2001, op http://lands.let.kun.nl/cgn/protocs/tg_prot.pdf). De woordsoorttagset sluit aan bij EAGLES en de ANS (Haeseryn et al. 1997) en bevat ruim 300 tags. Een betere lemmatisering, waarbij ook scheidbare werkwoorden en preposities gerelateerd worden aan de juiste lemmata, wordt voorzien door middel van een lexicologische koppeling met het CGNlexicon. Vgl. ook 4.2.3.3. en 4.3.3.3. Zie voor de oplijning van het spraaksignaal met de orthografische transcriptie 4.2.3.3. De orthografische transcriptie van een subcorpus van ongeveer 1 miljoen woorden wordt syntactisch verrijkt in termen van dependentielabels (functionele informatie) en knooplabels
80
(categorie-informatie), volgens een theorieneutraal primair annotatieschema in termen van dependentiestructuren. De primaire annotatie kan verder worden verrijkt met de CGNwoordsoortinformatie en met informatie uit het CGN-lexicon. Vgl. ook 4.3.3.3. De orthografische transcriptie van een subcorpus van ca. 250.000 woorden zal voorts prosodisch worden verrijkt met prosodische grenzen, prominente woorden en abnormale klankverlengingen. Zie ook 4.2.3.3. Een ander gesproken-taalcorpus is OVIS (Openbaar Vervoer Informatie Systeem), een prototype van een Nederlands gesproken-taalinformatiesysteem dat operationeel is op de gewone telefoonlijnen. Het OVIS-corpus is een 'treebank' die 10.000 syntactische boomstructuren bevat verrijkt met semantische informatie Zie verder http://citeseer.nj.nec.com/bod98spoken.html) en http://www.hum.uva.nl/computerlinguistiek/bonnema/acl-DOP-sem/acl-DOP-sem.html. Het ANNO-corpus, ten slotte, bestaat voor een deel uit getranscribeerde interviews. Delen van het corpus zijn verrijkt met fonologische, morfologische, morfosyntactische, syntactische en discourse-informatie, maar het is niet duidelijk welke delen van het corpus verrijkt zijn. De demonstratie op http://www.ccl.kuleuven.ac.be/about/ANNO.html betreft alleen een voorgelezen weer- en nieuwsbericht. 4.2.3.3 Verrijking van spraakcorpora 4.2.3.3.1 Verrijking – algemeen In Hoofdstuk 3 staat vermeld dat een spraakcorpus minimaal moet zijn voorzien van een orthografische transcriptie in digitaal formaat. Een orthografische transcriptie vormt de talige toegang tot het spraakmateriaal, als het gaat om wat er is gezegd. Labelfiles met metainformatie over het spraakmateriaal vormen de toegang op een ander niveau, zoals bijvoorbeeld op akoestisch niveau. Beide soorten informatie, zowel een transcriptie als alle aanwezige meta-informatie, zijn een verrijking van een spraakcorpus, ook al moet een orthografische transcriptie als een noodzakelijk element van een spraakcorpus worden beschouwd. In een orthografische transcriptie staat vaak meer dan alleen een woordelijke weergave van wat er is gezegd. Andere, al dan niet talige, geluiden zoals achtergrondgeluiden, aarzelingen van een spreker, gevulde pauzes etc. worden ook vaak getranscribeerd, door middel van coderingen. Andere extra informatie in een orthografische transcriptie kan informatie zijn over hoe bijvoorbeeld een woord is uitgesproken, dialectisch, half afgebroken etc.. Al deze extra informatie zorgt ervoor dat een orthografische transcriptie tevens een verrijking is voor een spraakcorpus. De labelfiles met informatie over bijvoorbeeld de sprekers of opnameconditie zijn ook een verrijking omdat daarin factoren staan genoemd die van invloed kunnen zijn op de spraakfragmenten. Kortom, de basis die altijd aanwezig hoort te zijn in een spraakcorpus kan veelal worden gezien als een verrijking. 4.2.3.3.2 Andere mogelijke verrijkingen, annotatielagen Verrijking van spraakdatabases kan worden onderverdeeld in talige verrijking en niet-talige verrijking. Als eerste is informatie in zogenoemde labelfiles met informatie over bijvoorbeeld het geslacht van de spreker in een bepaald spraakfragment, zijn afkomst, de plaats van opname, bemonsteringsfrequentie van opname, etc., een verrijking van een spraakcorpus
81
omdat gegevens hierin beschreven invloed hebben op de spraak. Daarnaast is er verrijking op een meer talig niveau, waarvan een orthografische transcriptie de eerste annotatielaag kan zijn. Orthografische transcriptie Afhankelijk van de toepassing waarvoor een spraakcorpus wordt gemaakt, wordt een transcriptieconventie aangehouden: een transcriptieprotocol. Hierin staat onder andere weergegeven hoe er om moet worden gegaan met coderingen om bijvoorbeeld niet talige geluiden aan te geven. Elk spraakfragment krijgt zijn eigen transcriptie, nadat naar elk fragment is geluisterd. In geval van prompttekstopnames moet toch geverifieerd worden of de prompt daadwerkelijk is gezegd, tevens moet allerlei andere informatie, zoals soort achtergrondgeluid, worden getranscribeerd. De geluidsfiles krijgen een unieke transcriptie in een apart digitaal bestand dat via naamgeving gekoppeld dient te worden. Orthografisch transcriberen kan afhankelijk van het soort spraak dat getranscribeerd moet worden met behulp van een voorgegeven transcriptie worden versneld, indien het gaat om voorgelezen spraak. Bijvoorbeeld de transcriptie van het spraakmateriaal dat is opgenomen in een auto, waarin de bijrijder werd gevraagd een gegeven reeks getallen uit te spreken, geschiedt door het aanbieden van de prompt aan de transcribent die controleert of de prompts daadwerkelijk zijn gevolgd en voegt verbeteringen en coderingen toe. Spraakmateriaal waarvan niet vaststaat wat er gezegd gaat worden, zoals een corpus bestaande uit spontane conversaties, vergt een veel langere transcriptietijd. Door de complexiteit van de taak is het raadzaam om een zogenoemde tweede transcriptie te laten plaatsvinden. Een tweede transcribent controleert en corrigeert dan de transcriptie van de eerste transcribent. Fonetische transcriptie Een orthografische transcriptie geeft weer wat er gezegd is, een fonetische transcriptie geeft bovendien weer hoe datgene is gezegd, hoe de woorden zijn uitgesproken. Een fonetische transcriptie bestaat uit een reeks van fonetische symbolen die ieder een bepaalde klank in de taal weergeven. Er zijn verschillende fonetische symbolensets waarmee een transcriptie kan worden gemaakt, met ieder zijn eigen beschrijvende waarde, afhankelijk van het doel van de fonetische transcriptie. Er wordt onderscheid gemaakt tussen een brede fonetische transcriptie en een gedetailleerde, van diacritica voorziene, fonetische transcriptie. De brede fonetische transcriptie is het meest gangbaar als het gaat om grote spraakcorpora. Ook voor fonetische transcripties geldt dat het proces versneld kan worden, als er al een gegeven automatisch gegenereerde fonetische transcriptie, gebaseerd op de orthografische transcriptie, beschikbaar is die slechts verbeterd moet worden. Maar dit geldt niet voor alle soorten spraak, wanneer er bijvoorbeeld zeer 'slordig' gesproken is en de automatisch gegenereerde standaarduitspraak absoluut niet lijkt op de werkelijke uitspraak, moeten veel symbolen veranderd worden. In dit soort gevallen is het denkbaar dat 'from scratch' transcriberen sneller gaat. Fonetisch transcriberen is een tijdrovende bezigheid, en daardoor erg kostbaar. Een spraakcorpus wordt daarom niet standaard voorzien van een fonetische transcriptie. Signaalkoppeling In een spraakcorpus bestaat er altijd een koppeling van het geluidsbestand met de transcriptie, orthografisch of fonetisch. Het niveau van koppelen is vaak op fragmentniveau, dat wil zeggen ter grote van een uiting met gebruikmaking van unieke namen van de files,
82
bijvoorbeeld f0235NL.wav (geluidsfile) en f0235NL.ort (de transcriptie). Wanneer de lengte van de uitingen varieert, zoals in het Corpus Gesproken Nederlands, en er ook grote fragmenten van meer dan 10 minuten worden opgeleverd, dan is aan te raden het ten behoeve van de verwerkbaarheid van de data een minder grove koppeling aan te houden op het niveau van 'chunks' (delen in een fragment) ter grootte van maximaal 3 seconden. Deze koppeling is vrij grof en kan verfijnd worden door bijvoorbeeld een koppeling op woordniveau. Elk woord in de transcriptie beschrijft een stukje signaal waarin precies dat woord is gezegd. Deze oplijning kan worden bewerkstelligd door in de transcripties tijdsinformatie toe te voegen. Een signaalkoppeling op woordniveau geeft een nieuwe toegang tot een spraakcorpus, en wel op woordniveau. Computerprogramma's die signaalkoppeling bewerkstelligen, maken gebruik van zowel een orthografische transcriptie als een fonetische transcriptie om de begin- en eindtijden van de woorden in het signaal te lokaliseren. Lemmatisering, part-of-speechtagging Ook voor spraakcorpora worden de woorden voorzien van een part-of-speechtag. Zie voor meer informatie paragraaf 4.2.2.4.3 en 4.2.3.2. Prosodische annotatie Een geschreven tekst bestaat uit woorden en leestekens (interpunctie). Insgelijks kan spraak worden neergeschreven als een opeenvolging van woorden, uit de orthografische transcriptie, en prosodische tekens. Deze prosodische tekens geven aan welke lettergrepen extra werden beklemtoond, op welke plaatsen onderbrekingen, prosodische grenzen, voorkomen, waar klanken abnormaal werden verlengd en het soort toonhoogtebeweging. Uitspraaklexicon Voornamelijk in het domein van de automatische spraakherkenning wordt veel gebruik gemaakt van vaak grote spraakcorpora om onder andere akoestische foneemmodellen (klankmodellen) te trainen. Dan is er vooral beschikking over tenminste een orthografische transcriptie en vrijwel nooit over een handmatig gemaakte fonetische transcriptie die precies zou aangeven welke klanken zijn geproduceerd. Dit gebrek kan worden opgevangen door een automatische omzetting van orthografische symbolen naar foneemsymbolen. Deze vertaling ligt vast in een uitspraaklexicon, waarin voor elk woord uit de orthografie een standaarduitspraak fonetisch is weergegeven. Een uitspraaklexicon wordt vaak bij een spraakcorpus geleverd en geeft meestal de standaard, canonieke, uitspraak weer. Het lexicon kan gemaakt worden door automatische grafeem (orthografisch lettersymbool) naar foneem (fonetisch klanksymbool) omzetting gebaseerd op regels van de uitspraak van, in dit geval, de Nederlandse taal. Er bestaan ook grote kant-en-klare lexica, zoals CELEX, waarin onder andere per woord is weergegeven hoe de standaarduitspraak is. Voor alle bovengenoemde verrijkingen geldt dat deze in grote mate met de hand moeten worden gemaakt, meestal met behulp van automatisch voorgegenereerde transcripties. Het transcriberen vergt niet alleen veel tijd, maar vraagt ook om de juiste software, om geluidsfiles af te spelen en de bijbehorende transcriptie te maken. Hierover meer in de paragraaf over verrijkingssoftware.
83
4.2.3.3.3 Standaarden en evaluatie Ook voor spraakcorpora worden standaarden nagestreefd met betrekking tot geluidsformaten, transcriptieconventies, begeleidende documentatie, labelfiles met metadata, directory structuur, etc. Binnen het Corpus Gesproken Nederlands project zijn afspraken gemaakt waaraan elke annotatielaag moet voldoen. De werkwijzen en conventies van de verschillende soorten transcriptielagen zijn opgenomen in verschillende protocollen, die de interne consistentie vergroten (http://lands.let.kun.nl/cgn/home.htm). Naast de transcriptieconventies die vastliggen, houdt het CGN zich aan standaarden met betrekking tot de metadata, corpusheaders en de spraakbestanden, deze zijn allemaal 16 kHz, 16 bit lineair wavebestanden. Alle opgeleverde annotaties worden omgezet naar XML-formaat. Het lijkt erop dat de conventies die binnen het CGN worden gehanteerd, reeds worden overgenomen door andere projecten waarin spraak moet worden bewerkt, zodat deze conventies wellicht een nieuwe standaard kunnen worden. Binnen het SpeechDat project (http://www.speechdat.org) worden voor alle op te leveren spraakdatabases specificaties opgesteld die er voor zorgen dat de databases van de verschillende deelnemers onderling uitwisselbaar zijn en herbruikbaar zijn, waardoor er dus standaarden ontstaan. In de specificaties worden de volgende aspecten gedefinieerd: - inhoud van de cd-rom; - directorystructuur; - naamgeving van de bestanden; - formaat van spraakbestanden; - formaat van de labelfiles; - tabellen met o.a. sprekergegevens; - index files met o.a. corpusinhoud; - documentatiespecificaties. De databases die voortkomen uit de SpeechDat projecten (en latere verwante projecten) moeten voldoen aan de specificaties, dit wordt gecontroleerd door een onafhankelijke instelling. Naast de specificaties worden ook evaluatiecriteria opgesteld, waarin de volgende punten worden beschreven die worden geëvalueerd of gevalideerd: - documentatie; - structuur van de database, bestandsnamen en de inhoud; - items in de database, is database compleet; - akoestische kwaliteit van de spraakbestanden; - annotatiebestanden; - lexicon; - sprekerinformatie en -distributie; - opnamecondities; - transcripties; - train- en testsetspecificaties. Na de validatie, die door een onafhankelijk instituut wordt uitgevoerd, voldoet de spraakdatabase aan de vastgestelde kwaliteitsvoorwaarden en standaarden zodat deze kan worden opgenomen in de database van ELRA, (http://www.icp.inpg.fr/ELRA/validat.html en http://www.spex.nl en http://www.speechdat.org/SpeechDat.html). Zie ook de validatiehandleiding op de ELDA webpagina's (http://www.elda.fr/validat.html), Heuvel et al.(2000b).
84
4.2.4 Verrijking van digitale woordenboeken Het onderwerp van deze paragraaf is de verrijking van digitale woordenboeken. Een digitaal woordenboek is een traditionele woordenboekstekst in digitale vorm. Net zoals in een digitale corpustekst niet expliciet in het bestand aanwezig is dat bijv. de teksteenheid hoofdstuktitel een titel is (vgl. 4.2.2.3.), is het in een digitaal woordenboek voor een computer niet duidelijk dat de teksteenheid trefwoord een trefwoord is, de teksteenheid betekenisomschrijving een betekenisomschrijving, etc. Het verrijken van een digitaal woordenboek is het expliciet in de digitale data toevoegen van de eigenschap 'trefwoord' aan de teksteenheid die het trefwoord is etc. Een verrijkt digitaal woordenboek wordt een elektronisch woordenboek genoemd, hoewel deze laatste term ook wel gebruikt wordt voor een digitaal woordenboek. Vooral in de jaren 1980 zijn traditionele woordenboeken in digitale vorm veel gebruikt voor de (semi-)automatische extractie van informatie ten behoeve van het maken van een computationeel lexicon (zie bijv. Boguraev & Briscoe 1989). Hoewel corpora nu erg in zwang zijn, is een traditioneel woordenboek nog steeds een bron die rijk is aan informatie die voor natuurlijke-taalverwerkende systemen bruikbaar is. Bij recent opgezette woordenboeken is vaak al sprake van een elektronisch woordenboek zoals hier gedefinieerd12. Het gaat in deze paragraaf met name om oudere woordenboeken die wel digitaal maar nog niet elektronisch zijn; een voorbijgaande fase dus. Voor een uitgebreidere toelichting op de verschillende niveaus van verrijking verwijzen we naar 4.2.2. 4.2.4.1 Verrijking van een woordenboekcorpus als geheel en van de afzonderlijke woordenboeken Als er al sprake zou zijn van een corpus van woordenboeken, biedt de TEI-header mogelijkheden voor de documentatie van verrijkingsgegevens die betrekking hebben op het hele corpus. Hetzelfde geldt voor verrijkingsgegevens die betrekking hebben op een afzonderlijk woordenboek. Zie 4.2.2.3. Het gaat echter bij elektronische woordenboeken vooral om de codering van de binnen de woordenboektekst te onderscheiden typen van informatie (zie volgende paragraaf). 4.2.4.2 Verrijking van eenheden binnen een woordenboek Hoewel de codering van zaken als alinea's e.d. wel mogelijk is, is de expliciete codering van de diverse soorten van informatie die het woordenboek bij iedere ingang geeft van primair belang voor TST-doeleinden, alsmede voor het gebruik van het woordenboek op zich. De verrijking kan in principe alle binnen het woordenboek te onderscheiden typen informatie betreffen, maar de keuze of prioriteit hangt af van het doel. Wil men een traditioneel woordenboek via elektronische media toegankelijk maken, en dus meer mogelijkheden bieden voor het zoeken in het woordenboek dan op woordvormniveau (vgl. 4.2.2.1.), dan kan in zijn algemeenheid gezegd worden: hoe meer verrijking des te flexibeler de zoekmogelijkheden. Voor TST-doeleinden, waarbij we dan vooral denken aan het maken van een computationeel lexicon voor natuurlijke-taalverwerkende systemen, lijken bijv. voorbeeldzinnen of een etymologie van minder belang dan zaken als het trefwoord met zijn vormvarianten, de woordsoort en daarbij behorende 'features' (vgl. 4.2.2.4.), eventueel een uitspraakrepresentatie, de betekenisomschrijving, vaste verbindingen en eventueel aanwezige andere syntactische en semantische informatie (bijv. selectierestricties, lexicale preferenties). 12
Zie voor een woordenboeksproject waarin XML wordt toegepast bijv. http://www.sultry.arts.usyd.edu.au/kirrkirr
85
De TEI biedt tagsets en richtlijnen voor de codering van de typen informatie in –wat wordt genoemd – 'printed dictionaries', waarbij rekening gehouden wordt met de mate van gestructureerdheid van de informatie in het woordenboek. Zie http://www.teic.org/Guidelines/index.htm. Gezien de grote omvang van veel woordenboeken, heeft het de voorkeur de codering automatisch aan te brengen, maar dit vereist een hoge mate van consistentie ten aanzien van vormelijke en structurele aspecten van de woordenboektekst. Immers, verrijking is hier, net als bij de verrijking van tekststructurele eenheden in corpusteksten (vgl. 4.2.2.3. en 4.2.1.4.), het expliciteren van inhoudelijke informatie die in de woordenboektekst vervat is, op basis van vorm- en structuurkenmerken van de tekst. Is een woordenboek (of een serie woordenboeken van dezelfde uitgever) voldoende consistent om automatische verrijking te prefereren boven een interactieve of manuele methode, dan moet een zogeheten 'dictionary entry parser' ontwikkeld worden (vgl. Kazman 1986). Dat is een programma dat, gebruikmakend van de systematische wijze waarop de inhoud vorm en structuur gekregen heeft, alle trefwoorden voorziet van een code voor de eigenschap 'trefwoord', alle woordsoortaanduidingen van een code voor de eigenschap 'woordsoort' etc. Zelfs bij relatief consistente digitale woordenboeken zal echter altijd rekening gehouden moeten worden met een niet geringe correctieslag. Doordat woordenboeken verschillen in structuur en vormgeving, moet voor ieder woordenboek een eigen dictionary entry parser ontwikkeld worden. Indien automatische codering niet efficiënt is, kan bij een computer-ondersteunde handmatige codering een aanzienlijke vermindering van de correctielast bereikt worden als gezorgd wordt voor een werkomgeving met mechanismen voor de beveiliging van de integriteit van de oorspronkelijke woordenboektekst en mechanismen voor een gecontroleerde invoer (bijv. macro's, consistentiechecks). 4.2.5
Computationeel lexicon
In deze paragraaf gaan we in op computationele lexica, d.w.z. digitale woordenlijsten verrijkt met expliciete taalkundige informatie, die ontleend wordt aan ander taalmateriaal (4.2.1.4.). Er zijn (nog?) geen corpora van computationele lexica, in de zin van samenhangende verzamelingen zoals bij corpora van geschreven en gesproken taal. In principe zouden TEIheaders gebruikt kunnen worden voor de beschrijving van een corpus van lexica resp. een afzonderlijk lexicon, mits de lexica in TEI-formaat zijn. Maar voor zover ons bekend zijn zulke lexica er niet. De samenstelling van computationele lexica kan variëren van een vrij eenvoudige lijst van ingangen voorzien van één of twee soorten taalkundige informatie (bijv. trefwoord en lemma) tot complexe architecturen waarin bijv. fonologische, morfologische, syntactische en semantische informatie gekoppeld zijn. Het hangt van het doel af welk type lexicon nodig is. Zo is voor een woordsoorttagger een lijst van ingangen met woordsoortinformatie voldoende, terwijl bijv. een dialoogsysteem een zeer rijk lexicon vereist. Voor de meeste taaltechnologische doeleinden is een computationeel lexicon nodig. Nog steeds geldt dat het lexicon vaak een bottleneck is voor natuurlijke-taalverwerking. Er zijn verschillende manieren om de informatie die in een lexicon moet komen te vergaren. Sinds de jaren 1980 wordt veel informatie geëxtraheerd uit tekstcorpora (bijv. Boguraev en Pustejovsky 1996), digitale woordenboeken (bijv. Boguraev en Briscoe 1989) en bestaande
86
lexica (vgl. Fellbaum 1998) (hergebruik van bestaande data). Bij de ontwikkeling van bepaalde typen verrijkingssoftware wordt het lexicon direct afgeleid uit het trainingsmateriaal (zie 4.3.2.3.5.). De extractie van informatie gebeurt zoveel mogelijk automatisch, maar indien de benodigde informatie niet beschikbaar is moet deze handmatig worden verkregen door bijv. corpusinspectie, het raadplegen van taalkundige naslagwerken e.d. Voor de inrichting van een lexicon heeft, in Europese context, o.a. het GENELEX-lexicon (EUREKA-project 1993-1994; http://www.ilc.pi.cnr.it/EAGLES96/lexarch/node15.html) model gestaan. GENELEX (GENEric LEXicon) beoogde een multifunctioneel, supratheoretisch (theorieneutraal) en platformonafhankelijk model te bieden. Het model heeft een architectuur waarin per ingang een morfosyntactische, syntactische en semantische laag onderscheiden wordt; deze lagen kunnen aan elkaar gelinkt worden. Het conceptuele model van GENELEX kan vertaald worden naar een SGML-representatie waarin de voor GENELEX kenmerkende combinatie van Entity-Attribute-Relation-formalismen en dito commentaren in natuurlijke taal haar plaats gekregen heeft. Het GENELEX-model is gebruikt bij de ontwikkeling van de richtlijnen van EAGLES en het ligt ten grondslag aan de PAROLE/SIMPLE-lexica van ruim tien West-Europese talen (http://www.ub.es/gilcub/SIMPLE/simple.html), waaronder een Nederlands PAROLE-lexicon (www.inl.nl). De EAGLES Lexicon Interest Group is momenteel in het kader van het ISLE-project (http://www.ilc.pi.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm) bezig met de ontwikkeling van richtlijnen voor de standaardisering van bepaalde aspecten van lexicale codering, in het bijzonder gericht op vereisten die worden gesteld door systemen voor automatisch vertalen en informatiesystemen voor informatieretrieval en –extractie. Zie verder Calzolari (1999) en EAGLES LE3-4244 (1999) op http://www.ilc.pi.cnr.it/EAGLES96/EAGLESLE.PDF (295 pp.) Bij de standaardisering van de annotatieschema's is er overigens steeds naar gestreefd om lexicon en corpus niet los van elkaar te zien. Immers, een annotatieschema voor een corpus moet overeenstemmen met dat van het lexicon om het corpus doeltreffend te kunnen verrijken. Evenzo zou er meer aandacht kunnen zijn voor de relatie tussen computationele lexica en elektronische woordenboeken. Met andere woorden, voor de ontwikkeling van lexicale databases die zo zijn ingericht dat daaruit als producten zowel elektronische woordenboeken (voor gebruik door mensen) als computationele lexica (voor gebruik door computers) afleidbaar zijn. Voor multilinguale toepassingen zouden zowel de lexicale database als de producten daaruit moeten voldoen aan internationale standaarden. Zie voor gegevens over Nederlandstalige lexica 4.3B. 4.2.6
Stappenplannen met werklast en kostenberekening
4.2.6.1 Algemene uitgangspunten Hoewel onderstaande ramingen zorgvuldig zijn opgesteld13, dienen de in de volgende paragrafen opgegeven werklasten nadrukkelijk beschouwd te worden als indicatief. Factoren 13
De ramingen zijn voornamelijk gebaseerd op ervaringen van het Instituut voor Nederlandse Lexicologie, opgedaan in verschillende projecten. Verder is literatuur geraadpleegd en is voor bepaalde onderdelen advies gevraagd aan ter zake deskundigen. Uit dit alles is generalisatie van de werklast moeilijk gebleken, zelfs voor een ogenschijnlijk zelfde type verrijking, reden waarom voor iedere concreet zich voordoende verrijkingstaak een pilot-fase nodig is voor een nauwkeuriger bepaling van de werklast.
87
die bepalend zijn voor de daadwerkelijke werklast van een zich concreet voordoende verrijkingstaak zijn onder meer de eigenschappen van de te verrijken data, de complexiteit van de verrijking, de mate waarin expertise aanwezig is en de mate waarin een efficiënte werkomgeving te creëren valt. In al deze opzichten zijn grote verschillen mogelijk. Voor iedere concrete verrijkingstaak is daarom steeds een pilot-fase nodig om de werklast nauwkeuriger te bepalen. In de volgende paragrafen worden per verrijkingstraject (4.2.6.2., 4.2.6.3. etc.) de verrijkingstaken, zoals behandeld in 4.2.1. – 4.2.5., opgedeeld in fases met daarbinnen te onderscheiden subtaken. Waar relevant worden een automatische benadering en een computerondersteunde handmatige werkwijze naast elkaar gezet. Elke subtaak wordt kort omschreven, met daarbij een indicatie van de werklast, het type personeel dat nodig is en de wijze van kostenberekening. Zie verder de toelichting bij de afzonderlijke paragrafen. De ramingen zijn 'netto', d.w.z. exclusief factoren als pauzes, vakantie, ziekte etc. In zijn algemeenheid maakt de nettowerklast ongeveer 70% uit van de totale werklast. Niet in de kostenberekening zijn opgenomen: -de supervisie over de activiteiten -periodiek werkoverleg -personele lasten voor verwerving van algemene basiskennis over het hoe en waarom van verrijking -scholingskosten (cursussen e.d.) -kosten van de aanschaf van vakliteratuur, abonnementen op tijdschriften e.d. -kosten van documentatie Per project moet worden beraamd hoe groot deze kostenposten zijn. Bij de loonberekeningen is uitgegaan van 2 loongroepen: 1 = (computer)linguïst, neerlandicus, automatiseringsdeskundige 2 = ondersteunend personeel, systeembeheerder Hierbij moet worden uitgegaan van de brutoloonkosten, d.w.z. de kosten inclusief : vakantiegeld, werkgeverspremies, ziekenfondspremie of ziektekostenvergoeding. Dit komt neer op ongeveer 130 % maal het schaalbedrag. L1 L2 Lw Lu Normweektaak
= = = = =
loonkosten per maand voor loongroep 1 loonkosten per maand voor loongroep 2 loonkosten per week = L x 3/13 loonkosten per uur = Lw/normweektaak het aantal uren dat de aanstelling bij een volledige baan aangeeft.
Indien er alleen een % wordt genoemd moet zelf worden beoordeeld voor welk percentage het werk wordt uitgevoerd door het type personeel vallend onder L1 of L2. Dit is vaak afhankelijk van de complexiteit van het materiaal. WL(a, b etc.) = werklast (van subtaak a, b etc.) mm=mensmaand, mw=mensweek (5 werkdagen), mu=mens-uur
88
4.2.6.2 Stappenplan met werklast voor de verrijking van een corpus van geschreven taal Uitgangspunt is een corpus van teksten die gereed zijn voor verrijking, dus teksten die de procedures uit de hoofdstukken 2 en 3 doorlopen hebben en dus een uniform formaat hebben. De paragrafen 4.1., 4.2. en 4.3. bieden informatie over resp. de taalkundige en softwarematige achtergronden; deze informatie wordt hier bekend verondersteld. Als er duidelijke standaarden voor verrijking zijn, wordt daarvan in de volgende paragrafen uitgegaan vanwege het streven naar hergebruik van data. 4.2.6.2.1 Verrijking van tekststructurele eenheden in de tekst Fase 1. Vanuit de doelstelling bepalen welke tekststructurele verrijking gewenst is. Documentatie. Bepalen van gewenste tekststructurele verrijking
Raming werklast
max. 1 mw
Type personeel
100 % neerlandicus
Kosten personeel
WL x Lw1
Fase 2. Keuze van het verrijkingsmodel en representatie: TEI/CES. Documentatie. a) Verwerving kennis van Raming werklast TEI en CES Type personeel b) Tagexpertise opbouwen, in relatie tot de te coderen tekst(en); tag-instructie schrijven voor ondersteunend personeel
ca. 3 mm 100 % neerlandicus
Kosten personeel Raming werklast
WLa x L1 ca. 2 - 4 mw
Type personeel
100 % neerlandicus met kennis van bijbehorende automatiseringsaspecten
Kosten personeel
WLb x Lw1
Fase 3. Keuze verrijkingsmethode: computerondersteund handmatig of automatisch. Vaststellen wat nodig is om de verrijking aan te brengen volgens de gekozen methode en de daarvoor benodigde randcondities realiseren. Documentatie. Voor de beslissing over wel/niet automatisch: zie 4.2.2.3. Indien handmatig met computerondersteuning: a) Voorbereiding: Raming werklast efficiënte werkomgeving Type personeel en organisatie creëren Kosten personeel b) Testfase (proeftraject), Raming werklast met meten van werklast Type personeel Kosten personeel
ca. 1 - 2 mw 40 % ter zake deskundige neerlandicus; 60 % automatiseringsdeskundige WLa x Lw1 ca. 1 mw 100 % ondersteunend personeel WLb x Lw2
89
Indien automatisch (zie voor voorwaarden 4.2.2.3.): Organisatie werkzaamheden Raming werklast ca. 48 mu van diverse typen personeel Type personeel 50 % ter zake deskundige neerlandicus; (zie hieronder), inclusief 50 % automatiseringsdeskundige (evt. afstemming behoeften computerlinguïst) automatisering en neerlandicus Kosten personeel WL x Lu1 Fase 4. Het verrijken van een (reeks) tekst(en). Controle van de output op fouten en inconsistenties. Documentatie. Indien handmatig met computerondersteuning: a) Tekstcodering: Raming werklast ca. 240 tags per mu plaatsen tags Type personeel 20 % ter zake deskundige neerlandicus; 80 % ondersteunend personeel dat in de materie ingewerkt is Kosten personeel WLa = totaal aantal tags/aantal tags per mu; (WLa x 0,2 x Lu1) + (Wla x 0,8 x Lu2) b) Correctie van Raming werklast ca. 240 tags per mu tags na validatie Type personeel 20 % ter zake deskundige neerlandicus; 80 % ondersteunend personeel dat in de materie ingewerkt is Kosten personeel WLb = totaal aantal tags/aantal tags per mu (WLb x 0,2 x Lu1) + (WLb x 0,8 x Lu2) c) Maken van Raming werklast per tekst: 3 - 5 mu tekstheaders Type personeel 25 % ter zake deskundige neerlandicus; (handmatig) 75 % ondersteunend personeel dat in de materie ingewerkt is Kosten personeel WLc = aantal teksten x aantal mu per tekst (WLc x 0,25 x Lu1) + (WLc x 0,75 x Lu2) Het geheel: Kosten Opslag van 1 % op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
90
Indien automatisch: a) Analyse en beschrijving relatie vorm/inhoud, ontwikkeling coderingsprogrammatuur, foutenanalyse (repeterend proces), validatie op TEI-syntax b) Automatische generatie tekstheaders
Het geheel:
Raming werklast
Type personeel Kosten personeel Raming werklast Type personeel Kosten personeel Kosten
per soort tekst ca. 2 – 8 mw 50 % automatiseringsdeskundige of computerlinguïst 25 % ter zake deskundige neerlandicus 25 % ondersteunend personeel dat in de materie ingewerkt is Wla = aantal tekstsoorten x aantal mw per tekstsoort; (Wla x 0,75 x Lw1) + (WLa x 0,25 x Lw2) ca. 16 mu 75 % automatiseringsdeskundige (evt. computerlinguïst) 25 % ter zake deskundige neerlandicus WLb x Lu1 Opslag van 1 % op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
Fase 5. Maken van de corpusheader o.b.v. documentatie en tekstheaders a) Scripts voor de automatische verzameling van data uit tekstheaders b) Handmatig werk aan header, inclusief corpusverantwoording
Werklast
ca. 16 mu
Type personeel Kosten personeel Werklast
100 % automatiseringsdeskundige WLa x Lu1 ca. 1 - 2 mw
Type personeel
100% ter zake deskundige neerlandicus
Kosten personeel
WLb x Lw1
4.2.6.2.2 Verrijking van taalkundige eenheden in de tekst Zie eerst 4.2.6.1. We behandelen taalkundige verrijking hier zonder onderscheid te maken in de aard van de verrijking, d.w.z. lemmatisering, morfosyntactische, syntactische etc. verrijking worden niet afzonderlijk begroot; dit zou een precisie suggereren die niet realistisch is. Maar door deze generalisatie geldt hetgeen in 4.2.6.1. in de eerste alinea is gesteld over het indicatieve karakter van de ramingen, hier des te meer. Om de verschillen in complexiteit van taalkundige verrijking recht te doen geven we in veel gevallen een minimum en een maximum. Zie 4.2.2.4. voor de verschillende soorten van verrijking. Uit pragmatische overwegingen wordt hieronder een werklast van meer dan ca. 3 mm voor een onderdeel van een fase als een soort bovengrens beschouwd; daarboven is eerder sprake van een afzonderlijk onderzoeks- of dataontwikkelingsproject. Zo zou je een maximum van ca. 3 mm kunnen stellen voor het maken van een acceptabele woordsoorttagger voor het verrijken van een corpus (fouten worden in een latere fase gecorrigeerd). Als de werklast daar essentieel boven komt is eerder sprake van een onderzoeksproject met de vraag 'hoe kom je tot zo goed mogelijke tagger?' Echter, het maken van een trainingscorpus of een lexicon (vgl. hieronder fase 3) kost vrijwel altijd meer dan 3 mm.
91
Fase 1: Vanuit de doelstelling de aard van de gewenste verrijking bepalen. Documentatie. Bepalen van gewenste verrijking
Werklast Type personeel Kosten personeel
max. 16 mu 100 % ter zake deskundige linguïst WL x Lu1
Fase 2: Onderzoek naar standaarden voor het verrijkingsmodel (de verrijkingscategorieën) en de representatie (vormgeving) daarvan; indien afwezig: onderzoek naar vergelijkbaar werk van anderen. Bepalen volgens welk principe het verrijkingsmodel wordt toegepast op corpusdata (vgl. 4.2.2.4.). Documentatie. a) Onderzoek naar bestaande standaarden of werk van anderen b) Keuze toepassing van verrijkingsmodel en verwerking in instructie
Raming werklast
0,5 - 2 mm
Type personeel Kosten personeel
100 % ter zake deskundige (computer)linguïst WLa x L1
Raming werklast
0,5 - 1 mm
Type personeel
100 % (computer)linguïst
Kosten personeel
WLb x L1
Fase 3: Keuze verrijkingsmethode: computerondersteund handmatig of automatisch. Vaststellen wat nodig is om de verrijking aan te brengen volgens de gekozen methode en de daarvoor benodigde randcondities realiseren. Documentatie. Voor de beslissing over wel/niet automatisch: zie 4.2.1.4., 4.2.2.4., 4.3. Indien handmatig met computerondersteuning: a) Voorbereiding: Raming werklast 2 - 10 mw efficiënte Type personeel 80 % automatiseringsdeskundige; werkomgeving en 20 % ter zake deskundige (computer)linguïst organisatie creëren, incl. Kosten personeel WLa x Lw1 instructie b) Opbouwen van Raming werklast 0,5 - 4 mw verrijkingsexpertise Type personeel afhankelijk van de complexiteit: 100% in de door uitvoerders (type materie ingewerkte linguïst en/of ondersteunend afhankelijk van personeel complexiteit Kosten personeel (WLb x % x Lw1) + (WLb x % x Lw2) verrijkingsmodel) c) Testfase Raming werklast ca. 2 – 3 mw (proeftraject) met meten Type personeel afhankelijk van de complexiteit: 100% in de van de werklast materie ingewerkte linguïst en/of ondersteunend personeel Kosten personeel (WLc x % x Lw1) + (WLc x % x Lw2)
92
Indien automatisch: Wat is er nodig (verrijkingssoftware, lexicon, trainingscorpus, set regels) en is dat beschikbaar? Indien niet beschikbaar:
Ontwikkeling lexicon Ontwikkeling trainingscorpus Ontwikkeling en optimalisering verrijkingssoftware conform pragmatisch principe Ontwikkeling van heuristische set regels, conform pragmatisch principe
Raming werklast Type personeel
ca. 1 mm 100 % computerlinguïst
Kosten personeel WL x L1 Raming werklast etc. zie 4.2.6.5 Raming werklast etc. zie fase 4 handmatige taalkundige verrijking Raming werklast 0,5 - 3 mm Type personeel
100 % computerlinguïst
Kosten personeel
WL x L1
Raming werklast
max. 3 mm
Type personeel
100 % computerlinguïst
Kosten personeel
WL x L1
93
Fase 4. Het verrijken van het corpus. Controle van de output op fouten en inconsistenties. Documentatie. Indien handmatig met computerondersteuning: a) Verrijking, afhankelijk van Raming werklast hoeveelheid context die moet Type personeel worden bekeken voor een beslissing en evt. nesting Kosten personeel b) Analyse output en voorbereiding correctie c) 1e correctieslag optimaal (computerondersteund handmatig)
Raming werklast Type personeel Kosten personeel Raming werklast Type personeel
Kosten personeel d) 2e correctieslag optimaal15 Raming werklast (computerondersteund Type personeel handmatig) Kosten personeel
200-700 tags/mu14 20 % linguïst; 80 % in de materie ingewerkte linguïst en/of ondersteunend personeel, afhankelijk van complexiteit Wla=totaal aantal tags/aantal tags per mu; (WLa x 0,2 x Lu1) + (WLa x % x Lu1) + (WLa x % x Lu2) ca. 2 mw 100 % linguïst WLb x Lw1 300-900 tags/mu 20 % linguïst 80 % afhankelijk van complexiteit, in de materie ingewerkte linguïst en/of ondersteunend personeel WLc=totaal aantal tags/aantal tags per mu; (WLc x 0,2 x Lu1) + (WLc x % x Lu1) + (WLc x % x Lu2) 600-1500 tags/mu 20 % linguïst 80 % afhankelijk van complexiteit, in de materie ingewerkte linguïst en/of ondersteunend personeel WLd=totaal aantal tags/aantal tags per mu;
(WLd x 0,2 x Lu1) + (WLd x % x Lu1) + (WLd x % x Lu2) Alternatief: correctie selectief Raming werklast afh. van keuze door computerondersteunde etc. gerichte selecties van foutencategorieën e) Maken tekstheader Raming werklast per tekst 3-5 mu16 (handmatig) (indien nog geen Type personeel ter zake deskundige linguïst TEI-header aanwezig) Kosten personeel WLe=aantal teksten x aantal mu per tekst; WLe x Lu1
14
Gerekend wordt met 'tags' of verrijkingscodes, waaronder moet worden verstaan de kleinst mogelijke verrijkingseenheid waarover bij een bepaald type verrijking een beslissing genomen moet worden, bijv. bij woordsoortcodering elk afzonderlijk onderdeel van de woordsoorttag, bij syntactische verrijking bijv. een openings- of sluitingshaak met categoriale aanduiding. 15 Er zijn minstens 2 correctieslagen nodig voor een optimaal resultaat. Zie ook 4.2.6.3. 16 Indien reeds TEI-header voorhanden is, dan is de werklast van automatische uitbreiding daarvan ca. 2 mu per tekst.
94
Het geheel
Indien automatisch: a) Scripts voor verrijking complete dataset, runnen programmatuur b) Analyse output en voorbereiding correctie c) 1e correctieslag optimaal (computerondersteund handmatig)
Kosten
1 % opslag op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
Raming werklast Type personeel Kosten personeel Raming werklast Type personeel Kosten personeel Raming werklast Type personeel
ca. 1 mw 100 % computerlinguïst WLa x Lw1 ca. 2 mw 100 % (computer)linguïst WLb x Lw1 300-900 tags/mu 20 % (computer)linguïst 80 % afhankelijk van complexiteit, in de materie ingewerkte linguïst en/of ondersteunend personeel WLc=totaal aantal tags/aantal tags per mu; (WLc x 0,2 x Lu1) + (WLc x % x Lu1) + (WLc x % x Lu2) 600-1500 tags/mu 20 % (computer)linguïst 80 % afhankelijk van complexiteit, in de materie ingewerkte linguïst en/of ondersteunend personeel WLd=totaal aantal tags/aantal tags per mu; (WLd x 0,2 x Lu1) + (WLd x % Lu1) + (WLd x % Lu2) afh. van keuze en werkwijze
Kosten personeel d) 2e correctieslag optimaal (computerondersteund handmatig)
Raming werklast Type personeel
Kosten personeel Alternatief: correctie selectief door computerondersteunde gerichte selecties van foutencategorieën e) Automatische generatie tekstheader17
Het geheel
17
Raming werklast etc.
Raming werklast ca. 16 mu Type personeel
100% automatiseringsdeskundige
Kosten personeel WLe x Lu1 Kosten 1 % opslag op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
Indien reeds TEI-header voorhanden is, dan is de werklast van automatische uitbreiding daarvan ca. 3 mu.
95
Fase 5. Maken van de corpusheader. a) Scripts voor automatische verzameling van data uit tekstheaders18
Raming werklast Type personeel
ca. 16 mu 100 % automatiseringsdeskundige
Kosten personeel
WLa x Lu1
b) Handmatig werk aan header, met name verantwoording verrijking
Raming werklast Type personeel Kosten personeel
ca. 1 – 4 mw 100% ter zake deskundige linguïst WLb x Lw1
4.2.6.3 Stappenplan met werklast voor de verrijking van een spraakcorpus Toen de Blauwdruk werd geschreven waren weinig gegevens over de werklast publiek beschikbaar. De oorspronkelijke tekst is daarom vervangen door de tekst van SPEX hieronder. Wat nog wel relevant is, is het advies van de Nederlandse projectleider, mw. dr. N. Oostdijk, om niet de werklast te onderschatten van de verwerking van 'bugreports', dus van de feitelijke correctie van geadministreerde fouten in de data (vgl. fase 4 in 4.2.6.2.2.en hoofdstuk 6). Voor het CGN is daarbij een complicerende factor dat die correctie consequent voor alle transcripties en annotaties moet worden doorgevoerd en dat bepaalde transcripties en annotaties parallel aan elkaar worden uitgevoerd door verschillende uitvoerende partijen. Soortgelijke omstandigheden zijn ook denkbaar voor een corpus van geschreven taal. Indien sprake is dergelijke omstandigheden verdient het aanbeveling die taak afzonderlijk op te nemen. In hoofdstuk 2 is de begroting van het CGN-project weergegeven zoals die was in 1999. Hierin is niet gespecificeerd hoe de budgetverdeling van de verschillende annotatielagen is. Aan de hand van transcriptiefactoren, hoeveel bewerkingstijd nodig is per tijdseenheid spraak, kan er een idee worden gevormd van de kosten die gemoeid zijn met de annotaties van het CGN. Elke annotatielaag heeft zijn eigen factoren, maar hier worden de factoren van de orthografie en de fonetische transcriptie weergegeven, onderverdeeld in soorten spraak. De factoren zijn gebaseerd op een totale transcriptie, inclusief een tweede transcriptie waarin gecontroleerd wordt. Voorbeeld: om één minuut spraak uit component 1 orthografisch te transcriberen zijn 38 minuten nodig. In de tweede kolom staan de tijdsfactoren van de orthografische transcriptie en in de derde kolom de, veel hogere, factoren van de brede fonetische transcriptie. De fonetische transcripties worden met behulp van een voorgegeven geoptimaliseerde automatische fonetische transcriptie gemaakt.
18
Zie noot 16.
96
Component 1. Face-to-faceconversaties, spontane dialogen 2. Interviews, dialogen 3. Telefoondialogen 4. Zakelijke onderhandelingen, dialogen 5. Radio / TV interviews en discussies 6. Discussie / debatten / vergaderingen 7. Beschrijvingen van route of plaatjes 8. Lessen 9. Spontaan commentaar 10. Actualiteitenrubriek / reportages 11. Nieuwsbulletins 12. Beschouwingen / commentaren 13. Lezingen, toespraken 14. Voorgelezen tekst
Factor orthografie 38
Factor fonetisch 60
28 38 onbekend 28 28 onbekend 28 24 24 24 24 24 8
55 60 onbekend 55 55 onbekend 40 40 40 40 40 40 35
4.2.6.4 Stappenplan met werklast voor de verrijking van een digitaal woordenboek Zie eerst 4.2.6.1. Uitgangspunt is een digitaal traditioneel woordenboek, d.w.z. een woordenboeksbestand waarin nog geen codes staan die de trefwoorden markeren als trefwoord enz. Zie 4.2.4. voor de achtergrond van deze paragraaf. Waar relevant gaan we uit van de toepassing van standaarden vanwege het streven naar hergebruik van data. Er zijn grote verschillen in complexiteit denkbaar. Daarom geven we soms een indicatief minimum en een indicatief maximum. In andere gevallen is uitgegaan van een 'gemiddelde' complexiteit, d.w.z. niet zeer eenvoudig en niet zeer complex. We hebben een werklast van meer dan ca. 3 mm voor een onderdeel van een fase als een soort bovengrens beschouwd (vgl. 4.2.6.1.2.; als die 3 mm overschreden worden, moet bekeken worden of een andere methode niet geschikter is. Fase 1. Vanuit de doelstelling bepalen welke typen informatie in het woordenboek gecodeerd moeten worden. Bepalen van te coderen woordenboekinformatie-categorieën
Raming werklast Type personeel Kosten personeel
max. 16 mu 100 % lexicograaf of ter zake kundige neerlandicus WL x Lu1
97
Fase 2. Keuze van de representatievorm van de verrijking: TEI/XML voor woordenboeken. Documentatie. Verwerving kennis van Raming werklast TEI/XML toegespitst Type personeel op woordenboeken Kosten personeel
1 – 2 mm 100 % lexicograaf of neerlandicus, met kennis van bijbehorende automatiseringsaspecten WL x L1
Fase 3. Verrijkingsmethode: computerondersteund handmatig of automatisch. Vaststellen wat nodig is om de verrijking aan te brengen volgens de gekozen methode en de daarvoor benodigde randcondities realiseren. Documentatie. Voor de beslissing over wel/niet automatisch: zie 4.2.4.2. Indien handmatig met computerondersteuning: a) Tagexpertise Raming werklast opbouwen, in relatie tot Type personeel het te coderen woordenboek met evt. instructie ondersteunend personeel Kosten personeel b) Voorbereiding: Raming werklast efficiënte werkomgeving Type personeel en organisatie creëren Kosten personeel c) Testfase (proeftraject), Raming werklast met meten van werklast Type personeel Kosten personeel Indien automatisch (zie 4.2.4.2.): Analyse en beschrijving Raming werklast relatie vorm/inhoud Type personeel Kosten personeel
ca. 1 – 2 mw 20 % ter zake deskundige lexicograaf/neerlandicus; 80 % ondersteunend personeel dat in de materie ingewerkt is (Wla x 0,2 x Lw1) + (WLa x 0,8 x Lw2) ca. 2 – 6 mw 75 % automatiseringsdeskundige; 25 % ter zake deskundige lexicograaf/neerlandicus; WLb x Lw1 ca. 1 mw 100% ondersteunend personeel dat in de materie ingewerkt is WLc x Lw2 8 mu -1 mw ter zake deskundige lexicograaf/neerlandicus WL x Lu1 (max: 1 mw x Lw1)
98
Fase 4. Het verrijken van het woordenboek. Controle van de output op fouten en inconsistenties. Documentatie. Indien handmatig met computerondersteuning: a) Tekstcodering: Raming werklast ca. 300 tags per mu plaatsen tags Type personeel 90 % ondersteunend personeel dat in de materie ingewerkt is 10 % ter zake deskundige lexicograaf/neerlandicus Kosten personeel WLa = totaal aantal tags/aantal tags per mu; (WLa x 0,9 x Lu2) + (WLa x 0,1 x Lu1) b) Correctie van Raming werklast ca. 300 tags per mu tags na validatie Type personeel 90 % ondersteunend personeel dat in de materie ingewerkt is 10 % ter zake deskundige lexicograaf/neerlandicus Kosten personeel WLb = totaal aantal tags/aantal tags per mu; (WLb x 0,9 x Lu2) + (WLb x 0,1 x Lu1) c) Maken van Raming werklast 3 - 5 mu woordenboekType personeel 100 % ter zake deskundige lexicograaf/neerlandicus header Kosten personeel WLc x Lu1 Het geheel Kosten Opslag van 1 % op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer Indien automatisch: a) Ontwikkeling dictionary entry parser, foutenanalyse, validatie op TEIsyntax (repeterend proces) b) Generatie woordenboekheader Het geheel
Raming werklast 16 mu - 3mm Type personeel 80 % automatiseringsdeskundige (evt. computerlinguïst) 20 % ter zake deskundige lexicograaf/neerlandicus Kosten personeel WL x Lu1 (minimum); WL x L1 (maximum) Raming werklast ca. 16 mu Type personeel 75 % automatiseringsdeskundige 25% ter zake deskundige lexicograaf/neerlandicus Kosten personeel WLb x Lu1 Kosten Opslag van 1 % op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
Fase 5. Eventueel corpusheader maken o.b.v. documentatie en woordenboekheaders (zie 4.2.4.1.) a) Scripts voor automatische verzameling van data uit woordenboekheaders b) Handmatig werk aan header, inclusief verantwoording woordenboekencorpus
Raming werklast Type personeel
ca. 16 mu 100 % automatiseringsdeskundige
Kosten personeel
WLa x Lu1
Raming werklast Type personeel
ca. 1 - 2 mw 100 % ter zake deskundige lexicograaf/neerlandicus WLb x Lw1
Kosten personeel
99
4.2.6.5 Stappenplan met werklast voor de ontwikkeling van een computationeel lexicon Zie eerst 4.2.6.1. Uitgangspunt is een woordenlijst bestaande uit woordvormen (types) of trefwoorden (lemmata) waaraan expliciete taalkundige informatie wordt toegevoegd volgens een bepaalde structuur (lexiconmodel). Zie 4.2.5. voor de achtergrond van deze paragraaf. Indien relevant, gaan we uit van de toepassing van standaarden vanwege het streven naar hergebruik van data. Meer nog dan bij de voorgaande paragrafen, moet de hier gespecificeerde werklast opgevat worden als een indicatie wegens de grote verschillen in complexiteit (vgl. 4.2.5.). We geven vaak een tentatief minimum en een tentatief maximum voor resp. een simpel en een complex lexicon. Ook hier hebben we een werklast van meer dan ca. 3 mm voor een onderdeel van een fase als een soort bovengrens beschouwd; als die 3 mm overschreden worden, moet bekeken worden of een andere methode niet geschikter is. Fase 1. Vanuit de doelstelling welke informatie het lexicon moet bevatten: gewenste entrylijst en toe te voegen taalkundige informatie. Documentatie. Bepalen van lexiconinformatiecategorieën
Raming werklast Type personeel
8 mu –1 mw 100 % (computer)linguïst
Kosten personeel
WL x Lu1 (minimum); WL x Lw1 (maximum)
Fase 2. Verwerving entrylijst Verwerving entrylijst van anderen; contract; evt. formaatconversie
1 - 2 mw19 50 % linguïst 25 % administratieve ondersteuning 25 % automatiseringsdeskundige Kosten personeel (WL x 0,75 x Lw1) + (WL x 0,25 x Lw2) Overige kosten Verwervingskosten Raming werklast ca. 1 – 2 mw Raming werklast Type personeel
Maken o.b.v. gelemmatiseerd corpus, Type personeel 100% automatiseringsdeskundige (evt. incl. opschonen (zie computerlinguïst) voor lemmatisering: Kosten personeel WL x Lw1 4.2.6.1.2)
Fase 3. Onderzoek naar een lexiconmodel: zijn standaarden voor de verrijkingscategorieën en voor de structurering van de verrijkingscategorieën aanwezig (GENELEX-model?) en zo ja geschikt voor het doel? Welke alternatieven zijn er, bijv. het werk van anderen? Keuze van het lexiconmodel. Documentatie. Verwerving kennis van Raming werklast bestaande standaarden of Type personeel werk van anderen Kosten personeel
19
0,5 - 3 mm 100 % (computer)linguïst WL x L1
Het gaat hier om nettowerklast. De doorlooptijd kan bij het regelen van contracten oplopen tot een jaar.
100
Fase 4. Keuze ontwikkelingsmethode lexicon: computerondersteund handmatig of automatisch. Vaststellen wat nodig is om de verrijking bij de entrylijst aan te brengen volgens de gekozen methode en de daarvoor benodigde randcondities realiseren. Documentatie. Voor beslissing handmatig, automatisch of combinatie: afhankelijk van geschiktheid en verkrijgbaarheid digitaal taalmateriaal (vgl. hieronder). Voorkeur: zo mogelijk automatisch. Indien automatisch: Welk bestaand digitaal taalmateriaal (lexica, elektronische woordenboeken, corpora) is er bij anderen dat geschikt is voor automatische extractie van taalkundige informatie t.b.v. het gewenste lexicon? Welke taalkundige en formaatconversieslagen zijn nodig? Is dat materiaal verkrijgbaar en onder welke voorwaarden? Documentatie. Contracten etc. Dit alles, met inachtneming van noot 16:
Raming werklast 0,5 - 2 mm Type personeel
90 % ter zake deskundige computerlinguïst 10 % administratieve ondersteuning Kosten personeel (WL x 0,9 x L1) + (WL x 0,1 x L2) Overige kosten Verwervingskosten
Indien handmatig met computerondersteuning: a) Opstellen instructie Raming werklast 8 mu -1 mm Type personeel 100% ter zake deskundige (computer)linguïst Kosten personeel WLa x Lu1 (minimum) WLa x L1 (maximum) b) Voorbereiding: efficiënte Raming werklast 2 – 10 mw werkomgeving en Type personeel 80 % automatiseringsdeskundige organisatie creëren 20 % ter zake deskundige linguïst Kosten personeel WLb x L1 c) Instrueren van en Raming werklast 0,5 – 4 mw opbouwen lexiconexpertise Type personeel in het algemeen 100% in de materie door uitvoerders (type ingewerkte linguïst, maar indien niet te afhankelijk van complex dan ondersteunend personeel complexiteit lexiconmodel) mogelijk Kosten personeel (WLc x % x Lw1) + (WLc x % x Lw2) d) Testfase (proeftraject), Raming werklast 2 – 4 mw met meten van werklast Type personeel in het algemeen 100% in de materie ingewerkte linguïst, maar indien niet te complex dan ondersteunend personeel mogelijk Kosten personeel (WLd x % x Lw1) + (WLd x % x Lw2)
101
Fase 5. Daadwerkelijke lexiconontwikkeling. Controle van de output op fouten en inconsistenties. Documentatie. Indien automatisch: a) Ontwikkeling programmatuur voor extractie en conversie van informatie uit bestaand taalmateriaal (lexica, elektronische woordenboeken, corpora) per informatietype en per taalbron b) Samenvoegen en structureren van alle informatie volgens lexiconmodel c) Analyse output en voorbereiding correctie
Raming werklast Type personeel Kosten personeel
Raming werklast Type personeel Kosten personeel Raming werklast Type personeel Kosten personeel d) 1e correctieslag optimaal Raming werklast (computerondersteund handmatig) Type personeel
Kosten personeel
e) 2e correctieslag optimaal Raming werklast (computerondersteund handmatig) Type personeel
Kosten personeel
Alternatief: correctieslag selectief Raming werklast door computerondersteunde etc. gerichte selecties van foutencategorieën Het geheel Kosten
2 - 4 mw 100% computerlinguïst WLa x Lw1
1 - 3 mm 100% computerlinguïst WLb x L1 2 - 4 mw 100% computerlinguïst WLc x Lw1 300-900 tags/mu 20 % computerlinguïst, ter zake deskundige linguïst; 80 % corrector: afhankelijk van de complexiteit een in de materie ingewerkte linguïst of ondersteunend personeel WLd=totaal aantal tags/aantal tags per mu; (WLd x 0,2 x Lu1) + (WLd x % x Lu1) + (WLd x % x Lu2) 600-1500 tags/mu 20 % computerlinguïst, ter zake deskundige linguïst; 80 % corrector, afhankelijk van de complexiteit: in de materie ingewerkte linguïst of ondersteunend personeel WLe= totaal aantal tags/aantal tags per mu; (WLe x 0,2 x Lu1) + (WLe x % x Lu1) + (WLe x % x Lu2) afhankelijk van keuze
1 % opslag op de totale kosten i.v.m. de ondersteuning vanuit oogpunt systeembeheer
102
Indien handmatig met computerondersteuning: a) Vaststellen en in Raming werklast 100 – 700 tags per mu werkomgeving toevoegen Type personeel 20 % in de materie ingewerkte linguïst van informatie aan entrylijst 80 % uitvoerders, afhankelijk van de complexiteit in de materie ingewerkte linguïst of ondersteunend personeel Kosten personeel WLa=totaal aantal tags/aantal tags per mu; (WLa x 0,2 x Lu1) + (WLa x % x Lu1) + (WLa x % x Lu2) b) Analyse output en Raming werklast 2 – 4 mw voorbereiding correctie Type personeel 100 % in de materie ingewerkte linguïst Kosten personeel WLb x Lw1 c) 1e correctieslag optimaal Raming werklast 300-900 tags per mu (computerondersteund Type personeel 20 % computerlinguïst, ter zake deskundige handmatig) linguïst; 80 % corrector, afhankelijk van de complexiteit: in de materie ingewerkte linguïst of ondersteunend personeel Kosten personeel WLc=totaal aantal tags/aantal tags per mu; (WLc x 0,2 x Lu1) + (WLc x % x Lu1) + (WLc x % x Lu2) d) 2e correctieslag optimaal Raming werklast 600-1500 tags per mu (computerondersteund Type personeel 20 % computerlinguïst, ter zake deskundige handmatig) linguïst; 80 % corrector, afhankelijk van de complexiteit: in de materie ingewerkte linguïst of ondersteunend personeel Kosten personeel WLd = totaal aantal tags/aantal tags per mu; (WLd x 0,2 x Lu1) + (WLd x % x Lu1) _+ (WLd x % x Lu2) Alternatief: correctieslag Raming werklast afh. van keuze selectief door etc. computerondersteunde gerichte selecties van foutencategorieën e) Software ontwikkeling Raming werklast 1 mw – 3 mm voor conversie van Type personeel 100% computerlinguïst werkformaat naar Kosten personeel WLf x Lw1 (minimum); lexiconmodel, afh. van WLf x L1 (maximum) complexiteit lexiconmodel Het geheel Kosten 1 % opslag op de totale kosten i.v.m. ondersteuning vanuit oogpunt systeembeheer
103
4.3
Verrijkingssoftware
Deze paragraaf is in principe bedoeld voor taaltechnologen die zich op het Nederlands richten. Er wordt een overzicht gegeven van wat er allemaal bij de diverse verrijkingsslagen komt kijken en we geven een indruk van wat er aan het Nederlands op dit gebied gedaan is. Als geen specifieke oplossing voor het Nederlands bestaat proberen we naar taalonafhankelijke software te verwijzen. We willen er hier nadrukkelijk op wijzen dat we ons niet ten doel hebben gesteld een uitputtend overzicht van beschikbare programmatuur te geven – dat gebeurt in het kader van de NTU-actielijn B en C. Ook wordt hier geen evaluatie van die programmatuur beoogd, noch een prioritering ervan in het kader van de behoeften van het TST-veld. Voor deze zaken verwijzen we naar Daelemans en Strik (2002). Paragraaf 4.3.1. is algemeen van aard en is gericht op een wat breder publiek; 4.3.2. behandelt de automatische verrijking van corpora van geschreven taal; paragraaf 4.3.3. doet dat voor spraakcorpora en corpora van gesproken taal; 4.3.4. en 4.3.5. behandelen software voor de ontwikkeling van respectievelijk elektronische woordenboeken en computationele lexica. 4.3.1
Overzicht
Paragraaf 4.3.1.1. gaat kort in op de twee principieel verschillende aanpakken die ten grondslag liggen aan de ontwikkeling van taalkundige software, en de randvoorwaarden voor het gebruik van die software in termen van benodigde data en kennis bij de taaltechnoloog. We bespreken het verschil tussen regelgestuurde en statistische aanpakken en geven een algemeen overzicht van verschillende methodes voor het ontwikkelen van statistische software. 4.3.1.2. geeft een overzicht van de stand van zaken voor het Nederlands. 4.3.1.1 Algemene zaken Er zijn twee essentieel verschillende aanpakken voor het ontwikkelen van automatische procedures voor verrijking: regelgestuurd en statistisch/machinelerend20. Ook bij handmatige verrijking kunnen annotatiegereedschappen ingezet worden om het proces te ondersteunen. Voor het gebruik van de meeste software is meer nodig dan de te verrijken tekst. In het algemeen heeft men nodig: - Een annotatieschema (d.w.z. een stelsel categorieën voor de verrijking, zie 4.2.2.4.) - Meestal: software (vaak scripts) voor dataconversie. Taalkundige software zal bijvoorbeeld lang niet altijd kunnen omgaan met de in de corpuswereld gebruikelijke SGML- (of XML-) coderingen; men zal dus gereedschappen moeten ontwikkelen om de software toch te kunnen gebruiken en de markering van de tekststructuur intact te laten. Ook conversie tussen verschillende annotatieschema's is vaak nodig. - Voor de evaluatie van de procedures is een substantiële hoeveelheid correct geannoteerd materiaal nodig, evenals natuurlijk criteria voor evaluatie. Voor nadere uitwerking zie bijvoorbeeld 4.3.2.3.4. of 4.3.2.3.6. Bij een regelgestuurde aanpak is nodig: - Een stelsel regels (grammatica) - Software om regels te interpreteren en toe te passen 20
Dit is de gangbare formulering; de eigenlijke tegenstelling is eerder ‘uit een corpus afgeleid’ tegenover ‘handgemaakt’, dit in verband met lerende systemen die met regeltjes werken, zoals de Brill Tagger.
104
- Behalve de grammatica zullen meestal nog andere data gebruikt worden, bijvoorbeeld een lexicon met eigenschappen van woord(vorm)en. Bij een statistische aanpak is nodig: - Software: ofwel algemene classificatiesoftware die een bepaalde lerende methode implementeert (b.v. een pakket voor het leren van beslissingsbomen of maximumentropiemodellen), ofwel een reeds op een bepaald probleem toegespitste applicatie, zoals bijvoorbeeld een woordsoorttagger. - Trainingsdata - Andere data, zoals bijvoorbeeeld een lexicon. - Bij het gebruik van niet op een bepaald probleem toegespitste classificatiemethoden: keuze van kenmerken ('features') die de basis van de classificatieprocedure kunnen vormen en software om het specifieke probleem te transformeren naar een representatie waar de classificatiesoftware mee kan omgaan. Om in de rest van deze paragraaf niet in herhalingen te vervallen geven we een korte toelichting op het gebruik van statistische methoden. Een aantal van de hier besproken verrijkingstaken is te formuleren als classificatieprobleem; in de volgende paragrafen komt deze benadering aan de orde bij tekstclassificatie, zinsgrenzenbepaling, woordsoorttagging, shallow parsing, en het disambigueren van woordbetekenissen. Het principe is als volgt: men heeft een verzameling mogelijke categorieën (bijvoorbeeld de tagset bij morfosyntactische verrijking, de tekstcategorieën bij tekstcategorisatie), en een verzameling geclassificeerde instanties (trainingsdata, bijvoorbeeld met woordsoorten geannoteerde tekst of een aantal met tekstcategorieën gelabelde teksten). Op basis van kenmerken en de classificatie van de instanties in de trainingsdata wordt een procedure 'geleerd' om nieuwe instanties op grond van hun kenmerken van een klassenlabel te voorzien. De kenmerken kunnen voor tekstcategorisatie (vgl. 4.3.2.1.) bijvoorbeeld frequenties van voorkomens van bepaalde woorden in de teksten zijn, of bij woordsoorttagging een aantal woordvormen en woordsoorten in de directe omgeving van de te markeren woordvorm. Het is niet zo dat er een 'beste' techniek is. De verschillende methoden ontlopen elkaar vaak weinig; per probleem kan verschillen wat het beste werkt. Iedere aanpak heeft zijn eigen sterke punten en blinde vlekken; het wil daarom nog wel eens zinvol zijn verschillende aanpakken te combineren. Vigerende aanpakken zijn bijvoorbeeld: Bayesiaanse modellering (al dan niet naïef), discriminant-analyse, maximumentropiemodellering, k-Nearest-Neighbour classificatie, memory-based leren , beslissingsbomen ('Decision trees'), neurale netwerken, lineaire classificatie (SNOW, Sparse Network of Linear Separators, Winnow), Markov-modellen, inductie van regels. Een korte uitleg van deze aanpakken is te vinden in de bijlage bij paragraaf 4.3. 4.3.1.2 Stand van zaken: kort overzicht We geven hier in het kort de stand van zaken voor iedere verrijkingsslag. Per slag geven we aan wat nodig is, en in hoeverre er voor het Nederlands of taalonafhankelijk software beschikbaar is. Een uitgebreidere bespreking is te vinden in 4.3.2. (corpora van geschreven taal) en 4.3.3. (spraakcorpora). Tekstclassificatie (vgl. 4.3.2.1.). Algemene (taalonafhankelijke) trainbare software is beschikbaar. Er zijn geen algemeen beschikbare Nederlandstalige geclassificeerde documentverzamelingen die standaard bij het testen gebruikt worden.
105
Tekststructuur (vgl. 4.2.2.3.). Er is weinig software die specifiek voor tekstcorpora ontwikkeld is. Men is aangewezen op het toepassen van algemene programmatuur voor de manipulatie van SGML/XML. Taalkundige verrijking (vgl. 4.2.2.4.). De verschillende slagen zijn niet onafhankelijk; vaak voert één programma meerdere slagen uit. Zo verricht een programma voor syntactische analyse vaak zijn eigen morfosyntactische tagging. Toch heeft het zin de volgende slagen te onderscheiden: 1. Tokeniseren is het in woordvormen ('tokens') en interpunctiesymbolen splitsen van een stroom karakters. 2. Reeksen woordvormen kunnen worden gegroepeerd in zinnen; bepalen zinsgrenzen. 3. Morfologische/morfosyntactische analyse en lexiconlook-up verbinden aan woordvormen een aantal mogelijke woordsoorten en lemmata waarvan de vorm afgeleid kan zijn. 4. Woordsoorttagging disambigueert de door de morfologische analyse gegeven mogelijkheden geheel of gedeeltelijk. 5. Lemmatiseren is het leggen van een verband tussen een woordvorm en een ingang in een woordenboek of een lexicon. 6. Voor allerlei doeleinden kan het zinvol zijn bepaalde typen woordgroepen te herkennen zonder tot een volledige zinsanalyse over te gaan. Deelaspecten zijn het opsporen van statistische collocaties, partiële zinsanalyse, herkenning van benamingen. 7. Syntactische analyse construeert een volledige of partiële ontleding van de zinnen. 8. Semantische en pragmatische annotatie kan bijvoorbeeld een onderscheid aanbrengen tussen woordbetekenissen, of pronominale referenties ondubbelzinnig maken. In onderstaande figuur proberen we de afhankelijkheden tussen de slagen en de afhankelijkheid van diverse datasets aan te geven.
Test- en trainingsdata
Trainingsdata: zinsgrenzen
Software
Data: lexicon
Tokeniseren Lexicon: woordvormenlijst Zinsgrenzen
Trainingsdata:getagdmet woordsoort
Lexicon: woordsoorten Morfologische analyse Woordsoorttagging
Trainingsdata: syntactischgetagd
Lexicon: syntactische patronen Syntactische analyse
Semantische analyse
106
1) Tokeniseren Nodig Software die een stroom karakters inleest en woordvormen markeert, bijvoorbeeld door het toevoegen van spaties of regelovergangen, of het aanbrengen van SGML/XML codes.
Beschikbaar Er is geen op het Nederlandse toegespitste software beschikbaar die direct voor alle doeleinden inzetbaar is. Wat precies moet gebeuren is erg afhankelijk van de software die men gebruikt voor de volgende slagen; meestal zal het nodig zijn zelf wat te maken.
2) Zinsgrenzen Nodig Software.
Trainingsdata voor lerende software.
Beschikbaar Regelgestuurd: Voor het Nederlands geen software beschikbaar. Statistisch: Diverse taalonafhankelijke lerende software is beschikbaar. Er is geen algemeen beschikbare trainingsdataset om statistische software op te trainen. Het Eindhovense corpus (Uit den Boogaart 1975)21 heeft zinsgrenzen maar de beschikbaarheid van dit corpus is onduidelijk.
(Eventueel) lexicon, met name Beschikbaarheid wordt besproken bij morfologische informatie over afkortingen. analyse, zie punt 4). 3) Morfosyntactische analyse en lexiconlook-up Aspecten: flexie, afleiding en samenstelling. In het Nederlands wordt de flexie vaak afgehandeld door middel van een lijst van verbogen vormen, in plaats van morfologische analyse.
21
Meer informatie over genoemde datasets is te vinden in bijlage B bij deze paragraaf.
107
Nodig Software; bij regelgestuurde aanpak: regels voor de beschrijving van de Nederlandse woordstructuur.
Trainingsdata en testdata. Lexicon.
Beschikbaar: Regelgestuurd: Er is geen state of the art software voor het Nederlands om samengestelde woorden te analyseren die vrij publiek beschikbaar is. Wel vrij beschikbaar is taalonafhankelijke morfologische software waarmee men deze zaken met behulp van eindigetoestandsmodellen kan modelleren. Het model (de regels) moeten dan nog wel worden gemaakt. Statistisch: Er is gewerkt aan memory-based methoden; een aantal woordsoorttaggers (maximumentropie, memory-based) kunnen op grond van vormeigenschappen van de onbekende woorden naar de mogelijke categorieën raden. Er staat een morfologisch gesegmenteerd lexicon op de CELEX CD versie 2. Lexica: De CELEX-lexica, het INL-PAROLE-lexicon (zie voor meer informatie de beschrijving van beschikbare datasets in de bijlage bij deze paragraaf).
4) Woordsoorttagging Nodig Software.
Trainingsdata en testdata. (Niet voor alle statistische methoden noodzakelijk): lexicon met woordsoortinformatie.
Beschikbaar Regelgestuurd: Niet met state of the art performance vrij beschikbaar22. Statistisch: Goede taalonafhankelijke software voor diverse lerende aanpakken bestaat en is beschikbaar. Op dit moment is er geen kant-en-klare oplossing (dus inclusief model en/of de benodigde trainingsdata) publiek beschikbaar23, wel zijn er diverse commerciële oplossingen. Eindhovens corpus, CGN, PAROLE distributable corpus. Zie bij punt 4).
5) Lemmatiseren Lemmatiseren kan in de praktijk niet los worden gezien van de woordsoorttagging- en lexiconontwikkeling. Bestaande oplossingen zijn D-TALE24 en MBLEM (memory-based lemmatiseren, http://ilk.kub.nl/demos.html). Voor informatie over beschikbare lexica: zie de beschrijving van beschikbare datasets in de bijlage bij deze paragraaf. 22
Voor informatie over het regel- en lexicongebaseerde systeem D-TALE voor tagging en lemmatiseren moet men zich richten tot prof. W. Martin, VU Amsterdam, Lexicologie. 23 Ondanks het feit dat zoiets met behulp van bijvoorbeeld het Eindhovense corpus eenvoudig te maken zou zijn. 24 Over D-TALE zie de voetnoot bij punt 4.
108
6) Herkennen van woordgroepen Er is beschikbare taalonafhankelijke software voor het opsporen van statistische collocaties; niet direct voor detectie van benamingen of partiële zinsontleding. 7) Syntaxis Er is geen kant-en-klare state of the art oplossing (bestaande uit zowel software als trainingsdata of een grammatica) voor het Nederlands. Nodig Software: Parser, kan in principe taalonafhankelijk zijn. Regelgestuurd: Grammatica.
Beschikbaar Er zijn taalonafhankelijke parsers beschikbaar, zowel regelgestuurd als (gedeeltelijk) statistisch. Grootschalige grammatica's worden in het kader van diverse projecten ontwikkeld maar zijn op dit moment (nog) niet vrijgegeven.
Trainingsdata (voor statistische technieken).
Het ontbreekt nog vooral aan syntactisch geannoteerde Nederlandse trainingsdata. Een geannoteerd deelcorpus van het CGN wordt op dit moment ontwikkeld, zie 4.3.3. Zie punt 4) voor lexica met woordsoortinformatie.
Lexicon met woordsoortinformatie; lexicon met syntactische patronen. Een lexicon met syntactische patronen is verkrijgbaar bij het INL (het PAROLE-lexicon). 8) Semantische en pragmatische annotatie Voor geen enkele taal zijn er standaard inzetbare robuuste oplossingen. Voor het Nederlands zijn er nog geen publiek beschikbare geannoteerde datasets. 4.3.2
Verrijkingssoftware voor corpora van geschreven taal
4.3.2.1 Software voor tekstclassificatie De meeste van de hieronder kort beschreven statistische technieken richten zich op onderwerpherkenning op basis van woordgebruik (relatieve frequenties van woordvormen in de teksten). Hierbij wordt het stelsel mogelijke categorieën als vast aangenomen en worden er achteraf correlerende kenmerken bij gezocht. Voor een poging waarin linguïstische informatie wordt gebruikt voor onderwerpherkenning: zie onder meer Basili et al. 2000. Een andere benadering is niet uit te gaan van vooraf-gegeven klassen maar de classificatie uit de documenten zelf af te leiden, ook weer meestal op basis van woordgebruik (document clustering). Of deze technieken in ongewijzigde vorm geschikt zijn om met taalkundige teksttypologie om te gaan is de vraag. Van taalkundige kant is er de 'multidimensionale' analyse van Douglas Biber. Hierbij worden groepen taalkundige kenmerken (gebruik verleden tijden, bijzinnen, etc.) geassocieerd met 'dimensies' als de mate van narrativiteit van een tekst, of de betrokkenheidsgraad van de spreker. Zie Biber (1995); Biber, Conrad en Reppen (1998; met name hoofdstuk 6); Karlgren (2000; proefschrift, behandelt stilistische aspecten).
109
Tekstcategorisatietechnieken worden nog niet veel gebruikt bij de ontwikkeling van taalkundige tekstcorpora. Categorisatie van teksten in taalkundige corpora gebeurt in de praktijk vaak met de hand, of ook, in het stadium van de automatische structuurverrijking, aan de hand van onderwerpaanduidingen die al in het bronmateriaal voor het corpus aanwezig waren. Stand van zaken: er is geen specifiek op het Nederlands gerichte software die direct inzetbaar is; er is geen vrij beschikbaar Nederlandstalig trainingsmateriaal voor de statistische algoritmes. We konden slechts een referentie naar een toepassing op Nederlandstalige data vinden (Ragas en Koster 1998). We geven een overzicht van aanpakken, en verwijzen zo mogelijk naar beschikbare taalonafhankelijke software. - Bayesiaans; beschikbare software is bijvoorbeeld Rain(bow), http://www.cs.cmu.edu/~mccallum/bow/ - Support Vector Machines (Joachims 1998.). Met deze techniek (gebaseerd op het zoeken naar hypervlakken in vectorruimtes die verzamelingen punten met een optimale marge scheiden) zijn goede resultaten behaald. Overzichtsartikel over SVM (Burges 1998). Software: code van Joachims is beschikbaar. - kNN (k-Nearest-Neighbours) classificatie (Yang 1994). - Algoritmen specifiek ontwikkeld voor tekstclassificatie: Sleeping experts, Rocchio. - In principe is iedere kenmerkgebaseerde classificatiealgoritme ook toepasbaar op dit probleem. Dit is gedaan voor maximumentropie, boosting, (http://www.research.att.com/~schapire/BoosTexter/), neurale netwerken, SNOW/Winnow (Zhang 1998), etc. - Documentclustering (het afleiden van een stelsel documentklassen uit een niet-gelabelde verzameling documenten, meestal op basis van overeenkomst in woordgebruik.) Recente referentie bijvoorbeeld Zamir en Etzioni (1998). Vergelijkend onderzoek naar de prestaties verschillende technieken is te vinden in Yang (1999) en Yang en Liu (1999). Er zijn projecten waarbij categorisatie van Nederlandstalige teksten aan de orde komt: DORO (Document Routing)-project (ESPRIT 22716), (Ragas en Koster, zonder jaartal), http://www.cs.kun.nl/~kees/doro/index.html, en DRUID (http://twentyone.tpd.tno.nl/druid/public/homepage.html) 4.3.2.2 Software voor verrijking van tekststructurele eenheden Omdat teksten verschillen in structuur- en vormaspecten (vgl. 4.2.1.4.) ligt het voor de hand dat hiervoor geen kant-en-klare algemeen toepasbare software bestaat. Men is aangewezen op het toepassen van algemene programmatuur voor de manipulatie van SGML/XML. In veel gevallen is automatische codering niet de meest voor de hand liggende methode (vgl. 4.2.2.3.). 4.3.2.3 Software voor verrijking van taalkundige eenheden 4.3.2.3.1 Tokeniseren Voor het Nederlands komt tokeniseren meestal neer op het splitsen van de tekst op white space (het vervangen van opeenvolgingen van spatie, newline en tab door een ondubbelzinnige, bijvoorbeeld SGML markering) en het afsplitsen van leestekens aan begin en eind van woorden. Ook het herkennen van bepaalde tekencombinaties ('Non-standard
110
words') op grond van simpele patronen (datum, getal, schaakzet, SGML/XML karakterentiteiten) kan in dit stadium gebeuren. Het probleem is niet bijzonder complex maar wordt vaak onderschat. De oplossingen voor het Engels variëren van een Perl-, SED- of AWK-script van minder dan 100 regels tot een complex systeem dat deze fase integreert met woordsoortmarkering en het bepalen van zinsgrenzen (Edinburgh LTT). Een voorbeeld van een eenvoudige oplossing: het SED-script voor de Penn-treebankstijl van tokeniseren, http://www.cis.upenn.edu/~treebank/tokenizer.sed. Voorbeeld van een ambitieuzere benadering is LTT, http://www.ltg.ed.ac.uk/software/ttt/index.html. Nuttige literatuur is bijvoorbeeld Grefenstette en Tapanainen (1994) en Grefenstette (1999). 4.3.2.3.2 Zinsgrenzen Er is geen direct inzetbare oplossing voor het Nederlands beschikbaar; we hebben ook geen beschrijving van een Nederlandstalig project gevonden. Taalonafhankelijke lerende software is er wel. Trainingsdata in de vorm van een met zinsgrenzen geannoteerd corpus bestaan ook: in gedeelten van het Eindhovense corpus zijn zinsgrenzen aangegeven. Resultaten voor het Engels, behaald met grotendeels taalonafhankelijke technieken, zijn bijvoorbeeld: Statistisch: - Decision tree (Riley 1989): 99.8 procent correct op het Brown corpus, gebruikt zeer grote trainingsdataset (25 miljoen woorden) - Neuraal netwerk (Palmer en Hearst 1994): 98.5 % correct op Wall Street Journal corpus met een neuraal netwerksysteem (SATZ). Palmer en Hearst gebruiken wel woordsoortinformatie dus dit systeem is niet zonder meer taalonafhankelijk. - Maximumentropie: MxTerminator van Reynar en Ratnaparkhi (1997). 98.8% correct met Wall Street Journal-corpus met specifiek op het Engels gerichte versie; 98.0% met meer taalonafhankelijke. - Voor wie datasets zou willen ontwikkelen is het interessant te weten dat met ongeveer 500 zinnen al aardige resultaten gehaald zijn; Reynar en Ratnaparkhi geven een score van 96.5 % voor deze kleine trainingsset. - Mikheev (2000), onderdeel van LTT, zie boven: 99.2 % correct op hetzelfde corpus. Mikheev gebruikt wel een lexicon om te kijken of een woord een inhoudswoord is. Regelgestuurd: Grefenstette (1999). Met simpele regels voor de herkenning van getallen en potentiële afkortingen, een lijst veel voorkomende afkortingen en extractie van mogelijke afkortingen uit het corpus: 99.09% correct op het Brown corpus. 4.3.2.3.3 Morfosyntactische analyse en lexiconlook-up Gebruikte aanpakken zijn: - Lijst met alle afgeleide woordvormen. Voor niet sterk geïnflecteerde talen zoals het Engels en het Nederlands veel gebruikt. Nodig: uitgebreid lexicon. De CELEX lexica en het
111
PAROLE-INL-lexicon bevatten flexievormen, evenals het oude Groene Boekje (uit 1954)25. - Lexicon + wordstemming. Het lexicon bevat alleen basisvormen; door middel van een stelsel regels kunnen bij afgeleide vormen mogelijke grondvormen worden gegenereerd, die vervolgens worden opgezocht in het lexicon. Nodig: lexicon met basisvormen en programmatuur. - Eindige automaten. Zowel het lexicon als de grammatica die de woordvorming beschrijven, worden in de vorm van een eindige machine (transitiediagram) vastgelegd. Maakt zeer snelle retrieval mogelijk. Nodig: lexicon, grammatica, programmatuur. Een WWW pagina met meer informatie over finite-statetechnieken is http://odur.let.rug.nl/alfa/fsa_stuff/ - Statistische technieken. Woordvormen die niet in het lexicon voorkomen, worden op grond van formele kenmerken en woord(soorten) in de directe omgeving heuristisch gecategoriseerd. Deze aanpak wordt vaak geïntegreerd uitgevoerd met de woordsoorttagging. Speciaal op morfologische analyse gericht is het memory-based systeem MBMA (Van den Bosch, Daelemans, en Weijters 1996). Beschikbaarheid van regelgestuurde beschrijvingen: De CELEX CD bevat morfologisch gesegmenteerde data; uit de in die data voorkomende combinaties van de aangegeven morfeemklassen is in principe een model van de Nederlandse woordvorming af te leiden. Beschikbare software: Er is geen vrij beschikbare programmatuur voor het Nederlands. Wel zijn er commerciële oplossingen van Xerox en Van Dale Lexicografie (het MORPA-systeem, Van Heemskerk en Van Heuven 1993). MORPA werkt met probabilistische contextvrije grammatica; we hebben geen gegevens over de beschikbaarheid van MORPA gevonden. Er zijn diverse (taalonafhankelijke) pakketten voor morfologische analyse met behulp van eindige machines. - PC-Kimmo. Laatste versie uit 1995, http://www.sil.org/pckimmo/. Executables en Unixsource beschikbaar. - Xerox finite-state tools, http://www.xrce.xerox.com/research/mltt/fst//. Gemaakt begin jaren '90. Beschikbaarheid niet duidelijk uit WWW-pagina. - LexTools, http://www.research.att.com/sw/tools/lextools/ - INTEX, http://ladl.univ-mlv.fr/INTEX/intex.html (vrij beschikbaar is het gedeelte voor visualisatie van finite state graphs). - Finite state utilities van Jan Daciuk, http://www.pg.gda.pl/~jandac/fsa.html Beschikbare data zijn de CELEX-lexica, het INL-PAROLE-Lexicon, het Referentiebestand Nederlands (RBN)26, het oude Groene boekje (1954). Deze lexica bevatten woordsoortinformatie. Een morfologisch gesegmenteerd lexicon staat op de CELEX CD (2e versie, directory Dutch/Dml). Zie voor meer informatie de beschrijving van beschikbare datasets in de bijlage bij deze paragraaf.
25
Het Groene Boekje van 1995 heeft die informatie ook (evenals woordsoortinformatie), maar is niet als bestand beschikbaar. 26 Informatie over beschikbaarheid te verkrijgen bij prof. W. Martin, VU Amsterdam, lexicologie.
112
4.3.2.3.4 Woordsoorttagging Zoals altijd is er met het Engels de meeste ervaring opgedaan. Samenvattend kan worden gesteld dat de beste implementaties van statistische aanpakken elkaar niet veel ontlopen (correctheidspercentages op het Wall Street Journal-corpus tussen de 96% en 97%), dat een combinatie van verschillende statistische aanpakken beter is dan iedere afzonderlijke, en dat de beste regelgestuurde aanpak (EngCG, English Constraint Grammar) nog steeds tot betere resultaten pretendeert te leiden dan de statistische27. Een state of the art regelgestuurde tagger voor het Nederlands is niet publiek (vrij) beschikbaar28. We bespreken de regelgestuurde aanpak daarom verder niet, maar verwijzen naar Voutilainen (1999). Vanwege de flexibiliteit, en omdat het ontwikkelen van een goede set regels een substantiële hoeveelheid tijd kost, wordt in Nederlandstalige projecten nu voor de statistische aanpakken gekozen. Voor het Nederlands is het nog niet gelukt op grond van een uitgebreide tagset resultaten te behalen die te vergelijken zijn met de boven voor het Engels gegeven scores. Nodig: (a) Keuze tagset en benadering taggen (b) Evaluatiecriteria (c) Keuze gebruikte features (in de classificatie-aanpak van het probleem) (d) Lexicon (taggen zonder lexicon kan in principe ook, lemmatiseren natuurlijk niet) (e) Trainingsdata (f) Software (a) Keuze tagset en benadering van het taggen Hier past alleen een korte opmerking over de implicaties van de keuze van een tagset voor de moeilijkheidsgraad van automatische annotatie. Een rijker stelsel categorieën (met meer ambiguïteiten) is vaak moeilijker te realiseren29. Daarbij zijn sommige categorieën lastiger toe te kennen dan andere; zo is bijvoorbeeld het verschil tussen een transitief en een intransitief gebruikt werkwoord tamelijk lastig voor de statistische taggers, omdat voor een correcte herkenning eigenlijk andere informatie nodig is dan de bestaande taggers gebruiken. Behalve de tagset is ook de benadering van de tagging van invloed; een 'functionele' benadering (vgl. 4.2.2.4.), waarbij bijvoorbeeld een nominaal gebruikte infinitief als zelfstandig naamwoord geannoteerd wordt, maakt meer tags per woordvorm mogelijk en kan dus in principe moeilijker zijn. Vaak wordt bij het automatisch taggen een, ten opzichte van de volledige specificatie van alle EAGLES morfologische features, gereduceerd stelsel gekozen. Voor het Nederlands is aanvankelijk veel gewerkt met de beperkte WOTAN1-tagset (alleen woordsoort). Inmiddels is ook materiaal beschikbaar dat met de uitgebreidere WOTAN227
Referentie: Christer Samuelsson and Atro Voutilainen, Comparing a Linguistic and a Stochastic Tagger (1997). Proceedings of the Thirty-Fifth Annual Meeting of the ACL and Eighth Conference of the European Chapter of the ACL, Somerset, New Jersey, 246-253. Hier wordt EngCG vergelijken met een Markov trigram tagger. Gerapporteerd wordt dat de Markovtagger een ‘order of magnitude’ meer fouten maakt (bij een ambiguïteit van 1.05 tags per token bijvoorbeeld 3.1 % fout voor de Markovtagger, 0.15 % voor EngCG). Het resultaat is in zoverre niet reproduceerbaar dat de gebruikte testsets niet zijn vrijgegeven. De directe vergelijking is verder op basis van een annotatie die enige ambiguiteit open laat; Markovtaggers zijn daar niet bijzonder goed in. Het zou interessant kunnen zijn het experiment over te doen met een statistische combinatietagger in plaats van de Markovtagger. 28 Over het systeem D-TALE kan informatie worden verkregen van prof. W. Martin, VU Amsterdam, lexicologie. 29 Het is niet altijd zo dat een grover stelsel met een hoger correctheidspercentage getagd wordt. Omdat de tags van woorden uit de omgeving de classificatie ondersteunen kan het omgekeerde waar zijn; zie bijvoorbeeld Brants 1997.
113
tagset (kenmerken gedeeltelijk gebaseerd op EAGLES) gemarkeerd is (Van Halteren 1999). Op basis van de TOSCA-software is ook een Markov-tagger voor deze tagset ontwikkeld; zie voor het gebruik hiervan bijvoorbeeld http://www.ccl.kuleuven.ac.be/about/ANNO/TOOLS/wotan.html. (b) Evaluatiecriteria Aangezien de meeste systemen alle woordvormen in een tekst van een unieke markering voorzien, wordt hier meestal simpelweg gewerkt met het correctheidspercentage. Systemen die meerdere mogelijkheden teruggeven zullen beoordeeld moeten worden met behulp van precisie en recall30. (c) Keuze gebruikte omgevingskenmerken, datatransformatie Wanneer men niet-taakspecifieke classificatiesoftware (zie 4.3.1.1.2.) gebruikt, moeten kenmerken gekozen worden en moet men de te taggen tekst en trainingsmateriaal representeren als een lijst instanties met kenmerken. Meestal wordt gekozen voor woordvormen en woordsoorten in de directe omgeving van de te annoteren woordvorm en vormkenmerken van het woord. Een voorbeeld van een instantie is (Wi-2, Ti-2, Wi-1, Ti-1, Wi, Ai, Wi+1, Ai+1 , Wi+2, Ai+2) Hier is Wi de i'de woordvorm, Ti de toegekende tag van Wi, en Ai de (uit de morfologische analyse afkomstige) verzameling mogelijke tags voor Wi. Voor het raden naar niet in het lexicon opgenomen woordvormen kunnen een aantal formele kenmerken van het te taggen woord worden gebruikt (bijvoorbeeld: vorm begint met hoofdletter of niet, de laatste 3 letters, aanwezigheid koppelteken, cijfers in de vorm). De representatie moet natuurlijk gelezen kunnen worden door de programmatuur. Soms is de programmatuur alleen in staat binaire (ja/nee) beslissingen te nemen, en moet men meerdere classificatoren, die met een bepaalde onzekerheidsmarge beslissen of een instantie een bepaalde klasse toegekend krijgt (een woordvorm een bepaalde woordsoort krijgt), combineren om de meest plausibele classificatie te krijgen. Merk verder op dat om de reeds toegekende tags (Ti-2,Ti-1) te kunnen gebruiken, de software de mogelijkheid moet hebben om deze terugkoppeling te gebruiken; in het geval van algemene classificatiesoftware zal men daarvoor de beschikking over de broncode of een API moeten hebben. De precieze keuze voor de gebruikte informatie (met name ook het al dan niet gebruiken van laagfrequente kenmerken) is van grote invloed op het resultaat. Men dient tijd in te ruimen voor experimenten. (d) Lexicon In principe is het mogelijk om alleen een lexicon te gebruiken dat uit de woordvormen in het trainingscorpus afgeleid wordt (de succesvolle maximumentropietagger van Ratnaparkhi doet dit bijvoorbeeld). Een uitgebreider lexicon kan de tagging wel significant verbeteren (Hajic 2000). (e) Beschikbare trainingsdata - Getagde stukken van het PAROLE Distributable Corpus (ca. 250.000 woordvormen), verkrijgbaar bij het INL 30
Onder precisie verstaat men de verhouding G/A van de terecht met een bepaalde codering geannoteerde instanties G en het totale aantal A van de met die code geannoteerde instanties; recall is de verhouding G/X, waarbij X het aantal instanties is dat de betreffende annotatie zou moeten krijgen.
114
- Het Uit den Boogaart-corpus. Ongeveer 720.000 woorden, eigen tagset. Wordt nu getagd met de WOTAN2-tagset. 150.000 woorden (krantenmateriaal) zijn in ieder geval klaar. Referentie: Van Halteren (1999). - Corpus Gesproken Nederlands, zie 4.3.3. Een substantiële hoeveelheid trainingsdata is niet strikt noodzakelijk voor Markov-taggers, die ook gedeeltelijk op niet-geannoteerd materiaal kunnen trainen (maar ze zijn een stuk beter wanneer ze wel op een flinke set geannoteerd materiaal getraind worden). Regelgestuurde systemen hebben geen trainingsmateriaal nodig, maar ook die zijn natuurlijk makkelijker te beoordelen en te verbeteren aan de hand van een flinke set geannoteerde data. (f) Beschikbare taalonafhankelijke software Voor het toekennen van woordsoorten zijn voor niet-commercieel gebruik verschillende pakketten vrij inzetbaar. We noemen een paar mogelijkheden, die een aantal aanpakken van het probleem vertegenwoordigen. - TnT, een Hidden Markov-tagger van Thorsten Brants, http://www.coli.unisb.de/~thorsten/tnt/ - Markov-tagger Qtag, http://www.english.bham.ac.uk/staff/oliver/software/tagger/ - MxPost, de maximumentropietagger van A. Ratnaparkhi. ftp://ftp.cis.upenn.edu/pub/adwait/jmx/ - MBT (Memory based tagger), demo en meer informatie op http://ilk.kub.nl/~zavrel/tagtest.html. - De regels lerende tagger van Eric Brill (Brill 1995), beschikbaar via http://www.cs.jhu.edu/~brill/. - Andere (algemene) classificatiesoftware, bijvoorbeeld het decision tree pakket C4.5 (Quinlan), of Timbl, een pakket voor memory-based learning dat ook voor tagging en lemmatiseren ingezet kan worden, thuispagina http://ilk.kub.nl/ Aanpakken die met vergelijkbaar succes op het Engels zijn toegepast, maar waarvoor geen software te vinden is zijn SNOW (Roth en Zelenko 1998) en boosting (Abney, Schapire en Singer 1999). Omdat iedere tagger zijn eigen type fouten heeft, kan het zinvol zijn de output van meerdere taggers te combineren (Brill and Wu 1998). Dit geldt voor meerdere classificatieproblemen, maar specifiek met taggers is veel ervaring opgedaan. Methoden voor het combineren zijn bijvoorbeeld: Voting. Kies de tag die de meeste stemmen krijgt (al dan niet met gewogen naar algemene classifierprecisie), en de classifier met de algemeen beste score als de stemmen staken. Bagging. Voting toegepast op een combinatie van taggers die afgeleid zijn uit verschillende delen van het trainingscorpus. Stacking. Gebruik de output van individuele taggers als features in een tweede toepassing van een classificatiealgoritme. Wanneer men het stackingprincipe gebruikt (dat bij voldoende trainingsdata het effectiefst lijkt te zijn) is het voldoende de output van verschillende taggers te kunnen combineren (datatransformatie). Voor de classificatie op grond van de combinatie kan algemene classificatiesoftware worden gebruikt; in Van Halteren, Zavrel en Daelemans (2001) worden Timbl, het maximumentropie-modelleringspakket maccent (http://www.cs.kuleuven.ac.be/~ldh/) en het beslissingsbomenpakket C5.0 (http://www.rulequest.com/ ) ingezet, evenals de speciaal ontwikkelde methode WPDV (Weighted Probability Distribution Voting). 115
Software voor de datatransformatie is niet beschikbaar. Wat precies nodig is zal ook sterk afhangen van de verder voor het taggen gebruikte programmatuur. 4.3.2.3.5 Lemmatiseren Het disambigueren van de verschillende mogelijkheden die bij morfologische analyse naar voren komen kan gebeuren op grond van de bij het woordsoorttaggen toegekende woordsoort. Lemmatiseren is nuttig voor de retrieval van afgeleide vormen bij de specificatie van een grondvorm in een zoekopdracht; bovendien voor taalkundig onderzoek waarbij statistiek bedreven wordt op basis van de grondvormen in plaats van de afgeleide vormen. Bestaande oplossingen zijn D-TALE en MBLEM (memory-based lemmatiseren, http://ilk.kub.nl/demos.html). 4.3.2.3.6 Het herkennen van woordgroepen Herkenning/annotatie van bepaalde meerwoordspatronen zoals statistische collocaties, eigennamen bestaande uit meerdere woorden en meerwoordige technische termen, is zinvol voor retrievaldoeleinden, bijvoorbeeld om voorkomens van de combinatie te gebruiken als kenmerk bij tekstclassificatie. Tevens kan het tijdig herkennen van vaste combinaties inconsistente annotatie bij bijvoorbeeld woordsoortmarkering voorkomen. Statistische Collocaties zijn woordgroepen die op te sporen zijn door middel van statistische test op de relatieve frequenties van voorkomens van de afzonderlijke woorden los en in de combinatie.31 Analyse van collocaties is relevant voor het herkennen van meerwoordige terminologie en idiomatische uitdrukkingen. Diverse implementaties van in de literatuur voorgestelde tests zijn beschikbaar. Oudere systemen zoals Smadja's 'xtract' zijn inmiddels onvindbaar. - BSP (bigram Statistics Package), een in Perl geschreven pakket van Satanjeev Banerjee en Ted Pedersen, http://www.d.umn.edu/~tpederse/code.html. Is eenvoudig te gebruiken en uit te breiden maar heeft beperkingen (alleen bigrammen). - De Qwick corpus browser, http://www-clg.bham.ac.uk/QWICK/ 'Shallow' (of ook partial) parsing, ook wel chunking genaamd is het herkennen van bepaalde types constituenten (bijvoorbeeld zelfstandig naamwoordgroepen) in een zin zonder tot volledige syntactische analyse over te gaan. De technieken voor 'shallow' parsing zijn verwant aan die voor woordsoorttagging. Mogelijke aanpakken: classificatie (van potentiële constituentgrenzen), Hidden Markov-modellen (Church 1988), regelgestuurd met eindige toestandsmodellen (Abney 1996; Grefenstette 1996). Als software bij de classificatieaanpak kunnen pakketten naar keuze worden ingezet, zoals Timbl in Daelemans, Buchholz en Veenstra (1999). Punyakanok en Roth (2000) gebruiken SNOW- en Markov-modellen. Gebruikte contextuele kenmerken uit de omgeving van een mogelijke constituentgrens zijn de behalve de woordvormen in de directe omgeving ook de woordsoorten; een statistische chunker heeft dus meestal een tagger of getagde tekst nodig. Aan NP-chunking Nederlands wordt gewerkt binnen het Tilburgs-Antwerpse project PROSIT 31
Een simpel voorbeeld is de ‘Dice score’: als F het aantal voorkomens van het bigram (w1,w2) in het corpus is, en f1 en f2 het aantal voorkomens van w1 en w2, dan is de Dice score 2*F/(f1+f2). Voor meer informatie: Krenn 2000; Manning en Schütze 1999 (hoofdstuk 5); Oakes 1998 (hoofdstuk 4); beschrijving van het xtract systeem: Smadja 1993 (pp 143-177); log likelyhood, Fisher test: Dunning 1993; mutual information: Church en Hanks 1991.
116
(http://ilk.kub.nl/prosit/index.html). Gebruikt worden zowel een eindige-toestandsmodel als een memory-based aanpak. Voor zover ons bekend is geen Nederlandstalig trainingsmateriaal beschikbaar. Wel kan natuurlijk volledig syntactisch geanalyseerd materiaal benut worden (dat alleen voor gesproken Nederlands beschikbaar is, zie 4.3.3.). Named entity recognition is het herkennen van woordgroepen die een unieke zaak of persoon aanduiden. De gebruikte technieken zijn onder andere classificatie, Markov-modellen en expliciete regels, met name deterministische eindigetoestandsmodellen. Goede resultaten op grond van een geannoteerd corpus zijn behaald met Markov-modellen (Bikel et al. 1997) en een gemengd statistisch-regelgebaseerde benadering (Mikheev et al. 1999). Gewerkt is ook met bootstrappende modellen die niet-geannoteerd corpusmateriaal kunnen gebruiken. Het is dan voldoende een initiële lijst ('Seed list') van gecategoriseerde namen te hebben; zie bijvoorbeeld Collins en Singer (1999), Cucerzan en Yarowsky (1999), Buchholz en van den Bosch (2000). De resultaten blijven dan iets achter, maar men bespaart zich veel handwerk voor de corpusannotatie. Het werk van Buchholz en Van den Bosch maakt gebruik van een Nederlandstalig krantencorpus. Er is geen software voor robuuste naamherkenning in het Nederlands beschikbaar. Als datasets zouden een geannoteerd corpus en een uitgebreide lijst namen ('gazetteer') wenselijk zijn; zulke data zijn echter niet beschikbaar. 4.3.2.3.7 Syntactische annotatie Omdat manuele annotatie van hiërarchische structuren bewerkelijk en foutgevoelig is, is ondersteunende software zeer gewenst. Automatische bewerking kan worden gedaan met een syntactische parser, handmatige annotatie kan worden ondersteund door visuele annotatiegereedschappen. Een combinatie van beide is mogelijk; zoals bijvoorbeeld in Brants' Annotate, gebruikt bij de CGN-verrijking, zie 4.3.3.3. Aan welke minimumeisen de parser moet voldoen om zinvol gebruikt te kunnen worden is (bij gebrek aan gepubliceerde verslagen) moeilijk te zeggen. Men heeft nodig: (a) Annotatieschema (b) Geannoteerde datasets voor trainen en evaluatie (c) Criteria voor evaluatie, benchmarks (d) Software (parser) (e) Indien regelgestuurd: Grammatica (f) Voor manuele annotatie: GUI-programmatuur om (boom)structuren te markeren (a) Annotatieschema Zie ook de beschrijving van de annotatie van het Corpus Gesproken Nederlands (4.3.3.3.). De gewenste syntactische verrijking is natuurlijk sterk afhankelijk van de taalkundige opvattingen van de annotator en het doel van het project. Wel is het bij het aanbrengen van de annotatie voor herbruikbaarheid aanbevelenswaardig rekening te houden met transformeerbaarheid naar andere representaties. Voor een project waarbij aan de transformatie speciale aandacht wordt besteed verwijzen we naar de homepagina van AMALGAM (begin jaren 90), http://www.comp.leeds.ac.uk/amalgam/amalgam/amalghome.htm Citaat: 'The AMALGAM project is an attempt to create a set of mapping algorithms to map between the main tagsets and phrase structure grammar schemes used in the research corpora described above.'
117
(b) Geannoteerde datasets Als trainingsdata voor een statistische parser is syntactisch getagd materiaal nodig. De meeste implementaties gaan uit van een volledig geanalyseerd (treebank) corpus. Soms is ook een grammatica nodig en worden alleen waarschijnlijkheden van toepassingen van regels (al dan niet gelexicaliseerd) geleerd. De Nederlan0dstalige datasets die op dit moment bestaan of ontwikkeld worden (ANNO, OVIS en CGN) zijn verzamelingen spraak (vgl. 4.3.3.3. en de bijlage bij deze paragraaf). (c) Evaluatiecriteria Een paar mogelijkheden: - Voor de hand ligt de mogelijkheid aan de hand van een referentiecorpus het percentage van zinnen te meten dat geheel correct door de parser geanalyseerd wordt. Deze aanpak heeft de volgende problemen. Omdat iedere parser zijn eigen representatie voor de geanalyseerde zin heeft, is vergelijking met het referentiecorpus niet triviaal. Het verschil in kwaliteit tussen twee verschillende niet geheel correcte analyses wordt niet gemeten. - De PARSEVAL-beoordelingscriteria (Black et al. 1991) gaan uit van de haakjesvorm (bracketing) van een zinsontleding [(Jan (slaat Piet))]. Precisie wordt gemeten als de verhouding G/P van het aantal G van constituenten die door de parser geconstrueerd zijn en overeenstemmen met constituenten in de haakjesvormen van de zinnen in het referentiecorpus, en het totale aantal constituenten P dat de parser geproduceerd heeft. Recall is dan G/C, waarbij C het totale aantal constituenten in het corpus is. Wanneer niet alleen de locatie van constituenten maar ook de grammaticale categorie moet kloppen spreekt men van Labeled Precision/Recall. De crossing-bracketsscore behelst het aantal overlappingen tussen constituenten in het corpus en door de parser geconstrueerde constituenten. Op de PARSEVAL-maten is onder andere de volgende kritiek gegeven: 1) Constituentstructuur is soms een te strikt criterium, onder andere omdat volgens verschillende theorieën verschillende constituentstructuren van een zin correct zijn. 2) Constituentstructuur zonder een vergelijking van de benoeming van de constituenten kan ook weer te tolerant zijn. 3) Het crossing-bracketscriterium is niet helemaal gelukkig: een enkele 'fout' kan meerdere malen beboet worden; het criterium bevoordeelt 'ondiepe' structuren. - Aansluitend bij corpusannotatie in termen van het markeren van syntactische relaties in plaats van constituenten (zie ook 4.2.2.4.4.) stellen Carroll et al., (1998) voor precisie en recall te meten in termen van overstemming van de geannoteerde relaties in het corpus en uit de ontleding van de parser te construeren syntactische relaties. Hierbij wordt het stelsel syntactische relaties hiërarchisch onderverdeeld, zodat het mogelijk is bij de beoordeling meer of minder details mee te nemen. Zie voor het Engels de referenties Carroll et al. (1998, 1999). Voor het door Carroll et al. voorgestelde annotatieschema ook de SPARKLE website http://www.ilc.pi.cnr.it/sparkle/wp1-prefinal/wp1-prefinal.html Een verslag van parserevaluatie in het kader van het OVIS project is G. Veldhuijzen van Zanten et al. (1999). Verkrijgbaar via URL: http://odur.let.rug.nl/~vannoord/papers/ (d) Syntactische parsersoftware De toepassing voor annotatie van corpusdata stelt een aantal praktische eisen aan de parser: - Reductie van ambiguïteit. Bij lange zinnen en een complexe grammatica (nodig voor brede dekking van taalfenomenen) is het aantal mogelijke analyses van een zin groot. Ook bij een regelgestuurde aanpak zal dus een (al dan niet probabilistische) heuristische 118
component nodig zijn om het aantal ambiguïteiten terug te brengen; het is immers minder werk om zo af en toe een foute analyse te verbeteren dan altijd te moeten kiezen uit vele mogelijke analyses. - Robuustheid. Men zal weinig hebben aan een te strikte parser. Het is een voordeel als een parser in staat is de structuur van niet geheel geanalyseerde zinnen wel gedeeltelijk te markeren. - Snelheid. Voor niet-interactieve annotatie is het handig als de parser niet al te traag is. Ten behoeve van onderzoek ontwikkelde parsers voldoen niet altijd aan deze eis. Voor regelgestuurde syntactische analyse bestaan vele aanpakken; zelfs een zeer beknopt overzicht kunnen we in dit kader nauwelijks geven. We constateren dat de meeste nu lopende projecten de een of andere vorm van uitbreiding van contextvrije of unificatiegrammatica's gebruiken. In Nederland zijn in gebruik: - Affixgrammatica's (Koster, toegepast in AMAZON). Uitbreiding van de klassieke contextvrije grammatica. - HPSG (Head-driven Phrase Structure Grammar, gebruikt in het ALPINO-project en de Groningse bijdrage aan het OVIS-project). Zie http://ling.ohio-state.edu/hpsg/. Hier verdwijnt de contextvrije ruggengraat van de grammatica naar de achtergrond, er wordt direct geredeneerd in termen van een unificatiemodel van constituentkenmerken. Zinsontleding is vaak een vorm van logisch programmeren, geïmplementeerd in Prolog. - Categoriale grammatica. Zinsontleding is een logische afleiding in een bewijssysteem. Software bijvoorbeeld: Richard Moot's 'Grail', verkrijgbaar op ftp://ftp.let.uu.nl/pub/users/moot (veronderstelt SICStus prolog). Hoewel algemene parsersoftware bestaat, is het niet realistisch te verwachten dat het mogelijk is om binnen korte tijd op basis hiervan zelf een parser te maken. Voor toepassing op het Nederlands verwijzen we naar het overzicht van Nederlandstalige syntaxisprojecten hieronder. Bij een statistische syntactische analyse kan ofwel de hele grammatica worden afgeleid uit een trainingscorpus (DOP, Collins, Chelba), of uitgegaan worden van een bestaande grammatica, die op grond van het corpus probabilistisch geparametriseerd wordt. Waarschijnlijkheden kunnen uit een trainingscorpus worden afgeleid voor het toepassen van herschrijfregels, al dan niet afhankelijk van de in de constituenten voorkomende woorden (gelexicaliseerd), of (history-based model) acties die een parser tijdens het ontleden in een bepaalde toestand kan uitvoeren. Aanpakken zijn bijvoorbeeld: PCFG (Probabilistic context-free grammar; zie Black, Garside en Leech 1993; Charniak 1993, 1997), PLCG (Probabilistic left corner grammar), HPCFG (head-lexicalised probabilistic context-free grammar), afhankelijkheidsgrammatica (Praagse bomenbank), Data Oriented Parsing. Een gedetailleerde beschrijving van diverse hoofd-gelexicaliseerde aanpakken is te vinden in het proefschift Collins 1999. Bijna altijd wordt getraind op geannoteerd materiaal. Een aanpak waarbij ook op niet-geannoteerd materiaal getraind kan worden wordt beschreven in Chelba (2000). Samenvattend: er is een spectrum aan benaderingen die meer of minder van de informatie die in een parser gebruikt wordt in een probabilistisch model parametriseren. De 'klassieke' PCFG die contextvrije herschrijfregels van een waarschijnlijkheid voorziet staat aan de 'arme' kant van het spectrum; DOP is (in sommige varianten) het andere uiterste. Beschikbare taalonafhankelijke software is bijvoorbeeld LoPar (Helmut Schmid) gebaseerd op head-lexicalised probabilistic context-free grammatica naar het model van Carrol en Rooth (1998); http://www.ims.uni-stuttgart.de/tcl/SOFTWARE/LoPar-en.html. 119
(e) Grammatica's Er is geen uitgebreide formele grammatica van het Nederlands publiek beschikbaar. Groot opgezette grammatica's worden ontwikkeld in het kader van ALPINO en AMAZON; zie de lijst op het Nederlands gerichte projecten aan het eind van deze subparagraaf. (f) Annotatiegereedschappen Er zijn diverse (taalonafhankelijke) gereedschappen ontwikkeld om het annoteren met de hand te ondersteunen. Zie 4.3.3. voor het gebruik van Annotate bij het Corpus Gesproken Nederlands. - Annotate van Thorsten Brants: http://www.coli.uni-sb.de/sfb378/negracorpus/annotate.html - De SRI Treebanker: http://citeseer.nj.nec.com/carter97treebanker.html We sluiten deze subparagraaf af met een lijstje van enige afgesloten en lopende projecten die syntactische analyse van het Nederlands tot onderwerp hebben. - ALPINO (http://odur.let.rug.nl/~vannoord/papers/alpino/) Model: Head driven Phrase Structure Grammar - AMAZON http://lands.let.kun.nl/TSpublic/dreumel/amazon.en.html. Gebaseerd op het grammaticaformalisme AGFL, Affix Grammars over a Finite Lattice. AGFL-software is beschikbaar: http://www.cs.kun.nl/agfl/download.html. Het is een langlopend project. Beschikbaarheid van de grammatica en de parser is onduidelijk. - CORRie parser en grammatica van Theo Vosse. Beschikbaarheid onduidelijk. De CORRieparser is een Tomita-parser gebaseerd op een geaugmenteerde contextvrije grammatica (Vosse 1994). - Delilah (Cremers) categoriale parser en generator voor het Nederlands. Beschikbaarheid: 'Presently, the system is not on-line available'. Documenten: http://www.leidenuniv.nl/hil/faculty/staff/cremers/deldocu.html - DOP 'Data Oriented Parsing'. Veronderstelt alleen de aanwezigheid van een treebank; dan is geen grammatica meer nodig. Beschikbaarheid van de gebruikte OVIS-bomenbank en de software is onduidelijk. Zie voor meer informatie de homepagina van Rens Bod, http://turing.wins.uva.nl/~rens/ 4.3.2.3.8. Semantische en pragmatische annotatie Het is niet zo dat er op dit moment software voor automatische semantische of pragmatische annotatie is die resultaten oplevert die te gebruiken zijn als basis voor retrieval. In het kort besteden we enige aandacht aan volledige semantische annotatie voor beperkte domeinen en annotatie van woordbetekenissen, omdat hiervoor Nederlandstalige datasets bestaan of aangekondigd zijn. Volledige semantische annotatie van een beperkt domein Voorbeelden zijn informatiesystemen waar door gebruikers een beperkte klasse vragen aan gesteld kan worden. Voor het Nederlands is dit gedaan in het kader van het OVIS-project. We geven een voorbeeld van een annotatie in de `update-semantiek' van dit project (vgl. Bod 1998, pp. 112-125). 'Ik wil van Venlo naar Almere' wordt geannoteerd als: user.wants. 120
(origin.place.town.venlo; destination.place.town.almere) Er is geen beschikbare software om dit type annotatie in enige algemeenheid aan te brengen. Het annoteren van woordbetekenissen Voor het Engels is er de geannoteerde dataset van de standaardbenchmark SENSEVAL (http://www.itri.brighton.ac.uk/events/senseval/; Kilgarriff 1998). Nederlandse trainings- en testdata worden nu ontwikkeld in het kader van SENSEVAL2. Zie: http://www.sle.sharp.co.uk/senseval2/descriptions/dutch-allwords.htm. Citaat: 'The training and test corpus will be drawn from a corpus which contains about 167 k tokens (words and punctuation) in 14 k sentences, composed of about 100 texts'. Voor het ontwikkelen van woorbetekenissen-disambiguerende software bestaan vele aanpakken, waarbij de laatste tijd de probabilistische technieken weer domineren (Decision lists: Yarowsky 2000; overzicht en 'lazy boosting': Escudero, Màrquez en Rigau 2000; URL: http://www.lsi.upc.es/~lluism/publicacions/pubs.html; memory-based: Veenstra et al. 2000).Van een robuuste oplossing (bestand tegen een verschil in domein tussen trainings- en testmateriaal) kan voorlopig geen sprake zijn. Een overzicht van de verschillende benaderingen is te vinden in het aan SENSEVAL gewijde special issue van Computers and the Humanities (volume 34, nrs. 1/2, April 2000). Voor een recent overzicht zie ook Escudero et al. (2000). Voor naamherkenning (named entity recognition) zie 4.3.2.3.6. Voor pragmatische annotatie (4.2.2.4.6.) is geen software beschikbaar. 4.3.3
Verrijkingssoftware voor spraakcorpora en corpora van gesproken taal
Het omvangrijkste corpus gesproken Nederlands – 10 miljoen woordvormen voor Nederland en Vlaanderen - is het Corpus Gesproken Nederlands (CGN; http://lands.let.kun.nl/cgn/), dat in 2003 gereed zal zijn (vanaf maart 2000 komt om de zes maanden een deel beschikbaar). Hierna wordt software behandeld voor de verrijking van de digitale orthografische transcripties (zie 3.3. voor de voorafgaande verwerking) maar er zal eerst dieper worden ingegaan op annotatietools die gebruikt worden om in eerste instantie een orthografische transcriptie te genereren. Handmatig transcriberen is een tijdrovend en duur proces. Met behulp van annotatietools en -software kan dit proces worden versneld en efficiënter worden gemaakt, tevens kunnen menselijke fouten en inconsistenties worden vermeden of verbeterd. Afhankelijk van het type spraakdatabase is er sprake van verificatie van de prompts of van transcriptie 'from scratch' (vanaf niets). De gebruikte software moet voldoen aan enkele eisen: - afspelen van audiobestand en eventueel weergave van oscillogram; - platformonafhankelijk; - weergeven van de voorgegeven transcriptie, indien aanwezig; - mogelijkheid tot editten van voorgegeven transcriptie of mogelijkheid tot maken van transcriptie; - automatisch koppelen via bijvoorbeeld namen van transcriptiebestand aan het geluidsbestand; - makkelijk opslaan van de aangepaste transcriptiefiles; - spellingchecken en andere tekstconversies (hoofdletter/kleine letter, getallen omzetten in tekst); 121
-
audioconversies; gebruiksvriendelijk voor naïeve gebruiker; ….
Enkele bestaande annotatietools gebruikt in het SpeechDat project die publiek toegankelijk zijn of via een licentie verkrijgbaar: - WWWTranscribe (http://www.phonetik.uni-muenchen.de/Publications/ EUROSPEECH99-Schiel.pdf) - Vox! - Annotator - NaniDB (http://gps-tsc.upc.es/veu/research/pubs/conferences.php3) - JavaSgram (http://poseidon.itc.it:7117/~cristofo/HomePage.html) - Praat (http://fonsg3.let.uva.nl/praat/), wordt gebruikt in het Corpus Gesproken Nederlands project voor de orthografische en fonetische transcriptie, de prosodische annotatie en verificatie van de automatische woordoplijning (http://lands.let.kun.nl/cgn/ehome.htm) Zie ook Heuvel et al. (2001). 4.3.3.1 Software voor tekstclassificatie De teksten van het CGN worden volgens getrapte sampling gekozen (zie 2.5.2. en http://lands.let.kun.nl/cgn/design.htm) om een plausibele steekproef te krijgen. Ze worden niet volgens de corpussamenstelling geclassificeerd (zie 4.3.2.1. voor dergelijke software). 4.3.3.2 Software voor verrijking van tekststructurele eenheden Tekststructurele eenheden worden in het CGN niet gecodeerd (zie 4.3.2.2. voor dergelijke software). 4.3.3.3 Software voor verrijking van taalkundige eenheden 4.3.3.3.1 Tokeniseren en zinsgrensdetectie Voor het CGN is tokeniseren (zie 4.3.1.2.) eenvoudig omdat als leestekens alleen de punt, het vraagteken en het beletselteken worden gebruikt (zie http://lands.let.kun.nl/cgn/protocs/ort_prot.pdf, vooral E. en F.). Dit geldt ook voor het verwijderen van de codering aan het eind van een woordvorm bestaande uit een asterisk gevolgd door een letter in onderkast. Deze codeert bijzondere woordvormen, bijv. een afgebroken woordvorm: uitges*a (zie http://lands.let.kun.nl/cgn/protocs/ort_prot.pdf, B4 en C3 t/m C8). Software voor zinsgrensdetectie plaatst een begin- en eindcode om elke gevonden zin. Er is voor het Nederlands geen algemeen beschikbare software voor zinsgrensdetectie (zie 4.3.2.3.). In het CGN worden geen zinsgrenzen gecodeerd. Het voorschrift om bijv. geen hoofdletter aan het begin van een zin te transcriberen (zie http://lands.let.kun.nl/cgn/protocs/ort_prot.pdf, B.), maakt het lastiger om zinsgrenzen automatisch te coderen.
122
4.3.3.3.2 Toekenning van woordsoorttags Voor POS-tags aan woordvormen kunnen worden toegekend, moet eerst een tagset worden vastgesteld. De CGN-tagset moest meer dan 50 onderscheidingen maken, aansluiten bij EAGLES(http://www.ilc.pi.cnr.it/EAGLES96/home.html) en ANS-97 en goed gedocumenteerd zijn. De twee Nederlandse kandidaten, WOTAN-2 en PAROLE (zie http://www.inl.nl/corp/parole.htm), bleken in 1998 te veranderlijk, resp. nog niet openbaar. Daarom is een CGN-tagset (http://lands.let.kun.nl/cgn/protocs/tg_prot.pdf) ontwikkeld van 313 tags. Een tagger gebaseerd op deze tagset, was niet beschikbaar, taalonafhankelijke trainbare taggers daarentegen wel. Er is dan wel een trainingscorpus nodig, verrijkt op basis van deze omvangrijke tagset, met een laag percentage fouten en een redelijke omvang. Om de fouten in enkele met de hand getagde kleine samples (in totaal ca. 65.000 tokens) van het CGN te reduceren, werd de uitvoer van verschillende trainbare taggers – TNT, MXPOST, RUL en MBT (zie 4.3.2.3) – gecombineerd (zie Zavrel en Daelemans 2000). Uit vergelijkend onderzoek van de genoemde taggers kwam TnT als beste naar voren. Daarom werd deze gekozen voor het taggen van de rest van het CGN. Na training op het verbeterde trainingscorpus zou gemiddeld een percentage fouten van 90-95 % te behalen zijn (zie Van Eynde, Zavrel en Daelemans 1999). 4.3.3.3.3 Lemmatiseren Nu elk token een unieke tag heeft gekregen – mogelijke POS-ambiguïteiten zijn in de vorige fase opgelost – wordt aan elk token een lemma (d.i. canonieke vorm of trefwoord) toegekend (zie http://lands.let.kun.nl/cgn/protocs/tg_prot.pdf 1.3.1.). Op grond van de beschikbaarheid is het MBMA-systeem (zie Van den Bosch en Daelemans 1999) gekozen. Hier moet vermeld worden dat het regel/lexicon-gebaseerde systeem D-Tale, ontwikkeld door Lexicologie VU Amsterdam en een van de andere kandidaten, aanvankelijk beduidend beter scoorde bij het lemmatiseren van werkwoordsvormen32 (zie: Van Eynde, Zavrel en Daelemans 2000). Een betere, verdergaande, lemmatisering, waarbij ook scheidbare werkwoorden en preposities gerelateerd worden aan de juiste lemmata, wordt voorzien door middel van een lexicologische koppeling met het CGN-lexicon. Hoe dit gebeurt, is ons niet bekend. Lemmatiseersoftware voor het Nederlands is niet algemeen beschikbaar. 4.3.3.3.4 Postprocessing en lexicon Het resultaat van de twee vorige verrijkingsfasen bevat nog fouten. Daarom wordt het na beide fasen manueel gecontroleerd en zo nodig gecorrigeerd om zo een hoge kwaliteit te bereiken. Er is een CGN-lexicon in opbouw – waarvoor deels bestaande lexicale hulpmiddelen (CELEX, het PAROLE-lexicon en RBN) worden benut - dat werkt met de onderscheidingen van de CGN-tagset. Dat lexicon wordt op grote schaal gebruikt bij de manuele correctie van de taggeruitvoer. Er zijn nog experimenten gaande met het in de tagger incorporeren van lexicale hulpmiddelen. 4.3.3.3.5 Syntactische annotatie Voor een miljoen tokens uit het CGN-corpus is syntactische annotatie gepland. Daarvoor is een annotatieschema ontwikkeld (zie http://lands.let.kun.nl/cgn/protocs/syn_prot.pdf). Het 32
Er is op dit moment op het CGN-materiaal geen verschil in accuraatheid tussen MBMA en D-Tale (prof W. Daelemans, persoonlijke mededeling).
123
gaat uit van een theorieneutraal primair annotatieniveau in termen van dependentiestructuren. Voor het aanbrengen van deze annotatie wordt Annotate (http://www.coli.unisb.de/sfb378/negra-corpus/annotate.html) gebruikt, in Saarbrücken ontwikkelde software voor het semi-automatisch annoteren van corpusdata. De primaire annotatie kan worden verrijkt met de CGN-woordsoortinformatie en informatie uit het CGN-lexicon. Deze drievoudige verrijking moet het mogelijk maken verschillende uitvoerformaten, bijv. TLG (Type-Logical Grammar) of LTAG (Lexicalized Tree Adjoining Grammar), te produceren die passen bij een bepaalde theorievoorkeur (zie Moortgat & Moot 2000). Dit is van belang i.v.m. herbruikbaarheid van de data. 4.3.3.3.6 Semantische en pragmatische annotatie Semantische en pragmatische verrijking van het CGN-corpus is niet gepland. 4.3.3.3.7 Prosodische annotatie Zoals vermeld in 4.2.3.2. worden 250.000 tokens prosodisch geannoteerd. Deze verrijking is nu nog in een experimenteel stadium. 4.3.3.4 Overige automatische verrijking van spraakcorpora Voor de volledigheid noemen we hier ook het ANNO-corpus en het OVIS-corpus (zie http://odur.let.rug.nl/~gosse/taalunie/elra-paper/node2.html). Beide zijn niet algemeen toegankelijk. Het ANNO-corpus (zie http://www.ccl.kuleuven.ac.be/about/ANNO.html) werd aangelegd in 1995/1996 in het kader van het Vlaamse onderzoeksprogramma Spraak- en Taaltechnologie voor het Nederlands (STTN) en omvat ruim 640.000 woordvormen. Het bestaat uit tekst van nieuwsuitzendingen van de BRTN-radio en tekst van het actualiteitenprogramma ACTUEEL. Het hele corpus is automatisch voorzien van fonologische informatie door TREETALK, een programma dat grafemen naar fonemen omzet (zie http://ilk.kub.nl/g2p-www-demo.html), en van morfosyntactische informatie door de WOTAN-tagger. Deze verrijking is voor een deel gecorrigeerd. Een deel van het corpus is morfologisch verrijkt door het KEPER-systeem, een door Polderland B.V. ontwikkelde bigram-tagger gecombineerd met morfologische analyse, en syntactisch door het METALsysteem (http://www.ccl.kuleuven.ac.be/about/METAL.html). Het laatste is SiemensNixdorf's systeem voor 'human-aided machine translation' dat in de periode 1985-1992 in Leuven werd ontwikkeld. Het OVIS-corpus is aangelegd in het kader van het vijfjarige project Openbaar Vervoer Informatie Systeem financieel gesteund o.a. door NWO (zie http://grid.let.rug.nl:4321/tstplan/c3.html#ovis1) dat in 1995 van start ging. Het bevat 10.000 uitingen die syntactisch en semantisch verrijkt zijn. Het is ons niet bekend of dit corpus automatisch verrijkt is en met welke software. Zie verder Moortgat en Moot (2000), Nederhof et al. (1997), Van den Bosch en Daelemans (1999), Van Eynde, Zavrel en Daelemans (1999, 2000), Zavrel en Daelemans (2000). 4.3.4
Software voor de codering van informatiecategorieën in woordenboeken
Om woordenboeksbestanden die alleen lay-outinformatie bevatten te converteren naar een bestand waarin de gewenste informatiecategorieën wel gecodeerd zijn, is het nodig een
124
'dictionary entry parser' (vgl. 4.2.4.2.) te ontwikkelen. Omdat woordenboeken verschillen in structuur- en vormaspecten (vgl. 4.2.1.4., 4.2.4.) is hiervoor geen direct toepasbare software. Wel zijn er gereedschappen als Perl (http://www.perl.org) die van pas kunnen komen. Een voorbeeld van software voor de ontwikkeling van woordenboekdata is de aan de Vrij Universiteit ontwikkelde applicatie OMBI (http://www.cs.vu.nl/~a3aan/Papers/Lexicografische_hulpmiddelen/OMBI.html) 4.3.5
Software voor de ontwikkeling van een computationeel lexicon
Nodig: 1. Het samenstellen van een lemmalijst. 2. Extractie van informatie uit bestaande data (bijvoorbeeld een ander lexicon, een elektronisch woordenboek of een tekstcorpus). 3. Conversie tussen verschillende annotatieschema's. 4. Integratie van data uit verschillende bronnen in het lexiconmodel. 5. Werkomgeving voor handmatige bewerking van informatie. Beschikbaar: Een lemmalijst wordt meestal geëxtraheerd uit een of meerdere bestaande lexica of elektronische woordenboeken. Door middel van de extractie van frequentie-informatie uit een corpus kunnen ingangen worden verwijderd of toegevoegd. Voor het vervaardigen van de relevante frequentielijsten is (mede in verband met diverse tokenisatieconventies) geen standaardsoftware beschikbaar. Het is ook niet bijzonder moeilijk. Wil men nieuwe ingangen op lemmaniveau toevoegen, dan staat men voor de taak het corpus te lemmatiseren, zie 4.3.2.3.6. Voor het extraheren van informatie uit gestructureerde bestanden zijn scripttalen als Perl (http://www.perl.org) en extractietools als sgrep (http://www.cs.helsinki.fi/u/jjaakkol/sgrep.html) handig. Extractie van andere informatie dan alleen een lijst woordvormen uit een corpus is een niet-triviaal probleem, waarvoor geen standaard software beschikbaar is. Er is met name veel gewerkt aan de automatische extractie van valentiepatronen van werkwoorden. Voor een bespreking van enkele aspecten hiervan verwijzen we naar de literatuur (Boguraev en Pustejovsky 1996; Heid et al. 2000). Als een een-op-een-afbeelding tussen verschillende annotatieschema's mogelijk is, is het in principe niet al te moeilijk conversieprogrammatuur te ontwikkelen. Ook hiervoor is geen standaardsoftware beschikbaar, maar kan bijvoorbeeld Perl goede diensten bewijzen. De complexiteit van de integratie van data in een lexiconmodel hangt natuurlijk sterk af van het model. Ook hiervoor is geen standaardsoftware beschikbaar. Als gereedschap kan hier naast een script- of andere programmeertaal een databasesysteem ingezet worden. Voor het ontwikkelen van nieuwe gegevens of het handmatig bewerken van bestaande, is een werkomgeving aan te raden, die het onmogelijk maakt gegevens in te voeren die volgens het annotatieschema niet welgevormd zijn. Te denken valt aan het gebruik van programmeerbare tekstverwerkers (emacs) of databaseapplicaties. Bijlagen bij § 4.3 4.3.A Korte uitleg van een aantal classificatieprocedures - Bayesiaans (al dan niet naïef). Maak een probabilistisch model op grond van het trainingsmateriaal; kies voor een nieuwe instantie x de klasse C die volgens dit model de meest waarschijnlijke is (de grootste 'posterieure' kans P(C | x) heeft). De benaming
125
-
-
-
-
-
-
bayesiaans heeft betrekking op de toepassing van de regel van Bayes P(C | x)=P(x | C)P(C) / P(x) die de berekening van de posterieure kans doenlijk maakt. De omschrijving naïef verwijst naar de aanname dat de afzonderlijke kenmerken onafhankelijk zijn. Discriminantanalyse. Iedere klasse wordt op grond van het trainingsmateriaal gemodelleerd als een multivariabele normale verdeling; een nieuwe instantie x wordt toegewezen op grond van de kleinste 'Mahalonobis-afstand' (Euclidische afstand gewogen met de inverse van de covariantiematrix van de verdeling) van x tot het gemiddelde van een afzonderlijke klasse. Maximumentropie. Maak het probabilistische model als het model dat aan bepaalde eisen (constraints; in de praktijk meestal relatieve frequenties van kenmerkcombinaties) voldoet en dat maximale entropie (wanorde, uniformiteit) heeft. Deze benadering is geschikt om een aantal diverse maar niet-onafhankelijke kenmerken in een model te integreren. Referenties: Berger et al. (1996); Ratnaparkhi (1998; proefschrift, behandelt o.a. detectie, zinsgrenzen, woordsoorttagging, syntactische analyse, PP-attachment met de maximumentropie-benadering; verkrijgbaar op http://www.cis.upenn.edu/~adwait/statnlp.html) Memory-based leren. In de eenvoudigste variant hiervan, k-Nearest Neighbour classificatie, wordt geen generalisatie uit de voorbeelden afgeleid maar kiest men direct de classificatie van een nieuwe instantie op basis van de classificatie van de k voorbeelden die, in de zin van een metriek (afstandsmaat), het dichtst bij de te classificeren instantie liggen. Referentie: zie bijvoorbeeld de Tilburgse webpagina http://ilk.kub.nl/ voor een aantal taalkundige toepassingen. Beslissingsbomen ('decision trees'). Leid regels af door een successieve opsplitsing van het voorbeeldmateriaal in delen met bepaalde kenmerken (bijvoorbeeld Quinlan 1986). Neurale netwerken. Men heeft een netwerk van input, output, en (meestal) tussenliggende ('hidden') knopen. Inputknopen corresponderen met kenmerken van de instanties (worden 'geactiveerd' als een instantie bepaalde kenmerken heeft); outputknopen met classificatielabels (de instantie wordt geclassificeerd als behorende tot een klasse als de overeenkomstige knoop voldoende geactiveerd is). Bij het classificeren van een nieuwe instantie worden activaties van knopen aangepast als functie van de activatie van verbonden knopen en de gewichten van de verbindingen. Gewichten van verbindingen tussen knopen in een netwerk worden in de trainingsfase aangepast tot de inputoutputrelatie van het netwerk (welke outputknopen het worden het meest geactiveerd bij bepaalde inputactivaties) dat zo goed mogelijk overeenkomt met het trainingsmateriaal. Zie voor een taalkundige toepassing bijvoorbeeld (Schmid). Algemene boeken zijn Bishop (1995) en Ripley (1996). Het boek van Ripley besteedt ook uitgebreid aandacht aan andere methoden. Boosting (Referenties: algemeen: Schapire en Singer 1999); taalkundige toepassing: Escudero et al. 2000; Abney 1999). Bij boosting worden gewichten van kenmerken en trainingsinstanties iteratief aangepast; de op grond van de geselecteerde kenmerken nog niet verantwoorde trainingsinstanties worden zwaarder gewogen. Bij iedere slag wordt steeds een bepaald kenmerk gekozen door de 'zwakke leerprocedure', zodanig dat het trainingsmateriaal weer iets beter verantwoord wordt. SNOW, Sparse Network of Linear Separators. (Referenties: Littlestone 1988, 1995; Roth en Zelenko voor een taalkundige toepassing). Adaptieve aanpassing van positieve en negatieve associatiegewichten tussen knopen geassocieerd met kenmerken en outputknopen geassocieerd met classificatielabels. Een criterium in de vorm van een lineaire combinatie van de gewichten van de connecties tussen de kenmerkknopen (corresponderend met de kenmerken van de nieuwe instantie) en een outputknoop bepaalt of een classificatielabel toegepast wordt. 126
- Markov-modellen. Deze definiëren geen algemene classificatieprocedure in 4.3.1.3. aangegeven zin, maar zijn speciaal van toepassing op reeksen tekens (zoals bijvoorbeeld zinnen). Een Markov-model bestaat uit een aantal toestanden en overgangswaarschijnlijkheden tussen die toestanden. Bij een hidden Markov-model kunnen de toestanden niet direct worden waargenomen, maar zijn de waarnemingen gegeven door een functie van de verzameling toestanden (of overgangen) naar outputsymbolen. Classificatie gaat als volgt: bij een reeks ongemarkeerde symbolen wordt de meest waarschijnlijke reeks interne toestanden berekend (Viterbi-algoritme). Op grond van het doorlopen toestandstraject worden de classificatielabels toegekend. - Inductie van regels. Als voorbeelden kunnen de Brill tagger (vgl. 4.3.2.3.5.) en het algoritme RIPPER genoemd worden. In het systeem van Brill wordt uitgegaan van een willekeurige initiële labeling van het trainingscorpus. Van een eindige klasse transformatieregels wordt nu steeds die regel gekozen die de grootse reductie tot stand brengt van het aantal foute labelings. Die regel wordt dan aan de lijst geleerde transformaties toegevoegd en op het corpus toegepast. REP/IREP/RIPPER (successieve verbeteringen van hetzelfde basisidee) werkt net als beslissingsbomen met in complexiteit groeiende regels, afgeleid uit steeds kleinere stukken data. Alleen wordt - in plaats van de opsplitsing van het materiaal op grond van kenmerken – hier het gedeelte van het materiaal dat verantwoord is door de tot nu toe afgeleide regels verwijderd. 4.3.B Informatie over genoemde datasets Lexicale informatie - Informatie over diverse vrij beschikbare Nederlandstalige woordenlijsten: http://www.iaf.nl/Users/Meridian/words.htm. Beschikbaar zijn kale woordenlijsten en woordenlijsten met lettergreepsplitsingen. Het enige vrije bestand dat woordsoortinformatie bevat is dat van het oude Groene boekje (1954), ftp://ftp.tue.nl/pub/tex/GB54/. Dit staat in de oude spelling. Uit de beschrijving: `Het materiaal dat op tape beschikbaar is, berust op een verponsing van de gehele Woordenlijst der Nederlandse Taal (1954), een aantal jaren geleden in Denemarken aangelegd op initiatief van Dr. J. de Rooij'. - De CELEX-lexica. Informatie http://www.kun.nl/celex/. Op de CELEX CD (versie 2): woordenlijsten, woordsoortinformatie, morfologisch gesegmenteerde woordenlijst, frequentie-informatie, fonologische transcripties. Distributie en verkoop via ELRA voor commerciële doeleinden; via het LDC (Linguistic Data Consortium) voor wetenschappelijke doeleinden.Links: http://www.ldc.upenn.edu/, http://morph.ldc.upenn.edu/Catalog/LDC96L14.html, http://www.icp.inpg.fr/ELRA/home.html - Het INL-PAROLE-Lexicon. Zie http://www.inl.nl/europa/projecten.htm, beschrijving http://www.inl.nl/PAROLE/doc_A1.html. Het PAROLE-lexicon bevat 20.200 ingangen met woordsoortinformatie en valentiepatronen. Het PAROLE-lexicon wordt gedistribueerd door ELRA/ELDA onder productnummer ELRA-L0031. Voor onderzoekers en onderzoeksgroepen in Nederland en België, die het lexicon uitsluitend voor niet-commerciële onderzoeksdoeleinden willen gebruiken, is het verkrijgbaar bij het INL tegen een gereduceerde prijs van 200 ECU. - EuroWordNet. Een Europese tegenhanger van WordNet, waarin ruim 40.000 Nederlandse woorden semantisch geclassificeerd zijn. EuroWordNet is verkrijgbaar via ELRA. Meer informatie op. http://www.hum.uva.nl/~ewn/
127
- Het Referentiebestand Nederlands (RBN). Voor informatie wende men zich tot prof. W. Martin, VU Amsterdam, lexicologie. Geannoteerde corpora Corpora met woordsoortmarkeringen: - Getagde stukken van het PAROLE Distributable Corpus (ca. 250.000 woordvormen), verkrijgbaar bij het INL. Het PAROLE Distributable Corpus wordt gedistribueerd door ELRA/ELDA, onder productnummer ELRA-W0019. Onderzoekers en onderzoeksgroepen in Nederland en België, die het corpus uitsluitend voor nietcommerciële onderzoeksdoeleinden willen gebruiken, kunnen het verkrijgen via het INL tegen een gereduceerde prijs van 150 ECU. Informatie: http://www.inl.nl/corp/parole.htm, http://www.inl.nl/PAROLE/distrudoc.html - Het 'Uit den Boogaart' of 'Eindhoven' corpus. Geschreven taal: plm. 600.000 woorden; gesproken taal: plm. 120.000 woorden. Is morfosyntactisch geannoteerd met woordsoort en flexievorm volgens een eigen systeem. Wordt opnieuw getagd met de uitgebreidere WOTAN2-tagset. 150.000 woorden (krantenmateriaal) zijn in ieder geval klaar. Referentie: Van Halteren (1999). Beschikbaarheid is onduidelijk: 'Op verschillende instituten is een versie van het corpus aanwezig; het is onduidelijk of er copyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik.' Corpus Gesproken Nederlands, http://lands.let.kun.nl/cgn/index.htm, inmiddels is de vierde tussentijdse release beschikbaar. Voor een deel van het corpus zijn de woordvormen voorzien van morfosyntactische informatie en lemma. De distributie van het Corpus Gesproken Nederlands wordt verzorgd door ELRA. Belangstellenden die het Corpus in hun bezit willen krijgen, kunnen zich wenden tot Mw. E. D'Halleweyn, Nederlandse Taalunie. Corpora met syntactische annotatie: - CGN (in ontwikkeling), 1 miljoen woorden zullen worden geannoteerd. - ANNO: Time span 1995 – 1996, Vlaamse Regering (Spraak- en Taaltechnologie voor het Nederlands), G. Adriaens, B. Tersago, W. Peters, I. Schuurman & F. Van Eynde. Zie http://www.ccl.kuleuven.ac.be/about/ANNO.html. Een deel van het corpus is morfologisch verrijkt door het KEPER-systeem, een door Polderland B.V. ontwikkelde bigram-tagger gecombineerd met morfologische analyse, en syntactisch door het METAL-systeem (http://www.ccl.kuleuven.ac.be/about/METAL.html). - OVIS. Het OVIS-(Openbaar Vervoer Informatie Systeem) corpus bestaat uit 10.000 syntactisch en semantisch geannoteerde uitingen van gebruikers. Deze data zijn voorzover ons bekend niet publiekelijk beschikbaar. Het OVIS-corpus is aangelegd in het kader van het vijfjarige project Openbaar Vervoer Informatie Systeem financieel gesteund o.a. door NWO (zie http://grid.let.rug.nl:4321/tstplan/c3.html#ovis1). Het project ging in 1995 van start. Semantisch geannoteerde data: - Het OVIS-corpus, zie ook 4.3.2.3.8. - Nederlandse trainings- en testdata voor woordbetekenisannotatie (ongeveer 167.000 woordvormen) is aangekondigd in het kader van SENSEVAL2; zie http://www.sle.sharp.co.uk/senseval2/descriptions/dutch-allwords.htm
128
4.4
Criteria voor keuzes bij programmatuurontwikkeling
Paragraaf 4.3. was gericht op beschikbare software voor automatische taalkundige verrijking en de daarbij gebruikte methodologieën: Deze paragraaf belicht een aantal aspecten van programmatuurontwikkeling en daarmee samenhangende zaken. Deze paragraaf is bedoeld voor organisaties die TST-software gaan ontwikkelen. Van standaardisatie op dit gebied is nog nauwelijks sprake. Toch moet een organisatie die TST-materialen ontwikkelt bepaalde keuzes maken. In deze paragraaf worden criteria voor het maken van die keuzes behandeld. 4.4.1
Criteria voor de keuze van hardwareplatform en besturingssysteem
Zodra een organisatie zich gaat bezighouden met het ontwikkelen van programmatuur voor TST-toepassingen zal een keus gemaakt moeten worden voor het platform waarop die programmatuur ontwikkeld gaat worden. Onder platform wordt hier verstaan: de combinatie van hardware en besturingssysteem. Als de organisatie reeds beschikt over een ICT-infrastructuur dan zal de keus in het algemeen op het reeds aanwezige platform vallen. Er kunnen echter andere criteria in het geding zijn op grond waarvan voor een ander platform wordt gekozen. De keuze voor een platform mag niet op zichzelf staan. Indien de organisatie beschikt over een ICT-infrastructuur moet, los van de hiervoor genoemde criteria, worden nagegaan of de investering in het nieuwe platform voldoende voordelen biedt boven reeds aanwezige platformen om die investering te rechtvaardigen. Zeker als die investering ook noopt tot aantrekken van extra personeel of bijv. bouwkundige voorzieningen vereist. Hierna worden enkele wezenlijke aspecten behandeld. 4.4.1.1 Verspreiding van programmatuur Indien de organisatie de programmatuur wil verspreiden dan is het uitleverplatform van belang. Indien dit anders is dan het ontwikkelplatform dan zal de organisatie moeten kiezen voor meerdere hardwareplatforms, nl. één voor elk platform waarvoor de programmatuur beschikbaar wordt gesteld. Alleen op die manier kan de installatie, configuratie en werking van de programmatuur op de verschillende platforms worden getest en (binnen zekere grenzen) worden gegarandeerd. Gegeven de kosten die hiermee gemoeid kunnen zijn kan uitbesteding (zie hoofdstuk 5) van de distributie overwogen worden. 4.4.1.2 Usances binnen het vakgebied Indien zou blijken dat in het vakgebied een bepaald platform veel gebruikt wordt, kan de organisatie overwegen zich hierbij aan te sluiten. In de TST-wereld wordt met name (varianten van) Unix veel gebruikt; ook Windows NT en OpenVMS komen voor. 4.4.1.3 Leveranciersregelingen Afhankelijk van het type organisatie (educatief, onderzoek) hanteren bepaalde leveranciers gunstige regelingen bij de levering van producten, bijv. kortingen op de aanschaf van hardware of korting op onderhoudscontracten.
129
4.4.1.4 Beschikbaarheid van ontwikkelprogrammatuur Indien de organisatie voor de ontwikkeling van TST-programmatuur noodzakelijkerwijs gebruik moet maken van bepaalde ontwikkelprogrammatuur – compilers bijvoorbeeld – wordt de keus voor een platform bepaald uit de platforms waarvoor de ontwikkelprogrammatuur beschikbaar is. 4.4.1.5 Beschikbare middelen Wanneer de middelen voor apparatuur niet voldoende zijn voor aanschaf van hardware om de beoogde taalkundige bewerkingen voldoende efficiënt uit te voeren, zijn er de volgende mogelijkheden: Gebruikmaken van de programma's die sommige leveranciers hebben voor het beschikbaar stellen van apparatuur en/of software. Voorwaarde is dat het betreffende project voldoende interessant moet zijn voor de leverancier om er zijn naam aan te willen verbinden. Sun Microsystems is een van de leveranciers die een dergelijk programma heeft, het zgn. academic equipment grant, zie http://www.sun.com/products-nsolutions/edu/grants/index.html. Indien het betreffende project voldoende innovatief is kan overwogen worden een beroep te doen op de investeringsprogramma's die bijv. NWO beschikbaar heeft voor apparatuur. Zie http://www.nwo.nl/nwo/subsidiewijzer/content.html. Als (delen van) het project aansluiten bij (onderzoeks)behoeften van het bedrijfsleven of indien het gaat om beleidsgericht onderzoek, kan mogelijk een beroep worden gedaan op subsidiëring door IWT (http://www.iwt.be) resp. AWI (http://www.vlaanderen.be/ned/sites/weten/index.html) in Vlaanderen. In Nederland kan daarvoor Senter (http://www.senter.nl) worden gecontacteerd, dat bijv. innovatiegerichte onderzoeksprogramma's (IOP) financiert. Een IOP geeft subsidie aan innovatiegerichte technologische onderzoeksprojecten bij universiteiten en andere nonprofitonderzoeksinstellingen. De Vlaamse pendant van Senter is het IWT, Instituut voor de aanmoediging van Innovatie door Wetenschap en Technologie in Vlaanderen (http://www.iwt.be). 4.4.1.6 Programmatuureisen Als bij de ontwikkeling van TST programmatuur modellen c.q. algoritmen worden geïmplementeerd die bijv. zeer veel intern geheugen nodig hebben, dan wordt de keuze voor het platform beïnvloed door de hoeveelheid geheugen die geïnstalleerd kan worden en door de mogelijkheden van het besturingssysteem dit geheugen te adresseren. 4.4.2
Criteria voor de keuze van te gebruiken programmeertalen
In de volgende paragrafen worden wezenlijke factoren besproken die een rol spelen bij de keuze van de te gebruiken programmeertalen. 4.4.2.1 Beoogde duurzaamheid van de programmatuur Perl en andere scripting-talen worden zowel toegepast voor het snel ad hoc kunnen oplossen van automatiseringsproblemen als voor applicaties met een duurzamer karakter. De non-
130
scripting-talen als C, C++, Java, Delphi worden voornamelijk gebruikt voor duurzamer applicaties. Niet alleen voor geschreven corpora maar ook bij gesproken dataverzamelingen is de duurzaamheid van de bijbehorende (retrieval) software vaak groter dan vermoed omdat een groot gebalanceerd corpus ettelijke jaren in gebruik kan blijven. Onderhoudbaarheid van de code draagt bij aan duurzaamheid van de programmatuur. In het algemeen geven scripting-talen de ontwikkelaar de mogelijkheid tot compacte code, zodat snel kan worden ontwikkeld. Daar staat tegenover dat zulke code vaak minder doorzichtig is, dus moeilijker onderhoudbaar. 4.4.2.2 Hergebruik Hergebruik is het opnieuw gebruiken van bepaalde standaardprogrammabibliotheken ('routine libraries') van een hogere programmeertaal als C of het opnieuw aanroepen van een procedure in een programma. Daarnaast is het opnieuw gebruiken, met eventueel een kleine aanpassing, van complete modules/objecten met de bijbehorende ontwerpen, testen en documentatie, een onderdeel van hergebruik. De mate van hergebruik van taalkundige programmatuur binnen de onderzoekswereld is laag (zie bijvoorbeeld Gambäck en Olsson 2000). Als men het over hergebruik van taalkundige bronnen heeft, bedoelt men vaak alleen zaken als data, corpora, lexica en grammatica, terwijl de programmatuur maar zelden wordt gedeeld tussen de verschillende projecten en instituten. De consequentie hiervan is dat ontwikkeling van nieuwe programmatuur meer inspanning vereist dan nodig (met als neveneffect hogere ontwikkelingskosten), omdat niet geprofiteerd wordt van ervaringen uit andere projecten. Voor enkele belangrijke aspecten die bij hergebruik een rol spelen verwijzen we naar bijlage 4.4.A. 4.4.2.3 Oplossingsmethodiek In de loop der jaren zijn verschillende families van programmeertalen ontstaan die op verschillende principes (ook wel paradigma genoemd) gebaseerd zijn en die ieder een bepaalde doelstelling nastreven. De keuze voor een programmeertaal wordt beïnvloed door de mate waarin deze aansluit op de realiseren technische specificaties. Globaal is de volgende onderverdeling te maken: De traditionele procedurele opvatting vindt men terug in de hogere programmeertalen als FORTRAN, ALGOL, C, Pascal. Procedureel (imperatief) houdt in dat het programma een manier weergeeft waarop een probleem stapsgewijs wordt opgelost. In deze talen, waarvan C nu de meeste gangbare in de TST-wereld is, kan, zij het soms ten koste van de snelheid van ontwikkeling, zeer efficiënte software worden gerealiseerd. Het declaratieve programmeren legt niet het accent op de methode waarop een probleem moet worden opgelost, maar op de precieze formulering van het probleem zelf. Deze formulering is voldoende voor de computer om het probleem op te lossen m.b.v. een algemeen probleemoplossend algoritme, dat een declaratieve benadering wel vereist. Het declaratief logisch programmeren (Prolog) kreeg met name veel aandacht, toen men algoritmen ontdekte waarmee de formele logica als simpel probleemoplossend systeem gebruikt kon worden. In Prolog is implementatie van semantische en syntactische formalismen dankzij de ingebouwde resolutie en unificatie relatief eenvoudig.
131
Naast de imperatieve en declaratieve programmeeropvattingen, kent men ook de functionele benadering. Deze wordt geïllustreerd door talen zoals LISP, Standard ML en Scheme. Functioneel programmeren is een programmeermethode die de nadruk legt op het (recursief) evalueren van expressies in plaats van het uitvoeren van instructies. Objectgeoriënteerd programmeren is een verfijning van de procedurele aanpak. Dat houdt in dat de nadruk ligt op datastructuren en zogenaamde `methoden' die de data manipuleren, en niet zozeer op heruitvoeren van procedures. Voorbeelden zijn C++, Python en Java. 4.4.2.4 Integrabiliteit en interoperabiliteit Een criterium bij de beoordeling van een te kiezen programmeertaal kan de vraag zijn of er voor die taal losse toepassingsmodules beschikbaar zijn die ingepast kunnen worden in het te ontwikkelen systeem. De in §4.4.2.3. genoemde procedurele en objectgeoriënteerde talen hebben het voordeel dat er veel modules voor beschikbaar zijn, zowel als vrije broncode ('open source') als commercieel, die geïntegreerd kunnen worden met de binnen de organisatie geschreven programmatuur. Bij het gebruik van modules moet gelet worden op een voldoende mate van interoperabiliteit tussen de modules van het beoogde geheel aan programmatuur. Gegevens die de ene module uitvoert moeten interpretabel zijn door een andere module, zonder dat ingewikkelde conversieslagen tussen de modules geplaatst moeten worden. Daarbij is de aanwezigheid van documentatie bij een bruikbare module van belang, met name in de vorm van API (Application Programmers' Interface) documentatie. 4.4.2.5 Gebruiksaspecten van de programmeeromgevingen De afgelopen jaren begint de grafische ondersteuning een steeds prominentere rol te spelen bij het gebruik van allerhande ontwikkelgereedschappen voor de programmeur. De meeste hogere programmeertalen als C, C++, Delphi, Eiffel en Java beschikken nu over visuele ontwikkelomgevingen ('visual workbenches'). De keuze voor een dergelijke omgeving is in principe afhankelijk van de ervaring en voorkeur van de ontwikkelaars. Voor een belangrijk deel bestaat deze grafische ondersteuning uit het gebruik van diagrammen, boomstructuren, formulieren, e.d. om de inzichtelijkheid in o.a. hiërarchie en samenhang tussen de diverse broncodebestanden te kunnen vergroten. Ook bieden deze workbenches het voordeel dat zij gewoonlijk over allerlei additionele gereedschappen en functies ('wizards') beschikken die prototyping en arbeidsintensieve zaken als debuggen en syntaxis-, integriteits- en consistentiecontrole sterk vereenvoudigen. Verder is GUI (Graphic User Interface)-ontwikkeling met behulp van deze gereedschappen (bijv. Visual Studio van Microsoft, Delphi van Borland) relatief eenvoudig en efficiënt te realiseren. Verder vormen codegeneratoren in toenemende mate een onderdeel van geavanceerde ontwikkelomgevingen. Sommige CASE (Computer Aided Software Engineering) producten gaan zelfs zover dat de code nauwelijks nog zichtbaar is. De ontwikkelaar hoeft dan alleen nog de toepassingsspecifieke code toe te voegen. Voor TST-toepassingen zal dit in het algemeen noodzakelijk zijn omdat de gegenereerde code niet alle benodigde functionaliteit bevat. De ontwikkelomgeving is nu eenmaal generiek. Afhankelijk van het type toepassing, voorzien deze ontwikkelomgevingen in eenvoudig te realiseren toegang tot diverse databases, zoals Oracle en Microsoft SQL Server.
132
4.4.2.6 Verkrijgbaarheid van compilers; platformonafhankelijkheid Compilers voor de gekozen programmeertalen en platforms moeten beschikbaar zijn en ondersteund worden door de betreffende leveranciers. Ter waarborging van de continuïteit van een programmeerproject moet ook op langere termijn beschikbaarheid en ondersteuning gegarandeerd zijn. Belangrijk is verder dat een compiler, een interpreter en een programmeeromgeving zich aan de standaarddefinities van een programmeertaal houden. Zo is er voor C bijvoorbeeld de standaard ANSI C, voor Java is er de standaard als gedefinieerd door Sun. Een compiler of interpreter die zich niet aan de standaarden houdt, schept verwarring en verslechtert de platformonafhankelijkheid. 4.4.2.7 Snelheid De efficiëntie van een programma kan van belang zijn, bijvoorbeeld als in korte tijd een groot corpus bewerkt moet worden. De manier waarop een programma wordt uitgevoerd is in principe bepalend voor de snelheid. Er bestaan globaal twee manieren om een programma uit te laten voeren door een computer. Een compiler zet het programma eenmalig om in machinecode (executable) die door de computer direct verwerkt kan worden; een interpreter is een programma dat de instructies van broncode stap voor stap uitvoert. Zie verder bijv. Kernigan & Pike (1999: 231237). Voordeel van compileren ten opzichte van interpreters is in het algemeen de efficiënte uitvoering. Afhankelijk van de toepassing kan een geïnterpreteerde taal echter ook zeer efficiënt zijn, zie bijv. Kernigan & Pike (1999: 80-84). 4.4.2.8 Kosten Commerciële compilers zijn over het algemeen duur en licenties worden vaak per ontwikkelaar verkocht. De open source compilers daarentegen zijn gratis en bovendien van bijzonder goede kwaliteit. Zij doen dan ook beslist niet onder voor commerciële compilers. Shareware compilers zijn voor een beduidend geringer bedrag te verkrijgen. 4.4.3
Richtlijnen op het niveau van programmeren: namen van variabelen, functies, etc.
Dergelijke richtlijnen zijn o.m. van belang wanneer meerdere programmeurs aan dezelfde programmatuur werken. Een aantal van de hierna besproken aspecten wordt uitgebreider in de literatuur behandeld. In deze paragraaf wordt een indruk gegeven van de problematiek. Bij het maken van richtlijnen spelen de volgende aspecten een rol. 4.4.3.1 Naamgeving Het is van belang om namen van constanten, variabelen, functies, procedures enz. (samen benoemd met de term 'objectnamen') met een consistente systematiek toe te kennen opdat de programmabroncode leesbaar is en duidelijk aan de naam te zien is waar een functie of variabele etc. toe dient. Nu vrijwel alle compilers objectnamen accepteren van willekeurige lengte bestaat er geen motivatie meer om namen af te korten en zeker niet een die opweegt tegen het belang van de leesbaarheid van de programmabroncode. Vrijwel altijd leidt het
133
afkorten van objectnamen tot verminderde begrijpelijkheid van de code voor een andere programmeur. De keuze van een objectnaam dient zoveel mogelijk het nut en gebruik van een object te verduidelijken en het voluit schrijven van de naam komt met dat doel overeen. Zie verder bijlage 4D. Taalkeuze De taal die voor de objectnamen wordt gebruikt kan vrij door een programmeur gekozen worden. In de huidige context ligt het voor de hand dat deze taal de Nederlandse taal is, maar het gaat te ver om hiervoor verplichtingen op te leggen. De correctheid van programma's wordt niet beïnvloed door de keuze van de taal voor de objectnamen. In een project waarin uitwisseling van programmacode tussen verschillende naties van de Europese Unie aan de orde is kan eventueel overwogen worden om een gezamenlijke werktaal te kiezen, in dat geval een van de officiële werktalen van de Europese Unie. 4.4.3.2 Eenmaligheid van codering Binnen een module dient bij voorkeur een stuk programmabroncode dat een bewerking uitvoert slechts eenmaal voor te komen. Indien dezelfde bewerking meermalen nodig is dient de bewerking in een subfunctie of -procedure te worden opgenomen. Die kan dan worden aangeroepen met telkens de dan nodige waarden. Zo wordt de onderhoudbaarheid van een module geoptimaliseerd omdat bij verandering van een algoritme de broncode maar op één plaats aangepast hoeft te worden. Er zijn compilers die optimalisaties kunnen toepassen zoals bijvoorbeeld de zgn. integratieve ('inline') compilatie, zodat de prestaties van de executable file wordt verbeterd. 4.4.4
Documentatie
Bij de aanschaf van programmatuur moet men er op letten of er documentatie bij wordt geleverd. Bij het zelf vervaardigen van programmatuur moet deze documentatie door de organisatie gemaakt worden. Een aantal van de hierna besproken aspecten wordt uitgebreider in de literatuur (bijv. Bremer 1999; Price & Korman 1993) behandeld. In deze paragraaf wordt een indruk gegeven van de problematiek. Bij het maken van documentatie spelen de volgende aspecten een rol. 4.4.4.1 Het opbouwen van documentatie m.b.v. daarvoor beschikbare gereedschappen Deze gereedschappen, zoals Cocoon (http://www.stratasys.com/software/cocoon/) en Javadoc (http://java.sun.com/products/jdk/1.2/docs/tooldocs/win32/javadoc.html), gebruiken het commentaar in de broncode om de documentatie te genereren. Het commentaar moet aan bepaalde formele regels voldoen. De documentatiegereedschappen geven in hun eigen onlinedocumentatie aan wat die regels zijn. 4.4.4.2 Zonder documentatiegereedschappen Indien er niet gekozen wordt voor een bepaald documentatiegereedschap dan kan er in de broncode of separaat daarvan zinvolle informatie over de functies, procedures en werking van het programma opgenomen worden. Dergelijke informatie omvat, voorzover nodig, de punten opgenomen in 4B.
134
4.4.4.3 Commentaar in de broncode en aparte (technische) documentatie In het algemeen wordt met name technisch georiënteerd commentaar in de broncode aangebracht: 1. Als algemene toelichting. Dit betreft toelichting op een functie / procedure/ methode /member en die wordt in het algemeen direct aan het begin daarvan geplaatst (als 'commentaarheader'). Globaal genomen staat hier wat een procedure (e.d.) doet, terwijl tussen de regels staat hoe hij dat doet. Zie 4B2. 2. Tussen en achter de programmacoderegels. Deze commentaren dienen als 'algoritmetoelichting' en moeten alleen worden gebruikt wanneer de code (bijv. door complexiteit) niet zonder meer duidelijk is: een goed geschreven programma in een hogere programmeertaal is (een groot deel van) zijn eigen documentatie, mits voldaan is aan de overige eisen die in deze paragrafen zijn besproken. Bij een ingewikkelde en omvangrijke broncode kan de documentatie zo uitgebreid worden dat hierdoor de leesbaarheid van de broncode wordt gehinderd. In dat geval is het zinvol de documentatie (als 'technisch document') apart te produceren van de broncode. Dit betreft bijvoorbeeld ontwerpafwegingen, toelichtingen op genomen beslissingen over de programmatuur, andere abstractere zaken die wat verder afstaan van de programmacode. De toegepaste algoritmen kunnen in de technische documentatie beargumenteerd worden, eventueel met literatuurverwijzingen naar artikelen of andere wetenschappelijke literatuur. Ten slotte noemen we nog de belangrijke gebruikersdocumentatie. Gebruikersdocumentatie is bestemd voor de eindgebruiker van de programmatuur en omvat in het algemeen aanwijzingen over het gebruik, incl. bediening, van de programmatuur. Vgl. ook 8.2. 4.4.5
Het gebruik van ontwikkelmethoden
4.4.5.1 Algemeen Veel inspanningen in de informatica proberen de effectiviteit en efficiëntie van het ontwikkelingsproces (de specificatie- en constructiefase) te verbeteren. Ontwikkelmethoden proberen door het afdwingen van een systematische werkwijze hieraan een bijdrage te leveren. Niet ongebruikelijk is het ontwikkelingsproces in fasen te verdelen. Een volgende fase kan pas starten nadat een voorgaande is afgesloten. Voorbeeld van een bekende, al wat oudere methode is SDM (System Development Methodology). In Bijlage 4E worden modernere ontwikkelingen als UML (Unified Modelling Language) en ontwerppatronen nader toegelicht. Hierna zal eerst worden ingegaan op de (geringe) toepasbaarheid van ontwikkelmethoden binnen de TST-wereld. De overige paragrafen betreffen factoren die een rol kunnen spelen bij de overweging indien men toch een ontwikkelmethode wil gebruiken voor een TST-toepassing. 4.4.5.2 Toepasbaarheid Ontwikkelmethoden hanteren in het algemeen een strakke regie. Zo'n aanpak past niet goed bij de ontwikkeling van taalkundige, researchgeoriënteerde, programmatuur. Helaas is rigueur een kenmerkende eigenschap van de meeste ontwikkelmethoden. Een ander bijkomend nadeel van de meeste ontwikkelmethoden is dat zij voor bepaalde toepassingen te uitgebreid en omvangrijk zijn. Gemiddeld zijn ze onderverdeeld in
135
vijf tot zeven fasen die elk weer hiërarchisch onderverdeeld zijn in deelstappen c.q. zgn. mijlpaalproducten. Het gebruik ervan in een team met een beperkte omvang, wat vaak bij de ontwikkeling van researchgeoriënteerde programmatuur het geval is, is haast ondoenlijk en tamelijk tijdrovend. De meeste ontwikkelmethoden zijn voorts sterk gericht op veel voorkomende bedrijfskundige situaties (vandaar dat vaak wordt gesproken over gestandaardiseerde ontwikkelmethoden). Dergelijke ontwikkelmethoden zijn niet adequaat bij het oplossen van taalwetenschappelijke vraagstukken. 4.4.5.3 Integratie in bestaande/toekomstige infrastructuren (uniformiteit) De mate waarin de applicatie moet worden afgestemd op bestaande/toekomstige hardware- en programmatuursystemen (dezelfde definities en coderingen voor dezelfde gegevens, documentatie volgens afgesproken standaard, compatibele apparatuur en programmatuur) kan een belangrijke factor zijn in de afweging om gebruik te maken van een ontwikkelmethode. Als een van die systemen met een methode ontwikkeld is, kan dat een extra argument zijn om bij de ontwikkeling van het nieuwe systeem van diezelfde methode gebruik te maken. 4.4.5.4 Bijdrage aan kwaliteit Toepassing van een ontwikkelmethode garandeert niet automatisch een hogere kwaliteit van de te ontwikkelen TST-toepassing. De meeste methoden zijn toegespitst op slechts een beperkt gedeelte van het totale ontwikkelingstraject (toegespitst op logisch of op technisch ontwerp, proces- ofwel gegevensgeoriënteerd). Er bestaat vrijwel geen methode waarin op adequate wijze rekening wordt gehouden met de eisen die uiteindelijk bepalend zijn voor de kwaliteit van de programmatuur. De extra moeilijkheid die zich voordoet bij gebruikers is dat zij bij benadering weliswaar hun functionele behoefte kunnen formuleren, maar dat hun kwaliteitsbehoeften en de daarvan afgeleide kwaliteitseisen veel moeilijker te formuleren zijn. Het grootste probleem is niet het omzetten van eisen in maatregelen die zorgen voor de gevraagde kwaliteitseigenschappen, maar de kwaliteitsperceptie van de gebruiker. 4.4.5.5 Relatie onderhoudskosten van de programmatuur Tot op heden gaan de meeste ontwerpfilosofieën ervan uit dat een geautomatiseerd informatiesysteem een relatief lange levensduur heeft. Uit een landelijke automatiseringsenquête is, volgens Prof. dr. Daan Rijsenbrij (http://www.cs.vu.nl/~daan), gebleken dat de gemiddelde levensduur van programmatuur ongeveer vijf jaar bedraagt, waarbij minstens evenveel menskracht nodig is voor onderhoud als oorspronkelijk is geïnvesteerd bij de ontwikkeling. Sommige TST-toepassingen (bijv. corpusretrievalsystemen) hebben zo'n levensduur; soms is die nog wel langer. Het gebruik van ontwikkelmethoden leidt ertoe dat diverse vormen van documentatie ontstaan. Dit draagt bij tot betere onderhoudbaarheid van het betreffende systeem, hetgeen zowel gunstig is voor de levensduur van het systeem als gunstig is voor de onderhoudskosten. 4.4.5.6 Ontwikkelingskosten De meeste ontwikkelmethoden pretenderen dat zij door een projectmatige aanpak, gefaseerde en modulaire opzet, doelmatigheid en efficiency een verkorting van de doorlooptijd realiseren. Daarmee worden de totale ontwikkelingskosten gereduceerd. Daarbij moet worden
136
aangetekend dat het schatten van kosten en baten van te ontwikkelen systemen moeilijk is (vgl. Tas & Luitjens 1999:88). Dat geldt nog meer voor TST-programmatuur waar het repeterende karakter van systemen minder is dan bijv. voor bedrijfstoepassingen. Toch is de beheersing van kosten van groot belang, zeker wanneer het bijv. nodig is programmeercapaciteit in te huren. Wanneer budgetten krap zijn kan het zinvol zijn na te gaan of gebruik van een ontwikkelmethode bij te ontwikkelen omvangrijke toepassingen leidt tot beheersing van de kosten. Tot de kosten moeten dan ook bijv. conversie- en invoeringskosten worden gerekend. 4.4.5.7 Probleemoplossend vermogen In 4.4.5.4. werd reeds vermeld dat er vrijwel geen methode bestaat die op adequate wijze rekening houdt met de kwaliteitseisen van de programmatuur. Hetzelfde geldt voor het probleemoplossend vermogen van een ontwikkelmethode. Deze is echter in het algemeen zodanig opgezet dat al in een vroeg stadium (bij SDM bijv. in de zgn. definitiestudie) een gedetailleerde beschrijving van de problemen, de mogelijke oplossingen en hun consequenties wordt geëist. Daarmee kan duidelijk worden of de automatiseringstechnische oplossing haalbaar is of niet. 4.4.6
Richtlijnen voor het opbouwen en gebruiken van testprocedures
4.4.6.1 Inleiding Volgens http://testen.nl is het testen van informatiesystemen (computerprogrammatuur) tegenwoordig een essentieel en cruciaal onderdeel van systeemontwikkeling. 'Testen' werd vaak gezien als een experimenteel proces van het zoeken naar fouten in een geïmplementeerd systeem. Vanwege de toenemende complexiteit van programmatuur wordt testen algemeen gezien als een noodzakelijk middel om de kwaliteit van systemen te verbeteren; hiervoor zijn dan ook speciale gereedschappen beschikbaar. Testen is een proces van plannen, voorbereiden en vaststellen of de programmatuur voldoet aan de wensen van de gebruiker. Dit is een geheel van activiteiten die op gestructureerde wijze moet worden aangepakt, vanaf het beginstadium van de ontwikkeling tot en met de fase van onderhoud. De in deze paragraaf beschreven richtlijnen zijn voor het grootste deel geënt op de situatie in het bedrijfsleven waarbij men, vooral als het wat grotere projecten betreft, over zeer omvangrijke testfaciliteiten beschikt. Over het algemeen is dit niet het geval in een academische omgeving waarbij men tijdens en na het uitvoeren van een TST-project, zelf het testen van het desbetreffende project(gedeelte) ter hand neemt. Ondanks deze verschillen in benaderingswijze kunnen onderstaande richtlijnen ook bij het uitvoeren van TST-projecten een nuttige rol spelen. 4.4.6.2 Organisatie Om te beginnen moet de organisatie van het testen worden geregeld. Zaken als: wie heeft de eindverantwoording, wie is verantwoordelijk voor het opstellen, uitvoeren en beoordelen van de tests, uit welke personen is het testteam samengesteld, etc. zijn hier aan de orde.
137
4.4.6.3 Planning van het testen Het testen van programmatuur is een tijdrovende activiteit. Uit enkele onderzoeken naar testtrajecten is, volgens Ir. Andrés Villavicencio van VillaTest B.V. (http://testen.nl), gebleken dat bij een structurele testaanpak ongeveer 40% van de totale projecttijd opgaat aan het testen. Daarom is het essentieel om een gedegen en efficiënte planning te maken voor het testen begint. Bij alle leden van het testteam moet bekend zijn welke tests uitgevoerd zullen worden en met welke diepgang, welke testbestanden worden gebruikt, op welke wijze de belastingtest plaatsvindt (responsetijden van het systeem), welke afwijkingen acceptabel zijn, welke koppelingen met evt. aangrenzende systemen getest worden en welke hulpmiddelen (gereedschappen) bij de test nodig zijn. Deze zaken worden vastgelegd in een testplan. In de literatuur worden diverse testmethoden besproken, o.a. TMap (TestManagement Approach) van IQUIP Informatica B.V., http://www.iquip.nl, (Kernigan & Pike 1999: 139-162; Tucker et al. 1995: 207-290). In zo'n testplan moeten keuzes worden gemaakt omdat het niet doenlijk is om alle aspecten (zoals bijv. functionaliteit en performance) van software onder alle mogelijke omstandigheden volledig te testen. Verder spelen geld en tijd hierbij een belangrijke rol. 4.4.6.4 Testomgeving Op grond van de specificaties moet in het testplan een testomgeving worden beschreven. Het is van belang de testomgeving te onderhouden, vooral als functionaliteit van de programmatuur is gewijzigd of wanneer bijv. de input af gaat wijken van de specificaties. Redenen voor onderhoud zullen verder uitvoerig worden behandeld in hoofdstuk 6. De volgende aspecten moeten onder meer in de testomgeving aan de orde komen: Omvang. Zowel kleine als grote bestanden moeten door de te testen programmatuur adequaat worden afgehandeld. Robuustheid. In hoeverre reageert de programmatuur zinvol op foute en onvoorziene (en daardoor problematische) invoer, technische foutsituaties en gebruikersfouten. Tijdens het testen kunnen gevallen worden verzameld die op een bijzondere manier behandeld moeten worden om daarmee de programmatuur robuuster te maken. Functionaliteit. In hoeverre voert het programma alle functies uit die in de specificaties zijn gedefinieerd. Het verdient aanbeveling de gebruikersinterface (w.o. presentatieaspecten) en functionaliteit los van elkaar te testen. Systeemprestaties. In hoeverre voldoet de performance van de programmatuur aan de gedefinieerde eisen, gegeven hardware, operating system en verwachte gemiddelde systeembelasting. 4.4.6.5 Het testen zelf Het testen bestaat uit de volgende onderdelen: Voorspellen testresultaat. Nadat de testomgeving is ingericht moet een voorspelling van de resultaten worden gemaakt op basis waarvan de testevaluatie kan plaatsvinden. Testen. Het programma wordt in de testomgeving gerund. Testevaluatie. Op grond van de resultaten wordt het programma operationeel gemaakt of wordt verder gewerkt aan de oplossing van geconstateerde manco's. In het eerste geval voldoet de programmatuur dus aan de gespecificeerde gebruikersbehoeften.
138
Bijlage bij § 4.4. 4.4.A Aspecten van hergebruik Organisatie. Voor een goede opslag van herbruikbare componenten, wat meestal op een centrale plaats gebeurt, is een duidelijke structuur van belang zodat er snel naar het goede component kan worden gezocht. Diverse geautomatiseerde hulpmiddelen zoals geïntegreerde CASE-(Computer Aided Software Engineering) gereedschappen kunnen hier ook hun dienst bewijzen. Met behulp van CASE-gereedschappen kan men op basis van specificaties de programmatuur voor het informatiesysteem genereren. Doordat specificaties volledig en consistent moeten zijn en het niet langer nodig is om handmatig te coderen wijkt systeemontwikkeling met behulp van een CASE-gereedschap af van de traditionele manier van systeemontwikkeling. Desondanks blijft het toch moeilijk om een goede classificatie voor componenten te maken. Een ander aspect is het aanpassen en inpassen van een herbruikbare component in de programmatuur. In principe is een hele andere methode van ontwikkelen nodig om deze aanpassingen zo klein mogelijk te houden. Het is in de huidige projectorganisaties vaak nog zo dat men geïsoleerd aan een project werkt, waardoor de programmatuur zo is geschreven dat het alleen binnen één project goed te gebruiken is. Wil men echter het volle potentieel uit hergebruik halen dan is het raadzaam om op een meer procesgeoriënteerde aanpak over te stappen. Een project staat dan niet op zich maar houdt rekening met alle evt. overige projecten. Bij het ontwerpen in zo'n projectorganisatie moet men steeds bepaalde zaken in gedachten houden, zoals: - Wordt het hergebruik gestimuleerd door de technische mogelijkheden van de gekozen ontwerpmethode. - Heeft een andere projectstructuur een positieve invloed op het managen van hergebruik. - Wat kan gedaan worden om hergebruik aan te moedigen. Een ander organisatorisch probleem is hoe men aan herbruikbare componenten komt. Dit kan o.a. door (alle) programmatuur die door projecten wordt gemaakt als herbruikbaar aan te merken. Ook hier kan een geïntegreerde CASE-ontwikkelomgeving van nut zijn. Men dient er dan wel voor te zorgen dat componenten goed gedocumenteerd en getest zijn. Financiële consequenties. Dat hergebruik naast kwaliteitsverbetering, betere testbaarheid en tijdwinst ook synergie oplevert is wel duidelijk. De kosten voor het opslaan en beheren van herbruikbare componenten zijn echter behoorlijk hoog, maar dat is onvermijdelijk. Gaat men bezuinigen op het beheer en de daarbij behorende technische infrastructuur en kwaliteitsbewaking dan kan hergebruik mislukken. Wil men echter een optimale kostenbesparing behalen dan ontkomt men haast niet aan forse investeringen. Motivatie. Het motiveren van mensen tot het schrijven en/of gebruiken van herbruikbare code is soms een probleem. Een aantal algemene (oplosbare) demotivanten zijn: - Het kost meer tijd; - De raamwerken voor documentatie, kwaliteit en testverzamelingen ontbreken; - Het werk wordt minder interessant; - Het zoeken naar beschikbare componenten duurt te lang.
139
4.4.B Mogelijke commentaarpunten in programmabroncode 1) Voor programmabroncodebestanden Bestandsnaam: Beschrijving van het bestand: Inhoud van het bestand: Zie ook: Programmeertaal en versie: Versie van het bestand: Status van het bestand: (voltooid / onder bewerking) Opmerkingen: Bekende programmafouten. Hierbij kan worden opgenomen welke storingen reeds bekend zijn, zodat gebruikers en testers niet blijven doorgaan met deze te rapporteren aan de programmeur(s). Impliciet zij dat getracht wordt in een volgende versie van het bestand die storingen verholpen te hebben. Verslag van wijzigingen, met (per wijziging) Datum der wijziging: (per wijziging) Aard der wijziging: 2) Voor functies/procedures/methods/members Een beschrijving van het type en de betekenis van de invoerparameters en van de uitvoerparameters is essentieel. Tevens moet aangegeven worden wat de toegestane waarden zijn van de invoerparameters, en welke foutmeldingen de functie (etc.) kan geven onder welke omstandigheden. Vanzelfsprekend moet ook een beschrijving opgenomen zijn over wat de functie doet (met de invoerparameters) en het nut van de functie. Functienaam: Hoort bij klasse: Doel van de functie: Werking: Invoerparameters:. Uitvoerparameters: Zie ook: Programmeertaal en versie: Versie van de functie: Status van de functie: (voltooid / onder bewerking) Opmerkingen: Zie bij 1) voor het commentaar inz. bekende programmafouten. 3) Voor objectklassen Klassennaam: Superklassen: Subklassen: Beschrijving van de klasse: Werking: Inhoud:
140
Zie ook: Programmeertaal en versie: Versie van de klasse: Status van de klasse: (voltooid / onder bewerking) Opmerkingen: Bekende programmafouten. Dit is alleen van belang indien de objectklasse methods bevat die acties uitvoeren, zodat er sprake is van handelende programmeercode, i.t.t. objectklassen die slechts in het leven geroepen zijn om gegevens te bevatten. Zie verder bij 1). 4) Voor typedefinities Typenaam: Supertypen: Subtypen: Beschrijving van het type: Werking: Inhoud: Zie ook: Programmeertaal en versie: Versie van het type: Status van het type: (voltooid / onder bewerking) Opmerkingen: Verslag van wijzigingen, met (per wijziging) Datum der wijziging: (per wijziging) Aard der wijziging: 5) Voor definities van constanten of resource-achtige entiteiten Definieert: Beschrijving van de definitie: Reden voor deze waarde: Zie ook: Programmeertaal en versie: Versie van de definitie: Status van de definitie: Opmerkingen: Verslag van wijzigingen, met (per wijziging) Datum der wijziging: (per wijziging) Aard der wijziging: 4.4.C Over naamgeving In een aantal programmeertalen is het gebruikelijk om globale constanten (en overige constanten van zeer ruime zichtbaarheid in de programmatuur) geheel in hoofdletters te zetten en de woordgrenzen in die namen als onderstrepingstekens weer te geven. Indien de programmeertaal zelf die gewoonte ook bezigt is het zinvol om die gewoonte na te volgen. In andere gevallen is het onwenselijk om objectnamen geheel in kapitalen te zetten omdat dat de broncode te druk maakt. De voorkeur gaat naar ofwel de gehele objectnaam in kleine letters ofwel per objectnaam een kapitaal aan het begin waarbij in bepaalde situaties elk woord met
141
een kapitaal begonnen kan worden als dat de gebruikelijke programmeerstijl is voor die programmeertaal. Het is in sommige programmeertalen, zoals Delphi, gebruikelijk om bij objectnamen die uit meerdere woorden bestaan, ieder woord in de naam met een hoofdletter te beginnen. Men kan daar gevoeglijk bij aansluiten. Omwille van de leesbaarheid van objectnamen is het aan te bevelen in die gevallen uitsluitend aan het begin van woorden hoofdletters te gebruiken, en niet aan het begin van morfemen binnenin woorden. In andere programmeertalen is het gebruikelijk om bij objectnamen die uit meerdere woorden bestaan ieder woord in de naam met een onderstrepingsteken te scheiden. Ook in die gevallen kan men best aansluiten bij de gebruiken in de programmeertaal en eventueel ook bij conventies die reeds gehanteerd worden in modules die voor die taal geschreven zijn, gegeven dat die modules in het project gebruikt worden. 4.4.D Het gebruik van ontwikkelmethoden UML (Unified Modelling Language) Algemeen: UML is een notatie voor het specificeren, visualiseren en construeren van artefacten van objectgeoriënteerde programmatuursystemen. UML is ontstaan door een gezamenlijke inspanning van een groot aantal industriële partners, verenigd in de Object Management Group (OMG), waarin onder andere wordt geparticipeerd door DEC, HP, I-logix, IBM, ICON Computing, MCI, Microsoft, Oracle, Rational Software, TI en Unisys. Waarom data modelleren met de Unified Modelling Language? UML is één van de de facto standaardtalen bij het objectgeoriënteerd ontwerpen. UML kan tot meer eenvoud en eenduidigheid in het ontwerp en daardoor mede tot een betere beheersing tijdens het totale ontwikkelingstraject leiden. Bovendien kan door de brede acceptatie van deze standaard de uitwisselbaarheid van het ontwerp en de specificatie bevorderd worden. Met o.a. UML beschikken ontwikkelaars en bedrijfs- en systeemanalisten over een gestandaardiseerde modelleringstaal, die de teamcommunicatie verbetert en het complexe proces om programmatuur te ontwerpen vereenvoudigt. Ontwerppatronen (Design Patterns): Elk patroon beschrijft een probleem dat zich keer op keer voordoet in een bepaalde omgeving, en beschrijft vervolgens de kern van de oplossing van dat probleem op zo'n manier dat deze oplossing zoveel mogelijk kan worden hergebruikt. Een ontwerppatroon is een schema voor het verfijnen van subsystemen of componenten van een programmatuursysteem of de relaties ertussen. Het beschrijft een gebruikelijke wijze van communicatie tussen componenten bij het oplossen van een algemeen ontwerpprobleem binnen een zekere context. Ontwerppatronen zijn over het algemeen allemaal objectgeoriënteerd. Referenties: B. Gamback en F. Olsson, Experiences of Language Engineering Algorithm Reuse (http://www.sics.se/~fredriko)
142
4.5
Evaluatie van TST-basismaterialen
Hergebruik van taalmateriaal en tools vereist een specificatie van het product en bij voorkeur ook een evaluatie van de kwaliteit. EAGLES heeft in 1996 een uitvoerig rapport uitgebracht over het evalueren van natuurlijke-taalverwerkende systemen en producten (zie http://isscowww.unige.ch/ewg95/node1.html). Ook zijn er competities en workshops waarin taaltechnologische software of producten worden geëvalueerd, zoals Senseval en Romanseval voor het testen van 'Word Sense Disambiguation'-software (vgl. 4.2.2.4.) en CLEF (CrossLanguage Evaluation Forum; http://www.clef-campaign.org) voor 'cross-language information retrieval'-systemen. Niettemin is de vraag wat precies moet worden geëvalueerd en hoe dat het beste kan worden gedaan, nog niet beantwoord. Er is veel aandacht voor deze problematiek, blijkens onder meer diverse sessies over de evaluatie van taal- en spraaktechnologische systemen en producten op de twee Language Resources and Evaluation Conferences (LREC) in resp. 1998 en 2000, de LREC'2000 Satellite Workshop on Evaluation (http://www.limsi.fr/TLP/CLASS) en de ACL/EACL Workshop on Evaluation for Language and Dialogue Systems in juli 2001 waar ook meer algemeen de evaluatie van taalmaterialen en software aan de orde geweest is. In samenwerking met Europese projecten die opgezet zijn om standaarden en linguïstische specificaties te ontwikkelen (bijv. EAGLES: vgl. 4.2.2.4.; PAROLE/SIMPLE: http://www.ub.es/gilcub/SIMPLE/simple.html), houdt ELRA (European Language Resources Association) zich bezig met het ontwikkelen van methodologieën voor de validatie van taalmaterialen en software, vanuit haar taakstelling ze te distribueren. Reeds beschikbare validatiehandleidingen zijn verkrijgbaar op http://www.icp.grenet.inpg.fr/ELRA/validat.html. Voor spraakcorpora is reeds gangbaar dat deze worden gevalideerd. Elk nieuw binnengekomen spraakcorpus zou moeten worden gecontroleerd aan de hand van de vooraf ingestelde validatiecriteria. Enkele van deze criteria zijn: controle op compleetheid van de database, zoals beweerd in bijvoorbeeld een readme, controle op volledigheid van de documentatie, zoals die van te voren is afgesproken, kwaliteitscontrole op de transcripties (op een sample van de data), maar ook of er voldaan is aan de technische specificaties, etc. Zie voor meer informatie Heuvel(2000c) en paragraaf 10.2 en 10.3 van het rapport van actielijn B&C 'Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen', W. Daelemans en H. Strik (2002) en http://www.icp.grenet.fr/ELRA/home.html. Een validatie moet worden uitgevoerd door een onafhankelijke instantie, die niet zelf de producent van het spraakcorpus is. Zo heeft SPEX, Speech Processing Expertise Centre, de validaties uitgevoerd van de Europese SpeechDat projecten. Het is mogelijk dat een TST-centrale de validatie op zich neemt. De kwaliteit van taalkundige software wordt vaak uitgedrukt in termen van 'recall' en 'precisie' (zie 4.3.2.3.5.). 4.6
Infrastructurele voorzieningen
Er zijn diverse vormen van infrastructurele voorzieningen te onderscheiden, met name op internationaal, landelijk en lokaal niveau. Er zijn verscheidene internationale initiatieven om taalmaterialen en tools die ontwikkeld zijn in diverse projecten, aan anderen beschikbaar te stellen voor hergebruik. We noemen hier als voorbeelden ACL Natural Language Software Registry (http://registry.dfki.de), ELRA/ELDA (European Language Resources / Distribution Association: http://www.icp.inpg.fr/ELRA),
143
LDC (Linguistic Data Consortium: http://www.ldc.upenn.edu), TRACTOR (TELRI Research Archive of Computational Tools and Resources: http://www.tractor.de), ELSNET (http://www.elsnet.org/resources.html), OLAC (http://www.language-archives.org) en JEWELS (http://www.hltcentral.org/page-799.0.shtml). In juli 2001 was er een ACL/EACL Workshop on Sharing Tools and Resources for Research and Education, die als doel had dit verder te bevorderen. De Europese Commissie heeft de oprichting geïnitieerd van onder meer de PAROLE Association en de TELRI Association, beide bedoeld om de in die projecten samenwerkende West- resp. West- en Oost-Europese partners als consortium juridisch vorm te geven. Inmiddels is de gangbare opvatting dat er ook door nationale organisaties geïnvesteerd moet worden in de taal-en spraaktechnologieën van nationale talen (vgl. Zampolli 2000: xvii-xix). Op nationaal beleidsniveau heeft de Nederlandse Taalunie het belang van taal- en spraaktechnologie voor het Nederlands ingezien. Zij heeft dat geconcretiseerd door initiatie van het rapport Bouma en Schuurman (1998) over de positie van het Nederlands in taal- en spraaktechnologie, door de daaruit resulterende oprichting van het Platform voor het Nederlands in taal- en spraaktechnologie (kortweg TST-platform) in 1999, door de in dat kader ondernomen actielijnen (waartoe deze Blauwdruk behoort) en door deelname aan Europese projecten ter zake (vgl. De Taalunie in 2000 en 2001: Een tussenbalans 2001). Ook de projecten van de Commissie Lexicografische Vertaal Voorzieningen (CLVV) (onder auspiciën van de Nederlandse Taalunie; zie http://www.taalunie.org/_/werkt/woordenschat.html#CLVV) en de Nederlandse en Vlaamse subsidie voor het Corpus Gesproken Nederlands (vgl. 2.5.) moeten gezien worden in het licht van het erkende belang van Nederlandse taal- en spraaktechnologie. Op lokaal niveau moet men bij infrastructurele voorzieningen denken aan concrete materiële en personele voorzieningen die nodig zijn voor het verrijken van taalmateriaal in de vormen zoals besproken in 4.2. Een individuele onderzoeker met weinig financiële middelen heeft een computer (meestal PC), ontwikkelsoftware waaronder editors, compilers en debuggers (vgl. 4.4) en een printer nodig. Voor onderzoeksinstituten en ook voor de TST-centrale (2.2.3.) die TST-materialen beheert, onderhoudt en 'op maat' maakt, moet men denken aan een infrastructuur bestaande uit computers (pc's, servers), ontwikkelsoftware (vgl. 4.4.), printer(s), netwerk met aansluiting op Internet, back-upapparatuur en –software en een geschikte ruimte voor plaatsing van de apparatuur (vgl. ook 5.4). Tevens is personele expertise nodig op het gebied van de automatisering, linguïstiek en computerlinguïstiek, alsmede ondersteunend personeel op het niveau van HAVO/VWO resp. de vergelijkbare richtingen in het Belgische ASO (Algemeen Secundair Onderwijs). Hoeveel menskracht met welke expertises voor een project nodig is, is af te leiden uit paragraaf 4.2.6. Voor de TST-centrale, opgevat als consortium waarin taal- en spraaktechnologische expertises vertegenwoordigd zijn, moet in de beginfase voorlopig gedacht worden aan een formatie van minimaal 2 fte linguïsten, 2 fte computerlinguïsten, 1 fte automatiseringsdeskundige op het niveau van een senior programmeur met beheerstaken (vgl. 5.3.) en 1 fte ondersteunend personeel, te verdelen over de leden van het consortium; om redenen verklaard in 4.2.1.4. gaat het hier om additionele formatieplaatsen bovenop een eventueel reeds aanwezige formatie die de institutionele taken uitvoert. Indien sprake is van ofwel een toename van de onder te brengen projectproducten en daarmee gepaard gaande beheers-, onderhouds- en dienstverleningstaken, ofwel de verdere uitbouw van de data en tools, dan moet nader bekeken worden hoeveel uitbreiding van menskracht en materiële voorzieningen nodig is.
144
4.7
Financiële aspecten
Personele kosten Voor de kostenberekeningen van de ontwikkeling (en onderhoud; vgl. hoofdstuk 6) van diverse soorten verrijkt taalmateriaal verwijzen we naar de tabellen in 4.2.6. Het voor 4.2.6. en 4.6. benodigde personeel kost medio 2001 voor 1 fte: - Loongroep 1: (computer)linguïst, automatiseringsdeskundige. Indien in schaal 10-11: maximaal fl 95.000 – fl 125.000 op jaarbasis, inclusief werkgeverskosten. - Loongroep 2: ondersteunend personeel, systeembeheerder. Indien in schaal 8: maximaal fl 85.000 op jaarbasis, inclusief werkgeverskosten. N.B. Het aanstellen van uitzendkrachten leidt in het algemeen tot hogere personele kosten. Dit kan ook gelden voor parttime personeel. Materiële kosten Voor de in 4.6. genoemde materiële voorzieningen zijn de volgende gegevens relevant. Individuele onderzoeker met weinig financiële middelen moet beschikken over (prijzen incl. BTW): - Standaard PC (Intel processor 800-1000MHz, 128 Mb intern geheugen, 20-40 Gb Harddisk, 17 inch beeldscherm, DVD speler). Prijs medio 2001: fl 3.500 a 4.000 (Euro 1.588 - 1.815) - Printer. Inkjet beginnend bij fl 275 (Euro 124) oplopend tot fl 1.000 (Euro 453). Laserprinter: fl 1.200 (Euro 544) - Commerciële compilers: bijv. Visual C++ van Microsoft fl 318 (Euro 144) voor de standaard editie en fl 1.650 (Euro 748) voor de Professional editie. - Optioneel: CD-writer (bijv. t.b.v. backup). Prijs: fl 450 (Euro 204) Onderzoeksinstituten en de non-profitorganisatie (consortium) moeten beschikken over (prijzen excl. BTW): - Server. Voor TST toepassingen is de minimale configuratie een server met 512 Mb intern geheugen en ca. 100 Gb opslagcapaciteit. Voor een server gebaseerd op de Intel Pentium processor is de prijs dan ca. fl 40.000 (Euro 18.151). Voor de overige servers (bijv. van SUN Microsystems) is de prijs ca. fl 50.000 (Euro 22.700). - Backup unit: fl 4.000 (Euro 1.815) - Netwerkprinter: fl 3.500 (Euro 1.588) 4.8
Aanbevelingen voor beleid
Zoals uit dit hoofdstuk blijkt, is het verrijken van taalmateriaal, waaronder begrepen de verrijking van corpora van geschreven en gesproken taal, de omvorming van digitale woordenboeken tot elektronische woordenboeken en de ontwikkeling van computationele lexica, geen sinecure: - het is arbeidsintensief (vgl. 4.2.6.), - het vereist diverse specialistische expertises (vgl. 4.2.1.4.) - alsmede kennis van mondiale ontwikkelingen op het gebied van standaarden die hergebruik ondersteunen (4.2.1.3., 4.2.2.), methoden voor de evaluatie en validatie van
145
taal- en spraaktechnologische systemen en producten (4.5.) en internationale infrastructurele maatregelen (4.6.), - een materiële en personele infrastructuur (4.6.), - en, zoals in hoofdstuk 2 aan de orde is gekomen, moeten juridische aspecten met betrekking tot verrijkte data en verrijkingssoftware goed geregeld worden. Verder is (opnieuw) gebleken dat er erg weinig verrijkingssoftware en verrijkte trainingsdata voor het Nederlands algemeen beschikbaar zijn (vgl. 4.3.). Zie verder Daelemans en Strik (2002). Tevens moet worden vastgesteld dat de verrijking van taalmateriaal, in de brede zin zoals hier gehanteerd, op diverse plaatsen binnen Nederland en België gebeurt, zij het in zeer verschillende contexten en met zeer uiteenlopende doelstellingen. We herinneren eraan dat de vraag naar taal- en spraaktechnologische expertise het aanbod overschrijdt (vgl. 4.2.1.4.). Dit leidt tot de volgende gevolgtrekkingen en beleidsaanbevelingen. De TST-centrale die zorg draagt voor het beheer, onderhoud en voor hergebruik algemeen beschikbaar stellen van materialen voor taal- en spraaktechnologie (TST-materialen), kan ook vanuit het perspectief van dit hoofdstuk niet anders zijn dan een consortium van verschillende instituten in de vorm als voorgesteld in 2.2.3. Zie ook 9.2. Tot de TST-materialen die het consortium beheert, onderhoudt en distribueert behoren niet alleen corpora van geschreven en gesproken taal (vgl. 2.4., 2.5.), maar ook software en trainingsmateriaal voor de diverse soorten verrijking van Nederlands taalmateriaal, alsmede elektronische woordenboeken en computationele lexica (vgl. 4.2., 4.3.). Steeds moet juridisch geregeld zijn dat de TST-materialen algemeen beschikbaar zijn, al dan niet tegen verschillende voorwaarden voor verschillende gebruikersgroepen (vgl. 2.9.). Het onderhoud van verrijkt taalmateriaal en verrijkingssoftware betreft onder meer aanpassing ervan aan zich nog ontwikkelende standaarden voor taalkundige annotatieschema's en representatieformaten (bijv. XML); zie verder vgl. 4.2.2., 6.2.2. en 6.3. Zoals uit 4.2.6. af te leiden is, vergt dit onderhoud personele en financiële inspanningen die te groot zijn voor welk lid van het consortium dan ook om ze als nevenactiviteit met de bestaande formatie te realiseren. Gepleit wordt dan ook voor een personele en materiële infrastructurele basisvoorziening voor specifiek de taken van het consortium, al vanaf de beginfase; later zou nagegaan moeten worden of en hoe deze basisvoorziening moet worden uitgebreid. Ook het ontwikkelen van nieuwe software, trainingsdata en computationele lexica zou tot de taken van het consortium kunnen behoren, waarbij het dan vooral gaat om software en data die voor verschillende TST-doeleinden toepasbaar zijn (multifunctionaliteit). Het spreekt voor zich dat deze moeten voldoen aan alle eisen van herbruikbaarheid (vgl. 3.2., 4.2.1.2., 4.1.2.3., 4.4.4., 4.4.2.2., 4.4.2.6.). Aan welke TST-materialen er binnen het TST-veld behoefte is, blijkt uit het rapport van Taalunie-actieplan lijn B en C (Daelemans en Strik 2002). Voor een kostenraming biedt 4.2.6. aanknopingspunten. Wil het consortium zijn taken goed behartigen, dan is samenwerking met anderen op nationaal en internationaal niveau gewenst. Zowel op internationaal als op nationaal niveau (vgl. 4.2.2.3.) zou het consortium op basis van zijn praktijkervaring kunnen bijdragen aan de vorming van standaarden en aan methoden voor het evalueren en valideren van TST-taalmaterialen. Om de positie van het Nederlands veilig te stellen in meertalige TST-onderzoek en productontwikkeling zou het consortium met steun van de beleidsmakers in staat gesteld
146
moeten worden te participeren in Europese en/of mondiale projecten die gerelateerd zijn aan de taken van het consortium. Dat financiering van dergelijke projecten door de Europese Commissie nu vooral gericht is op multilingualiteit, biedt wellicht mogelijkheden voor financiële steun. Conclusie van dit alles is, dat als de beleidsorganisaties de ontwikkeling van een Nederlandse spraak- en taaltechnologie serieus nemen, ze hiervoor substantiële financiële middelen moeten uittrekken om het consortium zijn taken goed te laten uitvoeren. Tevens moeten maatregelen worden getroffen om expertise op het gebied van taal- en spraaktechnologie te behouden en uit te breiden.
147
5 5.1
Beheer Inleiding
In dit hoofdstuk staat het beheer centraal van de verzameling digitale teksten en/of de verzameling spraak, hierna aangeduid met 'data', alsook het beheer van software. Onder software wordt in dit hoofdstuk verstaan: TST-programmatuur, al dan niet in eigen beheer ontwikkeld en overige software zoals bijvoorbeeld systeemprogrammatuur. Het optimaal gebruik van data en software valt of staat met goed beheer. De uitval van een computer waarop data zijn opgeslagen die snel beschikbaar moeten zijn is op zich al vervelend, maar kan ernstige vormen aannemen als bijv. blijkt dat het onderhoud van de betreffende computer niet goed is geregeld. Over dit soort aspecten gaat het onder meer in dit hoofdstuk. In de literatuur wordt beheer verdeeld in functioneel beheer, applicatiebeheer en technisch beheer (Thiadens en Spanjersberg 2000:15; Borgers en Nobelen 2000:15). Functioneel beheer wordt gedefinieerd als 'het beheer van de functionaliteit die het bedrijfsproces ondersteunt'. Als 'het taalkundig verrijken van digitale teksten' wordt beschouwd als bedrijfsproces is het de taak van functioneel beheer dat die functionaliteit op elk gewenst moment beschikbaar is. Applicatiebeheer betreft het instandhouden van de applicaties waarmee de taalkundige verrijking wordt gerealiseerd, bijv. een lemmatiseerder. Technisch beheer tenslotte betreft het operationeel houden van de gehele ICT-infrastructuur: apparatuur, software en data. De laatste twee terreinen zijn vanuit het perspectief van beheer het meest relevant en zullen in paragraaf 5.4. worden besproken. Van applicatiebeheer zal daarbij echter één aspect worden behandeld, het versiebeheer. In het kader van beheer komen verder zaken aan de orde als beveiliging, archivering en administratie. De term systeembeheer zal worden gebruikt als aanduiding voor de persoon of afdeling die al deze vormen van beheer uitvoert. Het verschil tussen beheer en onderhoud is in de praktijk niet altijd duidelijk (vgl. 6.1.). De indeling van dit hoofdstuk is als volgt. Eerst zal in 5.2. aandacht worden besteed aan de vraag of het beheer moet worden uitbesteed of dat het in eigen hand moet worden gehouden. In aansluiting daarop wordt in paragraaf 5.3. ingegaan op de kwalificaties voor het personeel dat de beheertaken moet uitvoeren. In 5.4. zal het technische beheer worden besproken. Onderdelen van deze paragraaf zijn beheer van de apparatuur (5.4.1.), beheer van data en software en archiveringskwesties (5.4.2.) en de conversie van informatiedragers (5.4.3.). In 5.5. staat beveiliging centraal. Hierbij wordt onderscheid gemaakt tussen beveiliging tijdens opslag en verwerking (5.5.1.) en beveiliging tijdens transport van gegevens (5.5.2.). In paragraaf 5.6. zal de administratie m.b.t. beheer aan de orde komen. In paragraaf 5.7. worden kosten genoemd die met beheer samenhangen. Het hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsorganisaties (5.8.). 5.2
Beheer uitbesteden vs. zelf beheren
Vanuit managementperspectief is een belangrijke vraag of het beheer van de data en software wordt uitbesteed (outsourcing) of dat het in eigen hand wordt gehouden. Uitbesteden wordt gedefinieerd als "het op basis van een contract en tegen een overeengekomen prijs laten uitvoeren van ICT-taken door derden." (Thiadens en Spanjersberg 2000:52). Overwegingen bij het maken van een keuze zijn onder meer: · beschikt de organisatie over voldoende kennis en ervaring om het beheer te kunnen organiseren en uitvoeren. Bij organisaties die bijv. reeds beschikken over een goed geoutilleerde afdeling automatisering zal het beheer tot de taken van die afdeling behoren. In dat geval is de kennis aanwezig om het beheer in eigen hand te kunnen houden. In 148
·
·
5.3
andere gevallen moet deze kennis worden opgebouwd, hetzij door het opleiden van eigen medewerkers of door het werven van nieuwe medewerkers met de benodigde kennis en ervaring. De kosten en tijd die hiermee gepaard gaan moeten worden afgewogen tegen de kosten die uitbesteding met zich brengt. beschouwt de organisatie het beheer als een kerntaak. Organisaties die bijv. het ontwikkelen van TST-software tot hun kerntaak rekenen hebben waarschijnlijk de beschikking over data ten behoeve van het testen van de software. Als het beheer van die data niet als een kerntaak wordt beschouwd, is er reden om het beheer uit te besteden. Voor een organisatie die met data en software bijv. onderzoeksfaciliteiten ter beschikking stelt kan beheer juist wel een kerntaak zijn bijv. om de kwaliteit van die dienstverlening te garanderen. hoeveel bedragen de kosten. De kosten voor het instandhouden van een ICT-infrastructuur (meestal uitgedrukt als TCO, Total Cost of Ownership) kunnen hoog zijn. Voor organisaties die om welke reden ook deze kosten willen reduceren, kan uitbesteden een alternatief zijn. Voorwaarde is dat de organisatie een goed inzicht heeft in de ICT-kosten en taken zodat de kosten van uitbesteden goed kunnen worden vergeleken. Bij outsourcing wordt in een Service Level Agreement, SLA vastgelegd wat er onder bijv. beheer wordt gerekend en hoe dat beheer zal worden gerealiseerd. In bijlage 1 worden onderwerpen genoemd die in een SLA moeten worden geregeld. Het is praktijk dat, zeker bij kleinere organisaties, systeembeheer (als onderdeel van bijv. een afdeling automatisering) ook helpdesktaken vervult. Indien dit niet in de SLA wordt opgenomen (bijv. omdat het als vanzelfsprekend wordt beschouwd), dan zullen de kosten voor uitbesteding weliswaar lager worden, maar ook het niveau van de dienstverlening wordt daarmee verlaagd: alles wat niet in een SLA wordt geregeld behoort niet tot de taak van degene die het beheer overneemt. Organisaties dienen hierop bedacht te zijn. Personeel
Voor het beheer zoals dat in de navolgende paragrafen wordt behandeld is gekwalificeerd personeel nodig. Zonder op specifieke opleidingseisen in te gaan zijn in het algemeen de volgende kwalificaties van toepassing: · kennis van en ervaring met de besturingssystemen die bij de organisatie in gebruik zijn, niet alleen het gebruik daarvan maar ook installatie en configuratie van die systemen · kennis en ervaring met het in de organisatie aanwezige netwerk · ervaring met het implementeren van diverse vormen van beveiliging en ervaring met controle op de goede werking daarvan · ervaring met gereedschappen die het beheer ondersteunen, bijv. report tools voor het maken van overzichten · ervaring met compileren en installeren van software. Het hangt van de grootte van de organisatie af of deze kwalificaties in één persoon zijn verenigd of over meerdere personen zijn verdeeld. Bij grote organisaties kan het beheer gesplitst zijn in systeembeheer (alleen beheer van bijv. computers, data en software) en netwerkbeheer (alleen beheer van het netwerk). Ook het onderbrengen van beveiliging bij een aparte functionaris of afdeling is niet ongebruikelijk. 5.4
Technisch beheer
Het operationeel houden van de ICT-infrastructuur omvat niet alleen het werkend houden van alle daarbij betrokken apparatuur (o.a. computers, netwerk) maar ook het zorgdragen voor de 149
terbeschikkingstelling van de benodigde data en software. Beide gebieden worden hierna besproken. 5.4.1
Beheer apparatuur
De beschikbaarheid van elektronische data en software wordt bepaald door goed ingericht en goed werkend apparatuurbeheer. Het belang dat een organisatie hecht aan de beschikbaarheid van apparatuur wordt uitgedrukt in termen als 99% server uptime: de tijd dat de apparatuur niet beschikbaar is voor de organisatie mag slechts 1% (per jaar) bedragen. Afhankelijk van het type organisatie kan de vereiste server uptime zelfs 100% bedragen. Ongeacht of een dergelijke eis voor de TST-centrale (2.2.3.) van belang is, moet het onderhoud van de apparatuur geregeld zijn door onderhoudscontracten. Dat geldt met name voor die apparatuur waarop de TST-materialen zijn opgeslagen. Zo'n contract regelt in het algemeen de afspraken waaronder het verhelpen van storingen gebeurt. Afspraken zijn bijv.: · de responsetijd: de tijd die mag verstrijken tussen melding van een storing en het oplossen daarvan · ter beschikking stellen van vervangende apparatuur indien het verhelpen van een storing meer dan x uur duurt · verhelpen van storingen alleen op werkdagen of ook 's avonds en/of in het weekend. Preciese richtlijnen voor de invulling van een onderhoudscontract zijn hier niet te geven; de TST-centrale moet zelf bepalen wat het meest passend is. Voor de responsetijd geldt bijv. dat hoe korter de responsetijd hoe duurder het contract. Het verhelpen van storingen buiten kantooruren en in het weekend leidt tot een verdere verhoging van het onderhoudsbedrag. Verder is het zo dat naarmate de apparatuur ouder wordt, de onderhoudsprijs ook stijgt. De snelle technologische ontwikkelingen maken apparatuur al snel minder courant terwijl leveranciers toch gedurende enkele jaren onderdelen voor de apparatuur moeten kunnen blijven leveren. Op enig moment kan het dan ook uit kostenoverwegingen de voorkeur verdienen voor de apparatuur het contract niet te verlengen en over te gaan tot onderhoud op on call basis. Alle kosten gemoeid met het verhelpen van een storing komen dan voor rekening van de TST-centrale. Deze kosten betreffen bijv. voorrijdkosten, arbeidsloon, vervangende onderdelen en koeriersdiensten. Verder kan de responsetijd ongunstiger worden: in plaats van uren kan er sprake zijn van dagen. Tot het technisch beheer behoren ook werkzaamheden die gericht zijn op het voorkomen van storingen of probleemsituaties. Moderne systemen bieden hiervoor een scala aan mogelijkheden en het behoort tot de verantwoordelijkheden van systeembeheer dat van die mogelijkheden gebruik wordt gemaakt. Zonder op al die mogelijkheden in te gaan is het bekijken van een system event log en het volgen van de diskbezetting wel het minste dat moet gebeuren. In de eerste is te zien welke systeemcomponenten mogelijk problematisch functioneren en de tweede geeft een indruk van de groei van de data. Beide moeten leiden tot maatregelen: in het eerste geval tot vervanging van de betreffende systeemcomponent, in het tweede geval tot een investeringsvoorstel aan de coördinator van de TST-centrale voor uitbreiding van de diskcapaciteit. 5.4.2
Beheer data en software
Het beheer van TST-materialen heeft tot doel de juiste materialen ter beschikking te stellen aan degenen die daarvoor geautoriseerd zijn. De terbeschikkingstelling in technische zin is in de vorige paragraaf besproken. Hier zal worden ingegaan op het beheren van nieuwe versies 150
van TST-data en TST-software en archivering. Onder software wordt in de navolgende paragrafen verstaan: al dan niet in eigen beheer ontwikkelde TST-programmatuur en overige software zoals bijv. systeemprogrammatuur. 5.4.2.1 Versiebeheer data Tot het beheren van TST-data behoort ook het op de juiste wijze omgaan met nieuwe versies van bepaalde data. De redenen voor het ontstaan van nieuwe versies zullen worden besproken in hoofdstuk 6, Onderhoud. Een nieuwe versie van data kan betrekking hebben op één bestand, een groep bestanden of een complete directory. Onafhankelijk van deze indeling zijn er twee manieren om om te gaan met nieuwe versies van bepaalde TST-data: de nieuwe versie laten bestaan naast de voorgaande of de oude versie vervangen door de nieuwe. Criteria voor een keuze tussen deze benaderingen zijn bijv. · onderzoekseisen (geen vorige versie bewaren belemmert bijv. vergelijkingsonderzoek) · wettelijke eisen m.b.t. archieven · beschikbare on line opslagcapaciteit (on line bewaren van vorige versies vergt extra opslagcapaciteit. Opgemerkt wordt dat in dat geval ook gekozen kan worden voor archivering. Zie hiervoor paragraaf 5.3.2.3.) · de mogelijkheden die besturingssystemen bieden voor versiebeheer. Sommige besturingssystemen (bijv. OpenVMS) laten toe dat van een bestand met exact dezelfde bestandsnaam meerdere versies kunnen bestaan. Gebruik van deze mogelijkheid moet met enige voorzichtigheid gebeuren: er zijn dan nl. ook faciliteiten aanwezig waarmee oudere versies in één keer kunnen worden verwijderd. Andere besturingssystemen (bijv. Unix, Windows) staan slechts één versie van een bestand toe met exact dezelfde bestandsnaam. We bespreken nu eerst het versiebeheer dat betrekking heeft op één bestand. Daarbij wordt een groep bestanden gelijk gesteld met één bestand omdat de werkwijze niet wezenlijk verschilt. Eerst moet de keuze gemaakt worden of de vorige versie blijft bestaan naast de nieuwe of dat de nieuwe versie de vorige vervangt. In het eerste geval wordt het vervolg o.a. bepaald door de mogelijkheden van het besturingssysteem. Ondersteunt dat versiebeheer dan zal bijv. automatisch een versienummer aan de bestandsnaam worden toegevoegd zodra een nieuwe versie van een bestand op een directory wordt geplaatst. Nadeel is dat het nummer geen inhoudelijke informatie geeft. Dit moet dan worden opgevangen door in de administratie vast te leggen dat bestand met versienummer 2 bijv. de "3e geheel gewijzigde druk van een boek" is. Wordt versiebeheer niet ondersteund, dan moet de bestandsnaam zo worden gekozen dat de nieuwe en vorige versie duidelijk van elkaar zijn te onderscheiden. In het tweede geval kan de vorige versie worden verwijderd of gearchiveerd, waarna de nieuwe versie op de directory kan worden geplaatst. Het verdient aanbeveling de bestandsnaam zo te kiezen dat duidelijk is dat het om een nieuwe versie gaat. Indien van alle bestanden in een directory of een directorystructuur een nieuwe versie beschikbaar is, dan geldt ook hier dat eerst de keuze moet worden gemaakt of de vorige versies van de bestanden moeten blijven bestaan naast de nieuwe of dat de nieuwe versie de vorige vervangt. In het eerste geval verdient het uit oogpunt van overzichtelijkheid de voorkeur een nieuwe directory te maken en daar de nieuwe versies in onder te brengen. De naam van de directory moet deze situatie weerspiegelen.
151
In het tweede geval kunnen de vorige versies uit de directory worden verwijderd of gearchiveerd, waarna de nieuwe versies op de directory kunnen worden geplaatst. Het verdient aanbeveling de bestandsnamen zo te kiezen dat duidelijk is dat het om een nieuwe versie gaat. In alle gevallen waar nieuwe versies van bestanden beschikbaar komen, moet worden nagegaan of er aanpassingen in software moeten worden aangebracht zodat bijv. bewerkingen en selecties op de juiste versie worden uitgevoerd. Versiebeheer kan ook worden ondersteund door geautomatiseerde hulpmiddelen, bijv. CVS (Concurrent Version control System) dat wordt uitgebracht onder de GNU-licentie (http://www.gnu.org). Dit systeem is aanvankelijk ontwikkeld voor versiebeheer van de broncode van software (de zgn. sources) maar is ook bruikbaar voor het beheren van teksten en zgn. binaire data als geluid en foto's. Dergelijke software is ook beschikbaar bij commerciële leveranciers zoals bijv. Visual SourceSafe van Microsoft (http://www.microsoft.com). Daarmee kan versiebeheer worden gerealiseerd voor bijv. Worddocumenten. Andere, niet-Microsoft-bestandsformaten worden hiermee echter niet ondersteund. 5.4.2.2 Versiebeheer software Het is een bekend verschijnsel dat van software met enige regelmaat nieuwe versies verschijnen. Dat geldt voor zowel commerciële -, niet-commerciële (TST-)software en voor de in eigen beheer ontwikkelde (TST-)software. De redenen voor het ontstaan van nieuwe versies zullen worden besproken in hoofdstuk 6. Ongeacht wie een nieuwe versie uitbrengt (commerciële leverancier, TSTontwikkelaar, TST-centrale) zijn de volgende vragen van toepassing bij het beschikbaar komen van nieuwe versies: Is het noodzakelijk de nieuwe versie daadwerkelijk in gebruik te nemen. Het is niet ongebruikelijk bij nieuwe versies een overzicht te voegen waarin is aangegeven welke veranderingen er zijn aangebracht (release notes). Hieruit kan de organisatie afleiden of deze veranderingen substantieel genoeg zijn om de nieuwe versie daadwerkelijk in gebruik te nemen. Een andere overweging kan actualiteit zijn: de organisatie vindt het nodig te beschikken over de meest actuele versies van software. Is het noodzakelijk de vorige versie te behouden of vervangt de nieuwe versie de vorige. Niet alle software staat toe dat de vorige versie blijft bestaan naast de nieuwe; die moet dan eerst worden verwijderd of gewoonweg worden overschreven bij het installeren van de nieuwe versie. Bij commerciële software is deze werkwijze niet ongebruikelijk. Hierin verschilt het versiebeheer van software van dat van de data: bij de laatste kunnen altijd versies naast elkaar bestaan. Het antwoord op deze vragen bepaalt hoe er vervolgens gehandeld moet worden. Als het gebruik van de nieuwe versie niet noodzakelijk is, is geen verdere actie nodig. Als het gebruik van de nieuwe versie wel noodzakelijk is, met behoud van de vorige versie dan wordt de manier van versiebeheer bepaald door de wijze waarop de nieuwe versie is aangeleverd: · als geautomatiseerde installatieprocedure. Een dergelijke procedure bevat de binary (executable file, zie ook 2.7.4.1.) van de nieuwe versie alsmede software om de binary te installeren (gebruiksklaar maken). Als bij de installatie van de nieuwe versie een directory kan worden opgegeven, dan volstaat het opgeven van een andere directory dan die waarin de vorige versie zich bevindt. Als geen nieuwe directory kan worden opgegeven, is de enige mogelijkheid de nieuwe versie op een andere computer te plaatsen. Mechanismen
152
·
·
die konden worden toegepast bij het versiebeheer van data zoals bijv. renamen zijn hier niet van toepassing. als binary. De werkwijze wordt nu o.a. bepaald door de mogelijkheden van het besturingssysteem. Ondersteunt dat versiebeheer dan zal bijv. automatisch een versienummer aan de bestandsnaam worden toegevoegd zodra een nieuwe versie van een bestand op een directory wordt geplaatst. Nadeel is dat het nummer geen inhoudelijke informatie geeft. Dit moet dan worden opgevangen door in de administratie vast te leggen waarin bijv. de nieuwe en de oude versie verschillen. Wordt versiebeheer niet ondersteund, dan moet de bestandsnaam zo worden gekozen dat de nieuwe en vorige versie duidelijk van elkaar zijn te onderscheiden. broncode (sources). Afhankelijk van de functionaliteit van de software kan het aantal afzonderlijke sources waaruit een programma is opgebouwd sterk uiteenlopen. Ongeacht het aantal is het vanuit versiebeheer het meest praktisch de sources van de nieuwe versie in een aparte directory onder te brengen. Van daaruit kunnen dan de verder noodzakelijke bewerkingen (zoals compileren, zie 2.7.4.2.) worden uitgevoerd.
Als het gebruik van de nieuwe versie wel noodzakelijk is zonder behoud van de vorige versie, dan kan de vorige versie worden verwijderd of gearchiveerd, waarna de nieuwe versie kan worden geïnstalleerd. In alle gevallen waar nieuwe versies van software in gebruik worden genomen moet worden nagegaan waar die software wordt toegepast. Zo zou een lemmatiseerder deel kunnen uitmaken van een geautomatiseerde procedure (bijv. in de vorm van een zgn. shell script) waarin behalve lemmatiseren nog andere vormen van verrijking in een tekst worden aangebracht. Zodra een nieuwe versie van de lemmatiseerder in gebruik wordt genomen, moet worden gecontroleerd of de procedure die nieuwe versie daadwerkelijk gebruikt. 5.4.2.3 Archivering In de volgende paragrafen wordt onder gegevens niet alleen TST-data verstaan maar ook TST-software, al dan niet in eigen beheer ontwikkeld en overige software zoals bijv. systeemprogrammatuur. Aangeleverde gegevens zullen in het algemeen on line worden bewaard. Dit betekent dat gegevens direct voor gebruik beschikbaar zijn. Voorbeeld zijn de gegevens die via Internet worden aangeleverd (zie 2.7.2.). Hoewel de kosten van on line opslag niet hoog zijn (PCsystemen: ca. f 10-15, Euro 4,5-6,8; overige systemen: ca. f 200-250, Euro 90-113, prijspeil 2001 per Gigabyte (Gb).) kunnen er de volgende redenen zijn de gegevens niet on line te bewaren maar te archiveren: · de gegevens zijn niet direct nodig voor verwerking · de gegevens zijn verouderd (bijv. door beschikbaar komen van nieuwe versies), maar moeten niettemin bewaard blijven · de gegevens zijn bewerkt waardoor de originele gegevens niet meer on line nodig zijn · lagere kosten. Archivering vindt in het algemeen plaats op tapes. Andere media als recordable of rewritable cd zijn ook mogelijk maar hebben een lagere capaciteit dan tape: ca. 650 Megabyte (Mb). Afhankelijk van het type tape kan er ca. 10 tot 40 Gb worden opgeslagen. Voor een efficient gebruik van de opslagcapaciteit houdt archivering ook in het opruimen van verouderde TSTmaterialen. Een belangrijke vraag is wie aangeeft of gegevens gearchiveerd moeten worden dan wel opgeruimd moeten worden. In principe kan dat door twee instanties gebeuren, namelijk 153
het systeembeheer of de gebruiker. In het kader van deze Blauwdruk is die gebruiker 'op afstand' en ligt het dus voor de hand dat systeembeheer voor de archivering verantwoordelijk is. De constatering dat TST-materiaal verouderd is wordt gedaan door de verantwoordelijken voor het onderhoud; zij moeten systeembeheer verzoeken dergelijk TST-materiaal op te ruimen. 5.4.2.3.1 Systeembeheer Moderne besturingssystemen zijn in het algemeen uitgerust met een faciliteit waarmee systeembeheer kan zien wanneer en door wie gegevens voor het laatst zijn gebruikt. Indien de gebruiksdatum veel verschilt van de kalenderdatum dan kunnen de gegevens voor archivering in aanmerking komen (uiteraard moeten hierover in de organisatie afspraken gemaakt worden). Systeembeheer kan periodiek een overzicht maken van deze gebruiksdata en op grond daarvan nagaan of de gegevens gearchiveerd kunnen worden. Het verdient aanbeveling pas tot archivering over te gaan nadat systeembeheer hiervoor toestemming heeft gekregen. Deze zorgt vervolgens voor archivering, verwijdering van de gearchiveerde gegevens van het on-linemedium, het bijwerken van de archiefadministratie en het opbergen van de tape in een geschikte opslagruimte. 5.4.2.3.2 Onderhoudspersoneel Als de verantwoordelijken voor het onderhoud geconstateerd hebben dat gegevens opgeruimd kunnen worden, wordt systeembeheer verzocht dit te doen. Systeembeheer controleert of de gegevens ook nog bij andere partijen in gebruik zijn en licht zonodig deze in over het voorstel tot opruiming. Na overeenstemming en fiattering door de betrokken verantwoordelijken zorgt systeembeheer vervolgens voor opruiming en het bijwerken van de archiefadministratie. 5.4.3
Conversie van informatiedragers/digitale duurzaamheid
Papier als informatiedrager kent een duurzaamheid die door elektronische informatiedragers nog niet is geëvenaard. Een bepaald type informatiedrager blijft slechts voor een bepaalde tijd gangbaar; daarna raken andere typen in zwang. Zo zijn bijv. de 8 en 5,25 inch floppydisks vervangen door de 3,5 inch diskette; de cd zal op den duur worden verdrongen door de Digital Versatile Disc, DVD). Voor magnetische media komt daar nog bij dat het magnetische effect op basis waarvan gegevens worden vastgelegd, na verloop van tijd verzwakt of zelfs geheel kan verdwijnen met verlies van gegevens tot gevolg. Dit betekent dat met enige regelmaat moet worden nagegaan of (delen van) de verzameling data is vastgelegd op media die dreigen te verdwijnen. Indien dat zo is, moeten zij worden overgezet naar meer actuele media. Dat heeft tevens het voordeel dat de gegevens als het ware worden ververst. Zolang de TSTcentrale beschikt over oude informatiedragers moet de apparatuur voor deze media dus operationeel gehouden worden of makkelijk operationeel gemaakt kunnen worden, bijv. ten behoeve van conversie. Tijdens de overgang naar een nieuwe informatiedrager blijft de apparatuur waarmee oude informatiedragers kunnen worden gelezen in het algemeen nog enige tijd verkrijgbaar. Bij het defect raken van de bij de conversie betrokken apparatuur betekent dit niet meteen het einde van het conversietraject. Daarbij wordt ervan uitgegaan dat systeembeheer de conversie tijdig is begonnen en niet op een moment dat de apparatuur op het punt staat te verdwijnen. E.e.a. geldt niet alleen voor informatiedragers, maar ook voor software en dataformaten. Zo kan de introductie van een nieuwe versie van software gepaard gaan met een
154
gewijzigd dataformaat (een bekend voorbeeld is het tekstbewerkingsprogramma Word van Microsoft). Het voorgaande formaat kan in het algemeen wel door de nieuwere versie worden verwerkt, maar ondergaat daarbij een conversie. Of daarbij gegevens verloren gaan is, zeker bij grotere bestanden, niet eenvoudig na te gaan. Er zijn organisaties die om die reden terughoudend zijn in het accepteren van andere formaten dan het ASCII-formaat (Lawrence e.a. 2000:1). Het ASCII-formaat is tot nu toe het meest stabiele formaat gebleken. Daarbij kan standaardisatie enorm bijdragen aan de duurzaamheid van dataformaten (in hoofdstuk 4 worden taaltechnologische standaarden besproken). Deze problematiek doet zich niet alleen voor bij de TST-centrale, ook bijv. bibliotheken hebben ermee te maken. Zo loopt er bij de Koninklijke Bibiotheek een project waarin wordt onderzocht hoe digitale duurzaamheid te bereiken (zie http:/www.kb.nl/kb/ict/dea/index.html). Uiteraard behoort tot dit terrein ook dat de conversie gecontroleerd wordt, met de bedoeling na te gaan of er geen data verloren zijn gegaan. Lawrence (Lawrence 2000:9, 10) geeft aan dat handmatige controle weliswaar arbeidsintensief is, maar ook nauwkeurig is, in ieder geval voor de bestandsformaten die bij zijn conversietests waren betrokken. Voor kleine aantallen bestanden is dit werkbaar, voor grote hoeveelheden bestanden is handmatige controle "expensive and inefficient". Voor deze gevallen beschrijft hij een programma dat risiconiveaus identificeert in de te converteren formaten. Deze risiconiveaus vormen een indicatie of een conversie vrijwel foutloos of juist problematisch zal verlopen. Conversie is één van de twee richtingen waarlangs geprobeerd wordt digitale duurzaamheid te bereiken. De andere is emulatie. Emulatie richt zich op het instandhouden van de originele software- en/of hardwareomgeving binnen nieuwe software- en/of hardwareomgevingen. Het principe van emulatie is niet nieuw: zo is het bijv. nog steeds mogelijk MS-DOS (als voorbeeld van een oude softwareomgeving) te gebruiken onder nieuwe softwareomgevingen als bijv. Windows NT en Windows ME. Daardoor is het mogelijk dat bijv. oude software als het tekstverwerkingsprogramma WordPerfect 5.1 gebruikt kan worden onder Windows NT. Beide richtingen hebben nog niet geleid tot een keuze, daarvoor is de ermee verbonden problematiek te complex: nog nergens ter wereld functioneert een volledige infrastructuur voor het veilig bewaren en toegankelijk houden van digitaal materiaal (Tjalsma 2001:36). Als voordeel van conversie wordt genoemd dat bestanden in ieder geval met enige regelmaat ververst worden. Voorstanders van emulatie wijzen daarbij echter op het gevaar van conversiefouten die vervolgens steeds worden doorgegeven. Bij emulatie blijft het origineel altijd beschikbaar. Rothenberg, een pleitbezorger van emulatie, noemt emulatie "the only reliable way to recreate a digital document's original functionality, look, and feel." (Rothenberg 1999:17). 5.5
Beveiliging
Onder beveiligen verstaan wij het beschermen van de TST-materialen tegen ongeautoriseerd gebruik en het beschermen tegen invloeden van buitenaf die zouden kunnen leiden tot verlies of verminking van die materialen. We onderscheiden beveiliging tijdens opslag en verwerking van gegevens en beveiliging tijdens transport van gegevens. Thiadens en Spanjersberg (2000) onderscheiden nog een derde categorie, met name beveiliging bij in- en uitvoer van gegevens. De daartoe behorende maatregelen kunnen echter worden gerekend tot de categorie transport van gegevens. In de navolgende paragrafen wordt onder gegevens niet alleen TST-data verstaan maar ook TST-software, al dan niet in eigen beheer ontwikkeld en overige software zoals bijv. systeemprogrammatuur.
155
5.5.1 Beveiliging tijdens opslag en verwerking van gegevens 5.5.1.1 Toegangsbeveiliging Toegangsbeveiliging vindt plaats op twee niveaus: zowel op het niveau van de computer(s) waarop de gegevens worden bewaard als op het niveau van de gegevens zelf. De meest voorkomende vorm voor beveiliging op het eerste niveau, toegang krijgen tot een computer (in de zin van: kunnen werken met de daarop geïnstalleerde software en data), bestaat uit het verstrekken van een zgn. userid en password. Deze worden in het algemeen door een daartoe bevoegd persoon uitgegeven aan degene die toegang tot het computerysteem wil hebben. De bevoegd persoon is meestal de systeembeheerder, die een userid en password pas zal uitgeven zodra een naast hogere daartoe opdracht heeft gegeven. Hoewel het de meest gebruikte methode is, is het daarmee niet de meest betrouwbare. Het onderling uitwisselen van passwords tussen personen met verschillende autorisaties is een veelvoorkomend verschijnsel en verzwakt niet alleen dit niveau van beveiliging maar ook het tweede niveau (zie hierna). Maatregelen als het regelmatig wijzigen van passwords helpen hiertegen maar ten dele. De zwakke schakel in deze gehele beveiligingsopzet is de userid/passwordcombinatie. Indien een gebruiker met veel rechten zijn password bekend maakt aan een gebruiker met minder rechten, dan kan dit een bedreiging vormen voor de integriteit van de bestanden. Beveiliging op het tweede niveau, toegang tot de gegevens zelf, bestaat uit het toekennen van zgn. rechten. De rechten geven aan wat er met de gegevens mag gebeuren. In het algemeen wordt onderscheiden in: lees-, schrijf-, verwijder- en executerecht. Zij worden verder uitgewerkt in bijlage 2. De manier waarop rechten aan directory's, bestanden en programma's worden toegekend c.q. georganiseerd, is per besturingssysteem verschillend. Niet ongebruikelijk is gebruikers onder te verdelen in groepen. Zo'n groep heeft dan bepaalde rechten voor een complete directory of een bestand. Binnen een directory kunnen echter per bestand ook per gebruiker andere rechten gelden. Daarom is het van belang de userid/passwordcombinatie geheim te houden; doorbreking hiervan door gebruikers die andere (lees: meer) autorisaties hebben kan een serieuze bedreiging vormen voor de integriteit van de data en software. 5.5.1.2 Back-up Een back-up is een veiligheidskopie van on-linegegevens op, in het algemeen, een ander medium dan waarop de data zich bevinden. Meestal is dat een tape. Het doel van een back-up is het terugbrengen van de gegevens in de staat waarin zij waren voordat zij door willekeurig welke oorzaak verloren zijn gegaan dan wel beschadigd zijn geraakt. Dat betekent dat de back-up op een plaats of plaatsen moet worden bewaard waar zij goed beschermd is tegen onheil van buitenaf. Zeker voor bijv. overheidsorganisaties (zoals de TST-centrale) is dit van belang omdat zij in het algemeen niet verzekerd zijn. Apparatuur is vervangbaar, gegevens niet of met veel moeite. Het reconstrueren van gegevens ingeval de back-up verloren is gegaan, gaat gepaard met hoge kosten. Gegeven dit belang moet de TST-centrale zekerheid hebben dat een back-up daadwerkelijk wordt gemaakt. Geautomatiseerde procedures kunnen hieraan in hoge mate bijdragen. Verder is het van belang dat de back-up voorziet in het maken van een overzicht van de bestanden die tot de back-up behoren. Dit overzicht is nodig zodra er een restore (zie 5.3.1.3.) moet worden uitgevoerd. Ook moeten er maatregelen zijn genomen waaruit blijkt of een back-up succesvol is geweest. Storingen aan apparatuur leiden niet zelden tot geheel
156
mislukte of gedeeltelijk gemaakte back-ups met alle gevolgen van dien als een beroep moet worden gedaan op de back-up. Het is niet ongebruikelijk back-ups te maken volgens een roulatiesysteem. Bij het Instituut voor Nederlandse Lexicologie bijvoorbeeld is een dergelijk systeem in gebruik. Voor de inrichting hiervan wordt verwezen naar bijlage 3. 5.5.1.3 Restore Restore is de activiteit waarbij gegevens worden teruggezet, gerestored, vanaf een backupmedium. Hiervoor kunnen diverse redenen zijn: · gegevens kunnen verloren zijn gegaan door een calamiteit · door een hardwareprobleem zijn gegevens corrupt geraakt · een gebruiker heeft per ongeluk gegevens gewist. Voor een succesvolle restore moet aan twee voorwaarden voldaan zijn: degene die om een restore verzoekt moet weten om welke gegevens het gaat en er moet een administratie aanwezig zijn waarin kan worden nagegaan op welke tape de gegevens zich bevinden. Het terugzetten van gegevens vanaf een back-up moet met de nodige omzichtigheid gebeuren. In het algemeen is het zo dat gegevens die worden teruggeplaatst de reeds aanwezige gegevens vervangen. Als in die gegevens sinds de laatste back-up wijzigingen zijn aangebracht, gaan die wijzigingen verloren. De meeste back-upsoftware (back-up en restore zijn vrijwel altijd in één programma verenigd) biedt hiervoor een voorziening in die zin dat gewaarschuwd wordt wanneer bestaande gegevens overschreven dreigen te worden. Degene die de restore uitvoert krijgt in het algemeen dan alternatieven aangeboden voor het vervolg. 5.5.1.4 Fysieke beveiliging Fysieke beveiliging betreft het verhinderen dat ongeautoriseerden toegang krijgen tot de apparatuur en de off line opgeslagen informatiedragers. Maatregelen op dit terrein betreffen bijv. het gebruik van codesloten op deuren die toegang geven tot computerkamers. Verder vallen hieronder het gebruik van kluizen voor de opslag van back-ups en beschreven informatiedragers. Deze kluizen dienen aan bepaalde eisen te voldoen; niet elke willekeurige kluis is geschikt voor de opslag van informatiedragers. Bij ongeschikte kluizen kan bijv. brand ervoor zorgen dat de hoge temperaturen permanente fysische veranderingen in de informatiedragers teweegbrengen waardoor zij onbruikbaar worden. Wanneer het dan bijv. gaat om backuptapes zal de TST-centrale na een calamiteit voor het voldongen feit staan dat de gegevens verloren zijn gegaan. Bij afwezigheid van een geschikte kluis verdient het dan ook aanbeveling een tweede versie van de back-uptapes in een externe kluis onder te brengen, bijv. bij een bank. 5.5.2
Beveiliging tijdens transport van gegevens
5.5.2.1 Netwerkbeveiliging Vrijwel elke organisatie beschikt over een lokaal computernetwerk, bedoeld om gegevens en apparatuur als bijv. printers beschikbaar te maken voor gezamenlijk gebruik. In veel gevallen zal dit lokale netwerk verbonden zijn met Internet. De TST-centrale die beschikt over gegevens waarop in principe copyright berust, is er bij gebaat dat dit materiaal niet zonder meer via netwerken toegankelijk is. Verspreiding ervan door ongeautoriseerden kan de TST157
centrale in juridische- en financiële problemen brengen. Daarom zijn bepaalde beveiligingsmaatregelen nodig. De zwaarte van deze maatregelen hangt af van het risico dat de TST-centrale loopt dat ongeautoriseerden daadwerkelijk toegang zullen zoeken tot de gegevens waarover zij beschikt. Hoe hoger het risico, des te zwaarder de maatregelen. Een netwerk kan op twee manieren worden beveiligd: beveiliging van de toegang tot het netwerk zelf en beveiliging van de gegevens die via het netwerk worden getransporteerd. De aandacht voor laatstgenoemde komt voort uit het feit dat aspecten van verstuurde gegevens als vertrouwelijkheid en integriteit niet gerealiseerd kunnen worden via de hardware en de software waarmee netwerken worden bestuurd (Bautz 2000:4). Immers, gegevens verstuurd via Internet kunnen worden afgeluisterd, vervolgens gewijzigd en tenslotte in gewijzigde vorm naar de rechtmatige ontvanger worden verstuurd. Verder kan de integriteit van de gegevens worden aangetast door bijv. virussen en hackers. De organisatie van Internet - een open netwerk zonder een beheerorganisatie - biedt evenmin bescherming tegen deze bedreigingen. 5.5.2.1.1 Beveiliging netwerktoegang Voor de beveiliging van de toegang tot het netwerk zijn zowel hardware- als softwareoplossingen beschikbaar. Tot de hardwareoplossingen behoort onder meer de router. Een router is "niets meer dan een gespecialiseerde computer, die een scheiding bewerkstelligt tussen netwerken, op grond van netwerkadressen (IP-adressen) van de aangesloten computers" (Smies 1998:20). Als de TST-centrale de router heeft geïnstrueerd dat computers met de adressen x, y en z (bijv. de computers van tekstleveranciers) toegang hebben tot haar netwerk, dan zal de router al het netwerkverkeer met die adressen laten passeren. Al het verkeer met andere adressen wordt tegengehouden, i.e. bereikt het netwerk van de TST-centrale niet. Softwareoplossingen zijn er in verschillende vormen. Een bekende is de zgn. firewall. Een firewall wordt in het algemeen op één computer geïnstalleerd; deze combinatie vormt dan de scheiding tussen het eigen netwerk en Internet. Zonder op de mogelijkheden van een firewall in te gaan kan worden gesteld dat met een firewall veel uitgebreidere beveiligingsmaatregelen kunnen worden genomen dan met een router. Zo kan bijv. het gebruik van applicaties als FTP (zie hoofdstuk 2) wel of niet worden toegestaan. Daar staat tegenover dat het beheren en configureren van een firewall meer kennis vereist. 5.5.2.1.2 Beveiliging gegevens op netwerk Beveiliging van de gegevens die via het netwerk getransporteerd worden bestaat onder meer uit encryptie: het via bepaalde technieken zodanig onherkenbaar maken van gegevens dat deze voor onbevoegden niet meer interessant zijn. Dit vereist wel afstemming tussen degene die de gegevens via het netwerk transporteert en de ontvanger van de gegevens (zie hoofdstuk 2 en 7); er zijn nl. verschillende systemen waarmee encryptie gerealiseerd kan worden en zowel verzender als ontvanger moeten van hetzelfde systeem gebruik maken. Zo is voor email bijv. het Pretty Good Privacy (PGP) protocol in zwang, voor het veilig uitwisselen van data op het World Wide Web bijv. het Secure Sockets Layer (SSL) protocol. 5.5.3
Controle beveiligingsmaatregelen
Het implementeren van beveiligingsmaatregelen heeft weinig zin als niet regelmatig wordt gecontroleerd of de genomen maatregelen afdoende zijn. Zowel besturingssystemen als de systeemsoftware waarmee beveiliging wordt gerealiseerd beschikken over mogelijkheden die
158
aangeven of er pogingen zijn gedaan de beveiliging te doorbreken. Het gebruik daarvan behoort tot de standaardtaken van systeembeheer. Van pogingen die mislukt zijn verdient het aanbeveling te proberen de identiteit te achterhalen van degene die de poging heeft ondernomen. Als dit niet lukt, en zeker wanneer zich in de pogingen patroon begint af te tekenen, is het raadzaam hiervan melding te maken bij gespecialiseerde instanties als bijv. het Computer Emergency Response Team (CERT, http://www.cert.org). Bij pogingen die wel gelukt zijn moet hiervan altijd melding worden gemaakt bij gespecialiseerde instanties. Overigens moeten veel organisaties hiervoor een zekere schroom overwinnen: het geeft aan dat de beveiligingsmaatregelen gefaald hebben. De maatregelen die verder moeten worden genomen zijn bijv.: · verplicht wijzigen van passwords (als bijv. blijkt dat bij de poging gebruik is gemaakt van een userid/passwordcombinatie van iemand die geautoriseerd is om gebruik te maken van het betreffende systeem) · installeren van door CERT of andere instanties aanbevolen zgn. patches, waarmee bijv. een beveiligingslek in systeemsoftware kan worden hersteld · nagaan of gegevens op enigerlei wijze zijn aangetast · implementeren van extra maatregelen die kans op herhaling uitsluiten of minimaliseren. 5.6
Administratie
Het bijhouden van een administratie met betrekking tot het beheer omvat alle onderdelen van het beheer. Evenals de administratie die in 3.5. is besproken vereist de beheersadministratie geen speciale software. Ook hier kan spreadsheet- of databasesoftware volstaan. De onderdelen van de administratie zullen hierna worden uitgewerkt. 5.6.1
Met betrekking tot beheer apparatuur
De door de TST-centrale met hardwareleveranciers afgesloten onderhoudscontracten moeten op een daartoe geschikte plaats worden bewaard. Na wijziging in de configuratie van bepaalde apparatuur moet worden nagegaan of het onderhoudscontract moet worden aangepast en moet het eventueel aangepaste contract in de administratie worden opgenomen. Verder moet uit de administratie blijken dat jaarlijks nota's worden ontvangen (en betaald) voor onderhoudskosten. Bij het niet of te laat betalen van deze kosten kunnen in het algemeen geen rechten meer aan het contract worden ontleend. Ook wordt in de administratie bijgehouden welke reparaties er aan de apparatuur zijn uitgevoerd. Hieruit kan worden afgeleid of bepaalde reparaties zich vaker voordoen zodat met de leverancier passende maatregelen kunnen worden afgesproken. 5.6.2
Met betrekking tot beheer data en software
Voor data en software moet worden vastgelegd welke versies er zijn. Voor data is deze vastlegging onderdeel van de administratie zoals reeds besproken in 3.5.. Voorzover dat bijv. niet reeds blijkt uit de naamgeving van de betrokken bestanden moet ook worden vastgelegd wat de verschillen zijn ten opzichte van de vorige versie. Waar het gaat om het gebruik van commerciële software moet uit de administratie blijken dat · jaarlijks nota's worden ontvangen (en betaald) voor onderhoudskosten. Bij het niet of te laat betalen van deze kosten kunnen in het algemeen geen rechten meer aan het onderhoudscontract worden ontleend 159
·
het aantal licenties van die software overeenstemt met het werkelijk aantal gebruikers van die software.
5.6.3
Met betrekking tot beveiliging
Hoewel de beveiligingsgegevens in het computersysteem zelf zijn vastgelegd waardoor een aparte administratie overbodig lijkt, kunnen er omstandigheden zijn die het kunnen terugvallen op een administratie wenselijk maken. Het is daarbij om redenen van onder meer onderhoudbaarheid niet de bedoeling de gegevens van de soms massale hoeveelheid bestanden vast te leggen. Wel kan per gebruiker bijv. het volgende worden vastgelegd: · tot welke computers de gebruiker toegang heeft · tot welke directory's de gebruiker toegang heeft · de rechten die de gebruiker heeft voor de directory's waarvoor hij is geautoriseerd. 5.6.4
Met betrekking tot back-up/restore
Van elke back-up moet een back-upoverzicht beschikbaar zijn: een lijst van alle directory's en bestanden die deel uitmaken van een back-up. Zodra een directory of bestand gerestored moet worden kunnen deze overzichten met zoekprogrammatuur snel worden doorzocht om na te gaan op welke back-uptapes de directory of het bestand voorkomt. De gebruiker kan op basis hiervan bepalen vanaf welke back-up (de dagelijkse, de maandelijkse, etc.) de restore moet worden uitgevoerd. 5.6.5
Met betrekking tot archivering
De administratie van de data die zijn gearchiveerd omvat onder meer de volgende gegevens: · · · · 5.7
een omschrijving van de data die zijn gearchiveerd het medium waarop de data zijn gearchiveerd (tape, cd-rom etc.), anders gezegd een identificatie van het medium (naam of nummer) zodat het medium in de voor het digitale archief bestemde opslagruimte kan worden teruggevonden datum waarop de data zijn gearchiveerd. Deze datum is nodig om te kunnen bepalen of het medium ververst moet worden Eventueel een plaatsaanduiding in de opslagruimte. Kosten beheer
Hierna volgt een overzicht van de kosten die met beheer samenhangen: Personeelskosten. Zie 4.7. Aanschafkosten · apparatuur. Vgl. 4.7. · software (licenties). Afhankelijk van soort software. · opslagruimte (kluis). Situatie-afhankelijk. Afschrijvingskosten · apparatuur. Afschrijving in het algemeen 3 jaar. · opslagruimte. Situatie-afhankelijk. Onderhoudskosten · apparatuur (onderhoudscontracten). 10-15% van de aanschafprijs.
160
· software (ter verkrijging van updates, recht op ondersteuning). Zie 6.6. · Verzekeringskosten. Situatie-afhankelijk. Kosten verbruiksgoederen (o.a. tapes t.b.v. back-up, archivering). Vgl. 5.4.2.3. Huur externe opslagruimte (bijv. kluis bij een bank). Situatie-afhankelijk. 5.8
Conclusies en aanbevelingen voor het beleid
De vereiste materiële- en personele infrastructuur voor het beheer zoals in dit hoofdstuk besproken, kan alleen door een TST-centrale (2.2.3.) worden gedragen. Het beheer van TSTmaterialen zou aan haar moeten worden uitbesteed vanwege de kennis en ervaring die nodig zijn bij de organisatie en de uitvoering van het beheer, het belang van beheer uit oogpunt van hergebruik en de kosten die gepaard gaan met het beheer van apparatuur, software en data. De kosten van beheer kunnen niet gedragen worden door de individuele instellingen van de TSTcentrale. Het beheer van de TST-materialen bij de instellingen die de TST-centrale vormen zal momenteel per instelling anders geregeld zijn. De TST-centrale dient te streven naar uniforme procedures voor dit beheer. Voor de technische beheersaspecten is het van belang dat al het personeel dat betrokken is bij beheer, of het nu het management of de uitvoerders zijn, beschikt over de vereiste bevoegdheden en expertise om alle aspecten van beheer probleemloos te laten verlopen. Aandachtspunt daarbij is het behoud van die expertise. Het maken en onderhouden van documentatie en het voeren van een goede administratie zijn hulpmiddelen om deze expertise in stand te houden. Voor de apparatuur die een sleutelrol speelt in de opslag van TST-materialen moet met de leverancier een flexibel onderhoudscontract worden afgesloten. Hierin is onder meer vastgelegd binnen welke tijd storingen en onregelmatigheden worden verholpen. Ook wat software betreft, kan er in bepaalde gevallen een onderhoudscontract worden afgesloten. Beide contracten zouden bij voorkeur gecentraliseerd moeten worden beheerd en afgesloten. Onderhoudscontracten moeten op gezette tijden worden aangepast aan de actuele situatie. Om het hergebruik van TST-materialen ook op lange termijn te kunnen waarborgen moet de TST-centrale ontwikkelingen m.b.t. digitale duurzaamheid volgen. Er is thans binnen de ICTwereld geen voorkeur voor een van de twee 'scholen' op dit terrein, t.w. emulatie of conversie (5.4.3.). Totdat een keuze is gemaakt of wanneer andere technische ontwikkelingen dit probleem oplossen, moet de TST-centrale ervoor waken dat bijv. door veroudering van informatiedragers TST-materiaal verloren gaat. Voor het behoud van TST-materiaal is ook een goede beveiliging van belang. Van de geschetste mogelijkheden (5.5.) zouden minimaal de backup, toegangsbeveiliging en gebruiksrechten door de TST-centrale moeten worden geïmplementeerd. De toepassing en de effectiviteit moeten regelmatig worden gecontroleerd; zonodig worden aanvullende maatregelen genomen. Om zowel de instellingen van de TST-centrale als de gebruikers op ieder moment inzicht te kunnen verschaffen in de aanwezige TST-materialen, dient de administratie van deze materialen bij voorkeur centraal toegankelijk te zijn.
161
Bijlagen bij hoofdstuk 5 Bijlage 1. Onderwerpen in een SLA (Ontleend aan Tas en Luitjens 1999:140) Omschrijving van de dienstverlening De gebruikers van de hardware Servicetijden Procedures bij problemen Procedures voor onderhoud Beschikbaarheid Het gebruik Uitwijk Kosten Verantwoordelijkheden van de gebruiker Procedure voor meningsverschillen Bijlage 2. De verschillende rechten t.b.v. beveiliging Leesrecht (meestal aangeduid met Read) houdt in dat de betreffende gebruiker of de groep waartoe de gebruiker behoort, toestemming heeft de data uitsluitend te raadplegen. Noch het aanbrengen van veranderingen in de data, noch het verwijderen van de data is toegestaan. Schrijfrecht (meestal aangeduid met Write) houdt in dat de betreffende gebruiker of de groep waartoe de gebruiker behoort, toestemming heeft de data niet alleen te raadplegen maar ook te veranderen (en die veranderingen vervolgens ook te bewaren). Het verwijderen van data is echter niet toegestaan. Verwijderrecht (meestal aangeduid met Delete) houdt in dat de betreffende gebruiker of de groep waartoe de gebruiker behoort, toestemming heeft de data te verwijderen. Lees- en schrijfrecht zijn hierbij niet toegestaan Executerecht ten slotte geldt alleen voor software en houdt in dat de betreffende gebruiker of de groep waartoe de gebruiker behoort, toestemming heeft de betreffende software daadwerkelijk te gebruiken. Bijlage 3. Back-upprocedure Het back-upsysteem zoals dat bij het INL in gebruik is, is gebaseerd op het roulatiesysteem: een aantal tapes rouleert volgens een vast schema. Dit schema gaat uit van dagelijkse backups, maandelijkse back-ups, kwartaalback-ups en tenslotte een jaarback-up. Dit stramien is van toepassing op zowel afzonderlijke systemen als op clusters: twee of meer afzonderlijke systemen die zich logisch als één systeem voordoen. Het INL maakt uitsluitend volledige back-ups, d.w.z. dat alle data onder het back-upregime valt. De pendant is incrementele back-up, hierbij valt alleen nieuwe of sinds de laatste backup gewijzigde data onder het back-upregime. Voor de dagelijkse back-up zijn 5 tapes nodig: één voor elke werkdag. Elke nacht start een geautomatiseerde procedure die de back-up maakt. Dit proces is geheel geautomatiseerd. De enige menselijke activiteit is het plaatsen van de back-uptapes in de tapedrives en ze er de volgende dag weer uithalen. Indien de organisatie de beschikking heeft over tape robots, dan wordt de menselijke tussenkomst nog verder gereduceerd. Per systeem of cluster wordt een back-upoverzicht gemaakt, waarvan de naam bestaat uit de naam van het systeem en de dag.
162
De back-up van maandag blijft tot de volgende maandag bewaard, dan wordt hij overschreven. De back-up van dinsdag blijft tot de volgende dinsdag bewaard etc. Op basis van de dagelijkse back-up kan dus maximaal een week worden teruggegaan om bepaalde data te herstellen. Voor de maandelijkse back-up zijn 2 tapes nodig, nl. voor de twee maanden die voorafgaan aan de maand waarin het kwartaal eindigt. Immers dan wordt de kwartaal back-up gemaakt (zie hierna). Op een vaste dag in de 1e week van de maand volgend op de eerste maand wordt i.p.v. een dagelijkse back-uptape, de tape voor de eerste maand geplaatst. Idem voor de tweede maand. Voor het overige is de procedure gelijk aan die voor de dagelijkse back-up. De eerste maandback-up na de kwartaalback-up overschrijft de eerste back-up voorafgaand aan de kwartaalback-up. In schema: Maand april
Soort back-up Kwartaalback-up
mei juni juli
Maandback-up Maandback-up Kwartaalback-up
augustus
Maandback-up
Vervangt Kwartaalback-up april vorig jaar Maandback-up februari Maandback-up maart Kwartaalback-up juli vorig jaar Maandback-up mei
Periode 1e kwartaal kalenderjaar april mei 2e kwartaal kalenderjaar juli
Op basis van de maandelijkse back-up kan dus maximaal twee maanden worden teruggegaan om bepaalde data te herstellen. Voor de kwartaalback-up zijn 3 tapes nodig: voor het eerste, tweede en derde kwartaal. De jaarback-up komt in plaats van de vierde kwartaalback-up. Op een vaste dag in de 1e week van de maand volgend op een kwartaaleinde wordt de tape voor het betreffende kwartaal geplaatst; voor het overige is de gehele procedure gelijk aan die van de dagelijkse backup. De kwartaalback-up van bijv. april vervangt de kwartaalback-up van april vorig jaar, kwartaalback-up van juli die van juli vorig jaar etc.. Op basis van de kwartaalback-up kan dus maximaal 1 jaar worden teruggegaan om bepaalde data te herstellen. De jaarlijkse backup rouleert niet, in die zin dat tapes voor de jaarback-up in principe niet worden hergebruikt voor de volgende jaarback-up. Op een vaste dag in de 1e week van de maand volgend op het jaareinde wordt i.p.v. een dagelijkse back-uptape, de tape voor het afgelopen jaar geplaatst. Voor het overige is de procedure gelijk aan die voor de dagelijkse back-up. Op basis van de jaarback-up kan meer dan één jaar worden teruggegaan om bepaalde data te herstellen.
163
6
Onderhoud
6.1
Inleiding
Eenmaal verworven of ontwikkelde taalmaterialen voor TST vereisen onderhoud om hun bruikbaarheid te behouden. In de planning van tijdelijke projecten waarin taalmateriaal wordt ontwikkeld, is het aspect onderhoud veelal afwezig of onderbelicht (ook financieel), mede doordat onderhoud vooral speelt na afloop van een project. Dit leidt op den duur tot kapitaalvernietiging als de taalmaterialen niet meer bruikbaar zijn, bijvoorbeeld doordat het opslagmedium verouderd is, of doordat data of software niet meer voldoen aan modernere internationale eisen op het gebied van standaarden of de methodologie, of doordat juridische voorzieningen (zoals de contracten met rechthebbenden) ontbreken of niet meer up to date zijn. In het kader van de actielijnen van het TST-platform is het zaak voor de Nederlands Taalunie om aan het onderhoudsaspect voldoende aandacht te geven. Dit hoofdstuk biedt daartoe de instrumenten. Zojuist genoemde voorbeelden geven aan dat onderhoud omvat (a) technisch onderhoud, (b) inhoudelijk onderhoud en (c) juridisch onderhoud. Hetgeen onderhoud vereist zijn data, eventuele annotaties daarbij en hun taalkundige en technische formats (6.2.), taalkundige software en data die door die software gebruikt worden (6.3.) systeemsoftware, computerplatforms en informatiedragers (6.4.) en contracten met leveranciers, ontwikkelaars, distributeurs en gebruikers (6.5.). Bij al deze onderwerpen zijn er relaties met andere hoofdstukken. Dit hoofdstuk wordt besloten met een financiële paragraaf (6.6.) en beleidsaanbevelingen (6.7.). Het verschil tussen onderhoud en beheer (hoofdstuk 5) is in de praktijk niet altijd duidelijk. Het onderhoud dat in de paragrafen 6.2.3. en 6.4. aan de orde komt, wordt door Tas en Luitjens (Tas & Luitjens 1999:129) beschouwd als onderdeel van het beheer. Zij definiëren onderhoud als "aanpassingen die hoofdzakelijk betrekking hebben op verbeteringen en kleine veranderingen aan de bestaande hardware, systeemsoftware en het netwerk" (Tas & Luitjens 1999:129). Het onderhoud in genoemde paragrafen volgt in grote lijnen die definitie. Het wordt hier niet als onderdeel van beheer besproken omdat onderhoudstaken vanuit TSTperspectief wezenlijk kunnen verschillen van beheerstaken die ontstaan vanuit het meer algemene ICT-perspectief. 6.2
Onderhoud van data
Onderhoud van data betreft de eigenlijke data, annotaties bij de data en hun taalkundige formats (representatievormen; vgl. hoofdstuk 4.2.) en technische formats (vgl. 2.7). Onderhoud (en beheer) van spraakcorpora en de bijbehorende annotaties omvat uitbreiding van het corpus en foutverbetering van annotaties. 6.2.1
De eigenlijke data
We verstaan onder eigenlijke data respectievelijk de teksten van geschreven taalcorpora, de getranscribeerde spraakfragmenten van gesproken-taalcorpora, de spraakfiles van spraakcorpora en de woordenboekstekst van elektronische woordenboeken die gebruikt worden voor de ontwikkeling van computationele lexica (zie 4.2.4.). Voor het onderhoud van lexica zie 6.3.
164
Onderhoud van traditionele woordenboekstekst, d.w.z. het updaten van de inhoud, wordt niet gedaan door taal- en spraaktechnologen, maar door de maker van het woordenboek. Voor een TST-applicatie kan het nodig zijn dat de woordenboekstekst wordt aangepast (bijv. het aanvullen van onvolledige woordvormen als bij huis- , keuken-, tuindeur), maar dit is een eenmalige actie die daarna geen onderhoud vergt. Dit soort werkzaamheden lijkt niet te horen tot de centrale taken van de TST-centrale zoals opgevat in 2.2.3., omdat het om incidenteel voorkomende of specifieke applicaties gaat. Bovendien is te verwachten dat moderne lexicale producten reeds systematischer als database opgezet worden, waardoor dergelijke werkzaamheden steeds minder nodig zouden moeten zijn. Als het woordenboek zelf gaat fungeren als computationeel lexicon, zie dan 6.3.2. Onderhoud van geschreven en gesproken taalcorpora omvat actualisering en uitbreiding van het corpus. Soms kan correctie van de corpusteksten resp. de transcripties wenselijk zijn. Actualisering van corpora van geschreven taal houdt in dat 'het corpus met zijn tijd meegaat', d.w.z. dat recente geschreven en gesproken taal in de corpora wordt opgenomen. Voor TSTdoeleinden is dit van belang waar het gaat om nieuwe woorden (incl. acroniemen en eigennamen; vgl. 4.2.2.4.5.), om nieuwe betekenissen van bestaande woorden, om uitspraakveranderingen in gesproken taal en om veranderingen in de schrijfwijze van woorden in geschreven taal. Het oudere materiaal moet nog enige tijd (bijv. 5 jaar) als verzameling herkenbaar en on-line beschikbaar blijven, om bijvoorbeeld resultaten van evaluaties van TST-materiaal met elkaar te kunnen vergelijken; daarna kan het worden gearchiveerd (vgl. 5.4.2.3.). Actualisering is relevant voor veel TST-toepassingen, reden waarom deze vorm van onderhoud tot de taken van de TST-centrale gerekend zou moeten worden. De praktische aspecten van actualisering zijn gelijk aan die van corpusopbouw; zie hoofdstuk 2. Van uitbreiding van corpora van geschreven en gesproken taal is vanzelfsprekend sprake als het corpus geactualiseerd wordt zonder dat er materiaal verwijderd wordt. Maar bij uitbreiding moet men vooral denken aan het toevoegen van meer of andersoortig corpusmateriaal, zoals materiaal dat een ander onderwerpsdomein of een ander taalregister betreft. Gegeven een gevarieerd samengesteld basiscorpus, is een dergelijke uitbreiding vooral van toepassing indien voor een specifieke applicatie (bijv een domeinspecifiek systeem) meer materiaal van een in het corpus aanwezig type nodig is of indien het gewenste materiaal in het corpus ontbreekt. In zo'n geval zou de TST-centrale voor die uitbreiding kunnen zorgen op basis van een contract met een daaraan verbonden prijs (dit valt onder gebruikersondersteuning; zie hoofdstuk 8). Pas als het om een algemeen door het TST-veld gewenste uitbreiding gaat, behoort deze vorm van onderhoud tot de reguliere taken van TSTcentrale. Zie hoofdstuk 2 voor de praktische aspecten van corpusuitbreiding. Correctie van corpusmateriaal is een eenmalige actie en vergt daarna geen onderhoud, tenzij eventuele spellingwijzigingen worden doorgevoerd; bij TST-applicaties waarbij van corpusdata gebruik gemaakt wordt is dit ongebruikelijk. Correctie van getranscribeerde spraakfragmenten kan relatief beperkt blijven indien, zoals in het CGN-project, de orthografische transcripties van alle corpusfragmenten volgens dezelfde richtlijnen plaatsvindt en gevolgd wordt door een spellingscontrole (zie http://lands.let.kun.nl/cgn/). Correctie van geschreven corpusteksten is nodig als de digitale tekstversie verkregen is door scannen of overtypen van een origineel (zie 2.6.1., 2.6.2.). In andere gevallen is correctie vaak niet nodig of gewenst. Voor de ontwikkeling van een spellingchecker is juist ongecorrigeerde tekst nodig om te bepalen op welke mogelijke en/of frequent voorkomende fouten de spellingchecker zich moet richten. Voor een lemmatiseerder (vgl. 4.2.2.4.3. en 4.3.2.3.6.) zou het handig zijn
165
als alle corpusteksten dezelfde spelling en andere orthografische bijzonderheden hanteren, maar dit is vrijwel nooit het geval bij een corpus met teksten van verschillende oorsprong. In zo'n geval is uniformering van de desbetreffende data – d.w.z. correctie naar een bepaald model - in het algemeen minder efficiënt dan het in de lemmatiseerder inbouwen van 'kennis' over frequent voorkomende afwijkingen. Correctie is arbeidsintensief en, waar het om het verbeteren van drukfouten gaat, in hogere mate een subjectief-interpretatief proces dan op het eerste gezicht lijkt. Correctie behoort niet tot de reguliere taken van de TST-centrale. Zij moet in de gelegenheid zijn al te 'vuile' corpusdata te weigeren voor beheer (vgl. ook 6.2.2.). Onderhoud van de eigenlijke data in spraakcorpora houdt in dat ernaar moet worden gestreefd dat deze geluidsfiles bruikbaar zijn met actuele software. Mocht worden besloten een spraakcorpus op te nemen in de verzameling TST-materialen van de TST-centrale, dan dient in geval van oude analoge opnames een digitale, onderhoudsvriendelijke versie gemaakt te worden. Overigens geldt vrijwel altijd dat spraakcorpora die in het afgelopen decennium gemaakt zijn reeds digitaal zijn. De ruwe data dient altijd bewaard te worden. Het is zeer ongebruikelijk bijvoorbeeld voor de spraakcorpora die beheerd worden door ELRA om bij foutmelding van een gebruiker over een geluidsfile deze geluidsfile te vervangen. Dit zou namelijk aan de maker doorgespeeld moeten worden, waarna deze opnieuw opnames moet maken. Deze file moet dan weer worden opgenomen in de verzameling spraakfiles, opnieuw moeten worden uitgegeven en verspreid onder gebruikers. Aangezien spraakfiles vaak grote bestanden zijn, houdt dit in dat er ook fysiek (cd-roms) veel verstuurd moet worden. Wat het meest voor de hand ligt in geval van corrupte spraakfiles is dat deze specifieke file komt te vervallen en dat dit wordt gemeld aan de gebruikers. 6.2.2
Annotaties bij de data en hun taalkundige formats
In 4.2.2. – 4.2.4. is uitvoerig besproken welke vormen en niveaus van verrijking (annotatie) van de eigenlijke data er zijn voor resp. corpora van geschreven taal, spraakcorpora en digitale woordenboeken. Het gaat bij verrijking zowel om het annotatieschema (inhoudelijke categorieënstelsel) als om de representatievorm ervan (in het perspectief van dit hoofdstuk 'taalkundige format' genoemd versus het technische format van de data; vgl. 6.2.3.). Voor deze beide aspecten van annotatie is in hoofdstuk 4 zoveel mogelijk aangegeven of en welke internationale standaarden er zijn. Het nut van verrijking en het gebruik van standaarden daarbij is uiteengezet in 4.2.1.1. – 4.2.1.3. en meer in detail in 4.2.2. – 4.2.4. De TST-centrale kan in deze tijd van internationalisering niet meer voorbijgaan aan vigerende standaarden. Onderhoud van annotatieschema's en representatievormen omvat (1) conversie naar nieuwe standaarden, (2) aanpassing of toevoeging van annotaties en (3) correctie. Niet alle behoren tot het takenpakket van de TST-centrale. Conversie naar nieuwe standaarden is nodig als zich nieuwe internationale standaarden ontwikkelen of reeds bestaande standaarden uitgebreid of gewijzigd worden; de conversie moet pas worden uitgevoerd wanneer die nieuwe standaarden in zekere mate stabiel en algemeen aanvaard zijn. De conversie kan het annotatieschema en/of de representatievorm betreffen. Een recent voorbeeld hiervan is de XML-versie van de TEI en de CES (vgl. 4.2.1.3.). Tot de taken van de TST-centrale behoren het bijhouden van die ontwikkelingen en het (laten) doorvoeren ervan in de data die onder haar beheer zijn of komen (het doorvoeren ervan in data van anderen en het verlenen van advies ter zake vallen onder service; zie hoofdstuk 8). Ook zijn bijdragen aan die ontwikkelingen denkbaar op basis van de in de praktijk blijkende gebruikersbehoeften (vgl. 4.2.2.3.). Deze vorm van onderhoud is ook van
166
toepassing op extern verworven verrijkte data waarvan de verrijking niet voldoet aan de standaarden die de TST-centrale gehanteerd worden. Bij voorkeur gebeurt de conversie automatisch; dit kan alleen als de nieuwe standaard in grote mate afbeeldbaar is op de oude en dat is lang niet altijd het geval. Zie voor de overige praktische aspecten van deze vorm van onderhoud de relevante passages in 4.2.2. – 4.2.4. en 4.2.6. Van toevoeging van annotaties is sprake indien een nieuw niveau van verrijking toegevoegd wordt, bijv. syntactische verrijking naast de reeds aanwezige POS-verrijking. Hoewel de TST-centrale wel de verantwoordelijkheid heeft voor de verrijking van de data onder haar beheer, is zij niet noodzakelijk de instantie die een nieuw niveau van verrijking doorvoert. Het is zeer goed denkbaar dat dit uitbesteed wordt aan specialisten ter zake. Zie verder 4.2.2. – 4.2.4. en de relevante passages in 4.2.6. Aanpassing van annotatie kan nodig zijn indien een eerder gekozen annotatieschema in de praktijk niet blijkt te voldoen. Dit leidt niet noodzakelijk tot de keuze van een andere standaard. Zo kunnen 'non-applicable' EAGLES-woordsoortfeatures binnen een taalspecifieke EAGLES-tagset in de praktijk toch 'applicable' blijken te zijn en vice versa. Ook kan er behoefte zijn aan een feature dat ontbreekt in een taalspecifieke EAGLES-tagset. Daarin kan binnen EAGLES worden voorzien door uitbreiding van die tagset met bijvoorbeeld een overeenkomend feature uit een andere taalspecifieke tagset. Of aanpassing nodig is en welke aspecten de aanpassing betreft, wordt bepaald door het gebruikersveld; de uitvoering ervan kan door of in opdracht van de TST-centrale gedaan worden. Indien het gaat om het uitsplitsen van annotatiecategorieën vergt dit meestal computerondersteund handwerk; het wegnemen van een onderscheid kan meestal automatisch. Zie verder 4.2.2. – 4.2.4. en de relevante passages in 4.2.6. Als de kwaliteit van verrijkte data als gevolg van slordigheid of tijdsdruk beneden de maat is voor een goede bruikbaarheid, dan is correctie nodig. Hoewel het haar taak is met name TSTmaterialen te beheren die op projectbasis buiten een permanente infrastructuur ontwikkeld zijn, is het de vraag of deze correctie uitgevoerd moet worden door de TST-centrale; dit zou efficiënter en/of beter kunnen worden gedaan door voormalige projectuitvoerders met kennis ter zake. Een nog open vraag is wie verantwoordelijk is voor de financiering hiervan. De TST-centrale zou principieel dergelijke data niet voor beheer moeten accepteren, tenzij onder de uitdrukkelijke voorwaarde dat de data ongecorrigeerd ter beschikking worden gesteld aan de gebruiker die daarover expliciet geïnformeerd moet zijn. Ook een andere noodzaak tot correctie is denkbaar. Dit is bijvoorbeeld het geval als de toepassing van het annotatieschema op de data (vgl. 4.2.2.4.) niet consistent gebeurd is. Dit geldt nogal eens voor producten van projecten waarin geen tijd (en geld) ingeruimd was om de toepassingswijze vooraf te toetsen aan de hand van een behoorlijke hoeveelheid data; nietvoorziene toepassingskwesties zijn dan per definitie inconsistent opgelost. Een ander voorbeeld is dat validatie volgens de TEI geen foutloze data garandeert: de validering betreft alleen de syntax van de codering, niet de juistheid en volledigheid van de inhoud (zie 4.2.2.1.). Ook hier zou de rol van de TST-centrale uiterst bescheiden moeten zijn. Een grote onderhoudspost is het verbeteren van de annotaties van de spraakfiles. Ervan uitgaande dat tijdens het productieproces van de annotaties al de nodige tijdsrovende bugreports over en weer zijn gegaan, is het toch onvermijdelijk dat er fouten in bijvoorbeeld een transcriptie zijn blijven zitten. De gebruiker die dit ontdekt zal contact op moeten nemen met de beheerder en onderhouder van het spraakcorpus. Deze zal dan de nodige acties ondernemen.
167
Naast fouten in een transcriptie kunnen ook andere gebreken zich voordoen, zoals bijvoorbeeld fouten in het bijgeleverde uitspraaklexicon, fouten in de documentatie, etc. Transcriptie van spraak is voor een heel groot gedeelte menselijk werk en bij grote corpora is het onvermijdelijk dat er fouten in blijven staan, ondanks dat er vaak een tweede transcriptieslag plaatsvindt, zoals in het CGN project, waarin fouten worden verbeterd. Elke fout of onvolkomenheid zal door de gebruikers moeten worden teruggemeld aan de onderhouders van het betreffende spraakcorpus. Om foutrapportage te versoepelen en aan te moedigen heeft ELRA op haar webstek een foutrapportage systeem geopend waarbij een prijs voor de melder van de beste 'bug' in het vooruitzicht wordt gesteld. Correctie van transcripties van spraakcorpora is niet een eenmalige actie. Als een fout is geverifieerd en daarna gecorrigeerd, moeten alle gebruikers daarvan op de hoogte worden gesteld en een patch toegestuurd krijgen, waarmee de fout in de door hem/haar gekochte spraakdatabase kan worden gecorrigeerd. Er zal nooit sprake zijn van zogenoemde 'actualisatie' van transcripties van spraak aangezien de transcripties precies aangeven hoe en wat er is gezegd in die specifieke spraakfile (die niet meer verandert). In Heuvel (2002) is de bugreportservice van ELRA beschreven. Voor het onderhoud van werkomgevingen voor efficiënt computerondersteund handwerk, geldt hetgeen verwoord is voor applicatiesoftware in 6.4.1.2. 6.2.3
Onderhoud technische formats
Data die door een computer verwerkt moeten worden, moeten een bepaalde structuur of indeling hebben waardoor de computer c.q. de software efficiënt met die data kan omgaan. Dit wordt aangeduid als het zgn. bestandsformaat. Tegenwoordig is er een veelheid aan bestandsformaten beschikbaar, zowel software- en hardware onafhankelijk als software- en hardware afhankelijk. Het formaat van een bestand is vaak af te leiden uit de extensie van de bestandsnaam: zo staan bijv. de extensies xls en mdb voor resp. het Microsoft Excel en Access bestandsformaat, wav en mp3 voor een audiobestandsformaat. Door het tempo waarin (software)technische ontwikkelingen verlopen, is de duurzaamheid van al deze formaten op geen enkele wijze gegarandeerd. Dit is een van de aspecten van digitale duurzaamheid zoals besproken in hoofdstuk 5, §5.4.3. Onderhoud van het formaat van data houdt op zijn minst in dat gedurende het bestaan van de software waarmee dat formaat kan worden verwerkt, de data door de verschillende softwareversies (bijv. Word 7.0, Word97, Word2000, etc.) kunnen worden verwerkt. Zodra die software verdwijnt zal moeten worden gekozen voor conversie naar een ander formaat of emulatie van het oorspronkelijke formaat; zie hiervoor §5.4.3. Verder kan rekening worden gehouden met de ISO-normen op dit terrein, zie hiervoor http://www.iso.ch/iso/en/ISOOnline.frontpage Om de onderhoudsinspanningen voor de TST-centrale te minimaliseren zou een verwervingsbeleid gevoerd moeten worden waarbij alleen data verworven c.q. geaccepteerd worden in een software- en hardwareonafhankelijk formaat (vgl. 3.2.) of waarbij het formaat van de data verwerkt kan worden door software die binnen het betreffende toepassingsgebied als standaard geldt (Microsoft Word voor tekstverwerking, Quark Xpress voor opmaak etc.).
168
6.3 6.3.1
Onderhoud van taalkundige software en data die door die software gebruikt worden Taalkundige software
Met taalkundige software wordt hier primair bedoeld verrijkingsprogrammatuur (zie 4.3.). Voor de TST-centrale is vooral het onderhoud hiervan relevant. Programmatuur voor de extractie van informatie uit digitaal taalmateriaal ten behoeve van lexiconontwikkeling (vgl. 4.3.5.), programmatuur voor de conversie van externe data naar de standaarden die door de TST-centrale gehanteerd worden en exploratie-software, vallen onder applicatiesoftware; zie 6.4.1.2. Mutatis mutandis gelden voor het onderhoud van taalkundige software dezelfde redenen als voor applicatiesoftware (zie 6.4.1.). Dit geldt ook voor het onderhoud zelf van de vier categorieën software die worden onderscheiden volgens de origine ervan (zie 6.4.1.2.). Het belangrijkste verschil betreft de uitvoerder en de organisatie van het onderhoud. Het is niet een helpdesk, een onderhoudsafdeling of een afdeling Automatisering met automatiseringsdeskundigen die het onderhoud van verrijkingssoftware verzorgt, maar een computerlinguïst (vgl. 4.2.1.4.), bij voorkeur de computerlinguïst die de software heeft ontwikkeld, ook als die niet in dienst is van de TST-centrale. Maar bij taalkundige software komt er nog een onderhoudsaspect bij: de taalkundige kant ervan. Dat behelst, als bij de data, de verrijking zelf (annotatieschema en representatie; vgl. 6.2.2.), alsmede de methodologie. Bij wijziging van de annotatieschema's en/of representaties als gevolg van factoren als genoemd in 6.2.2., moet ook de verrijkingssoftware hierop worden aangepast. Ook de optimale methodologie van automatische taalkundige verrijking is nog onderwerp van onderzoek en dus onderhevig aan verandering (vgl. 4.3.); dit geldt nog steeds voor alle verrijkingsniveaus. Ook dit is werk voor een computerlinguïst. De TST-centrale is voor deze twee aspecten van taalkundig onderhoud verantwoordelijk, maar kan dit ook uitbesteden aan een wetenschappelijk instituut dat ter zake hooggekwalificeerd is. De TST-centrale moet het onderhoud kunnen weigeren van verrijkingssoftware die geschreven is in programmeertalen die binnen het TST-veld niet meer gangbaar zijn (zie ook 6.4.1.2.). 6.3.2
Data voor taalkundige software
Zoals uiteengezet in 4.3. zijn de belangrijkste data die door verrijkingssoftware gebruikt worden, afhankelijk van de aard van de verrijking en de toegepaste methode: trainingsdata, computationele lexica en grammatica's. Alle vergen het onderhoud als omschreven in 6.2.3. Trainingsdata zijn verrijkte data. Actualisering en uitbreiding van de eigenlijke data (vgl. 6.2.1.) komt neer op het aanleggen van nieuw trainingsmateriaal; gezien de werklast (zie 4.2.6.) moet de noodzaak hiertoe eerst worden aangetoond vanuit het TST-veld, met een specificatie van het gewenste materiaal. De verrijking in de trainingsdata vergt onderhoud als beschreven in 6.2.2. in de omstandigheden aldaar en in 6.3.1. genoemd. Het onderhoud van computationele lexica betreft de volgende aspecten: de ingangenlijst, de taalkundige informatie bij de ingangen en het lexiconmodel.
169
De ingangenlijst behoeft regelmatig actualisering, voornamelijk vanwege nieuwe woorden in de taal en nieuwe en/of variabele schrijfwijzen en –als de ingangenlijst een fonemische of fonetische representatie is- doorvoering van nieuwe notatiesystemen en/of uitspraakveranderingen. Dit is de verantwoordelijkheid van de TST-centrale. Indien zich een officiële spellingwijziging voordoet, moet de ingangenlijst zowel de oude als de nieuwe spellingsvormen bevatten; dit impliceert een grondige herziening van het lexicon. Ook dit behoort tot de verantwoordelijkheden van de TST-centrale. Echter, uitbreiding van de ingangenlijst met bijzondere, niet algemeen bruikbare ingangen (bijv. een specifieke terminologisch domein betreffend) op verzoek, kan wel worden gedaan door de TST-centrale, maar dan op contractbasis met een daaraan verbonden prijs (vgl. 6.2.1.). Voor het onderhoud van de taalkundige informatie bij de ingangen geldt mutatis mutandis hetgeen verwoord is in 6.2.2. Onderhoud aan het lexiconmodel zou zich moeten beperken tot het verwijderen van fouten. Herziening van het model is in het algemeen een ingrijpende operatie, die alleen kan worden uitgevoerd door in de materie ingewijden. Dit geldt te meer voor lexica voor spraaktechnologische systemen. Onderhoud van grammatica's betreft, bij een regelgebaseerde of gemengd regelgebaseerd/statistische aanpak (vgl. 4.3.), voornamelijk verbetering van het regelsysteem. Gezien de hoge complexiteit van grammatica's met een brede dekking kan dit alleen gebeuren door in de materie ingewijden. 6.4
Onderhoud systeem- en applicatiesoftware, computerplatforms en informatiedragers
In deze paragraaf zal worden ingegaan op het onderhoud van de hardware- en software van TST-informatiesystemen; onderhoud van de data is in voorgaande paragrafen besproken. Aangezien het hier gaat om lokale aangelegenheden, kan met de term TST-centrale ook bedoeld worden een der instellingen die de TST-centrale vormen. 6.4.1
Systeem- en applicatiesoftware
Systeem- en applicatiesoftware is in vier categorieën te onderscheiden: commercieel, open source, door derden (al dan niet in opdracht) ontwikkeld en eigen ontwikkeling. Ongeacht de soort zijn de redenen voor het doen van onderhoud aan de software echter gelijk. De hierna volgende opsomming geeft een indruk: er zijn bugs geconstateerd. er is behoefte aan nieuwe functionaliteit waarmee de gebruiksmogelijkheden van de software worden verruimd. weinig gebruikte of niet meer actuele functionaliteit moet verwijderd of vervangen worden (bijv. bij spellingscontrole oude spellingsregels vervangen door nieuwe spellingsregels). de interface moet verbeterd worden (bijv. van een command-line georiënteerde interface naar een GUI (Graphical User Interface)). geschikt maken voor nieuwe (technologische) standaards (bijv. werken met Unicode in plaats van ASCII of ISO-Latin). geschikt maken voor nieuwe platforms of besturingssystemen. toepassing van nieuwe algoritmes waardoor bijv. de prestaties verbeteren of toepassing op rijker geschakeerde en grotere datasets mogelijk wordt. Onderhoud aan systeem- en applicatiesoftware leidt in het algemeen tot een van de volgende producten: een nieuwe versie of een zgn. patch. Een patch vervangt een specifieke, foutieve
170
component van de software; hij wordt meestal uitgebracht wanneer de fout dermate ernstig is dat niet kan worden gewacht tot een volgende versie van de software beschikbaar is. Bekend voorbeeld zijn de beveiligingslekken in webbrowsers. Een patch kan als losse component beschikbaar worden gesteld, maar ook als een zgn. service pack: een verzameling patches die op diverse onderdelen van de software wordt toegepast. 6.4.1.1 Systeemsoftware Onder systeemsoftware wordt verstaan: alle software die een computersysteem nodig heeft om het gebruik van applicatiesoftware mogelijk te maken. Systeemsoftware valt vrijwel altijd onder de categorie commercieel. Vanuit een lokale onderhoudsverantwoordelijkheid moet de TST-centrale problemen die zich met de systeemsoftware voordoen aanmelden bij de leverancier en moet zij wel of niet nieuwe versies van die software (zie hiervoor hoofdstuk 5) installeren. Het eigenlijke onderhoud aan systeemsoftware wordt vrijwel altijd door de leverancier van de software verricht. Overigens is het aanmelden van een probleem geen garantie dat het daadwerkelijk in behandeling wordt genomen: het hangt van het aantal meldingen af of een probleem wordt opgelost of niet. Bij weinig meldingen bestaat al snel het gevaar dat het probleem als incidenteel wordt beschouwd. Voor wat betreft de termijn waarop een probleem is opgelost, laten leveranciers zich leiden door bijv. de grootte van de organisatie of de kans op imagobeschadiging. Zo zal een organisatie waar honderden of duizenden medewerkers last hebben van het probleem eerder door de leverancier worden geholpen dan een organisatie met een beperkt aantal werkplekken. Tot de taken van de TST-centrale behoort dat onderhoudscontracten met de leverancier worden afgesloten (zie ook hoofdstuk 5). Dan zullen uit dien hoofde nieuwe versies of patches in het algemeen zonder verdere kosten ter beschikking worden gesteld. Is er geen onderhoudscontract, dan zullen de kosten beduidend hoger liggen. Elke leverancier hanteert hiervoor andere richtlijnen. 6.4.1.2 Applicatiesoftware Onder applicatiesoftware wordt alle software gerekend die "de computer een door de eindgebruikers gedefinieerde of gewenste specifieke taak laat vervullen" (Ypma 1998). Alle verrijkingssoftware zoals genoemd in 4.3. valt onder deze definitie. Applicatiesoftware behoort tot de categorieën commercieel, open source, door derden (al dan niet in opdracht) ontwikkeld en eigen ontwikkeling. Per categorie is de onderhoudssituatie verschillend. Voor commerciële applicatiesoftware zijn de onderhoudsactiviteiten van de TST-centrale gelijk aan die bij de systeemsoftware. Voor de open source applicatiesoftware kan de TST-centrale twee wegen bewandelen. De eerste weg is het onderhoud zelf verrichten. Bij open source software zijn de sources beschikbaar zodat de TST-centrale hierin zelf verbeteringen kan aanbrengen. Dit veronderstelt dat de TST-centrale voldoende kennis en ervaring beschikbaar heeft om dit onderhoud te verrichten (bijv. in de persoon van een ervaren programmeur of computerlinguïst). Dit is van belang omdat het gebruikelijk is de verbeterde software weer ter beschikking te stellen; de kwaliteit van de aanpassing moet dan ook voldoende gewaarborgd zijn. De tweede weg is problemen aanmelden bij organisaties die, al dan niet op commerciële basis, diverse ondersteuningsactiviteiten ontplooien voor open source software. Voorbeelden hiervan zijn bedrijven die Linux distributies op de markt brengen zoals Red Hat
171
(http://www.redhat.com/) en SuSe (http://www.suse.com/). Overwogen kan worden niet een bijdrage te leveren aan het onderhoud van meer algemeen inzetbare open source applicatiesoftware (bijv. Perl, Python, etc.), maar wel aan open source TST-software. Wanneer de TST-centrale applicatiesoftware van derden heeft verworven of in opdracht door derden heeft laten ontwikkelen, zal contractueel zijn vastgelegd hoe het onderhoud wordt geregeld. Bij voorkeur zou hetzelfde moeten gelden voor software die de TST-centrale vanuit haar taakstelling onder haar beheer krijgt. Zonder hier verder op in te gaan zijn er twee richtingen mogelijk: het onderhoud wordt verricht alsof het commerciële software is, m.a.w. de TST-centrale doet het onderhoud niet zelf. Ten tweede wordt het onderhoud verricht alsof er sprake is van open source c.q. eigen ontwikkelde software; de TST-centrale doet het onderhoud zelf. Voorwaarden zijn in dit geval dat de TST-centrale over de sources beschikt en over de andere softwaregereedschappen om van de source een werkend programma te kunnen maken. De eerder genoemde voorwaarde dat er voldoende kennis en ervaring beschikbaar moet zijn, geldt ook hier. Eigen ontwikkelde software (bijv. in het kader van serviceverlening, zie verder hoofdstuk 8) tenslotte betekent voor het onderhoud enerzijds meer werk voor de TST-centrale, maar anderzijds kunnen fouten sneller worden verholpen en kan beter rekening worden gehouden met wensen vanuit de gebruikers. Het betekent ook dat voor het verrichten van onderhoud aan bepaalde eisen moet zijn voldaan. Voor een belangrijk deel zijn dat de eisen die in 4.4 zijn geformuleerd bij het ontwikkelen van software. In aanvulling daarop kunnen voor het onderhoud de volgende eisen worden genoemd. Ten eerste moet worden geregeld bij wie het probleem moet worden aangemeld. Hiervoor bestaan in het algemeen de volgende mogelijkheden: een helpdesk (zie hoofdstuk 8) onderhoudsafdeling (zelfstandig of als deel van de afdeling Automatisering) afdeling Automatisering de maker van de software. Voor de TST-centrale ligt een gecentraliseerde helpdesk het meest voor de hand. Aandachtspunt hierbij is de wijze van aanmelding: mondeling, schriftelijk (via formulieren) of elektronisch (via e-mail of intranet). Schriftelijk en elektronisch hebben het voordeel dat het probleem meteen formeel is vastgelegd; in de administratie kan hiernaar worden verwezen. Ten tweede moet de ernst van het probleem worden nagegaan. Zo zal een probleem waarbij software 'crasht' in het algemeen snel moeten worden opgelost, zeker als het reproduceerbaar blijkt. Het reproduceerbaar zijn van een probleem geldt overigens ook voor overige problemen met (TST) software; het geeft aan dat er geen sprake is van een toevallige omstandigheid die het probleem veroorzaakt. Ten derde moet het onderhoud in technische zin worden ingericht. Zodra aan een informatiesysteem of een applicatie onderhoud moet worden gepleegd is het raadzaam de zgn. productieomgeving (de plaats waar de door gebruikers in gebruik zijn software zich bevindt) te scheiden van de software die onderhouden moet worden. Dit kan door een zgn. onderhoudsomgeving in te richten. Hierin bevinden zich kopieën van zowel de software als (delen van) de data uit de productieomgeving. Voor wat betreft de data is een aandachtspunt dat de persoon die het onderhoud aan software verricht geautoriseerd is om de bijbehorende
172
data te gebruiken. Zo niet, dan moeten aparte data worden aangelegd die qua formaat gelijk zijn aan de data in de productieomgeving. In de onderhoudsomgeving worden de noodzakelijke aanpassingen verricht en wordt de aangepaste software getest. Nadat is gebleken dat na de aanpassingen de software correct is blijven werken, wordt deze overgebracht naar de productieomgeving. Dit gebeurt in overleg met de gebruikers van de software zodat zij weten wanneer zij van de nieuwe versie gebruik kunnen maken. Verder geldt hierbij hetgeen in 5.4.2.2. (versiebeheer software) is besproken. Onderdeel van de onderhoudswerkzaamheden is het bijwerken van de bij de software behorende documentatie. Dat geldt met name wanneer wijzigingen in de functionaliteit zijn aangebracht. Tenslotte wordt de administratie met betrekking tot het onderhoud bijgewerkt. Indien de TST-centrale het onderhoud in eigen hand wil houden maar niet over gekwalificeerd personeel beschikt, kan overwogen worden het onderhoud uit te besteden. In §5.2. is uitbesteding besproken vanuit het beheersperspectief. Voor de keuze wel of niet onderhoud uitbesteden gelden nagenoeg dezelfde typen overwegingen als genoemd in 5.2.: is er kennis en ervaring (vgl. 6.2.2.), wordt het als kerntaak beschouwd en hoeveel bedragen de kosten. Afhankelijk van de kennis van en ervaring met software-ontwikkeling van degene die de software gemaakt heeft, kan de mate van onderhoudbaarheid uiteenlopen. Richtlijnen die bijdragen aan een goede onderhoudbaarheid zijn besproken in 4.4.3. Het softwareacceptatiebeleid van de TST-centrale zou dan ook gestuurd moeten worden door de mate waarin aan die richtlijnen is voldaan. Hierdoor kan een zekere waarborg worden verkregen dat software daadwerkelijk onderhoudbaar is. Een andere sturingsfactor is de actualiteit van de software. Zo is software gemaakt voor Windows 3.11 niet meer actueel; de TST-centrale kan op die grond besluiten de software wel te accepteren, maar niet meer te onderhouden of het onderhoud voor een beperkte periode te garanderen. 6.4.2
Computerplatforms
In hoofdstuk 5 zijn een aantal activiteiten besproken ten aanzien van beheer van de apparatuur. Vanuit een beheersactiviteit kan een onderhoudsactiviteit ontstaan, bijv. als uit de diskbezetting blijkt dat uitbreiding van de opslagactiviteit noodzakelijk is. De daadwerkelijke uitbreiding leidt ertoe dat de betreffende server voor enige tijd niet beschikbaar is, zodat deze werkzaamheden bij voorkeur moeten plaatsvinden op een tijdstip dat de minste hinder geeft. Vermeld moet worden dat moderne technische voorzieningen het mogelijk maken dit soort uitbreidingen aan te brengen zonder de apparatuur uit te schakelen ('hot pluggable'). Ook het overgaan op apparatuur met meer verwerkingskracht binnen hetzelfde platform behoort tot onderhoud, bijv. omdat gebruikers hogere eisen stellen aan prestaties van de apparatuur. Afhankelijk van de vraag of de nieuwe apparatuur een vervanging of een toevoeging betreft wordt een andere werkwijze gevolgd. Bij vervanging zullen alle data en software moeten worden gekopieerd naar de nieuwe apparatuur. Met de gebruikers moeten afspraken worden gemaakt over het tijdstip waarop dit gebeurt; zo weet men dat de meest actuele versies van data worden gekopieerd. De oude apparatuur moet hierna voor gebruik worden afgesloten of de data en software moeten zodanig worden beveiligd dat uitsluitend het leesrecht van toepassing is (zie hoofdstuk 5, bijlage 2).
173
Bij toevoeging zullen in ieder geval de data en software moeten worden gekopieerd die gebaat zijn bij de grotere verwerkingskracht. Voor het overige geldt hetgeen hiervoor is besproken. Zodra de TST-centrale besluit een bepaald platform (bijv. VAX OpenVMS) buiten gebruik te stellen komen voor het behoud van data en software op dit platform vrijwel dezelfde aspecten aan de orde als bij verwerving van de data (§2.7.-2.8.), verwerking en bewerking van de data (§3.2.-3.3.), het onderhoud aan technische formats (§6.2.3.) en digitale duurzaamheid (§5.4.3.) 6.4.3
Informatiedragers
Het onderhoud aan informatiedragers betreft in ieder geval het in §5.4.3. genoemde regelmatig 'verversen' van de magnetische media zodat de informatie op die media niet door teruglopende fysische eigenschappen verloren gaat. Voor informatiedragers die dreigen te verdwijnen wordt verwezen naar §5.4.3. 6.4.4
Administratie
Voor het onderhoud aan TST-software moet het volgende geadministreerd worden: wie heeft het probleem waarvoor onderhoud noodzakelijk is aangemeld, nauwkeurige omschrijving van het probleem, wie heeft het onderhoud verricht, omschrijving van de oplossing, datum buitengebruikstelling vorige versie, datum ingebruikname nieuwe versie. 6.5
Juridisch onderhoud
Gezien de revolutionaire ontwikkelingen in de taal- en spraaktechnologie is periodiek onderhoud van de contracten met leveranciers, ontwikkelaars, distributeurs, sprekers en gebruikers van TST-materialen dringend gewenst. Het is noodzakelijk om met behulp van een legal audit, een juridische risico-inventarisatie, periodiek de TST-centrale door te lichten op achterstallig juridisch onderhoud. Zo'n audit moet vaststellen of de TST-centrale voldoende geanticipeerd heeft op de gewijzigde wetgeving of rechtspraak. Geïnventariseerd dienen te worden de risico's op het gebied van het rechtspersonenrecht, het intellectuele eigendom, de productaansprakelijkheid en de financiering van verwerving, bewerking, beheer en distributie. Afhankelijk van de bevindingen kunnen passende maatregelen worden genomen tegen onbekende risico's. Verder zijn er juridische aandachtspunten met betrekking tot het onderhoud zelf. Zoals besproken in 2.3.1. dient de TST-centrale bij verwerving of acceptatie van TST-materialen schriftelijk te laten vastleggen dat aan haar alle rechten met betrekking tot die data worden overgedragen. Wanneer dit niet mogelijk is dient zij een zo ruim mogelijke licentie te verkrijgen. De hiermee verkregen bevoegdheden omvatten in elk geval, maar niet uitsluitend het recht de data in digitale vorm of anderszins te reproduceren en te bewerken, te onderhouden, te annoteren, in een databank op te slaan e.d., alsmede het recht om de TSTmaterialen ter beschikking te stellen aan gebruikers ervan. Het onderhoud van TST-materialen dat valt onder de reguliere taken van de TSTcentrale (zie de paragrafen hierboven), zou omschreven kunnen worden in de contracten tussen de TST-centrale en de gebruikers. Dit is wellicht niet nodig als uit de taakstelling van de TST-centrale voldoende duidelijk is wat onder dat reguliere onderhoud wordt verstaan. Indien taken die onder het reguliere onderhoud vallen worden uitbesteed, bijvoorbeeld omdat elders meer expertise is, dient een contract te worden opgesteld tussen de TST-centrale en de
174
aannemer van de onderhoudstaak. In zo'n contract zullen het uit te voeren onderhoud, de duur en de kosten ervan exact dienen te worden omschreven en moet ook het vervolgonderhoud geregeld worden. Rechthebbenden die TST-materiaal leveren aan de TST-centrale zouden als voorwaarde kunnen bedingen dat hun materiaal door de TST-centrale onderhouden wordt. De TST-centrale kan deze voorwaarde, en dus ook het materiaal, uitsluitend accepteren als het gaat om materiaal dat een algemeen TST-doel dient en als het tevens aan de eisen van onderhoudbaarheid voldoet. In dit hoofdstuk worden op verscheidene plaatsen vormen van onderhoud genoemd met een specifiek karakter dat geen algemeen TST-doel dient. Dit type onderhoud behoort niet tot de verplichtingen van de TST-centrale (vgl. 7.7.1.), maar kan door de TST-centrale worden uitgevoerd op contractbasis op kosten van de opdrachtgever (vgl. hoofdstuk 8). In zo'n contract dienen het uit te voeren onderhoud, de duur en de kosten ervan exact te worden omschreven en moet vervolgonderhoud uitgesloten worden. Wel kan voor dat laatste telkens een afzonderlijke overeenkomst onder nader overeen te komen voorwaarden worden afgesloten. In alle hier genoemde contracten zullen de karakteristieke slotbepalingen niet mogen ontbreken, zoals aansprakelijkheid, wat te doen bij nalatigheid, welk recht van toepassing is en aan wie geschillen betreffende de totstandkoming, de uitleg of de uitvoering van de overeenkomst zijn onderworpen. 6.6
Kosten
De kosten voor onderhoud worden bepaald door het volgende. Data, hun verrijking en verrijkingssoftware: zie 6.2. en 6.3. met de relevante passages in 4.2.6. Systeemsoftware. Indien er een onderhoudscontract is afgesloten dan is een vuistregel: onderhoudskosten bedragen ca. 10 – 15% van de licentiekosten. Indien er geen onderhoudscontract is afgesloten dan worden de kosten in het algemeen op nacalculatiebasis berekend. Afhankelijk van de leverancier wordt ca. f 250 – 350 (Euro 112 – 159) per uur berekend, ex. BTW. Op deze tarieven kunnen kortingen van toepassing zijn, bijv. wanneer de TST-centrale tot een koepelorganisatie behoort die bepaalde regelingen met de leverancier getroffen heeft. Applicatiesoftware. Voor commerciële software geldt hetzelfde als voor de systeemsoftware. Voor in opdracht vervaardigde applicatiesoftware is de situatie vergelijkbaar met die voor de systeemsoftware. Indien de TST-centrale zelf onderhoud verricht aan die software worden de kosten bepaald door de salariskosten van de betreffende programmeur. Dit laatste geldt ook voor het onderhoud aan eigen ontwikkelde software. Juridisch onderhoud. Voor de legal audit, die eenmaal per vijf jaar moet worden gehouden, moet een stelpost gereserveerd worden van ca. F. 15.000,- per 5 jaar. De aard van de te nemen maatregelen is niet te voorspellen, dus hiervoor kan geen kostenindicatie worden gegeven. Uitgangspunt is het uurtarief van een jurist, dat nu op ca. F. 650,- per uur ligt.
175
6.7
Aanbevelingen voor beleid
In 2.9. wezen wij op het belang van hergebruik van digitale materialen voor taal- en spraaktechnologie (TST-materialen), met name die met overheidsgelden buiten een permanente institutionele infrastructuur gemaakt zijn. Kapitaalsvernietiging moet immers voorkomen worden. Wij bepleitten tevens dat de TST-centrale die data toegankelijk maakt voor hergebruik en ze daartoe beheert en onderhoudt. Immers het verwerven, beheren en onderhouden van digitale verzamelingen liggen in elkaars verlengde. Het onderhoud van verworven TST-materialen is een continu aandachtspunt van de TST-centrale. Alleen door een kwalitatief hoogstaand onderhoud is een voortdurend hergebruik ervan gewaarborgd. Dat onderhoud is veelzijdig en omvat technisch, inhoudelijk en juridisch onderhoud. Het strekt zich uit tot data, eventuele annotaties daarbij en hun taalkundige en technische formats. Ook taalkundige software en data die door die software gebruikt worden, alsmede systeemsoftware, computerplatforms en informatiedragers behoren onderhouden te worden. Daarnaast dienen de contracten met leveranciers, ontwikkelaars, distributeurs en gebruikers alsmede de juridische ontwikkelingen rond deze partijen (bijvoorbeeld overnames) regelmatig doorgelicht te worden op congruentie met de actuele juridische bepalingen ter zake. Tot de reguliere taken van de TST-centrale behoort uitsluitend onderhoud dat een breed TSTbelang dient. De TST-centrale dient daarvoor de beschikking te krijgen over een additioneel personeels- en bekostigingsvolume. Het mag niet zo zijn dat impliciet verondersteld wordt dat genoemd onderhoud kosteloos ondergebracht wordt bij de operationele onderzoeksprogramma's van de instellingen die de TST-centrale vormen. Onderhoud met een specifiek karakter kan door de TST-centrale worden uitgevoerd, echter op voorwaarde dat dit op contractbasis en op kosten van de opdrachtgever gebeurt (vgl. hoofdstuk 8). Onder meer uit oogpunt van kostenbeheersing moet de TST-centrale in de gelegenheid zijn aangeboden TST-materialen te weigeren voor onderhoud als ze niet aan bepaalde kwaliteitseisen voldoen (inclusief documentatie). Voor spraakcorpora is het heden ten dage bijna de regel dat deze gevalideerd moeten worden, zie ook 4.5. De TST-centrale zou tevens moeten toezien op het in stand houden van de kwaliteit van de corpora door het opzetten van een foutenreportagesysteem. Indien een gebruiker een fout van welke aard dan ook ontdekt, moet deze dit op eenvoudige wijze kunnen rapporteren aan de beheerder die op zijn beurt de nodige acties onderneemt. De TST-centrale kan niet voorbijgaan aan vigerende standaarden. Als zich nieuwe internationale standaarden ontwikkelen, of als een reeds bestaande standaard uitgebreid of gewijzigd wordt, is conversie naar nieuwe standaarden nodig. De TST-centrale moet die ontwikkelingen bijhouden en, pas als ze algemeen aanvaard zijn, (laten) doorvoeren in de data die onder haar beheer zijn of komen. Omdat taalkundig onderhoud van TST-data en TST-software bijzondere expertise vereist, veelal die van de maker ervan, is het van groot belang de bij de ontwikkeling van die materialen opgebouwde expertise te consolideren.
176
7
Distributie
7.1
Inleiding
Het distribueren van materialen ten behoeve van taal- en spraaktechnologie (TST-materialen) die o.a. buiten een permanente institutionele infrastructuur gemaakt zijn, kan geschieden volgens verschillende scenario's (zie daarvoor 7.2.). Het belangrijkste uitgangspunt daarbij is dat eerst de rechten op die distributie geregeld dienen te worden tussen de distributeur en de rechthebbende(n) enerzijds en tussen de distributeur en de gebruiker anderzijds, alvorens er daadwerkelijk gedistribueerd kan worden. Er dient met andere woorden juridisch goed gedefinieerd te zijn wie de materialen distribueert en bewaakt overeenkomstig welk soort contract. Wij schenken in paragraaf 7.3.1. aandacht aan juridische eisen die bij de distributie van TST-materialen vervuld moeten worden. De financiële zaken die samenhangen met distributie schetsen wij in paragraaf 7.3.2. Hoe de data technisch gedistribueerd kunnen worden staat te lezen in paragraaf 7.4. In 7.5. worden andere randvoorwaarden voor distributie behandeld met een praktisch karakter, zoals het voorzien in een handleiding en documentatie bij het gedistribueerde product. Ook komen daar overwegingen aan de orde voor het maken van technische keuzen en de automatische financiële verrekening en afhandeling. Dit hoofdstuk wordt afgesloten met conclusies en aanbevelingen voor beleidsmakers (7.6.) en modelcontracten (7.7.). 7.2 7.2.1
Scenario's voor distributie Institutioneel
Distributie van TST-materialen door een reeds bestaande nationale of internationale instelling voorkomt grote juridische en financieel-economische problemen voor de gebruikers, omdat de distributeur de rechten en voorwaarden voor de verwerving en distributie heeft moeten regelen met de rechthebbende(n) en ze heeft moeten vastleggen in een contract. Wij bespraken die zaken al in hoofdstuk 2. Ook allerlei technische aspecten van platform, formaat en conversie bijvoorbeeld kunnen worden opgelost door zo'n instelling. In principe zou de TST-centrale (2.2.3.) ingesteld kunnen worden voor niet alleen de verwerving, bewerking, onderhoud en het beheer van TST-materialen, maar ook voor de distributie ervan. Er bestaat binnen het TST-veld enige aarzeling hieromtrent. Immers, de instellingen op het gebied van taal- en spraaktechnologie die de TST-centrale zouden vormen zijn niet gespecialiseerd in marketing, verkoop en distributie op grote schaal. De verkoop en distributie van TST-materialen is dan ook niet een zaak van de TST-centrale. Het ligt meer voor de hand om deze activiteiten uit te besteden (7.2.2.). 7.2.2
Uitbesteding
De instellingen die de TST-centrale vormen (2.2.3.) kunnen de distributie van TST-materialen ook toevertrouwen aan een bestaande (inter)nationale organisatie die distributie van TSTmaterialen tot doelstelling heeft (bijv. ELRA of LDC). Wij spreken omwille van de duidelijkheid hier van een externe distributeur. Zo'n externe distributeur behandelt alle juridische zaken met betrekking tot de distributie van elektronisch materiaal en sluit overeenkomsten met enerzijds de leverancier, in dit geval de TST-centrale, en anderzijds de gebruikers (zie 7.3.1.). De gebruiker dient in dat geval vaak lid te worden van zo'n organisatie. Daarvoor betaalt men een jaarlijkse contributie die voor non-profitorganisaties gunstiger is dan voor
177
profitorganisaties. In ruil voor dat lidmaatschap krijgt men toestemming om materiaal van die externe distributeur te betrekken voor een ledenprijs. De door de gebruiker te betalen prijs wordt vastgesteld door de leverancier in samenspraak met de rechthebbende(n) enerzijds (vgl. 2.3.1.) en de externe distributeur anderzijds. Ondermeer het doel waarvoor het product gebruikt wordt, bepaalt het niveau van de prijs. In geval er sprake is van gebruik voor uitsluitend onderzoeksdoeleinden ligt de prijs lager dan wanneer de data gebruikt worden voor de ontwikkeling van een product dat door een profitorganisatie op de markt gebracht gaat worden. Voor de goede orde wordt hier ten slotte nog opgemerkt dat vanuit het standpunt van de rechthebbende(n) de distributie zowel in 7.2.1. als in 7.2.2. wordt uitbesteed. Natuurlijk kan de distributie ook door de rechthebbende(n) rechtstreeks gebeuren of via een commerciële uitgever. Maar de distributie van TST-materialen die met overheidsgelden buiten een permanente infrastructuur ontwikkeld zijn, dient bij voorkeur geïnstitutionaliseerd te gebeuren. 7.3 7.3.1
Specifieke eisen Juridische aspecten
In paragraaf 2.3.1. is beschreven aan welke wettelijke verplichtingen voldaan moet worden, wil de TST-centrale de beschikking krijgen over de rechten om materiaal dat auteursrechtelijk beschermd is te beheren, bewerken en onderhouden. In deze paragraaf ligt de nadruk op het juridische traject dat loopt van de TST-centrale naar de gebruikers. Met nadruk wordt er hier op gewezen dat bij distributie de gebruiker vrijwel altijd een niet-exclusieve en nietoverdraagbare licentie krijgt waarin onder meer gespecificeerd is welk gebruik is toegestaan. Er is dus geen sprake van overdracht van rechten. Dit is dus wezenlijk anders dan het pleidooi in 2.3.1. om te streven naar overdracht van de rechten van de 'makers' van TST-materialen aan de TST-centrale. Naast de rechten en plichten van de gebruiker en distributeur, bevat een licentieovereenkomst volgens nationale en internationale standaarden afspraken aangaande de verantwoordelijkheid voor de naleving van het contract, de duur, de verlenging, beëindiging, software, beveiliging, levering, vrijwaring, geschillen en ontbinding. In het algemeen worden verschillende licentieovereenkomsten gebruikt voor verschillende gebruikersgroepen, die de TST-materialen al dan niet commercieel willen gebruiken (zie ook 1.4., 2.3.1. en het model hieronder). Zo kan men aan onderzoeksinstellingen een niet-overdraagbare, niet-exclusieve licentie geven voor gebruik van de digitale data in de eigen onderzoeksgroep; een commerciële gebruiker kan een nietexclusieve licentie krijgen om het materiaal te gebruiken (en aan te passen) voor duidelijk afgesproken commerciële toepassingen, bijvoorbeeld om het materiaal te distribueren als deel van een eigen, nieuw product. De rechten en voorwaarden moeten duidelijk in de licentieovereenkomst worden beschreven. Voor de verschillende gebruiksrechten kunnen verschillende tarieven worden gehanteerd (vgl. Taalunie 1999). Er zijn juridisch drie scenario's van distributie denkbaar. Iedere rechthebbende op TSTmateriaal, of dit nu een persoon of instelling is, kan direct zaken doen met een gebruiker. Ook in deze gevallen is het verstandig de gebruiksvoorwaarden en rechten en verplichtingen van beide partijen vast te leggen in een contract. Zie voor de aard van de bepalingen die in zo'n contract moeten worden vastgelegd het model in 7.7.1. In het kader van deze Blauwdruk heeft echter een meer gecoördineerde en gestandaardiseerde aanpak de voorkeur. In 7.2.2. is bepleit de distributie uit te besteden aan
178
externe distributeurs als ELRA en LDC. Omdat het hier primair gaat om TST-materialen die buiten een permanente infrastructuur zijn ontwikkeld, kan de TST-centrale als leverancier optreden jegens de externe distributeur. Dit leidt voor de distributie tot de volgende aanpassing van het model in 2.3.1.
rechthebbende(n)
TST-centrale
Externe distributeur
gebruikers zonder winstoogmerk
gebruikers t.b.v. productontwikkeling, nog zonder winst
gebruikers t.b.v. productontwikkeling, met winst
Voorwaarde is dan, zoals gesteld in 2.3.1., dat de rechten op de materialen zo veel als juridisch mogelijk is, worden overgedragen aan de TST-centrale. Vervolgens sluit de TSTcentrale als leverancier een contract af met de externe distributeur. Deze werkt meestal met standaardcontracten tussen leverancier en distributeur enerzijds en tussen distributeur en diverse gebruikersgroepen anderzijds (zie voor de contracten van ELRA 7.7.2. – 7.7.4. en verder http://www.icp.inpg.fr./ELRA/legals.html). De TST-centrale moet ervoor zorgen dat alle contractueel vastgelegde afspraken tussen de rechthebbende(n) en de TST-centrale worden verwerkt in het standaardcontract tussen leverancier en externe distributeur, bijv. in de vorm wijzigingen en/of additionele bepalingen. Het is de verantwoordelijkheid van de distributeur die wijzigingen door te voeren in de gebruikerscontracten. Als derde scenario zou denkbaar zijn dat in bijzondere omstandigheden de TSTcentrale zelf als distributeur optreedt. Zo heeft het Instituut voor Nederlands Lexicologie in het leveringscontract met ELRA een bepaling bedongen dat levering van twee INL-producten aan niet-commerciële onderzoekers in Nederland en Vlaanderen door het instituut zelf gebeurt, dit om de prijs voor die gebruikersgroep zo laag mogelijk te houden. Gezien het grote aantal producten dat op termijn te verwachten is, kan de TST-centrale slechts incidenteel en
179
op kleine schaal zelf als distributeur optreden. In dit scenario kan ook het modelcontract in 7.7.1. als leidraad dienen. Speciale aandacht dient hier nog besteed te worden aan software. TST-software is net als TST-data auteursrechtelijk beschermd, maar het gebruik ervan hoeft minder vaak expliciet contractueel geregeld te worden. Voor het gebruik van zowel commerciële software als public domain freeware33 en shareware34 is een licentie nodig. Bepalingen in een (commerciële) licentie zijn onder andere dat de software uitsluitend voor eigen gebruik mag worden aangewend, dat geen kopieën gemaakt mogen worden etc.. Bij gebruik van deze software heeft de gebruiker geen invloed op de bepalingen in de licentie: de licentie moet worden geaccepteerd of de software mag niet worden gebruikt. Heel vaak is dit al in de installatieprocedure geregeld: niet accepteren van de licentie stopt de installatie van de software. Niet-commerciële software wordt echter ook beschikbaar gesteld onder de GNU General Public Licence (GPL). De software mag dan vrijelijk worden gedistribueerd en gebruikt, mits dat gebeurt met gebruikmaking van de GNU GPL. Meestal wordt dan ook de broncode beschikbaar gesteld. Eenieder mag de broncode dan aanpassen en in aangepaste vorm verspreiden, ook weer onder de voorwaarde dat de GNU GPL van toepassing is, het zogenaamde copyleft- principe. Dit is een verschil met software die als public domain beschikbaar is gesteld: er geldt dan geen copyright. De consequentie is dat eenieder de software kan omvormen tot een commercieel product waarop dan weer wel copyright rust. De tekst van de GNU GPL -licentie is beschikbaar op http://www.gnu.org/copyleft/gpl.txt. Meer informatie over GNU- licenties is te vinden op http://www.gnu.org/philosophy/licenselist.html Op distributie van software wordt voorts specifiek ingegaan op de site van softwareproducent Adobe. In een supplement op de eindgebruikersovereenkomst voor Acrobat Reader zien we een mooi voorbeeld van hoe commerciële leveranciers de distributie regelen. Zie http://www.adobe.nl/products/acrobat/acrrdistribute.html Zie voor een specifiek op het project Corpus Gesproken Nederlands gericht contract 2.10.3. 7.3.2
Financiële aspecten
In deze paragraaf beperken wij ons tot de directe personele en materiële kosten die gemoeid zijn met het distribueren van digitale bestanden en tot een doorberekening van de afschrijving van de benodigde apparatuur. Indirecte kosten voor wat betreft huisvesting en administratieve ondersteuning blijven buiten beschouwing. Als directe personele kosten kunnen worden aangemerkt: Administratiekosten: boekingskosten en registratiekosten Beheerskosten: analyse van de aard van de opdracht door data- en/of softwarebeheerder Uitvoeringskosten: selectie en voorbereiden van te distribueren materiaal eventuele ontwikkeling applicatiesoftware prepareren van het te distribueren materiaal Kosten voor het schrijven van een handleiding bij het gedistribueerde materiaal 33
Freeware is software waarvoor geen vergoeding verschuldigd is. Shareware is software die gedurende een beperkte tijd te gebruiken is. Voor langer gebruik dient een vergoeding betaald te worden.
34
180
Kosten voor kwaliteitscontrole en -bewaking Als directe materiële kosten kunnen worden aangemerkt: Kosten van productie fysieke informatiedrager cd-rom of diskette Kosten voor plaatsen van informatie en materieel op medium Internetkosten c.q. kosten telecommunicatienetwerk Informatiekosten bij raadpleging on-line* Vast percentage overhead op vaste kosten Juridische kosten Als indirecte kosten kunnen worden aangemerkt: Afschrijving gebruikte apparatuur en software Materiaalbeheer Beveiligingskosten Voor onvoorzien kan een opslag van 10% gehanteerd worden. *Onder informatiekosten verstaan wij die kosten die door een gebruiker betaald dienen te worden bij on-linegebruik van elektronische data. Die kosten kunnen gratis zijn, kunnen bestaan uit een bedrag per aangesloten tijdseenheid of een combinatie van kosten, zoals een jaarlijks abonnementsgeld, een bedrag per aangesloten tijdseenheid en een bedrag per gezochte en/of op het beeldscherm weergegeven informatie-eenheid. 7.4
Technische aspecten van distributie van TST-materiaal
Deze paragraaf gaat over de technische aspecten inzake de distributie van TST-materialen. Die aspecten vertonen veel relatie met de technische aspecten van aanlevering van dergelijke materialen. Dit geldt zowel voor wát gedistribueerd wordt als het medium waarlangs de distributie plaatsvindt. Het belangrijkste verschil is dat de 'ontvangende partij' in dit hoofdstuk de gebruiker is, terwijl die in hoofdstuk 2 de TST-centrale is. Zo ook is de 'leverancier' hier de distributeur en in hoofdstuk 2 de rechthebbende(n). In deze paragraaf wordt alleen een paar relevante verschillen besproken inzake distributie via Internet. Het overige loopt geheel parallel met 2.7. (met alle subparagrafen). Het hier en in 2.7. behandelde geldt zowel voor directe distributie als indirecte distributie via een externe distributeur. De meest bekende wijzen van distributie van TST-materialen via Internet zijn ftp, e-mail en Telnet. Voor technische bijzonderheden voor de distributie via ftp en e-mail verwijzen we naar 2.7.2. Aangezien distributie in het algemeen op incidentele basis plaatsvindt, zijn hier niet van toepassing de in 2.7.2. genoemde procedures met betrekking tot regelmatige aanlevering. Wanneer distributie de vorm aanneemt van on-line toegang tot data, dan zal dat of via een zgn. Telnet verbinding verlopen of via een website. Bij het on-line gebruik van spraakdata gaat het zeker niet om gebruikers die de data nodig hebben voor het trainen van een spraakherkenner, maar meer om incidentele luisteracties. Annotaties bij de spraakfiles zijn veel minder groot en kunnen op CDROM of via ftp etc. verspreid worden. Via Telnet logt de gebruiker in op de computer van de distributeur en kan dan gebruik maken van de in het contract genoemde TST-materialen als ware die materialen op zijn eigen
181
computerfaciliteiten aanwezig. De gebruiker moet beschikken over Telnet-software. Belangrijk hierbij zijn de door de software ondersteunde zgn. terminalemulaties. Deze bestaan vaak alleen uit de VT52 en VT100 standaard. Het kan echter nodig zijn dat een modernere versie gebruikt moet worden, bijv. VT200. De distributeur moet de gebruiker een IP-adres van de computer verstrekken en accountgegevens (in het algemeen een user ID en een password). Bij toegang via de website van de distributeur is het niet strikt noodzakelijk dat de gebruiker over een user ID en password beschikt (dit vloeit voort uit een verschil in technologie tussen Telnet en Web). Uit beveiligingsoverwegingen verdient het echter wel aanbeveling, en het is beslist noodzakelijk als het gaat om TST-materialen die auteursrechtelijk zijn beschermd. Afhankelijk van de manier waarop de distributeur de website heeft ingericht kunnen aanvullende eisen voor de webbrowser van de gebruiker van toepassing zijn om optimaal gebruik te kunnen maken van de contractueel overeengekomen faciliteiten. 7.5
Praktische aspecten van distributie
Bij het distribueren van data en software moet, naast aan de juridische en financiële zaken, ook aandacht worden besteed aan enkele praktische aspecten. Voor een deel zijn deze al in voorgaande hoofdstukken aan de orde geweest; in dat geval zal daarnaar verwezen worden. In de overige gevallen zal worden volstaan met een korte toelichting. Handleiding en documentatie. Hierbij kunnen de eisen van toepassing zijn zoals geformuleerd in par. 4.4.4. Een eis die de TST-centrale aan de leverancier van TST-materiaal moet stellen is dat het product voorzien wordt van een handleiding die aan die kwaliteitsnormen voldoet. Wel moet rekening worden gehouden met nieuwe doelgroepen die het TST-materiaal gaan gebruiken. Zo kan het nodig zijn een technisch georiënteerde handleiding te herschrijven. De TST-centrale kan die handleiding zelf herschrijven of dat uitbesteden (zie bijvoorbeeld TekstNet, http://www.tekstnet.nl/). De kosten hiervan worden gedragen door de TST-centrale als hiermee een algemeen TST-doel gediend is; in andere gevallen gebeurt dat op contractbasis met een daaraan verbonden prijs (zie hoofdstuk 8). De externe distributeur heeft hiermee niets van doen. Keuze van het platform. Dit is van belang wanneer software voor een ander platform geschikt moet worden gemaakt dan het platform waarop de software ontwikkeld is (zie verder par. 4.4.1.1.). Zo'n verzoek kan uitgaan van een gebruiker of van de externe distributeur. De TSTcentrale kan overwegen alleen software te accepteren die werkt op platforms die binnen de TST-wereld gebruikelijk zijn. Het geschikt maken voor andere platforms voor individuele gebruikers gebeurt op contractbasis met een daaraan verbonden prijs; wanneer een algemeen TST-doel gediend wordt zijn de kosten voor de TST-centrale (vgl. hoofdstuk 8). Dataformaten. Het kan gewenst zijn het formaat van TST-materiaal te wijzigen, ofwel op verzoek van een gebruiker of de distributeur, ofwel wanneer standaarden zich wijzigen. Zie verder par. 2.7. en 6.2.3. Wat betreft acceptatiebeleid door de TST-centrale en de kosten geldt het zojuist vermelde. Informatiedragers. Zie 2.7. Hiervoor geldt mutatis mutandis hetzelfde als voor dataformaten.
182
Installatieprocedure. Bij de distributie van willekeurig welke software, dus ook TST-software, verdient het aanbeveling te zorgen voor geautomatiseerde installatie- en deinstallatieprocedures. Voor software bestemd voor Microsoft Windows kan hierbij gebruik worden gemaakt van bijv. InstallShield (http://www.installshield.com). De TST-centrale zou wanneer mogelijk alleen software moeten accepteren die voorzien is van zo'n geautomatiseerde installatie- en de-installatieprocedure. Beveiligingsaspecten. Zie par. 5.5. In aanvulling op hetgeen in die paragraaf is besproken, is het raadzaam interne automatiseringsactiviteiten te scheiden van leverantie- en distributieactiviteiten, bijv. door gebruik van separate hardwaresystemen. Dit geldt zowel voor de TSTcentrale als voor de externe distributeur. Registratie van zoekvragen. Wanneer TST-dataverzamelingen on-line raadpleegbaar zijn, verdient het aanbeveling de zoekvragen te registreren. Dit is onder meer van belang voor de statistiek (hoeveel vragen, al dan niet verdeeld over categorieën) en voor controle op de naleving van de juridische aspecten. Voor zover bekend doet deze situatie zich tot op heden alleen voor op instituutsniveau en (nog) niet op het niveau van een TST-centrale of een externe distributeur. Uit oogpunt van mogelijke investeringen voor apparatuur en gebruikersondersteuning lijkt dit meer een taak van de TST-centrale. Financiële afhandeling. In deze tijd van e-commerce ligt het voor de hand de financiële afhandeling zoveel mogelijk automatisch te laten verlopen. Dit geldt voor de levering van fysieke producten en voor on-line raadpleegbaarstelling van TST-data. Zaken die hierbij moeten worden geregeld zijn o.m. de tariefeenheid (aantal vragen, aantal 'hits' etc.), tarief per eenheid, frequentie van facturering, betaalwijze (creditcard, incasso etc.), koppeling met financiële administratie, identificatieplicht van de gebruiker. 7.6
Conclusies en aanbevelingen voor beleidsorganisaties
De overheid speelt een beslissende rol in het aanbod van kennis en producten, voor zover die ontwikkeld worden in publiek gefinancierde instellingen. Zij moet er zorg voor dragen dat die kennis c.q. producten maximaal kunnen worden benut ten behoeve van de maatschappij als geheel. Die rol speelt zij in verdubbelde mate wanneer het de Nederlandse taalgemeenschap in Nederland en Vlaanderen betreft. Daarom ook heeft de overheid besloten om faciliterend te zijn bij het op peil houden van de infrastructuur van kennis over het Nederlands en bij het tot stand brengen van hoogwaardige kennisintensieve activiteiten en producten of tools die daarbij nodig zijn. De overheid biedt evenwel niet alleen kennis en producten aan, maar dient ook het aanbod van elektronische diensten te organiseren, te stimuleren en te innoveren. De distributie voor hergebruik van materialen voor taal- en spraaktechnologie (TSTmaterialen) die met overheidsgelden zowel binnen als buiten een permanente institutionele infrastructuur gemaakt zijn, verdient op de kortst mogelijke termijn strategisch geregeld te worden omdat het belang van de taalgemeenschap dat vraagt. De distributie van TSTmateriaal dat voor hergebruik kan worden ingezet, kan immers leiden tot vernieuwend onderzoek, maar ook tot hooggewaardeerde producten waaraan de taalgemeenschap als geheel behoefte heeft. Wetenschappers van een groot aantal onderzoeksgebieden willen data ontlenen aan vrij toegankelijke en door de geëigende programmatuur goed ontsloten exemplarische digitale bestanden. De overheid ziet er een strategisch middel in om de positie van het Nederlands in taal- en spraaktechnologie veilig te stellen en daardoor de positie van het Nederlands in de Europese Unie op sterkte te houden. Het bedrijfsleven kan op basis van
183
TST-basismaterialen een grote variëteit aan commercieel interessante toepassingen ontwikkelen. De vraag stelt zich in hoeverre publiek domein betekent dat de TST-materialen gratis ter beschikking moeten worden gesteld. Die materialen worden veelal gefinancierd met overheidsgeld waarbij commerciële exploitatie volgens marktconforme condities niet aan de orde is. Echter, ook aan distributie zijn kosten verbonden (vgl. de voorgaande hoofdstukken). Er valt voor te pleiten een deel van de daartoe benodigde financiering (deels) uit de exploitatiegelden te halen. Hierbij zouden dan verschillende tarieven moeten worden gehanteerd voor wetenschap en commerciële toepassingen. Het tarief voor de wetenschap zou zich in geval van cd-rom's tot kostprijs en administratiekosten en voor on-linegebruik tot een laag jaartarief (per instelling/onderzoeksgroep) of inlogtarief moeten beperken. Het aanrekenen van administratiekosten kan gemotiveerd worden met de noodzaak de gebruikers te registreren. Registratie is niet enkel nuttig omdat zo de gebruikersgroep in beeld wordt gebracht, maar is ook noodzakelijk wil men bepaalde afspraken over voorwaarden voor gebruik kunnen maken en controleren. Voor een optimale toegankelijkheid is het nodig dat er ook, indien gewenst, gebruikersondersteuning wordt gegeven (vgl. 7.5., 8). Ook daaraan zijn kosten verbonden die ook redelijkerwijs doorberekend kunnen worden aan de gebruikers. (Vgl. Bouma en Schuurman 1998: 7; Taalunie 1999). Het is van vitaal belang om bij de distributie van TST-materialen te voorkomen dat middelen ondoelmatig gebruikt worden. Daarom wordt met klem aanbevolen de distributie ervan te centraliseren. Aangezien grootschalige distributie niet tot de expertise behoort van de TSTinstellingen die de TST-centrale zouden vormen, bevelen wij aan de distributie uit te besteden aan een professionele externe distributeur (bijv. ELRA, LDC) en de TST-centrale als intermediair te laten fungeren tussen rechthebbenden en distributeur (zie 7.3.1.). Het fungeren als intermediaire TST-centrale brengt verplichtingen met zich mee die niet vallen binnen de reguliere taken van de afzonderlijke instellingen die de TST-centrale vormen. Vaak wordt door de gebruiker gevraagd het elektronische materiaal op een speciale manier aan te leveren en is het ontwikkelen van applicatiesoftware vereist. Soms ook wordt gevraagd het te distribueren materiaal op een specifieke manier te wijzigen (vgl. 7.5.). Daarvoor is extra mens- en denkkracht noodzakelijk en is er behoefte aan extra middelen. Voortschrijdend inzicht heeft ertoe geleid dat ten aanzien van de distributie van TSTmaterialen telkens vier vragen gesteld dienen te worden: (a) welke distributionele diensten moeten er precies worden verleend, (b) welk soort personeel moet daarvoor worden ingezet, (c) moet er extern ondersteuning worden gevraagd om de distributionele dienst uit te voeren en (d) welke financiële middelen zijn er beschikbaar? Het is gebleken dat een door de overheid te bekostigen basisvoorziening absoluut noodzakelijk is. Daarnaast is het niet meer dan billijk dat zowel de opdrachtgever als bepaalde gebruikers voor het leveren van een bepaald soort materiaal betaalt voor de dienstverlening door de TST-centrale. Of anders geformuleerd, dat distributie van bepaalde voorbewerkte informatie op basis van een contract geschiedt. Als kennis en elektronische dienstverlening inderdaad de motor vormen van de economie dan dient alles in het werk gesteld te worden om belemmeringen die die motor kunnen doen stokken weg te nemen. Belemmeringen voor een distributie van elektronisch materiaal zijn vaak van juridische aard. Maar niet alleen juridische zaken belemmeren een optimale distributie. Ook onvoldoende beveiliging van de datatransmissie speelt haar parten. Het wegnemen van deze belemmeringen is een zaak die de TST-centrale te boven gaat. Overheden dienen juridische
184
kaders aan te geven en wetten te slaan die garanderen dat hergebruik van digitale TSTmaterialen optimaal mogelijk is. Dit omvat ook meer algemene zaken als een identificatieplicht van de gebruiker bij transmissie van (financiële) gegevens (vgl. 7.5.).
185
7.7
Bijlagen bij hoofdstuk 7
Hieronder volgt een viertal voorbeelden van contracten die opgesteld zijn in het kader van distributie. Zie ook nog 2.10.3. 7.7.1
Overeenkomst tussen distributeur en gebruiker
Dit modelcontract voorziet alleen in niet-commercieel gebruik. Zie voor mogelijke invullingen van de 'distributeur' de verschillende distributiescenario's in 7.3.1. De uiteindelijke formulering van artikelen hangt af van de specifieke situatie. Gebruikersovereenkomst Tussen En Gebruiker: ………………………………….. Instelling: …………………………………… (1) en de in deze overeenkomst genoemde Gebruiker (verder "Gebruiker"), komen, na ontvangst en acceptatie door de distributeur van deze getekende overeenkomst, het volgende overeen. Levering/ toegankelijk/raadpleegbaar stellen (2) verleent, gratis of na ontvangst van betaling (van een vast te stellen abonnementsprijs) en deze door Gebruiker ondertekende overeenkomst, aan Gebruiker een niet-exclusief en niet-overdraagbaar gebruiksrecht op voor zolang als deze overeenkomst van kracht is. (3) levert in digitale vorm, met een digitaal exemplaar van de Gebruikersdocumentatie, tegen de dan geldende prijs. Voorafgaande aan de levering dient het te betalen bedrag te zijn overgemaakt op rekeningnummer ten name van , onder vermelding van . Gebruik (4) Gebruiker verklaart geen gebruik te zullen maken van voor andere doeleinden dan voor zijn eigen, niet-commerciële wetenschappelijk onderzoek. In geval van potentiële commerciële toepassingen resulterend uit onderzoek met , neemt Gebruiker contact op met de over de voorwaarden. In dat geval vervalt deze overeenkomst en wordt het genoemde gebruiksrecht beëindigd. (5) Indien er sprake is van gebruik van door een onderzoeksgroep, dan is het gebruik voorbehouden aan die leden van die onderzoeksgroep die door Gebruiker geautoriseerd zijn om met behulp van het sub 4 genoemde onderzoek
186
uit te voeren. In dat geval is Gebruiker leider van genoemde onderzoeksgroep en is Gebruiker er te allen tijde voor verantwoordelijk dat de leden van de onderzoeksgroep op de hoogte zijn van en zich houden aan de voorwaarden van deze overeenkomst. (6) geeft Gebruiker toestemming om te installeren op die computersystemen waarmee Gebruiker (of diens onderzoeksgroep) normaal gesproken het genoemde onderzoek uitvoert. Gebruiker heeft toestemming om voor dit doel tijdelijk of permanent te reproduceren dan wel aan te passen, indien dit noodzakelijk is om zoals overeengekomen gebruik te maken van . Verder is het Gebruiker uitsluitend toegestaan om voor zijn eigen archiefdoeleinden een kopie van te maken. Verantwoordelijkheid (7) geeft geen enkele garantie van welke aard dan ook, accepteert geen enkele verantwoordelijkheid voor welke beperkingen of fouten in de data of de documentatie dan ook, en accepteert geen enkele aansprakelijkheid voor schade, verlies, of ongerief dat zou kunnen voortkomen uit het gebruik van . (8) accepteert geen enkele verantwoordelijkheid voor en verplichting tot het leveren van software, het onderhouden van de data of de documentatie, het verzorgen van aanvullingen of verbeteringen, het geven van ondersteuning, of het verhelpen van eventuele fouten in de data of de documentatie. Restricties (9) Gebruiker erkent dat het materiaal onderworpen is aan restricties die door het auteursrecht en andere vormen van wettelijke bescherming, waaronder die van databanken, volgens Nederlands recht worden opgelegd, en dat schendingen van zulke restricties kunnen leiden tot wettelijke aansprakelijkheid. Gebruiker onthoudt zich van het schenden van de restricties. (10) Het is Gebruiker niet toegestaan om voor welke doeleinden dan ook, anders dan de sub 6 genoemde, te vermenigvuldigen. Ook is het Gebruiker niet toegestaan om , delen ervan, of ervan afgeleide producten of diensten gebaseerd op het gehele of substantiële delen ervan, aan derden uit te lenen of te distribueren (op commerciële basis of om niet) in welke vorm of op welke wijze dan ook. (11) blijft het exclusieve eigendom van <de distributeur>. Alle rechten op de data blijven bij . (12) Gebruiker verklaart op passende wijze te zullen vermelden in presentaties en publicaties over onderzoek waarbij gebruik is gemaakt van . Van publicaties wordt een kopie naar gezonden. Beëindiging (13) Deze overeenkomst wordt onmiddellijk beëindigd in geval Gebruiker (of diens onderzoeksgroep) één of meerdere voorwaarden van deze overeenkomst schendt. In geval van beëindiging van deze overeenkomst om welke reden dan ook, verliest Gebruiker zijn gebruiksrecht op en is Gebruiker verplicht zijn exemplaar van en eventuele kopieën ervan te vernietigen dan wel aan te
187
retourneren. Gebruiker zal de distributeur er terstond schriftelijk van op de hoogte stellen dat aan deze verplichting voldaan is. Geschillen (14) Indien een partij een geschil aanwezig acht, doet zij daarvan schriftelijk mededeling aan de wederpartij. Geschillen tussen partijen worden beslecht door drie, door partijen overeen te komen arbiters. 7.7.2
Contract tussen leverancier en ELDA
LANGUAGE RESOURCES DISTRIBUTION AGREEMENT BETWEEN "....................." and ELDA S.A. (European Language resources Distribution Agency) This agreement is made by and between: "...........................", (hereinafter called PROVIDER), having its principal place of business at: AND ELDA S.A., (hereinafter called DISTRIBUTOR), the distribution agency commissioned by ELRA, having its principal place of business at:55-57 rue Brillat Savarin - 75013 Paris, FRANCE registered at the Tribunal de commerce de Paris : RCS Paris B 402 781 876 (95b147 95) Terms and conditions 1. PROVIDER certifies that he is the rightful holder of the Languages Resources described in Exhibit A. 2. PROVIDER grants DISTRIBUTOR, who accepts, the non-exclusive right to distribute the Language Resources described in Exhibit A. "Distribution" shall mean that PROVIDER enables DISTRIBUTOR to market the Language Resources according to DISTRIBUTOR's marketing, distribution and commercialization policies. 3. PROVIDER authorizes DISTRIBUTOR to grant USER Licenses for the use of the Language Resources to any legal entity. DISTRIBUTOR shall impose the relevant obligations of this AGREEMENT on such entity. 4. The Language Resources may be duplicated by DISTRIBUTOR as indicated in Exhibit B. DISTRIBUTOR is also authorized to reproduce, in whole or in part, and to modify the Language Resources, as well as the accompanying DOCUMENTATION and MANUAL for the purposes of distribution. 5. DISTRIBUTOR agrees to pay PROVIDER a compensation. The mode of payment and schedule of payments are incorporated in Exhibit C.
188
6. DISTRIBUTOR shall give appropriate references to PROVIDER in scholarly literature when the Language Resources are mentioned. DISTRIBUTOR shall not use the name of provider in any publication in any manner that would imply an endorsement of DISTRIBUTOR or any product or service offered by DISTRIBUTOR. 7. PROVIDER gives no warranty for merchantability and/or fitness for a particular purpose of the Language Resources. 8. DISTRIBUTOR gives no warranty for the commercial success of its marketing efforts. 9. Both parties exclude all liability of whatsoever nature for direct, consequential or indirect loss or damage suffered by the other, in connection with the distribution of Language Resources. 10. Neither party shall be held responsible for any delay or failure in performance caused by " force majeure " or other causes beyond the parties' control and without the parties' fault or negligence. Should such event occur, all obligations in this Agreement should be sustained throughout the duration of the event. The entire Agreement is composed of the 10 articles herein together with Exhibits A, B, and C thereafter. In witness whereof, intending to be bound, the parties hereto have executed this AGREEMENT by their duly authorized officers: AUTHORIZED SIGNATURES : _______________________ On behalf of Name: Title: Date:
_______________________ On behalf of ELDA Name: Dr Khalid Choukri Title: Managing Director Date:
____________________________________________ EXHIBITS EXHIBIT A:Language resources description: EXHIBIT B: MEANS OF DATA DELIVERY: Means of delivery: EXHIBIT C : PAYMENT SCHEDULE: The revenues are shared on the following basis: ELRA= xx%, Provider= xx% The price per copy is: Commercial use: ELRA members: Others : Research use: ELRA members: Others : Sales are notified to Provider every semester (end of December and end of June) in writing. Payments, as defined below, shall be paid within thirty days after the receipt of invoices, by transfer of the sum concerned to the bank account number specified on respective invoices. The said amounts are exclusive of value-added tax.
189
7.7.3 Contract tussen eindgebruiker en ELDA
LANGUAGE RESOURCES END-USER AGREEMENT This agreement is made by and between: "................................", (hereinafter called END-USER), having its principal place of business at: AND ELDA S.A., (hereinafter called DISTRIBUTOR), the distribution agency commissioned by ELRA, having its principal place of business at: 55-57 rue Brillat Savarin - 75013 Paris, FRANCE registered at the Tribunal de commerce de Paris: RCS Paris B 402 781 876 (95b147 95) whereby it is agreed as follows: 1. Language Resources, object of this Agreement, for which DISTRIBUTOR obtained distribution rights from the rightful holder, are described in Exhibit A. 2. The site of use of the Language Resources is mentioned in Exhibit B. 3. Within this Agreement Distributor grants End-User, engaged in bona fide language engineering research, the non-exclusive right to use the Language Resources, exclusively for the purposes of their language engineering research activities. 4. End-User is not permitted to reproduce the Language Resources for commercial or distribution purposes and to commercialise (or distribute for free) in any form or by any means the Language Resources or any derivative product or services based on all or a substantial part of it. 5. Distributor grants End-User the right to reproduce the Language Resources temporarily or permanently, to translate, adapt, arrange and modify by any means the Language Resources, if one or all of these acts are necessary to access and make the agreed use of the contents of the Language Resources. End-User is permitted to make a copy of the Language Resources for purposes of archiving only. 6. Without prejudice to the other provisions, the rights referred to herein shall be non transferable to any other entity. The Language Resources shall not be transferred to or accessed from any other site. 7. End-User acquires no ownership, rights or title in all or any parts of the Language Resources. 8. Distributor and Owners accept no responsibility for the accuracy or completeness of the data or for the consequences of their use. DISTRIBUTOR and Owners give no warranty for merchantability and/or fitness for a particular purpose of the LRs. 9. End-User shall give appropriate references to Distributor in scholarly literature when the Language Resources are mentioned. 10. End-User shall not use the name of Distributor in any publication in any manner that would imply an endorsement of End-User or any product or service offered by End-User.
190
11. END-USER has no right or authority to incur, assume or create, in writing or otherwise, any warranty, liability or other obligation of any kind, express or implied, in the name of or on behalf of DISTRIBUTOR, it being intended that each party shall remain an independent contractor responsible for its own actions. 12. Neither party shall be responsible for damages caused by the other party's non-fulfillment of provisions of this AGREEMENT. 13. Both parties exclude all liability of whatsoever nature for direct, consequential or indirect loss or damage suffered by the other. 14. END-USER agrees to pay DISTRIBUTOR a compensation. The mode of payment and schedule of payments are incorporated in Exhibit C and form part of this AGREEMENT. 15. This Agreement is subject to, construed and interpreted in accordance with the Law of France. Should it not be possible to settle amicably differences of interpretation out of this Agreement, then the case shall be brought before the regular courts of law for a decision. The "Tribunal de commerce de Paris" shall be the only competent court. The entire Agreement is composed of the 15 articles herein together with Exhibits A, B, and C thereafter. In witness whereof, intending to be bound, the parties hereto have executed this AGREEMENT by their duly authorized officers. AUTHORISED SIGNATURES: _______________________ On behalf of Name: Title: Date:
_______________________ On behalf of ELDA Name: Dr Khalid Choukri Title: Managing Director Date: EXHIBITS Exhibit A
Language Resources refer to: Exhibit B SITE OF USE: EXHIBIT C Compensation:
191
7.7.4 Contract tussen een 'value-added reseller'35 en Elda
LANGUAGE RESOURCES VAR* AGREEMENT This agreement is made by and between: "............................. ", (hereinafter called VAR), having its principal place of business at: AND ELDA S.A., (hereinafter called DISTRIBUTOR), the distribution agency commissioned by ELRA, having its principal place of business at: 55-57 rue Brillat Savarin - 75013 Paris, FRANCE registered at the Tribunal de commerce de Paris: RCS Paris B 402 781 876 (95b147 95) - both referred to as "the parties" Within this AGREEMENT, DISTRIBUTOR grants VAR: 1. The non-exclusive right to use the Language Resources (LRs), described in Exhibit A, for which DISTRIBUTOR obtained distribution rights from the rightful holder, for the VAR's own internal applications (such as internal research and development activities). 2. The non-exclusive right to create derivative products or services from the LRs for internal research purposes and/or internal technology development. 3. The non-exclusive right to distribute and market, according to VAR's commercialization policies, any derivative product or service from the LRs by VAR. 4. Without prejudice to the other provisions, the rights referred to herein shall be non transferable to any other entity. 5. Distributor grants VAR the right to reproduce the Language Resources temporarily or permanently, to translate, adapt, arrange and modify by any means the Language Resources if one or all of these acts, which normally require an authorization from the LRs owner, are necessary to access and make the agreed use of the contents of the LRs. 6. Distributor grants VAR the right to rework and build upon the Language Resources, or any component thereof, as necessary or desirable for research or technology development activity at VAR's site (defined in Exhibit B), and create derivative products or services for the VAR's own internal research and development. 7. VAR shall not, without the authorization of DISTRIBUTOR, make available to the public all or a substantial part of the contents of the Language Resources, evaluated quantitatively and/or qualitatively, by the distribution of copies, by renting, leasing or any other form of distribution. 35
Een rechtspersoon die met een reeds bestaand product een nieuw product ontwikkelt.
192
8. VAR and DISTRIBUTOR are independent contractors. Nothing contained in this AGREEMENT shall be construed as creating an employer-employee relationship, a partnership or a Joint Venture between VAR and DISTRIBUTOR. 9. VAR has no right or authority to incur, assume or create, in writing or otherwise, any warranty, liability or other obligation of any kind, express or implied, in the name of or on behalf of DISTRIBUTOR, it being intended that each party shall remain an independent contractor responsible for its own actions. 10. VAR shall give appropriate references to LRs in scholarly literature when the Language Resources are mentioned. VAR shall not use the name of DISTRIBUTOR in any publication in any manner that would imply an endorsement of VAR or any product or service offered by VAR. 11. DISTRIBUTOR gives no warranty for merchantability and/or fitness for a particular purpose of the LRs. 12. Neither party shall be responsible for damages caused by the other party's non-fulfillment of provisions of this AGREEMENT. 13. Both parties exclude all liability of whatsoever nature for direct, consequential or indirect loss or damage suffered by the other. 14. VAR agrees to pay DISTRIBUTOR a compensation. The mode of payment and schedule of payments are incorporated in Exhibit C and form part of this AGREEMENT. 15. This Agreement is subject to, construed and interpreted in accordance with the Law of France. Should it not be possible to settle amicably differences of interpretation out of this Agreement, then the case shall be brought before the regular courts of law for a decision. The "Tribunal de commerce de Paris" shall be the only competent court. The entire Agreement is composed of the 15 articles herein together with Exhibits A, B, and C thereafter. In witness whereof, intending to be bound, the parties hereto have executed this AGREEMENT by their duly authorized officers. AUTHORIZED SIGNATURES: _______________________ On behalf of Name: Title: Date:
_______________________ On behalf of ELDA Name: Dr Khalid Choukri Title: Managing Director Date:
_________________________________________________ EXHIBITS Exhibit A: Description of LR Exhibit B: Site of use Exhibit C: Compensation _______________________________ * Value-Added Reseller
193
8 8.1
Gebruikersondersteuning Inleiding
Ook gebruikersondersteuning is een taak van de TST-centrale als bedoeld in 2.2.3.: gebruikers moeten terecht kunnen met vragen en verzoeken. De ondersteuning betreft een website met on-line helpinformatie (8.2.), een helpdesk (8.3.), een mailinglijst (8.4.), de levering van software en data 'op maat' (8.5.), softwareservices (8.6.) en advisering (8.7.). Paragraaf 8.8. gaat in op het kostenaspect en 8.9. geeft enige aanbevelingen voor beleid. 8.2
Website
Uit overwegingen van efficiëntie moet het aantal individuele vragen aan de helpdesk (8.3.) zoveel mogelijk worden beperkt. De website moet in ruime mate informatie verschaffen over de TST-materialen die door de TST-centrale worden beheerd. Die informatie omvat de uitvoerige documentatie van alle TST-materialen, de juridische en financiële voorwaarden van gebruik, licenties voor verschillende gebruikersgroepen, procedures voor het verwerven van die materialen en voor het indienen van verzoeken en het stellen van vragen etc. Tevens is het aan te bevelen frequent gestelde vragen (FAQ: Frequently Asked Questions) met de antwoorden op de website te zetten. Indien de TST-centrale ook als kenniscentrum zou willen fungeren, dan kan de website ook meer algemene informatie gerelateerd aan de TSTmaterialen bevatten, bijv. over standaarden, verwijzingen naar expertisecentra voor specifieke soorten van verrijking, andere organisaties met TST-materialen, relevante (inter)nationale projecten etc. Indien de TST-centrale nog niet over een website beschikt, zal deze eerst moeten worden opgezet (of worden uitbesteed, zie hierna). Zonder op alle technische details in te gaan moet hiervoor het volgende worden geregeld. Daarbij wordt ervanuit gegaan dat de TST-centrale is aangesloten op internet. Ten eerste moet een zgn. internetdomeinnaam worden gekozen en moet deze worden geregistreerd. Registratie houdt onder meer in dat wordt nagegaan of de naam reeds als domein in gebruik is. Verder wordt de naam aangemeld bij instanties die een Domain Name Service verzorgen; de naam is daarmee voor het internet herkenbaar. Indien de TST-centrale deel uitmaakt van een koepelorganisatie kan de registratie via de koepel plaatsvinden. Anders zijn er verschillende bedrijven en/of organisaties die de registratie kunnen verzorgen. Zie bijv. de Stichting Internet Domeinregistratie Nederland, http://www.nic.nl. Vervolgens moet op een bij de TST-centrale aanwezige computer een http server worden geïnstalleerd. Dit is software die ervoor zorgt dat de informatie (in de vorm van documenten, afbeeldingen etc.) die de TST-centrale voor gebruikersondersteuning ter beschikking stelt, naar een webbrowser wordt verstuurd. Het meest bekend is Apache (http://www.apache.org/), gratis te downloaden voor diverse platformen. Belangrijk aandachtspunt hierbij is de beveiliging, zeker als op de computer nog andere data en software zijn opgeslagen dan alleen die voor de website (zie ook 5.5.1.1. en 5.5.2.1.). Tenslotte moet de informatie geschikt worden gemaakt voor beschikbaarstelling via het web. Dit betreft bijv. conversie naar formaten die op het web gebruikelijk zijn zoals HTML of pdf (Portable Document Format). Verder betreft dit het aanbrengen van zgn. hyperlinks zodat bezoekers van de website makkelijker hun weg kunnen vinden in de aangeboden informatie.
194
De werklast voor het opzetten en inrichten van een website wordt voor een belangrijk deel bepaald door installatie van de http server software en het geschikt maken van documenten voor het web. Http server software kan in betrekkelijk korte tijd worden geïnstalleerd. Indien strenge eisen aan de beveiliging worden gesteld, kunnen enkele dagen of meer nodig zijn om aan die eisen te voldoen zeker als additionele (beveiligings)software moet worden geïnstalleerd en geconfigureerd. Dit zijn werkzaamheden voor een ervaren systeembeheerder. De werklast om documenten voor het web geschikt te maken hangt onder meer af van het aantal documenten, afbeeldingen etc. dat op de website moet worden geplaatst, of conversie met bestaande software kan geschieden (zo kan Microsoft Word bijv. documenten naar het HTML formaat converteren) en het aantal aan te brengen hyperlinks. De website vraagt onderhoud, technisch en inhoudelijk. Inhoudelijk onderhoud betreft het actueel houden van de inhoud, d.w.z. niet alleen het plaatsen van nieuwe informatie op de website, maar ook – en dat wordt nogal eens vergeten – het verwijderen van verouderde informatie. Er moet iemand, vaak een leidinggevende, verantwoordelijk zijn voor de informatie op de website. Die persoon moet erop alert zijn dat de informatie wordt bijgehouden; de informatie zelf kan van binnen en buiten de TST-centrale komen. Het wijzigen van de informatie op de website is in het algemeen werk voor een secretaresse. Dit is echter niet het geval indien voor de website een grote mate van interactiviteit gewenst is, bijv. als men het gedrag van een userinterface wil simuleren (als onderdeel van de on-line handleiding bijv.) Het onderhoud van interactieve componenten vergt in het algemeen additionele programmering in de vorm van bijv. JavaScript of Java applets; werk voor een automatiseringsdeskundige dus. Deze vorm van onderhoud kan arbeidsintensief zijn. Indien de TST-centrale dit niet tot de kerntaken rekent of niet over de juiste kennis beschikt, kan uitbesteding een alternatief zijn. Het technisch onderhoud betreft (a) de computer waarop de website is geïnstalleerd en (b) de zgn. http server software. Voor (a) wordt verwezen naar 5.4.1.; (b) behoort tot de categorie commerciële - of open source applicatiesoftware, zie hiervoor 6.4.1. Het inhoudelijk onderhoud kan niet worden uitbesteed; het technisch onderhoud wel (zie ook 5.2.). Dit gebeurt in de vorm van webhosting. Hierbij neemt een commercieel bedrijf alle (technische) zaken van de website over van de TST-centrale. Een goede afweging van kosten en baten is hier op zijn plaats. Het onderhoud van hardware en http server software vergt nauwelijks inspanning van de TST-centrale, daarvoor zijn de betrokken componenten te stabiel en te betrouwbaar. Controle en zonodig bijstelling van de beveiligingsmaatregelen zoals besproken in 5.5.3. vergt enkele uren per week. 8.3
Mailinglijst
Een mailinglijst is een lijst met emailadressen van mensen die zich hebben geabonneerd op een via e-mail verlopende discussie over een bepaald onderwerp (bijv. een tagger of een corpus). Een bericht verstuurd aan de mailinglijst wordt automatisch gedistribueerd naar de abonnees. De TST-centrale kan overwegen mailinglijsten op te zetten zodra bepaalde data of software een zeker aantal keren is gedistribueerd. Via een mailinglijst kunnen gebruikers van die data en software ervaringen uitwisselen of problemen oplossen. In die zin vormt het tot op zekere hoogte een vervanging van de helpdesk.
195
Mailinglijsten zijn er in twee soorten: gemodereerd en ongemodereerd. Ongemodereerd houdt in dat elk bericht zonder verdere controle op de inhoud naar de abonnees wordt verstuurd; de TST-centrale heeft hier het minste werk aan. Een gemodereerde mailinglist brengt veel meer werk met zich mee: van elk bericht dat naar de lijst wordt gestuurd, wordt nagegaan of het inhoudelijk tot het domein van de mailinglijst behoort alvorens het wordt doorgestuurd naar de abonnees. Het is een effectieve methode om bijv. spam (ongewenste mail) tegen te gaan. Als met de software waarmee mailinglijsten worden beheerd spamfilters kunnen worden gemaakt kan de lijst in principe ongemodereerd zijn. Inhoudelijk kunnen de berichten dan echter niet beoordeeld worden. Software voor het opzetten en beheren van mailinglijsten is zowel commercieel beschikbaar als in open source vorm. Zie voor de eerste bijv. Rockliffe (http://www.rockliffe.com/), voor de tweede bijv. Mailman (http://www.list.org/). De software voorziet in faciliteiten als abonneren en opzeggen via het web; de TST-centrale heeft hier vrijwel geen werk aan. 8.4
Helpdesk
Een helpdesk is een voorziening waar gebruikers hun vragen kwijt kunnen zonder te hoeven weten welke medewerker van de TST-centrale ze daarvoor moeten benaderen. De TSTcentrale moet de helpdesk inrichten met middelen waarmee zij haar taak efficiënt kan vervullen en zorgen voor een personele organisatie waardoor vragen door de juiste persoon beantwoord worden. Een website geheel gewijd aan het inrichten van een helpdesk is te vinden op http://www.philverghis.com/helpdesk.html. Uit overwegingen van efficiëntie moet het aantal individuele vragen aan de helpdesk zoveel mogelijk worden beperkt. In de voorgaande paragrafen zijn daartoe de website en mailinglijsten besproken. Verder kan de efficiency worden bevorderd door gebruik te maken van helpdesksoftware. 8.4.1
Helpdesksoftware
Een van de middelen waarmee de helpdesk kan worden uitgerust is helpdesksoftware: een set van gereedschappen waarmee de helpdesktaken worden ondersteund. Op de ITIL tooling page (http://www.tools2manage-it.nl) is een groot aanbod te vinden van diverse soorten helpdesksoftware. Belangrijk aspect daarbij is hergebruik van kennis door (in de meest eenvoudige software) vastlegging van het probleem en de oplossing. De meer geavanceerde software kan daarnaast bijv. de termijn van afhandeling bewaken, automatisch een voortgangsrapportage versturen of een overzicht met frequently asked questions genereren. Om menselijke tussenkomst verder te minimaliseren biedt veel software de mogelijkheid tot webgebaseerde toegang tot de database ('knowledge base') waarin de problemen en oplossingen worden vastgelegd. Een dergelijke centrale registratie heeft het voordeel dat, naarmate het systeem zich vult met vragen en antwoorden, de materiedeskundigen minder snel ingeschakeld hoeven te worden. De vragen kunnen of (semi)automatisch worden beantwoord of door de persoon die de helpdesk bemant (zie hierna). De verdere technische inrichting kan bestaan uit voorzieningen waarmee de vragen kunnen worden aangemeld bij de helpdesk: via de website, per e-mail, per fax of per telefoon. De eerste twee bieden de meeste mogelijkheden tot automatische behandeling van de vraag. Door bijv. de vraag te laten voorzien van een categorie (te kiezen uit een eindige lijst) kan software de vraag doorsturen naar de juiste persoon of op basis van woorden in de vraag zelf mogelijke
196
antwoorden selecteren. Wanneer van helpdesksoftware gebruik wordt gemaakt is een aandachtspunt dat de vraag ook in dat systeem wordt vastgelegd. 8.4.2
Personele organisatie
Wat betreft de personele organisatie werkt het goed als alle vragen die niet via de eerder genoemde methoden afgehandeld zijn, automatisch worden doorgestuurd naar het emailadres van een persoon die weet wat er in de TST-centrale omgaat. Die neemt de vraag zonodig op in het registratiesysteem en stuurt vervolgens elke vraag door aan degene die de vraag adequaat kan beantwoorden. Zo'n centrale persoon heeft het voordeel boven meerdere personen dat duidelijk is wie ervoor zorgt dat de vraag beantwoord wordt. Verder kan hij de afhandeling bewaken; daarvoor moet dan onder meer worden afgesproken dat hij kopiehouder is van het antwoord. Natuurlijk moet wel vervanging geregeld worden bij afwezigheid. De helpdesk kan georganiseerd zijn als onderdeel van de taak van een functionaris, als separaat onderdeel van een afdeling of als een zelfstandige afdeling. In die laatste hoedanigheid wordt ook wel gesproken van een call-centre. Welke vorm het meest geschikt is voor de TST-centrale zal in de praktijk moeten blijken. 8.5
Levering van software en data 'op maat'
Het kan voorkomen dat de bij de TST-centrale onder beheer zijnde TST-materialen niet voldoen voor een bepaalde applicatie. De TST-centrale kan benaderd worden om voor data of software 'op maat' te zorgen en kan zo'n verzoek al dan niet honoreren. Als voorbeelden zijn te noemen het uitbreiden van een corpus met specifieke data (6.2.1.), het doorvoeren van standaarden in data van anderen (6.2.2.), het leveren van woordenlijsten met frequentiegegevens, het leveren van data met een specifieke verrijking, conversiesoftware voor een standaard dataformaat naar een niet-standaard dataformaat (vgl. 7.5.). Als het om omvangrijke werkzaamheden gaat die niet door de TST-centrale uitgevoerd kunnen worden naast de reguliere werkzaamheden, moet gekwalificeerd personeel worden aangetrokken. Een veel voorkomende belemmering om een verzoek te honoreren zijn juridische restricties (bijv. copyright). Andere redenen zijn bijvoorbeeld andere prioriteitsstelling, gebrek aan uitvoerders, het ontbreken van de vereiste specialistische kennis. Aangezien het om individuele verzoeken gaat, worden dergelijke werkzaamheden verricht op contractbasis en zijn de kosten voor rekening van de opdrachtgever. Bij honorering van een verzoek worden eerst een offerte en een contract opgesteld. De offerte is gebaseerd op de kosten die met de levering gepaard gaan. Dit betreft onder meer: personeelskosten (datapreparatie, softwareontwikkeling), licentiekosten (voor in het kader van de opdracht aan te schaffen software), kosten juridisch advies, materiaalverbruik (bijv. cdrom's), vast percentage opslag voor overhead (computerkosten, internetkosten). Zie ook hoofdstuk 7. Wat het contract betreft, is het efficiënt te werken met standaardcontractbepalingen en die steeds aan te passen aan de specifieke levering. Die contractbepalingen kunnen worden gebaseerd op de distributiecontracten (vgl. hoofdstuk 7). Controle op de naleving van het contract is in de praktijk overigens lastig. Pas als overeenstemming bereikt is over het contract en de kosten, kan begonnen worden met de preparatie van de data of software. Als geen overeenstemming bereikt wordt, is overigens al veel werk gedaan. Niet ongebruikelijk is om in de offerte een clausule op te nemen dat indien geen contractuele overeenstemming bereikt
197
wordt, de kosten voor het uitbrengen van de offerte voor rekening van de opdrachtgever zijn. Dat betekent impliciet dat de uitgebrachte offerte voor akkoord getekend dient te worden. Voor de diverse (technische) aspecten die bij de levering zelf een rol spelen wordt verwezen naar hoofdstuk 7. 8.6
Softwareservices
Software services is een vorm van dienstverlening door de TST-centrale aan die gebruikers die bijv. niet over de vereiste computerfaciliteiten beschikken om bepaalde onderzoekstaken uit te voeren. Een dergelijke situatie doet zich bijv. voor wanneer de hoeveelheid data waarop onderzoek verricht moet worden te groot is om door de computer van de gebruiker efficiënt verwerkt te worden. Een ander voorbeeld is dat software waarover de gebruiker beschikt alleen werkt op een platform waarover hij niet de beschikking heeft maar de TST-centrale wel. Net als bij de levering van software of data 'op maat' (8.5.), worden vooraf een offerte en een contract opgesteld. Het contract bevat onder meer clausules over de duur van de service, over juridische aandachtspunten zoals aansprakelijkheid (bijv. als fouten in aangeleverde software tot grote problemen leiden bij de TST-centrale), vernietiging van data en kopieën daarvan enz. Voor het gebruik van softwareservices moeten data en/of software worden overgebracht naar de computers van de TST-centrale. Voor de technische aspecten die hierbij een rol spelen wordt verwezen naar de hoofdstukken 2 en 7. Vooraf moeten afspraken worden gemaakt over de manier waarop de software services worden uitgevoerd nadat de data en/of software zijn aangeleverd: door de TST-centrale of door de gebruiker. In het eerste geval zal de TST-centrale de service (bijv. het runnen van software) uitvoeren op daarvoor afgesproken tijden of op verzoek van de gebruiker. Het resultaat van de service wordt op de daarvoor afgesproken manier bij de gebruiker afgeleverd. Voor de technische aspecten die hierbij een rol spelen wordt verwezen naar de hoofdstukken 2 en 7. In het tweede geval zal de gebruiker toegang krijgen tot het computersysteem van de TST-centrale en zelf de service uitvoeren. Aandachtspunt hierbij is beveiliging: de gebruiker mag uitsluitend zijn eigen data en/of software gebruiken (zie verder 5.5.). De gebruiker staan faciliteiten ter beschikking waarmee hij het resultaat eventueel kan overzetten naar zijn eigen computerfaciliteiten. 8.7
Advisering
Het spreekt vanzelf dat wetenschapsorganisaties een beroep zullen doen op de expertise binnen de TST-centrale bij de beoordeling van projectaanvragen; het is niet gebruikelijk hiervoor een tarief in rekening te brengen. Ook incidentele, niet-omvangrijke adviezen aan wetenschappelijke instellingen zouden tot de standaard gebruikersondersteuning moeten behoren, waarvoor hoogstens een kostendekkend bedrag gevraagd zou kunnen worden. De TST-centrale kan haar ervaring en kennis wel te gelde maken tegen een commercieel tarief als het gaat om omvangrijke adviseringsopdrachten door wetenschappelijke instellingen, de overheid of het bedrijfsleven. Ook hier geldt weer dat de opdracht gebeurt op basis van een offerte en een contract (vgl. 8.5., 8.6.).
198
8.8
Kosten
De kosten voor gebruikersondersteuning zullen voornamelijk bestaan uit personeelskosten. Geheel afhankelijk van de wijze waarop men de gebruikersondersteuning verder wil inrichten zijn bijkomende kosten onder meer: apparatuurkosten, helpdesksoftware, software voor opzetten en beheren mailinglijsten, kosten voor http server software en kosten voor webhosting. Andere kosten dienen te worden doorberekend naar de gebruiker. 8.9
Beleidsaanbevelingen
Gebruikersondersteuning moet minimaal bestaan uit een website en een helpdesk; daarvoor dient financiering te zijn. In hoeverre de overige vormen van service tot de kernactiviteiten van de TST-centrale zouden moeten behoren, moet blijken uit de behoefte eraan. Dit laat onverlet dat de vormen van service genoemd in 8.5. – 8.7. (minimaal) kostendekkend behoren te zijn.
199
9 9.1
Beleidsaanbevelingen Inleiding
Het rapport De positie van het Nederlands in Taal- en Spraaktechnologie (Bouma en Schuurman 1998) houdt een hartstochtelijk pleidooi voor de versterking van het TSTonderzoek van het Nederlands, en dat zowel op het niveau van de immateriële als de materiële infrastructuur. Wat het eerste niveau betreft, is in de tussentijd al een overlegorgaan op het vlak van het beleid ingesteld, m.n. het TST-platform, dat tot in 2004 een bepaald takenpakket heeft uit te voeren. De materiële infrastructuur zal worden versterkt door het stimuleren van de ontwikkeling van allerlei hulpmiddelen en door het verbeteren van de beschikbaarheid van TST-materialen van het Nederlands. Welke basismaterialen bovenaan de prioriteitenlijst staan van zowel ontwikkelaars als gebruikers, blijkt uit het rapport van de actielijnen B en C van het TST-actieplan (Daelemans en Strik 2002). Onder TST-materialen verstaan wij corpora van geschreven en gesproken taal en spraakcorpora, software en trainingsmateriaal voor de diverse soorten verrijking van Nederlands taalmateriaal, alsmede elektronische woordenboeken en computationele lexica (zie 1.2.). Verwerving, onderhoud, beheer en voorwaarden en wijze van beschikbaarstelling van die materialen zijn even belangrijk. Alle hulpmiddelen die kunnen worden ingezet bij de ontwikkeling van TST-producten en bij wetenschappelijk onderzoek moeten beschikbaar zijn en moeten permanent worden onderhouden. Daarom pleiten we er hier voor dat de locatie van de acties die nodig zijn voor het verwerven, onderhouden en distribueren van de materiële infrastructuur wordt gecentraliseerd in de vorm van een consortium van gespecialiseerde instellingen, een TSTcentrale met andere woorden. Tegen deze achtergrond is in deze Blauwdruk beschreven welke verschillende aspecten van verwerving, bewerking, administratie, verrijking, beheer, onderhoud en distributie van TST-materialen van vitaal belang zijn om tot een solide basis te komen waarop productontwikkeling en onderzoek kunnen plaatsvinden. Die beschrijving voert ons tevens tot de volgende aanbevelingen. 9.2
Aanbevelingen
Aanbeveling 1. Een TST-centrale is noodzaak Om te voorkomen dat basis-TST-materialen die met overheidsgelden buiten een permanente infrastructuur gemaakt zijn, niet voor hergebruik geschikt blijken of niet voortdurend worden onderhouden, is een rechtspersoon (TST-centrale) noodzakelijk. Daarbij kan gedacht worden aan instellingen die reeds gespecialiseerd zijn in TST-materialen en waarvan het onderzoeksprogramma in belangrijke mate gesubsidieerd wordt met overheidsgelden. Aanbeveling 2. Betreft vorm van de TST-centrale en de rol NTU De permanente infrastructuur kan de vorm aannemen van een binationaal consortium van instellingen met een statutaire opdracht. De centrale die wij aanbevelen dient niet lokaal, dat wil zeggen gebonden aan een universiteit of hogeschool, te zijn, maar landelijk of internationaal. Dat laatste vanwege de Nederlands-Vlaamse belangen op het gebied van de Nederlandse taal. Het gaat bij sommige TST-materialen bovendien om sterk specialistische bestanden zodat zowel bij de selectie en de verwerving als bij bewerking, verrijking, onderhoud en beheer vakspecialisten nodig zijn, die lang niet altijd in één land beschikbaar zijn.
200
De coördinatie tussen de leden van dat consortium dient optimaal gewaarborgd te zijn. Daartoe zou een coördinator kunnen worden aangesteld die in dienst is van de Nederlandse Taalunie. Waarom de Nederlandse Taalunie? De Nederlandse Taalunie zal onder meer als drijvende motor achter het TST-platform, vaak de financiering en vooral de beschikbaarstelling van TST-materialen aan alle belanghebbenden of belangstellenden stimuleren. Zij zorgt dat de belangen en wensen van het TST-veld als geheel behartigd worden; zij zorgt voor de toepassing van algemeen aanvaarde standaards en voor sluitende juridische voorzieningen, maar zij bepleit ook de productie van hulpmiddelen bij financierende instanties. Zij fungeert als een soort makelaar. Ook dient de Nederlandse Taalunie te bevorderen dat onderzoeksfinanciers als universiteiten en de nationale en internationale onderzoekskoepels als subsidievoorwaarden stellen dat TST-materialen die met hun middelen tot stand gebracht zijn, voor onderhoud en beheer beschikbaar gesteld dienen te worden aan de TST-centrale. Concreet betekent dit dat bij projectaanvragen standaard middelen gereserveerd dienen te worden voor onderhoud en beheer. Aanbeveling 3. Betreft taken van de TST-centrale met prioritering Een specificatie van de hoofd- en neventaken van de TST-centrale is gebaseerd op de volgende uitgangspunten: (a) TST-data en TST-software voortkomend uit tijdelijke, door de overheid gesubsidieerde projecten waarvoor geen permanente infrastructuur beschikbaar is, gaan per definitie naar de TST-centrale onder de beperking van aanbeveling 6 en (b) de distributie van TST-materialen dient te geschieden door daarin gespecialiseerde instanties als ELRA en LDC. Hoofdtaken Taak 1. Beheer Onder beheer wordt verstaan het nemen van die maatregelen die bewerkstelligen dat data en software niet verloren gaan respectievelijk onbruikbaar worden. Onder beheer verstaan wij technisch beheer van TST-data, TST-software, systeemsoftware en apparatuur, inclusief documentatie. Voor uitgebreide informatie zie men hoofdstuk 5. Taak 2. Toegankelijkheid van de data en software Onder toegankelijk maken en houden verstaan wij het hergebruik van TST-materialen mogelijk maken. Daartoe behoort de technische, juridische, administratieve afhandeling van het traject dat loopt van ontwikkelaar, via TST-centrale naar distribuerende instantie of gebruiker (bij on-line toegang). Relevante hoofdstukken ter zake zijn hoofdstuk 7 en 2. Taak 3. Onderhoud Onder onderhoud verstaan we het nemen van die maatregelen die ervoor zorgen dat hergebruik van data en software op langere termijn mogelijk blijft. Hieronder vallen: (1) Het technisch onderhoud van: formaten van TST-data, TST-software, systeem- en applicatiesoftware, apparatuur en media. Men leze hiervoor hoofdstuk 6. (2) Juridisch onderhoud van alle contracten. Zie de hoofdstukken 6 en 2. (3) Inhoudelijk onderhoud van: de TST-data inclusief annotaties, TST-software. Zie de hoofdstukken 6 en 4. Taak 4. Gebruikersondersteuning Onder gebruikersondersteuning verstaan wij de dienstverlening aan de gebruikers van de TST-data en TST-software die onder de verantwoordelijkheid vallen van de TST-centrale. Tot
201
genoemde ondersteuning behoren het onderhouden van de website, de mailinglijst en helpdesk; het leveren van TST-data en TST-software op maat, softwareservice en advisering. Zie voorts hoofdstuk 8. Neventaak Taak 5. Verwerving Onder verwerving wordt verstaan het actief verwerven of accepteren van TST-data en TSTsoftware ontwikkeld door bedrijfsleven of door gevestigde onderzoeksinstituten. Onder verwerving valt de acquisitie van TST-data en TST-software waaraan een brede behoefte binnen het TST-veld is. Relevant in dit verband is hoofdstuk 2. Technische aspecten met betrekking tot verwerking en bewerking van verworven data worden besproken in hoofdstuk 3. TST-materialen die geschikt zijn voor hergebruik zijn lang niet altijd met overheidsgelden ontwikkeld. Ondernemingen in Nederland en Vlaanderen hebben vaak al vele jaren geïnvesteerd in de ontwikkeling en productie van software en datasets. Het is nauwelijks denkbaar dat genoemde ondernemingen hun producten vrij beschikbaar zullen stellen. Dat immers confligeert met het begrip 'commerciële exploitatie'. Toch dient vermeden te worden dat ten gevolge daarvan met overheidsgelden software en/of datasets die reeds in het bedrijfsleven bestaan, opnieuw ontwikkeld worden. Ook bij gesprekken en overleg hierover zou de Nederlandse Taalunie het voortouw dienen te nemen. Zo kunnen bijvoorbeeld bepaalde betaalde opdrachten aan bedrijven worden uitbesteed voor de ontwikkeling van nieuwe producten gebaseerd op de bestaande software en datasets. Die nieuwe producten kunnen dan gezamenlijk door het bedrijf en de TST-centrale worden geëxploiteerd. Tevens kan de Taalunie bedrijven stimuleren en uitdagen om aan te geven wanneer het voor hen aantrekkelijk is bij te dragen aan de ontwikkeling van TST-materialen en aan de ontwikkeling van een TST-infrastructuur. Aanbeveling 4. Kosten te dragen door overheid Het takenpakket van de TST-centrale is te omvangrijk om als neventaak uitgevoerd te worden naast het onderzoeksprogramma van de leden van het consortium. Extra mankracht is daartoe nodig. Daarnaast is het redelijk te veronderstellen dat de verzameling TST-data en TSTsoftware dermate groot is of groot wordt dat de materiële infrastructuur van de leden van het consortium niet toereikend is. Dat betekent dat er ook extra apparatuur nodig is. De kosten van extra personeel en apparatuur kunnen niet volledig worden gedekt door de gebruikers van de TST-centrale (vergelijk aanbeveling 5). Dit kan uitsluitend tot de conclusie leiden dat extra overheidsinvesteringen nodig zijn. Aanbeveling 5. Kosten te dragen door gebruikers van de TST-centrale Afhankelijk van het type gebruik en gebruiker dienen er algemene voorzieningen getroffen te worden om tot verschillende billijke tarieven te komen. Men kan daar uitvoerig over lezen in hoofdstuk 2. Indien er sprake is van bijzondere voorzieningen, d.w.z. van het op maat maken van TST-materialen, dan dient daarvoor een bedrag gefactureerd te worden dat minstens kostendekkend moet zijn. Zie hoofdstuk 8.
202
Aanbeveling 6. Acceptatie van TST-data en TST-software door de TST-centrale De TST-centrale kan TST-data en TST-software weigeren voor beheer indien ze niet aan bepaalde kwaliteitseisen (ook met betrekking tot documentatie) voldoen of indien ze niet essentieel zijn voor een ruim scala van toepassingen. Dit geldt ongeacht of die TST-data en TST-software ontwikkeld zijn door bedrijfsleven, gevestigde onderzoeksinstellingen of op projectbasis buiten een permanente infrastructuur. De TST-centrale draagt zorg voor de opstelling van de acceptatie-eisen. Aanbeveling 7. Internationale participatie Om de positie van het Nederlands veilig te stellen in meertalig TST-onderzoek en productontwikkeling dient de TST-centrale met steun van de beleidsmakers in staat gesteld te worden te participeren in Europese en/of mondiale projecten die gerelateerd zijn aan haar taken. Zowel op internationaal als op nationaal niveau dient de TST-centrale op basis van zijn praktijkervaring bij te dragen aan de vorming van standaarden en aan methoden voor het evalueren en valideren van TST-taalmaterialen. Aanbeveling 8. Ontwikkeling en behoud TST-expertise Gezien de schaarste aan spraak- en taaltechnologen dient de overheid zorg te dragen voor een beleid waarin TST-expertise ontwikkeld wordt en behouden blijft.
203
Bibliografie Abney, S. 'Partial parsing via finite-state cascades.' In: Workshop on Robust Parsing, 8th European Summer School in Logic, Language and Information. Prague (1996) : 8-15. Abney, S., R.E. Schapire en Y. Singer. 'Boosting applied to tagging and PP attachment.' In: Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (1999) : 38-45. Anderson, J.A. An Introduction to Neural Networks. MIT Press, Cambridge, MA (1995). Atkins, S., J.H. Clear en N. Ostler. 'Corpus Design Criteria.' In: Literary and Linguistic Computing 7(1) (1992) : 1-16. Basili, R., A. Moschitti, en M.T. Pazienza, 'Language-sensitive text classification.' In: Proceedings of RIAO '2000 (2000) : 331-343. Bautz, J. 'Beveiligen van internet.' In: Informatie, jaargang 42, januari/februari (2000) : 4-5. Berger, A., S. Della Pietra en V. Della Pietra, 'A Maximum Entropy Approach to Natural Language Processing.' In: Computational Linguistics 22(1) (1996) : 39-72. Biber, D. Dimensions of register variations: A cross-linguistic comparison. Cambridge, MA (1995). Biber, D., S. Conrad en R. Reppen. Corpus Linguistics, Investigating Language Structure and Use. Cambridge, MA (1998). Bikel, D. M., S. Miller, R. Schwartz en R.Weischedel. 'Nymble: a high-performance learning name-finder.' In: Proceedings of the Fifth Conference on Applied Natural Language Processing. Association for Computational Linguistics (1997) : 194-201. Bishop, C.M. Neural Networks for Pattern Recognition. Oxford University Press (1995). Black, A. et al. 'A Procedure for Quantitavely Comparing the Syntactic Coverage of English Grammars.' In: Proceedings of the February 1991 DARPA Speech and Natural Language Workshop (1991) : 306-311. Black, E., R. Garside en G. Leech. Statistically-driven Computer Grammars of English: The IBM/Lancaster Approach. Rodopi, Amsterdam/Atlanta (1993). Bod, R. Beyond Grammar: An Experience-Based Theory of Language. CSLI Publications, Cambridge University Press (1998). Boguraev, B. en T. Briscoe, eds. Computational lexicography for natural language processing. Longman, Londen / New York (1989). Boguraev, B. en J. Pustejovsky, eds. Corpus processing for lexical acquisition. MIT Press, Cambridge, MA (1996).
204
Bosch, A. van den en W. Daelemans. 'Memory-based morphological analysis'. In: Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics. Maryland (1999) : 285-292. Bosch, A. van den, W. Daelemans en T. Weijters. 'Morphological Analysis as Classification: an Inductive-Learning Approach.' In: Proceedings of NEMLAP. Ankara (1996) : 79-89. Bouma, G. en I. Schuurman. De positie van het Nederlands in Taal- en Spraaktechnologie. www.taalunie.org/_/publicaties/rapporten/01/webrapport/ (1998). Brants, T. The NeGra Export Format. CLAUS Report #98. Saarland University, Computational Linguistics, Saarbrücken (1997). http://www.coli.unisb.de/~thorsten/publications/Brants-CLAUS98.pdf Bremer, M. The User Manual Manual : How to Research, Write, Test, Edit & Produce a Software. UnTechnical Press, Concord (1999). Brill, E. 'Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging.' In: Computational Linguistics 21(4) (1995) : 543-565. Brill, E. en J. Wu. 'Classifier Combination for Improved Lexical Disambiguation'. In: Proceedings of COLING-ACL '98. Montreal (1998) : 191-195. Buchholz, S. en A. van den Bosch. 'Integrating seed names and n-grams for a named entity list and classifier.' In: Gavrilidou et al. (2000) : 1215-1221. Budin, G. Accessibility of Multilingual Terminological Resources - Current Problems and Prospects for the Future. In: Gavrilidou et al. (2000) : 837-844. Burges, C.J.C. 'A tutorial on support vector machines for pattern recognition.' In: Data mining and knowledge discovery 2(2) (1998) : 121-167. Calzolari, N. 'Standards for Linguistic Resources in Europe: the LE-EAGLES project.' In: Revue francaise de linguistique appliquée IV (1999): 57-64. Calzolari, N., M. Baker, en T. Kruyt, eds. Towards a Network of European Reference Corpora. Report of the NERC Consortium Feasibility Study, coordinated by Antonio Zampolli. Linguistica Computazionale, Vol.XI-XII. Giardini, Pisa (1995) : XI-XII. Cardie, C., S. Mardis en D. Pierce. 'Combining error-driven pruning and classification for partial parsing.' In: Proceedings of the 16th International Conference on Machine Learning. (1999) : 87-96. Carroll, G. en M. Rooth. 'Valence Induction with a HeadLexicalized PCFG.' In: Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing (EMNLP 3). Granada (1998). Carroll, J., E. Briscoe en A. Sanfilippo. 'Parser evaluation: a survey and a new proposal.' In: Rubio et al. (1998) : 447-454.
205
Carroll, J., G. Minnen en T. Briscoe. 'Corpus annotation for parser evaluation.' In: EACL '99 Workshop on Linguistically Interpreted Corpora (LINC-99). Bergen (1999) : 35-41. Charniak, E. Statistical Language Learning. MIT Press, Cambridge, MA (1993). Charniak, E. 'Statistical parsing with a context-free grammar and word statistics.' In: Proceedings of the Fourteenth National Conference on Artificial Intelligence. AAAI Press/MIT Press, Menlo Park (1997) : 598-603. Chelba, C. Exploiting Syntactic Structure for Natural Language Modeling. Ph.D.Thesis, Johns Hopkins University, Baltimore (2000). Choukri, K., A. Mance en V. Mapelli. 'Recent Developments within the European Language Resources Association (ELRA).' In: Gavrilidou et al. (2000) : 69. Church, K.W. 'A stochastic parts program and noun phrase parser for unrestricted text.' In: Proceedings of the ACL Conference on Applied Natural Language Processing (1988) : 136143. Church, K.W. en P. Hanks. 'Word association norms, mutual information and lexicography.' In: Computational Linguistics 16(1) (1990) : 22-29. Collins, M. Head-Driven Statistical Models for Natural Language Parsing. Ph.D. Dissertation, University of Pennsylvania (1999). Collins, M. en Y. Singer. 'Unsupervised models for named entity classification.' In: Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora (1999) 100-110. Corpus gesproken Nederlands. Project in het kader van de Vlaams-Nederlandse samenwerking. Meerjarenbegroting. NWO e.a. 2000. Cucerzan, S. en D. Yarowsky. 'Language independent named entity recognition combining morphological and contextual evidence.' In: Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very Large Corpora (1999) : 90-99. Daelemans, W., S. Buchholz en J. Veenstra. 'Memory-based shallow parsing.' In: Proceedings of CoNLL-99. Bergen (1999) : 53-60. Daelemans, W. en H. Strik. Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen. Rapport beschikbaar bij de Nederlandse Taalunie (2002). Domingos, P. en M. Pazzani,. 'On the optimality of the simple Bayesian classifier under zeroone loss.' In: Machine Learning 29 (1997) : 103-130. Duda, R.O en P.E. Hart. Pattern classification and science analysis. Wiley (1973). Dumais, S. en H. Chen. 'Hierarchical Classification of Web Content.' In: Proceedings of SIGIR-00, 23rd ACM International Conference on Research and Development in Information Retrieval (2000) : 256-263.
206
Dunlop, D. 'Practical considerations in the use of TEI headers in large corpora.' In: Ide en Véronis (1995) : 85-98. Dunning, T. 'Accurate Methods for the Statistics of Surprise and Coincidence.' In: Computational Linguistics 19 (1993) : 61-74. Escudero, G., L. Màrquez en G. Rigau. 'A Comparison between Supervised Learning Algorithms for Word Sense Disambiguation.' To appear in: Proceedings of the Fourth Computational Natural Language Learning Workshop (CoNLL-2000). Lissabon (2000). Eynde, F. van. Part of Speech Tagging en Lemmatisering. Interne publicatie CGN-project; tweede release van het Corpus gesproken Nederlands (2000). (http://www.elis.rug.ac.be/cgn/doc/prot_pos_tagging_mei2000.pdf.) Eynde, F. van, J. Zavrel en W. Daelemans. 'Lemmatisation and Morphosyntactic Annotation for the Spoken Dutch Corpus.' In: Proceedings of the tenth CLIN Meeting (1999) : 53-62. Eynde, F. van, J. Zavrel en W. Daelemans. 'Part of Speech Tagging and Lemmatisation for the Spoken Dutch Corpus'. In: Gavrilidou et al. (2000) : 1427-1434. Fausset, L. Fundamentals of neural networks. Prentice-Hall (1994). Fellbaum, C. (ed.). Wordnet. An electronic lexical database. MIT Press, Cambridge, MA (1998). Fellbaum, C. Review of Wilks et al. (1996). In: International Journal of Lexicography 11 (1998) : 238-242. Gambäck, B. en F. Olsson. 'Experiences of Language Engineering Algorithm Reuse.' In: Gavrilidou et al. (2000) : 155-160. Gavrilidou, M., G. Carayannias, S. Markantonatou, S. Piperidis en G. Stainhaouer, eds. Proceedings of the Second International Conference on Language Resources and Evaluation (LREC). ELRA-European Language Resources Association, Paris (2000). Grefenstette, G. 'Light Parsing as Finite-State Filtering.' In: Proceedings of the ECAI 96 Workshop Extended Finite State Models of Language (1996). (http://citeseer.nj.nec.com/grefenstette96light.html) Grefenstette, G. 'Tokenization.' In: Hans van Halteren ed., Syntactic Wordclass Tagging. Kluwer, Dordrecht/Boston/London (1999) : 117-133. Grefenstette, G. en P. Tapanainen. 'What is a word, What is a Sentence? Problems of Tokenization.' In: Complex '94. Budapest (1994) : 79-87. Haeseryn, W., G. Geerts, K. Romijn, J. de Rooij en M.C. van den Toorn. Algemene Nederlandse Spraakkunst. Martinus Nijhoff, Groningen (1997).
207
Hajic, J. 'Morphological Tagging: Data vs. Dictionaries.' In: Proceedings of ANLP-NAACL Conference. Seattle (2000) : 94-101. Hajičová, E. et al. Coreference in Annotating a Large Corpus. In: Gavrilidou et al. (2000) : 497-500. Halteren, H. van. 'Renovating a wordclass tagset: from WOTAN to WOTAN 2.' Poster presented at: ACH-ALLC '99. University of Virginia, Charlottesville (1999). Halteren, H. van, J. Zavrel en W. Daelemans. 'Improving accuracy in NLP through combination of machine learning systems.' In: Computational linguistics 27(2) (2001) : 199230 Hawkins, P. en D. J. Nettleton. 'Large scale WSD using learning applied to SENSEVAL.' In: Computers and the Humanities 34(1/2) (2000) : 135-140. Heemskerk, J.S.M. en V.J. van Heuven. 'MORPA, a morpheme lexicon-based morphological parser.' In: V.J. van Heuven en L.C.W. Pols, eds., Analysis and synthesis of speech; strategic research towards highquality text-to-speech generation. Berlin, Mouton de Gruyter (1993) : 67-85. Heid, U., S. Evert, V. Docherty, Worsch, en W. Wermke. 'Computational tools for semiautomatic corpus-based updating of dictionaries.' In: Heid, U. et al., eds., Proceedings of the 9th EURALEX International Congress. Stuttgart (2000) : 183-196. Heuvel, H. van den. 'SLR validation: evalutation of the speechdat approach.' In: Proceedings LREC 2000 Satellite workshop XLDB - Very large Telephone Speech Databases, 29 May 2000. Athens, Greece (2000a) : 40-45. Heuvel, H. van den, L. Boves en E. Sanders. Validation of Content and Quality of Existing SLR: Overview and Methodology, ELRA/9901/VAL-1 Deliverable 1.1 (2000b). Heuvel, H. van den. 'The Art of Validation.' In: ELRA Newsletter, vol. 5(4) (2000c). Heuvel, H. van den, L. Boves, A. Moreno, M. Omologo, G. Richard en E. Sanders. 'Annotation in the SpeechDat Projects.' In: International Journal of Speech Technology 4 (2001) : 127-143. Heuvel, H. van den, Khalid Choukri en Harald Höge. 'Give me a bug: a framework for a bug report service.' In: M. G. Rodríguez & C. Paz Suarez Araujo, eds., Proceedings of the third International Conference on Language Resources and Evaluation (LREC 2002), Vol II. ELRA, Paris (2002) : 569-572 Ide, N en Veronis, J., eds. Text Encoding Initiative: Background and Context. Kluwer, Dordecht (1995). Ide, N., P. Bonhomme en L. Romary. 'XCES: An XML-based encoding standard for linguistic corpora.' In: Gavrilidou et al. (2000) : 825-830.
208
Joachims, T. 'Text categorization with Support Vector Machines: Learning with many relevant features.' In: Machine Learning: ECML-98, Tenth European Conference on Machine Learning (1998) : 137-142. Karlgren, J. Stylistic Experiments for Information Retrieval. Ph.D. Dissertation at the department of linguistics, Stockholm University (2000). Kazman, R.. Structuring the text of the Oxford English Dictionary through nite state transduction. Technical report CS-86-20, University of Waterloo, Computer Science Department (1986). Kernigan, B. en R. Pike. The Practice of Programming. Addison Wesley Publishing (1999). Kibble, R. en K. van Deemter. 'Coreference Annotation: Whither?' In: Gavrilidou et al. (2000) : 1281-1286. Kilgarriff, A. 'I don't believe in word senses.' In: Computers and the Humanities 31 (1997) : 91-113. Kilgarriff, A. 'SENSEVAL: An Exercise in Evaluating Word Sense Disambiguation Programs.' In: Rubio et al. (1998) : 581—588. Kilgarriff, A. en J. Rosenzweig. 'English SENSEVAL: Report and Results?' In: Gavrilidou et al. (2000) : 1239-1243. Krenn, B. 'The Usual Suspects: Data-Oriented Models for Identification and Representation of Lexical Collocations.' In: Computational Linguistics and Language Technology, Vol. 7. German Research Center for Artificial Intelligence and Saarland University Dissertations, Saarbrücken (2000). (http://www.dfki.de/lt/diss/diss_en.htm) Kruyt, J.G. 'Dutch written language resources, their users and uses.' In: Rubio et al. (1998) : 959-963. Kruyt, J.G. en E. Putter. Corpus design criteria. NERC Working Paper WP6-129. Unpublished report, Instituut voor Nederlandse Lexicologie, Leiden (1992). Kruyt, J.G. en P.G.J. van Sterkenburg. 'A new Dutch Spelling Guide.' In: H. Rettig, ed. (1995) : 133-141. Lawrence, G.W., W.R. Kehoe, O.Y. Rieger, et al. Risk management of digital information: a file format investigation. Council on Library and Information Resources, Washington, D.C. (2000). http://www.clir.org/pubs/abstract/pub93abst.html Littlestone, N. 'Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm.' In: Machine Learning 2 (1988) : 285-318. Littlestone, N. 'Comparing several linear-threshold learning algorithms on tasks involving superfluous attributes.' In: Proceedings of the 12th International Machine Learning Conference, Morgan Kaufmann, San Francisco (1995) : 353-361.
209
Manning, C. en H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA (1999) : hoofdstuk 5. Martin, W., F. Platteau en R. Heymans. Naar een corpus voor een woordenboek hedendaags Nederlands. Mogelijkheden en beperkingen van het gebruik van corpora in lexicografisch onderzoek. Unpublished paper, Universitaire Instelling Antwerpen (1985). Mikheev, A. 'Document centered approach to text normalization.' In: Research and Development in Information Retrieval. (2000) : 136-143. Mikheev, A., M. Moens en C. Grover. 'Named Entity recognition without gazetteers.' In: EACL '99. Association for Computational Linguistics, Bergen (1999) : 1-8. Monachini, M. en N. Calzolari. 'Standardization in the Lexicon.' In: H. van Halteren, ed., Text, speech and Language technology 9. Kluwer, Dordrecht (1995) : hoofdstuk 11. Moortgat, M. en R. Moot 'Export Formats for the CGN Annotation'. In: Proceedings of the eleventh CLIN Meeting (2000). Zie Overview of presentations – 2000 : 00.16 op: http://lands.let.kun.nl/cgn/epres_00.htm Nederhof, M.J., G. Bouma, R. Koeling en G.J.M. van Noord. 'Grammatical analysis in the OVIS spoken-dialogue system'. In: Hirschberg, J., C. Kamm en M. Walker, eds., Interactive Spoken Dialog Systems: Bringing Speek and NLP together in Real Applications. Association for Computational Linguistics, Somerset (1997) : 66-73. Nederlandse Taalunie (red.). De Taalunie in 2000 en 2001: een tussenbalans. www.taalunie.org/download/pdf/tussenbalans_2000-2001.pdf Oakes, M.P. Statistics for Corpus Linguistics. Edinburgh University Press (1998). Oflazer, K. 'Morphological analysis.' In: H. van Halteren ed., Syntactic Wordclass Tagging. Kluwer, Dordrecht/Boston/London (1999) : 175-205. Oppentocht, L. Lexical Semantic Classification of Dutch verbs. Towards constructing NLP and human-friendly definitions. Proefschrift, Rijksuniversiteit Leiden (1999). Palmer, D.D. en M.A. Hearst. 'Adaptive sentence boundary disambiguation'. In: Technical Report UCB/CSD 94/797. University of California, Berkeley (1994). Price, J. en H. Korman. How to Communicate Technical Information: A Handbook of Software and Hardware Documentation. Addison Wesley Longman, Inc. (1993). Punyakanok, V. en D. Roth. 'Shallow Parsing by Inferencing with Classifiers.' In: Proceedings of CoNLL-2000 and LLL-2000. Lisbon (2000) : 107-110. Quinlan, J. R. 'Induction of decision trees.' In: Machine Learning 1 (1986) : 81-106. Ragas, H. en C.H.A. Koster. 'Four classification algorithms compared on a Dutch corpus.' In: Proceedings SIGIR 98 (1998) : 369-370.
210
Ratnaparkhi, A. 'A Maximum Entropy Part-Of-Speech Tagger.' In: Proceedings of the Empirical Methods in Natural Language Processing Conference. University of Pennsylvania (1996) : 133-142. Ratnaparkhi, A. Maximum Entropy Models for Natural Language Ambiguity Resolution. Ph.D. Dissertation, University of Pennsylvania (1998). Resnik, P., M. Broman Olsen en M. Diab. Creating a Parallel Corpus from the Book of 2000 Tongues. Text Encoding Initiative 10th Anniversary User Conference (TEI-10). Providence (1997). http://citeseer.nj.nec.com/10830.html Rettig, H., ed. Language Resources for Language Technology. Proceedings of the First European TELRI Seminar. Institut für Deutsche Sprache, Mannheim (1995). Reynar, J.C. en A. Ratnaparkhi. 'A Maximum Entropy Approach to Identifying Sentenc Boundaries.' In: Proceedings of the Fifth Conference on Applied Natural Language Processing. Washington, D.C. (1997). Riley, M.D. 'Some applications of tree-based modelling to speech and language indexing.' In: Proceedings of the DARPA Speech and Natural Language Workshop. Morgan Kaufman (1989) : 339-352 Ripley, B.D. Pattern Recognition and Neural Networks. Cambridge University Press (1996). Roth, D. en D. Zelenko. 'Part of speech tagging using a network of linear separators.' In: COLING-ACL 98, The 17th International Conference on Computational Linguistics (1998) : 1136-1142. Rothenberg, J. 'Avoiding Technological Quicksand: finding a viable technical foundation for digital preservation. Report to the Council on Library and Information Resources. Washington D.C., January (1999). Rubio, A., N. Gallardo, R. Castro en A. Tejada, eds. Proceedings of the First International Conference on Language Resources and Evaluation, Granada (2 volumes). ELRA-European Language Resources Association, Paris (1998). Sanders, E. en H. van den Heuvel. 'Speaker recruitment for speech databases.' In: L. Botha, ed., Proceedings PRASA 2001, 29-30 November 2001. Franschoek, South Africa (2001) : 109-114. Schapire, R.E. en Y. Singer. 'Improved Boosting Algorithms Using Confidence-rated Predictions.' In: Machine Learning 27(3) (1999) : 297-336. Schmid, H. 'Part-of-Speech Tagging with Neural Networks.' In: Proceedings of COLING-94, Kyoto (1994) : 172-176. Sinclair, J., O. Mason, J. Ball en G. Barnbrook. 'Language Independent Statistical Software for Corpus Exploration'. In: Computers and the Humanities 31(3) (1998) : 229-255.
211
Sinclair, J. 'Corpora for Lexicography'. In: P.G.J. van Sterkenburg, Guidelines to Lexicography. John Benjamins. Amsterdam (ter perse). Smadja, F. 'Retrieving collocations from text: Xtract.' In: Computational Linguistics 19 (1993) : 143-177. Smies, H. 'Firewalls geen instantoplossing.' In: Informatie, jaargang 40, juli/aug. (1998) : 1823. Summers, D. 'Longman/Lancaster Corpus - criteria and design.' In: International Journal of Lexicography 6(3) (1993) : 81-208. Tas, P., en S. Luitjens. Overheidsinformatisering: het taaie ongerief. Het Expertise Centrum, Den Haag (1999). Teubert, W. 'Language Resources: The Foundations of a Pan-European Information Society.' In: H. Rettig, ed. (1995) : 105-128. The Elra Newsletters 2000 en 2001 The First Stone. Subsidy Application by the Stichting Digitale Bibliotheek voor de Nederlandse Letteren. Leiden 1999. Thiadens, T. en H. Spanjersberg. Beheerst beheren – beheer van ICT voorzieningen uit managementoptiek. Het Expertise Centrum, Den Haag (2000). Tjalsma, H. 'Emulatie: de oplossing voor het digitale bewaarprobleem?' In: Informatie Professional 2001 [5] 1 (2001) : 36-37 Tucker, B., R.D. Cupper, W.J. Bradley, R.G. Epstein en C.F. Kelemen. Fundamentals of computing II; Abstraction, Data Structures, and Large Software Systems. McGraw Hill, New York (1995). Veenstra, J., A. van den Bosch, S. Buchholz, W. Daelemans en J. Zavrel. 'Memory-based Word Sense Disambiguation.' In: A. Kilgarriff en M. Palmer, eds., Computers and the Humanities, special issue on Senseval, Word Sense Disambiguations 34(1/2) (2000) : 171177. Veldhuijzen van Zanten, G., G. Bouma, K. Sima'an, G. van Noord en R. Bonnema. 'Evaluation of the NLP Components of the OVIS2 Spoken Dialogue System.' In: Van Eynde, Schuurman en Schelkens, eds., Computational Linguistics in the Netherlands 1998. Rodopi, Amsterdam (1999) : 213-229. Viskil, E. Een digitale bibliotheek voor de geesteswetenschappen. Aanzet tot een programma voor investering in een landelijke kennisinfrastructuur voor geesteswetenschappen en cultuur. NWO, Den Haag (1999). Vosse, T.G. The Word Connection: Grammar-based Spelling Error Correction in Dutch. Proefschrift, Rijksuniversiteit Leiden. Neslia Paniculata, Enschede (1994).
212
Voutilainen, A. 'Hand-crafted rules.' In: Hans van Halteren ed., Syntactic Wordclass Tagging. Kluwer, Dordrecht/Boston/London (1999) : 217-246. Welstead, S.T. Neural Network and fuzzy logic applications in C++. Wiley (1994). Wilks, Y.A., B.M. Slator en L.M. Guthrie. Electric words. Dictionaries, computers, and meanings. MIT Press, Cambridge, MA (1996). Yang, Y. 'Expert network: effective and efficient learning from human decisions in text categorisation and retrieval.' In: Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval. Dublin, IE (1994) : 1322. Yang, Y. 'An evaluation of statistical approaches to text categorization.' Information Retrieval 1(1-2) (1999) : 69-90. Yang, Y. en X. Liu. 'A re-examination of text categorization methods.' In: 22nd Annual International SIGIR. Berkeley (1999) : 42-49. Yarowsky, D. 'Hierarchical Decision Lists for Word Sense Disambiguation.' In: Computers and the Humanities 34(2) (2000) : 179-186. Ypma, M.S. De aansprakelijkheid voor gebrekkige software, het verschil in aansprakelijkheid voor gebrekkige software als produkt of als dienst met het oog op het milleniumprobleem. Doctoraalscriptie, augustus 1998, Rijksuniversiteit Groningen (1998). (http://rugarchief.ub.rug.nl/2001/disk2/www.rint.rechten.rug.nl/publicaties/msypma.htm) Zamir, O. en O. Etzioni. 'Web document clustering: A feasibility demonstration.' In: Proc. ACM SIGIR '98 (1998) : 46-54. Zampolli, A. 'Introduction.' In: Calzolari et al. (1995) : XI-XXXIX. Zampolli, A. 'Introduction to the conference.' In: Gavrilidou et al. (2000) : xv-xxi. Zavrel. J. Annotator-overeenstemming bij het manuele taggingexperiment. Technical Report CGN-Corpusannotatie. Working Paper (1999). Zavrel, J. en W. Daelemans. 'Bootstrapping a Tagged Corpus through Combination of Existing Heterogeneous Taggers'. In: Gavrilidou et al. (2000) : 17-20. Zhang, T. Large Margin Winnow Methods for Text Categorization (1998). http://citeseer.nj.nec.com/326507.html http://www.cs.cmu.edu/~dunja/KDDpapers/Zhang_TM_IR.ps
213