Nederlandse Gesproken Corpora: een Inventarisatie

Nederlandse Gesproken Corpora: een Inventarisatie Drs. R.J. Piepenbrock CELEX - Centrum voor Lexicale Informatie Max Planck Instituut voor Psycholingu¨ıstiek Postbus 310 6500 AH Nijmegen Telefoon: +31-(0)24-3615797 Fax: +31-(0)24-3521213 E-mail: [email protected] Homepage: http://www.kun.nl/celex/ 7 juni 1999 Versie 1.5

1

Inhoudsopgave 1 Inleiding

3

2 Het Historische Perspectief 2.1 Corpora van de Eerste Generatie (-1980) . . . . . . . . 2.1.1 Corpus De Vriendt-De Man . . . . . . . . . . . 2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) 2.1.3 Corpus De Jong . . . . . . . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

4 4 4 6 7

3 De Eerste Elektronische Gesproken Corpora 3.1 Corpora van de Tweede Generatie (1980-1990) 3.1.1 De CHILDES kindertaal-databank . . . 3.1.2 De ESF migrantentaal-databank . . . . 3.1.3 Nederlandse dialoogcorpora . . . . . . . 3.2 Andere Gesproken Datacollecties . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

9 9 9 15 18 23

4 Recente Ontwikkelingen: Gesproken Corpora en Standaardisatie 4.1 Corpora van de Derde Generatie (1990-) . . . . . . . . . . . . . . . . 4.2 De Opkomst van Internationale Standaards . . . . . . . . . . . . . . 4.2.1 SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 EAGLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Het Ontstaan van Internationale Datacollecties . . . . . . . . . . . . 4.3.1 De EUROM1 databank . . . . . . . . . . . . . . . . . . . . . 4.3.2 Het European Corpus Initiative (ECI) . . . . . . . . . . . . . 4.3.3 Het Multilingual Parallel Corpus (MLCC) . . . . . . . . . . . 4.3.4 Het International Corpus of English . . . . . . . . . . . . . . 4.3.5 Het British National Corpus . . . . . . . . . . . . . . . . . . 4.3.6 Het POLYPHONE Corpus . . . . . . . . . . . . . . . . . . . 4.3.7 Het Oxford Text Archive . . . . . . . . . . . . . . . . . . . . 4.3.8 Het Project Gutenberg . . . . . . . . . . . . . . . . . . . . . . 4.4 Moderne Nederlandstalige Gesproken Corpora . . . . . . . . . . . . . 4.4.1 Het ANNO Corpus . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Het COGEN Corpus . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Het PBS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.4 Het Groningen Corpus . . . . . . . . . . . . . . . . . . . . . . 4.4.5 Het Speech Styles Corpus . . . . . . . . . . . . . . . . . . . . 4.4.6 Het OVIS Corpus . . . . . . . . . . . . . . . . . . . . . . . . 4.4.7 Corpora van het Meertensinstituut . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

23 23 24 24 25 28 34 40 40 41 42 42 44 48 50 50 50 50 52 53 54 55 57 58

. . . . .

. . . . .

. . . . .

. . . . .

5 Evaluatie

59

6 Gidsprojecten voor de Toekomst 6.1 Het GATE Project . . . . . . . . . . . . . . . . . . . . . . 6.2 Het EUDICO Project . . . . . . . . . . . . . . . . . . . . 6.3 De Edinburgh Language Technology Group . . . . . . . . 6.4 Het Paper A Formal Framework for Linguistic Annotation 6.5 Het Zweedse Gesproken Corpus Project . . . . . . . . . . 6.6 Het Hyperlex Project . . . . . . . . . . . . . . . . . . . . . 7 Referenties

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

61 61 61 62 62 63 63 63

2

1

Inleiding

Wanneer we met elkaar door middel van taal communiceren, dan is spraak het primaire medium. Hoewel geschreven taal zich in dit informatietijdperk een hoge status en een wijde verbreiding heeft verworven, blijft het een afgeleide van het gesproken woord. Toch is het huidige fundamentele taalonderzoek qua beschrijving van grammatica en lexis, evenals de toepassingsgerichte taalstudie (lexicografie, talenonderwijs) grotendeels gebaseerd op geschreven bronnen. Dit leidt onvermijdelijk tot vertekeningen in de analyse van ons standaard taalgebruik. Tot voor kort was gesproken taal echter zo lastig te vergaren, te verwerken, te archiveren en te ontsluiten, dat uit deze praktische overwegingen nauwelijks tot grootschalige analyse van gesproken taal kon worden overgegaan. Nu in het laatste decennium een veelheid aan geavanceerde computertechnieken de registratie, bewerking en opslag van grote hoeveelheden spraak mogelijk maakt, en de integratie van spraak in multimediale pakketten eveneens in allerlei toepassingen opgeld doet, lijkt het moment aangebroken om substantiële inspanningen te plegen om de gesproken taal in kaart te brengen. De opzet van een Corpus Gesproken Nederlands (CGN) van 10 miljoen woorden, een samenwerkingsproject tussen de Vlaamse en Nederlandse overheden, moet dan ook in dit licht worden bezien. Behalve dat de samenstelling van een corpus van een dergelijke omvang ook met de huidige stand der techniek nog zeer veel financiële ondersteuning vereist, vormt het project ook in taalkundig en computationeel opzicht een grote uitdaging. Zo zullen, op grond van de ervaringen met vergelijkbare initiatieven, zoals het British National Corpus (BNC), keuzes moeten worden gemaakt op het gebied van de corpusinhoud (de taalsamples), het corpusformaat (opslag, vorm, interne structuur), de lingu¨ıstische annotatie en de uiteindelijke beschikbaarstelling aan gebruikers. De uitdaging van het project zal er voor een groot deel in bestaan, om, anders dan bij het BNC, de orthografische transcriptie voor alle uitingen op te lijnen met het akoestisch signaal, en vervolgens beide beschikbaar te stellen. Immers, juist bij transcriptie van het gesproken signaal gaat, zelfs bij uitgebreide annotatie, veel akoestische informatie verloren (b.v. tempo, amplitude, duur, intonatie, pauzes, volgens transcribeur onverstaanbare woorden, overlappingen, aarzelingen, versprekingen). Ook zal een transcriptie volgens één bepaalde methode vaak onbruikbaar zijn voor wetenschappers ge¨ınteresseerd in een andere discipline (b.v. prosodische vs. orthografische transcriptie, standaardisatie van clitica en reducties vs. nauwkeurige transliteratie van deze varianten, taalkundige vs. redekundige analyse). Daarnaast ontbreekt vaak informatie over de situationele context, evenals ondersteunende gebaren, lichaamshouding, gelaatsuitdrukkingen en hoofdbewegingen. Om deze nadelen zoveel mogelijk te beperken, is toegang tot het spraaksignaal, en wellicht zelfs videofragmenten, waar voorhanden, onontbeerlijk. Bovendien zal het project voorzien in morfologische en semantische koppeling aan bestaande lexicale bestanden. Ook zal een deel van het corpus verrijkt worden met gedetailleerde fonetische en fonologische informatie. Bij alle activiteiten in het kader van het CGN-project zal voorop moeten staan, dat het beoogde corpus aantrekkelijk moet zijn voor een groot aantal wetenschappelijke en niet-wetenschappelijke disciplines en applicaties. Verder zal, in navolging van aanbevelingen van verschillende (inter)nationale instanties, zorg worden gedragen voor een zo laagdrempelig, gebruikersvriendelijk en veelzijdig mogelijke toegang tot het spraaksignaal, de transcriptie en de diverse annotatielagen. Dat impliceert zo veel mogelijk aansluiting bij expliciet door de diverse disciplines gedefinieerde, dan wel in de praktijk gegroeide (best practice) standaardmethoden en -technieken voor de verschillende bewerkingsslagen van het gesproken materiaal. In het kader van het CGN beoogt dit rapport zo veel mogelijk in kaart te brengen, welke inspanningen reeds op het vlak van registratie, bewerking en eventueel openbaarmaking van spraak gepleegd zijn binnen het Nederlandse taalgebied (Nederland en Vlaanderen). Ook zal worden ingegaan op internationale standaards op het gebied van corpora en buitenlandse projecten die voor het CGN een voorbeeldfunctie zouden kunnen vervullen. Het doel is m.a.w. tweeledig: inventarisatie van bestaand materiaal en evaluatie van reeds gebruikte of nog in ontwikkeling zijnde methoden en technieken. Bronnen worden waar nodig vermeld voor verdere referentie.

3

2

Het Historische Perspectief

De geschiedenis van de opbouw van gesproken corpora kan ruwweg worden opgedeeld in drie periodes: het tijdperk van handmatige verwerking van bandopnames, het decennium van geautomatiseerde studie van het signaal, en tenslotte de (belofte van) volledig computergestuurde opname, transcriptie, annotatie en ontsluiting van dit moment. Voor het historisch perspectief zal eerst worden ingegaan op een aantal in boekvorm verschenen corpora, die niettemin voor hun tijd revolutionair waren, omdat de computer reeds een integraal onderdeel van de bewerkingsslag uitmaakte. Uitgebreide studie van het signaal en de transcripties, door de samensteller of anderen, was hierbij evenwel niet het uitgangspunt van de verzameling. Opname van gesproken taal was slechts een middel om te komen tot betrouwbare frequentietellingen voor het gesproken Nederlands met het oog op beter gestructureerd talenonderwijs.

2.1

Corpora van de Eerste Generatie (-1980)

In deze periode werd het gesproken signaal opgenomen op analoge audiotapes, waarna de spraak veelal eerst met de hand werd getranscribeerd, en daarna overgetypt. Waarschijnlijk zijn uit deze periode een groot aantal bandrecorderspoelen en cassettes (indien nog afspeelbaar) met notities en/of transcripties aanwezig op het Meertensinstituut in Amsterdam. Het betreft hier echter waarschijnlijk vooral dialectmateriaal. Volgens Heikens (1978: 37) zijn hier alleen al in de periode 1960-1975 maar liefst 1500 bandopnames met voornamelijk spontane spraak in dialect verzameld. De status van deze banden (zowel qua conditie als beschikbaarheid, inclusief mogelijke bewerkingen) is vooralsnog onduidelijk. Systematische analyse van op het algemeen spraakgebruik gerichte bestanden vond vooral in het buitenland plaats, zoals het Survey of English Usage (SEU), opgezet door Randolph Quirk en zijn medewerkers in 1959. De uiteindelijke versie bestaat uit 200 teksten van elk 5000 woorden uit de periode 1953-1987, waarvan de helft gesproken materiaal betreft. Allerlei woordkenmerken werden hierbij op kartonnen kaartjes ge¨ıllustreerd met getranscribeerde uitingen van informanten. Het gesproken deel van het SEU (500.000 tokens) werd later computationeel bewerkt tot het LondonLund Corpus (LLC) door Jan Svartvik en zijn team. Dit proces van automatisering van oude bestanden vond en vindt nog steeds plaats voor een aantal gelijksoortige corpora. Voor het LLC zijn redelijk uitgebreide fonologische annotaties voorhanden naast het orthografische niveau, zoals toonhoogte, plaatsing van de kernaccenten, twee soorten pauze, twee soorten accent, sprekeridentificatie, gelijktijdig spreken, contextueel commentaar en onverstaanbare woorden. Paralingu¨ıstische kenmerken en bepaalde aanvullende commentaren over intonatie en accenten zijn niet aangegeven. Ook zijn de geluidsfragmenten (deels?) nog bewaard gebleven en opvraagbaar aan het University College London. Zoals gezegd waren de inspanningen voor het vastleggen van algemeen gangbaar Nederlands geringer. Uit deze periode stammen drie volgens een van tevoren geformuleerde strategie gesamplede en getranscribeerde corpora van dit teksttype, te weten het corpus De Vriendt-De Man, het Eindhoven Corpus (Uit den Boogaart corpus), en het corpus De Jong. 2.1.1

Corpus De Vriendt-De Man

Deze studie had als doel gegevens over frequente woorden en zinsstructuren te verzamelen in de spontane Nederlandse (Noord- en Zuid-Nederlandse) spreektaal (De Vriendt-De Man, 1969: 5). Het uitgangspunt diende geen zuiver wetenschappelijke interesse: de resultaten moesten bijdragen aan verbeterd Nederlands onderwijs aan Franstaligen. De methodologie hiervoor was sterk geënt op het werk van G. Gougenheim et al., L’Elaboration du Fran¸cais Fondamental uit 1964. Zeker voor een uit 1969 stammende dissertatie als deze zijn de gegevens over sampling, opname en verwerking zeer volledig. Gegevens: • Omvang: – types: niet vast te stellen (altijd morfosyntactische codes aanwezig). – tokens: 117.122 (58.578 N-N, 58.544 Z-N, volgens opgave boek).

4

– extra info: type-tag combinaties niet vast te stellen door uitsluiten types met F h 5. • Samenstelling (teksttypes): informele, onvoorbereide of nauwelijks voorbereide dialoog in verschillende situationele context (winkel, vriendenbezoek, radiointerview). 465 gespreksonderwerpen (gecodeerd). – 29 gesprekken: ∗ 13 Zuid-Nederlands (eigen opnames Grembergen: 1/3, BRT: 1/6), ∗ 16 Noord-Nederlands (eigen opnames Noord-Brabant + Zeeuws-Vlaanderen: 1/3, Radio Omroep Zuid (Maastricht) 1/6). • Sprekergegevens: 117 informanten, 73 man, 44 vrouw. Leeftijd, beroep/sociale status, plaats van herkomst en plaats van opname aangegeven. • Opnamedatum: ? • Opnameduur: ± 20 uur. • Annotatieschema: – gehanteerde standaard: geen. – geclitiseerde en andere niet-standaard vormen 1 : beperkt (’d’r’, ’d’rbij’, ’ie’, maar ’het’ voluit) – sprekerwisseling, behandeling overlap: sprekerwisseling: ja, overlap: nee. – behandeling bij- en achtergrondgeluiden: nee. – gehanteerde interpunctie: ja, orthografische interpretatie. • Annotatieniveaus: – Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. Aarzelingen aangegeven, pauzes d.m.v. speciale ASCII-karakters. – Taalkundig: syntactische tags slechts in afgeleide frequentielijst, niet in lopende tekst. • Status privacy informanten: ? • Copyright: ? • Beschikbaarheid opnames: ? – geluidsdrager: analoge audiospoelen. – opnametechniek: verborgen microfoon bij eigen opnames (veel achtergrondgeluiden, ook door situationele context, professionele apparatuur voor radioopnames BRT en ROZ). – signaal-ruisverhouding: 120-6.000 Hz ± 3 dB.

– elektronische versie: indertijd ingetypt op 13.858 ponskaarten, Université Libre de Bruxelles. Onleesbaar? – relatie signaal-transcriptie (volledigheid-koppeling): nee. 1 geclitiseerde vormen zijn twee of meer woorden die zich gedragen als ´ eén fonologisch woord, vaak met syllabe-deletie, zoals [tIs] voor ’het is’. Verder onderscheid kan gemaakt worden naar functionele eenheden, waarbij het gaat om de combinatie van functiewoorden, en de term clitica voorbehouden blijft aan combinaties van lexicale woorden en functiewoorden. Bij gereduceerde vormen gaat het om één oorspronkelijk woord, zonder syllabe-deletie, zoals [@m] voor ’hem’.

5

2.1.2

Eindhoven Corpus (Corpus Uit den Boogaart)

Dit corpus werd opgesteld om een nauwkeurig idee te krijgen van in Nederland (niet in Vlaanderen) veel voorkomend taalgebruik d.m.v. frequentietellingen van woorden. Het onderzoek werd uitgevoerd door de Werkgroep Frequentie-Onderzoek van het Nederlands, gesubsidieerd door Z.W.O. (het Nederlandse Fonds voor Zuiver Wetenschappelijk Onderzoek, nu het N.W.O.) en de Technische Hogeschool Eindhoven (geschreven taal) en het Instituut voor Dialectologie, Volks- en Naamkunde van de Koninklijke Nederlandse Academie voor Wetenschappen te Amsterdam (nu: Meertensinstituut) (gesproken taal). Het geschreven deel bevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk kleiner. Oorspronkelijk in 1975 in boekvorm verschenen als Woordfrequenties: in Geschreven en Gesproken Nederlands. Gegevens: • Omvang: ABN-file: – types: 4.041 (minus interpunctie, puur op orthografische string). – tokens: 59.941 (minus interpunctie). – extra info: 5.009 unieke type-tag combinaties. • Omvang: dialectfile: – types: 4.808 (minus interpunctie, puur op orthografische string). – tokens: 60.339 (minus interpunctie). – extra info: 5.901 unieke type-tag combinaties. • Omvang bronnen gecombineerd: – types: 7.065 (minus interpunctie, puur op orthografische string). – tokens: 120.280 (minus interpunctie). – extra info: 8.696 unieke type-tag combinaties. • Samenstelling (teksttypes): 26 volledig opgenomen gesprekken (vanwege gebrek aan materiaal), varierend van groepsdiscussies, interviews en gesproken brieven (academisch niveau) tot informele dialoog (laag opleidingsniveau) (Uit den Boogaart, 1975: 13). • Sprekergegevens: – 13 gesprekken door ’academici of daarmee gelijk te stellen personen die geacht worden ABN te spreken’ (Uit den Boogaart, 1975: 13). – 13 gesprekken ’mensen met weinig schoolopleiding uit een aantal plaatsen in Noord- en ZuidHolland’ (Uit den Boogaart, 1975: 13). • Participanten: aandeel gespreksleider (van hoger opleidingsniveau) verwijderd bij informele dialoog. • Opnamedatum: 1960-1973. • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: geen. – geclitiseerde en andere niet-standaard vormen: ja, sporadisch (’ie’, ’effe’, ’gelejen’, ”n’, ’mekaar’, ’bennen’). – sprekerwisseling, behandeling overlap: nee. – behandeling bij- en achtergrondgeluiden: nee. 6

– gehanteerde interpunctie: geen, soms onduidelijke interpunctietekens. • Annotatieniveaus: – Orthografisch: alles onderkast, geverticaliseerd voor Esprit-formaat. – Taalkundig: morfosyntactische tags (woordsoort en flexievorm). • Status privacy informanten: onduidelijk. Besproken personen (anders dan informanten) geanonimiseerd met codes ’x[0-2]’en ’y[0-2]’. • Copyright: Op verschillende instituten is een versie van het corpus aanwezig; het is onduidelijk of er copyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik. • Beschikbaarheid opnames: ? – geluidsdrager: nee. – elektronische versie: ja, ASCII computerfiles, kennelijk in verschillende formaten (transcriptie met of zonder annotatie) op diverse instituten als Taal & Spraak KUN, Max Planck Instituut (CELEX), Systeemhuis TU Eindhoven, Mathematisch Centrum Amsterdam. ∗ Lopende tekstversie getagged met Uit den Boogaart’s lexicale codes onder de naam ’Eindhoven Corpus’, inclusief Jan Renkema’s onderzoek ’De Taal van Den Haag’. ∗ Vertikaal opgesplitste versie onder de naam ’Esprit Corpus’, inclusief het bestand van Renkema en andere corpora, o.a ’De Gelderlander’, getagged met Esprit 860-codes. ∗ Gesproken Esprit files: · dut abn rel1.uni (ABN-file, academisch). · dut dia rel1.uni (dialectfile, lager opleidingsniveau).

– relatie signaal-transcriptie (volledigheid-koppeling): nee. 2.1.3

Corpus De Jong

Dit corpus bevat uitsluitend spreektaal en is als een beter gestratificeerd vervolg opgezet van het onderzoek naar woordfrequenties in het gesproken Nederlands door Uit den Boogaart (1975). Dezelfde corpusgrootte (t.o.v. van het deelcorpus) en dezelfde annotatiewijze zijn gehanteerd om vergelijking eenvoudig te maken. Oorspronkelijk in 1979 in boekvorm verschenen als Spreektaal: Woordfrequenties in Gesproken Nederlands. • Omvang: – types: niet vast te stellen (altijd morfosyntactische codes aanwezig). – tokens: 120.000 (volgens opgave boek). – extra info: 8.603 unieke type-tag combinaties (nauwelijks verschil met Uit den Boogaart (1975)). • Samenstelling (teksttypes): stratificatie naar 4 niet-lingu¨ıstische variabelen: gesprekssituatie, geslacht, leeftijd en sociaal-economische klasse, volgens Labov (1966), Shuy et al. (1968), en Trudgill (1974): 16 groepen gelijkelijk verdeeld over de 4 variabelen (7500 woorden per groep). Voor gesprekssituatie: formeel (interview over opleiding en beroep) vs. informeel (huiskamergesprek tussen twee informanten over vrij onderwerp), beide thuis afgenomen, waardoor veel diversiteit m.b.t. kwaliteit opname, aanwezigheid gezinsleden, etc. Door allerlei omstandigheden (kwaliteit opname, leeftijds-, geslachts- of klasseverschil bij informele gesprekken) konden slechts iets minder dan de helft van alle 245 opnames (in totaal 136 formeel, 109 informeel) gebruikt worden: 59% van de formele (= 80), 34% van de informele (= 37). Uit elk 3 steekproeven genomen van 250 woorden (formeel) en 6 steekproeven van 250 woorden (informeel). Dit omdat 80 formele en slechts 37 informele gesprekken waren gekozen.

7

• Sprekergegevens: Geografische spreiding: uitsluitend Amsterdam, vanuit praktische overwegingen en opvatting dat dit redelijk representatief is voor standaardtaal (De Jong: 1979: 10). Gelijkelijke verdeling over geslacht, leeftijd (jong (24-28 jr.) vs. oud (54-58 jr.)) en opleiding en beroep (hoog vs. laag). Zo ontstonden 8 groepen van tenminste 10 autochtone Amsterdammers. Uitgebreide vragenlijsten met sprekerinformatie (ook over hobbies, eventuele vorige plaatsen van huisvesting, buurtcontacten, vorm en duur relatie(s), sociale status ouders en partner, aard en hoeveelheid tot zich genomen informatie (kranten, tijdschriften, boeken, radio, TV)) zijn beschikbaar. • Opnamedatum: ? • Opnameduur: ± 25 minuten per formeel gesprek, ± 50 minuten per informeel gesprek (Heikens, 1978: 36). • Annotatieschema: – gehanteerde standaard: geen. – geclitiseerde en andere niet-standaard vormen: nee, alles genormaliseerd naar standaardvorm vanwege vergelijking met schrijftaal. Dus: ’ie’ ’hij’, ’effe’ ’even’, ’as, az’ ’als’, ’da’s’ ’dat is’, ’kweenie’ ’ik weet niet’, etc. Vreemd genoeg bevat Uit den Boogaart wel dit soort woorden. Onafgemaakte woorden gecompleteerd. – sprekerwisseling, behandeling overlap: ja. – behandeling bij- en achtergrondgeluiden: nee. – gehanteerde interpunctie: geen. • Annotatieniveaus: – Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. – Taalkundig: morfosyntactische tags (woordsoort en flexievorm) volgens Uit den Boogaart (1975). • Status privacy informanten: geanonimiseerd voor persoonsnamen: – X = voornaam. – Y = achternaam. – Z = voor- of achternaam. – 0 = geslacht onbekend. – 1 = geslacht vrouw. – 2 = geslacht man. • Copyright: Meertensinstituut Amsterdam. • Beschikbaarheid opnames: ? – geluidsdrager: indertijd audiospoelen op Meertensinstituut. Nu onafspeelbaar? – opnametechniek: handmicrofoon en éénsporige Nagra-bandrecorder voor formele gesprekken, omhangmicrofoon en tweesporen Uher-bandrecorder voor informele gesprekken (één spoor per gesprekspartner). – elektronische versie: indertijd magneetband ongeannoteerde en geannoteerde transcriptie en op Meertensinstituut. Onleesbaar? – relatie signaal-transcriptie (volledigheid-koppeling): nee.

8

3 3.1

De Eerste Elektronische Gesproken Corpora Corpora van de Tweede Generatie (1980-1990)

In deze periode begon de computer een integraal onderdeel te worden van het analyseproces. De opnames geschiedden vaak nog op analoge audiospoelen of cassettes, maar in de tweede helft van de jaren 80 steeds meer op digitale DAT-tapes. Transcriptie gebeurde in eerste instantie regelmatig met de hand, maar zeker in een later stadium werden alle orthografische transcripten omgezet naar computerfiles, waarna verdere analyse uitgevoerd kon worden met in de jaren 80 steeds meer standaard wordende statistische software zoals SPSS, en specifiek op taalkundige analyse toegesneden programmatuur als KWIC-concordanties (KeyWord In Context, in feite bekend sinds John W. Ellison’s Nelson’s Complete Concordance of the Revised Standard Version Bible uit 1957), de tekstanalyze-programmatuur HUM (Bill Tuthill, Berkeley 1981), TACT (University of Toronto, 1986-89) en CLAN (zie MacWhinney 1995). Belangrijke doorbraken op het gebied van gesproken corpora in deze tijd waren het het gesproken deel (1,3 miljoen tokens) van het Birmingham University Corpus, in zijn oorspronkelijke, kleinere vorm bekend als het COLLINS/COBUILD-corpus, en MARSEC (Machine Readable Spoken English Corpus), dat aanvankelijk naar de samenstellers het Lancaster/IBM Spoken English Corpus werd genoemd. Het volledig gesproken MARSEC omvat slechts 52.000 tokens (6 uur spraak), maar ondanks de nadruk op geprepareerde en semigeprepareerde spraak voor synthesedoeleinden, zijn ook samples spontane spraak aanwezig, zoals een aantal colleges en dialogen. Het belangrijkste aspect van dit corpus is echter zijn volledige machine-leesbaarheid, zowel voor de transcriptie als annotatie met CLAWS2 woordklasse-tags, een eenvoudige redekundige ontleding (skeleton parse), het complete audiosignaal (gesampled op het professionele niveau van 16 kHz), prosodische kenmerken (klemtoon, intonatiecontouren), en fonemische transcripties (grotendeels automatisch gegenereerd door koppeling aan een uitspraakwoordenboek met inachtneming van de prosodische transcriptie en de grammaticale labels). Bovendien werd een (althans op het syllabe-niveau) betrouwbare oplijning tussen signaal en transcriptie bereikt d.m.v. matching tussen grafeem-foneem conversie van de orthografische transcriptie en de uit de spectraalanalyse eveneens automatisch gegenereerde fonemische transcriptie (Roach & Arnfield, 1995: 150-155). Daarmee vestigde MARSEC een nieuwe standaard voor gesproken corpora als bron voor een grote variëteit aan fundamenteel en toepassingsgericht taalkundig onderzoek. Andere belangrijke internationale initiatieven op dit terrein waren de CHILDES-corpora van kindertaal en het ESF-corpus van tweede taalverwerving van migranten. Omdat deze ook Nederlandstalige delen bevatten, en bovendien in elektronische vorm beschikbaar zijn, meestal zelfs met het oorspronkelijke spraaksignaal, worden ze hieronder uitgebreid besproken. 3.1.1

De CHILDES kindertaal-databank

CHILDES is een reeks internationale, centraal verzamelde, opgeslagen en voor iedereen toegankelijke corpora met orthografisch getranscribeerde data met betrekking tot de eerste en tweede taalverwerving van kinderen. De grondslag voor deze collectie werd gelegd door Brian MacWhinney en Catherine Snow aan de Carnegie Mellon Universiteit (Pittsburgh), die ook geldt als distributiepunt. Het Max Planck Instituut in Nijmegen is een van de lokale distributie- en ondersteuningspunten (mirror sites), evenals het Departement Germaanse Filologie van de Universitaire Instelling Antwerpen. Er is in principe geen verschil tussen de volgens een filestructuur geordende bestanden in Pittsburgh en op lokale sites, mits natuurlijk de laatste versies van de centrale site regelmatig worden overgehaald. Transcripties zijn in het gestandaardiseerde CHAT-formaat (Codes for the Human Analysis of Transcripts). Dit biedt zowel conventies voor orthografische transcriptie als voor annotatie (verrijking met speech act codes, semantische, syntactische, morfologische analyses etc.) Dit gebeurt via horizontaal opgelijnde regels: de hoofdregel bevat de orthografische transcriptie, de onderliggende, daaraan verbonden regels de annotaties, waarbij elke regel slechts één soort annotatie bevat. CHAT staat dus dynamische uitbreiding van het aantal ’tiers’ toe naar de wensen van de gebruikers, en is daarmee flexibel genoeg om ook andere data dan CHILDES te coderen. Vanwege de parallelle tiers is het ook mogelijk om te transcriberen op een aantal niveaus, zoals genormaliseerd orthografisch (volgens de officiële spelling), orthografische transliteratie (b.v. ’hebde’ of ’hedde’ in plaats van ’hebt ge’, ’heeft-ie’ in plaats van ’heeft hij’) en fonetische transcriptie. Zo is

9

er minder noodzaak om te kiezen voor een vaak slecht hanteerbaar en nog slechter bevraagbaar compromis. Voorbeeld (uit JACqueline van Kampen’s corpus van het meisje LAUra; %exp is de verklarende tier, %par de paralingu¨ıstische): ∗LAU: eh bah. %exp: LAU wants to go to the kitchen ∗JAC: nee we blijven in de kamer, we doen de deur niet open. %par: LAU protests ∗JAC: nee want dan wordt het veel te koud in de kamer. ∗JAC: als het straks zomer is, dan doen we alles open. %par: LAU cries ∗LAU: ik keuke. ∗LAU: ik keuke. Hoewel goed uitbreidbaar in verticale richting, heeft de horizontale oplijning op het (op zich al slecht definieerbare) uitingenniveau wel zijn beperkingen. Edwards (1992: 459) signaleert bijvoorbeeld, dat de reikwijdte van een bepaalde situationele context (een dependent tier bij een uiting) niet geheel duidelijk is; een herhaling van b.v. het non-verbale label laughing kan zowel duiden op de voortzetting van het gelach als op een nieuwe handeling. Regelmatig zullen dergelijke niet-verbale en niet-vocale handelingen ook helemaal niet afhankelijk zijn van verbale uitingen. Verder is er, zoals hieronder zal blijken, veel aan te merken op onderlinge verschillen in het aantal weergegeven tiers, en in de weergave en classificatie van bepaalde verschijnselen, zoals de mate van orthografische standaardisering van gesproken woorden en niet-verbale gebeurtenissen als gelach. Is dit laatste bijvoorbeeld een paralingu¨ıstisch fenomeen, een handeling (activiteit), iets voor commentaar, uitleg of situationele context? Maakt het onderdeel uit van de uiting binnen dezelfde tier, of hoort het thuis op een aparte, afhankelijke tier? CLAN (Computerized Language Analysis) is de softwaresuite, die op basis van de CHAT-gecodeerde corpora snel zoekacties kan ondersteunen en kwantitatieve gegevens af kan leiden, zoals frequentietellingen. Ook CLAN is niet per definitie gebonden aan het CHILDES-corpus. Er is een CED-editor voorhanden om het coderen van de diverse tiers te vergemakkelijken, en links te kunnen leggen naar de oorspronkelijke audio- of videotapes. De laatste versies van de CHILDES databank en de CLAN programmatuur kunnen worden overgehaald per anonymous ftp vanaf de site poppy.psy.cmu.edu Een uitgebreide beschrijving van de transcriptiecodes, beschikbare programmatuur en corpora wordt gegeven in MacWhinney (1995). Het Nederlandstalige deel van CHILDES omvat momenteel 5 volledig gecodeerde bestanden m.b.t. monolinguale eerste taalverwerving, en 1 geannoteerd Nederlands-Engels bilinguaal corpus. Deze zullen hieronder afzonderlijk worden behandeld. Deze lijst kan uiteraard slechts een tijdsopname zijn; mogelijk worden er op dit moment reeds bestanden aan CHILDES toegevoegd die relevant zijn voor deze studie. Gegevens: Directory tree ’gillis’: Steven Gillis’ longitudinale studie van de Vlaamse jongen Maarten, afdeling Germaanse taalkunde, Universiteit Antwerpen. Slechts de laatste 13 files van deze studie zijn aanwezig; de eerste 65 (!) moeten nog worden omgezet naar CHAT-formaat. • Omvang: – types: 2.390. – tokens: 50.964. • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: Maarten, 0;11 jr. tot 1;11 jr. en volwassene, meestal zijn moeder.

10

• Opnamedatum: 1981-1982. • Opnameduur: 104 uur. • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’da’s’, ’hebde’, ’moetet’). – sprekerwisseling, behandeling overlap: in speciale orthografische codes. – behandeling bij- en achtergrondgeluiden: commentaar tier. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, situationele context, fonetiek (PHONASCII). Hiernaast codering (gesynchroniseerd) non-verbaal gedrag. • Status privacy informanten: ? • Copyright: Steven Gillis. • Beschikbaarheid opnames: ? – geluidsdrager: videotapes. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Directory tree ’laura’: Jacqueline van Kampen’s longitudinale studie van het Nederlandse meisje Laura, Faculteit der Letteren, Universiteit Utrecht. Deze directory heet nu ’vankampen’, in overeenstemming met de naam van de onderzoeker. • Omvang: – types: 1.524. – tokens: 19.983. • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: Laura, 1;9 jr. tot 5;10 jr. en volwassene (moeder, J. van Kampen zelf). • Opnamedatum: 1988-1992. • Opnameduur: 3.600 uur. • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: nee. – sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee. – behandeling bij- en achtergrondgeluiden: paralingu¨ıstische tier. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, commentaar, verklaring, paralingu¨ıstische tier. 11

• Status privacy informanten: ? • Copyright: Jacqueline van Kampen. • Beschikbaarheid opnames: ? – geluidsdrager: audiospoelen. – opnametechniek: Prefer OCC/1121 microfoon, Nakamichi 350 recorder. – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Directory tree ’schaer’: A.M. Schaerlaekens’ studie van 2 Vlaamse (?) drielingen, steeds twee jongens en één meisje. Katholieke Universiteit Leuven (Schaerlaekens 1973). • Omvang: – types: 1.695. – tokens: 35.185. • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: – ene tweeling: 1;10 jr. tot 3;1 jr. – andere tweeling: 1;6 jr. tot 2;10 jr. – (in beide gevallen spraak volwassen gesprekspartner niet weergegeven). • Opnamedatum: 1969-1970. • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: ja, zie %tra tier. – sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee. – behandeling bij- en achtergrondgeluiden: nee. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, morphosyntax (taalkundig, redekundig, congruentie (%agr)), orthografische transliteratie (%tra) i.p.v. fonetische tier (b.v.’%tra an peelgoed ale’ voor ’Arnold speelgoed halen’). • Status privacy informanten: ? • Copyright: ? • Beschikbaarheid opnames: ? – geluidsdrager: audiospoelen (nu onbruikbaar). – opnametechniek: draadloze microfoons (nu irrelevant). – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. 12

– relatie signaal-transcriptie (volledigheid-koppeling): nee. Directory tree ’utrecht’: Loekie Elbers’ en Frank Wijnen’s longitudinale studie van Nederlandse jongens Thomas en Hein, Universiteit Utrecht. • Omvang: – types: 3.901 (Hein), 3.575 (Thomas). – tokens: 107.704 (Hein), 95.912 (Thomas). • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: beide van 2;3 jr. tot 3;1 jr., en volwassene (moeder). • Opnamedatum: 1980-1981. • Opnameduur: 71 uur. • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ”t’). – sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes [<>]. – behandeling bij- en achtergrondgeluiden: paralingu¨ıstische tier. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie, commentaar, Engelse vertaling, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, morfosyntax (alleen taalkundig), paralingu¨ıstische tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie, speech acts (herhaling en imitatie). • Status privacy informanten: ? • Copyright: Loekie Elbers en Frank Wijnen. • Beschikbaarheid opnames: ? – geluidsdrager: ? – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Directory tree ’wijnen’: Frank Wijnen’s longitudinale studie van Nederlandse jongen Niek, Universiteit Utrecht. • Omvang: – types: 3.732. – tokens: 81.527. • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: Niek, van 2;7 jr. tot 3;10 jr. en volwassene (vader, Frank Wijnen zelf). 13

• Opnamedatum: 1983-1984. • Opnameduur: 31 uur, waarvan 23 uur getranscribeerd. • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ’(he)t’ i.p.v. ”t’). – sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes [<>]. – behandeling bij- en achtergrondgeluiden: paralingu¨ıstische tier. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie, commentaar, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, paralingu¨ıstische tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie, speech acts (imitatie). • Status privacy informanten: ? • Copyright: Frank Wijnen. • Beschikbaarheid opnames: ? – geluidsdrager: ? – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Directory tree ’dehouwer’: longitudinale bilinguale studie van het Vlaamse meisje Kate (Engels-Nederlands) door Annick De Houwer, Universiteit Antwerpen. • Omvang: – types: 3.562 – tokens: 47.832 • Samenstelling (teksttypes): informele dialoog. • Sprekergegevens: Kate, van 2;7 jr. tot 3;4 jr., plus onderzoeker(s), moeder en (soms) vader. • Opnamedatum: ? • Opnameduur: 19 uur. • Annotatieschema: – gehanteerde standaard: CHAT. – geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’wa’s’, ’da’s’, ”t’, ”n’). – sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap: nee. – behandeling bij- en achtergrondgeluiden: commentaar tier. 14

– gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, morfosyntax (taalkundig en redekundig, incl. info woordvolgorde en ellipsis), versprekingen, aarzelingen, herhalingen, interrupties, non-fluencies, reparaties, handelingen, verklaring, situatie, commentaar, fonologie (beperkt). • Status privacy informanten: geanonimiseerd. • Copyright: Annick De Houwer. • Beschikbaarheid opnames: ? – geluidsdrager: audiocassette. – opnametechniek: draagbare cassetterecorder met ingebouwde multi-directionele microfoon. – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Daarnaast bevinden zich in het CHILDES-archief op Carnegie Mellon University nog de volledig ongedocumenteerde ’clpf’-data, van kennelijk 12 kinderen uit de jaren 1988-1991, met in totaal 2.722 types, 37.140 tokens. Verder is er een bestand ’groning’, volledig ongedocumenteerd, van kennelijk 7 kinderen uit de jaren 1992-1995. De namen van de codeurs zijn Gerard Bol, Caroline Elskamp, Puck Goossens, Evelien Krikhaar, Paulien Rijkhoek, Frank Wijnen. In totaal 19.990 types, 977.797 tokens. 3.1.2

De ESF migrantentaal-databank

Dit corpus heet voluit de European Science Foundation Second Language Databank (ESFSLD), een elektronisch archief van longitudinale studies naar de tweede taalverwerving van een aantal volwassen immigranten uit 6 landen (zie: Feldweg 1992). Voor elk van de 6 moedertalen (brontalen, nl. Punjabi, Italiaans, Turks, Arabisch, Spaans en Fins), werden twee groepen geselecteerd, die elk dezelfde tweede taal (de doeltaal, nl. Engels, Duits, Nederlands, Frans of Zweeds) in hun nieuwe land moesten leren. De studie startte in 1982, en werd in 1987 voltooid. Zo werden een aantal Spanjaarden gevolgd, die ofwel Frans ofwel Zweeds moesten leren. Verder werd het Zweeds ook als doeltaal vastgesteld voor een groep Finse migranten, evenals het Frans voor Arabische sprekers. Dit maakte het mogelijk om zowel verschillen en overeenkomsten te meten tussen het leren van twee doeltalen door groepen van dezelfde nationaliteit, als het leren van één doeltaal door groepen van verschillende nationaliteit. In totaal werden 40 allochtone werknemers geselecteerd, wier conversatie met native speakers van de doeltaal op de band werd vastgelegd en later getranscribeerd volgens een centraal vastgesteld protocol. Alle migranten werden maandelijks ge¨ınterviewd over een periode van 2,5 jaar. Daarnaast werd een controlegroep van in totaal 24 migranten aan het begin, in het midden en tegen het einde van de opnameperiode ge¨ınterviewd ter vergelijking met de hoofdgroepen. Voor het Nederlands werden twee groepen participanten vastgesteld: één met moedertaal Turks, en één met moedertaal Arabisch. Dit deel van het onderzoek werd geleid door Guus Extra van de Katholieke Universiteit Brabant. De centrale cordinatie was in handen van het Max Planck Instituut voor Psycholingu¨ıstiek in Nijmegen. Aangezien zelfs van de participanten die de hele periode konden worden gevolgd niet alle data orthografisch konden worden getranscribeerd, in de computer ingevoerd, tweemaal gecontroleerd etc, is van 39 participanten orthografische transcriptie voorhanden (27 over de complete opnameperiode) en slechts van 8 van de controlegroep. Een grote variëteit aan activiteiten werd vastgelegd: socio-biografische conversatie (soort intake-gesprek), rollenspel, plaatjesbeschrijving, filmbeschrijving, routebeschrijving, zelf-confrontatie (commentaar op bekijken eigen handelen), etc. Op het Max Planck Instituut zijn inmiddels alle data met doeltalen Engels, Duits en Nederlands omgezet naar het voor CHILDES ontwikkelde CHAT-formaat. Tevens worden de audiotapes, DAT-kopieën van de

15

originele analoge opnames, voor zover voorhanden gelinkt met de orthografische transcriptie. De oorspronkelijke 48 kHz samplefrequentie wordt hierbij teruggebracht tot 16 kHz voor opslag in audiofileformaat. Voor de Duitse data is de fonetische transcriptie-’tier’ omgezet naar een orthografisch formaat compatibel met de transcripten van de andere doeltalen. Hetzelfde pad zal gevolgd worden voor het Frans en het Zweeds. Het gehele project zal nog een aantal jaren in beslag nemen. Voor dit doel is de CED (Childes EDitor) van Carnegie Mellon University op het MPI omgezet naar een UNIX-versie ge¨ıntegreerd met de superieure audio bewerkings- en weergavefaciliteiten van het XWaves programma. Een implementatie in Tcl/Tk geeft de mogelijkheid van platform-onafhankelijke toegang op besturingssystemen als Macintosh, Windows95 en Windows NT. Deze versie staat bekend als de MEDeditor. Op dit moment zijn de naar CHAT-formaat omgezette ESF-files te benaderen voor interne medewerkers van het MPI onder URL: http://www.mpi.nl/world/data/esf archive/html/ Hiervoor moet de gebruiker beschikken over een voor geluidsweergave toegeruste computer, en toegang tot de XWaves en MED software, die als ’helper applications’ vanuit de WWW-pagina’s moeten worden opgestart. Gegevens: • Omvang: steeds migrant plus onderzoeker, soms tolk, minus header-meta-informatie: – Abdeslam, Arabisch, controlegroep ∗ types: 1.069 ∗ tokens: 14.673 – El Mofadel, Arabisch, controlegroep ∗ types: 1.153 ∗ tokens: 12.849 – El Yazid, Arabisch, controlegroep ∗ types: 893 ∗ tokens: 10.957 – Zeyneb, Arabisch, controlegroep ∗ types: 797 ∗ tokens: 6.513 – Fatima, Arabisch, longitudinale groep ∗ types: 3.403 ∗ tokens: 76.700 – Hassan, Arabisch, longitudinale groep ∗ types: 4.220 ∗ tokens: 109.491 – Hassan M, Arabisch, longitudinale groep ∗ types: 5.135 ∗ tokens: 115.526 – Mohammed, Arabisch, longitudinale groep 16

∗ types: 4.031 ∗ tokens: 106.374 – Erdal, Turks, controlegroep ∗ types: 913 ∗ tokens: 10.923 – Haydar, Turks, controlegroep ∗ types: 1.123 ∗ tokens: 9.680 – Hikmet Ulusoy, Turks, controlegroep ∗ types: 1.404 ∗ tokens: 14.719 – Miyese, Turks, controlegroep ∗ types: 795 ∗ tokens: 7.069 – Abdullah, Turks, longitudinale groep ∗ types: 3.710 ∗ tokens: 85.411 – Erg¨ un(?), Turks, longitudinale groep ∗ types: 4.145 ∗ tokens: 119.881 – Mahmut, Turks, longitudinale groep ∗ types: 3.855 ∗ tokens: 107.870 – Osman, Turks, longitudinale groep ∗ types: 3.673 ∗ tokens: 97.508 • Samenstelling (teksttypes): gestuurde dialoog tussen informant en onderzoeker(s) t.b.v. testen taalvaardigheid. • Sprekergegevens: uitgebreide informatie over leeftijd, geslacht, geboorte- en woonplaats, opleiding, beroep, religie, burgerlijke staat, mate en wijze van blootstelling aan L2, veranderingen hierin over opnameperiode. Dit in files met extensie *.bio. • Opnamedatum: 1981-1986 (2,5 jaar per participant). Van elk gesprek is opnamedatum voorhanden in *.prt files (protocol). • Opnameduur: van elk gesprek is gedetailleerde opnameduur voorhanden in *.prt files (protocol). • Annotatieschema: – gehanteerde standaard: platte ASCII-files, eigen ESF-transcriptiestandaard (lijkt enigszins op tiers in CHILDes). – geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’um’ (voor ’hem’), ’ut’ (voor ’het’), ’istie’). 17

– sprekerwisseling, behandeling overlap: ja, in orthografische code. – behandeling bij- en achtergrondgeluiden: commentaar. – gehanteerde interpunctie: orthografische interpretatie (voor vraagzin), verder geen interpunctie. • Annotatieniveaus: ruwe orthografische transcriptie met header met meta-informatie, sense units, andere taal, pauze, commentaar, technisch en situationeel commentaar. Geen fonetische tier, alleen voor in Duitsland gecodeerde data. • Status privacy informanten: geanonimiseerd. • Copyright: Max Planck Instituut Nijmegen (contract). • Beschikbaarheid opnames: ja. – geluidsdrager: op audiocassettes van soms slechte kwaliteit (veroudering). Momenteel digitalisatie op MPI vanaf DAT-kopieën. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie plus annotaties. Later ook gedigitaliseerd spraaksignaal. Dit gebeurt in het met het XWaves compatibele *.sd-fileformaat – relatie signaal-transcriptie (volledigheid-koppeling): ja, time alignment wordt momenteel ge¨ımplementeerd. 3.1.3

Nederlandse dialoogcorpora

Corpora verzameld door Gisela Redeker, nu verbonden aan de Universiteit van Groningen, rond het onderzoeksthema spontane spraakproduktie in tv-programma’s (zie: Redeker (1992) en Linssen-Maes & Redeker (1992)). • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): 34 Nederlandse televisieuitzendingen (nieuws- en discussieprogramma’s, talkshows) w.o. het Capitool, Stellingname (beide video), het Journalistenforum (audio). Dit is dus het corpus, waarvan gewag wordt gemaakt op de WWW-sites van de STDH (http://candl.let.ruu.nl/STDH/4corponz.dir/1corpora.dir/vua.html), aangevuld met audiomateriaal (zonder de visuele component). • Sprekergegevens: opnamegegevens in WP5.1 bestand in bezit Redeker. • Opnamedatum: 1989-1990. • Opnameduur: ± 20 uur. • Annotatieschema: – gehanteerde standaard: ? – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: ja (gedeeltelijk, nl. niet te complexe interrupties). – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: ? • Annotatieniveaus: ruwe orthografische transcriptie, discourse markers (segmentatiesignalen) gecodeerd in deelcorpus van ± 2 uur. 18

• Status privacy informanten: schijnbaar irrelevant, aangezien alle opnames reeds publieke uitzendingen betreffen. Toch kunnen er problemen rijzen, aangezien zo mogelijk gegevens moeten worden verworven over leeftijd, opleidingsniveau, afkomst, etc. Ook openbare sprekers kunnen dan een beroep doen op wet op de privacy voor dergelijke gegevens (Van de Velde, 1996: 22). Hetzelfde aspect speelde ook samenstelling van het BNC (zie sectie 4.3.4) aanvankelijk parten. • Copyright: ? • Beschikbaarheid opnames: ja, maar kwaliteit na 10 jaar onzeker (wellicht geen fonetische analyse mogelijk). – geluidsdrager: videotapes en hiervan gekopieerde audiotapes. Ook oorspronkelijke audiotapes bij radio-opname. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ? – relatie signaal-transcriptie (volledigheid-koppeling): ? Onderzoek naar mogelijke verschillen in interruptiegedrag tussen de beide seksen d.m.v. formele discussies over het thema ’basisvorming’ door Gisela Redeker en Anny Maes. Zie Redeker & Maes (1996). • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): formele discussies over het thema ’basisvorming’. • Sprekergegevens: 5 mannen en 5 vrouwen (2 groepen, verdeeld over 8 discussies). Leeftijd: 44 tot 50 jaar. Sociale status: academisch niveau, leidinggevende of adviserende posities. • Opnamedatum: ? • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: codering overlappende spraak volgens: Roger, D.B., P.E. Bull & S. Smith (1988) ’The Development of a Comprehensive System for Classifying Interruptions’. In: Journal of Language and Social Psychology 7, 27-34. – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: ja, zie boven. – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: orthografische interpretatie? • Annotatieniveaus: orthografie (gedeeltelijk), 2373 interrupties volgens Roger et al. (1988). • Status privacy informanten: toestemming moet gevraagd worden voor gebruik door derden. • Copyright: G. Redeker. • Beschikbaarheid opnames: ja, bij G. Redeker. – geluidsdrager: audiocassette. – opnametechniek: ? Opname thuis, niet in studio. 19

– signaal-ruisverhouding: ? – elektronische versie: ? – relatie signaal-transcriptie (volledigheid-koppeling): nee. Onderzoek door Sandra Timan, taalbeheersing VU, naar man-vrouw onderhandelingen. • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): man-vrouw onderhandelingen. • Sprekergegevens: cursisten onderhandelingsstrategieën bedrijfsleven. • Opnamedatum: 1992-1993. • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: VRM-codering volgens Stiles (1993), codering overlappende spraak volgens: Roger, D.B., P.E. Bull and S. Smith (1988). – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: ja, zie boven. – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, VRM-codering, overlappende spraak, aangebracht door Noortje Feije. • Status privacy informanten: ? • Copyright: ? • Beschikbaarheid opnames: ja, bij Gisela Redeker, Universiteit Groningen. – geluidsdrager: audiocassette. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ? – relatie signaal-transcriptie (volledigheid-koppeling): nee. Het Van der Wijst Onderhandelingscorpus, opgebouwd door Per van der Wijst, indertijd verbonden aan de KUB in Tilburg. • Omvang: ± 56.000 uitingen (voor het onderzoek vastgestelde eenheid). – types: niet geteld. – tokens: niet geteld. • Samenstelling (teksttypes): 28 gesimuleerde telefonische onderhandelingsgesprekken tussen ervaren onderhandelaars; gemodificeerde vorm van het ’Kelley game’.

20

• Sprekergegevens: 56 sprekers. Er zijn enquêtegegevens (o.m. oordelen over zichzelf en de gesprekspartner) van de deelnemende onderhandelaars beschikbaar. Ook extra-lingu¨ıstische variabelen zoals leeftijd, opleiding, geslacht e.d. zijn geregistreerd. • Opnamedatum: 1991-1992. • Opnameduur: ± 17 uur. • Annotatieschema: – gehanteerde standaard: VRM-codering volgens Stiles (1993). Voor een selectie van uitingen zijn ook beleefdheidsstrategieën gecodeerd. – geclitiseerde en andere niet-standaard vormen: ja. – sprekerwisseling, behandeling overlap: ja, aangegeven in Macintosh-transcript, traceerbaar in DOS-transcript. – behandeling bij- en achtergrondgeluiden: indien storend, aangegeven tussen [ ]’s. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, uitingen codes in termen van Verbal Response Modes (zie onderzoek). • Status privacy informanten: geanonimiseerd in transcript, niet op de band. • Copyright: Per van der Wijst. Er zijn al anderen geweest die ermee gewerkt hebben. • Beschikbaarheid opnames: ja, bij Per van der Wijst aan de Université de Liège. – geluidsdrager: DAT-tapes en analoge kopieën op audiocassette. – opnametechniek: gesprekspartners (steeds 2) op gescheiden sporen. – signaal-ruisverhouding: ? – elektronische versie: ja, orthografie in syncWRITER, een Macintosh-partituur programma, daarnaast in WP-formaat op DOS. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Onderzoek naar actualiteiten- en talkshow-interviews t.b.v. scriptie Taalbeheersing van Frank Kuijpers, verbonden aan de VU Amsterdam. • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): 18 interviews, uitgezonden op de Nederlandse televisie. • Sprekergegevens: • Opnamedatum: voorjaar 1994. • Opnameduur: ruim 3 uur. • Annotatieschema: – gehanteerde standaard: VRM-codering volgens Stiles (1993). – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: ? – behandeling bij- en achtergrondgeluiden: ? 21

– gehanteerde interpunctie: ? • Annotatieniveaus: orthografie, VRM-codering. • Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie (Van de Velde, 1996: 22). • Copyright: ? • Beschikbaarheid opnames: ? Videobanden gearchiveerd met onderzoeksgegevens en enquêtegegevens beschikbaar met kijkersoordelen. – – – – –

geluidsdrager: videotapes. opnametechniek: ? signaal-ruisverhouding: ? elektronische versie: ? relatie signaal-transcriptie (volledigheid-koppeling): ?

Communicatieanalyse van diverse gesprekssituaties, door Harrie Mazeland, verbonden aan Rijksuniversiteit Groningen (persoonlijke communicatie). • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): meer en minder formele en informele dialogen. Enerzijds niet-gestandaardiseerde sociaal-wetenschappelijke onderzoeksvraaggesprekken, anderzijds veelsoortig materiaal (arts/patient-consults, discussies, debatten, vergaderingen, informele telefoongesprekken). • Sprekergegevens: ? • Opnamedatum: ? • Opnameduur: 4 uur (sociale onderzoeksvraaggesprekken), 4 uur of meer andersoortig materiaal. • Annotatieschema: – – – – –

gehanteerde standaard: c.a.-transcriptie (?) geclitiseerde en andere niet-standaard vormen: ? sprekerwisseling, behandeling overlap: ? behandeling bij- en achtergrondgeluiden: ? gehanteerde interpunctie: ?

• Annotatieniveaus: c.a.-transcriptie (?), steeds voor de eerste 15 a ` 20 minuten van het gesprek (niet volledig). • Status privacy informanten: moet nog (volgens afspraak) geanonimiseerd worden. • Copyright: Harrie Mazeland. • Beschikbaarheid opnames: ? – – – – –

geluidsdrager: audiotapes. opnametechniek: ? signaal-ruisverhouding: ? elektronische versie: ja, in WP5.1-formaat. relatie signaal-transcriptie (volledigheid-koppeling): ? 22

3.2

Andere Gesproken Datacollecties

Naast de bovengenoemde corpora zijn er ook collecties van gesproken data, meestal radio- en TV-uitzendingen, die niet aangelegd zijn vanuit onderzoeksdoeleinden, maar om zoveel mogelijk audiovisueel materiaal te archiveren voor het nageslacht. Volgens de strikte definitie van het EAGLES-consortium (zie sectie 4.1) zijn dit dus geen gesproken corpora. De hier bedoelde media worden in eerste instantie gebruikt voor het aankleden van radio- en TV-uitzendingen met historische opnames, en daarnaast ook voor commerciële exploitatie, b.v. verzamel CDs en documentaire video’s. Verder speelt het door de overheid gestimuleerde en gesubsidieerde aspect van behoud van het nationale culturele erfgoed een belangrijke rol. Tot deze categorie behoort het Historisch Archief van het Audiovisueel Archiefcentrum (AVAC) van het Nederlandse Omroepproductie Bedrijf (NOB). Dit is slechts toegankelijk voor buitenstaanders tegen commerciële tarieven en betaling van auteursrecht. De uitzendingen zijn gearchiveerd op volspoor magnetische audiospoelen (éénzijdig bespeeld, 19 cm/sec). Alle bestanden zijn opgenomen in een geautomatiseerde databank, waarbinnen eenvoudig op trefwoord, spreker en opnamedatum gezocht kan worden. Daarnaast is er het Audiovisueel Archief (AVA) van de Stichting Film en Wetenschap (SFW) in Amsterdam. Dit is gemakkelijker (en goedkoper) toegankelijk, maar helaas alleen via een ongeautomatiseerd kaartsysteem (trefwoord, spreker, opnamedatum). Opnames zijn beschikbaar op tweezijdige audiospoelen met een opnamesnelheid van 9,5 cm/sec. De kwaliteit is hiermee minder dan die bij het AVAC. Wel wordt sinds 1994 gearchiveerd op DAT-tapes. De Vlaamse pendant hiervan is het Archief Gesproken Woord van de Belgische Radio en Televisie - Nederlandse Uitzendingen (BRTN). Dit is veel kleiner dan de Nederlandse archieven, en nog niet geheel overgezet op magneetband. Een summier kaartsysteem (trefwoord, spreker en opnamedatum) vergemakkelijkt het zoeken enigszins, hoewel er plannen zijn de databank te automatiseren (Van de Velde, 1996: 65-68). Voorgelezen spraak van goede kwaliteit bevindt zich op een aantal Blindenbibliotheken in Nederland, zoals Le Sage ten Broek in Nijmegen. Op 5 van dergelijke locaties is materiaal van ongeveer 700 sprekers voorhanden.

4

Recente Ontwikkelingen: Gesproken Corpora en Standaardisatie

4.1

Corpora van de Derde Generatie (1990-)

Het is pas in het meest recente stadium dat gesproken corpora werkelijk op effectieve wijze ontsloten kunnen worden dankzij ge¨ıntegreerde computerfaciliteiten voor de opslag en bevraging van geluidsfragmenten in samenhang met de transcripties en documentatie. Hierom kunnen alleen recente corpora voldoen aan de technisch gesproken tamelijk strikte definitie die de EAGLES-werkgroep hanteert, en zijn veel eerdere verzamelingen gesproken taal, tenzij in een later stadium grondig geautomatiseerd en bewerkt, in feite niet meer dan geluidsarchieven, zoals die bij talrijke omroepen zijn opgeslagen: [A] spoken language corpus is “any collection of speech recordings which is accessible in computer readable form and which comes with annotation and documantation sufficient to allow re-use of the data in-house, or by scientists in other organisations.” (Gibbon et al., 1997: 79) 2 Een belangrijk verschil met eerdere corpora is de overgang naar van vooral tekstgebaseerde ontsluiting (waarbij eerst gezocht wordt naar een bepaald deel van de transcriptie, en dan de bijbehorende signaalfile wordt afgespeeld) naar een centrale rol voor de in het gesproken medium essentiële tijdsdimensie. Deze ontbreekt geheel bij geschreven tekst, tenzij verschillende versies van dezelfde tekst naast elkaar bestaan. Computers bieden nu de mogelijkheid, om alle transcripties en annotaties afhankelijk te maken van deze tijdschaal, zonder overigens directe toegang tot of loskoppeling van de afgeleide tekstfiles onmogelijk te maken. In dit stadium wordt het geluidssignaal geheel digitaal opgenomen en verwerkt met een sampling frequentie van 16-20 kHz (8 kHz bij telefoonopnames), met 16-bits A/D-conversie, waarbij geen kwaliteitsverlies van het opgenomen signaal hoeft op te treden. Registratie vindt bij voorkeur plaats op DAT-tapes, met

23

standaard sampling rate van 48 kHz en 16 bits resolutie per sample. DCC-tapes en MiniDisk leiden door gegevenscompressie t.b.v. van efficiënte opslag tot datareductie, en zijn daarom niet geschikt voor gedetailleerde analyse van de weergave. Bovendien levert conservering van deze media later problemen op, omdat de weergaveapparatuur gebruik maakt van speciale algoritmes om het oorspronkelijke signaal zo goed mogelijk te reconstrueren (Van de Velde, 1996: 62). Archivering vindt plaats op de originele DAT-tapes, CD-Recordable (eenmaal beschrijfbaar), CD-ReWritable (meermaals beschrijfbaar) of audiofiles op de harde schijf van een computer. Dat kan in verschillende fileformaten, zoals wav- of sd-formaat (b.v. in samenhang met de XWaves geluidsweergave en -bewerkingssoftware), dan wel A-law (gebruikelijk in Europa) of µ-law (gebruikelijk in de USA). Meer permanente opslag kan gebeuren op slechts éénmaal beschrijfbare media zoals CD-ROM of een WORM-CD (Write Once Read Many). In de toekomst zal DVD (Digitale Video Disk) wellicht als standaard gaan gelden. Deze staat voor opname op 2 kanalen een sampling rate van 192 kHz toe, met 24-bits resolutie. Voor het CGN-project zouden 10 miljoen woorden spraak neerkomen op een opnameduur van 930 uur bruikbaar materiaal. Aangezien rekening gehouden moet worden met reserve-opnamecapaciteit, en het wegediten van ruis en onverstaanbare passages, mag men rekenen op 2000 90M DAT-tapes, waarvan dus 1/3e effectief benut wordt. Het geluidssignaal alleen neemt bij een samplefrequentie van 16 kHz (32.000 byte/sec) 112 GB diskruimte in beslag, dus 172 CD-ROMs of 8 DVDs. Bij een samplefrequentie van 20 kHz (40.000 byte/sec) komt het neer op 134 GB diskruimte, oftewel 207 CD-ROMs/9 DVDs.

4.2

De Opkomst van Internationale Standaards

Het belang van standaards wordt in deze tijd van vele internationale projecten en universeel toegankelijke tekstbestanden op het World Wide Web steeds meer erkend. Aansluiting bij bepaalde expliciet geformuleerde normen, dan wel het navolgen van een succesvol gebleken project (’best practice’, waarbij conformering aan de standaard minder expliciet is) heeft een aantal voordelen. Zo zullen corpora eerder opnieuw gebruikt worden binnen andere projecten, wordt contrastief onderzoek tussen verschillende corpora op verschillende annotatieniveaus werkbaar, kunnen lexica en corpora eenvoudiger worden uitgebreid of samengevoegd, en heeft het schrijven van complexe annotatie- en exploitatietools meer zin, aangezien zij voor meerdere bestanden inzetbaar zijn (Bouma & Schuurman, 1998: 16, Leech et al., 1995: 5). Ook moet in het grotere perspectief gedacht worden aan de mogelijkheid van gedistribueerde opzet van corpora met behulp van tools die onderling eenvoudig kunnen worden uitgewisseld, of zelfs in een virtuele programmeeromgeving voor projectpartners op fysiek gescheiden locaties inzetbaar zijn. Aangezien taaltechnologische projecten vrijwel zonder uitzondering kostbare ondernemingen zijn, kan gesteld worden dat uniformiteit zelfs geboden is, aangezien in het andere geval vrijwel zonder uitzondering sprake zal zijn van substantiële kapitaals- en kennisvernietiging. 4.2.1

SGML

SGML (Standard Generalized Markup Language) is een internationale standaard (ISO 8879: 1986) voor het eenduidig beschrijven van de documentstructuur, met het oog op gemakkelijke uitwisselbaarheid tussen diverse (computer)systemen en druk- of presentatieformaten. Het schrijft dus geen lay-out voor, alleen een structuur waarop de lay-out zich moet baseren. Het beschrijft dus teksten niet met een ’procedural markup’, zoals in een WP of MS-Word document, maar met een ’descriptive’ of ’generic markup’, die de (logische) documentstructuur weergeeft, niet de stijl of de verschijningsvorm. Toepassingen strekken zich dan ook tegenwoordig uit boven het leggen van de grondslag voor latere presentatie. SGML werkt met in ASCII (algemeen computerleesbare tekst) gespecificeerde begin- en eindlabels (’tags’), die op verschillende niveaus tekstdelen kunnen markeren. Aangezien veel documenten tegenwoordig vaak in elektronische èn boekvorm verschijnen, is een gestandaardiseerde weergave van de onderscheiden tekstdelen onontbeerlijk geworden. Naast de onafhankelijkheid van specifieke besturings-, applicatie- en afdruksystemen, heeft SGML ook als belangrijke voordelen dat veel van de tags gebaseerd kunnen zijn op de inhoud van de tekst in plaats van de weergave (b.v. hauthori, hfigurei, hdatei, hquotei), hetgeen het zeer geschikt maakt voor archivering en document retrieval op grond van aldus afgebakende tekst, dat gebruikers hun eigen Document Type Definition (DTD) kunnen specificeren met hun eigen tags, en dat er pointers mogelijk zijn naar andere 24

tekstdelen of documenten, zodat delen van een document afzonderlijk kunnen worden opgesteld, en pas later samengebracht. Zo kan een document ook in zijn uiteindelijke vorm in feite een compositum zijn van fragmenten op diverse locaties (hypertext). Omdat documenten uiteindelijk toch leesbaar moeten zijn in wat voor vorm dan ook, is een aparte standaard ontwikkeld voor de weergave van de van tags voorziene tekstdelen in verschillende applicaties, zoals bold, italic en typewriter. Deze richtlijnen voor style sheets zijn vervat in DSSSL (Document Style Semantics and Specification Language). Editors die het nogal technische en ondoorzichtige opstellen van DTDs en SGML-documenten vergemakkelijken zijn FrameMaker van Adobe, Author/Editor van Interleaf (vroeger: SoftQuad), Multidoc Pro Publisher van het Finse bedrijf Citec en ADEPT, het complete editing- en document managementsysteem van ArborText. Het bekijken, bevragen en afdrukken van documenten kan worden ondersteund door FrameViewer (Adobe), Panorama (Interleaf/SoftQuad) en Multidoc Pro Browser (Citec). 4.2.2

XML

Momenteel vindt een op basis van SGML ontwikkeld tekstmarkeringsformalisme opgang, met name voor gebruik op het World Wide Web (ter vervanging van het nu te beperkte HTML). Dit staat bekend onder de term XML (eXtensible Markup Language). Het is in feite een subset van SGML, met een iets restrictiever gedefinieerde DTD-standaard (Goldfarb & Prescod, 1998: 265-275). XML is dan ook geheel compatibel met SGML. De bedoeling is complete conformering aan de ISO-norm, inclusief mogelijkheden tot uitbreiding (vandaar extensible) met eigen tags, weergave hiërarchische structuren en goede validatietechnieken. Voor de steeds toenemende vervlechting van tekst met multimediale data, zoals afbeeldingen, audiofragmenten en video, is een andere uitbreiding van SGML ontwikkeld met de naam HyTime (Hypermedia/Timebased Structuring Language). Deze is vastgelegd als een aparte standaard voor gestructureerde opslag en retrieval van met hyperlinks gerelateerde multimedia en tijd-gebaseerde systemen (audio, beeld, video, muziek), nl. ISO 10744: 1992. Net als in SGML en HTML, is het mogelijk om XML-conformante tekstbestanden te verbinden met externe, non-XML objecten via hyperlinks, zoals plaatjes, audio en video. Deze worden ongeparseerde entiteiten genoemd. Voor elke non-XML entiteit is er een notatie die aangeeft om welk data-object of fileformaat het gaat, b.v. Waveform of A-law (Goldfarb & Prescod, 1998: 39). De standaard hiervoor is gebaseerd op HyTime, en draagt de naam XLink (Extensible Linking Language) 3 . Deze werkt met de concepten XPointer (voor het link mechanisme) en URI’s (Uniform Resource Identifier, een uitbreiding van de URLs uit de HTML-standaard) voor het identificeren van de verbonden bestanden (Goldfarb & Prescod, 1998: 499-515). Een extra mogelijkheid binnen XLink is extended linking, zeg maar meervoudige hyperlinks tussen documenten, zodat niet alleen 1-1 relaties kunnen worden gelegd zoals in HTML, maar 1-N, b.v. tussen een woord en alle documenten waarin het voorkomt. Ook zijn XLinks bidirectioneel, en dus in feite n-directioneel (N-N), zodat er gemakkelijk heen en weer gescrolled kan worden tussen parallelle versies van dezelfde tekst; wanneer men van ankerpunt A1 in tekst 1 springt naar ankerpunt A2 in tekst 2, kan men ofwel via dezelfde link terug, ofwel in tekst 2 verder scrollen en dan van ankerpunt B 2 weer naar het overeenkomende ankerpunt B1 in tekst 1. Dit zou van groot belang kunnen zijn bij het editen maar ook later bevragen van transcriptieen annotatiefiles voor het CGN (Goldfarb & Prescod, 1998: 177-188). Een andere uitbreiding is het maken van annotaties (b.v. commentaar, maar ook lijsten met ’related sites’) bij Webdocumenten, waar men zelf geen update privilege voor heeft. Deze worden dan via hyperlinks verbonden met de brontekst, en zijn zichtbaar voor iedereen die met de tekst werkt, zonder dat ze er onlosmakelijk deel van uitmaken. In termen van het CGN-project zou een dergelijk mechanisme nuttig kunnen zijn voor het leveren van commentaar, b.v. op twijfelachtige of foutieve transcripties, zonder dat de oorspronkelijke tekst wordt aangetast. Aangezien de standaard voor dit mechanisme nog in ontwikkeling is, is hier een voorbeeld van hoe een dergelijke annotatie eruit zou kunnen zien: 3 In

feite is er meer dan één inspiratiebron. Xlink is direct gebaseerd op de extended pointer syntax van het TEI; de beide redacteuren van TEI, Burnard en Sperberg-McQueen, hadden dan ook zitting in het comité dat de XML-specificaties opgesteld heeft.

25

Niet-verbale vocale klanken zijn hier ten onrechte orthografisch getranscribeerd! Wanneer men een stap verder denkt, dan komt men al gauw op het gebruik van XML, in combinatie met object-georiënteerde programmeertalen als Java en C++, voor het creëren van middleware, een integratielaag, waarbij allerlei gerelateerde documenten, databases en multimedia kunnen worden aangeroepen vanuit een interface, die van alle applicatie-specifieke codes abstraheert tot één gemeenschappelijk datamodel. Zo kunnen woordgegevens uit heel divers ge¨ımplementeerde lexicale databanken (platte ASCII-files met delimiters, relationele databanken, gehyperlinkte Webdocumenten, etc.) worden gebruikt om teksten grammaticaal te verrijken, zolang maar duidelijk is hoe bepaalde velden in de bronnen te mappen zijn op de (in dit geval door het TEI aanbevolen) elementen hentryi en hposi (part of speech). Voor deze applicatie-interfaces (API’s) zijn verschillende modellen ontwikkeld, zoals CORBA (Common Object Request Broker Architecture) en DCOM (Distributed Component Object Model). Om de ene applicatietaal of DTD-versie naar een andere te vertalen (immers, elk bedrijf kan zijn eigen DTD hanteren) is dan nog een IDL (Interface Definition Language) nodig. Zo heeft het bedrijf webMethods b.v. een voor het Web geschikte IDL ontwikkeld onder de naam WIDL, die gebruik maakt van XML als tussentaal. Voor concrete voorbeelden zie de secties 4.2.4 en 6 over de resource-onafhankelijke NLP-architecturen MATE en GATE. Daarnaast is er voor XML een variant van de SGML-style sheet DSSSL ontwikkeld onder de naam XSL (Extensible Style Language). Deze draagt ook elementen in zich van de HTML-extensie Cascading Style Sheets, en maakt daarmee deze overbodig. XML maakt voor de karakterrepresentatie gebruik van de nieuwe Unicode-standaard (ISO/IEC 10646-1: 1993). Deze code heeft met zijn 16 bits lengte één byte meer tot zijn beschikking dan 7- of 8-bits ASCII en kan daarmee alle schrijfsystemen weergeven, inclusief Chinese ideogrammen, hiërogliefen en Arabische karakters. Van belang voor het CGN-project is, dat er in Unicode 2.0 ook een IPA-set is gedefinieerd voor fonetische symbolen. Zie de URL: http://www.unicode.org/ Editors die het nogal technische en ondoorzichtige opstellen van DTDs en XML-documenten vergemakkelijken zijn FrameMaker+SGML van Adobe en XMetaL van SoftQuad. Verder zijn er complete editing- en document managementsystemen verkrijgbaar, zoals ADEPT, Astoria en POET Content Management Suite van resp. ArborText, Chrystal Software (een onderdeel van Xerox) en POET Software. Deze bieden zoveel functionaliteit op het gebied van het editen, bekijken, bewerken, opslaan, bevragen en verplaatsen van document-componenten, dat het nuttig is voor het CGN de inzet van dergelijke pakketten te onderzoeken. Er zijn trouwens ook steeds meer freeware editors en viewers voorhanden. Op het meer proza¨ısche vlak van integratie van XML-documenten binnen bestaande Webbrowsers – vooral van belang voor de alledaagse end-user – zal Netscape de functionaliteit van XML inbouwen in Communicator 5.0 onder de applicatienaam Aurora. Microsoft’s Internet Explorer 4.0 laat validatie toe van XML-documenten d.m.v. een parser, maar de viewer vertaalt nog XML naar HTML. Internet Explorer 5 daarentegen biedt reeds volledige ondersteuning van het XML document object model (1.0). Zeer veel informatie over SGML en XML, evenals veel gratis software (editors, parsers) is tenslotte te vinden op de Websites van het officiële World Wide Web Consortium (W3C): http://www.w3.org en eveneens bij de zeer fanatieke software-ontwikkelaars James Clark: http://www.jclark.com 26

en Patrice Bonhomme: http://www.loria.fr/˜bonhomme/xml.html Als meer recente ontwikkeling is er bij W3C nu een standaard in de maak, die allerlei eerdere hypertext standaards en aanbevelingen integreert voor de bouw van multimediale databases. Deze staat bekend onder de naam SMIL (Synchronized Multimedia Integration Language). Deze beoogt: • Beschrijving van de precieze tijdgebaseerde structuur van de multimedia-applicatie. • Beschrijving van de precieze verschijningsvorm van de applicatie op het scherm. • Het verbinden van hyperlinks aan mediaobjecten. Informatie over deze standaard in wording is het vinden onder URL: http://www.w3.org/TR/REC-smil Hierbij moet evenwel worden aangetekend, dat de lingu¨ısten Bird en Liberman in hun paper tot de (omzichtige) conclusie komen, dat de toekomst van SMIL onzeker is, en SMIL sowieso ongeschikt lijkt voor lingu¨ıstische annotatie (1999: 28). Dit zou betekenen, dat de gedetailleerde synchronisatie van de datastroom met een aantal tiers die CGN wenst binnen SMIL niet mogelijk is, slechts een grove specificatie van objecten die tegelijkertijd moeten worden vertoond. Een ander teken van convergentie op dit gebied is de evolutie van standaards die gespecificeerd worden door de internationale ISO/IEC MPEG-werkgroep (Moving Pictures Experts Group). Dit team omvat deelnemers uit de wereld van de omroepen, hardware- en softwarefabrikanten, telecombedrijven, uitgevers en academische onderzoeksinstellingen. Aanvankelijk beperkte de MPEG-groep zich tot het formuleren van standaards voor beelden geluidscompressie, -distributie en -decodering, inmiddels hebben zij zich ook toegelegd op de integrale beschrijving van natuurlijke en synthetische (door computer gegenereerde) beelden geluidsobjecten. De DDL (Description Definition Language), waarin de diverse mediaobjecten en hun onderlinge relaties zijn vastgelegd, is gebaseerd op het bovengenoemde XML-protocol. In het bewuste, laatste voorstel, MPEG-7, houdt men zich bezig met de definitie van een Multimedia content description interface. Hierin zijn temporele en spatiële referenties, die nodig zijn voor een vloeiende, zelfs real-time gebaseerde synchronisatie van beeld, geluid, tekst en andere multimedia geformaliseerd. Het sluit hiervoor aan bij het Real-Time Protocol (RTP). De relatie met XML impliceert dat de ge¨ıntegreerde data of de te associëren data niet op een fysiek locatie of systeem aanwezig hoeven te zijn, maar ook in een gedistribueerde omgeving. De specificaties strekken zich uit tot het integreren van annotatielagen bij het beeld of geluid, zoals al dan niet automatisch genereerde transcripties, ondertiteling, geluidssporen, gebarentaal en achtergrondinformatie in diverse talen. MPEG-7 specificeert evenwel niet de methoden van informatie-extractie of retrieval, slechts de syntax waarin de objecten worden beschreven, hun relaties en een aantal min of meer standaardobjecten en -schemata (vergelijkbaar m.a.w. met de SGML- en TEI-standaards). Het uiteindelijke doel is multimediale databases op een uniforme manier toegankelijk te maken voor Internet-zoekmachines, op eenzelfde manier als tekstuele dataverzamelingen momenteel ontsloten kunnen worden d.m.v. tekstgebaseerde zoekvragen en (sommige) meta-indexen. Een voorlopige versie van de standaard is gepland voor december 1999, een definitieve versie voor juli 2001. Het MPEG-initiatief overlapt gedeeltelijk met de W3C-activiteiten, maar gaat ook een stap verder, daar W3C op dit terrein momenteel (mei 1999) minder actief lijkt te zijn (zie hierboven onder SMIL). In die zin mag wellicht meer verwacht worden van de MPEG-standaards dan SMIL en dergelijke. Informatie over deze standaard in wording is het vinden onder URL: http://www.cselt.it/mpeg/ (of: http://drogo.cselt.stet.it/mpeg/)

27

Het moge duidelijk zijn, dat bij een project als het CGN, waarbij ook sprake is van multimediale data, en mogelijk verschillende wijzen van weergave en publicatie, het in ieder geval noodzakelijk is aansluiting bij internationale standaards als SGML, XML en MPEG te overwegen. Bovendien is het een hoopgevende ontwikkeling, dat er steeds meer dwarsverbanden aan te wijzen zijn tussen de diverse normalisatie-instituten. Zo heeft W3C zich niet alleen in februari 1998 gecomitteerd aan de XML-standaard, maar wil het TEI (zie sectie 4.2.2) zijn codeerschema volledig gaan aanpassen aan XML. Dit hangt evenwel af van aanvullende financiering voor het TEI, die op dit moment nog hoogst onzeker is (E-mails C M Sperberg-McQueen, TEIList, 10-2-98; LINGUIST List 9.1404, 9-10-1998). Het is uiteraard wel zaak een onderscheid te kunnen maken tussen de wezenlijke, breed gedragen initiatieven op dit vlak, en minder gestructureerde zijpaadjes en doodlopende steegjes. 4.2.3

TEI

Het Text Encoding Initiative is een internationaal consortium van wetenschappers, dat als doel heeft nadere specificaties van de SGML-code op te stellen voor het markeren van de structuur van bepaalde teksttypen, zoals gesproken teksten, woordenboeken en gedichten. Het doet vooral aanbevelingen voor codering t.b.v. de uitwisselbaarheid van teksten, maar omvat ook regels voor het samenvoegen van tekst met beeld en geluid in multimediale applicaties. De codeerschema’s beperken zich niet tot het weergeven van teksten in de oorspronkelijke vorm, die meestal als doel had de leesbaarheid en expressiviteit te ondersteunen, maar dienen ook voor het verrijken van de tekst met annotaties met het oog op onderzoek, zoals vertalingen van en glossen bij passages, voetnoten, pointers (hyperlinks) naar gerelateerde fragmenten, verschillende, parallelle versies van dezelfde tekst en grammaticale analyse. De aanbevelingen, Guidelines, werden in 1994 gepubliceerd na 6 jaar research, die gesponsord werd door een groot aantal internationale publieke instanties. Bij de TEI heeft ieder teksttype heeft zijn eigen DTD (Document Type Definition), die gezien kan worden als een sterk aanbevolen, doch meestal niet verplicht opgelegde grammatica, waaraan de voor presentatie of publicatie aangeleverde teksten moeten voldoen. Elke tekst heeft bovendien een eigen ’header’, die informatie geeft over de bijbehorende tekst. Deze omvat bibliografische informatie, zoals je die kunt aantreffen op de titelpagina van een boek, aanduidingen van de manier waarop de elektronische tekst conventies van de brontekst weergeeft (encoding), het tekstprofiel (aanmaakdatum, gebruikte taal, genre) en revisie-informatie (bij verschillende versies). Omdat de volledige reeks elementen, attributen en regels zich uitstrekt tot enige honderden codes, die gedocumenteerd zijn in 1300 pagina’s (sic) Guidelines, is er een subset gedefinieerd onder de naam TEI Lite, die de algemene labels voor alle teksttypen omvat. TEI Lite wordt nu toegepast als minimale codeerset bij het Oxford Text Archive en de Elektronische Tekstcentra van de Universiteiten van Virginia en Michigan. Voor het CGN-project zijn vooral de ’tags’ van belang voor gesproken corpora. Een beschrijving hiervan is te vinden in Sperberg-McQueen & Burnard (1994: 297-320). De basis-tagset voor spraak, die in dit hoofdstuk wordt voorgesteld, is samen met de ’core’ set en alle andere tekst-specifieke sets (m.a.w. de volledige DTD) kant-en-klaar op te halen op de ftp-site van het TEI onder URL: ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/p3dtds.tar.gz Middels een eenvoudige declaratie: h!ENTITY % TEI.spoken ’INCLUDE’ i kan hij worden opgenomen in de transcriptiefiles. Daarnaast zijn alle standaard-elementen van de ’core’ set voor alle teksttypes binnen de basiscodes automatisch toepasbaar, zoals hsi voor ’zinseenheid’. Op een hoger niveau bevatten de TEI Guidelines ook mechanismen om tekstverzamelingen te coderen, die uit zeer divers bronmateriaal bestaan, maar niettemin een eenheid vormen. Dit geldt bijvoorbeeld voor anthologieën, maar zeker ook voor corpora voor lingu¨ıstisch onderzoek zoals het CGN. Deze zijn beschreven in Sperberg-McQueen & Burnard (1994: 643-664). Een voorbeeld van een dergelijke ’composite text’ voorzien van TEI-tags is het volgende. Er is een algemene teiHeader-file met globale, onveranderlijke informatie over 28

de complete tekstverzameling; daaronder in de hiërarchie bevinden zich individuele teiHeaders voor elke tekst die de verschillen tussen de teksten tot uitdrukking brengen: ... ... ... ... ... De extra tag-set voor taalcorpora kan evenals de spoken base set worden aangeroepen vanuit de tekstfile, zowel vanuit de overkoepelende file van een tekstverzameling als vanuit de afzonderlijke teksten of samples. Het is in feite een extensie van het standaard-element hprofileDesci. h!ENTITY % TEI.corpus ’INCLUDE’ i Een context-vrije grammatica van alle voordefinieerde elementen die in het bijzonder van belang zijn voor spraak (samengesteld uit de ’spoken’, en ’corpus’ base sets en relevante delen van de teiHeader) is de volgende:

29

teiHeader ::= textDesc

::=

mode

::=

type1 type2 type3 type4 type5 active passive type6 type7 degree particDesc person personGrp DemoInfo

::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::=

sex particLinks type8 mutual settingDesc

::= ::= ::= ::= ::=

fileDesc

::=

type9 encodingDesc

::= ::=

(= addtional header file for corpora, either for full corpus or individual texts) any(htextDesci hparticDesci (= participants) hsettingDesci hfileDesci hencodingDesci) any(hchannel ’mode’i hconstitution ’type 1 ’i hderivation ’type2 ’i hdomain ’type3 ’i hfactuality ’type4 ’i hinteraction any(’type5 ’ ’active’ (participants) ’passive’ (participants)) hpreparedness ’type6 ’i hpurpose any(’type7 ’ ’degree’)i ’s’(poken) | ’w’(ritten) | ’sw’ (= spoken to be written) | ’ws’ (= written to be spoken) | ’m’(’ixed’) | ’x’ (= ’unknown’) ’single’ | ’composite’ | ’frags’ | ’unknown’ ’original’ | ’revision’ | ’translation’ | ’abridgment’ | ’plariarism’ | ’traditional’ ’art’ | ’domestic’ | ’religious’ | ’business’ | ’education’ | ’govt’ | ’public’ ’fiction’ | ’fact’ | ’mixed’ | ’inapplicable’ ’none’ | ’partial’ | ’complete’ | ’inapplicable’ ’singular’ | ’plural’ | ’corporate’ | ’unknown’ ’self’ (e.g. audio diary) | ’single’ | ’many’ | ’group’ | ’world’ ’none’ | ’scripted’ | ’formulaic’ | ’revised’ ’persuade’ | ’express’ | ’inform’ | ’entertain’ ’high’ | ’medium’ | ’low’ | ’unknown’ any((hpersoni | hpersonGrpi) hparticLinksi) DemoInfo any(DemoInfo ’size’) any(’role’ ’sex’ ’age’ hbirth ’date’i hfirstLangi hlangKnowni hresidencei heducationi haffilationi hoccupation any(’scheme’ ’code’)i hsocecStatus any(’scheme’ ’code’)i) ’m’ | ’f’ | ’u’ any(hrelation ’type8 ’ ’desc’ ’active’ ’passive’ ’mutual’)i ’social’ | ’personal’ | ’other’ ’y’ | ’n’ any(hsetting ’who’i hname ’type 9 ’i hdate ’value1 ’i htime ’value2 ’i hlocalei hactivityi) any(hscriptStmti hrecordingStmti hrecording ’type 9 ’ ’dur’i hequipmenti hbroadcasti) ’audio’ | ’video’ any(hprojectDesci hsamplingDecli heditorialDecli htagsDecli hrefsDecli hclassDecli hfsdDecli (= feature system) hvariantEncodingi)

30

SpokenText type1 org sample part div

::= ::= ::= ::= ::= ::=

trans type2 dur iterated gradual type3 timed feature4 tempo loud pitch tension rhythm voice

::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::= ::=

EditChg

::=

SynchPoint timeLine

::= ::=

hdiv any(’type1 ’ ’org’ ’sample’ ’part’)i ’sound fragment’ | ’discussion’ | ’interview’ | ’...’ ’composite’ (= unclear sequence) | ’uniform’ (= logical unit with clear sequence) ’initial’ | ’medial’ | ’final’ | ’unknown’ | ’complete’ ’y’ | ’n’ | ’i’(nitial) | ’m’(edial) | ’f’(inal) (i.e. whether division is fragmented or not) many(hu(tterance) any(’who’ ’trans’(ition) ’timed’)i hpause any(’who’ (’type 2 ’ | ’dur’(ation)) ’timed’)i hvocal(ized, non-lexical event) any(’who’ ’desc’ ’iterated’ ’timed’)i hkinesic(= non-vocalized, communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)i hevent(= non-communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)i hwriting(= writing shown while speaking) any(’who’ ’gradual’ (= is writing revealed gradually?) ’type3 ’ ’timed’)i hshift any(’feature’ ’new’)i EditChg SynchPoint) ’smooth’ | ’latching’ | ’overlap’ | ’pause’ ’short’ | ’medium’ | ’long’ [123456789]+ ’y’ | ’n’ | ’u’(nknown) ’y’ | ’n’ | ’u’(nknown) ’subtitle’ | ’noticeboard’ | ’slide’ | ’...’ ’start’ | ’end’ | ’dur’ ’tempo’ | ’loud’ | ’pitch’ | ’tension’ | ’rhythm’ | ’voice’ ’a’ | ’aa’ | ’acc’ | ’l’ | ’ll’ | ’rall’ ’f’ | ’ff’ | ’cresc’ | ’p’ | ’pp’ | ’dimin’ ’high’ | ’low’ | ’wide’ | ’narrow’ | ’asc’ | ’desc’ | ’monot’ | ’scand’ ’sl’ | ’lax’ | ’ten’ | ’pr’ | ’st’ | ’leg’ ’rh’ | ’arrh’ | ’spr’ | ’spf’ | ’glr’ | ’glf’ ’whisp’ | ’breath’ | ’husk’ | ’creak’ | ’fals’ | ’reson’ | ’giggle’ | ’laugh’ | ’trem’ | ’sob’ | ’yawn’ | ’sigh’ any(hsic (incorrect/inaccurate text) any(’corr’ ’resp’(onsible editor) ’cert’(certainty))i hcorr any(’sic’(original form) ’resp’ ’cert’)i hreg(ularization) any(’orig’ ’resp’)i horig any(’reg’ ’resp’)i hgap any(’desc’ ’reason’ ’extent’ ’resp’)i hunclear any(’reason’ ’resp’)i hdel any(’type’ ’status’ ’resp’ ’hand’ ’cert’)i h...i) hanchor any(’id’ ’synch’)i | htimeLine ’unit’i many(hwhen any(’id’ ’absolute’ ’interval’ ’since’) i)

Een voorbeeld van een gesproken fragment, waarin een aantal van deze codes is toegepast, is het volgende: you never <pause> take this cat for show\&sp;and\&sp;tell <pause> meow meow yeah well I dont want to <event desc= ’toy cat has bell in tail which continues to make a tinkling sound’> because it is so old how about your\&stress; cat <pause> yours is new \&stress; thats <pause> darling <s>no mine\&stress; isnt old <s>mine is just um a little dirty Verder is in uitgebreide mogelijkheden voorzien voor synchronisatie van de transcriptie van overlappende spraak. Dat varieert van het simpele attribuut ’trans’ met waarde ’overlap’, via hanchori-elementen op 31

bepaalde plaatsen in de tekst tot precieze tijdsaanduidingen met het htimeLinei-element. Deze elementen en attributen kunnen op talloze manieren worden toegepast. Aspecten van dit onderdeel van de TEI DTD zijn beschreven in Sperberg-McQueen & Burnard (1994: 313-317, 393-440). Het attribuut htransi (overgang) is zeer eenvoudig toepasbaar, maar ook zeer onnauwkeurig (transcriptie uit het Speech Styles corpus, spreker id 12, door mij voorzien van TEI-tags): ik denk dat ut wel kan ik weet dat ut net . de twee minuten of zo . haalt ja ja ja ja ik wil wel verder gaan maar . Hierbij wordt het niet duidelijk op welk moment het ’ja ja’ overlapt met het commentaar van de interviewer. Dat gaat een stuk nauwkeuriger met behulp van het hanchori-mechanisme: ik denk dat ut wel kan ik weet dat ut net . de twee minuten of zo . haalt ja ja ja ja ik wil wel verder gaan maar . In dit geval is het duidelijk dat het ’ja ja’ samenvalt met de frase ’zo uh’ (de aarzeling) van de interviewer. Deze soort van synchronisatie is echter nog steeds geheel op de transcriptie gebaseerd, en zegt niets over de tijdsrelatie, m.a.w. hoe de fragmenten zich tot elkaar verhouden in het akoestisch signaal. Een methode die het TEI hiervoor aanreikt is het element htimeLinei, hier met centi-seconden als tijdseenheid: <when id=s1 absolute=’’00:03:59.05.46’’> <when id=s2 interval=92 since=s1> ik denk dat ut wel kan ik weet dat ut net . de twee minuten of zo . haalt ja ja ja ja ik wil wel verder gaan maar . Wat hier echter altijd nog ontbreekt is een daadwerkelijke link tussen de transcriptie en het oorspronkelijke signaal, aangezien iemand die de bovenstaande overlapping wil bestuderen op zoek moet gaan naar de tape of de audiofile en deze moet aftasten tot het gewenste moment is bereikt. Hiervoor kan een op het HyTimeprotocol gebaseerd link mechanisme dienen, dat gebruik maakt van extended pointers m.b.v. het element hxptri: <xptr id=s1 doc=sample.wav from=’’00:03:59.05.46’’> <xptr id=s2 doc=sample.wav from=’’00:03:59.06.38’’> ik denk dat ut wel kan ik weet dat ut net . de twee minuten of zo . haalt ja ja ja ja ik wil wel verder gaan maar . 32

De extra tag-set die dergelijke linking met andere files en media beregelt kan worden aangeroepen vanuit de documentfile met het commando: h!ENTITY % TEI.linking ’INCLUDE’ i Een nadeel van de TEI-conventies is dat het slechts aanbevelingen zijn. Aan de ene kant wordt de codeur hierbij vrijgelaten om zijn eigen definities te hanteren, of de tagset uit te breiden, aan de andere kant betekent dit dat volgens de Guidelines b.v. de inhoud van het hvocali-element ook als gewone tekst kan worden beschouwd (b.v. de aarzeling ’uh’), dat i.p.v. &stress voor ’emfatische klemtoon’ ook hemphi gebruikt zou kunnen worden, dat het htransi-element ook vervangen kan worden door gedetailleerde synchronisatiesymbolen, dat voorgelezen spraak ook zou kunnen vallen onder de hwritingi-tag, of zelfs het heventi ’reading’, etc. Hiermee worden wel erg veel opties opengelaten. Het verdient daarom aanbeveling om bij het gebruik van de TEI-richtlijnen een gedetailleerd codeerprotocol op te stellen, en niet te vertrouwen op de eenduidigheid van de TEI-codes. Dit protocol kan het best ge¨ımplementeerd worden in een interactieve editor, zodat de codeur meteen gewezen wordt op niet toegestane labels, en labels die in een verkeerde context (d.w.z. niet in de juiste hiërarchische relatie tot andere labels) worden gebruikt. Ook zal hij zo steeds alleen die codes uit het menu kunnen kiezen, die relevant zijn voor de bepaalde editing context. Dit werkt beter dan controle achteraf. Een ander groot nadeel is de gedetailleerdheid van de aangeboden codes. Dit blijkt al uit de formulering door het consortium zelf van de TEI Lite set. Dit aspect wordt ook onderkend door de EAGLES-werkgroep: An annotation system such as that proposed by the Text Encoding Initiative is very elaborate and makes heavy demands on a transcriber, but also makes it possible to derive all relevant information from a transcription. While the TEI system makes use of SGML, which guarantees that existing software can be used, there is a large initial learning curve for the transcriber, which multiplies the possibility of human error in the transcription (Gibbon et al., 1997: 168). Daarom is het verstandig, om bij de grote hoeveelheid van elementen en attributen een onderverdeling te maken naar relevantie: verplicht code moet in elke transcriptie van opname of sample van opname aanwezig zijn. aanbevolen code aangeven als het praktisch uitvoerbaar is. Wanneer dat niet gaat, dan is een opmerking hierover verplicht. Deze codes zouden in een later stadium, indien er extra tijd of geld overschiet, alsnog moeten worden aangebracht. optioneel code alleen aangeven als dit uitvoerbaar is. Het weglaten is niet zo belangrijk dat hierover een notitie gemaakt moet worden. Deze strategie komt overeen met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825834). Om juist het probleem van de zeer algemene toepasbaarheid van de TEI-aanbevelingen aan te pakken (waardoor de set aan de ene kant te uitgebreid is, en aan de andere kant niet specifiek genoeg voor bepaalde teksttypes), hebben onderzoekers die reeds werkzaam waren in de EAGLES-groep, het TEI, het Europese Multext-project en de afdeling Computer Science van Vassar College, USA (Nancy Ide c.s.) gezamenlijke stappen ondernomen om een minimale set regels op te stellen voor de structuur en annotatie van elektronische tekstcorpora voor taalkundig onderzoek. Dit staat bekend onder de naam Corpus Encoding Standard (CES). De aanbevelingen van de CES omvatten in aanzet zowel geschreven als gesproken corpora, en hebben ook betrekking op taalkundige annotatie met morfosyntactische codes, oplijning van parallelteksten, fonetische transcriptie, etc. De bedoeling is dat de voorstellen terugvloeien naar het TEI. De CES voorziet in verschillende, gescheiden niveaus van markering, waarvan het basisniveau (dat de tekststructuur weergeeft) de uitwisselbaarheid van de teksten tussen verschillende platforms en applicaties moet garanderen. Dit noemt de CES de primaire data, i.t.t. de taalkundige verrijking, die als supplementair wordt gezien. Volgens de Website van de CES: 33

http://www.cs.vassar.edu/CES/ zijn momenteel evenwel alleen richtlijnen voorhanden voor krantenteksten. Ondanks het in velerlei opzicht nog schetsmatige karakter van de richtlijnen, is CES reeds toegepast in de Europese projecten Multext, Multext-East (Oost-Europa), PAROLE en TELRI. In de USA is onlangs besloten dit als standaard te gebruiken voor de TIPSTER-tekstcorpora. Een hernieuwde financiering moet de geconstateerde hiaten in teksttypen opvullen, en eveneens de conversie van CES naar XML mogelijk maken (Nancy Ide, persoonlijke communicatie). 4.2.4

EAGLES

EAGLES (Expert Advisory Group on Language Engineering Standards) is een Europese adviesgroep die standaards definieert voor de opbouw en codering van tekstcorpora, computationele lexica en spraakcorpora, voor manipulatie en bewerking van deze bestanden met programmatuur, en voor het benaderen en evalueren van deze bestanden. Anders dan bij de hierboven genoemde, officieel vastgelegde internationale ISO-standaards, gaat het bij EAGLES net als bij het TEI niet om dwingend opgelegde criteria, maar eerder om volgens een breed forum van wetenschappers zeer nuttig geachte aanbevelingen. Immers, (...) spoken language technology is still a relatively young area and thus the so-called standards that are discussed here represent only the first rung of the ladder towards the more formal standards which might emerge at a later date. The use of the term “standards” in the R&D community and in the context of this handbook is more usefully interpreted in terms of guidelines and recommended practices. The emergence of more prescriptive actions such as professional codes of conduct, quality marks and formal standards still lies very much in the future (Gibbon et al., 1997: 6). Niettemin geldt voor EAGLES net als voor het TEI, dat de aanbevelingen in de praktijk hetzelfde gewicht kunnen hebben als ISO-standaards, aangezien bij het aanvragen van internationale projecten veelal aansluiting bij deze richtlijnen wordt geëist. Het EAGLES Handbook bevat aanbevelingen die soms erg algemeen en voor de hand liggend zijn, en soms heel concreet. Dat eerste kan niet alleen verklaard worden uit het gedeelde auteurschap en het onderliggende Europese consortium. Het heeft er zeker ook mee te maken dat gesproken corpora voor een veelheid aan doeleinden worden aangelegd, van b.v. veldopnames op Walkmans voor sociologisch onderzoek tot in een studio gemaakte, vrijwel geruisloze opnames van afasiepatiënten voor psycholingu¨ıstische analyse. Er is m.a.w. veelal geen eenduidige richtlijn te hanteren, hoogstens het advies van de best mogelijke organisatie en techniek gegeven de doeleinden. We zullen hierom niet alle aanbevelingen reproduceren over opnametechnieken, digitalisering van het signaal, wettelijke problemen, etc. In plaats daarvan concentreren we ons op een aantal hoofdpunten van belang voor de corpusopbouw en -annotatie. Bij de samenstelling van het corpus valt aan een aantal, min of meer duidelijk te onderscheiden tekstcategorieën te denken, op een schaal van zeer artificiële spraak tot de meest spontane spraak (Gibbon et al., 1997: 99-106): 1. Voorgelezen fonemen, al dan niet in neutrale context (dat laatste is noodzakelijk bij niet-continuante klanken). 2. Voorgelezen woorden in isolatie: lexicale woorden, dan wel fonotactisch correcte nonsenswoorden. 3. Voorgelezen zinnen in isolatie. Dit varieert van woorden in een neutrale, steeds herhaalde ’carrier sentence’, zinnen met meer betekenisvolle, maar ongerelateerde inhoud, voorgedrukte antwoorden op eveneens voorgedrukte vragen, tot fonetisch rijke zinnen (alle fonemen van de taal vertegenwoordigd) en fonetisch gebalanceerde zinnen (alle fonemen van de taal vertegenwoordigd in hun juiste frequentieverhouding). 4. Voorgelezen tekstfragmenten, dus zinnen in contextuele samenhang.

34

5. Semi-spontane spraak. Deze wordt op de een of andere manier geprompt met korte, gerichte vragen. Typische voorbeelden zijn het noemen van je geboortedatum, je adres, leeftijd, etc. Hierbij is al redelijke variatie mogelijk, zoals ’ik ben 23 jaar oud’, ’23’, ’23 jaar’, ’net 23’, etc. 6. Spontane spraak over een afgesproken onderwerp. B.v. het navertellen van een verhaal, het beschrijven van een plaatje, maar ook dialogen waarbij de interviewer de discussie een bepaalde richting in stuurt. 7. Gesimuleerde mens-machine dialoog (Wizard of Oz). Hierbij speelt een mens de rol van computer in een eerste testfase, om later een daadwerkelijk geautomatiseerd systeem te kunnen implementeren. 8. Spontane spraak. Een wezenlijk probleem hierbij is, hoe men een situatie kan creëren, waarin de participant denkt dat hij niet wordt geobserveerd, of zijn uitingen niet worden opgenomen. • Gebruik verborgen microfoons. Nadelen: slechte opnamekwaliteit en toestemming van participanten moet achteraf worden gevraagd, met risico van weigering. Hierbij moet wel worden aangetekend, dat bij het British National Corpus slechts zeer weinig mensen toestemming achteraf weigerden, mits de opnames werden geanonimiseerd. Evenwel kan het feit dat het BNC slechts uit transcripties bestaat zonder het geluidssignaal hierop van invloed zijn geweest. EAGLES stelt daarom voor alleen clandestiene opnames te maken als dit echt noodzakelijk is (Gibbon et al., 1997: 122). • Microfoon open zetten of laten staan buiten de aangekondigde opnametijd, b.v. bij introductiegesprek of evaluatie/informeel gesprek achteraf. • Vragen naar emotionele gebeurtenissen, vanuit de verwachting dat deze spraak de aanwezigheid van microfoon en interviewer doet vergeten. • Iemand uit de sociale kring van de participant erbij betrekken.

• Adolescenten interviewen. Zij worden geacht nog niet zo goed hun spraak te kunnen formaliseren en te monitoren. Voordat met het opnameproces kan worden aangevangen, zal eerst een zo representatief dan wel zo gespreid mogelijke groep sprekers moeten worden aangetrokken. EAGLES reikt hiervoor een aantal aandachtspunten aan: Bepalen samenstelling van een breed geschakeerde groep participanten (Gibbon et al., 1977: 107-118). Stabiele variabelen: Demografische factoren geboorteplaats, woonplaats, opleidingsniveau, beroep, inkomen. Onderscheid moet worden gemaakt tussen geboorteplaats en plaats waar men opgegroeid is. De middelbare schoolperiode wordt hierbij als de uiteindelijk meest vormende periode gezien. Deze noteren. Het precieze onderscheid tussen de sociale klassen onderling is lastig vast te stellen. Geadviseerd wordt de grove indeling in: lagere, midden- en hogere klasse op grond van de factoren opleiding, werk en inkomen. Voor wat betreft allochtonen adviseert EAGLES slechts mensen met licht accent op te nemen. Geslacht man-vrouw. Geadviseerd wordt verhouding 50/50. Bij kinderen is dit veel minder van belang. Leeftijd stemkwaliteit verschilt van leeftijdsgroep tot leeftijdsgroep, maar niet met duidelijke scheidslijnen. Geadviseerd wordt te denken in termen van 3 categorieën: 0-20, 20-60 en 60+. Voor wat betreft vocabulaire en syntax, mag men veronderstellen dat de gespreksonderwerpen tussen ouderen en jongeren verschillen. Of dat echter van invloed is op het vocabulaire en de grammatica is niet duidelijk. Gewicht en grootte deze zijn kennelijk van invloed op de stemkwaliteit. Daarom noteren. Rook- en drinkgewoontes deze zijn kennelijk van invloed op de stemkwaliteit (schorheid/heesheid). Daarom noteren.

35

Pathologische spraak EAGLES beveelt opname aan in algemeen corpus, maar dat kan natuurlijk bepaalde normale fenomenen in zekere mate scheeftrekken. Een compromis kan zijn alleen b.v. lichte pathologische spraak (schorheid, heesheid, fluisterstem) toe te laten. Aandachtsgebieden: fysiologische afwijkingen (gespleten gehemelte, hazenlip, ontbreken van tanden, verlammingen, afasie), fysiologischemotionele afwijkingen: stotteren, ’cluttering’. Getraind versus ongetraind men moet er rekening mee houden, dat veel TV- en radiosprekers, maar ook professionele sprekers (politici, zakenmensen) een spraaktraining achter de rug hebben, en daarom ’overdreven correct’ kunnen articuleren. Het recruteren van sprekers die aan deze sprekerskenmerken moeten voldoen is een verhaal apart: Verzamelen contactadressen hierbij wordt een marketingbureau ingeschakeld om de adressen te leveren. De respons op dergelijke acties is ± 5% bij schriftelijke werving, 25% bij telefonische benadering, en 50% bij huisbezoek. • Voordelen:

– gecontroleerde demografische opbouw. – directe aanschrijving mogelijk.

• Nadelen:

– dure informatie met eigendomsrechten. – bereidwilligheid participanten niet gegeven.

Openbare wervingsactie hierbij wordt een advertentie gezet of een oproep gedaan via radio, TV of Internet om zo veel mogelijk mensen te recruteren. • Voordelen:

– relatief goedkoop. – hoge motivatie. – absoluut gezien veel respons.

• Nadelen:

– ongecontroleerde demografische opbouw. – hoge motivatie kan sample kleuren. – relatief gezien weinig respons (h 1%)

Hi¨ erarchische wervingsactie hierbij worden mensen geworven, die weer andere mensen moeten bewegen deel te nemen. Dat kan binnen de organisatie waar de werver werkt, zijn vriendenkring, etc. • Voordelen:

– relatief goedkoop. – gespreide wervingsactiviteit.

• Nadelen:

– ongecontroleerde demografische opbouw. – onduidelijke respons.

Beloning wat voor wervingsmethode ook wordt gekozen, de respons kan flink toenemen als een beloning in het vooruitzicht wordt gesteld, of een kans op een prijs. Sprekergegevens naast de demografische gegevens moeten ook persoonsgebonden data worden geregistreerd als naam, adres, telefoonnummer en beschikbaarheid.

36

Toestemming toestemming dient vooraf schriftelijk te worden gevraagd. Clandestiene opnames mogen alleen met een zeer goede motivatie worden gemaakt, en achteraf moet schriftelijk toestemming worden geregeld. Het audiosignaal en de transcripten moeten worden geanonimiseerd (b.v. met piepjes op de tape, en met een spreker-identificatiecode in de transcripten). Voor wat betreft de transcriptie stelt EAGLES een annotatie op minstens drie niveaus voor: 1. Orthografisch niveau. Op dit niveau worden de woorden beschouwd als lexicale eenheden in hun standaardspelling, zodat verbinding met lexicale databanken en grammaticale tagging vergemakkelijkt worden. 2. Ruwe fonetische transcriptie op grond van de uitspraak van het woord in isolatie. Dit is dan vaak een fonemische transcriptie gegenereerd door grafeem-foneem conversie of overgenomen uit een uitspraakwoordenboek. Dit kan gebeuren op basis van een lijst met alle unieke woorden in een tekst. Dit is een stuk efficiënter bij automatische annotatie en opslag, en kan ook dienen als referentie voor handmatige controle. 3. Gedetailleerde fonetische transcriptie, waarbij aandacht wordt besteed aan clitisering en reductie. Dit moet bij grotere corpora dan wel (gedeeltelijk) geautomatiseerd worden, omdat de procedure zo duur is. Prosodische en paralingu¨ıstische informatie zou zeker moeten worden aangegeven op dit niveau (Gibbon et al., 1997: 84-86). Er kan echter nog verder onderscheid tussen de diverse niveaus worden aangebracht; ook kunnen er nog dimensies aan worden toegevoegd, zoals blijkt uit het volledige overzicht, dat samen met een aantal aanbevelingen hieronder wordt gepresenteerd (Gibbon et al., 1997: 155-172): 1. Opnamescript (bij voorgelezen spraak). Dit ontslaat de maker van het corpus overigens in de meeste gevallen niet van het maken van een transcriptie waarin voorleesfouten (aarzelingen, valse starts, uitspraakfouten, substituties) worden aangegeven. Denk ook aan paralingu¨ıstische verschijnselen zoals gevocaliseerde pauzes, hoesten, krakende stoelen, etc. 2. Orthografische transcriptie (ook: transliteratie). Dit veronderstelt in zekere mate aanpassing aan de standaardspelling. Projecten verschillen erg in de mate waarin ze transliteratie in de zin van fonetische spelling toestaan. EAGLES beveelt aan, om op dit niveau zoveel mogelijk de standaardspelling aan te houden. Eerst zou de standaard orthografische transcriptie vervaardigd moeten worden, om pas later de prosodische, ’performance’ en paralingu¨ıstische verschijnselen aan te geven in een extra ronde. Dit komt overeen met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825-834). De orthografische transcriptie kan eventueel door niet-taalkundig geschoolden gebeuren, b.v. een extern bureau. Dit geldt uiteraard niet voor de andere, hierna volgende niveaus. Qua tijdsplanning valt de volgende vuistregel aan te houden: Orthografische transcriptie voorgelezen zinnen 3 x duur signaal Orthografische transcriptie voorgelezen tekst 5 x duur signaal Orthografische transcriptie spontane spraak 10 x duur signaal Controle is noodzakelijk. Minstens moet een tweede transcribeur naar het signaal luisteren met de transcriptie voor zich. Dat kan dan het best in de omgekeerde volgorde: de transcriptiestijl is het meest consistent aan het einde. Een aantal probleemgevallen bij de orthografische transcriptie:

37

• Gereduceerde woordvormen. Vaak wordt als criterium gehanteerd, dat ze in het woordenboek moeten voorkomen om aangegeven te kunnen worden. Er is dan vaak een conventionele spelling, b.v. voor ”zo’n”, ”d’r”, ¨ıe”. Maar er zijn vaak verschillende spellingen mogelijk voor één vorm, en de lijst in het woordenboek kan arbitrair zijn. Daarom wordt gepleit te letten op frequentie van voorkomen en het criterium van gereduceerd aantal syllaben. Zowel voor de transcribeurs als voor de latere gebruikers moet er een complete lijst met deze woorden en hun schrijfwijze beschikbaar zijn. • Dialectwoorden. Het criterium kan zijn, dat het niet in het woordenboek staat, of met een aanduiding ’dialect’. Dit op de een of andere wijze weergeven, b.v. ’krek’hdiai, ’sakkers’hdiai. • Getallen. Deze uitschrijven zoals ze uitgesproken worden. • Afkortingen. Deze uitschrijven zoals ze uitgesproken worden. • Lettersequenties (b.v. in afkortingen, initialen, postcodes). In hoofdletters los van elkaar uitschrijven, uiteraard alleen als ze ook los worden uitgesproken. • Tussenwerpsels. Zelfde criterium als bij gereduceerde vormen: kiezen voor standaardspelling indien voorhanden; lijst aanleggen met wijzigingen/variatie/toegevoegde woorden. • Weggelaten woorden. Twijfelgeval, omdat het hierbij moeilijk is vast te stellen of de spreker inderdaad dit woord in gedachten had. • Zelfreparaties van woorden. Dit gaat om complete woorden die impliciet of expliciet gecorrigeerd worden. • Zelfreparaties van woordfragmenten. Hierbij wordt al na een deel van het foutieve woord het correcte woord uitgesproken. • Onverstaanbare woorden of woorddelen.

• Aarzelingen en gevocaliseerde pauzes.

• Niet-verbale vocale en niet-vocale klanken. Deze zouden moeten worden opgenomen bij het relevante uiting(en). • Simultane spraak.

• Sprekerwisselingen. 3. Morfologische, syntactische, semantische en pragmatische representatie. 4. Fonemische representatie (van de citation form). Hiervoor is de standaard in Europa SAMPA (Speech Assessment Phonetic Alphabet) (b.v. voor het project VERBMOBIL). Voor SAMPA, zie de URL: http://www.phon.ucl.ac.uk/home/sampa/home.htm Een nadeel hiervan is, dat de 7-bits codering alleen maar een subset van het volledige IPA-alfabet toestaat, omdat de set binnen de 128 karakters moet blijven. Dit hoeft echter voor een monolinguaal corpus geen probleem te zijn, omdat per taal voor een fonemische transcriptie 128 posities (effectief, minus de controlkarakters, 95) meer dan voldoende zijn. Voor het Nederlands zijn er 47 symbolen beschikbaar, inclusief marginale fonemen. Dit laat nog genoeg ruimte over voor een set prosodische symbolen (klemtoon, toonhoogte, pauzes, grenzen), die ook gedefinieerd zijn in een additionele set onder de naam SAMPROSA (SAM PROSodic Alphabet). SAMPA heeft dan ook alleen de pretentie iets te zeggen over intra-linguale opposities tussen fonemen, niet over inter-linguale opposities of equivalenties van deze klanken (Gibbon et al., 1997: 728). Een alternatief is het meer uitgebreide fonetische alfabet van Unicode, dat reeds onder het hoofdstuk XML (zie sectie 4.2.1) is besproken. 38

5. Ruwe fonetische transcriptie (ook: fonotypische transcriptie). Op dit niveau wordt assimilatie, reductie, insertie of deletie weergegeven, maar dan alleen voor zover het het fonemisch domein betreft, dus b.v. wel de labialisatie van de /n/ in ’schoenborstel’ en de deletie van de /t/ in ’kastplank’, maar niet aspiratie van plosieven, of palatalisatie/velarisatie van de /l/. Dit kan automatisch met regels worden afgeleid, en/of met de hand. 6. Nauwkeurige fonetische transcriptie. Dit geeft meer gedetailleerde informatie dan het fonemisch niveau, zoals allofonen, glottisslagen, nasalisatie. Het kan alleen handmatig worden gecodeerd, en onder nauwkeurige bestudering van het geluidssignaal, veelal in combinatie met oscillogrammen en spectrogrammen. Vanaf dit niveau wordt codering eigenlijk ondoenlijk, tenzij voor deelcorpora of met een bepaald doel voor ogen (b.v. logopedische tests bij nasale spraak). 7. Akoestisch-fonetische transcriptie. Dit gebeurt geheel op grond van akoestische informatie uit oscillo- en spectrogrammen. Dit is uiteraard zeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algemeen gebruik. 8. Fysische transcriptie. Het meest volledige niveau waarop gegevens kunnen worden verzameld, b.v. luchtstroommetingen, laryngogrammen, resonantiemetingen, etc. Dit is uiteraard zeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algemeen gebruik. 9. Prosodische transcriptie. Dit betreft, in tegenstelling tot de vorige niveaus, het suprasegmentele niveau, dus op het niveau van intonatiecontouren, emfatische klemtoon, tempo- en ritmewisselingen, etc. Een aantal systemen en protocollen zijn hiervoor voorhanden, gebaseerd op metingen van de grondtoon (stijging-daling), al dan niet in relatie tot de mate van begrenzing tussen toongroepen (intonatiefrasen). Hieronder vallen de codeersystemen ToBI (Silverman et al., 1993), de IPO-benadering (’t Hart et al., 1990), en die van de corpora MARSEC (Roach et al., 1993) en VERBMOBIL (Kohler et al., 1995). Het idee van verschillende codeerrondes is op een iets andere manier vormgegeven in het MARSEC-corpus. Hierin werd de orthografische transcriptie opgedeeld in een pure transliteratie zonder aandacht voor de spellingconventies van geschreven taal, gevolgd door een ronde, waarbij wel standaard-interpunctie en hoofdletters werden toegepast: ”The unpunctuated transcriptions were made using the spoken recordings. The text was typed directly on to computer, and it was at this point that unacceptable text was noted, and replaced by a comment in the transcription, for example [speech extract omitted]. Speaker details were also included in comments, for example [change of speaker: speaker name]. No word-initial capitals are used apart from those in proper names and abbreviations, thus no indication of start of sentence is given in this format of text. (...) The unpunctuated transcription was used in the production of the punctuated transcriptions and the prosodic transcriptions. These versions were made independently, so that neither influenced the other, i.e. the punctuated version was made independently of any prosodic information, and the prosodic version was made without any cues from punctuation. The only way to ensure this was to have the unpunctuated transcription as the starting point for both of these versions. (...) The volunteer punctuator was asked to insert punctuation at appropriate points in the text without access to the spoken recording. As an aid, a handbook on punctuation conventions was provided. (Knowles et al., 1996: 22-23). Buiten deze dimensies is nog commentaar mogelijk op elk van deze niveaus. EAGLES raadt aan om transcribeurs notities te laten maken over verschillende aspecten van de aard en kwaliteit van de opnames op een vijfpuntsschaal (zoals bij het SWITCHBOARD corpus): moeilijkheidsgraad, natuurlijkheid, echo, statische ruis, etc. Inmiddels is er na afsluiting van EAGLES een vervolgproject gestart, dat zowel een verdere specificatie van de annotatielagen beoogt, als het bouwen van tools om die annotatie op een efficiënte manier aan te 39

brengen, te manipuleren en tevens zoekvragen (ook met het oog op de eindgebruiker) te ondersteunen. Dit is het MATE-project, dat specifiek gericht is op gesproken taal in dialoogvorm. Aangezien hierbinnen ook protocollen worden opgesteld voor het gedistribueerd werken aan en met dergelijke corpora volgens open standaards als WWW en Java, wordt ook ingespeeld op de eerder beschreven ontwikkeling naar applicatieonafhankelijke integratielagen, gebaseerd op SGML en XML. Zie voor een beschrijving van MATE: http://www.linglink.lu/le/projects/mate/index.html

4.3 4.3.1

Het Ontstaan van Internationale Datacollecties De EUROM1 databank

Dit is een Europees initiatief om platform-onafhankelijke, uniform gecodeerde en ontsloten gesproken taalcorpora (met slechts voorgelezen spraak) samen te stellen voor alle Europese talen. Het maakt gebruik van de in Europa erkende SAMPA transcriptiestandaard (ESPRIT SAM 2589). Het is vooral geschikt voor industriële toepassingen. Gegevens: • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): 100 voorgelezen getallen, 60-100 CVC-patronen, 10 woorden in isolatie, 50 zinnen en 40 alinea’s van 5 zinnen. • Sprekergegevens: 60 sprekers per taal. De vertegenwoordigde talen zijn Brits Engels, Deens, Duits, Frans, Grieks, Italiaans, Nederlands, Noors, Portugees, Spaans, en Zweeds. 30 mannelijke en 30 vrouwelijke sprekers per taal, alle tussen de 20 en 60 jaar. • Opnamedatum: ? (staat in labelfile, voorbeelden melden 1989-1990). • Opnameduur: ± 12 uur per taal. • Annotatieschema: – gehanteerde standaard: SAMPA. – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: n.v.t. – behandeling bij- en achtergrondgeluiden: n.v.t. (opname in akoestisch dode (anechoic) ruimte). – gehanteerde interpunctie: n.v.t. • Annotatieniveaus: deels laryngogrammen, en oorspronkelijke voor te lezen tekst in ASCII. Daarnaast beschrijvende (label) files met zeer uitgebreide informatie (filetype, filenaam, sampling rate, opnamedatum en -tijd, aantal bytes per sample, aantal kanalen, sprekergegevens (moedertaal, geslacht, leeftijd), protocol, versie, begin- en eindcode). • Status privacy informanten: geanonimiseerd. • Copyright: ELRA? • Beschikbaarheid opnames: ja, via ELRA. In de praktijk blijken er grote problemen vanwege de fijnafstemming tussen alle Europese partners, het gedeelde auteursrecht, en copyright op het GERSONSdatabasesysteem, dat berust bij het bedrijf ICP. Momenteel zijn alleen Italiaanse data beschikbaar bij ELRA. 40

– geluidsdrager: CD-ROM. – opnametechniek: samplefrequentie 20 kHz, 16-bits A/D-conversie. Opnames met condensatormicrofoon in akoestisch dode ruimte. – signaal-ruisverhouding: ? – elektronische versie: ja, spraakfiles en ASCII-files met voor te lezen tekst. Er is tevens een databasesysteem beschikbaar voor PC onder de naam GERSONS, waarbinnen de data bevraagd kunnen worden. – relatie signaal-transcriptie (volledigheid-koppeling): nee. 4.3.2

Het European Corpus Initiative (ECI)

Het European Corpus Initiative (ECI) betreft een project uit 1992 om een multi-linguaal, algemeen toegankelijk tekstcorpus op te bouwen. De CD van dit project bevat, voor het Nederlandse deel, naast artikelen uit de Groninger Universiteitskrant, De Limburger, Onze Taal en een nogal merkwaardige reeks citaten (kennelijk t.b.v. lexicografen), een aantal teksten die met enige goede wil gezien kunnen worden als weergaves van gesproken taal: scripts van het journaal, jeugdjournaal (beide oktober-december 1990, heel 1991, en januari tot juni 1992) en troonredes (1970-1986/88). Dit zijn dus geen transcripten, maar geschreven teksten, bedoeld om zo voorgelezen te worden. Hiermee valt het ECI-corpus in de traditie van het Engelse MARSEC en het Vlaamse ANNO-materiaal. Er zijn verschillen tussen de scripts en daadwerkelijk uitgesproken teksten. De bandopnames zijn helaas niet voorhanden, en er is derhalve geen koppeling tussen audiosignaal en tekst mogelijk, tenzij deze nog beschikbaar zijn bij de NOS. De CD-ROM is te verkrijgen bij het Europese consortium ELRA. Vervolgprojecten van ECI zijn o.a. Multext (Multilingual Text Tools and Corpora) en RELATOR (Distributed European Linguistic Resources Repository). Gegevens: • Omvang: – types: 42.148 (NOS-journaal), 22.246 (Jeugdjournaal), 4.602 (troonrede). – tokens: 1.096.725 (NOS-journaal) 478.172 (Jeugdjournaal), 36.288 (troonrede). • Samenstelling (teksttypes): voor te lezen teksten. • Sprekergegevens: nee. • Opnamedatum: oktober-december 1990, heel 1991, en januari tot juni 1992 (NOS-journaal en Jeugdjournaal), september 1970-1986 en 1988 (troonrede). • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: TEI-conformant SGML. – geclitiseerde en andere niet-standaard vormen: ja (’t, ’n, is-ie, dat-ie), als leidraad voor het voorlezen. – sprekerwisseling, behandeling overlap: n.v.t. – behandeling bij- en achtergrondgeluiden: n.v.t. – gehanteerde interpunctie: orthografische interpretatie. • Annotatieniveaus: orthografie, SGML op aparte regels voor gemakkelijke uitfiltering. • Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie (Van de Velde, 1996: 22). • Copyright: NOS (?) 41

• Beschikbaarheid opnames: wellicht bij NOS. – – – –

geluidsdrager: ? opnametechniek: ? signaal-ruisverhouding: ? elektronische versie: ja, ASCII computerfiles met script en SGML-annotaties: ∗ dut02a0[1-8].eci NOS-journaal. ∗ dut02b.eci troonredes. ∗ dut02c0[1-3].eci Jeugdjournaal. – relatie signaal-transcriptie (volledigheid-koppeling): nee.

4.3.3

Het Multilingual Parallel Corpus (MLCC)

Dit betreft een meertalig parallel corpus in de 9 officiële talen van de Europese Unie: Deens, Duits, Engels, Frans, Grieks, Italiaans, Nederlands, Portugees en Spaans. Het deel Beantwoording van schriftelijke vragen is voor het CGN niet relevant, maar het deel Debatten van het Europees Parlement bevat transcripties, waarbij aangegeven is of weergave van het gezegde in de oorspronkelijke taal is opgenomen, of een vertaling betreft. Op deze manier zijn de delen te isoleren, die een (gestandaardiseerde, geen clitica bevattende) transcriptie betreffen van het Nederlands. De codering is SGML-conformant. Voorbeeld: Nederlandse spreker in Nederlands subcorpus: hspeakeriWijsenbeek hpartyi(LDR)h/partyi. -h/speakeri Mevrouw de Voorzitter, het betreft de wijze waarop deze vergadering georganiseerd is, dus artikel 19 van het Reglement. Niet-Nederlandse, in dit geval Engelse spreker in het Nederlands subcorpus: hspeakeriAndrews hpartyi(RDE)h/partyi. -hlanguagei(EN)h/language>
Het International Corpus of English

Het ICE-Corpus, het International Corpus of English, is een initiatief van Sidney Greenbaum van de vakgroep Survey of English Usage van het University College London, en Charles Meyer van de Universiteit van Massachusetts, om een aantal corpora van gelijke omvang en inhoud volgens gelijke criteria samen te stellen voor allerlei variëteiten van het Engels, zoals dat in de wereld gesproken wordt. Dit werd vooral opgezet om de leemte op te vullen, die tot dat moment bestond op het gebied van vergelijkbare gesproken corpora, maar ook om data te verzamelen in landen waar van corpora van welke aard dan ook nog geen sprake was. Onder de 20 landen en regio’s die deelnemen zijn naast uiteraard Groot-Brittannië en de Verenigde Staten o.a. Canada, Ierland, Australië, Singapore, Hong Kong, Nigeria en Kenia. Het criterium was dat Engels minstens een officiële tweede taal moest zijn in het desbetreffende land (Greenbaum, 1991: 84). Gegevens: • Omvang: – types: ? – tokens: 1.000.000, waarvan ± 600.000 gesproken, per taalvariëteit. Dit vrij bescheiden aantal lijkt zowel ingegeven door het vasthouden aan de oorspronkelijke standaard (ook qua samplegrootte) van de Brown en LOB-corpora, als door het deelnemen van landen zonder bestaande datacollecties en expertise op dit gebied. 42

Gesproken teksten (300)

Dialoog (180)

Monoloog (120)

Privé (100)

directe conversatie (90) telefoongesprekken (10)

Publiek (80)

klassikaal onderricht (20) radio/TV discussies (20) radio/TV interviews (10) politieke debatten (10) gerechtelijke verhoren (10) zakentransacties (10)

’Unscripted’ (70)

spontaan commentaar (20) toespraken (30) demonstraties (10) gerechtelijke toespraken (10)

’Scripted’ (50)

radio/tv nieuws (20) radio/tv commentaar (20) toespraken (niet voor radio of tv) (20)

Tabel 1: Teksttypen onderscheiden in het gesproken deel van ICE • Samenstelling (teksttypes): 200 geschreven en 300 gesproken tekstdelen van elk ± 2.000 woorden per taalvariëteit. De precieze tekstsamenstelling van het gesproken deel is te vinden in Tabel 1. • Sprekergegevens: sprekers en schrijvers van 18 jaar en ouder met een Engelstalige opleiding, die ofwel geboren zijn in het onderzochte land, ofwel hier jong naartoe zijn verhuisd. Verschillende leeftijdsgroepen met diverse sociaal-economische status, waarbij evenwel niet is gepoogd alle groepen precies tegenover elkaar te balanceren. • Opnamedatum: 1990-1996. Ook alle geschreven teksten stammen uit deze periode. • Opnameduur: 70 uur per taalvariëteit (gebaseerd op het Britse deel). • Annotatieschema: – gehanteerde standaard: SGML-conformant voor tekststructuur (in de zin van tags tussen vissenhaken met eindsymbolen); TOSCA (taalkundige en redekundige ontleding). – geclitiseerde en andere niet-standaard vormen: ja, voor zover geschreven standaard-equivalent bestaat (“he’ll”, “can’t”, “it’s”). – sprekerwisseling, behandeling overlap: ja, beide. – behandeling bij- en achtergrondgeluiden: nee. – gehanteerde interpunctie: ja, orthografische interpretatie. • Annotatieniveaus: orthografische transcriptie met pauzes, herhalingen, zelfcorrecties, valse starts en aarzelingen. Alle ’disfluencies’ zijn genormaliseerd, evenwel met behoud van de oorspronkelijke uitingen. Paralingu¨ıstische kenmerken aangegeven. Syntactische analyse (tagging en parsing) met TOSCAprogrammatuur van de Nijmeegse vakgroep Taal & Spraak. Het Amerikaanse deel wordt verrijkt met een prosodische transcriptie. • Status privacy informanten: geanonimiseerd in transcript. • Copyright: ICE. Het corpus is uitsluitend verkrijgbaar voor non-profit gebruik voor ong. 900 gulden. Een multi-user licentie kost ongeveer 1500 gulden. 43

• Beschikbaarheid opnames: nu nog niet. Digitalisering in uitvoering. – geluidsdrager: oorspronkelijk analoge tapes. Later distributie op CD-ROM. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja. – relatie signaal-transcriptie (volledigheid-koppeling): in uitvoering. Alle gegevens zijn elektronisch beschikbaar, en kunnen dankzij de ICECUP user interface (het ICE Corpus Utility Program) uitgebreid gemanipuleerd worden, b.v. tot een concordantie op woord- of tagniveau, of beide gecombineerd, of tot grammaticale boomstructuren in horizontale of verticale oriëntatie. Daarnaast kan worden gezocht op hiërarchische of andersoortige relaties in de boomstructuren (b.v. alle onderwerpen gerealiseerd door een zelfstandig-naamwoordgroep die twee opeenvolgende bijvoeglijke naamwoorden bevat). Ook zijn zoekacties mogelijk op teksttype en biografische gegevens van de schrijver of spreker, zoals leeftijd en sociaal-economische klasse. Er wordt momenteel gewerkt aan ’fuzzy matching’ op in een editor gespecificeerde patronen, die het leren van bepaalde zoekalgoritmes overbodig moet maken. Voor verdere informatie zie de Website van ICE onder URL: http://www.ucl.ac.uk/english-usage/

4.3.5

Het British National Corpus

Aan het project British National Corpus (BNC) werd door de volgende partners deelgenomen: • 3 woordenboekuitgevers (Chambers Harrap, Longman, Oxford University Press). • 2 universiteiten (Oxford en Lancaster). • 1 publieke dienstverlener (British Library). Het BNC-project kende een aantal uitgangspunten, die vooraf waren vastgelegd, en waaraan niet getornd mocht worden. Het BNC kan zo omschreven worden als: • een corpus van steekproeven van taaluitingen (samples), elk niet of nauwelijks groter dan 45.000 tokens. • een synchroon corpus, met fictie uit 1960-1993, non-fictie uit 1975-1993. • een algemeen corpus, d.w.z. niet specialistisch in samenstelling of doelgroep. • een monolinguaal corpus, d.w.z. uitsluitend Brits Engels. • een gemengd corpus, d.w.z. zowel bestaand uit het geschreven als gesproken medium (Burnard, 1995: 5-6). Het corpus telt 100 miljoen tokens, waarvan 10 miljoen gesproken. Dit komt overeen met 700 uur spraakopnames (niet duidelijk is voor of na editing). Meer dan 4 miljoen tokens van de 10 waren geheel spontane spraak, d.w.z. 40%. Binnen het gesproken corpus van het BNC is onderscheid te maken tussen twee wijzen van sampling: • demografisch gemotiveerde steekproef (gepland 5% van de 100 miljoen tokens, in de praktijk 4,2%), nl. informanten met draagbare opnameapparatuur (Walkmans). • lingu¨ıstisch gemotiveerde steekproef (’context-governed’) (gepland 5% van de 100 miljoen tokens, in de praktijk 6,1%) (zie onderstaande tabel (Tabel 2) voor onderverdeling laatste categorie).

44

1. Educatief en informatief - monoloog (asymmetrisch) - colleges, voordrachten en lezingen - nieuwsberichten en actualiteiten - dialoog (symmetrisch) - klassikaal en individueel onderricht

25% 40%

60%

2. Zakelijk - monoloog - zakelijke presentaties - productdemonstraties - dialoog - zakelijke gesprekken - vergaderingen - consults

25% 40%

60%

3. Openbaar en institutioneel - monoloog - politieke toespraken - preken - dialoog - vergaderingen - politieke debatten - rechtszaken

25% 40%

60%

4. Recreatief - monoloog - toespraken en voordrachten - sportverslagen - dialoog - praatprogramma’s - vergaderingen

25% 40%

60%

Tabel 2: Teksttypen onderscheiden in lingu¨ıstisch gemotiveerd deel gesproken BNC

45

De exacte gegevens van het gesproken deel van het BNC kunnen als volgt schematisch worden weergeven: Gegevens: • Omvang: – types: ? – tokens: ∗ 6,15 miljoen (lingu¨ıstisch gemotiveerd). ∗ 4,21 miljoen (demografisch gesampled). • Samenstelling (teksttypes): – 762 lingu¨ıstisch gemotiveerde teksten, tot 200.000 tokens per type monoloog, tot 300.000 tokens per type dialoog (zie Tabel 2). – 153 demografisch gesamplede teksten. • Sprekergegevens: 153 informanten (inclusief ongeveer 30 tieners) voor het demografisch gedeelte, geselecteerd op grond van een willekeurige, gebalanceerde steekproef per regio (uit heel het Verenigd Koninkrijk), leeftijd, geslacht en sociaal-economische klasse. Met gesprekspartners erbij waren meer dan 1000 deelnemers te onderscheiden. De informanten zijn in het corpus aangegeven als hrole=respi (respondent), terwijl hrole=otheri wordt gebruikt voor de gesprekspartners. Naast role zijn verplichte persoonsgegevens: geslacht m(ale), f(emale) of u(nknown). leeftijd 0 tot 15 jaar. 1 15 tot 24 jaar. 2 25 tot 34 jaar. 3 35 tot 44 jaar. 4 45 tot 59 jaar. 5 ouder dan tot 59 jaar. X onbekend. Soms wordt de leeftijd, indien voorhanden, precies aangegeven. flang de moedertaal van de spreker. dialect het dialect van de spreker. soc de sociale klasse van de spreker. AB hoger- of middenbestuurskader, administratief of professioneel. C1 leidinggevend, afdelingshoofd of administratief. C2 geschoold vakman. DE halfgeschoold of ongeschoold. UU onbekend. educ het opleidingsniveau van de spreker. 0 nog in opleiding. 1 school verlaten met 14 jaar of jonger. 2 school verlaten met 15 of 16 jaar. 3 school verlaten met 17 of 18 jaar. 4 opleiding gecontinueerd na 18 jaar. X onbekend. Daarnaast kunnen optioneel de volgende gegevens worden vermeld: 46

BMRB code code van het marketingbureau voor een demografische klasse. naam een (fictieve) voornaam als extra identificatie. beroep het beroep van de spreker. commentaar relatie gelijkwaardige of hiërarchische relatie tussen de participanten, b.v. ’broer van X’, ’klant van Y’, ’collega van Z’. De informanten kregen maximaal een week een Walkman omgehangen. Hoewel het lingu¨ıstisch gemotiveerde gedeelte een andere, op teksttype gebaseerde samplestrategie volgde, werd binnen elk van de klassen toch zo veel mogelijk gelet op balans tussen regio (3 gebieden: Noord, Zuid en Midlands), geslacht, (opleidings)niveau van de spreker/doelgroep en onderwerp. Zo werden zowel nationale als regionale radiozenders meegenomen, mannelijke als vrouwelijke onderwijzers, kerkdiensten van verschillende geloofsovertuigingen, kantongerechten, arondissements- en hogere rechtbanken, etc. • Opnamedatum: 1981-1994. • Opnameduur: 700 uur. • Annotatieschema: – gehanteerde standaard: CDIF (Corpus Document Interchange Format), een door het TEI be¨ınvloede aanpassing van SGML (TEI was tijdens de codeerperiode nog niet afgerond). Geheel SGML-conformant. – geclitiseerde en andere niet-standaard vormen: ja, meer dan in standaard-orthografie wordt toegelaten, dus niet alleen “can’t”, “we’re” en “that’s”, maar ook ’dunno’, ’gimme’, ’innit’, ’wanna’, etc. Wanneer woorden genormaliseerd zijn, geeft het element hsici de ongenormaliseerde vorm weer, en hregi de genormaliseerde vorm.

– sprekerwisseling, behandeling overlap: ja, met het hwhoi-attribuut en haligni-elementen.

– behandeling bij- en achtergrondgeluiden: ja, met paralingu¨ıstische tags. – gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: globaal orthografisch, SGML voor teksttructuur, CLAWS-set van grammaticale tags. Het element hgapi dient voor weggelaten (b.v. geanonimiseerde) of onverstaanbare stukken tekst. Paralingu¨ıstische codes omvatten stemkwaliteit (hshifti), niet-vocale elementen (heventi), vocale, niet-lingu¨ıstische elementen (hvocali), pauzes (hpausei), onduidelijke passages (huncleari), afgebroken woorden (htrunci) en overlappingen. Het BNC hanteert andere interpretatie van de TEI-voorstellen voor overlappingen dan hierboven (zie sectie 4.2.3), nl. een align-declaratie met locaties vooraf, en dan pointers in de tekst, zoals in dit voorbeeld: ... <s n=0036> No, I’ll have to ring our Carl then, see if he can shift it, I mean she might as well be laid down here watching telly as upstairs laid in bed uncomfortable, you know <pause> yeah <s n=0037> once you get in bed you’ll be like 47

• Status privacy informanten: geanonimiseerd in de transcripten en de logfiles. Aan alle participanten is soms vooraf, soms achteraf toestemming gevraagd. Dit werd overgelaten aan de drager van de Walkman voor het demografisch deel. De opnames werden gewist als één der gesprekspartners geen toestemming gaf. • Copyright: BNC-consortium. Het is verkrijgbaar voor uitsluitend taalkundig onderzoek binnen de EU voor ± 700 gulden. • Beschikbaarheid opnames: nee, alleen orthografische transcripties. De opnames zijn opgeslagen in het National Sound Archive in Londen. Men hoopt dat die eens vrijgegeven worden (Crowdy, 1995: 229). – geluidsdrager: DAT-tape, of analoge tapes voor demografisch deel. De laatste werden overgezet naar DAT-tape t.b.v. efficiënte transcriptie. – opnametechniek: Walkman (demografisch), DAT-recorder (indien mogelijk voor context-governed deel). – signaal-ruisverhouding: ? – elektronische versie: orthografische transcriptie plus annotaties in SGML en CLAWS in één ASCIIcomputerfile per tekst. Het programma SARA (SGML-Aware Retrieval Application), een clientserver gebaseerd zoeksysteem dat concordanties kan aanmaken en de SGML-codes herkent, is meegeleverd op de CD-ROM. – relatie signaal-transcriptie (volledigheid-koppeling): nee. Het samengestelde BNC-corpus wordt voorafgegaan door het element hbnci, en bestaat uit een algemene header en een aantal teksten met elk het element hbncDoci. Elk hbncDoci bestaat op zijn beurt weer uit een header en een element voor geschreven tekst, htexti, of een gesproken tekst, hstexti. Attributen ’complete’ (Y|N) en ’org’ (compo|seq) geven aan of de tekst resp. compleet is of een fragment, en of de tekstelementen in willekeurige dan wel sequentiële volgorde voorkomen. Elke tekst bevat tenminste een aantal segmenten hui, nl. voor onderscheiden gesproken uitingen, en hsi, voor zinsachtige elementen (eind tag h/si heeft hierbij de status ’o’ = omissable), die al dan niet handmatig zijn bijgewerkt (attribuut ’p’ (Y|N) voor post-editing, met als normaalwaarde ’N’). Zoals boven beschreven in de paragraaf over het TEI, heeft elke hui een attribuut ’who’, dat de spreker (abstract) definieert. De hsielementen hebben als attribuut een sequentienummer, b.v. hs n=00011i. Daarnaast kunnen frase-elementen voorkomen, hphSeqi, of tekstdivisie-elementen, nl. hdivi, of alleen maar gewone karakters, volgens de BNCDTD gekenschetst als #PCDATA, maar niet als zodanig gecodeerd. Binnen deze frase-elementen vinden er de tags voor woord, hwi, en leesteken, hci, die eveneens meestal geen eind tag hebben. Woorden kunnen grammaticale attributen hebben als AJO (adjectief stellende trap) en AJC (adjectief vergrotende trap) volgens het CLAWS-schema, terwijl leestekens attributen kunnen hebben als PUL en PUN voor de realisatie van verschillende tekens, eveneens volgens CLAWS. De transcriptiefiles, inclusief de DTD, het SARA-programma en documentatie worden, gearchiveerd met tar en gecomprimeerd met gunzip, geleverd op 3 CD-ROMs. 4.3.6

Het POLYPHONE Corpus

POLYPHONE is een internationaal corpus van telefoonspraak, geco¨ ordineerd door het Linguistic Data Consortium in de VS. Het Nederlandse deel werd verzameld in samenwerking tussen PTT-Telecom en het Expertisecentrum SPEX. Het is te verkrijgen bij het Europese consortium ELRA. Er zijn inmiddels ook Amerikaans-Engelse, Amerikaans-Spaanse, Franse, Duitse, Japanse, Mandarijns-Chinese, Zwitsers-Franse en Deense versies beschikbaar. Het Amerikaanse deel van het POLYPHONE-project staat bekend onder de naam MACROPHONE. Gegevens: • Omvang: – types: ? 48

– tokens: ? • Samenstelling (teksttypes): geëliciteerde spontane spraak (beantwoording 14 voorgedrukte vragen, zoals “Is Nederlands uw moedertaal?”, “Heeft U ooit in een ander land dan Nederland gewoond?”,”In welke plaatsen bent u opgegroeid?”, “Bent u een vrouw of een man?”, en 4 niet-voorgedrukte vragen (“Spel uw naam alstublieft”, “Hoe laat is het nu?”), 32 stukken voorgelezen tekst (getallen, woorden, gespelde woorden, datum, bedrag, tijdsaanduiding, hoeveelheid, zinnen met een applicatiewoord, fonetisch rijke zinnen). In totaal 50 items per spreker. • Sprekergegevens: 5050 sprekers, zo mogelijk gelijkelijk verdeeld over geslacht, leeftijd (16-20, 21-40, 41-60, 61-), regio en sociaal-economische klasse. De sociaal-economische klasse werd gedefinieerd in termen van opleiding: alleen lagere school, middelbare school en hbo/universiteit. Dat laatste was minder gelukkig: vrijwel iedereen onder de 60 bleek minstens middelbare school genoten te hebben. De jongste en de oudste groep bleken te zijn ondergerepresenteerd. • Opnamedatum: ? Data uitgegeven in 1995. • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: ? – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: n.v.t. – behandeling bij- en achtergrondgeluiden: ja, in transcriptie. – gehanteerde interpunctie: ? • Annotatieniveaus: orthografische transcriptie. • Status privacy informanten: ? • Copyright: ? • Beschikbaarheid opnames: ja, bij ELRA. – geluidsdrager: CD-ROM. – opnametechniek: digitale ISDN telefoonlijn. Aculab telefoon-interface, een Rhetorex Voice Card en driver software, Show-’n-Tel applicatie ontwikkelingssoftware, en een 16 port operational license, op een OS/2 PC. Sampling rate 8 kHz, 8-bits A/D-conversie. – signaal-ruisverhouding: ? – elektronische versie: 222.075 audiofiles, met file formaat 8-bit raw A-law data. – relatie signaal-transcriptie (volledigheid-koppeling): ? De opmerkingen van het Nederlandse POLYPHONE-team over de stratificatie-strategie van dit project zijn mogelijk van belang voor het CGN-project. Deze zijn overgenomen van de EAGLES Website voor Gesproken Data (http://coral.lili.uni-bielefeld.de/EAGLES/). Ze zijn ook te vinden in Gibbon et al. (1997: 807): Speaker selection and recruitment is still a difficult issue. In the Dutch POLYPHONE project much time, effort and money was spent in order to get a maximally uniform sampling of a large number of cells. To a considerable extent, these efforts have been to no big avail. The major reason to strive towards uniform sampling was scientific: we wanted the corpus to be as attractive as possible for linguists and dialectologists, of course without interfering with the requirements of speech technology. The latter requirements are ill-defined. It is quite likely that applications like Train Time Table Information must deal with the public at large, including low income groups whose speech may differ from the general standard. More research is needed to clarify this issue. 49

4.3.7

Het Oxford Text Archive

Het Oxford Text Archive (OTA) is een verzamelen distributiecentrum van elektronische teksten aan de Universiteit van Oxford. Het werd reeds in 1976 opgericht door Lou Burnard. Anders dan vele ftp-sites en elektronische archieven, die vaak een vergaarbak zijn van documenten in talloze formaten en stijlen, stimuleert het OTA de opname en verspreiding van teksten volgens internationaal aanvaarde standaards. Zo is het OTA een belangrijk pleitbezorger voor de platform- en applicatie-onafhankelijke document-markeertaal SGML en in het bijzonder de hierop gebaseerde literaire conventies van het TEI. Als standaard codeerset wordt TEI Lite aanbevolen, een ’uitgeklede’ versie van de volledige reeks TEI elementen, attributen en regels (zie boven). Niettemin kunnen ook documenten worden geaccepteerd in HTML, XML, (La)TeX, Rich Text Format (RTF), ASCII, word processors als WordPerfect of Word, PostScript of Portable Document Format (PDF), hoewel dit niet de voorkeur geniet. Net als bij het Project Gutenberg bestaat de hoofdmoot van de OTA-collectie uit teksten in het publieke domein. Daarnaast zijn er echter, in tegenstelling tot de Amerikaanse equivalent, ook corpora beschikbaar, waarvoor speciale contracten afgesloten zijn. De meeste teksten zijn vrijelijk verkrijgbaar voor onderzoeksdoeleinden, maar mogen niet verder gedistribueerd worden buiten de vakgroep, of verwerkt worden tot een commercieel product. De condities zijn echter veelal afhankelijk van het beleid van de leveranciers van de oorspronkelijke teksten. Op het gebied van moderne spraakcorpora beschikt het OTA over een versie van het Eindhoven corpus, de CHILDES corpora, het London-Lund corpus, het Lexis gesproken Engels corpus, John Kirk’s Noord-Iers corpus (400.000 tokens) en de Duitse Ulm Textbank (transcripties van psycho-diagnostische interviews). Voor verdere informatie zie de Website van het OTA onder URL: http://firth.natcorp.ox.ac.uk/ota/public/index.shtml 4.3.8

Het Project Gutenberg

Het Project Gutenberg is een Amerikaans initiatief om zoveel mogelijk geschreven teksten op de computer op te slaan en ter beschikking te stellen aan ge¨ınteresseerden. Vanwege de hanteerbaarheid is gekozen voor opslag zonder applicatie- of systeemspecifieke code in platte ASCII-tekens. Om allerlei problemen met distributie te voorkomen, is gekozen voor de opname van uitsluitend teksten in het publiek domein. Aangezien het copyright op een tekst pas kan vervallen 50 jaar na de dood van de auteur, betreft de collectie slechts oude teksten. Omdat de selectie bovendien beperkt blijft tot fictieve lectuur, literaire fictie en naslagwerken, is dit project qua inhoud en codeerwijze geheel irrelevant voor het CGN-project. Informatie is te vinden op het WWW onder URL: http://mirrors.org.sg/pg/index.html Hierbij zij nog vermeld, dat het eerder opgezette Georgetown University Catalogue of Projects in Electronic Text, dat een goed gestructureerd overzicht gaf van elektronische tekstbestanden over de hele wereld, na 1993 door gebrek aan menskracht niet meer is bijgewerkt, en inmiddels samen met het op VMS gebaseerde gopher-systeem is afgesloten (privécorrespondentie met Michael Neuman, Georgetown University).

4.4 4.4.1

Moderne Nederlandstalige Gesproken Corpora Het ANNO Corpus

Het ANNO-corpus werd ontwikkeld in het kader van het Vlaamse korte-termijnprogramma Spraak- en Taaltechnologie. Dit programma werd in 1993 door de Vlaamse regering ge¨ınitieerd met als doel de achterstand op het gebied van deze technologie t.o.v. de hoofdtalen binnen de Europese Gemeenschap zoveel mogelijk weg te werken. Het aanmaken van corpora werd gezien als een onderdeel van het initiatief, dat “het uitbouwen van goede logistieke ondersteuning van het wetenschappelijk onderzoek in verband met taaltechnologie” beoogde (zie Spraak- en Taaltechnologie voor het Nederlands, 1993).

50

ANNO, dat bedoeld is als “een geannoteerde publieke gegevensbank voor het geschreven Nederlands”, is te zien als een pilotproject om te komen tot een standaard voor het samenstellen en annoteren van grotere Nederlandstalige corpora. Het materiaal bestaat uit BRTN radio-nieuwsberichten en afleveringen van de radio actualiteitenrubriek Actueel. Het taalgebruik in deze uitzendingen wordt beschouwd als de nationale standaard. De teksten bestaan oorspronkelijk uit geschreven taal die bedoeld is om uitgesproken te worden. Daarnaast bevat het tekstmateriaal ook origineel gesproken taal in de vorm van getranscribeerde interviews. Het project werd uitgevoerd door het Centrum voor Computerlingu¨ıstiek aan de Katholieke Universiteit Leuven. Gegevens: • Omvang: – types: ? – tokens: 640.000. • Samenstelling (teksttypes): BRTN radio-nieuwsuitzendingen en uitzendingen van de actualiteitenrubriek Actueel. Dit laatste deel bevat zowel voorgelezen spraak als spontane interviews. • Sprekergegevens: ? • Opnamedatum: ? • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: SGML voor de tekststructuur. – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: ? – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: orthografisch. • Annotatieniveaus: orthografie, tekststructuur in SGML, syntactische tagging volgens WOTAN (TOSCA-groep vakgroep Taal en Spraak, KU Nijmegen), fonetische transcriptie van de woorden uit CELEX, dan wel gegenereerd met TreeTalk (Walter Daelemans, KU Brabant), morfologische tags deels aangebracht met Keper (Polderland Nijmegen), syntactische (redekundige) ontleding deels met METAL (Siemens), discourse analyse deels volgens een onbekend systeem. Zie voor een demo van de diverse annotatieniveaus de URL: http://www.ccl.kuleuven.ac.be/about/ANNO/DEMO/21mrt08u.html • Status privacy informanten: ? • Copyright: Aangezien het uitzendingen van de BRTN betreft, zijn er problemen met de openbaarmaking van het corpus gerezen. Momenteel kan het corpus niet buiten de KU Leuven gebruikt worden. Er zijn onderhandelingen gaande. • Beschikbaarheid opnames: momenteel niet. – geluidsdrager: ? – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ? – relatie signaal-transcriptie (volledigheid-koppeling): ? 51

4.4.2

Het COGEN Corpus

Het Corpus Gesproken Nederlands COGEN vloeide, net als het ANNO-bestand, voort uit het korte-termijn programma Spraak- en Taaltechnologie van de Vlaamse regering. De COGEN-databank moest voorzien in een grote variëteit aan opnames van een aantal standaardwoorden en -zinnen en één stuk lopende tekst. Sprekers werden gerecruteerd uit alle lagen van de bevolking, waarbij de voorwaarde was dat ze geen dialect spraken, maar zich zoveel mogelijk conformeerden aan het Standaard-Nederlands. Het doel was hiermee voldoende data te verzamelen voor een systeem voor robuuste continue spraakherkenning. Uitvoering geschiedde door het Departement Elektrotechniek (ESAT) van de KU Leuven en de vakgroep Elektronica en Informatiesystemen (ELIS) van de Universiteit Gent. De gegevens hieronder komen grotendeels uit privécorrespondentie met Wim Goedertier (ELIS). Gegevens (zie ook Bouma & Schuurman, 1998: 29-30): • Omvang: – types: ? – tokens: ∗ 63.510 (RS OFF) ∗ 23.000 (SS TEL operator) ∗ 13.230 (SS TEL informant) • Samenstelling (teksttypes): – WL OFF (word list office): gespelde woorden (10 uit een set van 40), commandowoorden, cijfers en fonetisch rijke woorden (100 uit een set van 400), voorgelezen in een normale (enigszins rumoerige) kantooromgeving. – RS OFF (read speech office): voorgelezen lopende krantentekst (5 alinea’s, gemidd. 73 woorden per alinea) in een (enigszins rumoerige) kantooromgeving. – WL TEL (word list telephone): voorgelezen woordenlijsten over de telefoon. – SS TEL (spontaneous speech telephone): spontane spraak over de telefoon. 3 vragen naar informatie via gesimuleerde mens-machine-dialoog. De medewerker (operator) las hierbij de respons van de computer op van de monitor. Dit deel is dus voorgelezen spraak. • Sprekergegevens: 174 sprekers uit verschillende regio’s, leeftijdsgroepen en sociaal-economische klassen. De bedoeling was evenwel dat ze zoveel mogelijk Standaard Nederlands spraken. Het deel WL TEL telt 185 sprekers, het deel SS TEL slechts 126. • Opnamedatum: 1995? • Opnameduur (pauzes steeds weggeknipt): – 2,16 uur (WL OFF gespeld) – 5,83 uur (WL OFF voorgelezen) – 7,02 uur (RS OFF) – 5,85 uur (WL TEL) – 3,48 uur (SS TEL operator) – 2,00 uur (SS TEL informant) • Annotatieschema: – gehanteerde standaard: YAPA (fonemische transcriptie). Deze standaard werd in Vlaanderen ontwikkeld voor het eerder genoemde korte-termijn programma. – geclitiseerde en andere niet-standaard vormen: ? 52

– sprekerwisseling, behandeling overlap: niet relevant. – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: ? • Annotatieniveaus: handmatig geverifieerde orthografische transcriptie (incl. aarzelingen, versprekingen, reparaties), automatische fonemische transcriptie door Lernhout & Hauspie, handmatig geverifieerde fonemische transcriptie (slechts 3.4% van RS OFF, andere delen niet), daarnaast automatische labelling op foonniveau (= fonetische segmentatie), d.w.z. discrete kenmerken binnen een foneem, zoals ontploffing, toonbaar, aspiratie, sluiting, glottale stop, door ELIS, handmatig geverifieerde fonetische segmentatie (slechts 3,4% van RS OFF, andere delen niet). • Status privacy informanten: geanonimiseerd (nr0001, nr0002, etc.) • Copyright: – ESAT/ELIS(?) (WL OFF) – ESAT/ELIS (RS OFF) – ESAT/ELIS/Lernhout & Hauspie (WL TEL) – ESAT/ELIS (SS TEL) • Beschikbaarheid opnames: ja, behalve WL TEL, dat gedeeld eigendom is van Lernhout & Hauspie. – geluidsdrager: 6 CD-ROMS. – opnametechniek: ∗ 16 kHz, 16 bit (RS OFF). ∗ 8 kHz, 8 bit (SS TEL) met analoge telefoonverbinding. File formaat raw A-law data.

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie in *.txt files, autom. fonemische transcriptie in *.tts files, handmatige correctie fonemische transcriptie in *.phn files, autom. fonetische segmentatie in *.lab files, handmatige correctie fonetische segmentatie in *.hla files. Soundfiles met extensie *.sam. – relatie signaal-transcriptie (volledigheid-koppeling): ja, op frase-niveau voor de files *.txt, *.tts, *.phn (RS OFF), op sprekerniveau voor de files *.txt, *.tts, *.phn (SS TEL). Samples van de data RS OFF en SS TEL bevinden zich op de ftp-site van ELIS onder URL: ftp://elis.rug.ac.be/pub/speech/cgn/ 4.4.3

Het PBS Corpus

Dit is een Vlaams corpus van Phonetically Balanced Sentences. Het is opgesteld aan de Universiteit van Gent, door de vakgroep ELIS. De volgende gegevens komen voort uit privécommunicatie met Wim Goedertier (ELIS). Gegevens: • Omvang: – types: 441. – tokens: 11.518. • Samenstelling (teksttypes): 13 fonetisch gebalanceerde zinnen. • Sprekergegevens: 130 sprekers. 53

• Opnamedatum: ? • Opnameduur: 1,18 uur. • Annotatieschema: – gehanteerde standaard: ? – geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: n.v.t. – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: ? • Annotatieniveaus: niet geverifieerde orthografische transcriptie (prompts), fonetische transcriptie in *.phn-files, 30,8% fonetisch gesegmenteerd in *.hla-files. • Status privacy informanten: ? • Copyright: ELIS. • Beschikbaarheid opnames: ? – geluidsdrager: ? – opnametechniek: sampling rate 10 kHz, deel 11 kHz, fileformaat µ-law (12 bit). – signaal-ruisverhouding: ? – elektronische versie: ja, orthografische transcriptie (prompts), fonetische transcriptie in *.phnfiles, fonetische segmentaties in *.hla-files. – relatie signaal-transcriptie (volledigheid-koppeling): ? 4.4.4

Het Groningen Corpus

Dit is een corpus met Nederlandse voorgelezen spraak, verzameld door A.M. Sulter en H.K. Schutte. Het is te verkrijgen bij het Europese consortium ELRA. Gegevens: • Omvang: – types: ? – tokens: ? • Samenstelling (teksttypes): voorgelezen tekst: 20 getallen, 16 eenlettergrepige woorden, 3 lange klinkers (a, e, i), 23 fonetisch rijke korte zinnen, twee stukken tekst met veel directe rede om ’emotionele spraak’ op te wekken. • Sprekergegevens: 238 sprekers. 94 sprekers lezen ook nog een uitgebreide woordenlijst voor. Gegevens over leeftijd, lengte, gewicht, rook- en drinkgedrag zijn opgenomen. Er zijn ook pathologische sprekers opgenomen. De stemkwaliteit is beschreven door de spreker zelf en een panel van luisteraars. De sprekers worden gekarakteriseerd als sprekers van het Standaard-Nederlands. • Opnamedatum: ? • Opnameduur: meer dan 20 uur. • Annotatieschema: – gehanteerde standaard: ? 54

– geclitiseerde en andere niet-standaard vormen: ? – sprekerwisseling, behandeling overlap: n.v.t. – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: ? • Annotatieniveaus: orthografische transcriptie. • Status privacy informanten: ? • Copyright: ELRA/ELSNET. • Beschikbaarheid opnames: ja, bij ELRA. – geluidsdrager: 4 CD-ROMS. Oorspronkelijke opname op PCM tapes. – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ja, spraakfiles en orthografische transcripties. – relatie signaal-transcriptie (volledigheid-koppeling): nee. 4.4.5

Het Speech Styles Corpus

Een Nederlands gesproken corpus bestaande uit het spraaksignaal en bijbehorende orthografische transcriptie, samengesteld door het Expertisecentrum SPEX (Leidschendam). Het bevat spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak. De opstellers en uitvoerenden waren R. van Bezooijen en J. van Rie. Gegevens: • Omvang: – types: 6.300. – tokens: 118.000. • Samenstelling (teksttypes): spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak, in aanwezigheid van een begeleider. Het onderwerp van gesprek was steeds huishoudelijke zaken, eetgewoonten en voedsel. Hierdoor komt het vocabulaire sterk overeen. • Sprekergegevens: 127 sprekers: – Man: 60 sprekers. – Vrouw: 67 sprekers. – Leeftijd -20: 30 sprekers. – Leeftijd 20-60: 45 sprekers. – Leeftijd 60+: 52 sprekers. • Opnamedatum: ? (transcriptiedatum (1994) in *.hdr-files) • Opnameduur: meer dan 19 uur. – 4,66 uur monoloog. – 10,35 uur plaatjesbeschrijvingen. – 4,19 uur voorgelezen tekst. • Annotatieschema: 55

– gehanteerde standaard: ? – geclitiseerde en andere niet-standaard vormen: ja, clitica en gereduceerde vormen, volgens meegeleverde transliteratielijst (speechstyles.txt). – sprekerwisseling, behandeling overlap: overlap tussen hekjes #. – behandeling bij- en achtergrondgeluiden: aangegeven door algemeen label ’[noise]’. – gehanteerde interpunctie: geen. Interpunctie wordt gebruikt voor de prosodie: punten voor pauzes, uitroeptekens voor emfatische klemtoon (contrastief accent), komma voor intonatieve scheiding, dubbele punt voor verlenging. • Annotatieniveaus: orthografisch (alles onderkast, behalve eigennamen met hoofdletter). Versprekingen tussen asterisks, weggelaten woorden tussen ronde haakjes (), gecorrigeerde woorden tussen vissenhaakjes <>, interrupties door de interviewer tussen accolades {}, onduidelijke woorden tussen dubbele ronde haakjes (()), paralingu¨ıstische kenmerken tussen rechte haakjes []. Fonetische transcriptie inclusief prosodische codes. • Status privacy informanten: geanonimiseerd (id-nummers 001, 002 etc., die elk corresponderen met een directory tree van die naam). • Copyright: SPEX (?) • Beschikbaarheid opnames: ja, bij SPEX (?). – geluidsdrager: CD-ROM. – opnametechniek: sampling rate 16 kHz, 16 bits A/D-conversie. – signaal-ruisverhouding: gunstig (studiokwaliteit). – elektronische versie: ja, audiofiles in NIST format (*.wav files) en esps format (*.sd files). Bijbehorende orthografische transcriptie in *.tra files. Bijbehorende fonetische transcriptie in *.phono files. In de root directory van de CD bevindt zich ook een lexicon met de fonetische transcriptie van alle woorden in het corpus. Er is ook een apart lexicon met alle gereduceerde vormen en clitica. Dit kan van belang zijn voor het CGN-project. – relatie signaal-transcriptie (volledigheid-koppeling): op uitingenniveau (uiting is gedefinieerd als een semantische eenheid tussen twee pauzes, die minstens een subject en een werkwoord bevat).

56

Voorbeelden: Orthografische transcriptie monoloog spreker 001: [000000000] ik woon in Ouderkerk aan de Amstel [000037808] dat is een dorpje . onder Amsterdam [000110768] zo dicht [uh] bij Amsterdam en dan een echt dorp [000167424] ut is dus niet zoals Amstelvee:n of als Amsterdam Zuid de Bijlmer . maar een echt ouderwets dorp met een dorpspleintje met . heel veel kerken . eromheen [000349360] Ouderkerk dat zegt ut dus al hkerki kerken . [loud breath] is een: . beetje rare gemeente ut is een hele oude gemeente Bijbehorende fonetische transcriptie monoloog spreker 001: [000000000] ”Ik ”wo:n ”In ”Au-d@r-%kEr-@k ¨ a:n ”d@ ”Am-st@l [000037808] ”dAt ”Is ë:n ”dOr-@p-j@ . ”On-d@r Am-st@r-”dAm [000110768] ”zo: ”dIxt [uh] ”bEi Am-st@r-”dAm ”En ”dAn ë:n ”Ext ”dOr-@p [000167424] IJt ”Is ”dYs ”nit zo:-”Als Am-st@l-”ve:n ”Of ”Als Am-st@r-”dAm ”z9yt ”d@ ”bEil-m@r . ”ma:r ë:n ”Ext Au-d@r-”wEts ”dOr-@p ”mEt ë:n ”dOr-@ps-plEin-tj@ ”mEt . ”he:l ”fe:l ”kEr-k@ . @-rOm”he:n [000349360] ”Au-d@r-%kEr-@k ”dAt ”zExt IJt ”dYs ”Al h”kEr-@ki ”kEr-k@ . [loud breath] ”Is ë:n . ”be:-tj@ ”ra:-r@ x@-”me:n-t@ IJt ”Is ë:n ”he:-l@ ”Au-d@ x@-”me:n-t@ 4.4.6

Het OVIS Corpus

Dit corpus is ook bekend onder de naam VIOS. Er zijn verschillende versies in omloop van verschillende grootte ten behoeve van verschillende soorten onderzoek en bewerking. Het betreft hier bandopnames van het openbaar vervoer-reisinformatiesysteem van de NS. De opnames zijn gemaakt door de KPN t.b.v. het uittesten van dit mens-machine dialoogsysteem. De (summiere) gegevens hieronder komen uit persoonlijke communicatie met Mieke Rats, wetenschappelijk consulent bij de firma Compuleer, die momenteel bewerking van het corpus onderzoekt. Gegevens: • Omvang: 20.000 dialogen. – types: niet bekend. – tokens: niet bekend. • Samenstelling (teksttypes): machine-gestuurde mens-machine dialoog. Daarnaast ook mens-mens dialogen (kennelijk als back-up voor het automatische systeem). 57

• Sprekergegevens: ? • Opnamedatum: ? • Opnameduur: ? • Annotatieschema: – gehanteerde standaard: ? – geclitiseerde en andere niet-standaard vormen: wil men opnemen. – sprekerwisseling, behandeling overlap: ? – behandeling bij- en achtergrondgeluiden: ? – gehanteerde interpunctie: ? • Annotatieniveaus: men wil naast orthografie ook syntactische en pragmatische coderingen aanbrengen, zodat ook specifieke taalfenomenen kunnen worden geselecteerd als syntactische structuren, ellipsis, versprekingen, en specifieke dialoogsituaties zoals bijvoorbeeld correctiestrategieën. • Status privacy informanten: ? • Copyright: KPN/OVR/NS (?) • Beschikbaarheid opnames: mogelijk problematisch vanwege copyright en privacyoverwegingen. – geluidsdrager: ? – opnametechniek: ? – signaal-ruisverhouding: ? – elektronische versie: ? – relatie signaal-transcriptie (volledigheid-koppeling): ? 4.4.7

Corpora van het Meertensinstituut

Aan het Meertensinstituut van de KNAW in Amsterdam wordt momenteel gewerkt aan een omvangrijk dialectcorpus van het Modern Gesproken Nederlands. Het uiteindelijk streven is 400 Noord-Nederlandse (incl. de Friese taal) en 200 Zuid-Nederlandse dialecten vast te leggen in 2000 voorgedefinieerde items, zowel woorden in isolatie als zinnetjes.

58

5

Evaluatie

Uit de voorafgaande inventarisatie van bestaande spraakcorpora en pogingen tot het definiëren van standaards voor het verzamelen, bewerken en openbaar maken van dergelijke corpora vallen een aantal aanbevelingen en aandachtspunten af te leiden. Het gaat hierbij om eisen die aan de corpusinhoud, het corpusformaat en de corpusannotatie kunnen worden gesteld. De meeste hiervan zijn taalkundig van aard, of worden gestuurd door taalkundige behoeften: • Corpusinhoud: – omvang. – representativiteit (sterke eis)/spreiding (zwakke eis). – stratificatie. – steekproefmethode. • Corpusformaat: – opnametechniek. – medium/drager. – opslag en conservering. – organisatie fragmenten (filestructuur, database, etc.). • Corpusannotatie: – orthografische transcriptie. – tekstuele structuur: SGML, XML, etc. – grammaticale en fonetische annotatieniveaus. – koppeling spraaksignaal aan transcriptie en annotatie. Een aantal aandachtspunten: 1. Maak geen gebruik van clandestiene opnames in verband met juridische (en ook ethische) bezwaren. Vraag altijd vooraf schriftelijk toestemming, alleen indien dit onmogelijk is achteraf. Regel ook vooraf alle auteursrechtelijke kwesties rond het beschikbaarstellen van de gesproken data voor wetenschappelijk en commercieel gebruik. Ook openbare opnames, b.v van radio of TV, kunnen problematisch zijn in verband met het verkrijgen van persoonlijke gegevens (leeftijd, opleidingsniveau, etc.) van de sprekers, en de mogelijk hierbij door hen gevoelde inbreuk op hun privacy. 2. De opnametechniek moet gegeven de omstandigheden zo goed mogelijk zijn, omdat alle andere transcriptieen annotatieniveaus hiervan afhangen. 3. De transcriptie moet orthografisch zo nauwkeurig mogelijk zijn, omdat anders de annotatie (b.v. met grammaticale tags) problematisch wordt. Daarom zijn er eigenlijk twee orthografische niveaus nodig: één transliteratie die nauw aansluit bij het gesprokene, dus met fonetische en prosodische annotaties, paralingu¨ıstische verschijnselen en context-notities, die we kunnen betitelen als ’narrow’, en één standaard orthografische transcriptie en interpunctie, die tagging vergemakkelijkt en zo vergelijkend lexicologisch en grammaticaal onderzoek mogelijk maakt. Deze kunnen we kenschetsen als ’broad’ (Edwards, 1995: 20). 4. Extra-lingu¨ıstische gegevens (demografische en persoonlijke data, situationele context, mogelijk communicatieve niet-vocale fenomenen) moeten zoveel mogelijk ter plekke worden genoteerd en later opgenomen in of bij het transcript, omdat deze essentieel kunnen zijn voor het begrip van de tekst en later veelal niet meer te achterhalen zijn.

59

5. Indien gebruik wordt gemaakt van een fonemische transcriptie (met eventueel prosodische informatie) dan dient aansluiting bij Unicode of anders SAMPA te worden overwogen. 6. Wanneer het signaal wordt meegeleverd in gedigitaliseerde vorm, inclusief oscillo- en spectrogrammen, dan be¨ınvloedt dat de fonologische, fonemische, fonetische en akoestische niveaus van transcriptie. Het is discutabel dat dergelijke meer aan interpretatie onderhevige en slecht in absolute grootheden te karakteriseren informatie zeer gedetailleerd met de hand moet worden vastgelegd (gesteld dat het al binnen redelijke tijd kan worden vastgelegd), als het snel op te zoeken is in (de combinatie van) het spraaksignaal en de transcriptie (b.v. Chafe et al., 1991: 72-73). 7. Er moet zorg voor worden gedragen, dat de corpora herbruikbaar zijn voor verschillende doeleinden. 8. Herbruikbaarheid impliceert: (a) Duidelijke uitgangspunten. (b) Aansluiting bij (inter)nationale standaards of minstens bij eerdere succesvolle projecten (’best practice’). (c) Een van tevoren vastgesteld transcriptieen annotatieprotocol. Codes mogen niet ambigu zijn, d.w.z. duidelijk afgebakend zijn ten opzichte van elkaar. Te veel detaillering werkt in die zin contraproductief. (d) Interactieve en post hoc validatiemethodes voor de kwaliteit en consistentie van transcriptie en annotatie. (e) Platform- en applicatie-onafhankelijkheid. Wanneer ook zeer gebruikersvriendelijke codeerstrategieën gebonden zijn aan platform-specifieke software, zoals syncWRITER voor de Apple Macintosh, dan lijdt dat onherroepelijk tot problemen. (f) Beschikbaarheid van het signaal en alle codeerniveaus. (g) Uitbreidbaarheid voor locale applicaties (b.v. verrijking met discourse tags voor een promotieonderzoek). 9. Los van mate waarin het transcriptieen annotatieprotocol vastligt, en kan worden gevalideerd tijdens en na het codeerproces, geldt dat codes werkbaar moeten zijn voor de codeurs. Er moeten discrete sets mnemonische codes worden gedefinieerd, waarbij software zorg kan dragen voor interactieve ondersteuning en conversie naar meer abstracte codes, indien gewenst. Uiteraard komt een dergelijke formulering ook de efficiency en de consistentie van het coderen ten goede. Gedetailleerde, vaak als omslachtig ervaren standaards zoals de TEI-extensies van SGML en XML moeten beoordeeld worden op hun toepasbaarheid op grote gesproken corpora (Sinclair, 1995: 106-109). Lijsten met toegestane gereduceerde, geclitiseerde vormen, interjecties, dialectwoorden, fonologisch functionele eenheden en andere conventies moeten worden opgesteld ter (mogelijk softwarematige) ondersteuning van de codeur en, in een later stadium, de eindgebruikers. 10. Het gebruik van op hypertext en hypermedia gebaseerde middleware, die de orthografische transcriptie aan de lineaire tijdsdimensie van het spraaksignaal kan koppelen in samenhang met andere afgeleide gegevens, zoals annotaties, databases, header-files, enz. moet worden overwogen, zowel voor annotatieals exploratie-doeleinden (resp. codeurs en eindgebruikers). Indexering van veel opgevraagde tiers is geboden voor snelle retrieval. 11. Additieve annotatie (waarbij tags in de tekstsequentie zijn opgenomen) moet op deze en andere (computationele) gronden worden afgewogen tegen referentiële annotatie, waarbij bidirectionele pointers via byte offsets tekstdelen associëren met bepaalde markeringen. De laatste methode geniet de voorkeur, mits het doorzoeken en laden van de relaties niet te veel tijd kost. 12. Uitgebreide annotatieniveaus moeten per niveau weg te filteren zijn uit de transcripten d.m.v. de gebruikersinterface en uit af te drukken versies, omdat anders de tekst onleesbaar wordt. 13. De gebruikersinterface moet een grafisch en intu¨ıtief benaderbaar karakter hebben. 60

14. Er moet in weergave van transcriptie en annotatie een balans gevonden worden tussen leesbaarheid en presenteerbaarheid enerzijds en efficiënte en betrouwbare quantitatieve exploitatie anderzijds.

6

Gidsprojecten voor de Toekomst

In dit hoofdstuk worden een aantal recente of nog lopende initiatieven en projecten vernoemd, die mogen gelden als wegbereiders voor de geheel gedigitaliseerde aanleg, annotatie en ontsluiting van met name gesproken corpora. Zij kunnen gezien worden als voorbeelden voor waar CGN naar streeft. Een bijzonder interessant overzicht van allerhande tools en formaten die op dit gebied voorhanden zijn is te vinden op de Webpage Linguistic Annotation van Steven Bird en Mark Liberman: http://morph.ldc.upenn.edu/annotation/

6.1

Het GATE Project

Het GATE-project (General Architecture for Text Engineering), opgezet bij de vakgroep Computer Science aan de Universiteit van Sheffield, beoogt de bouw van een theorie-neutrale, platform- en applicatie-onafhankelijke grafische ontwikkelomgeving voor NLP-tools en tekstbestanden. Het is vooral ondernomen om bestaande NLP-modules op een efficiënte manier te hergebruiken en te koppelen (Cunningham et al., 1997). Het systeem bestaat uit een databank, inclusief een managementsysteem, waarin documenten en hun diverse bewerkingsslagen kunnen worden opgeslagen (GDM - GATE Document Manager) met SGML als opslagformaat (input/output), en daarnaast de GATE Graphical Interface (GGI), waarin de documenten kunnen worden bewerkt. Via dit interface kan men de data op een grafische manier beheren, benaderen, bekijken, bewerken en opslaan. Bewerkingsprocessen kunnen worden opgebouwd door verschillende bestanden en tools samen te brengen in een data flow diagram, en te activeren met muiskliks. Het GGI ondersteunt ook visualisatie van de output, zoals highlighted matches in een tekst, of boomdiagrammen als output van parsering. Tenslotte omvat GATE een aantal modules, die een interface vormen tussen GGI en eigen bestanden en programma’s van de end-user die vrijelijk kunnen worden ingeplugd in GATE (parsers, taggers, teksten, lexica, etc.). Deze gaan onder de naam CREOLE (Collection of REusable Objects for Language Engineering). Zij vormen a.h.w. een laag om de tools heen, waardoor geabstraheerd kan worden van concrete opslagformaten, programmeertalen en besturingssystemen (Cunningham et al., 1996). De tekstannotaties worden referentieel i.p.v. additief aan de documenten toegevoegd d.m.v. pointers tussen de byte offsets van de tekstdelen en de in de GDM-database opgeslagen codes, dus het is wel zaak, dat applicaties dit type van verwijzingen ondersteunen. GATE is geschreven in C++ en Tcl/Tk en draait op UNIX en Windows NT. Een geheel herziene Javaversie is in de maak. Het systeem, evenals beschikbare CREOLE-objecten, is het stadium van prototyping reeds lang gepasseerd en kan worden ingezet in concrete NLP-taken. Het kan na registratie gratis worden opgehaald in Sheffield via ftp. Zie: http://www.dcs.shef.ac.uk/research/groups/nlp/gate/

6.2

Het EUDICO Project

EUDICO (EUropean DIstributed COrpora project) is een initiatief van het Max Planck Instituut in Nijmegen, voortvloeiend uit eerdere ervaringen met de ontwikkeling van een MediaTagger (videotranscriptie en -analyse) en MediaEditor (audiotranscriptie en -analyse). Het wordt uitgevoerd op het MPI, met financiering van SURFnet. Hoewel het niet gebaseerd is op GATE, deelt het wel diens uitgangspunten, in de zin van een formaatonafhankelijk, grafisch API (application programming interface), waarbinnen een groot aantal, vaak reeds 61

bestaande tools en corpora kunnen worden ’ingeplugd’ door middel van abstractie van de diverse inputformaten. Het project voegt hier twee nieuwe elementen aan toe: toegang tot tijdgebaseerde media Aangezien GATE is gebaseerd op tekstuele bronnen, worden links geëffectueerd op het woordniveau. Aangezien in toenemende mate audio- en videodata de eigenlijke bronbestanden gaan vormen, is het nodig snelle toegang te krijgen tot fragmenten en features gebaseerd op de tijdcodes in het signaal. Alle annotaties moeten dus gesynchroniseerd worden met de byte offsets van het digitale signaal, niet met de afgeleide transcriptie(s). gedistribueerde toegang Immers, bij talloze internationale ontwikkelprojecten – maar ook bij end-user toegang tot steeds in omvang toenemende multimediale databases – wordt het steeds wenselijker dat deelnemers binnen één virtuele Internet-omgeving samen kunnen werken, ongehinderd door gescheiden locaties en verschillende computerinfrastructuur. Binnen dit model is ook de mogelijkheid van toegang tot klassen van corpora via meta-informatie expliciet gemaakt. De gebruiker kan zo een zoekaktie beperken tot een bepaalde taal, tijd, genre of type spreker, waarna de server de bewuste corpora of relevante delen daarvan naar de gebruiker downloadt. Vanwege het doel van uniforme Internet-toegang is gekozen voor Java als implementatietaal. Zie verder de URLs: http://www.mpi.nl/world/tg/lapp/lapp.html http://www.mpi.nl/world/tg/lapp/eudico/eudico.html

6.3

De Edinburgh Language Technology Group

De Edinburgh Language Technology Group houdt zich o.a. bezig met het ontwikkelen van applicaties voor het annoteren en ontsluiten van grote taalcorpora. Zij concentreren zich hierbij, zowel op het theoretische als op het praktische vlak, op het ontwikkelen van standaards en tools gebaseerd op SGML en XML. Zij hebben in die hoedanigheid bijgedragen aan het W3C en het ISO-overleg over de uitwerking van deze standaards. De LT XML-toolset omvat een XML-editor, een parser (voor validatie van documenten), een viewer voor zowel de sequentiële als de hiërarchische tekststructuur, een tokenizer en een document-zoektaal. Het is geschreven in C, en draait op UNIX, Windows95 en Windows NT. Daarnaast produceert de groep ook meer specifiek op lingu¨ıstisch onderzoek gerichte taggers, parsers, software voor het schrijven van formele grammatica’s en boomdiagrameditors en -viewers. De programma’s zijn gratis down te loaden voor academisch gebruik na het ondertekenen van een gebruikersovereenkomst. De toolset wordt momenteel gebruikt door ongeveer 1500 academische en commerciële instellingen in de wereld. Zie: http://www.ltg.ed.ac.uk/software/index.html

6.4

Het Paper A Formal Framework for Linguistic Annotation

In hun paper A Formal Framework for Linguistic Annotation (Bird & Liberman, 1999) presenteren Steven Bird en Mark Liberman van het Linguistic Data Consortium een logisch raamwerk voor lingu¨ıstische annotatie in de vorm van een annotation graph, waarbinnen allerlei bestaande corpusfileformaten en annotatietypen (ook transcripties) te representeren zouden zijn. Zij richten zich hierbij vooral op tijdgebaseerde bronbestanden zoals audio, video en fysiologische opnames (b.v. 3D-gebarenopnames). Het sluit hiermee duidelijk aan bij het werk van het MPI zoals vervat in EUDICO.

62

Zij poneren de stelling: The one thing that ties all of the time series data together is a shared time base. To use these arbitrarily diverse data streams [nl. soorten annotatie en transcriptie], we need to be able to line them up time-wise. The shared time base is also the only pervasive and systematic connection such data is likely to have with annotations of the type we are discussing in this paper. (1999: 26) Zie voor verschillende formaten van het document: http://xxx.lanl.gov/abs/cs.CL/9903003 Er is inmiddels een voorstel ingediend bij de NSF (National Science Foundation) om dit idee en een bijbehorende toolbox verder uit te breiden. Daarmee zou het, ook gezien de leidende rol van het LDC, wel eens een heel invloedrijk project kunnen worden.

6.5

Het Zweedse Gesproken Corpus Project

Dit project wordt geleid door Jens Allwood aan de Universiteit van G¨ oteborg. Wat dit corpus bijzonder maakt is niet zozeer zijn grootte (1,2 miljoen tokens), als wel de gedegen opzet. Zo is er een opdeling naar diverse activiteiten, om zo systematische verschillen in uitspraak, vocabulaire en syntax op het spoor te komen. Verder zijn gedetailleerde protocols voorhanden voor orthografische transcriptie (inclusief de behandeling van uitspraakvariatie op vier niveaus: standaard-orthografie, modified standard, fonematisch, fonetisch), markering van sprekerwisseling en -overlap, niet-verbale klanken, enz. Deze zijn on-line opvraagbaar, voor een deel in het Engels. Daarnaast wordt er gewerkt aan een toolset, waaronder transcriptiesoftware (TransTool, geschreven in Tcl/Tk, downloadable) en pakketten voor tijdsynchrone codering en presentatie van multimedia en transcripties. Zie: http://www.ling.gu.se/SLSA/SLcorpus.html

6.6

Het Hyperlex Project

Steven Bird heeft baanbrekend werk verricht op het gebied van presentatie van doorzoekbare lexica in HTMLformulier-formaat. Hierin kunnen restricties worden gespecificeerd op orthografie, fonologie, morfologie etc. in de vorm van extended reguliere expressies (ondersteund door een Perl cgi-bin script). Ook kan het gesproken signaal worden afgespeeld (weliswaar slechts via hyperlinks naar individuele audiofiles). Zie Bird (1997). Zie: http://www.ldc.upenn.edu/hyperlex/

7

Referenties

Atkins, B.T.S., J. Clear & N. Ostler (1992). Corpus Design Criteria. In: Literary and Linguistic Computing, Journal of the Association for Literary and Linguistic Computing 7, 1: 1-16. Bird, S. (1997). A Lexical Database Tool for Quantitative Phonological Research. In: Proceedings of the Third Meeting of the ACL Special Interest Group in Computational Phonology. July 1997: 33-39. Bird, S. & M. Liberman (1999). A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-9901. Department of Computer and Information Science, Linguistic Data Consortium, University of Pennsylvania. Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. 63

Bouma, G. & I. Schuurman (1998). De Positie van het Nederlands in Taal- en Spraaktechnolgie. Rapport in opdracht van de Nederlandse Taalunie. Burnard, L. (ed.) (1995). Users Reference Guide for the British National Corpus. Oxford: Oxford University Computing Services. Chafe, W.L., J.W. Du Bois & S.A. Thompson (1991). Towards a New Corpus of Spoken American English. In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman, 64-82. Crowdy, S. (1995). The BNC Spoken Corpus. In: Leech et al., 224-234. Cunningham, H., Y. Wilks & R.J. Gaizauskas (1996). New Methods, Current Trends and Software Infrastructure for NLP. In: Proceedings of the 2nd Conference on New Methods in Natural Language Processing (NeMLaP2), Bilkent University. Cunningham, H., K. Humphreys, Y. Wilks & R. Gaizauskas (1997). Software Infrastructure for Natural Language Processing. In. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP97). De Vriendt-De Man, M.J. (1969). Frequentie van Woorden en Structuren in Spontaan Gesproken Nederlands. Brussel: Didier. Edwards, J.A. (1992). Computer Methods in Child Language Research: Four Principles for the Use of Archived Data.Journal of Child Language 19, 435-458. Edwards, J.A. (1995). Principles and Alternative Systems in the Transcription, Coding and Mark-up of Spoken Discourse. In: Leech et al., 19-34. Feldweg, H. (1992). The European Science Foundation Second Language Databank. Ongepubliceerd document, MPI Nijmegen. Gibbon, D., R. Moore & R. Winski (eds.) (1997). Handbook of Standards and Resources for Spoken Language Systems. Berlin/New York: Mouton de Gruyter. Goldfarb, C.F. & P. Prescod (1998). The XML Handbook. Upper Saddle River, NJ: Prentice Hall PTR. Hart, J. ’t, R. Collier & A. Cohen (1990). A Perceptual Study of Intonation. Cambridge: Cambridge University Press. Greenbaum, S. (1991). The Development of the International Corpus of English. In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman. Heikens, H. (1978). Een Sociolingu¨ıstisch Opgebouwd Corpus Amsterdamse Spreektaal. In: Taal en Tongval 30, 36-49. Jong, E.D. de (1979). Spreektaal: Woordfrequenties in Gesproken Nederlands. Utrecht: Bohn, Scheltema & Holkema. Knowles, G., B. Williams & L. Taylor (eds.) (1996). A Corpus of Formal British English Speech: the Lancaster/IBM Spoken English Corpus. London/New York: Longman. Kohler, K., M. P¨ atzold & A. Simpson (1995). From Scenario to Segment: The Controlled Elicitation, Transcription, Segmentation and Labelling of Spontaneous Speech. Arbeitsberichte (AIPUK) 29, Institut f¨ ur Phonetik und Digitale Sprachverarbeitung, IPDS, Universit¨ at Kiel, Duitsland. Leech, G. (ed.) (1990). Proceedings of a Workshop on Corpus Resources. Wadham College, Oxford: DTI/Speech and Language Technology Club. Leech, G., G. Myers & J. Thomas (eds.) (1995). Spoken English on Computer: Transcription, Mark-up and Application. Harlow/New York: Longman. Linssen-Maes, A. & G. Redeker (1992). Interruptiegedrag van Vrouwen en Mannen in Radio- en Televisiediscussies. In: Gramma/TTT - Tijdschrift voor Taalwetenschap 1, 133-148. MacWhinney, B. (1995). The CHILDES Project: Tools for Analyzing Talk. Hillsdale(USA)/Hove(UK): Lawrence Erlbaum Associates. Redeker, G. (1992). ’Kleine woordjes’ in spontaan taalgebruik - stoplapjes of signalen voor de lezer/luisteraar? In: Toegepaste Taalwetenschap in Artikelen, 43, 55-65. Redeker, G. & A. Maes (1996). Gender Differences in Interruptions. In: D. Slobin et al. (eds.) Social Interaction, Social Context and Language, 597-612. Roach, P. & S. Arnfield (1995). Linking Prosodic Transcription to the Time Dimension. In: Leech et al., 1995: 149-160.

64

Roach, P., G. Knowles, T. Varadi & S. Arnfield (1993). MARSEC: A Machine-Readable Spoken English Corpus In: Journal of the International Phonetic Association 23(2): 47-53. Schaerlaekens, A.M. (1973). The Two-Word Sentence in Child Language Development: a Study Based on Evidence Provided by Dutch-speaking Triplets. The Hague/Paris: Mouton. Silverman, K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert & J. Hirshberg (1993). TOBI: A standard for labeling English prosody. In: Proc. Intern. Conf. on Spoken Language Processing, Banff, Alberta, Canada, 12-16 October 1993, 867-870. Sinclair, J. (1995). From Theory to Practice. In: Leech et al., 99-109. Sperberg-McQueen, C.M. & L. Burnard (1994). Guidelines for Electronic Text Encoding and Interchange (TEI P3). Vols. I+II. Chicago/Oxford: Text Encoding Initiative. Spraak- en Taaltechnologie voor het Nederlands (1993). Nota Vlaamse regering. Van de Velde, H. (1996). Variatie en Verandering in het Gesproken Standaard Nederlands (1935-1993). Proefschrift Katholieke Universiteit Nijmegen.

65

Nederlandse Gesproken Corpora: een Inventarisatie

Recommend Documents