“Kies een andere formulering” De stijl- en grammaticacontrole van Word Bas Andeweg & Wim Blokzijl De veelgebruikte tekstverwerker Word van Microsoft controleert teksten, behalve op spelling, ook op grammatica en stijl. Maar waar een spellingcontrole vooral mechanisch werk is, is voor grammatica- en stijlcontrole meer inzicht nodig in zinsstructuur en context. Hoe goed is Word hierin? We testen het programma aan de hand van een corpus van studententeksten. Ontwikkeling stilgevallen ..................................................................................................................... 2 Aanleiding............................................................................................................................................ 2 Opzet .............................................................................................................................................. 2 Spelling................................................................................................................................................ 3 Grammatica......................................................................................................................................... 3 Onjuist verwijswoord ....................................................................................................................... 4 Verkeerde woordvolgorde............................................................................................................... 4 Onjuiste vervoeging ........................................................................................................................ 4 Onjuist getal .................................................................................................................................... 4 Verkeerd lidwoord ........................................................................................................................... 5 Stijl....................................................................................................................................................... 5 Archaïsch taalgebruik ..................................................................................................................... 5 Ambtelijk taalgebruik....................................................................................................................... 6 Populair taalgebruik ........................................................................................................................ 6 Cliché .............................................................................................................................................. 6 Barbarisme...................................................................................................................................... 6 Breedsprakigheid ............................................................................................................................ 7 Voorzetselketen .............................................................................................................................. 7 Vaag taalgebruik ............................................................................................................................. 8 Spreektaal / schrijftaal .................................................................................................................... 8 Regionaal taalgebruik ..................................................................................................................... 9 Vermijd de lijdende vorm ................................................................................................................ 9 Toekomst........................................................................................................................................... 11 Literatuur ........................................................................................................................................... 12
Tot in de jaren tachtig waren er schaak- en informatica-experts die meenden dat computers nooit fatsoenlijk zouden leren schaken. De Nederlandse schaakgrootmeesters Euwe (tevens hoogleraar informatica) en Donner (werkte een blauwe maandag voor IBM) waren hier destijds stellig van overtuigd. Inmiddels weten we beter. In 1997 won de IBMschaakcomputer Deep Blue een match van de toenmalige wereldkampioen, Garry Kasparov. Kasparov was na afloop niet bijzonder blij. Ook Euwe en Donner zouden zich, hadden ze nog geleefd, hebben opgevreten van ellende. Schaken kan de computer nu dus. Tijd voor een volgende stap. We zijn optimistischer dan de schakers: we voorspellen dat we tekst ooit door een programma kunnen halen dat ons vervolgens haarfijn, secuurder dan een mens het ooit zou kunnen, uitlegt wat er schort aan stijl, structuur en argumentatie. Een nakijkmachine, menig schrijftrainer wacht er met smart op. Het zou het bestaan een stuk veraangenamen. Nakijken is nu eenmaal niet het leukste onderdeel van het trainerschap.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
1
Ontwikkeling stilgevallen Of het al zover is, valt nog te bezien. Sinds Word een stijlchecker meelevert, lijkt de ontwikkeling van stijlcontrole in tekstverwerkers te zijn gestopt. Ook het in Wordperfect geïncorporeerde stijlcontroleprogramma Grammatik wordt door de huidige eigenaar Corel niet verder ontwikkeld. Voormalig auteur van Grammatik Bruce Wampler wijt het allemaal aan Microsoft. In een interview in The New York Times (Markoff 2002) beschrijft hij dat het in het begin van de jaren negentig een spannende tijd was waarin kleine bedrijven elkaar met hand en tand beconcurreerden om de beste en intelligentste stijl-/grammaticachecker, wat resulteerde in een stroomversnelling van technologische ontwikkelingen. Toen Microsoft in een stijlprogramma opnam in het eigen tekstverwerkingsprogramma volgden andere softwarebedrijven snel. En de hele vooruitgang kwam tot stilstand in wat hij noemt een ‘technological backwater’; het bloedde dood. Het enige nieuwe na ruim tien jaar is volgens Wampler dat de grammatica gecontroleerd wordt terwijl je typt. Volgens hem is er niet zo eens heel veel nodig om toch grote vooruitgang te boeken in de verdere ontwikkeling van de stijlcontroleprogramma’s, maar hij gelooft niet dat dat zal gebeuren zolang Microsoft de markt beheerst. Theo van der Heuvel, directeur van Polderland BV (de ontwikkelaar van het Nederlandse deel van de Word-stijl-/spellingchecker) is het niet met Wampler eens: “Ik weet dat er wel degelijk wordt gewerkt aan verbeteringen. Het is overigens zo dat veel van dat onderzoek (nog) buiten het gezichtsveld van de vakliteratuur gebeurt” (Van der Heuvel 2004). Dat laatste klopt ook wel. In een rapport voor de Nederlandse Taalunie geven Daelemans & Strik (2002) aan dat veel van de technologie niet beschikbaar is voor gebruik door de reguliere onderzoeksinstellingen van de universiteiten. De meest interessante ontwikkeling hier is nog het proefschrift van Vosse uit 1994 over tekstcorrectie gebaseerd op grammatica, maar dat lijkt niet te hebben geleid tot de verdere ontwikkeling van de grammatica- en stijlchecker. Voorlopig zullen we het dus met Word moeten doen. Hoe doet dit programma het qua correctie van teksten?
Aanleiding Van alle tekstverwerkers wordt Word van Microsoft in Nederland waarschijnlijk het vaakst gebruikt. Dit programma heeft de mogelijkheid om teksten niet alleen op spelling te controleren, maar ook op grammatica en stijl. Hoe gaat dat? Sluit het aan bij de ontwikkelingen op het gebied van de automatische correctie? Is het voor docenten en trainers misschien handig om bepaald commentaar niet meer zelf te geven, maar af te doen met een verwijzing naar Word’s stijlcorrectie? In dit artikel bespreken we de mogelijkheden en beperkingen van de spelling-, grammatica- en stijlcontrole van het tekstverwerkingsprogramma Word, waarbij we de nadruk leggen op stijl en grammatica. We gebruikten hiervoor de Word-versie in Office 2003.
Opzet We hebben de spelling-, stijl- en grammaticacontrole van Word losgelaten op een corpus van teksten. Dit corpus bestond uit 22 Nederlandstalige rapportinleidingen, geschreven door eerstejaarsstudenten Technische Bestuurskunde aan de Technische Universiteit Delft. Deze inleidingen werden geschreven in het kader van een project. Ze gingen allemaal over hetzelfde onderwerp: de noodzaak om de CO2-uitstoot terug te dringen in de gemeente Rotterdam. De inleidingen hadden elk een lengte van ongeveer driehonderd woorden.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
2
We stelden Word in op strikte schrijfstijl (via het menu Extra/opties/Spelling en grammatica). Met die instelling haalt het programma alles uit de kast. Voor de ene taal is dat overigens wat meer dan voor de andere; voor de Engelse taal zijn er bijvoorbeeld veel meer controlemogelijkheden. We lieten het corpus door Word controleren en hebben vervolgens onafhankelijk van elkaar de volledige resultaten van de controle gecategoriseerd. Na onderling overleg ontstond een definitieve categorisering; zie tabel 1. Tabel 1: Totaalscores van spel-, stijl- en grammaticafouten in het corpus.1 terecht onterecht twijfelachtig commentaar commentaar commentaar freq. gewraakte freq. gewraakte freq. gewraakte tekst2 tekst2 tekst2 104 74 0 spelling 43 16 0 grammatica 3 stijl: 1 0 0 heden ten archaïsch dage 0 0 0 barbarismen 1 0 0 aldaar ambtelijk 0 2 0 het voortouw populair nemen 2 0 met name cliché 1 0 0 in het vaag algemeen 2 0 1 zo’n makkelijk spreektaal 4 [lange zinnen] 0 1 [lange zin] breedsprakigheid 0 38 0 reductie; schrijftaal emissiereductie; aangezien 0 0 0 regionaal 1
2 3
Elke fout is apart geturfd. Tweemaal dezelfde fout in dezelfde tekst leverde dus twee turven op. Om beknoptheidsredenen alleen bij stijl weergegeven. Gecategoriseerd volgens de indeling die Word zelf hanteert.
Spelling Uit tabel 1 blijkt dat vooral veel spelfouten worden aangestreept. Dat is verklaarbaar: de gebruikte inleidingen waren voorlopige versies die vaak erg slordig waren opgesteld, waarschijnlijk onder het motto ‘de afwerking komt later nog wel’. Fouten als mileubeleid en analiseren zijn dan snel gemaakt. Het meeste commentaar dat Word gaf, was terecht. Onterecht commentaar op spelling kwam vooral voor bij samenstellingen. En soms schoot het lexicon simpelweg tekort; het woord CO2 bleek bijvoorbeeld onbekend.
Grammatica Ook fouten die door Word als grammaticaal worden bestempeld, kwamen vaak voor. Een veelgemaakte misser was dat studenten tenslotte schreven waar ze als laatste bedoelden. Word pakt dit verstandig aan: het programma roept niet direct dat er een fout is gemaakt, maar informeert voorzichtig of er wel staat wat de schrijver bedoelt, en legt het verschil tussen tenslotte en ten slotte uit.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
3
Naast dit losse geval waren er vier typen grammaticacommentaren die vaak terugkwamen. We bespreken ze alle vier.
Onjuist verwijswoord Uit tabel 1 blijkt dat het meeste grammaticale commentaar terecht was: 43 keer ging het goed. In 16 gevallen was het commentaar misplaatst. Wat ging er zoal fout? Word blijkt vooral moeite te hebben met verwijswoorden. Neem de zin Deze reductie is een verzoek van de Nederlandse overheid, die heeft toegezegd haar CO2-uitstoot met 6% te reduceren. De grammaticacontrole waarschuwt: “Mogelijk heeft u ‘die’ en ‘dat’ verward”. Onbegrijpelijk commentaar, zo op het eerste gezicht. Op het tweede gezicht trouwens ook: uit de toelichting die het programma geeft, blijkt dat Word denkt dat die niet terugverwijst naar overheid, maar naar een ander, niet nader genoemd onzijdig woord (dat moet dan wel verzoek zijn). De verwarring blijkt gek genoeg te worden veroorzaakt door de komma: schrappen we die, dan vervalt het commentaar. Kennelijk vindt Word die komma misplaatst. Het tegendeel is echter het geval. De komma maakt hier het verschil tussen een beperkende en een uitbreidende bijzin; verdwijnt de komma, dan is de bijzin ineens beperkend en staat er iets als van alle Nederlandse overheden is er één die heeft toegezegd haar CO2-uitstoot met 6% te reduceren. Dat kan niet de bedoeling zijn. Een merkwaardige misser van Word.
Verkeerde woordvolgorde Het commentaar “Verkeerde woordvolgorde” kwam onder andere tevoorschijn bij de volgende zin: Daarna zullen we een causale analyse uitvoeren en de processen beschrijven en analyseren die in de petrochemische en energie sector voorkomen. Het paperclipcommentaar luidde: “In deze zin lijkt er sprake te zijn van een zogenaamde Tante Betje-constructie: de woordvolgorde in de zin is niet correct. Het werkwoord “analyseren” staat op de verkeerde plaats; het moet na het onderwerp komen en niet ervoor. Als u op de voegwoorden “en, want, maar” het onderwerp laat volgen is de zin doorgaans correct”. Het commentaar kwam twee keer voor in ons corpus. Het laat de schrijver wat piekerend achter. Als je veel van dit soort commentaar zou krijgen, dan zou je toch wel wat moe worden. Wat moeten schrijvers ermee?
Onjuiste vervoeging De grammaticacontrole doet zijn werk vooral goed bij eenvoudige zinsconstructies. De student die zijn inleiding begon met Het klimaat veranderd, werd door Word op de vingers getikt. Wordt het ingewikkelder, dan krijgt de tekstverwerker het echter moeilijk. Bijvoorbeeld bij Het begin van het onderzoek was erop gespitst een beter beeld te krijgen van de huidige situatie en inzicht te krijgen in welke veranderingen positief of negatief werken op het gestelde probleem. “Het bijvoeglijk naamwoord “negatief” lijkt hier ten onrechte onverbogen”, aldus Word. Aan de toelichting bij dit commentaar is te zien dat het programma werken hier als zelfstandig naamwoord beschouwt, en negatief als bijvoeglijk naamwoord. Merkwaardig is trouwens dat dit commentaar verdwijnt als we begin van het uit de zin schrappen.
Onjuist getal Ook hier vergist Word zich snel bij relatief complexe zinsconstructies. Als de checker een werkwoord bespeurt, neemt het al snel aan dat het een persoonsvorm is; vervolgens wordt het dichtstbijzijnde zelfstandige naamwoord als onderwerp bestempeld. Zo gaat het bijvoorbeeld in De sectie milieubeleid zal dus zowel overleg als druk moeten uitoefenen…; Word wil moeten veranderen in moet.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
4
Verkeerd lidwoord Verder was het zaak voor de overheid om in te grijpen, schrijft een student. De Wordpaperclip grijpt in, en adviseert om het lidwoord het te veranderen in de. Een begrijpelijke vergissing. Word ziet niet dat het in deze zin als onderwerp fungeert, en denkt dat hier verder was de zaak… had moeten staan.
Stijl De stijlcontrole van Word is niet bedoeld om een totaaloordeel te vellen over teksten. Word pakt het simpeler aan. Het programma hanteert de tien stijlcategorieën die al in tabel 1 waren te zien: • Archaïsch taalgebruik • Breedsprakigheid • Ambtelijk taalgebruik • Vaag taalgebruik • Populair taalgebruik • Spreektaal • Cliché • Schrijftaal • Barbarisme • Regionaal taalgebruik Al het stijlcommentaar dat de gebruiker krijgt, valt in één van deze categorieën. Wordt hiermee inderdaad het hele stijlspectrum gedekt? Natuurlijk niet. Een stijl kan ook houterig zijn, hijgerig, literair, volks, kinderlijk, hooghartig. Maar het probleem is dat zulke stijlen pas te herkennen zijn na een paar zinnen. En aan de categorieën die Word hanteert is al een beetje te zien hoe de stijlcontrole functioneert: vooral op het niveau van woorden en kleine woordgroepen. Een tekst als geheel qua stijl karakteriseren lukt Word nog niet. Waarom eigenlijk niet?
Archaïsch taalgebruik In het hele corpus constateert Word slechts één geval van archaïsch taalgebruik. De betreffende stijlzonde luidt: Heden ten dage moet door Nederland nog steeds aan deze afspraak voldaan worden. Terecht treedt Word hier streng tegen op; ook wij zouden de betreffende student adviseren om te kiezen voor Tegenwoordig… of Ook nu…. Wel jammer dat Word de lijdende vorm niet herkent. Nederland moet tegenwoordig nog steeds aan deze afspraak voldoen klinkt beslist vlotter. Dat de stijlcontrole van Microsoft vooral plaatsvindt op woordniveau, is goed te zien aan het volgende voorbeeld: het begin van een gedateerd rapportagehandboek (De Roo, 1958). Waarom dit handboek? U heeft recht op een bevredigend antwoord. Het gaat immers niet op dat U uw tijd verliest met het lezen van een overbodige tekst, al heeft de auteur gemeend de zijne te moeten besteden aan het schrijven ervan. Je zou kunnen stellen dat de laatste zin zichzelf overbodig verklaart. Verrassend genoeg vindt Word juist deze zin - de meest archaïsche van de drie - spreektaalachtig. Hoe kan dat? Het programma herkent in de combinatie U uw tijd een informele constructie als Mijn moeder haar fiets. Dit is een typisch voorbeeld van het onvermogen van de stijlcontrole om relatief complexe zinsconstructies te beoordelen. Bij zeer eenvoudige woordcombinaties is er meer kans van slagen: Word noemt de combinatie u heeft te formeel en ambtelijk, en adviseert u hebt. Toch faalt de archaïsmencontrole ook vaak op woordniveau. We dagen Word uit met een zelfbedachte (on)zin: Indachtig uw belofte gebieden wij U thans om U onverwijld herwaarts te spoeden. Maar deze drastische poging om op de vingers te worden getikt, mislukt. Word © 2005 Bas Andeweg / Wim Blokzijl, TU Delft
5
beschouwt onverwijld niet als archaïsme, maar als schrijftaal. De rest van dit stilistische hoogstandje, inclusief het archaïsch met een hoofdletter gespelde U, wordt goedgekeurd.
Ambtelijk taalgebruik Ook ambtelijk taalgebruik wordt in het corpus maar één keer geconstateerd, en ook hier is het commentaar terecht. In Op de internationale klimaatconferentie aldaar is overeengekomen […] kan het woord aldaar stilistisch gezien inderdaad niet door de beugel. Word adviseert om er het minder ambtelijke daar van te maken. Dat levert een zin op die wat houterig aandoet: Op de internationale klimaatconferentie daar is overeengekomen […]. Maar Word heeft in ieder geval onze aandacht op de stijlfout gevestigd. Onze studenten waren niet erg geneigd om ambtelijk te schrijven. Om deze functie van de stijlcontrole toch enigszins te prikkelen, hebben we hem losgelaten op een tekst uit het Handboek Stijl (Burger & De Jong, 1997). Deze tekst, een parodie op wat de auteurs stadhuistaal noemen, luidt als volgt: Onder referte aan Uw schrijven d.d. 20 september 1996, doen wij U thans onzerzijdse reactie toekomen ter zake van Uw verzoek behelzende de fiscale aftrekbaarheid van tekstverwerkende apparatuur. Kan het ambtelijker? Nauwelijks, maar Word is niet onder de indruk. De combinatie ter zake wordt schijftaal genoemd (maar wat is daar op tegen in een geschreven tekst?), onzerzijdse moet onzerzijds zijn, en dat is het dan.
Populair taalgebruik Ook in de rubriek populair taalgebruik vallen er steken. Hier struikelt Word over het woord voortouw; populair taalgebruik volgens Word. “Kies een andere formulering”, luidt het advies. Waarom dat zou moeten, en wat precies het bezwaar is tegen populair taalgebruik, wordt echter niet direct uitgelegd – daarvoor dient de gebruiker zich op eigen houtje een weg te banen naar een helpfile met achtergrondinformatie over stijlproblemen. Ons lijkt het in ieder geval een onterechte kwalificatie. Als het woord al moet worden afgeraden, dan toch eerder omdat het afgezaagde beeldspraak is – een cliché dus, en dat is binnen Word een bestaande categorie.
Cliché Het cliché zelf wordt eveneens merkwaardig behandeld. De frase met name wordt in het corpus twee keer als cliché aangestreept. In beide gevallen gaat het om een zin als Het broeikaseffect wordt veroorzaakt door de uitstoot van gassen, met name de uitstoot van CO2. Word oordeelt dat de betreffende woordcombinatie te vaak wordt gebruikt en beveelt de alternatieven vooral, voornamelijk of in het bijzonder aan. Ook dit advies lijkt ons niet juist. Allereerst is, gezien de toelichting, onduidelijk waarom Word met name als cliché beschouwt, en niet als populair taalgebruik. Vervolgens begrijpen we niet waarom voornamelijk en in het bijzonder verbeteringen zouden moeten zijn. Vooral lijkt ons wel een verbetering, maar dan niet om het minder clichématige maar om het vlottere en minder ambtelijke.
Barbarisme Barbarismen zijn in het corpus niet aangetroffen. De categorie is goed te vergelijken met die van het regionale taalgebruik, waarover later meer.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
6
Breedsprakigheid Breedsprakig taalgebruik - zo stelt Word - kenmerkt zich door zinsconstructies die grammaticaal juist zijn, maar door hun lengte of complexiteit de tekst minder leesbaar maken. In het corpus kwam de melding vijf keer voor. Het ging hierbij om zinnen als Wij hebben een simulatieprogramma gemaakt voor het verkeer in en om Rotterdam om te kunnen berekenen hoe je het verkeer beter zou kunnen laten doorstromen en het openbaar vervoer kan verbeteren, waardoor de reistijden in de auto’s korter worden waardoor er minder uitstoot zal zijn (46 woorden). Wat doen we hieraan? Moeten we de zin nu korter maken, of kunnen we beter de constructie aanpassen? Enig experimenteren leert dat het in de optiek van Word geen zin heeft om zinsconstructie of interpunctie aan te passen – het oordeel “breedsprakigheid” blijft staan. Het zit ‘m volgens Word dus in de lengte, en niet in de complexiteit van de zin. Dat is echter te kort door de bocht: algemeen erkennen deskundigen dat niet zozeer de lengte, als wel de constructie een zin onleesbaar maakt (zie bijvoorbeeld Burger & De Jong, 1997). In de adviesboeken wordt het advies vermijd lange zinnen met nuances gepresenteerd. Renkema (2002) bijvoorbeeld, presenteert meerdere langere zinnen die zijns inziens goed leesbaar zijn. Dus hoe gealarmeerd moet een schrijver zijn als de Wordpaperclip met het breedsprakigheidcommentaar op het scherm verschijnt? Een vervelende bijkomstigheid is natuurlijk dat er geen directe alternatieven worden geboden. Je moet dus zelf verzinnen hoe het beter kan. Het schrijfcentrum van de Universiteit van Tilburg denkt daar gemakkelijk over: “meestal door simpelweg wat met de delen ervan heen en weer te schuiven [kan] een vlottere zin verkregen worden”. Burger en De Jong geven een praktisch testadvies: “als de zin vaak van ‘richting’ verandert (herkenbaar aan maar, hoewel, echter, bovendien) dan is deze waarschijnlijk te vol” (p188). Koetsenruijter en Berkenbosch maken in hun zeer leesbare adviesboek over het schrijven van milieurapporten duidelijk dat het toch meestal niet alleen een kwestie is van ‘schuiven’. Er komt herschrijven aan te pas (Koetsenruijter & Berkenbosch, 2003). En dat betekent dat commentaar voor beginnende schrijvers toch de nodige problemen met zich meebrengt. En als de deskundigen daar al genuanceerd over oordelen, dan denk je als schrijver toch al snel dat één lange zin je de kop niet zal kosten. oorspronkelijk De verwachting is dat de uitkomsten uit het marktverkenningonderzoek en de afbakeningsmogelijkheden omtrent de omvang en de randvoorwaarden voor de glastuinbouwontwikkeling in deze regio gedurende de maanden september en oktober in de interne ambtelijke begeleidingsgroep besproken zullen worden, alvorens te komen tot een definitieve afbakening (eventueel banbreedte) van de omvang (ruimtebehoefte) en de aard van de voorgenomen activiteit, alsmede de randvoorwaarden.
herschrijving Er is onderzoek verricht om de markt te verkennen en om de omvang en de randvoorwaarden voor glastuinbouwontwikkeling in deze regio af te bakenen. De interne ambtelijke begeleidingsgroep zal de resultaten van deze onderzoeken in de maanden september november bespreken. Daarna valt een besluit over een definitieve afbakening (eventueel bandbreedte) van de omvang (ruimtebehoefte) en de aard van de voorgenomen activiteiten, alsmede de randvoorwaarden.
Voorzetselketen Word kent als stijlprobleem de voorzetselketen (zonder een alternatief te bieden). In ons corpus komt het commentaar slechts één keer voor: Het doel van dit rapport is om er achter © 2005 Bas Andeweg / Wim Blokzijl, TU Delft
7
te komen wat de meest optimale methode voor de sector milieubeleid van Rotterdam is om de CO2uitstoot in de regio Rotterdam met 10% te verminderen. Als beoordelaar zou je je eerder druk maken over het wat populaire er achter komen dan over de hoeveelheid voorzetsels. Aangezien Word geen alternatieve formulering biedt bij het commentaar moet de schrijver zelf maar bedenken hoe hij het euvel verhelpt. Ook de adviesboeken hebben regelmatig wat te mopperen over het voorzetsel. De degelijke en wat ouderwets aandoende Taalgids voor de ambtenaar valt vooral over zinnen waarin twee voorzetsels na elkaar komen, bijvoorbeeld De regering is bereid medewerking te verlenen aan het zoeken van op de toekomst berekende oplossingen (troonrede 1964). Burger en De Jong noemen dit de voorzetselhik.
Vaag taalgebruik Vaag taalgebruik wordt door Word gedefinieerd als taalgebruik dat niet informatief is. Het gaat dan meestal om een combinatie van woorden die iets vaags, minder vastomlijnds aanduiden, toegepast als bepaling bij een ander woord. Het gebruik van dergelijke vage woorden zonder navolgende verduidelijkende woorden zou de vaagheid versterken. In ons corpus kwam de melding slechts één keer voor: De sector Milieubeleid Rotterdam is op zoek naar een instrumenten mix die zou kunnen leiden tot de gewenste reductie van de broeikasgassen in het algemeen. Burger en De Jong (1997) rekenen onder vaag taalgebruik ook allerlei wat zij noemen ‘vaagmakers’, bijvoorbeeld: een beetje, sommige, enige, enkele, grotendeels, in nogal wat gevallen, wel. Jansen e.a. noemen daarbij ook vage tijdsaanduidingen: te zijner tijd, binnenkort en binnen enkele weken. In bepaalde gevallen is vaagheid wel op zijn plaats zo stellen ze: om strategische manoeuvreerruimte te houden. Om studenten zo ver te krijgen om in plaats van enkele punten van kritiek de meer precieze vorm drie punten van kritiek te laten gebruiken kost vaak enige overredingskracht. Word helpt hier niet; het herkent geen van deze frasen.
Spreektaal / schrijftaal Word onderscheidt de twee traditionele hoofdstijlregisters: spreektaal en schrijftaal. Tot spreektaal rekent Word “woorden en uitdrukkingen die meer voorkomen in gesproken taal en die in schrijftaal vaak ongewenst zijn”. Voorbeelden die Word geeft, zijn zinnen als: Zeker weten! Of het Zuid-Nederlandse: Doe de troep maar even opruimen. Tot schrijftaal rekent Word “woorden en uitdrukkingen die uitsluitend in geschreven teksten worden gebruikt. Ze zijn minder gangbaar en hierdoor ongeschikt voor gebruik in populaire en eenvoudige teksten” (alhier, evenwel, lommer). Het onderscheid met ambtelijk taalgebruik is onduidelijk. Burger en Jong (1997) merken op dat de term schrijftaal niet voldoende onderscheidend is. Immers, een brief aan een vriend zal anders geformuleerd zijn dan een brief aan de Woningbouwstichting. Toch gaat het in beide gevallen om schrijftaal. Daarom zoeken Burger en De Jong het onderscheid meer in de tegenstelling formeel – informeel (met als middenpositie neutraal en als uitglijder vulgair). De studenten in ons corpus bezondigen zich volgens Word slechts een enkele keer aan het gebruik van spreektaal. Het schrijven van zo’n levert steevast een waarschuwing op Als alternatieven worden gegeven: een dergelijk(e), een zodanig(e) of ongeveer. Meestal goed bruikbaar. Opmerkelijk is overigens dat Word in de eigen voorbeelden (zie tabel) ook dermate als alternatief geeft. Nemen we dit voorstel over, dan zien we vervolgens dat dit direct als schrijftaal wordt gekarakteriseerd. Schrijftaal treft Word vaak in ons corpus aan. Dit wordt veroorzaakt door het frequente voorkomen van het woord reductie (en combinaties ermee zoals emissiereductie, maar het © 2005 Bas Andeweg / Wim Blokzijl, TU Delft
8
werkwoord reduceren ontspringt de dans). Lastig natuurlijk als je over de reductie van CO2 moet schrijven. Wat ons betreft had Word wel een verandersuggestie - vermindering - mogen geven. Ook het schrijftaalwoord aangezien wordt gesignaleerd (als alternatief wordt omdat voorgesteld).
Regionaal taalgebruik Een enkele keer is Word te verleiden tot het signaleren van wat regionaal taalgebruik wordt genoemd (meestal zonder verbetersuggesties). Het programma verstaat daar woorden en uitdrukkingen onder die uitsluitend worden gebruikt in bepaalde streken in het taalgebied – vooral Vlaanderen. Ze stellen dat dit taalgebruik in de standaardtaal niet correct is. Als voorbeeld wordt gegeven: ‘thee inschudden’ in plaats van ‘thee inschenken’. Ons corpus bevatte volgens Word geen regionaal taalgebruik. Het oplossen van eventuele problemen op dit vlak lijkt ons niet moeilijk. De meeste Nederlanders en Vlamingen die regionaal getinte teksten schrijven, kennen over het algemeen ook het alternatief uit het standaard Nederlands.
Vermijd de lijdende vorm Een vroegere versie van Word maakte de schrijver attent op een teveel aan passiefconstructies. Het afraden van het gebruik van de lijdende vorm is lange tijd een gebruikelijk stijladvies geweest. Een zin in de bedrijvende vorm is immers over het algemeen aantrekkelijker en beknopter. De zin in de lijdende vorm maakt vaak een omslachtiger en overdreven gewichtige indruk (Jansen e.a., 2002). Het gebruik ervan maakt de tekst onpersoonlijk, onduidelijk en saai (Burger en De Jong, 1997). Het proefschrift van Louise Cornelis (1997) brengt een kentering in de altijd-actief adviezen. Op basis van haar caseonderzoek en enkele kleine experimenten stelt ze dat het gebruik van de lijdende vorm in sommige gevallen heel zinvol kan zijn. Bijvoorbeeld in wetenschappelijke teksten waar de handeling op de voorgrond moet staan en niet de persoon van de onderzoeker. Maar ook daar, zo stelt ze, hangt het erg van de context af wat de beste keus is. Het is er niet gemakkelijker op geworden, en dat is misschien de reden dat Word de lijdende vorm niet meer herkent als stijlfout. Toch is dat jammer. Een zin als “Er is door hen in het verleden een plan ontworpen […]” is voor één keer niet zo erg, maar studenten hebben de treurige neiging om doorlopend naar zulke passiefconstructies te grijpen. Docenten zouden zulke schrijvers graag met een enkele opmerking (“zie Word”) naar de stijlcontrole verwijzen, maar die grijpt dus niet in. De Engelstalige stijlcontrole van Word geeft de lijdende vorm wel aan en geeft ook een alternatieve formulering. Soms gaat dat goed, soms ook niet (zie voorbeeld). oorspronkelijk A verification of the usability of the goed above informal definitions was carried out by two judges, both of them communication trainers. onzinnig Answers to questions that were included in the extensive slides were answered better by the group that saw the extensive slides than the group that saw the concise support version.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
herschrijvingsvoorstel Two judges, both of them communication trainers, carried out a verification of the usability of the above informal definitions. The group that saw the extensive slides than the group that saw the concise support version answered answers to questions that were included in the extensive slides better.
9
Hulp voor studenten? De grammatica- en stijlcontrole van Word zijn slechts beperkt bruikbaar. De controle is vooral nuttig bij eenvoudige zinsconstructies, maar ook dan verslikt Word zich vaak. Dat ligt soms aan een erg beperkt grammaticaal inzicht, en soms aan dubieuze definities van begrippen als ‘cliché’ en ‘populair taalgebruik’. De controlefunctie maakt een vrij primitieve indruk. Het begrip ‘context’ is Word goeddeels vreemd, en dat maakt dat de merkwaardigste teksten vrij ongeschonden uit de stijl- en grammaticacontrole komen. Een extreem voorbeeld tot besluit, uit een rapport van een student Werktuigbouwkunde over een automatische potloodslijper: Het ontwerp Hieronder zal ik proberen iets meer over het ontwerp te vertellen. De elektromotor drijft een tandwiel aan, die weer een ander tandwiel aandrijft wat zich haaks op de as van de motor bevindt, aan dezelfde as waar het aangedreven tandwiel zich bevindt, zit een wieltje met een gleuf erin, die met behulp van een rubber ring een ander wieltje op een andere as aandrijft. Op deze as zit ook weer een ander wieltje wat een andere as aandrijft, op die as zit een tandwiel, die langs een heugel loopt, gemonteerd op het huis, op deze manier zorgt de elektromotor voor de voedingsbeweging.De rotatie die nodig is om de frees aan te drijven komt van dezelfde motor. Aan de as van de motor zit een verleng-as gemonteerd die direct is aangesloten op de frees. Om het freesje nog een tweede bewegingsrichting te geven (het freesje moet namelijk om het potlood heen draaien wil het scherp worden) is een soort ring op genomen die een inwendige vertanding heeft. De assen en tandwielen dansen ons thans voor de ogen. Wat vindt Word hiervan? Niet zo heel veel. Het digitaal verkregen commentaar is te zien in tabel 2: Tabel 2: Spel-, stijl- en grammaticafouten in het ‘potloodslijperfragment’, volgens Word. gewraakte tekst commentaar (geparafraseerd) Breedsprakigheid. De elektromotor drijft een tandwiel aan, die weer een ander tandwiel aandrijft wat zich haaks op de as van de motor bevindt, aan dezelfde as waar het aangedreven tandwiel zich bevindt, zit een wieltje met een gleuf erin, die met behulp van een rubber ring een ander wieltje op een andere as aandrijft. Spatie invoegen. …voedingsbeweging.De… Komma is overbodig, of vervang die door dat als …drijft een tandwiel aan, die… het niet naar tandwiel verwijst maar naar een eerder woord. aandrijft is ten onrechte aan elkaar geschreven, Op deze as zit ook weer een ander wieltje wat naar analogie met zo voorstellen zij dit keer. een andere as aandrijft,… Onbekend woord. verleng-as Onbekend woord. freesje Moet de freesje zijn. het freesje
Wie alleen het commentaar leest, zou kunnen denken dat het hier om een acceptabele tekst gaat, met slechts een paar gemakkelijk te verbeteren gebreken. Een volle waardering van de verschrikkelijkheid van deze alinea vereist kennelijk nog steeds een mensenverstand. Toch zitten er een aantal onopgemerkte fouten in die ook voor software herkenbaar zouden moeten zijn. Het houterige effect dat je krijgt als je twee hoofdzinnen met een komma aan elkaar knoopt, bijvoorbeeld. Vooral de derde zin (Op deze as…) lijdt daaronder. Gek trouwens dat © 2005 Bas Andeweg / Wim Blokzijl, TU Delft
10
deze zin niet breedsprakig wordt bevonden. Ook de combinatie een ander wieltje wat had het programma wel mogen opvallen. De redenering achter onterecht commentaar laat zich soms wel raden. Bijvoorbeeld wanneer Word denkt dat aandrijft niet aan elkaar mag worden geschreven. Kennelijk meent het programma dat een andere as het onderwerp is bij aandrijft, en dat er dus een zin staat die begint met Een andere as aandrijft. Wel is het dan weer vreemd dat het programma geen commentaar levert op de interpunctie. Een enkel commentaar is geheel onbegrijpelijk. Word kent het woord freesje niet, maar deelt vervolgens toch gedecideerd mee dat het een de-woord is. Hoe kan dat, terwijl alle verkleinwoorden per definitie het-woorden zijn?
Toekomst Verbetering van Nederlandse stijlcheckers zit er voorlopig niet in zo lijkt het. Dat komt niet omdat Nederland te klein zou zijn. In Zweden bijvoorbeeld wordt nog steeds hard gewerkt aan een eigen Zweedse stijlcontroleprogramma (Carlberger e.a. 2004). Nieuwe ontwikkelingen zijn er ook in Amerika. Er blijkt al verrassend veel vooruitgang geboekt op het gebied van de automatische tekstbeoordeling; de software die geheel automatisch essays beoordeelt lijkt volgens sommigen (Williams 2001) al rijp te zijn om het taaltechnisch laboratorium te verlaten 1 . Uit onderzoek is gebleken dat het eindcijfer dat de computer toekent nauwelijks afwijkt van dat van een menselijke beoordelaar (Valenti, Neri & Cucchiarelli, 2003). Een nadeel is wel dat het alleen werkt bij een gegeven onderwerp. In dat onderwerp moet de computer worden getraind; afhankelijk van de gebruikte beoordelingstechniek kan het voorkomen dat een menselijke beoordelaar eerst zelf 200 tot 270 essays over het betreffende onderwerp moet nakijken (Whittington & Hunt, 1999; Valenti, Neri & Cucchiarelli, 2003). Al deze essays moeten met het bijbehorende commentaar vervolgens aan de computer worden gevoerd. Die leert hiervan wat de bedoeling is, en op basis van verschillende heuristieken – zo zoekt het programma naar woorden die in een goed essay over het gegeven onderwerp niet mogen ontbreken - velt de computer vervolgens een redelijk betrouwbaar oordeel over nieuw ingevoerde essays. Eerst zelf minstens tweehonderd essays moeten nakijken: dat klinkt nog niet als een grote tijdsbesparing, behalve misschien voor de docent die zijn studenten jaar in, jaar uit, steeds dezelfde essayopdracht geeft. Er zijn ook programma’s die het met een minder intensieve training kunnen stellen, maar die zijn dan weer minder nauwkeurig. We begonnen dit artikel met een voorspelling: we verwachten een digitale tekstbeoordelaar die niet voor een menselijke lezer onderdoet. Voor zover het al niet duidelijk was, blijkt het werktuigbouwkundige voorbeeld wel dat Word nog niet zover is. Word’s grammatica- en stijlcontrole is een gebrekkig afgerichte waakhond. Hij blaft vaak voor niets, en zwijgt waar hij had moeten blaffen. De meerwaarde van de controle is vooral dat de foutmeldingen uitnodigen tot reflectie op de eigen tekst. Op zich natuurlijk wel nuttig, maar er is ruimte voor verbetering. Nu overheerst de indruk dat we steeds worden gecorrigeerd door een autist.
1
Een demonstratieversie is te vinden op de website van Pearson Knowledge Technologies: http://www.knowledge-technologies.com/onlineEssayScorer.shtml. Verwacht overigens niet teveel van de kwaliteit van dit gratis product.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
11
Literatuur Burger, Peter & Jaap de Jong (1997). Handboek Stijl: Adviezen voor aantrekkelijk schrijven. Groningen: Martinus Nijhoff. Carlberger, J., R. Domeij, V. Kann & O. Knutsson (2004). The development and performance of a grammar checker for Swedish: a language engineering perspective. Natural language engineering 1(1). www.nada.kth.se/theory/projects/granska/rapporter/granskareport.pdf Cornelis, L.H. (1997) Passive and perspective. Dissertatie Universiteit Utrecht. USCL nr.10. Daelemans, W. & H. Strik (2002). Het Nederlands in taal- en spraaktechnologie: prioriteiten voor basisvoorzieningen. Rapport Nederlandse Taalunie (taalunieversum.org/taal/ technologie/docs/daelemans-strik.pdf) Heuvel, Theo van den (2004). Persoonlijke medeling in e-mail over interview van Wampler. Jansen, D. (red.) e.a. (2002) Zakelijke communicatie 1. Groningen/Houten: WoltersNoordhoff, 4e geh.herz. dr. Koetsenruijter, Willem & Rinke Berkenbosch (2003). Het schrijven van milieueffectrapportages. Boxtel: uitgeverij Aeneas. Markoff, J. (2002). Has Grammar Lost Its Technological Edge? New York Times, 15 april [http://www.nytimes.com/2002/04/15/technology/ebusiness/15NECO.html] Renkema, Jan (2002). Schrijfwijzer. ’s-Gravenhage: Sdu. Vierde editie. Roo, Albert de (1958). Goed Nederlands op het kantoor. Brussel/Turnhout: Brepols. Valenti, Salvador, Francesca Neri & Alessandro Cucchiarelli (2003). An overview of current research on automated essay grading. Journal of Information Technology Education, vol.2. http://jite.org/documents/Vol2/v2p319-330-30.pdf Vosse, T. (1994). The Word Connection. Grammar-Based Spelling Error Correction in Dutch. Enschede: Neslia Paniculata. Whittington, Dave & Helen Hunt (1999). Approaches to the Computerized Assessment of Free Text Responses. Proceedings of the Third Annual Computer Assisted Assessment Conference. http://cvu.strath.ac.uk/dave/publications/caa99.html Williams, Robert (2001). Automated essay grading: An evaluation of four conceptual models. Op: website Curtin University of Technology. http://lsn.curtin.edu.au/tlf/tlf2001/williams.html
De auteurs Bas Andeweg en Wim Blokzijl zijn verbonden aan het Instituut voor Techniek en Communicatie van de Technische Universiteit Delft.
© 2005 Bas Andeweg / Wim Blokzijl, TU Delft
12