Informatiedichtheden Vergeleken Werkstuk Onderzoeksvaardigheden & Academisch Schrijven Sheean Spoel
[email protected] 14 juni 2010
Samenvatting
woorden in de ene dan wel in de andere taal zijn. Het Engelse woord science is een stuk korter dan het Nederlandse wetenschap, mooi korter dan pretty en beautiful, en sound korter dan geluid. De vraag is in hoeverre hier algemeenheden in zijn te ontdekken, die kunnen worden doorgetrokken voor het vergelijken van talen: zou een taal over het algemeen korter van stof zijn dan een andere taal, wanneer dezelfde informatie wordt overgebracht? Om dit te bestuderen wordt er gekeken naar de verschillen in bondigheid tussen het Nederlands en het Engels.
Met informatiedichtheid kan de ‘compactheid’ van tekst worden gekwantificeerd, deze informatiedichtheid wordt bij het Nederlands en het Engels met elkaar vergeleken. Dit wordt gedaan door bij vergelijkbare teksten het aantal lettergrepen te tellen, te delen door de gemiddelde sprekersnelheid en aan de hand van de hieruit volgende spreektijden de talen te vergelijken. Hierbij lijkt Engels bij geschreven tekst een hogere informatiedichtheid te hebben; de problemen bij het vergelijken van gesproken tekst worden besproken.
1
2
Inleiding
Achtergrond
Door Shannon (1951) is er gekeken naar de entropie van tekst, hiermee wordt de hoeveelheid informatie aangegeven die er wordt aangeboden in een tekst; een woord of letter biedt niet altijd evenveel informatie, veel woorden en letters in een tekst zijn met hoge zekerheid te voorspellen aan de hand van de voorafgaande informatie.
Alle talen kunnen het zelfde overbrengen (Baker 2002), er worden andere woorden gebruikt of misschien wel geheel andere constructies, maar uiteindelijk is er geen informatie die in de ene taal wel, maar in de andere taal niet zou kunnen worden uitgedrukt. Uiteraard zijn er wel bepaalde concepten die bijvoorbeeld direct in ´e´en taal beschikbaar zijn, maar niet in de andere. Een typisch voorbeeld hierbij is het woord gezellig, dat in een andere taal, zonder het woord verbatim te gebruiken, erg moeilijk te zeggen is. Maar er zijn ook verschillen in hoe lang de
(1)
John slaat de jon...
Voorbeeldzin 1 zou kunnen worden afgemaakt met ‘jongen’, hiermee is te zien dat de zin eigenlijk al zo goed als volledig is overge1
voorbeeldzin 3 is over het algemeen meer gewenst. Ze zijn niet volledig hetzelfde qua informatie: de netheid zelf zou ook als informatie moeten worden gezien, al is het maar om zin 2 van 3 te kunnen onderscheiden; het verschil is hier de informatie.
bracht en het laatste deel weinig nieuwe informatie toegevoegd. Zou John echter een jonkheer slaan, dan zou het laatste deel wel degelijk veel informatie bieden. Omdat het laatste deel onwaarschijnlijk is. De informatiewaarde van een uiting kan dus worden gezien als de onwaarschijnlijkheid of surprisal (Levy en Jaeger 2007) van die uiting. De eigenlijke informatie die wordt overgebracht door een uiting is altijd minder dan die van de daadwerkelijke informatiewaarde: delen zijn altijd te voorspellen, door Shannon (1951) werd een redundantie van ongeveer 75% in het Engels aangegeven.
2.1
2.3
en
Voor het bepalen van de totale informatiedichtheid wordt er gekeken naar de hoeveelheid tijd die er nodig is om informatie over te brengen. De hoeveelheid informatie van een uitdrukking zouden we kunnen aangeven met een informatiewaarde. Met deze informatiewaarde is het ook mogelijk om te kijken hoeveel informatie er per tijdseenheid wordt overgedragen. Omdat in beide talen dezelfde informatie wordt overgedragen is het niet nodig om de daadwerkelijke informatiewaarde van de uitingen te bepalen om de informatiedichtheden te kunnen vergelijken. Alleen de tijden worden vergeleken: een verschil in tijd duidt op een verschil in informatiedichtheid. Voor het vergelijken van de talen volstaat dus het vergelijken van de duur van de taaluitingen, waarbij de informatie die wordt overgedragen uiteraard het zelfde moet zijn.
Uniformiteit van informatie
Talen streven naar een zo uniform mogelijke verdeling van de informatiedichtheid (Frank en Jaeger 2008), hierdoor is het mogelijk maximaal gebruik te maken van de verwerkingen productiecapaciteiten van de toehoorder en spreker. Onderzoek van Mal´ecot et al. (1972) geeft aan dat sprekers over het algemeen met een constante snelheid spreken, met vrij weinig variatie van spreker tot spreker en van uiting tot uiting. Hierdoor kan er worden aangenomen dat de informatiedichtheid tijdens een gesprek niet enorm varieert: er wordt simpelweg met een constante snelheid voortgebouwd op wat al eerder gezegd is.
2.2
Totale informatiedichtheid vergelijken
3
Methode
Pragmatiek en informatiedicht- Voor het vergelijken van de informatiedichtheheid den, is het nodig om twee taaluitingen te heb-
ben in de beide talen die dezelfde informatie overdragen. De informatiebronnen die hiervoor worden gebruikt zijn korte artikelen op de sites van de NOS en de BBC, deze worden vertaald naar de andere taal waarna zij kunnen worden vergeleken. (2) raam dicht Culturen kunnen enorm verschillen qua (3) Wil je even het raam dicht doen? pragmatiek (2.2) wat een invloed zou hebben Beide zinnen brengen voor het grootste deel op de informatiedichtheid, losstaand van de dezelfde informatie en betekenis over, maar taal zelf. Bij dit onderzoek is geprobeerd deze Afhankelijk van de taal en cultuur kan de pragmatiek ook een factor zijn in het bepalen van de informatiedichtheid van een uiting, zoals is te zien in voorbeeldzinnen 2 en 3.
2
een hogere informatiedichtheid lijkt te hebben dan het Nederlands.
factor uit te sluiten. Dit is gedaan door te kiezen voor artikelen op sites, waarbij er wordt aangenomen dat ze allebei weinig pragmatische ‘balast’ bevatten: de zinnen zijn niet veel korter te maken in elk van de talen. Zowel bij het origineel als bij de vertaalde versie werd het aantal lettergrepen geteld. Door dit te houden tegen het aantal lettergrepen dat per seconde uitgesproken wordt, is de totale duur te bepalen. Door deze totaaltijden te vergelijken worden de informatiedichtheden vergeleken, zoals uit 2.3 volgt.
4
Tabel 2: Informatiedichtheden a.h.v. de lettergrepen in de artikelen en de snelheden van Verhoeven et al. (2004) en Tauroza en Allison (1990). NL EN NOS 33,7 29,2 BBC 26,7 24,2
5
Resultaten
Discussie en conclusie
Wat in ieder geval naar voren is gekomen is dat geschreven Engels compacter is dan geschreven Nederlands, uitgebreider onderzoek en onderzoek naar verschillende soorten teksten zouden hier echter meer duidelijkheid over kunnen geven. Bij gesproken taalgebruik is het verschil veel minder duidelijk, het simpelweg vermenigvuldigen met de gemiddelde sprekersnelheden is op zich al problematisch: bij het onderzoek van Verhoeven et al. (2004) werden de snelheden van sprekers in verschillende regio’s binnen Nederland vergeleken. Hieruit kwamen verschillen in snelheid naar voren (5,42 syll/s in de Randstad, versus 4,14 syll/s in Limburg) die al buiten de marge liggen van de verschillen met het Engels. Verder is er ook een verschil in de onderzochte groepen, bij het onderzoek van Verhoeven et al. (2004) waren de sprekers leraren, bij het onderzoek van Tauroza en Allison (1990) werd een gemengde groep gebruikt. Onderzoek van Mal´ecot et al. (1972) geeft aan dat leraren en leidinggevenden langzamer praten dan studenten en uitvoerenden, verder is er ook een correlatie tussen sprekersnelheid en leeftijd; al deze factoren zouden invloed kunnen hebben op de vergelijkingen a.h.v de gebruikte waarden.
Tabel 1: Aantal lettergrepen in de artikelen NL EN NOS 156 128 BBC 123 106 In tabel 1 is te zien dat het Engels minder lettergrepen nodig heeft dan het Nederlands voor het overbrengen van dezelfde informatie, wat tekst betreft gebruikt Engels rond de 83% van wat het Nederlands nodig heeft om dezelfde informatie over te brengen. Simpel gesteld zou een verslag van tien pagina’s in het Engels, twaalf pagina’s in het Nederlands vereisen - aannemende dat een lettergreep in het Engels even lang is als een lettergreep in het Nederlands. Maar in hoeverre verhoudt dit zich tot gesproken tekst? Zou een Nederlander misschien simpelweg sneller praten om uiteindelijk toch dezelfde informatiedichtheid als een Engelsman te bereiken? Door Verhoeven et al. (2004) is de gemiddelde Nederlandse sprekersnelheid vastgesteld op 4,63 syll/s, een enigszins vergelijkbaar onderzoek door Tauroza en Allison (1990) heeft een snelheid van 4,38 syll/s vastgesteld. In tabel 2 is te zien dat ook het gesproken Engels 3
In daadwerkelijk taalgebruik zal er ook nog J. Verhoeven, G. D. Pauw, en H. Kloots. Speech Rate in a Pluricentric Language: A de invloed zijn van een verschil in cultuur en Comparison Between Dutch in Belgium and de daarbij behorende pragmatiek. Hierdoor the Netherlands. Language and Speech, 47: zullen taaluitingen in gesproken teksten alsnog 297–308, 2004. een variatie in informatiedichtheid vertonen. Het is hierdoor niet mogelijk om een duidelijke conclusie te trekken uit het verschil in informatiedichtheid van gesproken Engels en Nederlands, het lijkt erop dat het Engels een hogere informatiedichtheid heeft dan het Nederlands, maar hiervoor zou uitgebreider onderzoek moeten worden gedaan om dit te bevestigen; hier zou dan vooral zorg moeten worden gedragen voor het bepalen en vergelijken van de duur van de taaluitingen.
Referenties A. Baker. Taal en taalvermogen. In R. Appel, A. Baker, K. Hengeveld, F. Kuiken, en P. Muysken, red., Inleiding Taalwetenschap, pg 15. Blackwell, 2002. A. F. Frank en T. F. Jaeger. Speaking Rationally: Uniform Information Density as an Optimal Strategy for Language Production. Annual Meeting of the Cognitive Science Society (CogSci08), 30:939–944, 2008. R. Levy en T. F. Jaeger. Speakers optimize Information Density through Syntactic Reduction. Advances in Neural Information Processing Systems, 19, 2007. A. Mal´ecot, R. Johnston, en P. A. Kizziar. Syllabic Rate and Utterance Length in French. Phonetica, 26:235–251, 1972. C. E. Shannon. Prediction and Entropy of Printed English. Bell System Technical Journal, 30:50–64, 1951. S. Tauroza en D. Allison. Speech Rates in British English. Applied Linguistics, 11:90–105, 1990. 4
Bronmateriaal
news.bbc.co.uk/2/hi/world/ us and canada/10169411.stm
nos.nl/artikel/160872-drieolieveegarmen-op-weg-naar-vs.html
We woke this morning to thunder and heavy rain.
Drie Nederlandse olie-veegarmen zijn met een dag vertraging onderweg naar de Verenigde Staten. Morgen worden er nog drie naar Houston overgevlogen.
Through the window of the waterside condo where we are staying we could see lightning flash down from the leaden sky. Hardly the tourist playground Grand Isle, Louisiana, would like to be thought of as.
Het eerste transport stond voor gisteren gepland maar er was toen geen geschikt vliegtuig om de zware veegarmen te vervoeren. Ze worden in de Golf van Mexico ingezet bij de bestrijding van de olievervuiling.
To an outsider, the sea looked to be at an uncomfortably elevated level. It made me wonder what it might have been like when Hurricane Katrina ripped through here.
De Nederlandse veegarmen verzamelen vanaf woensdag drijvende olie en pompen die vervolgens in het ruim van een schip. Amerika houdt de apparatuur en geeft Nederland geld om nieuwe te kopen.
vertaling Donder en hevige regen wekte ons deze ochtend. We verbleven aan een appartement aan het water en door het raam ervan konden we vanuit de donkere lucht de bliksem naar beneden zien flitsen. Lang niet de toeristische trekpleister zoals Grand Isle, Louisiana, gezien zou willen worden.
vertaling Three Dutch oil-skimmers are with a one day delay, on their way to the United States. Tomorrow three more will be flown over to Houston.
Voor een buitenstaander lijkt het alsof de zee oncomfortabel hoog staat. Het deed mij afvragen hoe het moet zijn geweest toen orkaan Katrina hier doorheen ging.
The first transport was scheduled for yesterday, but no suitable plane was available to transport the heavy skimmers. They will be put to use in the Gulf of Mexico to help combat the oil pollution. The Dutch skimmers will, starting next wednesday, collect the floating oil and pump it into the hold of a ship. America will keep the equipment and will pay the Dutch to buy replacements. 5