Structuur in spraak 1 Hanny den Ouden
1 Inleiding Om de begrijpelijkheid van zijn boodschap te vergroten kan een schrijver allerlei typografische middelen toepassen zoals interpunctie, hoofdletters, witregels, variatie in lettertype, indeling naar (sub)paragrafen en voetnoten. Wie een boek moet lezen waarin deze typografische aanwijzingen ontbreken, zal zich erg moeten inspannen om de inhoud te begrijpen. Een spreker heeft andere hulpmiddelen tot zijn beschikking om de bedoelde inhoud vorm te geven. De structurerende functie van de typografie in geschreven teksten wordt in gesproken teksten onder andere overgenomen door de prosodie. Andere structurerende middelen zijn bijvoorbeeld visuele signalen zoals hoofdknikjes, handgebaren of gelaatsuitdrukkingen. Dit artikel gaat over de tekst-structurerende functie van prosodie. Prosodie is een middel voor sprekers om de structuur van de tekst aan te geven en luisteraars zijn gevoelig voor die aanwijzingen. Onder een tekst verstaan we twee of meer zinnen die als een met elkaar samenhangend geheel gepresenteerd worden, en waarvan de lezer/luisteraar een interne representatie op kan bouwen. De samenhang in een tekst komt tot uitdrukking in de manier waarop de verschillende eenheden in de tekst georganiseerd zijn ten opzichte van elkaar. Deze organisatie wordt aangegeven met de term tekststructuur. In dit artikel beperken we ons tot gesproken teksten. De term prosodie slaat grotendeels niet op wát iemand zegt, maar hóe iemand iets zegt. Het onderzoek van de prosodie heeft zowel betrekking op de suprasegmentele kenmerken van een uiting als op de manier waarop klanken in verschillende contexten uitgesproken worden. Volgens de eerste interpretatie wordt het object van studie gevormd door eigenschappen die niet tot de afzonderlijke klanken behoren maar tot grotere spraakeenheden. Het gaat hierbij om duurverschijnselen, zinsaccentuering, tempo, toonhoogte, luidheid, frasering en spraakmelodie, waarbij de term intonatie ook wel wordt gebruikt als synoniem voor spraakmelodie. Het is deze interpretatie van de studie van prosodie die voor het onderzoek naar prosodische realisering van tekststructuur relevant is. Prosodie is een van de middelen om samenhang in teksten tot stand te brengen. Andere middelen zijn connectieven, anaforen, referentiële expressies, presupposities en discourse markeerders. Over deze structuurmarkeerders gaat dit artikel niet, ook al zijn ze wel onderzocht in relatie met prosodie (o.a. Passoneau & Litman, 1997; Litman & Hirschberg, 1993; Swerts, 1993; Horne et al., 1999; Kuosmanen, 1999). Ze maken het voor de luisteraar gemakkelijker om een coherente tekstrepresentatie op te bouwen. Net als de andere tekststructurerende middelen geeft prosodie de verbanden tussen de afzonderlijke teksteenheden aan. In teksten bestaan zowel lineaire als hiërarchische verbanden tussen de verschillende teksteenheden. De lineaire structuur ontstaat door
In
W. Spooren, T. Sanders & C. Van Wijk (2000, red.). Samenhang in diversiteit; Opstellen voor Leo Noordman (p. 77-90). Tilburg: Faculteit Letteren KU Brabant 77
de opeenvolging van de eenheden die samen de tekst vormen, en de overgangen tussen die eenheden. De hiërarchische structuur ontstaat door het verschil in belang van de teksteenheden: sommige eenheden hebben meer informatiewaarde dan andere. We vragen ons dan ook af welke rol prosodie speelt bij het signaleren van de lineaire en hiërarchische structuur. In dit artikel komen drie zaken aan de orde die liggen op het snijvlak van het onderzoek naar samenhang in teksten en het onderzoek naar prosodische realisering. De eerste twee kwesties hebben betrekking op monologen, de derde kwestie op dialogen. Prosodie in teksten kan niet afdoende verantwoord worden met de reeds verworven kennis over de prosodie van zinnen. Men is het erover eens dat de prosodie van een opeenvolging van zinnen die met elkaar een samenhangende tekst vormen, verschilt van de prosodie van diezelfde zinnen in isolatie. Deze verschillen in de prosodie van zinnen en teksten worden besproken in paragraaf 2.1. Een belangrijk discussiepunt is of tekstintonatie locaal of globaal gerealiseerd wordt. Met andere woorden, realiseert een spreker een overgang tussen twee tekstelementen door alleen het einde van de ene en het begin van de andere teksteenheid prosodisch te markeren of zijn er prosodische kenmerken in de hele teksteenheid die uitdrukking geven aan de tekststructuur? Niet alleen verschillen zinnen in isolatie en zinnen in teksten prosodisch van elkaar, maar ook hebben verschillende gesproken tekstvormen niet allemaal dezelfde soort tekstuele prosodie. Voorgelezen verhalen klinken bijvoorbeeld anders dan spontaan vertelde verhalen; telefoongesprekken onderscheiden zich op allerlei punten van face-to-face gesprekken en in dialogen treden wezenlijk andere verschijnselen op dan in monologen. In de studie naar de prosodische realisering van tekststructuur is de spreekstijl een factor van betekenis. Over verschillen in prosodie tussen voorgelezen en spontane spraak gaat paragraaf 2.2. Face-to-face conversatie wordt beschouwd als de basale vorm van taalgedrag (Clark, 1996). In paragraaf 3 worden dialogen apart behandeld. In deze paragraaf wordt besproken waarin monologen en dialogen met het oog op de tekststructuur prosodisch van elkaar verschillen en met elkaar overeenkomen. De discussie spitst zich toe op de vraag of het afronden van de beurt in een dialoog en het afsluiten van een bepaalde teksteenheid in een monoloog op dezelfde wijze gerealiseerd worden. Het onderzoek naar prosodie behoort traditioneel tot het terrein van de fonetiek; de studie van discourse tot het terrein van de tekstwetenschap. Hoewel reeds veel onderzoek is verricht naar prosodie en discourse afzonderlijk, is onderzoek dat inzichten uit beide disciplines combineert betrekkelijk schaars. Het is echter onmogelijk volledig inzicht te krijgen in de aard van gesproken teksten wanneer de prosodie buiten beschouwing wordt gelaten; en het is tevens onmogelijk functies van prosodie in gesproken teksten in kaart te brengen zonder kennis te hebben van eigenschappen van teksten. Het doel van dit artikel is de lezer een indruk te geven van bevindingen die zijn gedaan op het vlak van prosodie en discourse en kwesties die daarin van belang zijn. De literatuur die in het artikel wordt besproken, heeft betrekking op westerse studies van prosodie en discourse, ondanks het feit dat er bijvoorbeeld in Japan redelijk wat onderzoek naar prosodie en discourse wordt gedaan. De resultaten zijn mogelijk niet zonder meer generaliseerbaar over alle talen.
78
2 Monologen Spraak bestaat in vele vormen. Een belangrijke scheiding die aangebracht kan worden, is die tussen monologen en dialogen. Het overbrengen van een bepaalde inhoud gebeurt in monologen en dialogen niet op dezelfde manier. Daarom maken we in dit artikel onderscheid tussen deze twee soorten spraak. Deze paragraaf beperkt zich tot monologen; de volgende paragraaf tot dialogen. In een monoloog kan de spreker zijn tekst op allerlei manieren structureren. Zoals in de literatuur is geconstateerd, geeft de spreker met behulp van de prosodie bijvoorbeeld aan dat zijn boodschap bestaat uit achtereenvolgende kleinere teksteenheden, dat de verzameling van teksteenheden op een bepaalde manier gestructureerd is, dat een nieuw topic wordt geïntroduceerd, dat niet alle informatie even belangrijk is of dat er een verandering optreedt in de informatiestatus (gegeven versus nieuw). In het vervolg van dit artikel is de aandacht het meest gevestigd op het aspect van opeenvolging van teksteenheden. In de volgende subparagrafen zullen we in de literatuur een antwoord zoeken op ten eerste de vraag waarin zinsprosodie verschilt van tekstprosodie en ten tweede de vraag waarin prosodie in voorgelezen spraak verschilt van prosodie in spontane spraak.
2.1
Zin versus tekst in voorgelezen spraak
Tot aan het begin van de jaren tachtig was de experimentele studie van prosodie gericht op de beschrijving van de prosodische eigenschappen van de zin en niet op de beschrijving van zinsoverschrijdende eenheden, zoals een alinea. Een belangrijke reden hiervoor was dat het technisch nog niet mogelijk was grotere eenheden spraak te verwerken. Het wijdverbreide gebruik van termen als zinsprosodie en zinsintonatie weerspiegelt de zinsgerichtheid. Onderwerpen die in de belangstelling stonden, waren de plaats van zinsaccenten, zinsinterne pauzes en toonhoogtecontouren van zinnen (zie voor een overzicht 't Hart et al., 1990). Het experimenteel-fonetische onderzoek richtte zich doorgaans op voorgelezen spraak, omdat voorgelezen spraak zich veel beter leent voor experimenten dan spontane spraak. In meer linguïstisch georiënteerde studies, meestal gericht op spontane spraak, was de aandacht vaak niet primair gericht op prosodische verschijnselen, maar werd er wel aan gerefereerd. Tekstanalytisch en tekstlinguïstisch onderzoek in het algemeen heeft aangetoond dat de concentratie op zinnen in het beschrijven van veel talige verschijnselen een te smal perspectief biedt. Veel linguïstische verschijnselen zijn zinsgrensoverschrijdend. Ook nu nog is één van de grote problemen in het onderzoek naar prosodie in teksten de afbakening in teksteenheden, zoals zinnen en alinea's. Om circulariteit in het onderzoek te voorkomen moet die segmentatie onafhankelijk van de prosodie plaatsvinden. Het onderzoek naar prosodie in teksten is onder andere om die reden vaak uitgevoerd op voorgelezen tekstmateriaal. In voorgelezen teksten is de afbakening in teksteenheden minder moeilijk dan in spontaan uitgesproken teksten, omdat de segmentatie in zinnen en alinea's op voorhand door de onderzoekers bepaald kan worden. De meeste teksten die in het onderzoek zijn gebruikt, zijn bovendien geconstrueerd om een beter beeld te krijgen van de specifieke werking van bepaalde factoren.
79
In studies van voorgelezen teksten is aangetoond dat er verschillen bestaan tussen zins- en tekstprosodie. Tussen de achtereenvolgende kleinere teksteenheden worden onder andere door de prosodie scheidingen aangebracht. Ten eerste signaleert een spreker zinsgrenzen door middel van pauzes. In de weergave van spraak is een pauze zichtbaar door afwezigheid van het signaal. Sprekers variëren ook de lengte van de pauzeduren: soms treffen we lange pauzes aan, soms korte. De duur van de pauzes blijkt samen te hangen met de hiërarchische structuur van de tekst: pauzes op alineagrenzen zijn langer dan pauzes op zinsgrenzen (Lehiste, 1979; Silverman, 1987). In de voorgelezen nieuwsberichten van Hirschberg en Grosz (1992) duren pauzes die voorafgaan aan zinnen die aan het begin van een grotere teksteenheid staan, langer dan pauzes die voorafgaan aan zinnen die binnen die grotere teksteenheid staan. Hun segmentatie in teksteenheden is gebaseerd op de teksttheoretische methode van Grosz en Sidner (1986). Noordman et al. (1999) die de segmentatie van voorgelezen verhaaltjes baseren op zowel Rhetorical Structure Theory (Mann & Thompson, 1988) als Story Grammar (Thorndyke, 1977), tonen bovendien aan dat pauzeduren vóór teksteenheden langer zijn naarmate die eenheden zich op een hoger niveau in de hiërarchische tekststructuur bevinden. Een hiërarchische tekststructuur bestaat uit zich vertakkende elementen van de tekst tot een boomvormige structuur, waarin het belang van iedere teksteenheid en de relaties tussen de eenheden gerepresenteerd worden in de vorm van verschillende niveaus van inbedding. De hoogste niveaus van de hiërarchische structuur komen overeen met alineagrenzen. Het verband tussen pauzeduren en positie in de hiërarchische structuur is echter niet alleen op de hoogste niveaus aanwijsbaar: lineaire trendanalyses wijzen uit dat de trend zich voortzet in de hele hiërarchische structuur van de tekst. Ten tweede blijkt de snelheid van spreken een indicatie te zijn voor de plaats van de zin binnen een alinea. Brubaker (1972) deed een onderzoek naar snelheid en pauzering in voorgelezen spraak en vond dat zinnen tegen het einde van een alinea sneller worden uitgesproken dan zinnen die eerder in een alinea voorkomen. De spreeksnelheid is ook hoger in de zogenaamde terzijdes (parentheticals) van Hirschberg en Grosz (1992). Ten derde gedraagt ook toonhoogte zich in teksten anders dan in zinnen. In de toonhoogtecontour van een zin is altijd sprake van een geleidelijke daling. Dit is onder andere in verband gebracht met articulatorische beperkingen, meer concreet met het afnemen van de luchtdruk in de longen als gevolg van het uitademen tijdens het spreken. Een toonhoogtecontour bevat een aantal pieken en dalen. Wanneer men de dalen met elkaar verbindt (basislijn) en de pieken met elkaar verbindt (toplijn), dan hebben beide lijnen een dalend verloop. Dit is in elk toonhoogtecontour het geval. Er is een verschil tussen zinnen en teksten in de hoogte van de maximale toonhoogtepiek in elke uiting. In losse zinnen staat de maximale toonhoogtepiek op zichzelf, maar in teksten zijn de maximale toonhoogtepieken aan elkaar gerelateerd, omdat de context van de omringende zinnen mede bepalend is voor de hoogte van de pieken. Akoestische analyses van Lehiste (1975) toonden aan dat de maximale toonhoogtepiek van de toonhoogtecontour het hoogst is in de initiële zin van een alinea en het laagst in de finale zin van een alinea. De maximale toonhoogtepieken van de zinnen binnenin de alinea dalen achtereenvolgens ten opzichte van elkaar, waarbij de maximale piek van de tweede zin iets lager is dan de maximale piek van de initiële zin en de maximale piek van de derde zin iets lager is dan de maximale piek van de tweede zin, enzovoorts. De maximale 80
toonhoogtepieken in de teksteenheden van Noordman et al. (1999) laten dezelfde lineaire trend zien als de eerder genoemde pauzeduren: naarmate een teksteenheid zich hoger in de hiërarchische structuur bevindt is de maximale toonhoogtepiek van die eenheid hoger. Zogenaamde aanhalingen (quotes) gaan vergezeld van een stijging in toonhoogte (Hirschberg & Grosz, 1992). Niet alleen de maximale toonhoogtepieken van een zin gedragen zich in teksten anders dan in zinnen, ook de opeenvolging van toonhoogtecontouren in hun geheel is in teksten anders dan in losse zinnen. Dit is het vierde prosodische kenmerk dat in teksten gerealiseerd wordt. In teksten is sprake van een geleidelijke daling van de hele toonhoogtecontour gedurende het uitspreken van de alinea. Dit fenomeen, dat typisch is voor langere teksteenheden, wordt wel aangeduid met de term overall declinatie, superdeclinatie, macrodeclinatie of overall downdrift. In dit artikel gebruiken we de term overall declinatie. Bruce (1982) vond dit verschijnsel voor het Zweeds, Thorsen (1980) voor het Deens en Cooper en Sørensen (1981) voor het Amerikaans Engels. Het verschijnsel kan als volgt uitgelegd worden. Afzonderlijk van elkaar uitgesproken zinnen hebben afzonderlijk dalende toonhoogtecontouren, maar wanneer dezelfde zinnen uitgesproken worden als een samenhangende alinea, dan is er ook sprake van globale daling van toonhoogte over de hele alinea heen. De toonhoogtewaarde die aan het begin van een eenheid gemeten wordt, past zich aan aan de toonhoogtewaarde die gemeten wordt in het laatste deel van de voorafgaande eenheid. Dit verschijnsel wordt ook wel tonale koppeling genoemd. Tussen de zinnen van de tekst vinden resets plaats. Resets zijn overgangen tussen intonatiecontouren waarbij de ene contour ophoudt en de volgende contour begint. Resets treden behalve tussen zinnen ook wel op binnen (langere) zinnen. Afzonderlijke zinnen nu, uitgesproken in isolatie, hebben meer resets dan dezelfde zinnen die met elkaar een tekst vormen. In teksten treden wel resets op, maar de overall declinatie is onafhankelijk van de zinsgrenzen. Bruce (1982) interpreteert het verschijnsel overall declinatie expliciet in termen van coherentie. Volgens hem kan een sequentie van zinnen als intern samenhangend beschouwd worden door deze overall declinatie van toonhoogte die onafhankelijk van zinsgrenzen wordt vastgehouden over de hele alinea heen. Ook Thorsen (1985) zegt dat de nauwere relatie tussen gecoördineerde structuren weerspiegeld wordt in een meer coherente of minder gesegregeerde intonationele structuur. Uit luisterexperimenten blijkt dat deze eigenschappen van het spraaksignaal perceptief relevant zijn. De luisteraars van Lehiste (1975) waren in staat verschillen te horen tussen initiële, finale en mediale uitingen van een teksteenheid bestaande uit drie sequenties. Silverman (1987) en Sluijter en Terken (1993) deden perceptie-experimenten op grond waarvan zij alinea-intonatie implementeerden in een Engelstalig respectievelijk Nederlandstalig tekst-naar-spraak-systeem. Silverman variëerde het toonhoogtebereik aan het begin van uitingen, pauzeduren tussen zinnen en de geleidelijke daling van de toonhoogtecontour. Voor de luisteraars bleken deze kenmerken relevant te zijn om alinea-intonatie te kunnen onderscheiden. De resultaten van Sluijter en Terken wezen uit dat in geconstrueerde alinea's, die bestonden uit vijf zinnen, de toonhoogtecontour van de zin samenhangend met de positie van de zin in de alinea perceptueel relevant was. Ze lieten sprekers alinea's voorlezen en boden de resulterende uitingen geïsoleerd van hun context aan aan luisteraars die moesten raden op welke positie de gesproken zinnen oorspronkelijk in de alinea hadden gestaan. Op grond van het 81
feit dat de luisteraars hierin slaagden, concludeerden Sluijter en Terken dat de prosodische kenmerken van uitingen in samenhang met hun positie in de alinea perceptief relevant zijn. Nadat de prosodische kenmerken voor alinea-intonatie waren geïmplementeerd in het tekst-naar-spraakalgoritme, werd in een evaluatie de synthetische spraak als meer natuurlijk beoordeeld dan daarvóór. Samenvattend, in voorgelezen spraak vertoont tekstprosodie vijf kenmerken: er is sprake van langere pauzeduren op alineagrenzen dan op zinsgrenzen, een hogere spreeksnelheid voor niet-initiële zinnen en terzijdes, een relatief hoge maximale toonhoogtepiek in initiële uitingen van een alinea, een geleidelijke globale daling van de toonhoogte in de loop van een alinea en langere pauzeduren en hogere maximale toonhoogtepieken naarmate teksteenheden zich hoger in de hiërarchische structuur bevinden. De vraag of tekstprosodie globaal of locaal wordt gerealiseerd, kan als volgt beantwoord worden. Het fenomeen van een globale daling van de toonhoogtecontour over zinsgrenzen heen en de variatie in spreeksnelheid kunnen beschouwd worden als globale kenmerken omdat ze over de hele teksteenheid plaatsvinden en niet localiseerbaar zijn op een bepaalde plaats in de contour, zoals typisch aan het begin en/of einde van de teksteenheid. De variatie in pauzeduren en de toonhoogtestijgingen aan het begin van eenheden zijn meer locale kenmerken. Het gebruik van het ene soort grensmarkering blijkt echter niet noodzakelijk het gebruik van een ander soort markering uit te sluiten. Het lijkt erop dat globale prosodische markeringen en locale grensaanduiders beide tegelijkertijd door sprekers aangewend worden. Bovendien is het aannemelijk dat er vele interacties plaatsvinden tussen de verschillende kenmerken, waarin we nog niet veel inzicht hebben. Het is daarbij ook heel goed mogelijk dat die interacties taal- en contextafhankelijk zijn.
2.2
Zin versus tekst in spontane spraak
Voorlezen en spontaan spreken zijn duidelijk verschillende spreekstijlen. Het is zelfs de vraag of in spontane spraak tekstprosodie optreedt. Spontane spraak is herkenbaar aan het veelvuldig optreden van versprekingen en herstarts, van onvolledige en ongrammaticale uitingen. De variatie in spreeksnelheid is groter dan in voorgelezen spraak. Pauzes treden vaker op, ze duren langer en ze treden op andere plaatsen op dan in voorgelezen spraak. Omdat spontane sprekers tijdens het spreken nadenken over wat en hoe ze hun boodschap zullen gaan zeggen, aarzelen ze veel. De aarzelingen leiden behalve tot (gevulde) pauzes ook tot verlengingen van klanken en herhalingen (Kowal, Bassett & O’Connell, 1985). Spontane sprekers kuchen en hoesten en lachen. In spontane spraak speelt de context van het spreken een belangrijke rol en het wel of niet krijgen van feed-back. Het gebruik van spontane spraak bevordert echter meer het luistergemak dan voorgelezen spraak. Het is aannemelijk dat in dit proces van begrijpen prosodie een belangrijk ondersteunende factor is. De noties zin en alinea zijn in spontane spraak nauwelijks af te bakenen volgens formele criteria. Daarmee komt de vraag naar het verschil tussen zinsprosodie en tekstprosodie in dit type spraak in een ander licht te staan. In onderzoek naar spontane spraak wordt het verschil tussen zinsovergangen en alinea-overgangen vaker gedefiniëerd in termen van de topische structuur van een tekst, d.w.z. van de overgang van het ene naar het andere onderwerp. Het introduceren van een nieuw 82
onderwerp in een spontane monoloog is waarschijnlijk sterk gecorreleerd met het begin van een nieuwe alinea. Productiestudies wijzen uit dat tekstinitiële eenheden gekarakteriseerd worden door een langere voorafgaande pauze, een stijging van de maximale toonhoogtepiek en een gemiddeld hogere toonhoogte van de hele eenheid (Swerts, 1994; Hirschberg & Nakatani, 1996). Het materiaal waarvan Hirschberg en Nakatani zich bedienden, waren uitgelokte monologen uit het Boston Directions Corpus. De monologen werden uitgesproken door een groot aantal niet-professionele sprekers die verschillende taken kregen om luisteraars de weg te wijzen ergens naartoe aan de hand van een plattegrond. Het materiaal van Swerts bestond uit spontane monologen waarbij de sprekers door uitlokkingen van de onderzoeker beperkt werden in wat ze zouden zeggen. De afsluiters van teksteenheden worden gekarakteriseerd door een typisch stijgende of dalende grenstoon. De stijgingen worden gebruikt om aan te geven dat er nog meer tekst zal volgen, de dalingen geven aan dat de teksteenheid als afgesloten kan worden beschouwd (Brown et al.,1980; Yule, 1980; Swerts, 1994). Yule merkt op dat de daling van toonhoogte op het eind van de teksteenheid gepaard gaat met een afname van de amplitude en aansluitend een lange pauze. Naast deze locale grensmarkeerders voorzien sprekers hun teksteenheden soms ook van overall declinatie (Swerts, 1994), dus de geleidelijke afname van de toonhoogte over het bereik van de hele eenheid, en wordt een snellere spreeksnelheid gevonden in tekstfinale eenheden (Hirschberg & Nakatani, 1996). Andere indicaties van topische structuur zijn dat het toonhoogtebereik toeneemt wanneer een nieuw onderwerp geïntroduceerd wordt, en dat aan het eind van het spreken over een bepaald onderwerp de lettergrepen relatief weinig nadruk en een relatief lage toonhoogte hebben (Brown et al., 1980). Dat ook accentuering met het aangeven van de topische structuur samenhangt is onder andere door Terken (1984) aangetoond. Hij verzamelde een aantal monologen waarin sprekers instructies gaven aan luisteraars om de voorkant van een huis te construeren met behulp van figuren van karton. In deze monologen bleek dat uitdrukkingen die een nieuw topic introduceerden, zoals “dan hebben we het zwarte vierkant”, in alle gevallen door de sprekers werden geaccentueerd. De distributie van accenten blijkt dus mede afhankelijk te zijn van de thematische structuur van een tekst. Uit perceptie-experimenten met onverstaanbaar gemaakte spontane spraak van Lehiste (1979) blijkt dat luisteraars het verschil waarnemen tussen wat Lehiste definiëerde als zins- en alinea-overgangen. Locale prosodische markeringen zijn daarvoor verantwoordelijk, namelijk een lange pauze op de alinea-overgang, toonhoogtebewegingen aan het begin van de alinea en verlengingsverschijnselen van klanken en laryngalisatie vóór de overgang. Onder laryngalisatie wordt een kraakstem verstaan, ofwel een van de vormen van onregelmatigheid in de toongeving. Laryngalisatie komt vaak voor aan het einde van een prosodische frase. Luisteraars die zelf oordeelden over de sterkte van grenzen in spontane spraak (van Donzel, 1999), deden dat op basis van pauzeduur en grenstonen. Wanneer beide prosodische kenmerken gelijktijdig voorkomen, wordt een grens als sterker beoordeeld. In spontane spraak zijn pauzes belangrijkere indicatoren voor de perceptie van de grenssterkte dan intonationele kenmerken, maar toonhoogteaccenten zijn juist weer belangrijk voor de perceptie van tekststructuur in termen van 83
de noties gegeven, herleidbare en nieuwe informatie. De perceptuele evaluatie van prosodische structuur door Swerts en Geluykens (1993) waarin luisteraars topische grenzen moesten herkennen, wijst in de richting van meer globale kenmerken die een rol spelen in het markeren van topische structuur. De proefpersonen luisterden naar drie versies van een onverstaanbaar gemaakte spontane monoloog. De spreker van de monoloog markeerde grotere topische eenheden zowel met intonationele middelen zoals melodische grenstonen en aanpassing van de toonhoogtepieken ten opzichte van elkaar als met pauzeduren. Naast de originele versie werd een versie aangeboden waarin alleen pauzeduur variëerde zoals in het origineel (en de toonhoogte constant gehouden werd) en een versie waarin de spraak-melodie variëerde zoals in het origineel (en de pauzeduur constant gehouden werd). De luisteraars waren beter in staat de belangrijke topische grenzen te herkennen in de versie met de originele spraakmelodie dan in de versie met de originele pauzeduren. Blaauw (1995) was geïnteresseerd in prosodische verschillen in alineastructuur tussen voorgelezen en spontane monologen. Een verschil tussen alineaprosodie in spontane en voorgelezen spraak ligt in de distributie van grenstonen: in voorgelezen spraak eindigen eenheden vaak met een dalende, finale toonhoogtebeweging, terwijl in spontane spraak meer ‘continueringshaaltjes’ voorkomen. Het aantal pauzes is gelijk in beide spreekstijlen, maar in spontane spraak worden pauzes vaker gerealiseerd binnen grammaticaal en prosodisch coherente eenheden. Evenals Swerts (1994) en Geluykens en Swerts (1993) vond zij in spontane instructiemonologen een graduele daling in toonhoogte over de hele alinea heen. Dezelfde sprekers die later deze transcripties voorlazen, realiseerden in deze conditie meer een locale alineastructuur, dus alleen op alineabegin en -einde, in tegenstelling tot de overall declinatie in de spontane conditie. Als het waar is dat in spontane spraak globale markering van de alineastructuur gerealiseerd wordt, dan moet daaruit geconcludeerd worden dat een spreker die spontaan spreekt een vergelijkbare blik-vooruit heeft als een spreker die voorleest. De geleidelijke daling van toonhoogte die gerelateerd is aan de lengte van de uiting, impliceert namelijk dat van planning van de uit te spreken tekst sprake is. Dat hiervan sprake is in voorgelezen spraak is wellicht minder opmerkelijk dan in spontane spraak, omdat de voorlezer immers de lengte van de uiting voor zich kan zien op het papier. Ook Hirschberg en Nakatani (1996) vinden vergelijkbare prosodische patronen voor beide spreekstijlen, behalve dat in de spontane conditie continuerende tekstdelen op langzamere spreeksnelheid werden uitgesproken dan tekstinitiële en tekstfinale delen. Samenvattend, de tekstprosodie in spontane spraak is vergelijkbaar met die in voorgelezen spraak. De prosodische eigenschappen omvatten: een lange pauze vóór een initiële teksteenheid, een snellere spreeksnelheid in finale teksteenheden, een stijging van het toonhoogtebereik om een nieuw topic te introduceren, een gemiddeld hogere toonhoogte in initiële zinnen, accenten op uitdrukkingen die een nieuw topic introduceren, globale melodische eigenschappen, de combinatie van een lange pauzeduur en een dalende grenstoon om een alinea-overgang te markeren, stijgende grenstonen om aan te geven dat er nog meer tekst zal volgen, dalende grenstonen om aan te geven dat een teksteenheid als afgesloten kan worden beschouwd, laryngalisatie vóór een overgang, afname van amplitude op het eind van een teksteenheid, verlenging van klanken vóór een overgang, relatief weinig nadruk en een relatief lage toonhoogte op lettergrepen op het eind van een uiting. Belangrijk is dat in spontane spraak de teksteenheden anders gesegmenteerd zijn dan in voorgelezen spraak, 84
vaker op basis van verandering van topic dan op grond van het onderscheid tussen zin en alinea. Met name de status van de zin is onduidelijk in spontane spraak.
3 Dialogen In dialogen is het aangeven van de samenhang net zo belangrijk als in monologen. Net als in een monoloog geeft een spreker in een dialoog met behulp van de prosodie aan dat hij zijn inhoud op een bepaalde manier structureert, dat hij een nieuw topic introduceert, dat niet alle informatie even belangrijk is en dat er een verandering optreedt in de informatiestatus. Deze tekstuele aspecten van dialogen komen overeen met tekststructurerende aspecten in monologen. Er spelen echter in dialogen nog enkele verschijnselen een rol die in monologen niet aan de orde zijn, namelijk interactieve aspecten zoals het nemen van het initiatief, het geven van respons en regulering van beurtwisselingsaspecten, dat wil zeggen het nemen, het krijgen, het houden en het weggeven van de beurt. Deze paragraaf spitst zich toe op verschillen en overeenkomsten in prosodie tussen monologen en dialogen. Het afronden van teksteenheden in monologen en het wisselen van beurt in dialogen wordt nader bekeken. Zoals eerder opgemerkt, wordt het afsluiten van teksteenheden in spontane monologen gekarakteriseerd door onder andere een langere pauze, een dalende grenstoon, snellere spreeksnelheid, lage onbeklemtoonde syllaben, laryngalisatie, afname van amplitude, verlenging van klanken, relatief weinig nadruk en een relatief lage toonhoogte op lettergrepen op het eind van een uiting. Door deze middelen brengen sprekers samenhang aan in de stroom van informatie. Het is de vraag of het afronden van een beurt in dialogen ook met deze verschijnselen gepaard gaat. In studies waarin de vraag naar de relatie tussen tekststructuur en prosodie centraal staat, wordt het segmenteren in voor het doel van het onderzoek relevante teksteenheden meestal op ad hoc wijze gedaan. In de studies van monologen zagen we een segmentering van de teksten in zinnen en alinea's of in initiële, mediale en finale tekstdelen of op basis van nieuwe topics. Deze segmenteringsprincipes zijn in de meeste gevallen gebaseerd op de intuïties van de onderzoeker(s). De onderzoeken van Hirschberg en Grosz (1992), Hirschberg en Nakatani (1992), van Donzel (1999) en Noordman et al. (1999) vormen hierop een uitzondering. In dialogen gebeurt de segmentatie eveneens op ad hoc wijze, bijvoorbeeld op grond van verandering van topic, van verstoringen van de continuïteit of van functionele criteria. Uit productiestudies van teksten blijkt dat de combinatie van verschillende intonationele kenmerken een differentiërend vermogen heeft voor verschillende typen teksteenheden. Douglas-Cowie en Cowie (1998) benadrukken dat de globale intonationele kenmerken die dat onderscheid klaarblijkelijk realiseren, niet reduceerbaar zijn tot een enkele dimensie. Zij bestudeerden telefoonconversaties van secretaresses (eenzijdig) die ze op grond van functionele criteria in een aantal hoofdcategorieën hadden ingedeeld zoals openingen, voorbereidingen voor transacties, afsluitingen van transacties, transacties, voorbereidende afsluitingen en finale afsluitingen. Deze tekstuele categorieën konden zij op basis van hun statistisch bepaalde prosodische profielen goed van elkaar onderscheiden. In een zinspaar is de maximale toonhoogtepiek in de tweede zin hoger dan die in de eerste zin wanneer er een ‘verstoring in de discourse stroom’ optreedt (Menn & Boyce, 1982). Als verstoringen 85
worden bijvoorbeeld beschouwd: veranderingen van onderwerp, terugkoppelingsgedrag en uitingen van verschil van opvatting. Deze relatieve stijging van de maximale toonhoogtepiek in de tweede zin van het paar lijkt overeen te komen met de stijging van toonhoogte in monologen aan het begin van een nieuwe eenheid. De studie van Menn en Boyce vond plaats in de context van natuurlijke conversaties tussen ouders en kinderen in een laboratoriumomgeving. De introductie van een nieuw topic in een dialoog gaat gepaard met een toename van toonhoogte wanneer de spreker zojuist het initiatief in de beurtwisseling heeft genomen. Wanneer een spreker het topic continueert in reactie op de voorafgaande spreker, treedt er geen verandering van toonhoogte op (Bruce, 1991). Beurtwisseling heeft niet alleen effect op toonhoogte, maar ook op de grenstonen. In dialogen dienen grenstonen zowel om aan te geven of een onderwerp als wel of niet afgesloten moet worden beschouwd als om aan te geven of de beurt wel of niet overgenomen kan worden. Deze twee functies van ‘afsluiters’ worden prosodisch verschillend gerealiseerd. Lage grenstonen hebben de bedoeling om aan te geven dat de spreker bereid is de beurt over te geven. Hoge grenstonen hebben de bedoeling om aan te geven dat de spreker weliswaar een nieuw onderwerp ïntroduceert, maar dat hij niet van beurt wil wisselen. Door het realiseren van een hoge grenstoon wil hij aangeven dat de luisteraar niet de indruk moet krijgen dat hij de beurt kan overnemen (Geluykens & Swerts, 1994). Uit het perceptieve gedeelte van deze studie (Geluykens & Swerts, 1994) blijkt dat luisteraars op basis van beide grenstonen in staat zijn om de twee soorten ‘afsluiters’te onderscheiden zowel in hun context als geïsoleerd van hun context. Dit verschil werd ook gehoord nadat de finale delen van de eenheden waren verwijderd. Dit wijst erop dat de verschillen tussen beide typen grenzen niet alleen in de grenstoon gelocaliseerd moeten worden, maar dat ook meer globale prosodische kenmerken een bepaald type grensmarkering ‘maken’. Een voorbeeld waaruit blijkt dat in dialogen door de prosodie een mengeling aan tekstuele, interactieve en beurtwisselingssignalen kan worden afgegeven, zijn regionen in de contour met een lage toonhoogte. Dit lijken signalen te zijn voor beurtwisseling of de afsluiting van een onderwerp, terwijl Ward (1999) aantoont dat ze door sprekers in een dialoog ook ingezet worden om de luisteraar uit te nodigen interactief te zijn, in de zin dat de luisteraar op dat moment back-channeling kan geven. Luisteraars zijn ook gevoelig voor minimale nuances in de hoge grenstoon. In een experimentele studie van Caspers (1998) werden aan luisteraars twee finale eindstijgingen in de intonatiecontour gepresenteerd die minimaal van elkaar verschilden en in het Nederlands allebei bekend staan als middelen om vraagintonatie te realiseren. In een volledig gecontroleerde situatie bleek dat een van beide contouren niet louter als signaal voor vraagintonatie werd opgevat maar als een teken om door te kunnen gaan met een beurt. Een experimentele studie naar de variabiliteit en perceptuele effecten van finale dalingen toont een soortgelijk subtiel verschil aan in lage grenstonen (Wichmann, 1991). Naarmate het beginpunt van de finale daling hoger is, wordt de uiting als minder finaal ervaren. Samenvattend, in dialogen vertoont tekstprosodie de volgende kenmerken: lage grenstonen als indicator om de beurt over te geven, hoge grenstonen als indicatior om de beurt vast te houden, hoge grenstonen als indicator van de introductie van een nieuw onderwerp, globale intonationele kenmerken als indicatoren voor beurtwisseling, globale intonationele kenmerken als indicatoren van de introductie van een nieuw onderwerp, toonhoogte-stijging bij de introductie van een nieuw 86
onderwerp vlak na de beurtovername, toonhoogtestijging na ‘stroomverstorende’ tekstelementen, geen verandering van toonhoogte bij continuering van het onderwerp na beurtwisseling, differentiatie in hoge grenstonen voor vraagintonatie of het houden van de beurt, differentiatie in lage grenstonen voor de perceptie van meer of minder finaliteit. In tabel 1 staat een overzicht van de prosodische middelen waarmee tekststructuur gemarkeerd wordt in de drie spreekstijlen. Tabel 1 Prosodische middelen om tekststructuur te markeren in voorgelezen monologen, spontane monologen en dialogen Prosodische kenmerken lange pauze op alineagrens en/of vóór een initiële teksteenheid
in monologen voorgelezen spontaan + +
pauzeduur lang in combinatie met lage grenstonen als indicator van alineagrens
in dialogen
+
lange pauze vóór teksteenheid en relatief hoge toonhoogtepiek indien hoog in de hiërarchische tekststructuur
+
hogere spreeksnelheid in niet-initiële zinnen
+
toonhoogte gemiddeld hoger in initiële zinnen
+
+
+
hoge toonhoogtepiek aan het begin van een nieuwe alinea, bij introductie van een nieuw onderwerp en bij een nieuw onderwerp na beurtwisseling
+
+
+
geleidelijke daling van toonhoogte in de loop van de alinea
+
+
+
accent op het nieuwe onderwerp
+
laryngalisatie vóór een alineagrens
+
verlenging van klanken vóór een alineagrens
+
lage onbeklemtoonde lettergrepen op het eind van een teksteenheid
+
grenstonen hoog bij vraagintonatie, bij het aangeven: er komt meer tekst , bij het houden van de beurt
+
+
grenstonen laag bij het markeren van einde teksteenheid, het overgeven van de beurt, het meer of minder aangeven van finaliteit en het uitlokken van back-channel gedrag
+
+
87
4 Conclusie Tekststructuur heeft een aantal prosodische correlaten. Voor spreekstijlen (voorlezen en spontaan spreken) en modi (monologen en dialogen) zijn effecten gevonden voor pauzering, spreeksnelheid, eigenschappen van toonhoogte en accentuering. Het is echter alles behalve duidelijk op welke manier de prosodische correlaten met elkaar interacteren en onder welke omstandigheden ze dat doen. Daar komt bij dat het prosodisch markeren van tekst-structuur maar een facet is van alle mogelijkheden die sprekers hebben om hun boodschap over te brengen. Enerzijds kunnen met prosodie immers veel méér aspecten van taalgedrag worden uitgedrukt dan het markeren van structuur. Het plannen van wat men wil gaan zeggen, het uitdrukken van emoties en het aanwenden van retorische middelen zijn enkele van deze aspecten. Anderzijds zijn er ook vele ándere middelen om structuur te markeren. De gevonden effecten vragen dan ook om veel meer gedetailleerd onderzoek. Het prosodisch onderzoek naar teksten en tekststructuur is nog vooral gericht op de lineaire verbanden tussen tekstdelen en met name op overgangen tussen enerzijds zinnen en anderzijds alinea’s. Niet alleen de noties zin en alinea zijn zelden theoretisch gefundeerd in dit type onderzoek, er is ook nog maar weinig werk verricht met betrekking tot de mate van informatiewaarde van de tekstdelen ten opzichte van elkaar. Het werk van Noordman et al. (1997) levert een belangrijke bijdrage hieraan. Het is een van de weinige onderzoeken die voor het segmenteren in eenheden en het vaststellen van de tekststructuur gebruik maakt van teksttheoretische principes en bovendien niet alleen de prosodische realisering van lineaire tekstverbanden maar ook van hiërarchische verbanden belicht. Het werk van Noordman et al. wordt voortgezet in het interdisciplinaire promotie-project ‘De prosodische realisatie van tekststructuur’ dat uitgevoerd wordt binnen het kader van zowel de Discourse Studies Group te Tilburg (KUB) als het IPO, Center for user-system interaction te Eindhoven (TUE) door de auteur van dit artikel. In het project wordt gebruik gemaakt van verschillende teksttheoretische inzichten (bijvoorbeeld Mann & Thompson, 1988; Grosz & Sidner, 1986; Sanders & Van Wijk, 1996) en de integratie daarvan. Aansluitend bij het werk van Hirschberg en Grosz (1992) en Hirschberg en Nakatani (1996) worden de modellen voor tekststructuur getoetst op hun mate van betrouwbaarheid, omdat alleen op basis van betrouwbaar vastgestelde tekststructuren conclusies over prosodische correlaten kunnen worden getrokken. Het project richt zich op de prosodische realisatie van zowel lineaire als hiërarchische tekstverbanden en bovendien op de verschillende typen tekstrelaties, zoals contrasten, uitweidingen en argument-relaties. Het onderzoek naar de relatie tussen tekststructuur en prosodie is een veelbelovende lijn van onderzoek.
Noot Jacques Terken en Marc Swerts ben ik erkentelijk voor hun inhoudelijke opmerkingen. Dit onderzoek wordt gesteund door het Samenwerkingsorgaan Brabantse Universiteiten (SOBU).
88
Literatuur Blaauw, E. (1995). On the perceptual classification of spontaneous and read speech. Unpublished doctoral dissertation, University of Utrecht. Brown, G., Currie, K., & Kenworthy, J. (1980). Questions of intonation. London: Croom Helm. Brubaker, R. (1972). Rate and pause characteristics of oral reading. Journal of psychological research, 1, 141-147. Bruce, G. (1982). Textual aspects of prosody in Swedish. Phonetica, 39, 274-287. Bruce, G. (1991). The exploitation of pitch in dialogue. Proceedings of ICPhS XII (Aix-en-Provence), 271274. Caspers, J. (1998). Who's next? The melodic marking of question vs. continuation in Dutch. Language and Speech, 41, 375-398. Clark, H. (1996). Using language. Cambridge: Cambridge University Press. Cooper, W., & Sørensen, J. (1981). Fundamental frequency in sentence production. New York: Springer. Donzel, M. van (1999). Prosodic aspects of information structure in discourse. Unpublished doctoral dissertation, University of Amsterdam. Douglas-Cowie, E., & Cowie, R. (1998). Intonational settings as markers of discourse units in telephone conversations. Language and Speech, 41, 351-374. Geluykens, R., & Swerts, M. (1994). Prosodic cues to discourse boundaries in experimental dialogues. Speech Communication, 15, 69-77. Grosz, B. & Sidner, C. (1986). Attention, intentions, and the structure of discourse. Computational Linguistics, 12, 243-281. Hart, J. 't, Collier, R., & Cohen, A. (1990). A perceptual study of intonation. Cambridge: Cambridge University Press. Hirschberg, J., & Grosz, B. (1992). Intonational features of local and global discourse structure. In Proceedings of the speech and natural language workshop (pp. 441-446). Harriman NY: DARPA. Hirschberg, J., & Litman, D. (1993). Empirical studies on disambiguation of cue phrases. Computational Linguistics, 19, 501-530. Hirschberg, J., & Nakatani, C. (1996). A prosodic analysis of discourse segments in direction-giving monologues. Proceedings of the 34th annual meeting of the Association for Computational Linguistics (Santa Cruz), 286-293. Horne, M., Hansson, P., Bruce, G., Frid, J., & Filipsson, M. (1999). Discourse markers and the segmentation of spontaneous speech. Working Papers 47 (pp. 123-139). Lund University, Dept. of Linguistics and Phonetics. Kowall, S., Bassett, M., & O'Connell, D. (1985). The spontaneity of media interviews. Journal of Psycholinguistic Research, 14, 1-18. Kuosmanen, A. (1999). On the relationship between the melodic structure and discourse functions of the particles 'nu' and 'vot' in spontaneous Russian. Proceedings of the ESCA Workshop on Dialogue and Prosody (Veldhoven), 105-110. Lehiste, I. (1975). The phonetic structure of paragraphs. In Cohen, A., & Nooteboom, S. (Eds.). Structure and process in speech perception (pp. 195-203). Berlin: Springer.
89
Lehiste, I. (1979). Perception of sentence and paragraph boundaries. In Lindblom, B., & Öhman, S. (Eds.). Frontiers of speech communication research (pp. 191-201). London: Academic Press. Menn, L., & Boyce, S. (1982). Fundamental frequency and discourse structure. Language and Speech, 25, 341-378. Mann, W., & Thompson, S. (1988). Rhetorical Structure Theory: Toward a functional theory of text organization. Text, 8, 243-281. Noordman, L., Dassen, I., Swerts, M., & Terken, J. (1999). Prosodic markers of text structure. In Hoek, K. van, Kibrik, A., & Noordman, L. (Eds.). Discourse studies in cognitive linguistics (pp. 133148). Amsterdam: Benjamins. Passoneau, R., & Litman, D. (1997). Discourse segmentation by human and automated means. Computational Linguistics, 23, 103-139. Sanders, T., & Wijk, C. van (1996). PISA; a procedure for analyzing the structure of explanatory texts. Text, 16, 91-132. Sluijter, A., & Terken, J. (1993). Beyong sentence prosody: paragraph intonation in Dutch. Phonetica, 50, 180-188. Silverman, K. (1987). The structure and processing of fundamental frequency contours. Unpublished doctoral dissertation, Cambridge University. Swerts, M. (1993). Filled pauses as markers of discourse structure. Journal of Pragmatics, 30, 485-496. Swerts, M. (1994). Prosodic features of discourse units. Unpublished doctoral dissertation, Eindhoven University of Technology. Swerts, M., & Geluykens, R. (1993). The prosody of information units in spontaneous monologue. Phonetica, 50, 189-196. Terken, J. (1984). The distribution of pitch accents in instructions as a function of discourse structure. Language and Speech, 27, 269-289. Thorndyke, P. (1977). Cognitive structures in comprehension and memory of narrative discourse. Cognitive Psychology, 9, 77-110. Thorsen, N. (1985). Intonation and text in Standard Danish. Journal of the Acoustic Society of America, 77, 1205-1216. Ward, N. (1999). Low-pitch regions as dialog signals? Evidence from dialog-act and lexical correlates in natural conversation. Proceedings of the ESCA Workshop on Dialogue and Prosody (Veldhoven), 83-88. Wichmann, A. (1991). Falls and perceptual effects. Proceedings of ICPhS XII (Aix-en-Provence), 194197.. Yule, G. (1980). Speaker's topics and major paratones. Lingua, 52, 33-47.
90