HET GEOGRAFISCH VERKLAREN VAN DIALECTAFSTANDEN MET EEN GIS
Scriptie Ilse van Gemert Alfa-Informatica Rijksuniversiteit Groningen Augustus 2002
2
Inhoudsopgave 1 Inleiding.......................................................................................................................... 3 2 Theorie en methoden..................................................................................................... 4 Dialectologie ............................................................................................................. 4 Geografische Informatie Systemen........................................................................... 9 Dialectologie en Geografische Informatie Systemen .............................................. 11 3 Opzet onderzoek.......................................................................................................... 14 4 Implementatie............................................................................................................... 17 5 Resultaten.................................................................................................................... 22 6 Conclusie ..................................................................................................................... 28 7 Bibliografie ................................................................................................................... 29 8 Bijlagen ........................................................................................................................ 30 Bijlage 1: De 21 plaatsen uit de eerste steekproef.................................................. 30 Bijlage 2: De 59 plaatsen uit de tweede steekproef ................................................ 31 Bijlage 3: De 244 plaatsen uit de derde steekproef ................................................ 32
3
1 Inleiding Aan de Rijksuniversiteit Groningen is door John Nerbonne en Wilbert Heeringa onderzoek gedaan op het gebied van de dialectologie, waarbij de verschillen tussen 350 dialecten zijn berekend. De data die in dit onderzoek zijn gebruikt, komen uit de Reeks Nederlandse Dialectatlassen (RND)1. In deze reeks is voor elke plaats de uitspraak van inwoners die het lokale dialect van die plaats spreken in fonetisch schrift opgeschreven. In het onderzoek “Dialect Areas and Dialect Continua” van Heeringa en Nerbonne (2001) worden van een selectie van deze plaatsen de verschillen tussen de dialecten berekend (dialectafstanden). Doordat deze berekende taalvariatie numeriek is, kunnen de getallen met andere numerieke data worden vergeleken, zoals geografische afstanden tussen dezelfde plaatsen. Het vergelijken van deze twee soorten afstanden is nog niet eerder gedaan in dialectologisch onderzoek, voorheen werd vooral gekeken naar overeenkomsten tussen dialectgebieden. In een gebied met plaatsen waar mensen wonen, liggen ook wegen die deze mensen in contact met elkaar kunnen brengen. Ligt er een goede verbinding tussen twee plaatsen en hoeven mensen niet ver te reizen, dan zullen ze eerder geneigd zijn naar de andere plaats te reizen. Doordat mensen uit de twee plaatsen op deze manier met elkaar in contact komen, zullen ze elkaars dialecten ook horen. Als dit vaak genoeg gebeurt nemen ze elementen uit elkaars dialect vanzelf over. Dit geldt dan voor de beide plaatsen. De kans dat het ene dialect geleidelijk gaat lijken op het andere dialect zal kleiner zijn tussen twee plaatsen die een minder goede reisverbinding hebben of verder uit elkaar liggen, omdat het contact tussen mensen uit deze twee plaatsen minder frequent is. Het is aannemelijk te veronderstellen dat de geografie (mate van bereikbaarheid) tussen twee plaatsen van invloed is op de verschillen tussen de dialecten van de plaatsen. Om nu te kijken of er verband is tussen de geografische afstand en de dialectverschillen tussen plaatsen, is het van belang om de reisafstand tussen die plaatsen nauwkeurig te bepalen. De geografische afstand in het onderzoek van Heeringa en Nerbonne (2001) is een Euclidische, een hemelsbreed gemeten afstand. Geen enkele route, zoals mensen die afleggen tussen twee plaatsen, loopt echter precies langs een rechte lijn. Mensen maken gebruik van bestaande wegen en rivieren om op hun bestemming te komen. Het doel van deze scriptie is nu de geschatte geografische afstanden tussen plaatsen uit het onderzoek van Heeringa en Nerbonne te verbeteren, deze vervolgens te vergelijken met de dialectafstanden en tenslotte een betere uitspraak te kunnen doen over de invloed van deze afstanden op dialecten. In het tweede hoofdstuk zullen de theorie en de methoden die van toepassing zijn op dit onderzoek worden besproken. Er zal gebruik worden gemaakt van een Geografisch Informatie Systeem (GIS) voor het bepalen van de geografische afstanden. Een dergelijk systeem zal in het tweede hoofdstuk worden uitgelegd. Aan het eind van ditzelfde hoofdstuk worden voorbeelden van onderzoek met dialectologie en een GIS gegeven. Het derde hoofdstuk beschrijft de opzet van het onderzoek. Dan volgt het vierde hoofdstuk met daarin de implementatie van deze opzet. Met behulp van een regressie-analyse zal getracht worden aan te tonen dat er correlatie tussen de twee afstanden bestaat. De resultaten hiervan worden in het vijfde hoofdstuk besproken, gevolgd door de conclusie van het onderzoek in hoofdstuk zes. 1
Deze reeks is samengesteld door E. Blancquaert en W. Pée in de periode 1925-1982.
4
2 Theorie en methoden Dit hoofdstuk zal een inleiding geven over het onderzoeksgebied waar deze scriptie op van toepassing is. Allereerst wordt het begrip dialectologie uitgelegd en een aantal methoden toegelicht. Vervolgens zal het begrip GIS worden uitgelegd. Tenslotte volgen drie voorbeelden van combinaties van deze twee begrippen aan de hand van eerdere onderzoeken. Dialectologie Voor dit theoretische gedeelte van het onderzoek is gebruik gemaakt van de boeken "Dialectology" van Chambers en Trudgill (1998) en "Inleiding tot de Nederlandse Dialectologie" van Goossens (1977). Dialectologie is de studie van dialecten. Hierbij worden verschillende taalverschijnselen geografisch onderzocht. Er kan bijvoorbeeld in verschillende gebieden worden gekeken hoe men een bepaald klank in een woord uitspreekt. De resultaten van een dergelijk onderzoek worden gevisualiseerd en geïnterpreteerd door middel van een kaart van het onderzochte gebied. Vervolgens kan men deze kaarten gaan interpreteren en op die manier de verspreiding van taalvormen en taalinhouden ontdekken. Dit is de taak van de dialectgeografie. De eerste onderzoeker die zich bezighield met het verzamelen van dialectologische data was Georg Wenker in 1878. Hij stuurde een vragenlijst naar 44000 leraren in verschillende plaatsen in Duitsland en vroeg hen deze vragenlijst in hun dialect te transcriberen (de uitspraak van de lijst in het dialect opschrijven). De vragenlijsten bevatten woorden met de klanken die in de te onderzoeken taal voorkomen. Dit kan in de vorm van een zin zijn, of losse woorden. Aan de hand van de verschillende transcripties van deze lijsten kunnen de dialecten nader worden onderzocht en vergeleken. Onderzoekers die na Wenker kwamen begonnen met het inzetten van veldwerkers. Deze interviewden dialectsprekers aan de hand van een vragenlijst en transcribeerden deze uitspraken zelf. Omdat op deze manier een kleiner aantal mensen zich met het transcriberen bezighielden, kon het aantal fouten in de transcripties beperkt worden gehouden. Indelingsmethoden Er zijn vier verschillende indelingsmethoden toegepast in onderzoek naar de Nederlandse dialecten. Dit zijn de vlakkenmethode, de isoglossenmethode, de pijltjesmethode en de structuurgeografische methode. Data kunnen bovendien ingedeeld en zichtbaar gemaakt worden door middel van clustering en multidimensionele herschaling. Al deze methoden worden hieronder nader toegelicht. Vlakkenmethode Dit is de oudste methode toegepast op een indelingskaart en wordt gebruikt om dialectgebieden te onderscheiden. Bij deze methode vindt de onderverdeling van een taalgebied plaats door middel van lijnen of verschillende kleuren op een kaart. Deze lijnen zijn bepaald aan de hand van de grenzen tussen volksstammen. Gebieden die genoeg van elkaar verschillen in het onderzochte deel van de taal krijgen een verschillende kleur. Het bezwaar van deze methode is dat er altijd een vorm van intuïtie bij komt kijken.
2 Theorie en methoden
5
Isoglossenmethode Bij deze methode worden een aantal isoglossen van verschillende verschijnselen op een kaart getekend. Het voordeel van deze methode boven de vlakkenmethode is dat de isoglossen controleerbare feiten representeren. De methode is minder makkelijk voor het onderscheiden van dialectgebieden, omdat dan meerdere isoglossen van linguïstische elementen gecombineerd moeten worden en deze verschillende elementen vaak niet samenvallen. Er moet dan een keuze worden gemaakt tussen de verschillende isoglossen, waardoor de methode subjectief wordt. Ook stellen de isoglossen vaak een overgangsgebied voor en niet een absolute scheiding, zoals ze doen voorkomen. Deze methode wordt nog vaak gebruikt. Pijltjesmethode Deze methode gebruikt pijltjes die plaatsen met elkaar verbinden die in hun dialecten een sterke gelijkenis vertonen volgens de sprekers van de dialecten. De gebieden waar geen pijlen lopen vormen de dialectgrenzen. Het nadeel van deze methode is dat bevindingen afkomstig van sprekers elkaar al snel tegenspreken en dan moet er uiteindelijk een keuze worden gemaakt door de onderzoeker, wat ook deze methode subjectief maakt. Structuurgeografische methode Bij deze methode wordt het Nederlandse taalgebied ingedeeld op grond van een analyse van linguïstische feiten, meestal benaderd vanuit een fonologisch of morfologisch oogpunt. Dit is een structurele methode, wat betekent dat er niet naar de linguïstische elementen als losstaande feiten wordt gekeken, maar als onderdelen van een groter taalsysteem. Hierbij wordt bijvoorbeeld gekeken naar de fonemen in verschillende dialecten, om op die manier de structuur van fonemen in het algemeen te kunnen beschrijven. Onderzoekers kunnen meestal niet de complete, abstracte structuur van een taal tot in het allerkleinste detail ontdekken. Vandaar dat een indeling die bij deze methode gemaakt wordt altijd enigszins onzeker is. Clustering Bij deze en de volgde methode wordt er vanuit gegaan dat de onderzoeker numerieke data tot zijn beschikking heeft. De methoden kunnen dan de verhou-dingen tussen deze numerieke data zichtbaar maken. Bij clustering worden grote hoeveelheden gegevens vergeleken en waarden die bij elkaar in de buurt liggen worden in groepen ingedeeld. In een matrix met gegevens over de afstanden tussen verschillende dialecten, zoekt men de kleinste waarde. De twee dialecten die de kleinste afstand hebben, worden samengevoegd en voor alle andere plaatsen wordt de afstand tot deze nieuwe "plaats" berekend. Deze procedure wordt Figuur 1: Dendrogram van dialectafstanden herhaald tot er niets meer samen te voegen (Heeringa & Nerbonne 2001) is. Het resultaat is een hiërarchische groepering van de data. Vaak wordt het resultaat van deze methode getoond door middel van een dendrogram, wat te vergelijken is met een boom, met de dialecten als bladeren. Figuur 1 is een voorbeeld hiervan.
2 Theorie en methoden
6
Multidimensionele herschaling Deze methode kan verschillen en overeenkomsten tussen een hoeveelheid numerieke gegevens grafisch weergeven. Grote hoeveelheden complexe data in een matrix, zoals bijvoorbeeld linguïstische afstanden, worden omgerekend naar begrijpelijke verhoudingen tot elkaar. Elk gegeven krijgt coördinaten en de overige punten worden ten opzichte van dit punt geplaatst, afhankelijk van hoeveel ze van elkaar verschillen. Dit wordt zichtbaar gemaakt op een kaart door de afstanden tussen de plaatsen zo te tekenen, dat een afstand tussen twee plaatsen die twee keer zo groot is als een andere afstand, weergegeven wordt door deze ook op de kaart twee keer zo groot te maken. Zo wordt zichtbaar hoeveel en waar de data van elkaar verschillen. Door middel van verschillende kleuren kunnen vervolgens de dimensies nog duidelijker worden gemaakt. Met deze methode is de vaak vloeiende overgang van dialectgebieden goed te zien. Kaarten Een cartografische weergave wordt gebruikt om uitkomsten van dialectologisch onderzoek zichtbaar te maken. Hiervoor zijn drie verschillende soorten kaarten in gebruik, die elk voordelen en nadelen hebben. Dit zijn kaarten met geschreven tekst, stempelkaarten en isoglossenkaarten. De eerste twee genoemde kaarten worden ook wel stippen- of puntenmethoden genoemd. De eerste soort kaart is die met geschreven tekst, waarbij de taalvormen op de kaart zijn geschreven op de plaatsen waar ze zijn waargenomen. Het voordeel van deze methode is dat hierbij nog niets wordt geïnterpreteerd, de kaart geeft alleen feiten weer. Nadelen zijn ten eerste dat er geen ruimtelijk beeld wordt gegeven van de taalgeografische verscheidenheid, want men kan niet goed op de kaart aflezen of en waar de vormen veel van elkaar verschillen. Ten tweede kan een groot gebied met een grote dichtheid aan gegevens niet op deze manier worden verwerkt. Op een kaart van normaal formaat moeten dan te veel vormen op een klein oppervlak worden geplaatst. Bovendien krijgt men een enorme hoeveelheid aan informatie op een kaart, waardoor de kaart moeilijker te begrijpen is. De tweede soort kaart is de stempelkaart. De verschijnselen worden hier door middel van kleine figuurtjes, zoals punten, cirkeltjes of driehoekjes, op de kaart gezet. Dit levert een overzichtelijk beeld op, vooral als men ook met kleuren werkt. Er is echter een bezwaar, want bij het tekenen kan aan een interpretatie van de gegevens niet worden ontkomen. Doordat het aantal figuren voor de overzichtelijkheid klein wordt gehouden, geven de symbolen al snel een rangorde aan. Het ene gebruikte symbool valt door zijn vorm onvermijdelijk meer of minder op dan de ander, waardoor de indruk wordt gewekt dat het taalverschijnsel dat bij het symbool hoort belangrijker is dan een ander, terwijl dit in werkelijkheid niet zo hoeft te zijn. Als derde soort kaart is er de isoglossenkaart (of vlakkenkaart), waarbij grenzen tussen gebieden worden afgebakend met lijnen (isoglossen). De gebieden kunnen worden onderscheiden doordat een linguïstische eigenschap van de gebieden aan beide kanten van de lijn van elkaar verschillen. Ook kunnen de grenzen tussen gebieden waarin verschillende volksstammen leven worden gebruikt om een dialectgebied af te bakenen. Met deze methode wint men aan overzichtelijkheid, doordat de indeling van de kaart in een oogopslag te zien is. Omdat de oorspronkelijke data (de transcripties) echter niet meer zichtbaar zijn, is deze methode minder nauwkeurig. Bovendien kan het erg moeilijk zijn te bepalen waar deze lijnen moeten liggen om de juiste grens aan te duiden, omdat
2 Theorie en methoden
7
de overgang in uitspraak tussen twee gebieden erg geleidelijk is en niet absoluut, zoals een lijn doet vermoeden. Om een kaart vorm te geven zijn er twee uitgangspunten die men kan hanteren. Het oudste uitgangspunt is de idee dat er dialectgebieden met harde grenzen te onderscheiden zijn. Op kaarten wordt dan geprobeerd met lijnen grenzen aan te geven waar het ene dialect ophoudt en het andere begint. Een ander uitgangspunt gaat ervan uit dat deze grenzen niet bestaan, er zou geen discreet verschil tussen twee dialectgebieden kunnen worden gevonden, alleen geleidelijke veranderingen. De term “geografisch dialect continuüm” is een naam voor de opvatting dat dialecten met elkaar verbonden zijn door overeenkomsten. Hierbij is een lijn te trekken tussen twee dialecten, waarbij als men de lijn volgt, tussen twee opeenvolgende punten altijd overeenkomsten te vinden zijn en er dus nooit een harde grens is te trekken. De verschillen tussen deze punten kunnen dankzij de dialectometrie (zie onder) een numerieke waarde hebben. Er zijn twee interpretatiemethoden voor de verschillende kaarten. De extralinguïstische methode probeert de spreiding van taalverschijnselen te verklaren aan de hand van factoren die buiten het gebied van de taal liggen, zoals de natuur, of de politieke en economische geschiedenis van het gebied. De intern-linguïstische methode verklaart het kaartbeeld door middel van factoren in het taalsysteem zelf. Dialectometrie Om de subjectiviteit in dialectologisch onderzoek verder terug te dringen begon rond 1970 een nieuwe stroming, de dialectometrie. Letterlijk vertaald is dit “het meten van dialecten”. Jean Séguy was de eerste die probeerde dialectdata op deze objectievere manier te bekijken. Hij kende waarden toe aan taalverschijnselen van Gascogne, Frankrijk, door te tellen hoe vaak de gegevens niet overeenkwamen met de gegevens van de buren. Deze getallen werden omgezet in percentages. Op deze manier kon een linguïstische afstand berekend worden tussen twee plaatsen, waardoor de dialectdata ook numeriek konden zijn. Een van de grondleggers van de dialectometrie is ook Hans Goebl, die het toepaste op data in Oostenrijk. Berekeningen Het berekenen van linguïstische afstanden tussen twee dialecten kan op verschillende manieren. Om te berekenen hoeveel verschillende dialecten overeenkomen in hun uitspraak, kan men gebruik maken van de frequentiemethode, de frequentie-per-woordmethode of de Levenshteinafstand. Deze methodes worden hieronder nader toegelicht. Frequentiemethode De frequentiemethode kan opgedeeld worden in twee methodes, namelijk de featurefrequentiemethode en de foonfrequentiemethode. Bij de featurefrequentiemethode worden de frequenties van de fonetische features vergeleken in twee dialecten. De foonfrequentie methode meet voor elke klank in twee dialectcorpora hoe vaak de klanken in het hele corpus voorkomen. Hoe meer de klanken in twee dialecten overeenkomen, hoe dichter ze linguïstisch gezien bij elkaar liggen. Bij beide methodes wordt het woord zelf niet gezien als een eenheid. Ook wordt met de volgorde van de klanken geen rekening gehouden. C. Hoppenbrouwers en G. Hoppenbrouwers (1988) hebben deze methode met succes toegepast.
2 Theorie en methoden
8
Frequentie-per-woord-methode Deze methode lijkt op de frequentiemethode, behalve dat hier steeds dezelfde woorden uit twee corpora met elkaar worden vergeleken, in plaats van dezelfde klanken. De volgorde van de klanken wordt buiten beschouwing gelaten. Deze methode wordt door Nerbonne & Heeringa (2001) geïntroduceerd om de frequentiemethode, zoals deze is toegepast in Hoppenbrouwers & Hoppenbrouwers (1988), er beter mee te kunnen vergelijken. Levenshteinafstand Om de beperkingen van bovenstaande methoden op te heffen kan men gebruik maken van de Levenshteinafstand. Men telt hier voor elk woordpaar uit twee dialecten de klankveranderingen (toevoegingen, verwijderingen en vervangingen) die nodig zijn om van het ene woord op hetzelfde woord in het andere dialect uit te komen. De volgorde van de klanken is hier wel van belang. Men deelt de uitkomst van deze berekening door de lengte van het woord, zodat het gewicht van langere woorden in de resultaten niet te groot is. Vervolgens worden de uitkomsten van alle woorden opgeteld, zodat er een conclusie voor het gehele corpus kan volgen. Deze afstand is gebruikt in het onderzoek van Heeringa en Nerbonne (2001).
2 Theorie en methoden
9
Geografische Informatie Systemen Het volgende deel van deze scriptie zal gaan over Geografische Informatie Systemen (GIS). Voor dit deel is gebruik gemaakt van “Fundamentals of Information Systems” van Michael N. Demers (2000), “Geographical Information Systems and Computer Cartography” van Christopher Jones (1997) en “The Essential Guide to GIS” van Ed Parsons (1994). Inleiding Geografische informatie wordt door de mens al eeuwen lang verzameld. Om deze informatie te tonen wordt een kaart gebruikt. In een modern Geografisch Informatie Systeem wordt deze kaart vervangen door een database in combinatie met software, op een computer. Met behulp van deze combinatie kan een kaart van de data gemaakt worden, maar de data kan bovendien gereorganiseerd worden zodat er nieuwe informatie aan het licht komt. Een zeer algemene definitie van een GIS: Een GIS is een combinatie van data en software waarmee geografische informatie ingevoerd, opgeslagen, gemanipuleerd, geanalyseerd en zichtbaar gemaakt kan worden. Data De afgelopen dertig jaar is de matrix in gebruik voor digitale geografische data. Hierbij zijn de rijen in de matrix gebruikt voor plaatsen en de kolommen voor de gegevens van die plaatsen, zoals het aantal inwoners van de plaatsen. Ook kunnen tabellen aan het systeem worden toegevoegd, met andere gegevens. Een voorbeeld hiervan is een tabel waarbij de rijen en de kolommen de plaatsnamen zijn. De cellen van deze tabel kunnen bijvoorbeeld gevuld worden met de linguïstische of geografische afstanden tussen de twee plaatsen die bij de rij en kolom van de cel horen. De data in een GIS kunnen op twee manieren gerepresenteerd worden, namelijk in een raster model of in een vector model. Het raster model deelt een oppervlak op in pixels of vierkante cellen van gelijke grootte, die elk een waarde krijgen. Bij raster modellen is het bepalen van de grootte van de cellen (de resolutie) erg belangrijk. Hoe kleiner de cellen worden, des te groter wordt de nauwkeurigheid. Nadeel van kleinere cellen is dat het aantal toeneemt en meer opslagruimte gaat kosten. Het vector model is opgebouwd uit punten, lijnen en gebieden (polygonen). Een vector is een lijnstuk met een beginpunt, een lengte en een richting. De punten, lijnen en polygonen in een vector model zijn op elkaar gebaseerd. Punten bestaan uit coördinaten, lijnen zijn een reeks punten verbonden door lijnstukken en een polygon is een afgebakend gebied, omgeven door deze lijnen. Als er meerdere sets data beschikbaar zijn, gerelateerd aan hetzelfde gebied, worden deze sets in verschillende lagen in een GIS vaak over elkaar gelegd, om zo verschillen en/of overeenkomsten te onderzoeken. Bij een raster systeem worden de cellen die op dezelfde plek terechtkomen met elkaar vergeleken. Bij een vector analyse is dit minder eenvoudig, vooral als er polygonen in verschillende lagen gedeeltelijk overlappen en dus niet in zijn geheel met elkaar te vergelijken zijn. Er zijn drie manieren waarop de waarden van de verschillende lagen gecombineerd kunnen worden. De meest simpele manier is slechts een van de waarden van een laag
2 Theorie en methoden
10
voor de nieuwe laag te gebruiken, deze is dan dominant en naar de overige lagen wordt niet meer gekeken. Ook kunnen alle waarden onafhankelijk van elkaar bijdragen aan een nieuw getal, bijvoorbeeld door optelling, in het simpelste en meest toegepaste geval. Als men de derde manier gebruikt gaat men ervan uit dat er een ingewikkelder proces plaatsvindt tussen de waarden. Er kan dan bijvoorbeeld een optelling plaatsvinden tussen de waarden van een aantal cellen in een laag en de waarden van een tweede laag, terwijl andere waarden in de eerste laag gecombineerd worden met een derde laag in plaats van de tweede. Zo kan er een beeld worden gevormd van een gebied aan de hand van verschillende gegevens. In het volgende deel van dit hoofdstuk, "Dialectologie en GIS", zullen hiervan toegepaste voorbeelden worden gegeven.
2 Theorie en methoden
11
Dialectologie en Geografische Informatie Systemen Een van de grote voordelen van het gebruik van de computer in dialectologisch onderzoek is dat er grotere hoeveelheden data sneller kunnen worden onderzocht en op een kaart getekend. Selectiviteit in onderzoek, wat ontstaat doordat de onderzoeker door tijdgebrek een keuze moet maken uit de beschikbare data in plaats van alle data erbij te betrekken, wordt hierdoor verder teruggedrongen. De hieronder beschreven onderzoeken zijn voorbeelden van de combinatie van dialectologische data en een Geografisch Informatie Systeem. Voorbeelden Het eerste voorbeeld is een onderzoek van Neil G. Jacobs en Joseph C. Loon (1990). In dit voorbeeld wordt voor het eerst voorzichtig geprobeerd dialectologie in een GIS te gebruiken. De dialect data in dit onderzoek beslaan het geografische gebied waar de Yiddische cultuur en taal invloed had, genaamd Ashkenaz. Het tweede voorbeeld is een onderzoek van Jay Lee en William A. Kretzschmar (1993), waarin beschreven wordt hoe zij een GIS hebben gebruikt voor de “Linguistic Atlas of the Middle and South Atlantic States” (LAMSAS). Vervolgens wordt een tweede onderzoek van Lee en Kretzschmar genoemd (1996), opnieuw met data uit de LAMSAS. Yiddisch In het pilot project van het Yiddisch wordt een kaart gebruikt van heel Ashkenaz. Daaraan wordt dialectologische informatie van 869 locaties toegevoegd. De dialectgegevens zijn gebaseerd op de “Language and Culture Atlas of Ashkenaz Jewry” (LCAAJ). Omdat het gaat om gesimuleerde data, worden vervolgens polygonen getekend van verschillende isoglossen en gebieden waar een bepaalde eigenschap voorkomt. De plaatsen die in deze gebieden liggen nemen de eigenschappen van de polygonen over. Normaal gesproken zou per plaats bekend zijn of een eigenschap er voorkomt, zodat geen harde dialectgrenzen door middel van polygonen getekend hoeven te worden. Door het combineren van meerdere taalkenmerken zijn verschillende kaarten gemaakt. Een tweede atlas die in het onderzoek aan bod komt is de eerste linguïstische atlas van het Yiddish en is gepubliceerd door Leyzer Vilenkin in 1931. Deze beslaat alleen het gedeelte waar Yiddish werd gesproken binnen de grenzen van de Sovjet Unie in 1931 en bestaat uit 75 kaarten, waarvan de eerste 74 linguïstische kenmerken laten zien. In het project van Jacobs en Loon wordt de atlas gedigitaliseerd en aangepast aan de standaard kaart van het Ashkenaz die al aanwezig is. In het GIS zijn daarna opnieuw lagen over elkaar gelegd om zo verbanden en patronen zichtbaar te maken. Ook worden buffers getekend om bepaalde isoglossen. Buffers markeren een gebied met een bepaalde straal rond een punt, lijn of polygon op de kaart. Dit kan bijvoorbeeld worden toegepast om te kijken of binnen die buffer bepaalde linguïstische kenmerken overheersen. De buffer maakt grafisch zichtbaar om welk gebied het dan gaat. In figuur 2 is een voorbeeld van een gebufferd gebied uit dit onderzoek te zien. Hierop is een deel te zien van het gebied
Figuur 2: 40 km buffer (Jacobs & Loon, 1990)
2 Theorie en methoden
12
waar Yiddisch gesproken wordt, namelijk het deel wat binnen de grenzen van de Sovjet Unie van 1931 ligt. In dit onderzoek worden geen conclusies getrokken over de kaarten die geproduceerd zijn, omdat er geen authentieke gegevens zijn gebruikt. Amerikaans De LAMSAS atlas bestaat uit 1162 getranscribeerde vragenlijsten uit 483 plaatsen. Er is een database opgesteld met daarin een aparte tabel voor elk woord uit de vragenlijst. Alle varianten van een woord uit die lijst worden bekeken, met als doel de relatieve frequentie van de vormen, zoals ze voorkomen in een bepaald gebied, te berekenen. Hierbij kan dezelfde informant dus meerdere vormen hebben geuit. Door deze frequenties op een kaart te bekijken kan men geografische gebieden onderscheiden waar deze frequenties overeenkomen. Op de data van de LAMSAS is "point pattern analysis" toegepast. Het doel van deze analyse is vaststellen of het geografische beeld ruimtelijk gezien een patroon heeft, zoals clustering of uniforme verdeeldheid. Hierbij wordt het gebied onderverdeeld in kleinere gebieden van gelijke grootte. Voor de LAMSAS zijn technieken met Thiessen polygonen toegepast. Thiessen Polygonen bestaan uit gebieden die gemaakt zijn door steeds lijnen te trekken midden tussen twee datapunten die het dichtst bij elkaar liggen. Dit levert 483 gebieden op, waarbij elk gebied een datapunt bevat. De datapunten van aan elkaar grenzende gebieden zijn “Thiessen neighbours”. Door deze buren met elkaar te verbinden ontstaan Delaunay driehoeken (zie figuur 3). Een eigenschap van een gebied met Delaunay driehoeken is dat als men cirkels tekent met daarop steeds de drie hoeken van een driehoek, er geen andere punten binnen die cirkel vallen. Er zijn een aantal voordelen te noemen van deze indeling boven een indeling met Figuur 3: Delaunay driehoeken (Lee & Kretzschmar, 1993) politieke grenzen. Ten eerste wordt de gehele oppervlakte ingedeeld, waardoor gebieden waarover geen gegevens beschikbaar zijn toch worden meegenomen. Ten tweede zijn de grenzen duidelijk, doordat ze uit rechte lijnen bestaan in plaats van kronkelende (politieke) grenzen. Ook is eenduidig welke gebieden aan elkaar grenzen en welke niet, wat van belang is voor de rest van het onderzoek. Vervolgens wordt voor een woord gekeken of het wel of niet voorkomt in een gebied. Dan worden de grenzen tussen gebieden geteld (hierbij worden òf alle grenzen geteld waarbij het woord aan de ene kant wel en aan de andere kant niet voorkomt, òf alle grenzen met de combinatie wel/wel of niet/niet). Deze resultaten kunnen dan worden vergeleken met het verwachte aantal voorkomens van het woord. Uit de resultaten van Lee en Kretschzmar blijkt dat er duidelijke, ruimtelijke patronen waar te nemen zijn voor een aantal vergeleken woorden, doordat er voor deze woorden gebieden zijn aan te wijzen, waar ze statistisch gezien significant vaak voorkomen. Er wordt in het GIS gebruik gemaakt van een structuur met lagen data. Elke laag bevat voor de 483 punten de verschillende vormen van één woord. Het over elkaar leggen van deze lagen is gebruikt om ruimtelijke patronen in de data te ontdekken. Er kan dan bijvoorbeeld een kaart worden gemaakt waarop het voorkomen van een van de
2 Theorie en methoden
13
varianten van een woord zichtbaar is. Nu kunnen zulke lagen gecombineerd worden met de topografie van het gebied. Ook kunnen de lagen die een significant ruimtelijk patroon laten zien over elkaar worden gelegd om meer algemeen iets te kunnen zeggen over een gebied, of om dat linguïstische gebied beter te kunnen afbakenen. Niet-linguïstische data, bijvoorbeeld informatie over de bevolkingsdichtheid van het gebied, kan vervolgens over hetzelfde gebied worden gelegd om samenhang aan te tonen. Taalverschijnselen kunnen bijvoorbeeld in een dicht bevolkt gebied duidelijker zichtbaar zijn. In het artikel van Lee en Kretschzmar worden de lagen van de woorden ‘sofa’, ‘gully’, ‘dresser’, ‘lowland’ en ‘pig pen’ over elkaar gelegd en op een andere kaart de woorden ‘lowland’ en ‘gullies’. Er is duidelijk een verschil in spreiding te zien tussen de kaarten (figuren 4 en 5). Bij een kleine spreiding wordt een samenhang gesuggereerd tussen de gekozen woorden, welke volgens Lee en Kretzschmar verklaard kunnen worden door de invloed van veldwerkers. In een tweede artikel van Kretzschmar (1996) wordt nogmaals een toepassing van dialectologische data in een GIS beschreven. Hier is opnieuw data van de LAMSAS gebruikt. Het voorkomen van een linguïstisch kenmerk wordt in dit onderzoek op een kaart getekend voor een aantal plaatsen in dit gebied, namelijk die waarvan bekend is dat het kenmerk er voorkomt. Het gebied is vervolgens in cellen van 200 vierkante mijlen ingedeeld en aan elk van de cellen is een waarde toegekend. Deze waarde stelt de Figuur 4: Spreiding. waarschijnlijkheid van het voorkomen van het linguïs- Boven: Sofa, gully, dresser, lowland en pig pen. tische kenmerk voor. De waarden van cellen waarOnder: Lowland en gullies. voor geen gegevens beschikbaar zijn, worden aan de (Lee & Kretzschmar, 1993) hand van een algoritme berekend, die in het artikel niet verder wordt toegelicht.
14
3 Opzet onderzoek In dit hoofdstuk zal worden uitgelegd met welk computerprogramma er is gewerkt en welke data voor dit onderzoek zijn gebruikt. Het Geografisch Informatie Systeem De geografische afstanden uit het onderzoek van Heeringa en Nerbonne (2001) zijn berekend aan de hand van de longitude en de latitude van elke plaats. Deze coördinaten worden gekwadrateerd, bij elkaar opgeteld en vervolgens wordt uit dit getal de wortel getrokken. Deze getallen kunnen dan per tweetal plaatsen van elkaar worden afgetrokken om de afstanden tussen die plaatsen te berekenen. De uitkomsten zijn hemelsbrede afstanden, gemeten in een rechte lijn van de ene naar de andere plaats. In werkelijkheid wordt er niet in een rechte lijn gereisd. Om de reisafstand tussen plaatsen beter te schatten zijn geografische gegevens van het onderzoeksgebied nodig. In een Geografisch Informatie Systeem (GIS) kunnen geografische data worden gecombineerd met andere data in achterliggende tabellen, met behulp van de computer. Het software pakket ArcGIS Desktop 8.1 van het Environmental Systems Research Institute (ESRI) is gebruikt voor dit onderzoek. Het grote voordeel van een dergelijk programma is dat elke soort informatie over een gebied in een aparte visuele laag is opgeslagen. Deze lagen kunnen zichtbaar gemaakt worden en over elkaar heen gelegd, zodat de gebruiker kan bepalen wat er op een bepaald moment te zien is. Voorbeelden van verschillende lagen zijn de grenzen van provincies, meren in een bepaald gebied of (op een kleinere schaal) gebouwen in een stad. Bij elke laag hoort een database met daarin informatie over de laag. Een voorbeeld hiervan is in het geval van de meren de oppervlakte van elk meer. In het programma zijn verschillende functies ingebouwd om bijvoorbeeld combinaties van lagen te maken, in te zoomen op een bepaald gebied of lagen te bewerken. Om het programma automatisch verschillende taken achter elkaar te laten uitvoeren heeft de gebruiker ook de beschikking over een programmeertaal. In ArcGIS Desktop is dit Visual Basic 6.0, een objectgeoriënteerde taal van Microsoft. Figuur 5: Data van heel Nederland De data Voor het bestuderen van geografische afstanden is een kaart nodig, die Nederland goed weergeeft. Bij het softwarepakket van ESRI zijn bruikbare vectormodellen op cdrom geleverd. Hierop staan bestanden die digitale kaarten bevatten van landen over de hele wereld. Uit deze dataset zijn de volgende lagen data gekozen: de provincieindeling, de meren en de rivieren van Nederland. Van de “Digital Chart of the World”, een van de serie cd-roms die ESRI heeft uitgegeven, is informatie over de wegen in Nederland gehaald. Deze vier lagen zijn nodig om een goede route van de ene plaats naar de andere in Nederland te kunnen vinden, terwijl er rekening wordt gehouden met de verschillende soorten landoppervlak die men hierbij onderweg tegenkomt. Er
3 Opzet onderzoek
15
kan bijvoorbeeld een weg over een rivier zijn aangelegd, waardoor er over de weg gereisd kan worden in plaats van door de rivier. Andere lagen data zijn in dit onderzoek bewust niet gebruikt, zoals spoorwegen en snelwegen in Nederland. Dit omdat de geschatte reisafstanden tussen plaatsen worden vergeleken met dialectafstanden. Bij deze dialecten is moeilijk een jaartal aan te wijzen waarin het dialect is ontstaan, aangezien dit een langere tijd in beslag heeft genomen. Spoorwegen bestaan in Nederland sinds 1839 en de eerste snelweg werd in 1954 aangelegd. De vorming van dialecten vond gedurende een lange periode plaats, veel langer dan de periode waarin de spoorwegen en snelwegen bestaan, waardoor deze niet zijn meegenomen in dit onderzoek. De wegen die wel gebruikt zijn, zijn uiteraard ook relatief nieuw, maar deze wegen zijn naar alle waarschijnlijkheid op de plek van oudere wegen aangelegd. Vroeger heeft men voor een weg al de beste plek uitgezocht, rekening houdend met het landoppervlak. De wegen zijn steeds verder verbeterd, maar de locatie is waarschijnlijk hetzelfde gebleven. De laag met de provincie-indeling van het oppervlak van Nederland moet worden aangepast. Om over land naar de andere kant van het IJsselmeer te reizen, kon men voor de komst van de afsluitdijk in 19322 alleen onder het IJsselmeer langs. Sinds de afsluitdijk in gebruik is genomen, kunnen mensen via deze dijk over een weg van de bovenkant van Noord-Holland naar Friesland of in tegenovergestelde richting reizen. Deze feiten hebben uiteraard invloed gehad op het contact tussen de mensen in de omliggende gebieden. Een andere verandering in het gebied is de drooglegging van wat nu de Noordoostpolder en Flevoland is. Dit vond pas kort voor en gedeeltelijk nog tijdens het verzamelen van de dialectdata plaats. Hiervoor zijn in de laag met de provincie-indeling handmatig Flevoland en de afsluitdijk verwijderd. Ook andere delen van het huidige oppervlak van Nederland zagen er vroeger anders uit, maar omdat dit onderzoek geen momentopname is van Nederland in een bepaald jaar, ontbreekt vergelijkingsmateriaal en is de kaart niet verder aangepast. De data van Nederland worden gecombineerd met de plaatsen uit het onderzoek. Van deze plaatsen zijn de longitude en latitude coördinaten bekend en aan de hand daarvan konden ze op de kaart worden getekend. Om alle data op de juiste plek over elkaar heen te kunnen leggen moet vervolgens één projectie worden gekozen die voor al deze lagen gaat gelden. Er is hier gekozen voor het Rijksdriehoekstelsel. In dit stelsel is de bolling die Nederland heeft op de aarde door stereografische projectie op een plat vlak afgebeeld, gebaseerd op de ellipsoïde van Bessel uit 1841. Deze projectie heeft voor het gebied wat Nederland beslaat maar een kleine foutmarge3, zodat afstanden gemeten op dit oppervlak bruikbaar zijn voor onderzoek. Bovendien vallen nu alle lagen data op de juiste plek over elkaar. Het resultaat hiervan is te zien in figuur 5. De dialectafstanden uit het onderzoek van Heeringa en Nerbonne zijn in een tabel ingelezen en opgeslagen. De resultaten van de berekende geografische afstanden tussen de plaatsen zullen ook in een tabel worden gezet en met de tabel met dialectdata worden vergeleken.
2
Bron: http://waterland.net/rdij/ijsselmeergebied/afsluitdijk/ (7 Augustus 2002). De fouten in een kaart zijn daardoor –92 millimeter per in de kaart gemeten kilometer in Amersfoort en +92 millimeter per in de kaart gemeten kilometer in Zuid-Limburg (bron: http://www.esrinl.com/, 7 Augustus 2002). 3
3 Opzet onderzoek
16
De steekproeven Hoe groter de dataset voor statistisch onderzoek, hoe groter de kans dat er betrouwbare conclusies uit de resultaten getrokken kunnen worden. Alle 244 plaatsen in Nederland uit het onderzoek van Heeringa en Nerbonne zijn daarom meegenomen. Ook zijn twee steekproeven uit deze plaatsen apart bekeken. Een interessant deel van Nederland is het gebied rond het IJsselmeer. Om van de ene naar de andere kant van dit water te kunnen komen hebben mensen eromheen moeten reizen of moeten oversteken met een boot. Voor dit onderzoek zijn afstanden tussen 59 plaatsen die rond het IJsselmeer liggen bekeken. De provincies Figuur 6: Het gebied van de 59 waar geen route tussen twee plaatsen in zou plaatsen kunnen lopen zijn bij deze steekproef weggelaten. De nu ontstane kaart van dit gebied is te zien in figuur 6. De andere steekproef bevat een selectie van 21 plaatsen, welke op een bijna rechte lijn in Nederland liggen (zie bijlage 1). Dit zijn plaatsen die in het onderzoek van Heeringa en Nerbonne (2001) ook zijn bekeken.
17
4 Implementatie Het GIS wat gemaakt is voor dit onderzoek is geïmplementeerd in het software pakket ArcGIS Desktop, versie 8.1, van ESRI. Hierin zijn alle lagen data samengevoegd. In ArcMap 8.1, een onderdeel van het Desktop pakket, is een extensie beschikbaar waarmee ruimtelijke berekeningen op deze data kunnen worden uitgevoerd, de “Spatial Analyst Extension”. Met functies in deze extensie kunnen kortste routes op een oppervlak met behulp van een algoritme worden gevonden. Om deze paden tussen twee plaatsen te kunnen vinden moet worden aangegeven hoe goed over een oppervlak gereisd kan worden. Met deze informatie vindt het programma de kortste route en kan deze vervolgens ook zichtbaar maken op het scherm. In dit hoofdstuk zal stap voor stap worden uitgelegd hoe dit is toegepast in dit onderzoek. Begaanbaarheid Om aan te geven hoe begaanbaar een oppervlak is, kan aan elk van de lagen data in het GIS een waarde worden toegekend. In dit onderzoek is ervoor gekozen om dit op een schaal van 1 tot 5 te doen. Hierbij is 5 het slechtst begaanbare oppervlak, zoals de meren en de Noordzee. Dus hoe hoger het getal, hoe groter de “kosten” die men moet maken om erover te reizen. Het best begaanbare soort oppervlak zijn de wegen in het gebied, deze krijgen dan ook de waarde 1. Het oppervlak waar geen wegen, meren of rivieren over lopen krijgt de waarde 3. Dit geeft aan dat het oppervlak begaanbaar is, maar niet gemakkelijk. De rivieren moeten tenslotte ook een waarde krijgen. Deze waren lastig te beoordelen. Een rivier oversteken kost uiteraard meer moeite en tijd dan het reizen over een weg of gewone grond, maar minder dan over grotere wateroppervlakken. Hierdoor ligt de waarde 4 voor de hand. Echter, vroeger waren boten en trekschuiten (de laatste vooral in kanalen) ook een veelgebruikt transportmiddel, waardoor de waarde dichter bij die van wegen (1) zou kunnen liggen. Dan zullen de rivieren de waarde 2 moeten krijgen, tussen de waarden van de wegen en het grondoppervlak in. Om niets uit te sluiten zijn alle mogelijkheden in het onderzoek van 59 plaatsen meegenomen, door aan de rivieren de vijf verschillende waarden mee te geven. Ook is de waarde 0 aan de rivieren gegeven, om te zien of dit een betere uitkomst zou geven. De waarden die de lagen nu hebben gekregen worden in het GIS in de tabel die bij elke laag hoort opgeslagen. Deze waarden zijn een poging de begaanbaarheid in te schatten. Om vergelijkingsmateriaal te hebben zijn ook andere rasters gemaakt met andere waarden. Deze leverden echter geen beter resultaat op in de regressie-analyse en zullen daarom niet verder worden toegelicht. Rasters Op bovenstaande manier is er een rangorde tussen de lagen data ontstaan. Om nu met deze begaanbaarheidswaarden te kunnen rekenen worden de verschillende oppervlakken verdeeld in cellen. De vector modellen worden dus omgezet in raster modellen. Elke laag data krijgt cellen van gelijke grootte. De omvang van de cellen is in dit onderzoek 500 bij 500 meter. Met deze grootte kon het programma binnen een half uur resultaten (geografische afstanden) voor de 59 plaatsen produceren. Om deze te kunnen vergelijken met een nauwkeurigere schatting is voor deze steekproef ook een celgrootte van 100 meter gebruikt. Deze berekening duurde aanzienlijk langer en leverde geen noemenswaardig afwijkende resultaten op.
4 Implementatie
18
Alle lagen zijn omgezet in rasters. De lagen met de provincie-indeling en de meren bestaan uit polygonen, deze oppervlakken bestaan immers steeds uit afgesloten gebieden. De wegen en rivieren zijn polylijnen, wat wil zeggen dat het lijnen zijn, opgebouwd uit andere lijnen. Deze twee types data zijn omgezet in rasters, om per cel een begaanbaarheidswaarde te kunnen toekennen. Hiervoor is een functie beschikbaar in het GIS, waarbij de laag automatisch wordt omgezet van vector naar raster. Met de data van ESRI ontbreken nog de grotere wateren zoals de Noordzee, de Waddenzee en het IJsselmeer. Deze oppervlakken worden meegenomen door zelf een nieuwe laag te maken. Deze bestaat uit één polygon (een rechthoek), waarbinnen alle andere lagen vallen. Deze laag wordt dus altijd achter de andere lagen geplaatst, omdat anders deze lagen niet zichtbaar zouden zijn. Als hier overheen de laag met de provincie-indeling wordt geplaatst, zijn de gedeeltes van de handgemaakte laag die nog zichtbaar zijn, de wateren die nog misten. De rasters van de verschillende oppervlakken kunnen dan worden samengevoegd tot één nieuw raster wat de hele oppervlakte beslaat. Omdat alle cellen al even groot waren vallen ze automatisch op de goede plek. Hierbij moet wel rekening worden gehouden met het feit dat de ene laag belangrijker is dan de ander. Soms lopen bijvoorbeeld een deel van een weg en een Figuur 7: Een uitvergroot stukje meer over dezelfde cel. In werkelijkheid is dan een weg deel van een kostenover het meer aangelegd. Als een aantal cellen op deze manier raster. overlappen moet een van de twee waarden uit de verschillende lagen worden gekozen en aan de cel worden toegekend. In dit geval zal voor de begaanbaarheidswaarde van de weg worden gekozen, omdat de weg over het meer loopt en beter begaanbaar is dan het water. Dit geldt ook voor de zelfgemaakte laag, die het minst belangrijk is. De volgorde van de lagen wordt in het programma aangegeven door de volgorde waarin de rasters worden aangeboden. Het resultaat van het samenvoegen van alle rasters is dan een laag die voor het hele gebied de gradaties van begaanbaarheid aangeeft. Dit raster zal voortaan het kostenraster worden genoemd. Een deel van dit raster is te zien in figuur 7. De zwarte cellen zijn in dit geval wegen, de lichtere cellen de rivieren, nog iets lichter is het grondoppervlak en de lichtste cellen stellen water voor (meren in dit geval). De rivieren hebben hier dus de waarde 4, waardoor ze een andere kleur dan de wegen krijgen en minder belangrijk zijn. De volgende stap is nu een weg zoeken tussen de verschillende plaatsen en daarbij rekening houden met de begaanbaarheid van het oppervlak aan de hand van de waarden uit dit raster. Kortste routes Om aan de hand van het ontstane raster de kortste routes te gaan bepalen heeft de functie in het GIS een zoekalgoritme nodig en per plaats twee nieuwe rasters van het gebied. Algoritme Om de rasters te kunnen maken moet de computer weten hoe de kortste route moet worden bepaald. Het programma maakt gebruik van een algoritme wat aangeeft welke cel uit een lijst mogelijke volgende cellen gekozen moet worden. Het gebruikte algoritme heet het Dijkstra algoritme en wordt onder andere beschreven in Wise (2002:180).
4 Implementatie
In figuur 8a is een voorbeeld van een kostenraster te zien, met voor elke cel de kosten om over die cel te reizen. Het grijze vakje is het startpunt. Het programma kan aan de hand van dit kostenraster een opgeteld kostenraster maken, met daarin voor elke cel de kosten die gemaakt moeten worden om in die cel te komen, vanuit een bepaald startpunt. In het opgetelde kostenraster krijgt het punt waar gestart wordt met de route de waarde 0, het kost immers niets om daar te komen. Vanuit het startpunt worden vervolgens alle direct bereikbare, omliggende cellen bekeken. De opgetelde kosten voor het reizen vanuit dit startpunt naar elk van deze cellen worden in een gesorteerde lijst gezet, met het kleinste getal vooraan. Deze kosten zijn voor ons voorbeeld te zien in figuur 8b (de formules voor het berekenen van deze kosten worden hieronder besproken). Het kleinste getal (de laagste kosten) wordt toegevoegd aan de bijbehorende cel, waarvan nu zeker is dat de laagste opgetelde kosten zijn gevonden. In figuur 8c is dit het grijze vakje rechts van het startpunt, want in figuur 8b blijkt dat deze cel de laagste kosten heeft. Nu hebben dus alleen de cel van het startpunt en deze nieuwe cel een vaste waarde. Voor deze nieuwe cel worden ook van alle aangrenzende cellen de kosten om ernaartoe te gaan berekend. Deze nieuwe lijst waarden wordt aan de oude lijst toegevoegd. Als er, door de uitbreiding, voor een bepaalde cel die al in de lijst voorkwam, een nieuwe waarde is berekend, wordt deze
19
5
5
4
5
4
1
1
3
5
2
3
2
3
3
4
2
a 4,2
3
3,5
2,5
0
1
4,2 1,5 2,8
b 4,2
3
2,5
0
2,5 5,2 1
3
4,2 1,5 2,8 3,1
c
vergeleken met de oude. Is dit oude getal hoger, dan wordt deze Figuur 8: Toepassing van het algoritme door de nieuwe waarde vervangen, want er is nu een route naar deze cel gevonden met lagere kosten. Is de oude waarde lager, dan verandert er niets. Daarna wordt uit de lijst waarden weer de kleinste genomen en de bijbehorende cel in het opgetelde kostenraster krijgt deze kosten. Er wordt weer gekeken naar de aangrenzende cellen van deze derde cel en op deze manier wordt het gebied steeds verder uitgebreid, totdat alle cellen in het nieuwe raster een waarde hebben.
kosten cel1 - 2 = ( kosten cel1 + kosten cel2 ) / 2 diagonale kosten cel1 - 2 = v2 (( kosten cel1 + kosten cel2 ) / 2 ) kosten cel1 - 3 = kosten cel1 - 2 + (( kosten cel2 + kosten cel3 ) / 2 ) diagonale kosten cel1 - 3 = kosten cel1 - 2 + v2 (( kosten cel2 + kosten cel3 ) / 2 ) Figuur 9: De formules voor het berekenen van de kosten.
Rasters Het eerste raster van de twee wordt gebruikt voor het bepalen van de totale kosten die gemaakt moeten worden om vanuit een bepaald punt op de kaart (een plaats, bijvoorbeeld Grouw) naar een ander punt (het eindpunt) te komen. De cellen in dit raster bevatten steeds de opgetelde kosten die gemaakt worden als er vanuit die cel naar de plaats wordt gereisd. Deze kosten worden berekend door alle begaanbaarheidswaarden van de cellen in het kostenraster die men tegenkomt bij het reizen van de cel naar de plaats bij elkaar op te tellen. Als er van een cel 1 naar een direct aangrenzende cel 2 wordt gereisd, zijn de kosten van deze reis de opgetelde waarden van deze twee cellen, gedeeld door twee. Een reis naar een cel schuin boven of onder
4 Implementatie
20
de cel wordt berekend door de berekening hierboven te vermenigvuldigen met de wortel van 2 (ongeveer 1.414216). Als de reis daarna verder gaat naar een derde cel, wordt bij de uitkomst van de eerdere som een zelfde berekening opgeteld, dan voor de cellen 2 en 3. De vier formules die nodig zijn, staan in figuur 9. Als er op het scherm van de computer in het resulterende raster wordt geklikt verschijnt er een schermpje met hierin de kosten voor het reizen van dit geselecteerde punt naar het eindpunt. Om een voorbeeld van een dergelijk raster te geven is er een Figuur 10: Het opgetelde kostenraster opgeteld kostenraster voor de plaats Grouw gemaakt, voor Grouw. als onderdeel van de steekproef van 59 plaatsen. Dit raster is te zien in figuur 10. In deze figuur zijn de waarden onderverdeeld in klassen die elk een andere kleur hebben gekregen. Van licht naar donker worden de kosten om naar het eindpunt te reizen steeds hoger. Op de figuur is goed te zien welke gebieden hoge kosten hebben, zoals de donkere vlek in het IJsselmeer. De lijnen zijn de wegen rondom de plaatsen in de steekproef. Het tweede raster voor de functie is een raster met reisrichtingen. Dit raster heeft het programma alleen nodig om paden op het scherm te kunnen tekenen. Elke cel in dit raster bevat een waarde die de richting aangeeft waarin gereisd moet worden om vanuit die cel de kortste route Figuur 11: naar het startpunt (Grouw) terug te vinden. Er zijn acht richtingen: recht Waarden voor naar boven, naar beneden, naar links of naar rechts en de diagonale de richtingen. varianten van deze vier. Elke cel krijgt een waarde uit de reeks 0 tot en met 8, die de richtingen voorstellen (zie figuur 11). Als een cel dus bijvoorbeeld de waarde 5 heeft, betekent dit dat als men in deze cel komt, de volgende cel van de route meteen links hiervan zal liggen. De waarde vijf geeft dus aan dat er naar links gereisd moet worden. Een cel met de waarde 0 heeft geen richting, hier is het doel bereikt. 6 5 4
7 0 3
8 1 2
Met behulp van dit richtingenraster kunnen dan de paden van alle plaatsen worden getekend. Het resultaat voor Grouw is te zien in figuur 12. Opvallend aan deze figuur is dat het lijkt alsof toch de afsluitdijk is meegenomen, aangezien er een pad loopt op een vergelijkbare route, van Den Oever over het IJsselmeer naar Grouw. Verder worden waar mogelijk de routes van de wegen gevolgd. Programmeren Om nu voor alle plaatsen in het onderzoek de kortste paden naar alle andere plaatsen te vinden, zou het bovenstaande proces 59 keer met de hand moeten worden uitgevoerd. Dit zou erg veel tijd kosten en om dit sneller te kunnen doen is er een script voor geschreven. Hierbij is de programmeertaal Microsoft Visual Basic, versie 6.0 gebruikt. Dit script voert de hierboven beschreven stappen uit voor elk van de 59 plaatsen. Hierbij worden eerst voor alle plaatsen opgetelde
Figuur 12: De kortste paden naar Grouw.
4 Implementatie
21
kostenrasters gemaakt. Dan worden de onderliggende cellen van de overige plaatsen op het kostenraster gelocaliseerd. De waarden van deze cellen worden in een tabel opgeslagen. Deze tabel heeft als kolom- en rijnamen de namen van de plaatsen, zodat steeds in een cel de afstand tussen twee plaatsnamen kan worden afgelezen. Overigens wordt maar de helft van de tabel gevuld, aangezien maar een keer de afstand van bijvoorbeeld Urk naar Grouw hoeft te worden opgeslagen (kolom 3, rij 11), en niet ook nog eens de afstand van Grouw naar Urk (kolom 11, rij 3). Statistiek Om de resultaten van de bovenstaande bewerkingen te kunnen vergelijken met de dialectafstanden, moeten de gegevens in een statistisch programma worden ingelezen. Alle afstanden uit de tabellen zijn in een lange rij onder elkaar gezet. De twee rijen zijn in kolommen ingelezen in een tabel in S-Plus 2000, een programma wat statistische bewerkingen op grote hoeveelheden data kan uitvoeren. Vervolgens is hier een regressie-analyse op uitgevoerd om te kunnen zien hoeveel van de fonetische afstand door de geografische afstand wordt verklaard. De resultaten hiervan worden beschreven in hoofdstuk 5.
22
5 Resultaten In het onderzoek van Heeringa en Nerbonne (2001) wordt gekeken of er correlatie bestaat tussen de geografische en de dialectologische afstanden. Dit zou dan een aanwijzing kunnen opleveren ter ondersteuning van het begrip “dialect continuüm”. Dit begrip gaat ervan uit dat in een bepaald gebied de verschillen tussen de gesproken dialecten zo geleidelijk zijn, dat er geen harde dialectgrenzen zijn aan te wijzen. In het onderzoek blijkt 65 procent van het berekende verschil tussen de dialecten te kunnen worden verklaard door de geografische afstand, wat een hoog percentage is. Van de verschillende statistische modellen kan een logaritmische formule de dialectverschillen in het onderzoek het beste voorspellen, aan de hand van de geografische afstanden. Dit komt overeen met de opvatting dat dialectvariantie toeneemt als de geografische afstand toeneemt, tot een zekere hoogte. Als de afstand groot genoeg wordt zal het verschil niet meer zo sterk toenemen als in het begin, bij het startpunt. Een geografische afstand ver weg van een plaats levert een kleinere variantie op dan dezelfde afstand dichterbij de plaats. Hieronder zullen voor elk van de drie steekproeven uit dit onderzoek (met 21, 59 en 244 plaatsen in Nederland) de resultaten worden gegeven van regressie-analyse. Rechte lijn In bijlage 1 zijn de 21 plaatsen uit deze steekproef in Nederland getekend. De dialectafstanden, de reisafstanden en de hemelsbrede afstanden tussen deze plaatsen zijn in kolommen naast elkaar gezet en met elkaar vergeleken in S-Plus. In tabel 1 zijn de correlaties tussen deze kolommen af te lezen. dialect reisafstand hemelsbreed
dialect 1.00 0.80 0.82
reisafstand 0.80 1.00 0.99
hemelsbreed 0.82 0.99 1.00
Tabel 1: Correlaties van de 21 plaatsen.
In deze tabel is te zien dat de correlatie van de reisafstanden en de hemelsbrede afstanden met de dialectdata niet veel van elkaar verschillen (respectievelijk 0.80 en 0.82). Bovendien zijn deze waarden vrij hoog. Gekwadrateerd leveren ze percentages van respectievelijk 64 en 67 procent op. Dit houdt in dat de hemelsbreed gemeten afstanden 67 procent van de dialectverschillen kunnen verklaren en de reisafstanden 64 procent. In deze steekproef levert de geschatte reisafstand dus geen betere correlatie op dan de hemelsbrede afstand. Overigens is in deze tabel ook af te lezen dat de reisafstand en de hemelsbrede afstand een zeer hoge correlatie (0.99) hebben en dus heel erg op elkaar lijken. Dit zou een indicatie kunnen zijn dat de geschatte geografische afstand nog niet gedetailleerd genoeg geschat is, dan zou immers het verschil wel groter moeten zijn. Een andere conclusie zou kunnen zijn dat de hemelsbrede afstand al nauwkeurig genoeg was, doordat de wegen grotendeels dezelfde route volgen. Vervolgens is gekeken naar de regressie. Er is gebleken dat met een logaritmische regressielijn de dialectverschillen redelijk goed voorspeld kunnen worden, aan de hand van de geografische afstanden. In figuur 13 zijn de reisafstanden uitgezet tegen de dialectdata, met daarin de regressielijn. Het percentage van de dialectverschillen wat verklaard kan worden is in dit geval 75 procent. In figuur 14 is een zelfde grafiek te zien
5 Resultaten
23
met daarin de hemelsbrede data uitgezet tegen de dialectverschillen. Deze logaritmische formule toegepast op de afstanden kan 78 procent van de dialectvariatie verklaren. Opnieuw is er dus geen verbetering waar te nemen als de verschillende afstanden worden vergeleken. De hemelsbrede afstanden kunnen zelfs drie procent meer van de variantie verklaren dan de reisafstanden.
Figuur 13: Voor de 21 plaatsen uit bijlage 1 is het logaritme van de reisafstand uitgezet tegen de dialectverschillen, met daarin de regressielijn (r = 0.87, r2 = 0.75).
Figuur 14: Voor de 21 plaatsen uit bijlage 1 is het logaritme van de hemelsbrede afstanden 2 uitgezet tegen de bijbehorende dialectverschillen, met daarin de regressielijn (r = 0.88, r = 0.78).
5 Resultaten
24
Rond het IJsselmeer Voor deze steekproef van 59 plaatsen (zie bijlage 2) is geëxperimenteerd met de reiskosten voor rivieren. Deze kosten waren moeilijk te schatten (zie de beschrijving van de kostenrasters in het hoofdstuk “Implementatie”). Daarom zijn zes verschillende kosten (0 tot en met 5) in aparte rasters aan de rivieren toegekend. Er zijn dan ook zes verschillende kolommen met geografische afstanden te zien in tabel 2. Alleen de correlatie van de verschillende afstanden met de dialectafstanden zijn in de tabel opgenomen, niet de correlatie onderling, deze is immers minder interessant en zou een grote, onoverzichtelijke tabel opleveren. dialect
rivier 0 0.27
rivier 1 0.46
rivier 2 0.47
rivier 3 0.48
rivier 4 0.47
rivier 5 0.47
hemelsb 0.51
Tabel 2: Correlaties van de 59 plaatsen, berekend met een kostenraster met celgrootte 500.
Omdat uit de tabel blijkt dat de correlatie tussen de geschatte reisafstanden en de dialectafstanden het hoogst is bij als de rivieren de kostenwaarde 3 krijgen (kolom “rivier 3”), is verder gewerkt met deze waarde, ook in de andere steekproeven. Het verschil met de andere waarden is echter te verwaarlozen, behalve de waarde van “rivier 0”, deze correlatie is erg laag in vergelijking met de rest. De logaritmische regressielijn voor de data is getekend in de figuren 15 en 16. Het percentage van de dialectvariatie wat bij deze 59 plaatsen door de geschatte reisafstand wordt verklaard is hier 28 procent. Dit is beduidend lager dan het percentage bij de steekproef met 21 plaatsen op een rechte lijn. Hemelsbreed is het percentage hier 30 procent, opnieuw een opmerkelijk verschil met de reisafstanden. Er is met deze steekproef geëxperimenteerd met celgrootte, door naast de celgrootte van 500 ook een grootte van 100 te gebruiken. Er is een tweede tabel met resultaten tot stand gekomen (tabel 3). dialect
dialect 1.00
reisafstand 0.48
hemelsbreed 0.51
Tabel 3: Correlaties van de 59 plaatsen, waarbij de reisafstanden zijn berekend met een kostenraster met celgrootte 100.
Als tabel 2 met tabel 3 wordt vergeleken blijkt dat er na de afronding geen verschil is waar te nemen. Het verschil is voor de afronding slechts een paar duizenden. De percentages van de logaritmische verhouding tussen de getallen zijn ook bijna hetzelfde gebleven. Voor de andere steekproeven is deze celgrootte niet meer toegepast, aangezien het weinig zal opleveren.
5 Resultaten
Figuur 15: Voor de 59 plaatsen uit bijlage 2 is het logaritme van de reisafstand uitgezet tegen de dialectverschillen, met daarin de regressielijn (r = 0.52, r2 = 0.28).
Figuur 16: Voor de 59 plaatsen uit bijlage 2 is het logaritme van de hemelsbrede afstand uitgezet 2 tegen de dialectverschillen, met daarin de regressielijn (r = 0.55, r = 0.30).
25
5 Resultaten
26
Nederland Tot slot alle plaatsen in Nederland. Dit zijn er 244 (zie bijlage 3). Opnieuw zijn de correlaties berekend en in onderstaande tabel (4) gezet. Als de logaritmische regressieformule opnieuw wordt toegepast, is het percentage van de variantie wat men op basis van de reisafstanden kan verklaren in dit geval 44 procent. De hemelsbrede afstanden verklaren in deze steekproef 43 procent, wat een iets kleiner getal is. Bij deze steekproef lijken de geschatte afstanden dus meer van de dialectvariatie te kunnen verklaren dan in de steekproef van 59 plaatsen. Bovendien is het verschil met de hemelsbrede afstanden kleiner. De logaritmische regressielijnen zijn voor de hemelsbrede en de reisafstanden van deze plaatsen te zien in de figuren 17 en 18. dialect reisafstand hemelsbreed
dialect 1.00 0.60 0.59
reisafstand 0.60 1.00 0.92
Tabel 4: Correlaties van de 244 plaatsen.
hemelsbreed 0.59 0.92 1.00
5 Resultaten
Figuur 17: Voor de 244 plaatsen uit bijlage 3 is het logaritme van de reisafstand uitgezet tegen de dialectverschillen, met daarin de regressielijn (r = 0.66, r2 = 0.44).
Figuur 18: Voor de 244 plaatsen uit bijlage 3 is het logaritme van de hemelsbrede afstand uitgezet 2 tegen de dialectverschillen, met daarin de regressielijn (r = 0.66, r = 0.43).
27
28
6 Conclusie Samenvattend kan gezegd worden dat de hypothese dat dit onderzoek de dialectvariatie aan de hand van geschatte geografische afstanden beter kan verklaren, niet is uitgekomen. De ruwe schatting van de afstanden die gemaakt wordt in het onderzoek van Heeringa en Nerbonne (2001) blijkt niet eenvoudig te kunnen worden verbeterd, wat aangeeft dat deze schatting al vrij goed is. De resultaten van het onderzoeksgebied met de 59 plaatsen rond het IJsselmeer leverden niet de verwachte resultaten op en weken ook veel af van de andere twee steekproeven. Omdat dit gebied grotendeels uit water (het IJsselmeer en het Waddengebied) bestaat, meer dan als heel Nederland wordt bekeken, zou de kostenwaarde van die oppervlakte in verhouding tot de andere waarden de oorzaak kunnen zijn. Het levert wellicht betere resultaten op als er nog meer wordt gevarieerd met deze waarde, of zelfs met alle waarden die aan de oppervlaktes kunnen worden toegekend. Een geografische verklaring zou kunnen zijn dat er nog te weinig rekening is gehouden met de geografie en hoe deze er in de geschiedenis van Nederland heeft uitgezien. Wellicht levert een historisch onderzoek naar de wegenbouw in Nederland en hoe dit wegennet is veranderd in de loop van de tijd wel een heel ander beeld op en kan er dan een hogere correlatie geconstateerd worden. Ook kunnen meer geografische elementen in het onderzoek worden meegenomen, zoals bossen. Ook zou de grootte van de plaatsen in het onderzoek een factor kunnen zijn die meegenomen moet worden. Een plaats met een groter aantal inwoners heeft ook een grotere invloed op andere plaatsen. Bovendien reizen mensen sneller naar grotere plaatsen. Nieuwe elementen in een taal worden ook eerder in plaatsen met meer inwoners gesignaleerd. Op die manier kunnen de dialectafstanden tussen deze grote plaatsen kleiner zijn dan de dialectafstanden tussen een grote plaats en kleine plaatsen, ook als deze kleinere plaatsen geografisch gezien dichterbij liggen.
29
7 Bibliografie Allen, M. P., Understanding Regression Analysis, 1997 Berry, J. K., Spatial Reasoning For Effective GIS, 1995 Chambers, J.K. & P.Trudgill, Dialectology, Second Edition, 1998 Demers, M. N. , Fundamentals of Geographic Information Systems, Second Edition, 2000 Goossens, J., Inleiding tot de Nederlandse Dialectologie, 1977 Heeringa, W. & J. Nerbonne, Dialect Areas and Dialect Continua, Language Variation and Change, 2001 Jacobs, N. G. & J. C. Loon, Yiddish Linguistic Geography and the Application of Geographic Information System (GIS) Technology, Verhandlungen des Internationalen Dialektologenkongresses, 1990 Jones, C., Geographical Information Systems and Computer Cartography, 1997 Kretzschmar, W. A., Quantitative Areal Analysis of Dialect Features, Language Variation and Change, vol. 8, p. 13-39,1996 Lee, J. & W.A. Kretzschmar, Spatial Analysis of linguistic data with GIS functions, IJGIS 1993, vol. 7, no. 6. Nerbonne, J. & W. Heeringa, Computationele vergelijking en classificatie van dialecten, Taal en Tongval, 1998 Parsons, E., The Essential Guide to GIS, 1994 Razavi, A. H., ArcView GIS/Avenue Developer’s Guide, Second Edition, 1997 Strand van Hees, G. L. , Globale en Lokale Geodetisch Systemen, 1997 Trudgill, P., On Dialect: Social and Geographical Perspectives, 1983 Wise, S., GIS Basics, 2002
30
8 Bijlagen Bijlage 1: De 21 plaatsen in Nederland uit de eerste steekproef
31
Bijlage 2: De 59 plaatsen uit de tweede steekproef
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Aalsmeer Amersfoort Bolsward De Rijp Den Burg Den Oever Enkhuizen Ferwerd Franeker Grouw Hallum Harlingen Hasselt Hattem Heerenveen Heerhugowaard
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Hindeloopen Hollum Hoorn Huizen IJlst IJsselmuiden Kampen Koog aan de Zaan Koudum Kuinder Langweer Leeuwarden Lemmer Loenen Makkum
32 33 34 35 36 37 38 39 40 41 42 43 44 45
Midsland Monnickenwerf Nes Nunspeet Oldebroek Oldemarkt Oost-Vlieland Oosterend Opperdoes Oudeschoot Putten Schagen Sexbierum Sint Annaparochie 46 Sneek
47 48 49 50 51 52 53 54 55 56 57
Soest Spakenburg Spannum Staveren Steenwijk Stiens Tjalleberd Urk Volendam Vollenhove WestTerschelling 58 Workum 59 Zalk
32
Bijlage 3: De 244 plaatsen uit de derde steekproef
Aalsmeer Aalten Almelo Almkerk Amersfoort Anjum Appelscha Assen Bakel Bakkeveen Barneveld Batmen Bedum Beek Beets Beilen Bellingwolde Bergentheim Bergum Berkel Bierum Bolsward Born Breskens Brielle Bronkhorst Budel Clinge Coevorden Dalfsen De Rijp Dedemsvaart Deil Delden Delft Den Burg Den Dungen Den Oever Dieren Doetinchem Dokkum Dongen Donkerbroek Doorn Driebergen Drongelen Druten Dussen Dwingelo Echt Eelde
Eenrum Eext Egmond aan Zee Eibergen Emmen Enkhuizen Ferwerd Fijnaart Franeker Geldrop Gemert Goes Goirle Gramsbergen Grijpskerk Groenendijk Groenlo Groesbeek Grolloo Groningen Grouw Haaksbergen Haarlem Hallum Hardenberg Hardinxveld Harlingen Hasselt Hattem Heemskerk 's-Herenberg Heerenveen Heerhugowaard Helmond Hengelo Herewaarden Hindeloopen Hoenderlo Hollandseveld Hollum Holwerd Hoogezand Hoogkerk Hoorn Horn Huizen IJlst IJsselmuiden Jubbega Kampen Kapelle
Katwijk aan Zee Kerkrade Klaaswaal Koekange Kollum Koog aan de Zaan Koudekerk Koudum Kuinder Lamswaarde Langeraar Langeveen Langweer Laren Lattrop Leeuwarden Lekkerkerk Lemele Lemmer Lochem Loenen Loon op Zand Makkum Marum Meerssen Meiel Middelburg Middelharnis Midsland Monnickenwerf Nes Niekerk Nieuw Schoonebeek Nieuwveen Noordwolde Norg Nunspeet Odoorn Oirschot Oldebroek Oldemarkt Oldenzaal Ommen Oost-Vlieland Oosterend Oosterhout Ootmarsum Opperdoes
Orvelte Ossendrecht Oudega Oudenbosch Oudeschoot Oudewater Papendrecht Peize Polsbroek Putten Radewijk Ravenstein Renesse Renkum Riethoven Rijkevoort Rijssen Roodeschool Roosendaal Roswinkel Rottevalle Rouveen Ruinen Schagen Scheemda Schiermonnikoog Schoonebeek Sexbierum Sint Annaparochie Sint Oedenrode Sittard Sneek Soest Spakenburg Spankeren Spannum Stadskanaal Staphorst Staveren Stedum Steenbergen Steenwijk Stiens Surhuisterveen Susteren Tegelen Tietjerk Tilligte
Tjalleberd Tubbergen Ulft Ureterp Urk Usselo Utrecht Vaassen Vasse Veendam Veenendaal Veenwouden Venlo Venray Vianen Volendam Vollenhove Vreeswijk Vriezenveen Wagenborgen Wanssum Warmond Wateringen Wessingtange West-Terschelling Westergeest Westkapelle Wierden Wijhe Wijk bij Duurstede Wilp Winschoten Workum Woudenberg Zalk Zandeweer Zeeland Zelhem Zevenaar Zevenbergen Zierikzee Zoetermeer Zoutkamp Zuidbarge Zundert Zwinderen