Licht in de Duisternis Online visualisatie van geografische data en analyse met behulp van mapserver Ren´e van der Ark S1331639
[email protected] Versie 1.2 september 2006
Rijksuniversiteit Groningen Informatiekunde
1 1.1
Inleiding Online visualisatie van de correlatie tussen dialectafstand en hemelsbrede afstand
Zoals in het eerste hoofdstuk van Jelle Wouda wordt aangegeven, zijn met behulp van de Levenshteinmethode voor 186 onderzoekslocaties onderling de fonetische afstanden berekend[7]. Deze data zijn vervolgens gecorreleerd aan de hemelsbrede afstanden tussen de plaatsen onderling. Dit onderdeel gaat over het online visualiseren van de data die is gebruikt bij het onderzoek naar die correlatie. De kernvraag is hoe, op een inzichtelijke wijze, de data hieruit (online) in beeld gebracht dienen te worden zodat er relevante constateringen gemaakt kunnen worden. Voor het online toegankelijk maken van de projectdata wordt gebruik gemaakt van het serverside applet mapserver[8]. In zijn meest basale vorm is deze applicatie een cgi-script dat gebruikt maakt van het shapefile-formaat van het Environmental Systems Research Institute (ESRI) om kaarten te transformeren naar tijdelijke png-bestanden[13]. Deze kunnen online worden weergegeven, al dan niet met behulp van een html-template. Om de relevantie van de data op verscheidene manieren te verduidelijken wordt gebruik gemaakt van het Delaunay-algoritme voor de berekening van de meest nabije buurtlocaties in combinatie met Voronoi tesselatie om begrenzingen tussen deze gebieden vast te leggen[12][15]. Door het gebruiken van verschillende kleuren en/of lijndiktes kan correlatie zichtbaar worden gemaakt.
1.2
Beschouwing en methodiek
De aanpak van het deelproject (onder deelproject wordt verstaan de visualisatie van het volledige onderzoek en hiernaar zal in het vervolg als danig gerefereerd worden) zal in vier onderdelen behandeld worden. Om te beginnen zal er in algemeen beschouwde vorm worden omschreven wat er wordt verwacht van de eindvisualisatie, gegeven de data voorhanden. Dan volgt er een uitleg over de gekozen software en visualisatietechnieken. Ten derde wordt de werkwijze voor dit deelonderwerp beschreven, waarbij problemen die ondervonden en gevonden oplossingen de leidraad zullen vormen. Als laatste worden de constateringen die resulteren uit de visualisatie onder de loep genomen; in het bijzonder de constateringen aangaande het totale
2
onderzoek, maar ook die aangaande de doelstelling in het reeds boven geformuleerde deelonderwerp. In de conclusie zal, naast de verdediging van de relevantie van dit deelonderzoek, ook gespeculeerd worden over de mogelijkheden tot het toepassen van soortgelijk werk bij andere onderzoeken en over het in meerdere mate interactief maken van het huidige project.
2
Beschouwing en Methodiek
Doelstelling ten behoeve van visualisatie van geografische (en lingustische) data In het boek Principals of Geographical Information Systems worden geografische datamodellen als formele abstracties van de realiteit[3].Dit impliceert dat ´e´en van de belangrijkste doelstellingen van een geografisch informatiesysteem (GIS) de inzichtelijkheid zou moeten zijn. Onder het scheppen van inzichtelijkheid wordt in dit verband verstaan het intutief begrijpelijk maken van abstracte data voor de gebruiker van het eindproduct. Ter verduidelijking volgt nu een omschrijving van hoe het proces van verwerking van rauwe data tot inzichtelijke visualisatie kan worden omschreven. In zijn artikel New Theoretical Research Trends in Cartography haalt Sluter het Communications Paradigm aan, dat in de jaren zeventig werd geformuleerd als de standaard voor het ontwerpen van cartografische projecten[11].
Figure 1: Het traditionele Communications Paradigm volgens Sluter
Sluter vervolgt met het omschrijven van de problematiek die samenhangt met deze aanpak, omdat er noise ontstaat bij elke stap van dit proces en hij stelt modernere methoden van beschouwing voor.[10] De student beschouwt 3
echter het traditionele paradigma als meest relevant voor dit deelproject, omdat het voorgestelde modernere paradigma niet aansluit bij de werkwijze die in dit onderzoek wordt gebruikt. Uitgaande van het Communications Paradigm zou de werkwijze als volgt moeten verlopen: constateer een fenomeen, vergaar er data over, interpreteer de data, visualiseer de data in een kaart, interpreteer de data als lezer van de kaart. In het geval van dit onderzoek is het fenomeen reeds bekend. De data zijn eveneens reeds vergaard en interpretatie van de data vindt plaats binnen de statistische analyse. De interessante stadia voor dit deelproject zijn het verwerken van deze interpretatie tot een kaart en het uitlezen van de data in deze kaart. Daarom volgt nu een korte herhaling van de data voorhanden, gevolgd door de wijze waarop deze data tot kaart verwerkt worden. Voor alle 186 onderzoekslocaties is de dialectafstand volgens de Levenshteinmethode berekend, alsmede de Euclidische afstand. Van de onderzoekslocaties zijn onderlinge paren gemaakt, resulterend een matrix van 17.205 paren. Op basis van deze paren wordt de correlatie tussen onderlinge hemelsbrede afstand en dialectafstand van twee locaties getoetst. Deze correlatie heeft de vorm van een residuele waarde. Als deze residuen boven nul uitvallen dan is het dialectverschil tussen twee gebieden groter dan men zou voorspellen op basis van de onderlinge hemelsbrede afstand. Dit onderzoek richt zich enkel op de paren die elkaars meest nabije buur zijn. Om te bepalen welke locaties elkaars meest nabije buur zijn wordt het Delaunay-algoritme gebruikt. Op basis van de zogenaamde Delaunaylijnen die hierdoor worden gegenereerd kunnen grenzen getrokken worden tussen onderzoekslocaties. Dit heet Voronoi tesselatie. Deze grenzen worden getrokken zodat er tussen twee onderzoekslocaties het dialectverschil kan worden getoond. De fase van interpretatie naar kaart is dus het tekenen van deze begrenzingen.
3
Delaunay, Voronoi en Monmonier
In het onderzoek van Manni et al., werd, om residuen van de correlatie tussen achternamen en dialectverschillen in beeld te brengen, gebruik gemaakt van dezelfde methode als in dit onderzoek[9]. Manni gebruikt hierbij Delaunaylijnen, Voronoitesselatie en het algoritme van Monmonier. Net als bij Manni, wordt in het project van de studenten eerst het algoritme van Delaunay toegepast om de meest nabije buren te vinden in de groep onderzoekslocaties. In dit project is gebruik gemaakt van het programma
4
triangle, waarover meer in de volgende sectie over handelswijzen[12]. Ten tweede wordt triangle gebruikt om Voronoitesselatie tussen de onderzoekslocaties te bereiken. Aan de hand van Figuur 2 kan worden uitgelegd wat het Delaunay-algoritme doet. Men neme een willekeurige graaf, in dit geval met 6 punten (A). Beginnende bij punt 1 wordt voor punt 1 afgegaan welke buurpunten er zijn (B). Van deze buren wordt de meest nabije geselecteerd en de rest verworpen (C). Dit proces herhaalt zich voor punt 2 (D, E) totdat er voor alle punten in de graaf de meest nabije buren zijn gevonden, resulterend in Delaunaydriehoekstesselatie (F).
Figure 2: Delaunay selectie Het algoritme van Delaunay is om twee redenen nuttig. Ten eerste om de meest nabije paren te vinden, waarop het onderzoek zich richt. Door de volledige matrix van onderzoekslocaties te filteren op enkel de paren die voorkomen uit het Delaunay-algoritme blijven de 538 paren relevant aan dit onderzoek over. Ten tweede is het nuttig als een manier om bepaalde constateringen te visualiseren. Hierbij moet men denken aan gebieden waarbij onderlinge dialectverschillen laag zijn, waardoor blijk wordt gegeven van een hogere cohesie tussen bepaalde onderzoekspunten. Om de begrenzingen tussen de onderzoeksgebieden te kunnen weergeven, wordt, net als bij Manni et al, gebruik gemaakt van het Voronoi algoritme[15]. Dit algoritme genereert polygonen rond de onderzoekslocaties en ook hierin wordt voorzien door het programma triangle. 5
Figure 3: Eindresultaat Delaunay-algoritme op testlocaties in dataset
Zoals in figuur 4 is af te lezen bevinden de begrenzingen zich tussen de zwaartepunten (A) tussen drie onderzoeksgebieden, afhankelijk van de onderlinge afstand van de omliggende punten. De dikkere grijze lijnen in figuur 4 zijn de Voronoibegrenzingen, die de dunnere zwarte Delaunaylijnen kruisen. In de gebruikte dataset zijn de Voronoi- en Delaunaylijnen aan elkaar gekoppeld.
Figure 4: Voronoibegrenzingen
6
Figure 5: Eindresultaat Voronoi tesselatie op testlocaties in dataset
Het uiteindelijke doel van het project, wederom als bij Manni et al., is om grenslijnen te trekken volgens het maximum difference algoritme van Monmonier. Deze grenzen zouden dan een indicatie kunnen zijn van de begrenzingen van grotere dialectgebieden en, aangezien deze grenzen groter zouden zijn dan voorspeld op basis van hemelsbrede onderlinge afstand, zou er een indicatie zijn van een geografische barri`ere[10]. Op het moment van voltooien van dit deelproject is er nog geen implementatie van het algoritme van Monmonier. Daarom wordt er beperkt tot het kijken naar onderlinge dialectverschillen en residuen tussen paren.
4
Werkwijze
De implementatie van de doelstellingen van dit project bestond uit vier stadia. Ten eerste is er in het servlet mapserver een geschikte webgeori¨enteerde visualisator van geografische data gevonden[8]. Ten tweede is de ruwe dataset, vooralsnog alleen beschikbaar in tekstformaat, omgezet naar pasklare data voor mapserver. Hier werden, met behulp van het bovengenoemde programma triangle, het Delaunay- en Voronoi-algoritme toegepast. 7
Vervolgens werden de relevante data gekoppeld aan de output van triangle. Tot slot werd de website aangepast aan de projectwensen. Hieronder zullen de stadia stapsgewijs worden uitgediept.
4.1
Mapserver en de Shapefile
Mapserver is, in zijn meest basale vorm, een cgi-script dat ESRI shapefiles converteert naar png-plaatjes, al dan niet met behulp van een eenvoudige query[13]. In eerste instantie werd de optie tot het gebruik van zelf gegenereerde .svg-bestanden (scalable vector graphics-bestanden) in plaats van mapserver overwogen, met het oog op tijdsbesparing. Deze optie werd snel verworpen, toen bleek dat het werken met mapserver minder complex was dan vooraf aangenomen en omdat de software van mapserver zeer compleet is. Er zal nu een korte omschrijving van de achtergrond van het programma mapserver volgen. Naar zeggen van de website van de ontwikkelaar is mapserver niet een compleet GIS-systeem, maar eerder een goede manier om ruimtelijke data . . . op het web in beeld te brengen[8]. Het is ontwikkeld door de Universiteit van Minnesota voor het Fornet Project met samenwerking van NASA en wordt momenteel gehost door TerraSip[2]. Een ander voorbeeld van het gebruik van mapserver is de website van het Minnesota DNR Recreation Compass[4]. Om wat meer inzicht te krijgen in de werking van mapserver, is inzicht in de definitie van de shapefile essentieel. Het shapefile-formaat is in feite een combinatie van op zijn minst drie bestanden: een dbase-bestand, waarin de abstracte data zoals in het geval van dit project de residuen staan opgeslagen, een binair .shp-bestand, waarin de beschrijving van alle punten, lijnen, of polygonen staat en een binaire index, of .shx-bestand, met daarin de geheugenlocaties van alle records van het .shp bestand. Wanneer de gewenste bestanden op de juiste manier worden aangeleverd, kan er met behulp van mapserver de relevante data uit het dbase-bestand worden gefilterd en gekoppeld aan de vormendata in het .shp-bestand. Mapserver maakt, naast shapefiles, gebruik van zogenaamde mapfiles en een html-template. De mapfile is een beschrijving van de verschillende datalayers, die in beeld gebracht dienen te worden. In deze mapfile kan een simpele query worden opgenomen.
8
Figure 6: Sample van mapfile. Beschrijft de laag van landen van de wereld
De variabelen in figuur 6 hebben de volgende beduiding: LAYER begin laag NAME naam laag TYPE soort vormen STATUS DEFAULT deze laag wordt altijd getoond DATA naam brondatabestand (shapefile + dbf) CLASS begin blok voor klassering van de laag STYLE begin blok voor stijl van de laag OUTLINECOLOR kleur van de rand van polygonen COLOR kleur van polygonen, punten, of lijnen END einde datablok De html-template word als een form gebruikt, waarin variabelen, zijnde output van mapserv.cgi, voor de standaardwaarden staan, die worden meegegeven bij een nieuwe aanroep van mapserv.cgi. Bij eerste aanroep van mapserver moeten deze waarden dus in een andere html-form doorgegeven worden. Deze waarden hebben betrekking tot zoom- en co¨ordinatiefuncties, alsmede tot de layers die weergegeven dienen te worden. De variabelen voor layers in de template komen overeen met variabelen in de mapfile, die verwijzen naar waardes in het dbase-bestand.
9
Figure 7: Schematische opzet werking mapserver
4.2
Van ruwe data tot mapserver
De opdracht van visualisatie bleek al snel een nauwe samenhang te hebben met dataconversies. Dit deel van de opdracht was is in eerste instantie ondergebracht in het deelproject voor databaseontwerp, maar het bleek zo nauw vervlochten met het visualisatiedeel dat er is besloten om twee lijnen te verkennen. De lijn, genomen in het bovenstaande deelproject, verkende de mogelijkheden die ArcGIS en daaraan verwante software bood tot het converteren naar shapefiles. Maar de Rijksuniversiteit bleek niet in het bezit te zijn van de benodigde licenties en zodoende is er overgegaan tot de lijn die in dit deelproject werd verkend: de benodigde conversies toepassen met gratis linuxsoftware, perlscripts en c++ code. Voor het eindresultaat dienden er drie shapefiles gegenereerd te worden. Ten eerste een shapefile waarin de co¨ordinaten van de onderzoekslocaties stonden opgeslagen, met daaraan gekoppeld een dbase-bestand waarin de plaat10
snamen en dialectafstanden stonden opgeslagen1 . Ten tweede een shapefile met daarin de beschrijving van de Delaunaylijnen, gekoppeld aan de dbasebestand waarin referenties stonden naar de IDs van de onderzoekslocaties, de hemelsbrede afstand, de fonologische afstand en het residu2 . Ten derde een shapefile met daarin de beschrijving van de Voronoilijnen, gekoppeld aan een dbase-bestand dat dezelfde data bevat als het Delaunay bestand3 . De eerste shapefile met de onderzoekslocaties werd gegenereerd met behulp van ArcGIS. De co¨ordinaten van de onderzoekslocaties werden vanuit een ASCII-tekstbestand gemporteerd en geconverteerd naar de juiste projectie. Het dbase-bestand werd automatisch gekoppeld aan deze gegevens. Voor de algoritmes, benodigd voor de andere twee shapefiles, waren er, zoals reeds boven genoemd, geen ArcGIS-licenties beschikbaar. Daarom is er gezocht naar een alternatieve aanpak. De stappen van de alternatieve aanpak zullen op chronologische wijze worden opgesomd. Het programma dat een Delaunay-algoritme alsmede een Voronoi-algoritme kon toepassen op de dataset van de 186 testlocaties bleek het meermalen genoemde triangle. Dit programma vraagt een tabel in tekstvorm, waarin indices en punten worden weergegeven. Het genereert vervolgens een reeks bestanden, waaruit een klein aantal relevant is. Een .edge-bestand, waarin de referenties naar Delaunays meest nabije buren staan, een .v.node- (co¨ordinaten van Voronoilijnen) en een .v.edge-bestand, waarin de Voronoilijnen staan omschreven. De IDs van de Voronoilijnen in het .v.edge-bestand komen overeen met die van de Delaunay referenties in het .edge-bestand. Zodoende konden de gegevens van beide bestanden gekoppeld worden aan de testlocaties.
1
http://hagen.let.rug.nl/∼s1331639/mapserver/allegro project/allegro points 2.[shp|shx|dbf] http://hagen.let.rug.nl/∼s1331639/mapserver/allegro project/delaunay2.[shp|shx|dbf] 3 http://hagen.let.rug.nl/∼s1331639/mapserver/allegro project/voronoi2.[shp|shx|dbf] 2
11
Figure 8: .node-bestand (input voor triangle). Bevat co¨ordinaten en ID’s van testlokaties
Toelichting van data in figuur 8. Kolom 1 - IDs van de onderzoekslocaties (eerste rij totaal aantal) Kolom 2 - X-co¨ordinaat Kolom 3 - Y-co¨ordinaat Kolom 4 - Boundary-marker gegenereerd door triangle, verworpen.
Figure 9: .edge bestand. Bevat een ID, gevolgd door referenties naar nabije buren (ID’s van testlokaties)
Toelichting van data in figuur 9. Kolom 1 - IDs van de begrenzinglijnen Kolom 2 - Referentie naar punt 1 Kolom 3 - Referentie naar punt 2 Kolom 4 - Boundary-marker gegenereerd door triangle, verworpen. De output van triangle was, zoals boven te zien, nog steeds ASCII-data. Om deze data te converteren van ASCII naar een binaire shapefile waren een extra tussenstappen nodig. Er zijn hiertoe twee mogelijkheden onderzocht. Het programma ogr2ogr, onderdeel van het pakket FWtools en een programma genaamd gen2shp, dat gebruik maakt van de c-library shapelib[14][16][17][18]. Na korte tijd bleek ogr2ogr alleen een leeg dbase-bestand te genereren en 12
geen shapefile. Het programma gen2shp genereert wel werkende .shp- en .shx-bestanden, maar wederom een lege .dbf. De input die gevraagd wordt door gen2shp, echter, kwam weinig overeen met de outputdata van triangle.
Figure 10: .gen-bestand (input voor gen2shp)
Met behulp van perl-conversies zijn de oorspronkelijke puntdata, het .edgebestand en het .v.edge bestand gecombineerd tot bovenstaande input voor zowel de Delaunay- als de Voronoi shapefile. Bij het testen van de gegenereerde shapefiles bleek de projectie verkeerd te zijn. De co¨ordinaten van de oorspronkelijke puntdata was bij het genereren van de eerste shapefile geconverteerd. De correcte co¨ordinaten waren alleen nog beschikbaar in het binaire .shp-formaat. Het bovenstaande proces, moest nu herhaald worden met de correcte co¨ordinaten, maar alvorens dat kon plaatsvinden moesten de correcte co¨ordinaten wel in ASCII-formaat beschikbaar zijn. Er is op het internet gezocht naar conversiesoftware die shapefiles naar tekst converteren, maar het bleek tijdseffici¨enter om, met behulp van de bovengenoemde technische beschrijving van de shapefile, een c++ -programma te schrijven om de co¨ordinaten uit de shapefile te filteren4 .
4
http://hagen.let.rug.nl/∼s1331639/shape/shpinfo.[cpp|hpp]
13
Figure 11: sample uit shpinfo.hpp
Het eindresultaat na het opnieuw uitvoeren van de bovengenoemde stappen is hieronder te zien. De Voronoilijnen zijn handmatig aan de contouren van het Duitslandpolygoon aangepast, door het bovengetoonde .gen bestand aan te passen en opnieuw te converteren naar shapefile. De lijnen die buiten Duitsland vielen zijn op 0 gezet, aangezien die gebieden geacht worden geen buren van elkaar te zijn. De datarecords voor deze gebieden zijn, met het oog op een eventuele andere interpretatie van de data wel bewaard.
Figure 12: Voronoi-lijnen aangepast aan Duitslands contouren
14
4.3
Abstracte data gekoppeld aan de Shapefile
Met abstracte data worden de uitkomsten van de statistische analyse en de namen en IDs van de onderzoekslocaties bedoeld, wat wil zeggen alle data niet zijnde geografische co¨ordinaten of vormen. Deze abstracte data, de residuen van de regressie-analyse over alle paren in het onderzoek (ca. 17.205 records), diende gekoppeld te worden aan de Delaunay- en Voronoishapefiles. Beide bestanden bevatten 538 records, waarin de co¨ordinaten van de lijnen staan. Deze records moesten gekoppeld worden aan de relevante 538 paren van de 17.205 paren, die in de regressieanalyse staan. Hiertoe zijn wederom perl-scripts gebruikt en zijn de data in dbase-bestanden gezet. In de toekomst, wanneer de relationele mysql-database gentegreerd is met mapserver, zullen deze dbase-bestanden redundant zijn, aangezien die dan on-the-fly gegenereerd zullen worden, op basis van het gehele bestand. Hierover meer in de conclusie. De benutte perlscripts maken wederom gebruik van de data in de output van triangle en zijn per bestand specifiek geschreven. Voorbeelden ervan zijn te vinden op de hagenaccount van de student5 .
4.4
Website6
Nu de voorwaarden voor een website opgezet waren kon worden overgegaan tot het optimaliseren van de website,. De oorspronkelijke doelstelling was om de data zo toegankelijk mogelijk te maken voor de eindgebruiker. Wederom is gebleken dat mapserver op zichzelf niet veel toegang biedt tot manipulatie van de data. Aangezien mapserver enkel queries kan stellen aan de dbase-bestanden in de mapfile in de vorm van een if-statement moeten deze mapfiles eigenlijk gegenereerd worden met behulp van mapscript, of een eigen geschreven servlet, alsook de dbase-bestanden. Om deze reden is website vooralsnog beperkt tot aanvinkbare layers en alle analyse die wordt toegepast staat in de mapfile uitgeschreven en is per definitie geactiveerd7 . De data kan daarom opgevraagd worden met een simpele html-form met checkboxes.
5
http://hagen.let.rug.nl/∼s1331639/perl allegro/ http://hagen.let.rug.nl/∼s1331639/mapserver/allegro project/ 7 http://hagen.let.rug.nl/∼s1331639/mapserver/allegro project/global.map 6
15
De analyse in de mapfile bestaat uit een opsomming van layers voor de Voronoi-analyse en voor de Delaunay-analyse. Zoals eerder gezegd is emulatie van het Monmonieralgoritme op deze wijze niet mogelijk. Elke laag heeft een drempelwaarde en, afhankelijk van de die drempelwaarde, is die lijn zichtbaarder gemaakt. Bij de Delaunaylijnen kan cohesie worden getoond, door lijnen met kleine onderlinge dialectafstanden te verdikken en apart te kleuren. Bij de Voronoilijnen gaat het om de verschillen: hoe groter het verschil, hoe zichtbaarder de lijn.
Figure 13: Voorbeeld van Voronoi-analyse: hoe dikker de rode lijnen, hoe meer het dialectverschil afwijkt van de voorspelde waarde
16
Voor de drempelwaarden is gebruik gemaakt van een normaalkwantielplot van de residuen van de regressieanalyse om een eerlijke distributie van de waarden te garanderen.
Figure 14: Normaalkwantielplot van de residuen
17
5
Constateringen
In The English Language (blz. 263-4) stelt Barber dat, vanwege verplichte scholing, massamedia en verhoogde mobiliteit, de traditionele landelijke dialecten in Groot Brittani¨e nagenoeg zijn verdwenen en zijn vervangen door nieuwe, gemixte dialecten, gebaseerd op de grote stedelijke centra[1]. Kerswill beaamt dit in Dialect levelling and geographical diffusion in British English[6]. In Zug¨ange zum Substandard: Korrelativ-globale und konversationelllokale Verfahren (Gilles, 2002) wordt bevestigd dat ook Duitsland aan deze tendens onderhevig is[5].
5.1
Grote steden en rurale gebieden
Bij het werpen van een eerste blik op de kaart lijkt boven omschreven stelling ook af te lezen te zijn. De grootste onderlinge variatie, die hoger is dan voorspeld op basis van hemelsbrede afstand, bevindt zich in en rond het stedelijke Ruhrgebiet en midden van Duitsland, terwijl meer rurale gebieden minder onderling onderscheid vertonen.
Figure 15: Keulen als dialectologisch ge¨ısoleerde lokatie Toch is dit niet een algemeen af te lezen beeld op de kaart. Dit kan zijn oorsprong hebben bij het feit dat van de grote stedelijke centra Hamburg, Berlijn, M¨ unchen en Keulen, alleen Keulen afzonderlijk is onderzocht. Sterker, in die omgeving zijn ook de grote steden Aken en Bonn onderzocht. De resultaten tonen inderdaad dat Keulen in de omliggende gebieden qua 18
dialect vrijwel ge¨ısoleerd ligt. Alleen het verschil met Aken is relatief minder groot, maar nog altijd groter dan voorspeld.
5.2
Geologische barri` eres
Op basis van de drempels in combinatie met de voronoi-lijnen zijn weinig tot geen indicaties te vinden dat er sprake is van een samenhang tussen geologische barri`eres zoals rivieren, of bergruggen - en lokale onderlinge dialectverschillen. Een mogelijk bezwaar is dat de onderzoekslokaties te dicht bij elkaar liggen. Bovendien zouden er nog andere constateringen uit het toepassen van het Monmonier-algoritme kunnen voortkomen.
5.3
Samenhang absolute verschillen en residuen
Zoals in figuur 13 af te lezen is er bovendien sprake van indicaties tot samenhang tussen grote absolute dialectafstand en dialectafstand die is gecorreleerd aan hemelsbrede afstand. In deze analyse tonen de regionale Voronoibegrenzingen de residuen en de Delaunay-lijnen de absolute fonologische cohesie. In vrijwel alle gevallen is de absolute cohesie (lees: het overeenkomst in dialect) kleiner waar de dialectafstand tussen twee plaatsen groter is dan voorspeld op basis van hun onderlinge hemelsbrede afstand. Bij een grote cohesie is er eveneens sprake van veel kleinere verschillen dan voorspeld op basis van hemelsbrede afstand.
Figure 16: Absolute cohesie versus gecorreleerde verschillen
19
Deze constatering kan, in het geval van dit onderzoek, de analyse ondermijnen, omdat dit een sterke indicatie is dat de geconstateerde grotere dialectafstand dan voorspeld op basis van hemelsbrede afstand in vrijwel alle gevallen u ¨berhaupt al grotere absolute dialectafstanden zijn, wat geen relatie heeft tot hemelsbrede afstand. Ter versterking van deze ondermijning kan het onderzoeksgebied Kleinbottwar in Zuid-Duitsland worden geobserveerd.
5.4
Eilanden
Het kan zeer interessant zijn om bij verder onderzoek in te zoomen op dialects-eilanden. Er kan bijvoorbeeld worden onderzocht of de proefpersoon in die specifieke regio indicatief was voor het dialect dat daar wordt gesproken. Zo ja, hoe is het dan zo gekomen dat hier het dialect zo afwijkt van de omliggende regio’s. Dit zou bovendien een eerste indicatie kunnen zijn voor de relatie tussen geografische barri`eres en de grotere dialectsafstand dan voorspeld. Denk hierbij aan afgelegen dorpjes in laaggebergte. Een ander voorbeeld van zo’n dialectseiland is Poettmes, wat nabij het Zwarte Woud gelegen blijkt. Dit zijn enkel gissen, echter en nader onderzoek zou benodigd zijn om dit te verifi¨eren.
5.5
Variatie in het centrum van Duitsland
Een ander mogelijk punt van interesse is de grote variatie in het centrum van Duitsland. Dit is niet enkel te verklaren aan de hand van het feit dat dit gebied meer verstedelijkt is dan andere gebieden in Duitsland, aangezien dit niet voor het gehele centrum van Duitsland geldt. In dit centrum echter is er ook geen duidelijke sprake van vele geografische barri`eres, dus dat kan ook de verklaring niet zijn.
5.6
Oost-West geen barri` ere
Na 50 jaar scheiding, vertoon van andere massamedia en verschillende educatie, zou men verwachten dat er een scheiding in dialect zou zijn ontstaan tussen Oost en West Duitsland. De resultaten van dit onderzoek, echter, lijken te suggereren dat lokale dialecten robuuster zijn dan vijftig jaar scheiding.
20
6 6.1
Conclusie Doelstelling deelproject
De doelstelling van dit deelproject was het in beeld brengen van de ons ter beschikking gestelde data op een dusdanige wijze dat op basis ervan relevante conclusies getrokken kunnen worden. Aan deze doelstelling is enkel in beperkte mate voldaan, niet in de minste plaats vanwege het ontbreken van de implementatie van het algoritme van Monmonier. De methoden van het aanbrengen van drempelwaarden en verschillende analyses over elkaar heen leggen hebben wel degelijk geleid tot enkele relevante constateringen; indicaties voor de vraagstelling van het gehele onderzoek. Men moet hierbij denken aan de constatering dat de onderzoeksgebieden mogelijkerwijs te dicht bij elkaar liggen om naar geologische barri`eres te kijken en de constatering dat onderlinge dialectsverschillen in verstedelijkte gebieden groter zijn dan voorspeld en in rurale gebieden kleiner. De wijze waarop de website is opgebouwd biedt op dit moment echter nog grote beperkingen aan de eindgebruiker om eigen analyse toe te passen op de data.
7
Toekomst
Met het oog op de toekomst is er sprake van twee deelkwesties. Ten eerste het relationeel maken van de de dataset op de server in combinatie met het toepassen van het algoritme van Monmonier. Ten tweede de vraag of een soortgelijk project ook toegepast zou kunnen worden op andere lokaties dan Duitsland. De voorwaarden zijn op dit moment geschapen om in zeer nabije toekomst de website zo interactief te maken, als in de doelstelling van het onderzoek. Alle data is reeds in de vorm van een relationele MySQL-database beschikbaar en er wordt gewerkt aan het algoritme van Monmonier. Deze twee zaken leiden ertoe dat de zoekvragen die de eindgebruiker aan de dataset zal kunnen stellen in theorie onbeperkt zijn, afhankelijk van de interface. In de toekomst zou een soortgelijk project zonder moeite opnieuw kunnen worden toegepast op willekeurig welke andere dataset. Dit vereist echter wel meer conformiteit in stijl en weergave van de verschillende soorten data, met name als het gaat om shapefiles. 21
References [1] Charles Barber. The English Language, A Historical Introduction. Cambridge University Press, 1993. [2] T.E. Burk. Terrasip. Website: University of Minnesota, 2001. http://terrasip.gis.umn.edu/, date visited: 1-7-2006. [3] Peter A. Burrough and Rachel A. McDonnel. Principals of Geographical Information Systems. Oxford University Press, Oxford University Press. [4] Merriam G. Minnesota department of natural resources (dnr) recreation compass. Website: Minnesota DNR, 2006. http://www.dnr.state.mn.us/maps/compass.html, date visited: 17-2006. [5] Peter Gilles. Zug¨ange zum substandard: Korrelativ-globale und konversationell-lokale verfahren. In Jannis K. Androutsopoulos and Evelyn Ziegler, editors, Standardfragen, 2003. [6] Paul Kerswill. Dialect levelling and geographical diffusion in british english. In D. Britain and J. Cheshire, editors, Social Dialectology. In honour of Peter Trudgill, pages 223 – 243. Benjamins, 2003. [7] Peter Kleiweg. Levenshtein demo. Website: Peter Kleiweg, 2006. http://odur.let.rug.nl/∼kleiweg/lev/, date visited: 1-7-2006. [8] Stephen Lime. Welcome to mapserver - umn mapserver. Website: Mapserver, 2006. http://mapserver.gis.umn.edu, date visited: 1-72006. [9] Franz Manni, Wilbert Heeringa, and John Nerbonne. To what extent are surnames words? comparing geographic patterns of surnames and dialect variation in the netherlands. to appear in:. Literary and Linguistic Computing, 21(4), 2006. [10] M. Monmonier. Maximum-difference barriers: an alternative numerical regionalization method. Geographical Analysis, 3:245 – 261, 1973. [11] Jr. Robert S. Sluter. New theoretical research trends in cartography. Revista Brasileira de Cartografia, 53:29 – 37, december 2001.
22
[12] Jonathan Richard Shewchuk. Triangle: A two-dimensional quality mesh generator and delaunay triangulator. Website: Jonathan Richard Shewchuk - Computer Science Division University of California at Berkeley, 2006. http://www.cs.cmu.edu/∼quake/triangle.html, date visited: 2-6-2006. [13] Unknown. Esri shapefile technical description. Website: Esri.com, july 1998. http://www.esri.com/library/whitepapers/pdfs/shapefile.pdf, date visited: 10-6-2006. [14] D. van Heesch. Ogr2ogr. Website: Heesch D, http://ogr.maptools.org/ogr2ogr.html, date visited: 1-7-2006.
2006.
[15] M.G. Voronoi. Nouvelles application des paramtres continus `a la th´eorie des formes quadratiques, deuxi`eme m´emoire, recherche sur le parall´eloedres primitives. Journal f¨ ur die reine und angewandte Mathematik, 134:198 – 207, 1908. [16] J.O. Wagner. gen2shp: converts arcinfo generate format to shapefile format. Website: Wagner JO, 2000. http://www.usf.uniosnabrueck.de/ jwagner/gen2shp/gen2shp.html, date visited: 1-7-2006. [17] F. Warmerdam. Fwtools: Open source gis binary kit for windows and linux. Website: Warmerdam F, 2006. http://fwtools.maptools.org/, date visited: 1-7-2006. [18] F. Warmerdam. Shapefile c library v1.2. Website: Warmerdam F, 2006. http://shapelib.maptools.org/, date visited: 1-7-2006.
23