FACULTEIT WETENSCHAPPEN
Opleiding Geografie en Geomatica Master in de Geomatica en Landmeetkunde
Sequentieanalyse van bewegingspatronen bij toeristen in Gent door middel van Bluetoothtracking Liesbeth De Groote
Aantal woorden in tekst: 21848 Aantal tabellen in tekst: 15 Aantal figuren in tekst: 23
Promotor: Prof. dr. N. Van de Weghe, Vakgroep Geografie Co-promoter: Prof. dr. V. Fack, Vakgroep Toegepaste Wiskunde en Informatica Begeleider: Mathias Versichele, Vakgroep Geografie
Academiejaar 2012 – 2013
Masterproef ingediend tot het behalen van de graad van Master in de Geomatica en Landmeetkunde
1
WOORD VOORAF
Toen ik in 2008 met mijn studies begon, had ik geen idee wat er mij precies te wachten stond. Dit veranderde al snel toen ik geïntroduceerd werd in de geomatica. Ik ben altijd geïnteresseerd geweest in de technologische kant van de richting. In het vak Geografische Informatiewetenschap in het eerste Masterjaar werden we door Prof. Dr. Nico Van de Weghe ondergedompeld in toepassingen van sequentieanalyse en Bluetooth-tracking. Aan het einde van het eerste semester moest er een keuze gemaakt worden over het onderwerp van onze thesis. Mijn interesse in tijdruimtelijke aspecten bepaalde de keuze voor deze masterproef.
Ik wil graag mijn promotor Prof. Dr. Nico Van de Weghe en co-promotor Prof. Dr. Veerle Fack bedanken voor de begeleiding bij het opstarten van mijn thesis. In het bijzonder wil ik Prof. Dr. Nico Van de Weghe bedanken voor het bijsturen van deze masterproef wanneer hij dit nodig achtte en voor de kritische kijk op het onderwerp.
Daarnaast bedank ik mijn begeleider Mathias Versichele voor de steun die hij mij aangeboden heeft. Met al mijn technische problemen en vragen omtrent interpretatie van Bluetooth-data kon ik steeds bij hem terecht. Hij heeft immers de software GisMo geschreven die gebruikt wordt voor de dataverwerking in deze thesis.
Ook Roel Huybrechts heeft mij veel geholpen bij de data-verzameling en zou ik graag bedanken. Hij ontwikkelde software die ook in deze masterproef gebruikt werd.
Zonder de vlotte samenwerking met de Dienst Toerisme van de stad Gent zou ik deze masterproef niet tot een goed einde hebben kunnen brengen. In het bijzonder zou ik graag Kurt Van Belle, Erwin De Wiele en Kathleen Verschuere bedanken voor hun medewerking.
Voorts had ik graag alle deelnemende hotels en medewerkers van bezienswaardigheden bedankt voor hun medewerking en gastvrijheid.
Ik wens ook Digipolis te bedanken voor hun input in deze masterproef. Zonder Digipolis was het nooit gelukt om alle Bluetooth-scanners operatief te krijgen voor de start van de meetperiode.
ii
Verder verdienen mijn vriend, familie en vriendenkring ook een grote ‘dank u wel’. Ze hebben mij enorm gesteund doorheen heel mijn studieloopbaan. Bij zowel hoogte- als laagtepunten kon ik op hen rekenen. Dank u wel Daan, Delphine, Tom, Sofie, Sandra, The Girls.
Als laatste zou ik graag mijn ouders bedanken voor hun genegenheid, interesse en steun. Ze hebben mij alle kansen gegeven. Zonder hen was het niet mogelijk geweest om mijn studies uit te voeren. Ik ben hen bijzonder dankbaar dat ze altijd in mij hebben geloofd.
iii
INHOUDSTAFEL WOORD VOORAF .......................................................................................................................................................................... ii 1
INLEIDING ............................................................................................................................................................................. 6
2
LITERATUURSTUDIE .......................................................................................................................................................... 8 2.1
Soorten onderzoek binnen de toeristische sector ....................................................................................................... 8
2.2
Acquisitiemethoden van bewegingen binnen de toeristische sector .......................................................................... 9
2.3
Sequentieanalyse ..................................................................................................................................................... 13
2.4
Bestaande typologieën van toeristen........................................................................................................................ 14
3
STUDIEGEBIED, MATERIALEN EN METHODEN ......................................................................................................... 17 3.1
Studiegebied ............................................................................................................................................................ 17
3.2
Studieperiode ........................................................................................................................................................... 17
3.3
Bluetooth-scanners en locaties ................................................................................................................................ 17 3.3.1
Locaties .......................................................................................................................................................... 18
3.3.2
Methodologie ................................................................................................................................................. 22
3.3.3
Hardware ........................................................................................................................................................ 23
3.4
Gebruikte software .................................................................................................................................................. 24 3.4.1
Gyrid Server ................................................................................................................................................... 24
3.4.2
GisMo ............................................................................................................................................................ 25
3.4.3
ClustalG ......................................................................................................................................................... 26
3.4.4
R..................................................................................................................................................................... 26
3.5
Methode................................................................................................................................................................... 27
3.6
Dataverzameling en terreinwerk .............................................................................................................................. 29
4
3.6.1
Vergaderingen ................................................................................................................................................ 29
3.6.2
Omstandigheden metingen ............................................................................................................................. 29
RESULTATEN...................................................................................................................................................................... 31 4.1
Beschrijving dataset en voorbereidend werk ........................................................................................................... 31
4.2
Onderzoek en Filtering van de dataset ..................................................................................................................... 33 4.2.1
Filteren ruwe data........................................................................................................................................... 34
4.2.2
Onderzoek van de functionaliteit van de Bluetooth-scanners......................................................................... 34
4.2.3
Onderzoek van de selectiviteit van de Bluetooth-scanners ............................................................................ 34
4.2.4
Filtering op basis van toesteltype ................................................................................................................... 39
4.2.5
Onderzoek van de verblijfstijden en de duur van de aanwezigheid ................................................................ 40
4.2.6
Resultaat filtering ........................................................................................................................................... 49
4.3
Exporteren uit GisMo .............................................................................................................................................. 54
4.4
Analyse in ClustalG................................................................................................................................................. 56 4.4.1
Opstellen score-matrix ................................................................................................................................... 56
4.4.2
SAM – dendrogram ........................................................................................................................................ 58
4.5
Analyse in R ............................................................................................................................................................ 58 4.5.1
Biostrings, SAM en Hiërarchische clustering ................................................................................................ 59
4.5.2
Gebruikte code ............................................................................................................................................... 59
iv
4.5.3
Clustering op basis van alle bezienswaardigheden en Dienst Toerisme ......................................................... 60
4.5.4
Clustering op basis van alle hotels ................................................................................................................. 64
4.6
Analyse in GisMo .................................................................................................................................................... 65 4.6.1
Analyse van de toeristen per type hotel.......................................................................................................... 65
4.6.2
Analyse van de toeristen die Dienst Toerisme al dan niet hebben bezocht .................................................... 66
5
DISCUSSIE ........................................................................................................................................................................... 68
6
TOEKOMSTIG ONDERZOEK ............................................................................................................................................ 71
7
BESLUIT ............................................................................................................................................................................... 72
8
REFERENTIELIJST ............................................................................................................................................................. 73
9
BIJLAGEN ............................................................................................................................................................................ 78 9.1
Bijlage 1: Brief voor de deelnemende partijen aan het onderzoek........................................................................... 78
9.2
Bijlage 2: Lijst Bluetooth-sensoren ......................................................................................................................... 79
9.3
Bijlage 3: Gebeurtenissen en weersomstandigheden tijdens de meetperiode .......................................................... 81
9.4
Bijlage 4: Beschikbaarheidstabellen ter controle van de functionaliteit van Bluetooth-scanners ............................ 82
9.5
Bijlage 5: Spreiding van de data over zeven toestelklassen per locatie ................................................................... 83
9.6
Bijlage 6: Theoretische bovengrens aantal gedetecteerde toestellen voor hotels ..................................................... 84
9.7
Bijlage 7: Theoretische bovengrens aantal gedetecteerde toestellen voor bezienswaardigheden ............................ 85
9.8
Bijlage 8: Clustering op basis van alle bezienswaardigheden en Dienst Toerisme, inclusief hotels........................ 86
9.9
Bijlage 9: Clustering op basis van alle bezienswaardigheden en Dienst Toerisme, exclusief hotels ....................... 87
9.10
Bijlage 10: Clustering op basis van alle hotels ........................................................................................................ 89
9.11
Bijlage 11: Analyse per type hotel........................................................................................................................... 90
9.12
Bijlage 12: Analyse indien Dienst toerisme al dan niet bezocht is .......................................................................... 91
v
1
INLEIDING
Binnen de CartoGIS onderzoeksgroep (Vakgroep Geografie) en in verschillende andere onderzoeksinstellingen is de studie van bewegende objecten een belangrijk aspect. Binnen de CartoGIS wordt veel onderzoek gedaan naar bewegende objecten met behulp van Bluetoothtechnologie. Zo werden al bezoekersstromen op het lichtfestival te Gent en de Gentse Feesten in kaart gebracht door middel van Bluetooth. Het onderzoek van deze scriptie kadert binnen het onderzoek naar bewegende objecten van de Vakgroep Geografie, onderzoeksgroep CartoGIS. In deze masterproef zal nader onderzocht worden hoe toeristen zich bewegen.
Er is weinig gekend over hoe een toerist zich verplaatst in een stad of over wat toeristen precies bezoeken en in welke volgorde. Dit probleem stelt zich in veel toeristische steden, wat voor gemiste kansen zorgt op verschillende vlakken zoals promotie en informatieverdeling. Wanneer een toeristische dienst kennis heeft over het bewegingsgedrag van toeristen, kan ze bepaalde musea bijvoorbeeld meer in de kijker zetten als blijkt dat toeristen zich anders gedragen dan verwacht. Voor een hotel kan dergelijke informatie nuttig zijn om meer gerichte informatie te verlenen aan zijn hotelgasten. Het kan voor een lokaal bestuur ook belangrijk zijn om te weten hoe intensief een informatiepunt gebruikt wordt en wat de impact van een bezoek is op het verdere verloop van een bezoek aan de stad.
Dit onderzoek gaat onder meer na of Bluetooth-tracking een geschikte acquisitiemethode is om data over bewegende toeristen te verzamelen. Daarnaast wordt nagegaan of er een meerwaarde kan gecreëerd worden voor de toeristische sector door sequentieanalyse toe te passen op Bluetooth-data en of sequentieanalyse een geschikte methode is voor dit type onderzoek.
De
data
wordt
verkregen
door
Bluetooth-sensoren
in
hotels
en
bezienswaardigheden op te stellen. Het doel is om het algemeen gedrag van de Gentse toeristen nader te onderzoeken. Hebben toeristen uit verschillende types hotels een verschillend gedrag? Er zal nagegaan worden of bijvoorbeeld een toerist uit een jeugdherberg andere musea bezoekt dan een toerist die in een sterrenhotel verblijft. Als tweede luik van dit onderzoek wordt er onderzocht of toeristen die het bureau van toerisme hebben bezocht een verschillend gedrag vertonen dan toeristen die dit niet hebben gedaan. Wanneer de toeristische sector informatie in het bezit heeft omtrent het gedrag van toeristen, dan kunnen toeristische diensten en hotels daarop inspelen en hun beleid aanpassen aan de toeristen of hotelgasten. 6
Naast deze hoofdvragen van dit onderzoek kunnen ook nog enkele bijzaken onderzocht worden. Er kan nagegaan worden of een bepaalde typologie van toeristen overeenstemt met de gevonden classificatie. Er moet ook nagegaan worden hoe een toerist binnen dit onderzoek gedefinieerd wordt en hoe deze te onderscheiden is tussen alle verworven data.
Allereerst wordt er in een literatuurstudie dieper ingegaan op de huidige stand van zaken wat betreft de soorten onderzoeken binnen de toeristische sector, sequentieanalyse, bestaande typologieën van toeristen en mogelijk acquisitiemethoden voor bewegingen van toeristen. In het onderdeel over studiegebied, materialen en methode wordt de opzet van deze masterproef uiteengezet. Hier komen aspecten zoals studiegebied en studieperiode aan bod. De methodologie en hardware van de Bluetooth-scanners worden toegelicht. Er wordt verder uitgelegd hoe de locaties bepaald werden waar de scanners werden opgesteld. Daarnaast wordt de gebruikte software opgelijst en worden enkele zaken omtrent het terreinwerk verduidelijkt. Na de uitleg over de methoden en materialen worden de resultaten besproken. Eerst wordt de filtering van de data uitvoerig besproken om daarna geanalyseerd te worden in ClustalG, R en GisMo. De masterproef wordt afgesloten met een discussie en een besluit. Daarna volgt nog een referentielijst en alle bijlagen.
7
2
LITERATUURSTUDIE
De interesse naar bewegende objecten is toegenomen en in verschillende sectoren kent het belang van tijdruimtelijke data een sterke groei. Deze groei is te verklaren door de evolutie van verschillende informatietechnologieën om bewegingen te verzamelen. Voorbeelden hiervan zijn Global Positioning System (GPS), Location Based Services (LBS) (Shoval & Isaacson, 2006, Shoval & Isaacson, 2007). Deze technieken zijn betaalbare methoden voor het inzamelen van gedetailleerde data over bewegende objecten.
De literatuurstudie wordt opgedeeld in vier verschillende onderdelen. Allereerst wordt een overzicht gegeven van de soorten onderzoek binnen de toeristische sector. Daarna worden de verschillende gebruikte acquisitiemethoden besproken die terug te vinden zijn in de huidige literatuur. Dit wordt opgevolgd door een studie naar het gebruik van sequentieanalyse voor tracking doeleinden. Als laatste wordt het toeristische aspect van deze masterproef verder onderzocht en wordt de belangrijkste typologie bestudeerd.
2.1
Soorten onderzoek binnen de toeristische sector
De afgelopen twintig jaar is er meer en meer onderzoek naar tijdruimtelijke patronen binnen de toeristische sector. Dit komt gedeeltelijk door het steeds betaalbaarder worden en ontstaan van nieuwe acquisitietechnieken en door de ontwikkeling van Geografische Informatie Systemen of GIS (Bahaire & Elliott-White, 1999, Lau & McKercher, 2006, Shoval & Isaacson, 2009). Er bestaan volgens Shoval & Isaacson (2009) zeven soorten onderzoek binnen het domein van bewegingsanalyse van toeristen.
“Allereerst is er een beschrijvend onderzoek naar bewegingen en timemanagement van toeristen. Dit soort studie is vaak onderdeel van een complexer onderzoek. Daarnaast bestaan er onderzoeken naar verklarende en voorspellende factoren voor tijdruimtelijke patronen. Het derde soort onderzoek bestudeert typologieën die gebaseerd zijn op het tijdruimtelijk gedrag van toeristen. Er bestaan ook theoretische studies over hoe toeristen beslissingen maken en waarop die gebaseerd zijn. Het vijfde soort onderzoek is een analyse van ruimtelijke vaardigheden zoals navigatie, oriëntatie en perceptie. Verder zijn er ook studies waarbij men probeert te beredeneren hoe bewegingspatronen van toeristen op een specifieke locatie ontstaan. Als laatste zijn er onderzoeken waarbij de invloed van het gedrag van een toerist op 8
een recreatieve locatie onderzocht wordt. Het gedrag wordt niet rechtstreeks bestudeerd maar wel de reflectie van dit gedrag (Shoval & Isaacson, 2009)”.
Het onderzoek dat kadert binnen deze thesis over toerisme in Gent, is een combinatie van het onderzoek naar typologieën, bewegingspatronen en de invloed van het gedrag.
2.2
Acquisitiemethoden van bewegingen binnen de toeristische sector
Vóór de komst van de nieuwe hedendaagse technologieën, zoals mobiele telefonie, Bluetooth en GPS, gebeurde onderzoek naar bewegingen en patronen van mensen onder andere via dagboeken en observaties. Door het bijhouden van een dagboek van een kleine groep mensen, kon men hun activiteiten en de bijhorende sequentie, duur en frequentie achterhalen (Janelle et al., 1988). Op deze data werden dan verdere analyses uitgevoerd. Thornton et al. (1997) gebruikten de tijdruimtelijke dagboeken voor het analyseren van het gedrag van toeristen in Cornwall. Murphy & Rosenblood (1974) werkten met dagboeken om het gedrag van toeristen, die Vancouver Island voor de eerste maal bezochten, te onderzoeken. Ook Wilson (1998) werkte met dagboeken. Hij illustreerde hoe Sequence Alignment Method voor de analyse van tijdruimtelijke patronen uit de dagboeken kan gebruikt worden. Enkele andere studies die gebruik maakten van tijdruimtelijke dagboeken zijn Van Der Knaap (1999), Dietvorst et al. (1994) en Pearce (1988). Shoval & Isaacson (2009) vermelden toch enkele nadelen aan de methoden gebaseerd op dagboeken. Je bent namelijk volledig afhankelijk van de samenwerking met de proefpersonen en er ligt een zware last op de proefpersonen tijdens de meetperiode. Dit verklaart zowel waarom proefpersonen vaak zaken verzwijgen en niet noteren in hun dagboek, alsook waarom het moeilijk is om proefpersonen te vinden. Naast het werken met dagboeken kan er ook op basis van observaties gewerkt worden. De onderzoeker kan de proefpersoon volgen vanop een afstand en zijn activiteiten noteren. Deze methode staat gekend als een van de Non-Participatory Observation of Shadowing methoden. Om de data inwinning minder intensief te maken, wordt gebruik gemaakt van camera’s en foto’s om bewegingspatronen te analyseren. De Participant-Observer Method houdt in dat de onderzoeker de proefpersoon vergezeld (Millonig & Gartner, 2010, Shoval & Isaacson, 2009).
Na de introductie van eerder vernoemde hedendaagse technologieën, werden deze snel geïntegreerd in het onderzoek naar bewegende objecten. De focus van deze technologieën ligt op het automatiseren van tracking van objecten. De GPS-technologie wordt in veel 9
verschillende soorten onderzoek gebruikt. Laube et al. (2005a) gebruikten GPS om de bewegingen van dieren en voetballers te bestuderen. In de toeristische sector wordt er ook van GPS gebruik gemaakt. Shoval & Isaacson (2007) hebben via GPS-toestellen de toeristen in het oude stadsgedeelte van Akko, in Israël, geobserveerd. Gedurende de meetperiode werden aan toeristen GPS-toestellen meegegeven, die bezorgden dan de locatie aan de onderzoekers. Het oude stadsdeel (Old City) te Akko werd opgedeeld in verschillende divisies. De opeenvolging van bezochte divisies door toeristen werd verder geanalyseerd door middel van sequentieanalyse. Ook Van der Spek et al. (2009) hebben onderzoek gedaan naar het gebruik van GPS voor tracking doeleinden. Ze hebben een architectuur voor een database en het verzamelen van data ontwikkeld, die specifiek gericht is op tijdruimtelijke data van voetgangers. Deze architectuur hebben ze toegepast op verschillende Europese steden en binnen een experiment in Almere.
Een tweede methode die veel gebruikt wordt, is gebaseerd op mobiele telefonie. Ahas et al. (2008) hebben onderzoek uitgevoerd naar het gebruik van mobiele telefonie op grootschalige basis. Het onderzoek situeert zich in de toeristische sector. Ahas et al. (2007) en Ahas et al. (2008) passen passieve positionering toe in toeristisch onderzoek in Estland. Dit betekent dat voor elke activiteit van de mobiele telefoon waarvoor verbinding nodig is met een netwerk, de positie van de dichtstbijzijnde mast anoniem opgeslagen wordt door de telefoonoperator. Bij actieve positionering wordt de locatie niet enkel opgeslagen bij een activiteit van de telefoon, maar worden speciale query’s uitgezonden waarop de telefoon zijn locatie doorstuurt. Hiervoor is er toestemming nodig van de eigenaar van de mobiele telefoon. De precisie waarmee men de locatie van een individu kan vastleggen, wordt bepaald door de densiteit van het netwerk van telefoonmasten. Ratti et al. (2006) hebben onderzoek uitgevoerd naar toerisme in Milaan. Ze baseerden zich op het GSM-gebruik op verschillende momenten van de dag. Hierdoor kunnen intensiteitskaarten van verschillende tijdstippen gemaakt worden. Zo wordt de evolutie van het GSM-gebruik duidelijk in tijd en ruimte. Voor deze thesis zou een methode op basis van mobiele telefonie niet werken omdat de locatie van een individu niet met een voldoende grote nauwkeurigheid kan bepaald worden. Dit is te wijten aan de resolutie van het netwerk van GSM-masten. Deze tekortkoming zou kunnen verholpen worden indien de signaalsterkte als maat voor de afstand tot de mast zou gebruikt worden (Shoval & Isaacson, 2009). Zelfs wanneer dit gebrek verholpen is, kan men enkel zeggen dat een individu zich op ‘een aantal meter’ van een bepaalde mast bevindt. Dit is nog steeds niet nauwkeurig genoeg voor deze thesis, aangezien een individu zich dan om het even waar op 10
die cirkel kan bevinden. Daarmee is nog niet ondubbelzinnig te bepalen in welke bezienswaardigheid of welk hotel het individu aanwezig is. Een tweede nadeel van deze methode is dat er een beroep moet gedaan worden op de telefoonmaatschappijen (Shoval & Isaacson, 2009). De prioriteit van dergelijke bedrijven ligt niet bij een onderzoek waar zij op zich niet veel voordeel uit kunnen halen. Dit kan zorgen voor een grote vertraging of het moeilijk verkrijgen van de gegevens.
Naast mobiele telefonie en GPS worden technologieën zoals Radio Frequency Identification (RFID) gebruikt. Shoval & Isaacson (2009) vermelden RFID als een alternatief voor het bestuderen van de bewegingen van objecten. De tags, die worden meegedragen door de objecten, hebben een elektromagnetisch veld. De uitgezonden golven van de tags worden bij het passeren van een ontvanger geregistreerd. Via een centraal systeem kan de locatie van tags, en dus van de objecten, bepaald worden. Deze methode is gebaseerd op een veel gebruikt beveiligingssysteem in winkels (Shoval & Isaacson, 2009). Öztayşi et al. (2009) hebben onderzocht hoe RFID binnen hotelmanagement kan gebruikt worden. Er wordt een hypothetische testcase opgemaakt voor een vijfsterrenhotel dat zowel gewone toeristen ontvangt als toeristen die conferenties komen bijwonen. Elke hotelgast krijgt een kaart met een interne tag. Deze kaart kan voor veel verschillende zaken dienen, onder andere als automatische toegang tot gelimiteerde ruimten, als betalingssysteem of als informatiesysteem. Via deze tags en scanners die doorheen het hotel verspreid staan, kunnen de gasten getraceerd worden. Della Lucia (2012) gebruikt RFID om de schatting van de economische impact van een (toeristisch) evenement te maken.
De laatste jaren is er meer en meer onderzoek naar het gebruik van Bluetooth als trackingmethode. Versichele et al. (2012a) onderzoeken het gebruik van Bluetooth bij massaevenementen zoals o.a. het tiendaagse openluchtfestival ‘de Gentse Feesten’. Van de Weghe et al. (2013) gebruiken Bluetooth-technologie bij het creëren van een geïntegreerd systeem voor het beheren, analyseren, modelleren en visualiseren van complexe trajecten. BlueMAP is een commercieel project dat gebruikt wordt bij massa-evenementen en dat zich focust op de bezoekers. Versichele et al. (2012b) hebben een studie gedaan naar het gebruik van een Bluetooth-scanner om een schatting van de toeschouwers te maken bij een wielerwedstrijd. O’Neill et al. (2006) breiden bestaande technieken uit voor het analyseren van voetgangersbewegingen door middel van Bluetooth. Een simpele telling van alle voetgangers die over een ingebeelde lijn gaan kan door Bluetooth veel eenvoudiger gemaakt worden. Door 11
de twee te combineren is er ook een duidelijk beeld over het Bluetooth-gebruik. De verhouding aantal passanten met Bluetooth/totaal aantal passanten kan zo eenvoudig berekend worden. In een studie van Millonig & Gartner (2010) wordt een gecombineerde techniek van Bluetooth (indoor) en GPS (outdoor) gehanteerd. Via deze combinatie proberen ze de nadelen van de ene techniek met de andere techniek te compenseren.
Van der Spek et al. (2009) en Shoval & Isaacson (2009) maken een opdeling van alle bestaande technieken. Enerzijds heb je Land Based Services (LBS
1
). Dit zijn
trackingsystemen die werken op basis van verschillende antennestations en een zender die door het object gedragen wordt. Voorbeelden van LBS zijn Bluetooth (Versichele et al., 2012a), RFID (Öztayşi et al., 2009) en GSM-netwerken (Ahas et al., 2008). Het voordeel van LBS is dat het mogelijk is om objecten te traceren zonder dat ze beseffen dat ze getraceerd worden (Versichele et al., 2012a). Het grote nadeel van LBS is dat er geen continue tracking mogelijk is doordat er maar een beperkt aantal antennestations gebruikt worden. LBS kan niet overal gebruikt worden omdat de nodige voorzieningen niet steeds aanwezig zijn. Er zijn bijvoorbeeld ondanks de wereldwijde spreiding van mobiele telefonie toch nog plekken waar geen telefoonnetwerk beschikbaar is (Shoval & Isaacson, 2009). Anderzijds is er Satellite Based Tracking (SBT) waarbij er gebruik gemaakt wordt van Global Navigation Satellite Systems (GNSS). Het meest gebruikte GNSS is het GPS-navigatiesysteem ontwikkeld door het Amerikaanse leger. Sinds 2000 is het GPS-signaal publiek gemaakt waardoor er vele soorten GPS-ontvangers ontworpen zijn. Tegenwoordig zijn er nog andere GNSS, zoals het Russische GLONASS. Voor meer uitleg omtrent de werking van GNSS wordt doorverwezen naar specifieke literatuur (De Wulf et al., 2012). Door de objecten een GPS-ontvanger mee te geven kunnen 3D-coördinaten gelogd worden. Wanneer een object zich door een stad beweegt, wordt een sequentie van verschillende coördinaten opgeslagen. Het voordeel van SBT is dat er een continue tracking mogelijk is en dat GPS wereldwijd beschikbaar is. Een nadeel van SBT is dat de gebouwen in stedelijke gebieden de signalen sterk kunnen verstoren. Daarnaast is er indoor geen tracking mogelijk omdat er geen GPS-signaal is. In toeristisch onderzoek is het nadelig dat GPS-ontvangers op batterijen werken en dus maar beperkte tijd kunnen werken, tenzij de temporele resolutie verlaagd wordt (wat in de meeste gevallen even nadelig is als een korte levensduur van een batterij). Om een grote groep individuen te kunnen
1
Hiermee wordt niet Location Based Systems bedoeld. Dit zijn services die op een mobiel toestel geïnstalleerd worden die gebruik maken van de locatie van het toestel.
12
onderzoeken zijn er veel GPS-ontvangers nodig, wat financieel een grote kost tot gevolg heeft (Ratti et al., 2006, Shoval & Isaacson, 2009, Versichele et al., 2012a).
2.3
Sequentieanalyse
Op de verzamelde data moeten analyses doorgevoerd worden om patronen in de datasets te kunnen achterhalen. Afhankelijk van de soort data zijn er verschillende analyses mogelijk. Relative Motion (REMO) en Qualitative Trajectory Calculus (QTC) zijn twee soorten analyses op trajecten. Met het REMO-model worden trajecten van alle objecten getransformeerd in een REMO-matrix. Het is een concept waar alle trajecten relatief ten opzichte van elkaar vergeleken worden (Laube et al., 2005b). Deze methode is niet bruikbaar voor Bluetooth-data want REMO kan niet overweg met onvolledige data (Delafontaine et al., 2012). Ook QTC wordt gebruikt voor het analyseren en onderzoeken van trajecten (Delafontaine et al., 2011, Van de Weghe et al., 2006). Dit model kan wel overweg met onvolledige informatie maar heeft gegevens nodig zoals de richting en snelheid van de beweging. Dit zijn gegevens die niet gekend zijn bij tracking via Bluetooth. Ook het REMOmodel heeft dergelijke attributen nodig.
Er is dus nood aan een methode die overweg kan met Bluetooth-data. De Sequence Alignment Method of SAM is een analyse gebaseerd op de onderlinge analyse van verschillende sequenties. SAM wordt traditioneel gebruikt in de biotechnologie voor het vergelijken van DNA-strengen of proteïneketens (Delafontaine et al., 2010, 2012). De laatste twintig jaar is de interesse naar SAM toegenomen in verschillende andere vakgebieden. Abbott (1995) stelde dat er in heel wat vakgebieden met sequenties gewerkt wordt, o.a. psychologie, sociologie, archeologie, politieke wetenschappen, linguïstiek en economie. Hij was één van de pioniers die SAM heeft toegepast op andere sequenties dan DNA-strengen of proteïneketens. Sindsdien wordt SAM gezien als een veelbelovende methode om datacollecties die zijn opgebouwd uit tijdruimtelijke sequenties te analyseren (Delafontaine et al., 2012).
Clustal, een software die bestemd is voor het aligneren en analyseren van DNA-strengen en proteïneketens, werd eind jaren ‘90 ook gebruikt binnen andere onderzoeksdomeinen (Wilson, 1998). Wilson et al. (1999) beschreef voor het eerst de software ClustalG. Deze software is een vernieuwde versie van de reeds bestaande Clustal serie. ClustalG is niet meer beperkt tot sequenties van één karakter, waarbij het één van de twintig mogelijke letters 13
aanneemt. Er kunnen nu sequenties opgebouwd worden met onderdelen die tot zes karakters bevatten. Dit zorgt ervoor dat er meer dan twintig mogelijkheden/events zijn. In deze studie is dit een vereiste aangezien er op 31 locaties een Bluetooth-scanner staat. Dit wordt nog verder besproken
in
3.3.
ClustalG is
nog maar
weinig
gebruikt
in
onderzoek
naar
sequentiealignering. Shoval & Isaacson (2007) hebben ClustalG gebruikt om tijdruimtelijke trajecten van toeristen in Akko, Israël te onderzoeken. De dataverzameling gebeurde via GPS. De exacte GPS-coördinaten werden gegeneraliseerd naar een sequentie van vooraf afgebakende divisies. Uit het onderzoek wilden de auteurs besluiten trekken omtrent de trajecten van de toeristen die Akko bezochten. Ook Wilson (2001) heeft ClustalG uitgetest op het tijdruimtelijk gedrag van Canadese vrouwen.
Naast onderzoekers die ClustalG gebruiken, zijn er nog andere artikels over gedragspatronen waarbij SAM gebruikt wordt. D'Urso & Massari (2013) testten verschillende algoritmen voor het berekenen van de afstandsmaat tussen twee sequenties. Om hun bevindingen uit te testen hebben ze onder andere een test uitgevoerd op toeristen in Rome waarbij ze de sequenties van de bezochte locaties onderzochten. Delafontaine et al. (2012) gebruikten ClustalTXY om individuen op de Horecabeurs in Gent te analyseren. Verder hebben Jawad et al. (2011) gebruik gemaakt van sequentieanalyse om verplaatsingsgedrag in het transport te analyseren.
2.4
Bestaande typologieën van toeristen
Het resultaat van een sequentieanalyse levert een aantal clusters op. Eén van de doelen van deze masterproef is het toetsen van deze clusters aan reeds bestaande typologieën. Daarom moet nagegaan worden welke typologieën er bestaan en welke er in België gebruikt worden.
Er bestaan veel verschillende typologieën. Tchetchik et al. (2009) geven een kort maar grondig overzicht. Ze maken een tweedelige opdeling. Enerzijds bestaan er empirische onderzoeken, die gestaafd worden met praktijkvoorbeelden. Anderzijds zijn er conceptuele onderzoeken, die puur theoretisch zijn. Voorbeelden van conceptueel onderzoek zijn Silberberg (1995), Stebbins (1996), Richards (1996). Voorbeelden van empirisch onderzoek zijn Chen et al. (2001), Chang (2006). Tchetchik et al. (2009) halen nog andere onderzoeken aan die op basis van het gedrag van toeristen een typologie opmaken.
14
Voor deze thesis is het onderzoek van McKercher (2002) het meest relevant. Hij beschrijft een tweedimensionaal model waarbij er zowel rekening wordt gehouden met de graad van belevenis als met het belang van cultuur in de keuze van een reisbestemming. Deze typologie beperkt zicht tot de ‘cultuurtoerist’, iemand die een cultureel toeristische attractie bezoekt of de intentie heeft die te bezoeken. Het is een zeer belangrijke typologie voor deze thesis omdat ze door Toerisme Vlaanderen gebruikt wordt in de Nota Cultuur- en Erfgoedtoerisme. Het is onder meer de bedoeling van deze masterproef om nuttige informatie te bieden aan de Dienst Toerisme. Daarom is het van belang de resultaten te vergelijken met een typologie die ook daadwerkelijk binnen de dienst gebruikt wordt (N.N., 2007).
Figuur 1: Typologie van de cultuurtoerist volgens het model van McKercher Bron: (McKercher, 2002, N.N., 2007), eigen bewerking
In figuur 1 is een schematische voorstelling van de vijf typologieën van McKercher weergegeven. De vastberaden cultuurtoerist is iemand die omwille van de culturele aspecten een reisbestemming zal kiezen. Zijn culturele belevingen zijn diep waardoor hij veel lokale culturele kennis opdoet. De sightseeing toerist kiest een bestemming omwille van culturele redenen maar zal doorgaans meer verschillende locaties bezoeken dan een vastberaden cultuurtoerist. Hierdoor zijn de belevingen minder intens. Bij de toevallige cultuurtoerist speelt het culturele aspect een gematigde rol in de beslissing om een zekere bestemming te bezoeken. Dit type toeristen heeft een oppervlakkige beleving. Het vierde type toerist is de terloopse of incidentele toerist. Hij is niet geïnteresseerd en cultuur speelt amper een rol in zijn beslissing ergens naartoe te reizen. Dit type komt bijvoorbeeld in een moskee terecht om 15
te schuilen voor de regen. Als laatste hebben we de ontdekkende cultuurtoerist, die niet naar een bestemming reist uit culturele overwegingen, maar een culturele bezienswaardigheid wel als een verrijking ziet wanneer hij deze op zijn reis tegenkomt (McKercher, 2002, N.N., 2007).
McKercher (2002) stelt vast dat de verhouding van de soorten culturele toeristen afhankelijk is van de reisbestemming. De mix van toeristen wordt bepaald door de plaats in de markt van de bestemming, de reputatie als culturele locatie en het type van toeristen die tot de bestemming aangetrokken wordt. McKercher & Chow (2001) duiden op het feit dat er rekening moet gehouden worden met cultural distance. Dit is een concept dat beide dimensies van het model kan beïnvloeden. McKercher & Chow (2001) tonen aan dat wanneer een toerist verder van de cultuur van de reisbestemming verwijderd is, hij dan vaak een diepere beleving opzoekt dan toeristen die afkomstig zijn van een gelijkaardige culturele omgeving. Uit cijfers, ontvangen van de toeristische dienst te Gent, blijkt dat de Gentse toeristen voornamelijk Belgen en Europeanen zijn. De culturele verschillen zijn minder groot in vergelijking met culturele verschillen tussen verschillende continenten. Hierdoor zullen er misschien minder toeristen zijn die naar een diepgaande beleving zoeken in vergelijking met steden die meer intercontinentale toeristen hebben.
16
3
STUDIEGEBIED, MATERIALEN EN METHODEN
In dit onderdeel van de masterproef worden alle praktische aspecten besproken. Het studiegebied van deze masterproef is de stad Gent. Er wordt dieper ingegaan op de studieperiode en de keuze van de strategische locaties waar de Bluetooth-scanners worden geplaatst. Deze scanners worden gebruikt om een unieke code en tijdstip te registreren van toestellen met zichtbare Bluetooth-functie. Daarnaast wordt de gebruikte software opgelijst en enkele aspecten van het terreinwerk uitgelegd.
3.1
Studiegebied
De metingen vinden plaats is het centrum van de stad Gent. Gent is één van de zeven kunststeden van België (naast Antwerpen, Brugge, Brussel, Luik, Bergen en Namen) en bezit veel civiele en religieuze bouwwerken, zoals kerken en abdijen. Ze bevat zowel actuele als historische musea. Gent staat gekend om zijn grote evenementen zoals de Gentse Feesten en het Lichtfestival. Deze stad heeft veel verschillende facetten en is dus een zeer interessante plek om deze testen uit te voeren.
3.2
Studieperiode
Aangezien de studie over het toerisme in Gent gaat, is het aangeraden om de metingen uit te voeren in het toeristisch hoogseizoen (van april tot en met september). In augustus zijn er relatief veel bezienswaardigheden gesloten. Voor metingen tijdens de Gentse Feesten zijn bijna alle beschikbare Bluetooth-scanners in gebruik door een ander onderzoek. Er wordt gekozen voor de periode van woensdag 16/05/2012 tot en met dinsdag 29/05/2012. In deze periode zijn Pinkstermaandag en Hemelvaart inbegrepen, waardoor de kans op meer toeristen in Gent stijgt.
3.3
Bluetooth-scanners en locaties
Door de Vakgroep Geografie van de Universiteit Gent zijn een 35-tal Bluetooth-toestellen ter beschikking gesteld voor deze studie. In dit onderdeel van de masterproef wordt de methodologie van Bluetooth-tracking, de opgestelde locaties en de gebruikte hardware verder besproken. 17
3.3.1
Locaties
De Bluetooth-scanners werden opgesteld in Gentse toeristische bezienswaardigheden en hotels. De keuze van hotels en bezienswaardigheden is gemaakt in samenspraak met Dienst Toerisme van Gent. De selectie van bezienswaardigheden is gebaseerd op het stadsplan van de toeristische dienst. Dit plan bevat specifieke informatie omtrent bezienswaardigheden en hotels. In functie van deze masterproef worden per stadsdeel enkele toeristische trekpleisters uitgekozen. De stadsdelen zijn gelinkt met de voetgangersbewegwijzering in de stad en worden binnen alle toeristische toepassingen van de stad gebruikt. Deze opdeling van Gent wordt ook verder in deze masterproef gebruikt. Hierdoor kunnen de resultaten van dit onderzoek gemakkelijk gebruikt worden door de Dienst Toerisme.
Het centrum van de stad is opgedeeld in twee kwartieren die elk op zich nog onderverdeeld zijn in verschillende sites. Het eerste kwartier is het Historisch Centrum. Het bestaat uit de Toren-site, Graslei-site, Gravensteen-site, Vrijdagmarkt-site, Portus Ganda-site en de Koutersite. Het tweede kwartier is het Kunstenkwartier. Dit is verdeeld in de Zuid-site, St.Pietersplein-site, Citadelpark-site en de Bijloke-site. Om een duidelijk overzicht te hebben van deze sites is er een schematische voorstelling weergegeven in Figuur 2. Rekening houdend met het aantal beschikbare Bluetooth-scanners, zijn er zeventien toeristische attracties geselecteerd (zie Tabel 1 en Figuur 3 voor de locatie van de Bluetooth-scanners).
Figuur 2: Stadsdelen Gent Bron: (N.N., s.d., http://www.visitgent.be/nl/stadsdelen, 08/04/2012) 18
Ondanks het feit dat op de Zuid-site en de Kouter-site geen bezienswaardigheden geselecteerd zijn, kan het toch interessant zijn daar een Bluetooth-scanner te plaatsen om na te gaan of er al dan niet toeristen naar deze sites trekken. Om die reden is één Bluetooth-scanner in de parkeerwijzer op de Kouter en één in de bibliotheek op het Woodrow Wilsonplein geplaatst.
Wanneer de scanners op de Kouter en het Zuid even buiten beschouwing gelaten worden, zijn er nog vijftien scanners. In cijfers van de Dienst Toerisme over het aantal bezoekers per bezienswaardigheid, zijn dertien van de geselecteerde locaties terug te vinden. Bezoekers van de Sint-Baafskathedraal worden op het moment van de metingen niet bijgehouden. Voor het Vleeshuis zijn er ook geen exacte gegevens bekend. De overige dertien scanners coveren, zonder rekening te houden met eerder vermelde vier scanners, locaties die instaan voor 74,5% van het totaal aantal bezoeken aan de bezienswaardigheden in Gent.
Tabel 1: Bluetooth-scanners toeristische attracties
Toren-site Graslei-site
Gravensteen-site Vrijdagmarkt-site Portus Ganda-site Kouter-site Zuid-site St.-Pietersplein-site Citadelpark-site Bijloke-site
Historisch Centrum Sint-Baafskathedraal Belfort Sint-Niklaaskerk Design-museum Groot Vleeshuis Gravensteen Huis van Alijn Museum Dr. Guislain Dienst Toerisme MIAT Sint-Baafsabdij Parkeerwijzer Kunstenkwartier Bibliotheek Sint-Pietersabdij Museum voor Schone Kunsten S.M.A.K. STAM
Naast Bluetooth-scanners in bezienswaardigheden, werden ook veertien scanners in hotels opgesteld. Er werd getracht om hotels van alle prijscategorieën op te nemen in de studie (zie Tabel 2). De hotels werden geselecteerd in verhouding met het aanbod per prijscategorie. Binnen elke categorie is de keuze gebaseerd op het aantal bedden2. Er was een voorkeur voor een hoog aantal bedden, want hoe meer beschikbare bedden, hoe meer mensen mogelijk 2
Met het aantal bedden bedoelt men het aantal mogelijke slaapplaatsen in het hotel
19
getraceerd konden worden. Er is aan elk hotel een bezoek gebracht om het doel van deze masterproef uit te leggen en om goedkeuring te vragen voor het plaatsen van een Bluetoothscanner. Enkele hotels die initieel geselecteerd waren, gaven geen toestemming waardoor andere hotels in hun plaats geselecteerd werden. Er zijn vier hotels met vier sterren, vier driesterrenhotels, twee hotels met twee sterren, één hotel met één ster en nog drie hotels met een weerhouden categorie (geen sterren of hostel). Initieel is er rekening gehouden met de spreiding van de hotels. Desalniettemin zijn er enkele hotels die niet wilden samenwerken en werd het vervangende hotel gekozen op basis van het aantal bedden en werd er geen rekening meer gehouden met de spreiding. De uiteindelijke selectie voorziet in 67,2% (2905 bedden) van het totale aanbod in Gent (4323 bedden). In Bijlage 1 is de brief weergegeven die is opgesteld voor alle deelnemende partijen.
Tabel 2: Bluetooth-scanners in hotels Hotel Ghent River Hotel Holiday Inn Gent Expo NH Gent Belfort Sandton Grand Hotel Reylof Aparthotel Castelnou Best Western Hotel Chamade Holiday Inn Express Gent Novotel Gent Centrum Hotel Ibis Gent Opera Hotel Restaurant Campanile Hotel Monasterium PoortAckere Formule 1 Hostel 47 De Draecke Totaal
Kamer 77 169 174 158 48 45 120 117 134 51 60 64 9 27
Bedden 154 353 348 316 96 90 358 344 268 102 138 192 40 106 2905
Sterren 4 4 4 4 3 3 3 3 2 2 1 / / /
20
Figuur 3: Overzichtkaart locaties hotels en bezienswaardigheden Bron: Kaartgegevens afkomstig van het AGIV, eigen verwerking
21
3.3.2
Methodologie
Bluetooth is een medium om draadloos data uit te wisselen tussen mobiele toestellen. Dit gebeurt door middel van elektromagnetische golven op de industriële, wetenschappelijke en medische ISM-band met een frequentie tussen 2402 en 2480 MHz (Pels et al., 2005, Versichele et al., 2012a). Om ervoor te zorgen dat de signalen van Bluetooth-toestellen niet verstoord worden, wordt gebruik gemaakt van frequency hopping. Bluetooth maakt gebruik van een open protocol. Tijdens de inquiry fase wordt door een master-toestel naar andere Bluetooth-apparaten gezocht. Dit gebeurt door het uitzenden van inquiry packets waardoor Bluetooth-apparaten binnen het bereik van het master-toestel gestimuleerd wordt om hun MAC-adres en COD-code door te sturen naar het master-toestel. De tweede fase van het protocol houdt in dat het master-toestel en de geïdentificeerde Bluetooth-toestellen hun interne klokken synchroniseren om een gelijke frequency hopping te doen. Daarna kan er communicatie en bestandoverdracht plaatsvinden. Voor dit project voeren de Bluetoothscanners enkel het eerste deel van het protocol uit. De Bluetooth-scanner scant alle toestellen in zijn nabijheid waar de Bluetooth-functie op discoverable staat. Dit gebeurt onopgemerkt voor de gebruiker van de gescande toestellen. Hierdoor kan objectief onderzoek uitgevoerd worden naar het tijdruimtelijk gedrag van toeristen (Versichele et al., 2012a).
De registratie van een toestel houdt in dat het tijdstip, het Media Access Control (MAC)adres, de Class Of Device (COD)-code en signaalsterkte van de detectie worden opgeslagen. Het MAC-adres is een unieke code die gelinkt is aan de hardware van de Bluetooth-toestellen. Het staat niet in verband met de SIM-kaart of andere persoonlijke informatie met als gevolg dat het MAC-adres geen toegang geeft tot persoonlijke informatie. De identiteit van de eigenaar van het toestel blijft ongekend. De COD-code geeft aan welk type toestel er geregistreerd wordt. De friendly username die door de eigenaar van het mobiele toestel kan ingesteld worden, wordt niet geregistreerd omdat deze gevoelige informatie kan bevatten. Hierdoor zou de privacy in het gedrang kunnen komen.
De registraties worden lokaal in de Bluetooth-scanners opgeslagen. Indien mogelijk werd de Bluetooth-scanner met het internet verbonden zodat de geregistreerde data overgemaakt kon worden naar een centrale server. Indien er geen internet aanwezig was, kon er een Bluetoothscanner geplaatst worden die beschikt over een 3G-modem. Voor deze thesis zijn zoveel mogelijk toestellen via kabel met het internet verbonden. Indien het onmogelijk was om via 22
kabel de Bluetooth-scanner van internet te voorzien, werd een Bluetooth-scanner met 3Gmodem gebruikt. In Bijlage 2 is een gedetailleerde lijst van de gebruikte Bluetooth-Scanners weergegeven.
3.3.3
Hardware
De Bluetooth-scanners bestaan uit verschillende onderdelen: een rekeneenheid, een Bluetooth-sensor en een USB-kabel (optioneel).
3.3.3.1 Rekeneenheid De rekeneenheid zit in een plastic behuizing en bestaat uit een ALIX moederbord (alix2d2 en alix6F2). Het besturingssysteem bestaat uit een aangepaste versie van Voyage Linux (Huybrechts, 2012, Versichele et al., 2012a). Zoals eerder vermeld in deze masterproef, zijn er enkele Bluetooth-scanners met en zonder 3G-modem. De Bluetooth-scanners met 3Gmodem zijn duurder in aankoop, hebben meer kans op technisch falen en hebben een SIMkaart nodig om de data te kunnen doorzenden naar een server (Versichele et al., 2012a). Ze worden alleen gebruikt indien een internetconnectie via kabel niet mogelijk is, bijvoorbeeld door een firewall. Dit was het geval bij alle hotels van de hotelgroep Accor (zie verder). Ook in kerken en abdijen is er vaak geen internet aanwezig waardoor er een Bluetooth-scanner met 3D-modem nodig was. Bij enkele Bluetooth-scanners is er ook een switch gebruikt omdat er geen vrije internetpoorten meer over waren om de internetkabel op aan te sluiten.
3.3.3.2 Bluetooth-sensor Naast de rekeneenheid is er ook een Bluetooth-sensor vereist. Die wordt aangesloten op de rekeneenheid via een USB-poort. Bluetooth-sensoren worden opgedeeld in drie klassen, afhankelijk van hun uitzendvermogen. De gebruikte sensoren zijn allemaal van klasse 2, met uitzondering van twee klasse 1 sensoren op de Kouter en in de bibliotheek, omdat een groot bereik nodig was om een volledig plein te dekken. Het gemiddelde theoretische bereik van een klasse 2 sensor is een tiental meter. Voor een klasse 1 sensor is dit een honderdtal meter. Deze afstanden zijn echter eerder theoretisch van aard en het effectieve bereik is afhankelijk van de omgeving tussen de sensor en het gedetecteerde toestel. (Huybrechts, 2012, Versichele et al., 2012a).
23
Er werden sensoren van verschillende merken gebruikt. Om min of meer zeker te zijn dat het gewenste gebied volledig binnen het bereik van de sensor viel, werd bij iedere opstelling getest hoe ver het bereik was. Bij het installeren van de Bluetooth-scanner kan alle binnenstromende data op een laptop gevolgd worden. Doordat een extra persoon met een GSM rondliep waarvan de Bluetooth-functie actief was, kon het bereik van de sensor getest worden. Indien er geen data meer binnenliep, werd de GSM niet meer gedetecteerd. De gebruikte sensoren in deze thesis zijn weergegeven in onderstaande figuur.
(d) (a)
(b)
(c)
Figuur 4: Gebruikte Bluetooth-sensoren klasse 2: (a) D-Link DBT-122, (b) Trust, (c) Icidu en klasse 1: (d) Sena Parani UD100 Bron: Huybrechts (2012)
Tussen de rekeneenheid en de Bluetooth-sensor werd er vaak een USB-kabel gebruikt. Enerzijds is er meer vrijheid, waardoor de sensor op een strategische plaats kan opgesteld worden en anderzijds kan de rekeneenheid uit het zicht en op een veilige plaats staan. De USB-kabels werden ook gebruikt om te zorgen dat bijvoorbeeld een bepaalde zone volledig in het bereik van de sensor lag om zo alle voorbijgangers te kunnen registreren. Deze USBkabels zijn overal gebruikt, behalve in het Sandton Grand Hotel Reylof, waar de Bluetoothsensor rechtstreeks op de rekeneenheid aangesloten was.
3.4
3.4.1
Gebruikte software
Gyrid Server
Deze software werd ontwikkeld Roel Huybrechts, een medewerker aan de vakgroep Geografie van de Universiteit Gent. De Gyrid Server zorgt ervoor dat alle Bluetooth-data verzameld wordt op een server. Elke Bluetooth-scanner stuurt in real-time alle ontvangen 24
detecties door (Huybrechts, 2012, Versichele et al., 2012a). In een logfile staan datum, tijdstip, MAC-adres, COD-code en status vermeld (zie figuur 5). Het MAC-adres wordt als identificatie van een persoon gebruikt. Daarbij werd er van uit gegaan dat aan elk toestel een unieke en anonieme persoon gekoppeld is. De status wordt gebruikt om aan te geven of een toestel binnenkomt (in), weggaat (out) of kort binnen het bereik van de sensor is geweest (pass).
Naast de Bluetooth-data worden ook statusmeldingen van een scanner doorgezonden naar de server. Op die manier is een automatische controle van de Bluetooth-scanners via een webinterface mogelijk (Huybrechts, 2012). Per toestel kan je zien of het al dan niet actief is en of er data binnenloopt.
20120511-113759-CEST,00:1E:75:B7:06:9A,5898756,in 20120511-113759-CEST,54:92:BE:A1:AC:7F,5898756,in 20120511-113829-CEST,00:0C:55:FE:EE:FE,4325904,in 20120511-113845-CEST,00:0C:55:FE:EE:FE,4325904,out 20120511-113857-CEST,00:0C:55:FE:EE:FE,4325904,pass 20120511-113907-CEST,60:D0:A9:45:BA:15,5898756,pass 20120511-113920-CEST,00:0C:55:FE:EE:FE,4325904,in 20120511-113938-CEST,00:0C:55:FE:EE:FE,4325904,out 20120511-114013-CEST,60:D0:A9:45:BA:15,5898756,pass 20120511-114019-CEST,00:0C:55:FE:EE:FE,4325904,pass 20120511-114046-CEST,00:0C:55:FE:EE:FE,4325904,in
Figuur 5: Voorbeeld logfile, hotel Monasterium Poortacker
3.4.2
GisMo
GisMo werd ontwikkeld door Mathias Versichele, een doctoraatsstudent van de Vakgroep Geografie van de Universiteit Gent. GisMo staat voor Geographical Information System for Moving Objects en is geprogrammeerd in java (Versichele et al., 2013). In dit programma kunnen heel wat analyses op de Bluetooth-data uitgevoerd worden. Er kunnen dataavailability charts, time series charts, pie charts, interval charts, enz. gemaakt worden. Je kan bepaalde selecties uit de dataset halen en die exporteren om in andere programma’s te verwerken. Voor elk MAC-adres kan een sequentie samengesteld worden van alle bezochte toeristische plaatsen en hotels. Dit is een belangrijk feature voor de verdere verwerking van de Bluetooth data in ClustalG.
25
Mathias Versichele heeft de exportmogelijkheden uitgebreid naar aanleiding van deze thesis. In ClustalG moet de verwerking van dit project gebeuren met dubbele karakters. De sequenties uit GisMo konden oorspronkelijk enkel met enkelvoudige karakters geëxporteerd worden. Door deze update is het exporteren met dubbele karakters nu wel mogelijk.
3.4.3
ClustalG
ClustalG is een software voor het analyseren van activiteiten en sequenties. De grootste vernieuwing van ClustalG ten opzichte van de andere software in de Clustal-serie, is dat men niet meer beperkt is tot twintig mogelijke activiteiten. Deze restrictie is afkomstig van het maximaal aantal aminozuren, die gebruikt worden in de biotechnologie. Door het wegvallen van deze beperking wordt de software bruikbaar voor veel andere onderzoeksdomeinen. De keuze van de naam ‘ClustalG’ is gebaseerd op de algemene toepasbaarheid in verschillende vakgebieden. De ‘G’ staat namelijk voor general. De analyse die uitgevoerd wordt in ClustalG is gebaseerd op SAM, wat wordt gezien als een veelbelovende methode om datacollecties die zijn opgebouwd uit tijdruimtelijke sequenties te analyseren (Delafontaine et al., 2012). Het resultaat van ClustalG is een clustering.
3.4.4
R
Door de problemen die voorkwamen in het programma ClustalG wordt SAM ook via het statistisch pakket R (versie 3.0.0) uitgevoerd. R is een programmeertaal en omgeving om statistische analyses en onderzoeken uit te voeren (N.N., 2013, http://www.r-project.org/). Achteraf bekeken bleek enkel ClustalG niet te volstaan, meer uitleg hierover volgt in de Resultaten en Discussie van deze masterproef.
In R wordt specifiek voor deze masterproef met het Biostring pakket van Bioconductor gewerkt. De gebruikte versie is 2.28.0. en staat toe om sequenties te manipuleren en er een vorm van SAM op toe te passen door het berekenen van de Levenshtein afstand tussen alle ingeladen detecties.
26
3.5
Methode
De data van de meetperiode wordt gebruikt om trajecten van toeristen in Gent te reconstrueren. Het MAC-adres dat geregistreerd wordt door de Bluetooth-scanners is gelinkt aan één specifiek toestel. Wanneer een toestel geregistreerd wordt bij verschillende Bluetooth-scanners, kan een traject samengesteld worden. Deze trajecten zullen via SAM geanalyseerd worden. De signaalsterkte is bij dit onderzoek van minder belang. In theorie kan dit gebruikt worden om de afstand tot de Bluetooth-scanner te berekenen. In dit onderzoek is het enkel nodig om te weten of een toerist in een zeker hotel of bezienswaardigheid geregistreerd is, niet waar die zich precies ten opzichte van de scanner bevindt. Daarom wordt er gewerkt volgens het proximity principe van Bensky (2007). Dit wil zeggen dat de locatie van het geregistreerde toestel gelijk wordt gesteld aan de locatie van de Bluetooth-scanner. Bij dit onderzoek wordt de locatie dus veralgemeend en gelijkgesteld aan een hotel of bezienswaardigheid. Door aan elke Bluetooth-scanner dan een tweeledige code toe te kennen, kan met sequenties van die codes verder gewerkt worden binnen ClustalG. Eenmaal de clusters gevormd zijn, wordt onderzocht of er reeds bestaande typologieën van toeristen terug te vinden zijn.
De analyse in ClustalG is gebaseerd op SAM of Sequence Alignment Method. Om een beter inzicht te krijgen in wat het programma net doet, is het van belang om te begrijpen wat SAM precies inhoudt. Sequentiealignering is een methode om sequenties van karakters te vergelijken. SAM bestaat uit algoritmes om een similariteitsmaat te maximaliseren ofwel een afstandsmaat te minimaliseren. De sequenties worden paarsgewijs gealigneerd, dat wil zeggen dat een bepaalde sequentie met elke andere sequentie afzonderlijk vergeleken wordt (Delafontaine et al., 2012). Er bestaan verschillende soorten afstandsmaten zoals Euclidische, Manhattan en Hamming. SAM is gebaseerd op de Levenshtein afstand. Het voordeel van een alignering op basis van deze afstand is dat de volledige sequentie in rekening kan worden gebracht om de gelijkenissen met een andere sequentie te bepalen. Dit maakt van SAM een uitstekende methode om verborgen patronen te ontdekken in trajecten op basis van Bluetoothdata, ondanks de vele ontbrekende informatie (Shoval & Isaacson, 2007, Wilson, 1998).
Een sequentiealignering op basis van de Levenshtein afstand maakt gebruik van vier verschillende operaties. Identity is de eerste operatie, waarbij de kost gelijk is aan nul. De twee karakters van beide sequenties zijn bij deze operatie identiek. De tweede operatie is een 27
substitution, hierbij wordt één karakter in een ander karakter veranderd. Als laatste heb je nog de insertion en de deletion. Aangezien deze twee laatste operaties steeds hand in hand gaan, worden die samen indel genoemd. Aan substitution en indel is een kost verbonden (Delafontaine et al., 2012, Van de Weghe, 2012).
Bijna alle aligneringsmethoden zijn gebaseerd op een vergelijkingstabel. De elementen van twee sequenties worden in de hoofdkolom en in de hoofdrij geplaatst. Overal waar twee elementen uit de hoofdkolom en -rij overeenkomen, wordt een aantekening geplaatst (zie tabel 3). Wanneer visueel een diagonaal zichtbaar is in de vergelijkingstabel, komt dit overeen met gelijke opeenvolgende elementen in de twee sequenties. In tabel 3 zijn er twee diagonalen zichtbaar: een gedeelte van de blauwe opeenvolgende cellen en de rode opeenvolgende cellen. Dit toont aan dat dezelfde opeenvolging, zich drie elementen verder opnieuw voordoet.
Tabel 3: Vergelijkingstabel voor paarsgewijze alignering. Blauw = uitgezette alignering, rood = overeenkomstige opeenvolgende elementen met gedeelte blauwe alignering
Bron: Wilson et al. (1999), eigen verwerking
Aligneringsmethoden werken met een versie van bovenstaande vergelijkingstabel. De meeste methoden zijn gebaseerd op het berekenen van een cumulatieve score beginnend van de cel linksboven tot de cel rechtsonder. De score van een cel is gebaseerd op voorgaande cellen plus zijn eigen waarde. De waarde wordt berekend op basis van de operaties die uitgevoerd moeten worden op het betreffende element van de sequenties. Afhankelijk van de probleemstelling kunnen verschillende gewichten aan de soorten operaties toegekend worden (Wilson, 2008, Wilson et al., 1999). Het kan ook de voorkeur bieden dat er met verschillende substitution scores gewerkt wordt. Het is namelijk logisch dat een t-d substitutie minder afgestraft moet worden dan een o-n substitutie (Delafontaine et al., 2012). Wanneer de 28
vergelijkingstabel volledig ingevuld is kan een pad gevonden worden van rechtsonder naar linksboven met een minimale totale kost. Dit pad stelt een optimale alignering voor. Het is niet uniek en er kunnen meerder optimale aligneringen zijn voor twee sequenties (Wilson, 2008).
Wanneer drie of meer sequenties geanalyseerd worden, spreekt men van meervoudige alignering. Door het groot aantal vergelijkingstabellen wordt het moeilijk om de optimale alignering terug te vinden. Dit probleem kan omzeild worden door gebruik te maken van een boomdiagram, opgesteld uit paarsgewijze aligneringsafstanden die voordien in een matrix werden uitgezet. De alignering van de data gebeurt dan volgens de volgorde opgesteld door het boomdiagram (progressieve alignering). Eerst worden twee sequenties gealigneerd met de laagste afstandswaarde, daarna wordt een afzonderlijke sequentie aan een paar toegevoegd en vormen ze samen een groep. Uiteindelijk worden groepen bijeengevoegd en komt men tot één alignering. Men kan niet verzekeren dat de gevonden alignering de meest optimale is (Wilson, 2008).
3.6
3.6.1
Dataverzameling en terreinwerk
Vergaderingen
Deze masterproef werd opgesteld in samenwerking met de Dienst Toerisme van de stad Gent. Toen de thesis nog in zijn kinderschoenen stond, was het noodzakelijk enkele vergaderingen te organiseren met promotoren, begeleiders en andere betrokkenen. Op 24/02/2012 was er een bijeenkomst met Mathias Versichele, Kurt Van Belle, Erwin De Wiele, Professor Sidartha Gautama, Kathleen Verschuere, Professor Nico Van de Weghe en Liesbeth De Groote. Deze vergadering was van groot belang om de wensen van Stad Gent te kunnen inschatten en te weten waaraan zij nood hadden binnen hun toeristische dienst. Praktische zaken omtrent de selectie van scanners en de meetperiode werden in vergaderingen op 13/03/2012 en 05/04/2012 besproken.
3.6.2
Omstandigheden metingen
Tijdens de metingen zijn enkele scanners af en toe uitgevallen. Ook bij de start van de metingen werkten nog niet alle scanners naar behoren. Daarom wordt een kort overzicht 29
gegeven van alle gebeurtenissen per dag (zie Bijlage 3). Het opstellen van de scanners heeft vijf werkdagen in beslag genomen. Deze lange opstelperiode is voornamelijk te verklaren door de aanwezigheid van firewalls in hotels en bezienswaardigheden. De toeristische attracties die door Stad Gent worden uitgebaat, worden van internet voorzien door Digipolis. Aangezien de MAC-adressen van de Bluetooth-scanners niet gekend waren, kon Digipolis de scanners niet zomaar opnemen in hun firewall. Door een goed verloop van de communicatie met Digipolis zijn alle toestellen correct geïnstalleerd voor de start van de metingen. Bij de hotels uit de Accor-groep, namelijk Novotel Gent Centrum, Formule1 hotel en Hotel Ibis Gent Opera was het onmogelijk om de Bluetooth-scanner op het internet aan te sluiten wegens de firewall. Hierdoor zijn Bluetooth-scanners met 3G gebruikt. Verder zijn er in Best Western Hotel Chamade, Holiday Inn Express Gent en Sandton Grand Hotel Reylof ook Bluetooth-scanners met 3G gebruikt.
Er moet opgemerkt worden dat het 3G-toestel in hotel Chamade zeer vaak is uitgevallen. Dit is waarschijnlijk te wijten aan enkele lokale omstandigheden, want na vervanging van de scanner viel die nog steeds vaak uit. De scanner startte meestal zelf opnieuw op. Desalniettemin is de stroomtoevoer enkele keren onderbroken om de scanner te laten heropstarten. De sensor in het Museum Dr. Guislain is na enkele dagen vervangen door een 3G-toestel zodat de status van de Bluetooth-scanner toch online zichtbaar was. In het Zuid kon toestel 110 niet door Digipolis herkend worden, wat waarschijnlijk te wijten was aan een defect in de Bluetooth-scanner. Toestel 110 is dus ook na de derde dag van de meetperiode vervangen. In Bijlage 3 is een gedetailleerd overzicht weergegeven van alle gebeurtenissen en de weersomstandigheden gedurende de meetperiode.
30
4
RESULTATEN
In dit onderdeel van de masterproef worden de resultaten van het onderzoek besproken. Het is belangrijk dat een datatset eerst verkend wordt, vooralleer er verdere analyses op uitgevoerd worden. Dat wil zeggen der er eerst een grondige filtering doorgevoerd moet worden zodat de sequentiealignering en clustering op een betrouwbare dataset wordt uitgevoerd. Samen met de sequentiealignering wordt er een clustering uitgevoerd. Die clustering wordt hier besproken en de clusters worden onderling vergeleken.
4.1
Beschrijving dataset en voorbereidend werk
In totaal werden eenendertig locaties gedekt door Bluetooth-scanners. In Museum Dr. Guislain, Zuid en Best Western Hotel Chamade zijn er meerdere scanners actief geweest gedurende de meetperiode. Dit heeft als gevolg dat de logfiles van verschillende Bluetoothscanners moeten bijeengevoegd worden en dat sommige logfiles moeten opgesplitst worden omdat ze in meer dan één locatie gebruikt zijn. Daarnaast werden de namen van de logfiles veranderd op basis van een classificatie: hotel/hostel (H), omgeving (O), toerisme (T). Voor de hotels zijn er subklassen op basis van het aantal sterren (H0-H4). Hostels worden van hotels onderscheiden door aanduiding van HH. Bij de toeristische bezienswaardigheden wordt er een onderscheid gemaakt tussen musea3 (M), gratis attracties (G) en informatiepunt (I).
3
Met musea wordt bedoeld, alle attracties waarvoor betaald moet worden of die enkel te bezoeken zijn met een gids.
31
Figuur 6: Overzicht van gecoverde locaties met classificatie + code voor ClustalG
Wanneer de volledige dataset wordt ingeladen in GisMo kan een databeschikbaarheidsgrafiek aangemaakt worden voor de ruwe data. In Figuur 7 is dit weergegeven voor blokken van één uur. De laatste scanner bij de hotels is beginnen werken vanaf de nacht van 15 op 16 mei. De eerste afgebroken scanners zijn in de loop van 31 mei gestopt met werken. Wat de toeristische locaties betreft, zijn de scanners in het Gravensteen en in de Sint-Baafskathedraal het laatst in werking getreden: tussen 08:00 en 08:30. Beide locaties zijn ook het snelst afgebroken na de metingen. Zonder rekening te houden met de scanners op het Zuid en de Kouter kan vastgesteld worden dat er een dekking is vanaf de nacht van 15 op 16 mei tot en met de nacht van 30 op 31 mei. Dit leidt tot een eerste filtering van de dataset.
32
Figuur 7: Databeschikbaarheidsgrafiek van de ruwe dataset (in blokken van 1 h, rood en grijs = geen data beschikbaar, blauw = data beschikbaar)
4.2
Onderzoek en filtering iltering van de dataset
Het is zeer waarschijnlijk dat de verworven data veel ruis bevat. De ruwe data van de Bluetooth-scanners scanners moet exploratief onderzocht onderzocht en gefilterd worden. Het is ook belangrijk om te onderzoeken hoe een detectie van een toevallige passant kan onderscheiden worden van een detectie van een hotelgast of toerist.
Om tot een goede dataset zonder ruis te komen worden enkele stappen ondernomen. Allereerst wordt de ruwe data gefilterd op basis van de meetperiode. Daarna worden enkele eigenschappen van de data onderzocht (bv. de functionaliteit en de selectiviteit). Er wordt een filtering uitgevoerd op basis van het toesteltype en op basis basis van de verblijfstijden en de duur van de aanwezigheid.
33
4.2.1
Filteren ruwe data
Bij de beschrijving van de dataset (4.1) is duidelijk dat er een eerste ruwe filtering moet gedaan worden op basis van de beschikbaarheid van de data. De Bluetooth-sensoren op het Zuid en de Kouter werden uit de dataset verwijderd, alsook alle data voor 16/05/2012 00:00:00 en na 30/05/2012 00:00:00. Er blijven nog 29 scanners over, die gedurende een periode van vijftien dagen gewerkt hebben. Er zijn 17 496 Bluetooth-toestellen gedetecteerd gedurende die periode.
4.2.2
Onderzoek van de functionaliteit van de Bluetooth-scanners
Het is belangrijk om na te gaan of alle scanners goed gefunctioneerd hebben gedurende de meetperiode. Dit kan echter niet rechtstreeks uit de logfiles gehaald worden. Hoewel een scanner functioneel was, kan niet met 100% zekerheid gezegd worden of er al dan niet gezocht werd naar zichtbare Bluetooth-toestellen.
Door opnieuw een databeschikbaarheidstabel aan te maken in blokken van een dag, kan nagegaan worden of er dagen zijn waar er geen detecties waren (zie Bijlage 4, Figuur 1). Uit de figuur kan afgeleid worden dat er op 28/05/2012 geen detecties waren in Museum Dr. Guislain. Die dag was het Pinkstermaandag en het museum was hierdoor gesloten. Dit vormt dus
geen
probleem
voor
de
verdere
analyse.
Wanneer
we
opnieuw
een
databeschikbaarheidsgrafiek aanmaken voor de gefilterde data in blokken van één uur, kunnen enkele zaken opgemerkt worden (zie Bijlage 4, Figuur 2). Het is duidelijk dat toeristische attracties langere periodes zonder detecties kennen dan de hotels. Dit is logisch aangezien hotels 24 op 24 uur open zijn, terwijl bezienswaardigheden openingsuren hebben. Alle perioden zonder detecties lijken samen te vallen met de nachtperiodes. Uitmaken of die weinige detectieloze periodes te wijten zijn aan defecten of aan periodes waar er effectief niemand met een actief Bluetooth-toestel gepasseerd is, is onmogelijk. We gaan er vanuit dat er geen enkele locatie langdurige problemen heeft gekend.
4.2.3
Onderzoek van de selectiviteit van de Bluetooth-scanners
De Bluetooth-sensoren zijn bij het opstellen op een strategische locatie geplaatst om er zo voor te zorgen dat er geen passanten mee gescand worden. Het bereik van de Bluetooth34
scanners werd ter plaatse getest maar is afhankelijk van de omgeving, interferentie met andere signalen, de hoeveelheid nabije Bluetooth-apparaten. Het signaal verschilt dus in de tijd. Het is van belang om na te gaan of alle toestellen die gedetecteerd werden in de hotels effectief hotelgasten waren en of alle toestellen die gezien zijn in toeristische bezienswaardigheden ook effectief bezoekende toeristen waren.
In Figuur 8 is het aantal gedetecteerde Bluetooth-toestellen per locatie zichtbaar. Het is duidelijk dat er binnen de hotels heel grote verschillen zitten. Dit duidt op de mogelijkheid dat bepaalde Bluetooth-scanners veel passanten scanden of dat er veel niet-hotelgasten in het hotel aanwezig waren (vb. op restaurant of conferentie, een kijkje komen nemen in het hotel). TM_Sint-Pietersabdij_109 TM_STAM_112 TM_MuseumDrGuislain_315_329 TM_MIAT_114 TM_Gravensteen_326 TM_Belfort_121 TG_Sint-Niklaaskerk_307 TG_GrootVleeshuis_324 HH_DeDraecke_328 H4_NHGentBelfort_122 H4_GhentRiverHotel_322 H3_HolidayInnExpressGent_312 H3_BestWesternChamade_311 H2_Campanile_108 H0_Formule1_320 0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Aantal toestellen
Figuur 8: Aantal gedetecteerde Bluetooth-toestellen per locatie
Het is duidelijk dat er nog dieper onderzoek moet uitgevoerd worden naar de selectiviteit van de Bluetooth-sensoren. Net zoals bij de controle van de functionaliteit van de scanners is het niet mogelijk om met 100% zekerheid uitspraken te doen, maar kan wel een grondig inzicht verkregen worden door een aantal zaken na te gaan. Verder worden er 3 analyses op de dataset gedaan om deze selectiviteit van de scanners te kunnen nagaan. (4.2.3.1 t.e.m. 4.2.3.3). 35
4.2.3.1 Distributie van gedetecteerde toesteltypes per locatie In een logfile van een Bluetooth-sensor worden niet alleen MAC-adressen opgeslagen, maar ook COD-codes. Hiermee kan nagegaan worden welk type toestel gedetecteerd werd. Er zijn zeven mogelijke klassen: Phone, Audio/Video, Computer, Imaging, Network Access Point, Peripheral en Unknown. Uit andere onderzoeken binnen de vakgroep is duidelijk dat voetgangersbewegingen samenvallen met de klasse Phone en dat bewegingen van voertuigen gelinkt zijn aan de klasse Audio/Video. In Bijlage 5 is de verdeling van de data over de zeven klassen weergegeven voor elke locatie. Het is opvallend dat alle toeristische attracties bijna volledig uit de klasse Phone bestaan, met uitzondering van het MIAT waar min of meer 10% voertuigen aanwezig zijn. Dit laat blijken dat de sensor veel niet-bezoekers detecteert. In de hotels vormen de telefoons ook een grote groep maar zijn er steeds tussen de 5 en 20% andere toesteltypes. Het Hotel Campanile is detecteerde ongeveer 30% voertuigen, wat bijzonder veel is. Ook hier is het vermoeden, dat er veel niet-hotelgasten gedetecteerd werden sterk aanwezig. De aanwezigheid van computers en andere toesteltypes is logisch te verklaren doordat de sensoren meestal nabij een balie werden geïnstalleerd en dus de apparatuur die daar aanwezig was mee registreerden.
4.2.3.2 Openingsuren van toeristische attracties Voor de toeristische attracties wordt nagegaan of er nog veel detecties zijn buiten de openingsuren. Voor iedere bezienswaardigheid werden de openingsuren opgezocht en ingeladen in GisMo als events. Door een filter toe te passen op basis van die events kon het aantal detecties binnen de openingsuren achterhaald worden. In Figuur 9 is een grafiek zichtbaar met een percentage per bezienswaardigheid, dat de verhouding van het totaal aantal devices tegenover het aantal devices tijdens de openingsuren weergeeft. Uit deze grafiek blijkt dat de selectiviteit varieert tussen 77% voor het MIAT en quasi 100% bij het Gravensteen. Naast het MIAT heeft het Designmuseum eveneens een relatief laag percentage. Dit doet vermoeden dat deze twee scanners niet zo selectief zijn, omdat ze toestellen detecteren, ook al zijn de musea gesloten. De Sint-Baafsabdij is niet opgenomen in deze controle, omdat deze enkel toegankelijk is via een gids en op vooraf bepaalde tijdstippen.
36
29_TM_Sint-Pietersabdij_109 27_TM_STAM_112 26_TM_SMAK_115 25_TM_MuseumDrGuislain_315_329 24_TM_Museum voor Schone Kunsten_107 23_TM_MIAT_114 22_TM_Huis van Alijn_314 21_TM_Gravensteen_326 20_TM_Design museum_113 19_TM_Belfort_121 18_TI_DientToerisme_101 17_TG_Sint-Niklaaskerk_307 16_TG_Sint-Baafskathedraal_316 15_TG_GrootVleeshuis_324 0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Aantal toestellen tijdens openingsuren / totaal aantal toestellen
Figuur 9: Verhouding aantal Bluetooth-toestellen tijdens de openingsuren van bezienswaardigheden (afgeronde percentages)
4.2.3.3 Verloop tussen verschillende locatie Wanneer een toerist een stad bezoekt kunnen we aannemen dat hij in één hotel logeert. Hierdoor kan verwacht worden dat er geen verloop is tussen de hotels onderling. Tussen de bezienswaardigheden kan wel verwacht worden dat er een zekere graad van verloop zal zijn. In Tabel 4 is het verloop zichtbaar tussen alle Bluetooth-scanners. De waarden in de kruismatrix worden berekend volgens de Jaccard index :
,
=
∩ ∪
Vertaald naar de probleemstelling van deze thesis komt dit erop neer dat de verhouding van het aantal toestellen dat beide locaties bezoekt op het aantal toestellen dat minstens één van beide locatie bezoekt, berekend wordt.
Uit Tabel 4 is het duidelijk dat er zeer weinig verloop is tussen de hotels onderling, met uitzondering van het NH Gent Belfort en Novotel Gent Centrum. Van de MAC-adressen die gedetecteerd zijn in het Novotel Gent Centrum of in het NH Gent Belfort, wordt 17% ook 37
gedetecteerd in het andere hotel. Eén van beide of beide hotels zullen dus niet erg selectief zijn en eveneens passanten detecteren. Doordat de hotels zeer dicht bij elkaar gelegen zijn, uit zich dit in een duidelijk verloop. Verder valt ook een blok op met een duidelijk groter verloop tussen de volgende toeristische locaties: Groot Vleeshuis, Sint-Baafskathedraal, SintNiklaaskerk, Dienst Toerisme, Belfort, Design Museum en het Gravensteen. De associaties tussen Sint-Pietersabdij, SMAK en Museum voor Schone Kunsten is ook opvallend. Er is een duidelijk link tussen deze drie musea die net buiten het historisch centrum liggen.
Tabel 4: Overlap tussen locaties, aantal toestellen dat beide locaties bezoekt/aantal toestellen dat minstens één van beide locatie bezoekt (Jaccard index, in %; grijze vakjes dienen ter accentuering van waarde >10) TM_Belfort_121
TM_Design museum_113
TM_Gravensteen_326
TM_Huis van Alijn_314
TM_MuseumDrGuislain_315_3
TM_SMAK_115
TM_STAM_112
TM_Sint-Baafsabdij_313
TM_Sint-Pietersabdij_109
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
4
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
1
0
1
1
1
0
1
1
2
2
1
1
1
1
0
0
0
1
0
0
0
1
1
2
2
0
2
1
1
0
2
2
2
1
2
2
2
1
1
1
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
1
0
1
0
1
2
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
3
0 17 2
2
0
9
7
5
6
7
8
5
2
1
1
0
1
1
1
1
0
0
0 0
1
H3_Castelnou_104
0
0
0
0
1
H3_HolidayInnExpressGent_312
0
0
4
0
1
1
H3_NovotelGentCentrum_331
0
0
0
1
2
1
1 1
H4_GhentRiverHotel_322
0
0
0
1
2
1
1
3
H4_HolidayInnGentExpo_102
0
0
0
0
0
0
2
0
H4_NHGentBelfort_122
0
0
0
1
2
1
1 17 5
0
29 TM_Museum voor Schone Kunsten_107 TM_MIAT_114
TI_DienstToerisme_101
0 0
0
TG_Sint-Niklaaskerk_307
0 0
0
TG_Sint-Baafskathedraal_316
0 0
0
TG_GrootVleeshuis_324
0 0
1
HH_Hostel47_117
0 0
H3_BestWesternChamade_311
HH_DeDraecke_328
0 0
H2_IbisGentOpera_325
H4_SandtonGrandHotelReylof_ 301 H4_NHGentBelfort_122
0 0
1
H4_HolidayInnGentExpo_102
0 0
0
H4_GhentRiverHotel_322
0 0
H2_Campanile_108
H3_NovotelGentCentrum_331
1 0
0
H3_HolidayInnExpressGent_31 2 H3_Castelnou_104
0 1
H1_MonasteriumPoortAckere_308
H3_BestWesternChamade_311
H2_IbisGentOpera_325
0
H2_Campanile_108
H1_MonasteriumPoortAckere_ 308 H0_Formule1_320
H0_Formule1_320
5
1
2
1
4
2
2
2
3
3
2
1
3
1
0
1
1
1
1
0
0
0
1
1
1
1
0
0
1
0
0
0
0
0
0
0
0
2
2
0 16 14 7
7 10 10 8
3
1
1
0
1
1
1
1
1
H4_SandtonGrandHotelReylof_301
0
0
1
1
1
1
1
2
1
0
2
HH_DeDraecke_328
0
0
0
1
1
1
0
2
2
0
2
2
2
0
0
2
2
2
2
2
2
2
1
0
1
0
1
0
1
0
1
3
2
2
3
2
5
2
2
1
1
0
1
1
1
1
0
0
0
0
0
0
HH_Hostel47_117
1
0
0
0
0
1
0
0
1
0
0
1
TG_GrootVleeshuis_324
0
1
0
1
2
1
0
9
4
1 16 2
3
0
0
0
1
0
0
0
0
1
0
24 12 14 13 14 16 5
1
1
0
2
2
1
1
TG_Sint-Baafskathedraal_316
0
0
1
1
2
1
0
7
2
1 14 2
2
0 24
TG_Sint-Niklaaskerk_307
0
0
0
2
2
1
0
5
2
1
7
2
2
0 12 22
22 14 22 14 22 5
1
2
0
1
1
1
1
12 17 10 16 5
1
2
0
1
1
1
TI_DienstToerisme_101
0
0
0
2
1
1
0
6
2
1
7
2
3
0 14 14 12
1
10 13 15 8
1
2
0
2
2
1
TM_Belfort_121
0
0
0
1
2
1
0
7
3
0 10 2
2
0 13 22 17 10
1
11 14 4
1
1
0
1
1
1
TM_Design museum_113
0
0
0
1
2
1
0
8
3
0 10 2
5
0 14 14 10 13 11
1
12 5
1
2
0
2
1
1
TM_Gravensteen_326
0
1
0
1
2
1
0
5
2
1
8
2
2
0 16 22 16 15 14 12
2
6
1
2
0
1
1
1
TM_Huis van Alijn_314
0
0
0
1
1
1
0
2
1
0
3
1
2
0
5
5
5
8
4
5
6
1
2
2
0
2
1
4
TM_MIAT_114
0
0
0
0
1
0
0
1
3
0
1
0
1
1
1
1
1
1
1
1
1
2
2
2
0
2
1
1
1
TM_Museum voor Schone Kunsten_107
0
0
0
0
1
0
0
1
1
0
1
1
1
0
1
2
2
2
1
2
2
2
2
TM_MuseumDrGuislain_315_329
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1 21 2
TM_SMAK_115
0
0
0
1
1
1
0
1
1
0
1
1
1
0
2
1
1
2
1
2
1
2
2 21 0
1
0
2 11
1
0
3
6 20
TM_STAM_112
0
0
0
0
1
0
0
1
1
0
1
0
1
0
2
1
1
2
1
1
1
1
1
2
1
3
TM_Sint-Baafsabdij_313
0
0
0
0
1
1
0
1
1
0
1
1
1
1
1
1
1
1
1
1
1
4
1
2
0
6
1
TM_Sint-Pietersabdij_109
0
0
0
0
1
0
0
1
0
0
1
0
1
0
1
1
1
1
1
2
1
2
1 11 1 20 3
1
1
3 6
6
38
Het is duidelijk uit de drie bovenstaande controles dat er voorzichtig moet omgesprongen worden met de data. Een detectie mag niet automatisch geassocieerd worden met een activiteit. Niet alle toestellen die in een hotel gezien zijn, kunnen met hotelgasten geassocieerd kan worden. Dit geldt ook voor de detecties van toeristische attracties.
4.2.4
Filtering op basis van toesteltype
De dataset bestaat (na filtering uit 4.2.1) uit 17 496 toestellen, waarvan 16 251 (93%) telefoons. We gaan enkele verdere analyses toepassen op de groep telefoons. De kans bestaat dat er eventueel een heel klein aandeel aan toestellen uit andere klassen, die ook verbonden waren aan een persoon, zullen verloren gaan. Het is namelijk beter om een kleinere maar betrouwbaardere dataset te hebben in plaats van een iets grotere maar minder betrouwbare. Van deze telefoons zijn er 10 367 minstens één keer gezien in een hotel, en 9 369 op één van de toeristische bezienswaardigheden. Om deze cijfergegevens te verkrijgen moet een selectie uitgevoerd worden op de data met twee constraints (zie Figuur 10). Allereerst willen we enkel de telefoons meerekenen. Daarnaast moet er ook een ruimtelijke constraint zijn die ervoor zorgt dat we enkel de unieke MAC-adressen hebben die op minstens één van de hotels of bezienswaardigheden gedetecteerd zijn.
Figuur 10: Selectie maken met twee constraints, screenshot GisMo voor de hotels
39
4.2.5
Onderzoek van de verblijfstijden en de duur van de aanwezigheid
Op basis van de lengte van de tijdsintervallen van de gedetecteerde toestellen op een zekere locatie kan de vraag hoe we toevallige passanten van hotelgasten en toeristen kunnen onderscheiden, gedeeltelijk opgelost worden. In het ideale geval kunnen er twee groepen worden onderscheiden. Allereerst zijn er de zeer korte detecties die passanten zullen representeren. Daarnaast zijn er ook toestellen gedetecteerd van personen die effectief de plaats bezocht hebben of die in een bepaald hotel gelogeerd hebben. Deze materie wordt in dit hoofdstuk exploratief onderzocht.
4.2.5.1 Algemeen onderzoek van de lengte van detectie-intervallen In eerste instantie wordt de spreiding van de lengtes van de detectie-intervallen voor elke locatie onderzocht. Het resultaat is te zien in Figuur 11. Hier is te zien dat er zeer veel detecties van één seconde zijn. Dit zijn waarschijnlijk passanten en kunnen niet als ‘echte bezoekers’ geklasseerd worden.
Figuur 11: Spreiding van de lengte van de detectie-intervallen per locatie (verticale streep = gemiddelde)
Het is dus aangewezen al deze detecties uit de dataset te verwijderen. Het effect is zichtbaar in Figuur 12 (let wel: de verticale streep is nu de mediaan in de plaats van het gemiddelde). De 40
waarden van de medianen schommelen tussen 15 en 30 s. Deze analyse werd ook nog eens uitgevoerd voor de twee omgevingssensoren, die eerder uit de dataset verwijderd werden. Hier is een gelijkaardig effect aangetroffen, waarbij er zeer veel detectie-intervallen van één seconde waren. Daarnaast kan wel opgemerkt worden dat na het verwijderen van deze detecties, de mediaanwaarden lager liggen. Dit wil zeggen dat er nog meer invloed was van passanten dan bij de andere locaties die wel nog in de dataset zitten.
Figuur 12: Spreiding van de lengte van de detectie-intervallen > 1 s per locatie (verticale streep = mediaan)
Het is van belang om na te gaan hoeveel toestellen uit de dataset verdwijnen wanneer alle detecties van één of meer seconden weggefilterd worden. Figuur 13 toont het resultaat van het onderzoek naar de verwijderde toestellen. De relatieve verkleining van de verzameling gedetecteerde toestellen is zichtbaar voor de limietwaarden van 1, 5, 10 en 30 seconden. Het valt op dat sommige locaties een groter aantal toestellen detecteert met kleine detectieintervallen. De extremen (<50%, bij 30 s) hierin zijn voor de hotels Best Western Chamade, Castelnou, Novotel Gent Centrum, NH Gent Belfort, De Draecke en Hostel 47. Voor de bezienswaardigheden zijn dit het Designmuseum, Belfort, Sint-Pietersabdij, Sint-Niklaaskerk en Groot Vleeshuis.
41
TM_Sint-Pietersabdij_109 TM_Sint-Baafsabdij_313 TM_STAM_112 TM_SMAK_115 TM_MuseumDrGuislain_315_329 TM_Museum voor Schone Kunsten_107 TM_MIAT_114 TM_Huis van Alijn_314 TM_Gravensteen_326 TM_Design museum_113 TM_Belfort_121 TI_DientToerisme_101 TG_Sint-Niklaaskerk_307 TG_Sint-Baafskathedraal_316 TG_GrootVleeshuis_324 HH_Hostel47_117 HH_DeDraecke_328 H4_SandtonGrandHotelReylof_301 H4_NHGentBelfort_122 H4_HolidayInnGentExpo_102 H4_GhentRiverHotel_322 H3_NovotelGentCentrum_331 H3_HolidayInnExpressGent_312 H3_Castelnou_104 H3_BestWesternChamade_311 H2_IbisGentOpera_325 H2_Campanile_108 H1_MonasteriumPoortAckere_308 H0_Formule1_320
0%
20%
40%
60%
80%
100%
Relatief aantal toestellen phones (>=31 sec)
phones (>=11 sec)
phones (>=6 sec)
phones (>=2 sec)
phones (all)
Figuur 13: Effect van de weggefilterde korte detectie-intervallen op het aantal gedetecteerde toestellen (relatief uitgezet)
42
4.2.5.2 Onderzoek van de hotelgasten Het is belangrijk om in dit onderzoek enkel met die detecties te werken die gelinkt zijn aan effectieve hotelgasten. Uit de vorige analyse is gebleken dat het wegfilteren van korte detecties een grote invloed heeft op de resterende verzameling gedetecteerde toestellen (Figuur 13). In het ideale geval zou de resterende verzameling, waarvan de detectieintervallen langer zijn dan dertig seconden, een realistische representatie zijn van de effectieve hotelgasten.
Er kan onderzocht worden hoeveel hotelgasten er maximaal gedurende de meetperiode mogen gedetecteerd zijn. Dit kan onder meer berekend worden aan de hand van het aantal bedden4 per hotel. Er kan aangenomen worden dat het maximum aantal hotelgasten bereikt wordt indien alle bedden steeds maximaal benut zijn gedurende vijftien dagen door personen die slechts één nacht overnachten. Rekening houdend met een detectieratio van 8% (N.N., 2007) kan er een theoretische maximumwaarde berekend worden die het aantal gedetecteerde toestellen over vijftien dagen niet kan overschrijden. Aangezien de exacte gegevens gekend zijn van het aantal hotelgasten gedurende de meetperiode, kan er ook een reële maximumwaarde berekend worden. Hierbij wordt er eveneens rekening gehouden met het detectieratio van 8%. In onderstaande tabel worden deze gegevens weergegeven. Het kan interessant zijn het verschil te zien tussen de theoretische maxima en de rëele maxima. Soms zijn er grote verschillen tussen beiden, en het toont dus aan dat wanneer je met rëele cijfers kan werken je dit beter ook doet, zelfs indien het niet evident is om aan dat cijfer te geraken.
Tabel 5: Aantal bedden met daaruit resulterende theoretische maximale waarde van gedetecteerde toestellen, reële maximumwaarde op basis van de exacte cijfers gedurende de meetperiode Hotel H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117 4
Bedden 192 138 102 268 90 96 358 344 154 353 348 316 106 34
Max hotelgasten Theoretisch max toestellen Exact aantal Reëel max toestellen (bedden * 15 dagen) (ratio 8%) hotelgasten (ratio 8%) 2880 230,4 1496 119,68 2070 165,6 561 44,88 1530 122,4 1061 84,88 4020 321,6 2749 219,92 1350 108 770 61,6 1440 115,2 1043 83,44 5370 429,6 2552 204,16 5160 412,8 2254 180,32 2310 184,8 1007 80,56 5295 423,6 3037 242,96 5220 417,6 3243 259,44 4740 379,2 2784 222,72 1590 127,2 1108 88,64 510 40,8 300 24
Met het aantal bedden bedoelt men het aantal mogelijke slaapplaatsen in het hotel
43
In Bijlage 6 wordt een vergelijking gemaakt voor de hotels van het aantal gedetecteerde toestellen bij verschillende korte detectie-intervallen (uit Figuur 13) met de reële bovengrens van het aantal gedetecteerde toestellen. Het is duidelijk dat bij sommige hotels het aantal gedetecteerde toestellen reeds zonder wegfilteren van korte detectie-intervallen onder of dicht tegen de bovengrens valt. Bij andere hotels zijn er veel meer detecties dan de bovengrens, maar nemen ze progressief af in de richting van die grens.
De dataset met betrekking tot hotelbezoekers bevat bezoekers die niet noodzakelijk blijven overnachten. Er zijn veel voorbeelden waarbij mensen een hotel bezoeken maar er niet overnachten, denk maar aan congressen, etentjes in het restaurant van het hotel, mensen die informatie komen vragen. De detecties kunnen eveneens van personeel of leveranciers zijn. Om dit te controleren kunnen de verblijfstijden (Dv) onderzocht worden tussen de eerste en de laatste detectie in een bepaald hotel. Intuïtief kan aangenomen worden dat een verblijf van één nacht minstens acht uur zal duren. In Figuur 14 zijn alle verblijfstijden weergegeven. Het is opvallend dat de grens van acht uur geen clusters van datapunten doorsnijdt en dat er toch relatief veel korte bezoeken zijn van minder dan acht uur. Het is ook belangrijk een bovengrens in te stellen, want zeer grote verblijfstijden zoals bijvoorbeeld tien dagen zijn waarschijnlijk toestellen van het personeel. Uit statistieken blijkt dat de gemiddelde verblijfsduur in Vlaanderen voor het jaar 2011 op 2,43 nachten uitkomt (N.N., 2007, http://www.toerismevlaanderen.be). Intuïtief gezien en baserend op onderstaande figuur wordt de bovengrens hier op vijf dagen gelegd.
44
Figuur 14: Spreiding van de lengte van verblijfstijden per hotel. (rode strepen = datapunten, blauwe strepen = boven- en ondergrens, logaritmische as)
Naast de verblijfstijden kan verder onderzoek gedaan worden naar het effect van de duur van de totale aanwezigheid (Da) binnen de detectiezone van de Bluetooth-scanner, op een bepaalde locatie. Hierbij wordt de duur van alle detectie-intervallen opgeteld. De duur van de aanwezigheid kan dienen als een extra stap voor een filtering indien een filtering op basis van de duur van het verblijf nog niet voldoende is. In Tabel 6 wordt weergegeven hoe het aantal toestellen progressief evolueert na elke besproken stap.
Tabel 6: Progressieve evaluatie van het aantal gedetecteerde toestellen bij verschillende filterings-stappen voor de hotels (Dv = duur verblijf, Da = duur aanwezigheid) Locatie H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117
Cijfer 1496 561 1061 2749 770 1043 2552 2254 1516 3037 3243 2784 1108 300
(8%)
All
119,68 44,88 84,88 219,92 61,6 83,44 204,16 180,32 121,28 242,96 259,44 222,72 88,64 24
131 86 305 269 1305 409 749 1917 2133 500 4939 460 548 84
Phones 110 78 196 229 1087 385 617 1810 1859 477 4717 426 508 78
Dv >= 1h 79 56 116 137 276 179 407 354 603 357 1141 252 120 26
Dv > =2h 79 52 110 134 258 153 308 294 531 327 1025 237 115 24
Dv > =6h 75 52 96 119 236 124 207 235 389 197 803 202 102 23
Dv >= 8h 68 52 87 112 230 123 199 223 378 174 770 192 100 22
Dv <= 12d 60 43 85 109 205 111 197 216 359 167 718 185 84 21
Dv <= 8d 56 40 77 107 163 90 183 189 303 164 602 179 67 16
Dv <= 5d 55 39 74 106 110 73 178 160 224 154 472 166 50 14
Da >= 10 s 55 39 72 102 66 60 175 132 190 154 379 159 35 11
Da >= 30 s 54 39 72 96 46 57 174 128 147 154 316 157 31 11
Da >= 60 s 53 38 72 89 40 55 169 122 129 151 288 153 28 11
45
4.2.5.3 Onderzoek van bezoekers van toeristische locaties Zoals er bij de hotels is nagegaan of de detecties gelinkt zijn aan toestellen van hotelgasten, wordt dit hier onderzocht voor de toeristische locaties. Hiervoor vertrekken we opnieuw vanuit Figuur 13, maar focussen we enkel op de toeristische locaties. Afhankelijk van de locatie, vallen er meer of minder toestellen weg uit de dataset door het wegfilteren van detecties van korte duur. Sommige locaties zoals het Design Museum, Belfort en de SintNiklaaskerk hebben een groter aandeel korte detectie-intervallen in vergelijking met locaties zoals het Museum Dr Guislain en het Museum voor Schone Kunsten waar maar ongeveer 10% van de toestellen worden verwijderd uit de dataset wanneer alle detecties van minder dan 30 seconden worden weggefilterd.
Net als bij de hotels wordt hier onderzoek gedaan naar de invloed van het wegfilteren van korte tijdsintervallen en hoe dit tegenover de berekende maximale waarde staat. De exacte bezoekersaantallen voor de meetperiode zijn gekend, met uitzondering van het Groot Vleeshuis, Dienst Toerisme en Sint-Baafskathedraal. In de Sint-Baafskathedraal werden enkel gegevens bijgehouden van de bezoeken aan het Lam Gods. Pas in augustus 2012 is er een detectiesysteem geplaatst aan de ingang van de kathedraal die het aantal bezoekers registreert. Deze toeristische locaties worden dus even buiten beschouwing gelaten. Rekening houdend met een detectieratio van 8% kan berekend worden wat het maximaal aantal gedetecteerde toestellen per locatie zou mogen zijn. Deze gegevens zijn terug te vinden in Tabel 6.
Tabel 6: Aantal bezoekers toeristische bezienswaardigheden en maximaal aantal toestellen Locatie TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
Aantal bezoekers Aantal toestellen (ratio 8%) / / / / 14454 1156,32 / / 4804 384,32 2272 181,76 15377 1230,16 1575 126 531 42,48 3912 312,96 2147 171,76 4300 344 3353 268,24 954 76,32 5495 439,6
46
In Bijlage 7 wordt een vergelijking gemaakt van het aantal gedetecteerde toestellen bij verschillende korte detectie-intervallen (uit Figuur 13) met de berekende reële bovengrens van het aantal gedetecteerde toestellen bij bezienswaardigheden. In principe zouden we een verzameling moeten overhouden waarvan het aantal detecties overeenkomt met het aantal maximale toestellen, gebaseerd op de bezoekersaantallen die door de bezienswaardigheden zelf verzameld werden. Dit is echter nog niet het geval. Het is duidelijk dat het aantal detecties veel hoger ligt dan de grens van het aantal mogelijke toestellen.
Zoals bij de hotels wordt nu verder onderzoek gedaan naar de duur van het verblijf van de bezoekers. Een belangrijk verschil is dat niet het verschil tussen de eerste en de laatste detectie gebruikt wordt, maar dat de detectie-intervallen gecomprimeerd worden met een parameter vijf uur zonder overlap te creëren met andere locaties. Dat wil zeggen dat indien er minder dan vijf uur verschil is tussen twee opeenvolgende detecties op een bepaalde locatie (zonder dat er detecties zijn op andere locaties), die detecties aan elkaar gelinkt worden en één groot interval vormen. Deze resulterende gecomprimeerde verblijfstijden worden weergegeven in Figuur 15. Er kunnen drie clusters gevormd worden binnen de toeristische locaties. Het Groot Vleeshuis vormt een afzonderlijke cluster omdat deze enorm korte detectie-intervallen van gemiddeld ongeveer één minuut heeft. Daarna vormen de SintBaafskathedraal, Dienst Toerisme en de Sint-Niklaaskerk een afzonderlijke cluster waar de verblijfstijden een grootteorde tussen vijf en dertig minuten hebben. De laatste cluster bevat alle overige musea waarbij het overgrote deel van de verblijfstijden langer dan dertig minuten zijn. Er zijn wel enkele musea waar er meer verdeeldheid zichtbaar is en waar er bezoeken zijn die minder tijd in beslag nemen, bijvoorbeeld Sint-Baafsabdij en Sint-Pietersabij. Visueel zijn er enkele mogelijke boven- en ondergrenzen aangeduid. Die kunnen als leidraad dienen voor de verdere filtering.
47
Figuur 15: Spreiding van de lengte van verblijfstijden per toeristische locatie. (rode strepen = datapunten, blauwe strepen = mogelijke boven- en ondergrenzen, logaritmische schaal)
Naast de duur van het verblijf wordt hier eveneens verder onderzoek gedaan naar de duur van de aanwezigheid van een toestel op een bepaalde locatie binnen het bereik van de Bluetoothscanner. Hierbij worden alle detectie-intervallen bij elkaar opgeteld. Dit kan deel uitmaken van een verdere specificatie indien de filtering op basis van de duur van verblijf niet voldoende is. In Tabel 7 wordt de evolutie van het aantal toestellen weergegeven onder invloed van alle bovenstaande progressieve stappen5.
5
De uiteindelijke filtering wordt met een compressie toegepast van één minuut, de compressie van vijf uur was enkel gebruikt voor het onderzoek naar de gemiddelde duur van verblijven.
48
Tabel 7: Progressieve evaluatie van het aantal gedetecteerde toestellen bij verschillende filterings-stappen voor de toeristische bezienswaardigheden (Dv= duur verblijf, Da = duur aanwezigheid) Locatie TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
4.2.6
Cijfer / / 14454 / 4804 2272 15377 1575 531 3912 2147 4300 3353 954 5495
Herrekend (8%) / / 1156,32 / 384,32 181,76 1230,16 126 42,48 312,96 171,76 344 268,24 76,32 439,6
All 3807 3124 1187 1289 1692 1954 1525 521 198 375 109 523 376 304 358
Phones 3783 3094 1177 1282 1662 1912 1509 517 169 370 106 509 374 303 355
Dv>= 2sec 3023 2950 911 1154 976 1030 1389 472 138 366 106 485 344 264 341
Dv>= 10sec 2789 2884 852 1103 842 858 1326 453 128 365 106 475 330 256 337
Dv>= 60sec 1793 2651 764 930 599 574 1036 389 112 352 105 445 303 230 312
Dv>= 15min 705 1572 100 117 446 425 732 208 91 251 94 290 257 114 175
Dv<= 5h 407 1459 81 80 354 260 695 192 64 226 84 247 240 97 147
Da>= 10s
Da>= 30s
Da> = 60s
212
193
175
180 62
160 60
138 59
92
85
73
Resultaat filtering
Op basis van het onderzoek van verblijfstijden en de duur van de aanwezigheden wordt een verdere en definitieve filtering uitgevoerd. De hotels en toeristische attracties worden afzonderlijk besproken. De filtering is gebaseerd op voorafgaand exploratief onderzoek en op de visuele weergaven van Tabel 6 en 7 (zie Figuur 16 en 17).
4.2.6.1 Filtering hotels Visueel zijn er in Figuur 16 drie groepen hotels aanwezig. Enerzijds is er het Ibis Gent Opera en het Formule1 hotel. Zodra de duur van het verblijf groter of gelijk is aan één uur, blijft het aantal gedetecteerde toestellen min of meer constant. Dit toont aan dat deze scanners zeer selectief waren en dat er dus niet veel moet weggefilterd worden. De tweede cluster die kan worden onderscheiden bevat Best Western Chamade, Ghent River Hotel en NH Gent Belfort. Zoals vermeld in 0, is gebleken dat deze hotels de meeste problemen hadden met het scannen van passanten. Dit is ook zichtbaar in Figuur 16. Ze vertrekken van meer dan tien keer zoveel toestellen dan er maximaal zouden mogen gedetecteerd worden. Door het wegfilteren van alle toestellen waarvan de duur van het verblijf kleiner is dan een uur, is er al een significante daling zichtbaar. De overige hotels vormen een groep die zich als gemiddelde van de eerste twee besproken groepen gedraagt. Deze hotels hebben min of meer eenzelfde evolutie van het aantal gedetecteerde toestellen. Deze groep bevindt zich na het wegfilteren van alle toestellen waarvan de verblijfstijd >= 8 h en <= 5 dagen, onder de grens van 1.
49
Voor het filteren worden de eerste en de laatste clusters gefilterd tot het punt waar enkel toestellen met verblijfstijden langer dan acht uur en korter dan vijf dagen worden behouden. De filtering van de cluster met Ibis Gent Opera en Formule1 hotel zou in principe al kunnen stoppen na een verblijfstijd >=1h, maar de grens van verblijfstijden langer dan acht uur en korter dan vijf dagen is een logische grens en wordt daardoor ook op deze cluster toegepast (zie 4.2.5.2). De resterende cluster met Best Western Chamade, Ghent River Hotel en het NH Gent Belfort wordt gefilterd totdat alle toestellen een verblijf hebben tussen acht uur en vijf dagen en waarvan de duur van de aanwezigheid binnen de detectiezone van de Bluetoothscanner >= 60 s is.
Aantal toestellen / maximaal aantal toestellen (ratio 8%)
100
10
1
0,1 all
phones
dv>=1h
dv>=2h
dv>=6h
dv>=8h dv<= 12d dv<= 8d
dv<= 5d da>= 10 s da>= 30 s da>= 60 s
H0_Formule1_320
H1_MonasteriumPoortAckere_308
H2_Campanile_108
H2_IbisGentOpera_325
H3_BestWesternChamade_311
H3_Castelnou_104
H3_HolidayInnExpressGent_312
H3_NovotelGentCentrum_331
H4_GhentRiverHotel_322
H4_HolidayInnGentExpo_102
H4_NHGentBelfort_122
H4_SandtonGrandHotelReylof_301
HH_DeDraecke_328
HH_Hostel47_117
Figuur 16: Progressieve filtering hotels (dv = duur van het verblijf, da = duur van de aanwezigheid, h = uur, d = dagen, s = seconden)
4.2.6.2 Filtering toeristische bezienswaardigheden Allereerst zullen we de bezienswaardigheden bekijken die vrij te bezoeken en gratis zijn. Hiermee worden de Sint-Niklaaskerk, Dienst Toerisme, Sint-Baafskathedraal en het Groot vleeshuis bedoeld. Deze attracties zijn vrij toegankelijk waardoor mensen dus minder lang 50
blijven staan aan de inkom (waar overigens ook de scanners opgesteld staan). Hierdoor zullen de detecties veel korter zijn. Daarom wordt hier gekozen voor een filtering waarbij alle detecties met een verblijfstijd onder de 10 seconden worden verwijderd uit de dataset. Er is in Figuur 17 een cluster zichtbaar waarbij de detecties niet onder de grens van 1 zakken, bij een filtering waarbij alle toestellen met een verblijfstijd tussen vijftien minuten en vijf uur behouden worden. Hierdoor wordt bij de Sint-Baafsabdij, het Huis van Alijn, Designmuseum en MIAT nog verder gefilterd waardoor enkel toestellen overblijven die bovendien ook voldoen aan de voorwaarde waarbij de duur van aanwezigheid >= 60 s moet zijn. De overige bezienswaardigheden worden gefilterd tot wanneer enkel die toestellen overblijven waarvan de verblijftijd tussen vijftien minuten en vijf uur is.
Aantal toestellen / maximaal aantal toestellen (ratio 8%)
10
1
0,1
0,01 all
phones
dv>=2sec dv>=10sec dv>=60sec dv>=15min
TG_Sint-Niklaaskerk_307 TM_Gravensteen_326 TM_Museum voor Schone Kunsten_107 TM_STAM_112
dv<=5h
TM_Belfort_121 TM_Huis van Alijn_314 TM_MuseumDrGuislain_315_329 TM_Sint-Baafsabdij_313
da>=10s
da>=30s
da>=60s
TM_Design museum_113 TM_MIAT_114 TM_SMAK_115 TM_Sint-Pietersabdij_109
Figuur 17: Progressieve filtering toeristische bezienswaardigheden (dv = duur van het verblijf, da = duur van de aanwezigheid, h = uur, d = dagen, s = seconden)
4.2.6.3 Samengevat Voor alle duidelijkheid wordt het eindresultaat van de filtering hier nog eens samengevat. In totaal blijven er nog 7 241 Bluetooth-toestellen over. Dit is 41,38% van de data na de eerste ruwe filtering, waar er 17 496 toestellen waren.
51
Tabel 8: Aantal toestellen per locatie na de filtering Locatie H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117 TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
Aantal 59 41 88 132 179 101 199 757 387 171 1940 213 201 22 3096 2973 1064 1196 1087 1099 1329 363 83 307 86 343 268 139 218
Wanneer alle hotels samen genomen worden tot één selectie, dan blijven er uiteindelijk nog 1 490 Bluetooth-toestellen over. Ten opzicht van de ruwe data voor de hotels, waar er 11 500 Bluetooth-toestellen gedetecteerd waren, is dit 12,95%. Het individuele aantal toestellen per hotel is te zien in Tabel 8. Wanneer het verloop tussen de hotels opnieuw gecontroleerd wordt, is het duidelijk dat dit veel lager is in vergelijking met het verloop tussen de hotels bij de ruwe data. Dit is het positieve effect van de filtering. Desalniettemin is er nog steeds verloop tussen Ghent River Hotel en NH Gent Belfort.
52
H2_Campanile_108
H2_IbisGentOpera_325
H3_BestWesternChamade_311
H3_Castelnou_104
H3_HolidayInnExpressGent_312
H3_NovotelGentCentrum_331
H4_GhentRiverHotel_322
H4_HolidayInnGentExpo_102
H4_NHGentBelfort_122
H4_SandtonGrandHotelReylof_301
HH_DeDraecke_328
HH_Hostel47_117
H0_Formule1_320
H1_MonasteriumPoortAckere_308
H0_Formule1_320
Tabel 9: Verloop tussen de hotels na de filtering
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
4
0
0
0
H1_MonasteriumPoortAckere_308
0
H2_Campanile_108
0
0
H2_IbisGentOpera_325
1
0
0
H3_BestWesternChamade_311
0
0
0
0
H3_Castelnou_104
0
0
0
0
0
H3_HolidayInnExpressGent_312
0
0
2
0
0
0
H3_NovotelGentCentrum_331
0
0
0
0
1
0
0
H4_GhentRiverHotel_322
0
0
0
0
0
0
0
0
H4_HolidayInnGentExpo_102
0
0
0
0
0
0
0
0
0
H4_NHGentBelfort_122
0
0
0
0
1
0
0
4
0
0
H4_SandtonGrandHotelReylof_301
0
0
0
0
0
0
0
0
0
0
0
HH_DeDraecke_328
0
0
0
0
0
0
0
0
0
0
0
0
HH_Hostel47_117
0
0
0
0
0
0
0
0
1
0
1
0
Wanneer
naar
dezelfde
karakteristieken
gekeken
0
wordt
0
0
0
1
0
0
0
0
0
0
1
0
0
specifiek
0 0
voor
de
bezienswaardigheden, kan geconcludeerd worden dat 65,58% van de Bluetooth-toestellen behouden
worden
ten
opzichte
van
het
aantal
Bluetooth-toestellen
voor
alle
bezienswaardigheden na de ruwe filtering. Er zijn na de filtering nog 6 242 gedetecteerde toestellen, in plaats van 9 518 toestellen bij de ruwe filtering. Het exacte aantal gedetecteerde Bluetooth-toestellen per bezienswaardigheid is te zien in Tabel 8. Aan het verloop zijn kleine veranderingen
zichtbaar,
maar
het
is
duidelijk
dat
er
nog
steeds
een
groep
bezienswaardigheden is met een groot onderling verloop.
53
TM_Museum voor Schone Kunsten_107
TM_MuseumDrGuislain_315_329
TM_SMAK_115
TM_STAM_112
TM_Sint-Baafsabdij_313
TM_Sint-Pietersabdij_109
TI_DienstToerisme_101
TM_MIAT_114
19
TM_Huis van Alijn_314
11
TM_Gravensteen_326
19
25
TG_Sint-Niklaaskerk_307
TM_Design museum_113
11
TM_Belfort_121
25
TG_Sint-Baafskathedraal_316
TI_DienstToerisme_101
TG_Sint-Niklaaskerk_307
TG_GrootVleeshuis_324
TG_Sint-Baafskathedraal_316
TG_GrootVleeshuis_324
Tabel 10: Verloop tussen toeristische bezienswaardigheden na de filtering
14
5
2
9
2
0
1
0
1
1
1
0
14
8
3
12
2
0
2
0
1
1
1
0
12
10
2
9
2
1
2
0
1
1
1
1
6
4
9
2
1
2
0
1
1
1
1
3
9
3
1
1
0
1
0
0
1
3
2
0
2
0
1
1
0
1
4
1
1
0
1
1
0
1
3
1
1
1
1
2
1
2
0
0
1
1
0
1
8
2
1
3
0
1
0
0
1
2
10
1
2
14
14
12
TM_Belfort_121
5
8
10
6
TM_Design museum_113
2
3
2
4
3
TM_Gravensteen_326
9
12
9
9
9
3
TM_Huis van Alijn_314
2
2
2
2
3
2
4
TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329
0
0
1
1
1
0
1
3
1
2
2
2
1
2
1
1
2
0
0
0
0
0
0
0
1
0
1
TM_SMAK_115
1
1
1
1
1
1
1
1
0
8
0
TM_STAM_112
1
1
1
1
0
1
1
1
1
2
1
TM_Sint-Baafsabdij_313
1
1
1
1
0
0
0
2
1
1
0
2
1
TM_Sint-Pietersabdij_109
0
0
1
1
1
1
1
1
0
3
0
10
2
4.3
1
3 3
Exporteren uit GisMo
Wanneer de filtering in GisMo voltooid is, kunnen de selecties geëxporteerd worden. Er zijn verschillende exportmogelijkheden in GisMo (zie Figuur 18). Aangezien er meer dan twintig scanners zijn, moeten er dubbele karakters geëxporteerd worden voor de verwerking in ClustalG. ClustalG vereist dat de sequenties in een FASTA formaat staan. In Figuur 18 wordt een voorbeeld gegeven van een geëxporteerde selectie. Deze bestaat uit een MAC-adres en een sequentie met een dubbel karakter die hotels of bezienswaardigheden voorstellen.
54
>0002EE32918E_1 AuAuAuAuAuAuAuAuAuAuAuAuApApApApApAp >0005C9FDD99C_1 AzAzAuAuAuAoAmAtApApApApApApAtAtAt >0007ABE570BF_1 AuAuAuAuAuAuAuAkApApAs >000E6D37A654_1 AdAdAdAdAdAdAdAdAdApApAuAuAuAdAdAdAdAdAdAd >000E6D529809_1 ApApApAuAuAuAuAuAuAuAuAuAuAuAuAuAu >000FDEFE3FAB_1 AlAlAlAlAlAlAlAlAlAlAlAlAlAlAvAoAoAuAuAuAuAuAlAlAlAlAlAlA lAlAlAlApApAlAlAl >0012D16BC969_1 AoAuAuAp
(a)
(b)
Figuur 18: Exportmogelijkheden GisMo (a) en voorbeeld van geëxporteerde selectie in FASTA formaat (b)
Voor de verwerking in R moeten er geen dubbele karakters geëxporteerd worden aangezien R hoofdlettergevoelig werkt en ‘A’ verschilt van ‘a’. De geëxporteerde sequenties hoeven niet in FASTA formaat te staan.
Er kunnen verschillende soorten selecties geëxporteerd worden, naargelang wat onderzocht wordt. In functie van deze masterproef worden nog enkele nieuwe selecties aangemaakt op basis van de resulterende gefilterde selecties. Eerst worden alle selecties van de bezienswaardigheden en Dienst Toerisme samengevoegd. Er wordt ook één selectie gemaakt van alle selecties van de hotels. Het kan ook nuttig zijn de hotels per categorie te bundelen om zo bijvoorbeeld onderzoek te doen naar verschillen tussen hotels met 4 sterren en jeugdhotels. Bij het exporteren kan ook geëxperimenteerd worden met een filter. Zo wordt de unie van de selecties van de bezienswaardigheden en Dienst Toerisme ook geëxporteerd zonder de sequenties van de hotels. Zo kan het type hotel geen rol spelen in de clustering in ClustalG of R. Daarnaast wordt op alle selecties een compressie met een bepaalde factor toegepast. Dit wil zeggen dat wanneer een individu meerdere keren is gedetecteerd op één locatie, die detecties tot één detectie worden gebracht. Hierbij wordt er rekening gehouden met een vooraf bepaalde factor, die het maximale tijdverschil tussen de twee opeenvolgende detecties bepaalt. Voor deze masterproef wordt deze factor maximaal gehouden op vijftien dagen, wat overeenkomt met de duur van de meetperiode. Hierdoor wordt de lengte van het bezoek geëlimineerd als factor bij de clustering. 55
4.4
Analyse in ClustalG
4.4.1
Opstellen score-matrix
Bij de paarsgewijze alignering kan een eigen matrix aan ClustalG meegegeven worden. Deze matrix zorgt ervoor dat er gewichten toegekend worden aan de operaties die op de sequenties moeten worden uitgevoerd, om te kijken hoeveel twee strengen op elkaar gelijken (zie 3.5 Methode). Wanneer er een Identity operatie is, wordt er een score 10 gegeven. Er zijn verschillende methoden gebruikt om de matrix voor de hotels en de bezienswaardigheden op te bouwen. Hierdoor zullen deze afzonderlijk besproken worden.
4.4.1.1 Score-matrix hotels Aangezien we ervan uitgaan dat een toerist tijdens zijn verblijf in Gent maar in één hotel blijft slapen, zouden in principe alle operaties even sterk moeten afgestraft worden. Omdat er na de filtering toch nog verloop is tussen bepaalde hotels, wordt hier rekening mee gehouden in de score-matrix. De waarden die in de matrix gebruikt worden, zijn gebaseerd op de waarden die terug te vinden zijn in de matrix van het verloop tussen hotels. Er is nog steeds verloop tussen het Novotel Gent Centrum en NH Gent Belfort. Ook tussen Holiday Inn Express Gent en Campanile is er verloop. Voor operaties op die parencombinaties zal er minder afgestraft worden dan operaties op andere paren.
Tabel 11: Score-matrix voor de hotels Aa
Ab
Ac
Ad
Ae
Af
Ag
Ah
Ai
Aj
Ak
Al
Am
An
Aa
10
0
0
0
0
0
0
0
0
0
0
0
0
0
Aa
H0_Formule1_320
Ab
0
10
0
0
0
0
0
0
0
0
0
0
0
0
Ab
H1_MonasteriumPoortAckere_308 H2_Campanile_108
Ac
0
0
10
0
0
0
2
0
0
0
0
0
0
0
Ac
Ad
0
0
0
10
0
0
0
0
0
0
0
0
0
0
Ad
H2_IbisGentOpera_325
Ae
H3_BestWesternChamade_311
Ae
0
0
0
0
10
0
0
0
0
0
0
0
0
0
Af
0
0
0
0
0
10
0
0
0
0
0
0
0
0
Af
H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331
Ag
0
0
2
0
0
0
10
0
0
0
0
0
0
0
Ag
Ah
0
0
0
0
0
0
0
10
0
0
4
0
0
0
Ah
Ai
0
0
0
0
0
0
0
0
10
0
0
0
0
0
Ai
H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102
Aj
0
0
0
0
0
0
0
0
0
10
0
0
0
0
Aj
Ak
0
0
0
0
0
0
0
4
0
0
10
0
0
0
Ak
H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301
Al
0
0
0
0
0
0
0
0
0
0
0
10
0
0
Al
Am
0
0
0
0
0
0
0
0
0
0
0
0
10
0
Am
HH_DeDraecke_328
10
An
HH_Hostel47_117
An
0
0
0
0
0
0
0
0
0
0
0
0
0
56
4.4.1.2 Score-matrix bezienswaardigheden Bij de bezienswaardigheden zijn de scores gebaseerd op de afstand in vogelvlucht tussen twee toeristische attracties. Er is gekozen voor een afstand in vogelvlucht want wanneer er een afstand via het stratennetwerk zou gekozen zijn, wil dat daarom niet zeggen dat een toerist ook die weg genomen heeft van de ene bezienswaardigheid naar de andere. Om af te stappen van een concrete weg is gekozen om de afstand in vogelvlucht te meten. Daarbij is het centrum van Gent grotendeels autovrij en bestaat het uit grote pleinen waardoor mensen vaak het plein dwars oversteken, wat gedeeltelijk overeenkomt met de vogelafstand. Daarnaast is het werken met een vogelafstand veel eenvoudiger dan een afstand via een stratennetwerk. Indien de afstand groter of gelijk was aan 500 m, dan wordt standaard de afstand op 500 m6 gezet. Alle afstanden liggen dus tussen 0 en 500 m. Deze afstanden moeten herschaald worden naar een score tussen 0 en 10. Het is ook zo dat een operatie zoals een Substitution op twee bezienswaardigheden die dicht bij elkaar liggen, minder afgestraft mag worden dan een operatie op bezienswaardigheden die ver van elkaar liggen. Daarom moeten de scores ook nog omgekeerd evenredig zijn met de afstand. Om de afstanden (x) om te vormen naar de score wordt volgende formule gebruikt. 500 − 500
× 10
Die voorlopige scores houden enkel rekening met de euclidische afstand. Er is echter ook een conceptuele afstand die in rekening moet gebracht worden. Een substitutie van de SintNiklaaskerk in de Sint-Baafskathderaal moet een hogere score krijgen dan een substitutie van de Sint-Niklaaskerk in het Designmuseum. Indien de Sint-Baafskathedraal en het Designmuseum fictief op dezelfde vogelafstand van de Sint-Niklaaskerk liggen, dan mag de score niet gelijk zijn aan elkaar. In deze masterproef wordt telkens één waarde van de voorlopige score afgetrokken indien de conceptuele afstand groot is en de twee bezienswaardigheden dus niet op elkaar gelijken. Omgekeerd wordt er één waarde bijgegeven (tot een max. score van 10) indien er sterke gelijkenissen zijn tussen de bezienswaardigheden. De uiteindelijke matrix wordt weergegeven in Tabel 12. De scores werden eveneens afgerond om zo de berekeningen in ClustalG te beperken. Door gebruik te maken van deze matrix wordt de eerste wet van Tobler toegepast. “Alles is gerelateerd aan alles, maar nabije dingen zijn sterker gerelateerd dan dingen die ver van elkaar verwijderd zijn” (Tobler, 1970).
6
Deze afstand was visueel de meest logische afstand om de ruimtelijke groepen van bezienswaardigheden van elkaar te onderscheiden. Er werden andere afstanden uitgetest, maar die bleken niet beter te zijn dan de afstand van 500 m.
57
Tabel 12: Score-matrix bezienswaardigheden Ao Ap Aq Ar As At Au Av Aw Ax Ay Az Ba Bb Bc
4.4.2
Ao 10
Ap 0
Aq 5
Ar 8
As 2
At 6
Au 7
Av 5
Aw 0
Ax 0
Ay 0
Az 0
Ba 0
Bb 0
Bc 0
Ao
TG_GrootVleeshuis_324
0
10
5
0
8
0
0
0
0
0
0
0
0
0
0
Ap
TG_Sint-Baafskathedraal_316
5
5
10
4
7
4
2
1
0
0
0
0
0
0
0
Aq
TG_Sint-Niklaaskerk_307
8
0
4
10
1
7
7
4
0
0
0
0
0
0
0
Ar
TI_DienstToerisme_101
2
8
7
1
10
1
1
0
0
0
0
0
0
0
0
As
TM_Belfort_121
6
0
4
7
1
10
6
5
1
1
1
1
1
0
0
At
TM_Design museum_113
7
0
2
7
1
6
10
6
0
0
0
0
0
1
1
Au
TM_Gravensteen_326
5
0
1
4
0
5
6
10
1
1
1
1
1
0
0
Av
TM_Huis van Alijn_314
0
0
0
0
0
1
0
1
10
1
1
1
1
0
0
Aw
TM_MIAT_114
0
0
0
0
0
1
0
1
1
10
1
9
1
0
0
Ax
TM_MuseumvoorSchone Kunsten_107
0
0
0
0
0
1
0
1
1
1
10
1
1
0
0
Ay
TM_MuseumDrGuislain_315_329
0
0
0
0
0
1
0
1
1
9
1
10
1
0
0
Az
TM_SMAK_115
0
0
0
0
0
1
0
1
1
1
1
1
10
1
1
Ba
TM_STAM_112
0
0
0
0
0
0
1
0
0
0
0
0
1
10
1
Bb
TM_Sint-Baafsabdij_313
0
0
0
0
0
0
1
0
0
0
0
0
1
1
10
Bc
TM_Sint-Pietersabdij_109
SAM – dendrogram
Eens de benodigde selecties uit GisMo zijn gehaald en de score-matrix opgesteld is, kan de SAM in ClustalG van start gaan. Het inladen van de grote hoeveelheid sequenties is geen probleem. Er is namelijk voor gezorgd dat de sequenties niet onnodig lang zijn zoals in Figuur 18(b), door de herhalingen van identieke karakters te verwijderen.
Ondanks de filtering en compressie zijn de sequenties toch te lang, zijn er teveel verschillende scanners in de dataset of zijn er teveel sequenties, waardoor een SAM niet mogelijk is. Er wordt steeds opnieuw een foutmelding gegeven na ongeveer 90 minuten. Het zou het onderzoek teniet doen indien bepaalde scanners uit de sequenties zouden verwijderd worden. Daarom wordt het onderzoek via ClustalG afgebroken.
4.5
Analyse in R
Door de problemen in ClustalG zijn er geen resulterende clusters die verder onderzocht kunnen worden. Daarom wordt er alsnog gekozen om een analyse op de gefilterde data uit te voeren in R. Dit geeft de mogelijkheid toch een zekere clusteranalyse uit te voeren.
58
4.5.1
Biostrings, SAM en Hiërarchische clustering
Het pakket dat naast de standaardpakketten gebruikt werd in R, is Biostrings van Bioconductor. Dit pakket is speciaal gemaakt voor de manipulatie van grote datasets met sequentiële data zoals DNA-strengen. Het pakket is geschreven door H. Pages et al. (2013). De gebruikte functie is StringDist(). Het is een functie die de Levenshtein afstand berekent voor een set van Strings. De sequenties worden in dit pakket als Strings behandeld. Deze functie geeft een matrix terug met al deze berekende waarden. Met dit pakket wordt dus een SAM uitgevoerd op de Bluetooth-data.
Uit één van de basispakketten in R wordt de functie hclust() gebruikt die een hiërarchische clustering uitvoert. Er is keuze tussen zeven verschillende methoden om de clustering uit te voeren. In dit geval werd gekozen voor de Ward-methode omdat er min of meer gelijke clusters verwacht worden, en geen extreme uitschieters verwacht worden wegens de filtering. Hierbij wordt de variantie van een objectieve functie minimaal gehouden om zo tot optimale clustering te leiden. De twee clusters die de variantie minimaal doen stijgen worden telkens samengevoerd in plaats van de twee clusters met de grootste simmilariteit. Wat die minimale functie precies inhoudt hangt af van de opzet van de studie. De matrix uit StringDist() wordt hier gebruikt om de clustering verder uit te voeren.
4.5.2
Gebruikte code
De code die gebruikt werd binnen R is voor alle clustering gebaseerd op het stuk basiscode die terug te vinden is in Figuur 20. De verklaring van wat elke regel programmacode precies doet wordt hier verder uiteengezet. (1)
library(Biostrings)
(2)
setwd('C:/Users/UGent/Dropbox/Thesis/R')
(3)
d <- read.csv('Bezienswaardigheden_DienstToerisme_compress_exclude', sep=':', header=F)
(4)
names(d) <- c('mac', 'seq')
(5)
v <- as.character(d$seq)
(6)
sd <- stringDist(v)
(7)
c <- hclust(sd, method = "ward")
(8)
plot(c)
(9)
i <- identify(c, function(k) print(d$mac[k]))
(10)
write.csv(i[[1]],
file
=
'Bezienswaardigheden_DienstToerisme_compress_exclude_c123',
quote=F, row.names=F)
Figuur 20: Code hiërarchische clustering 59
In de eerste programmeerlijn wordt het gebruikte pakket Biostrings ingeladen. Dit pakket moet eerder al geïnstalleerd zijn. In (2) en (3) wordt de working directory gedefinieerd en een bestand ingelezen. Dit bestand bestaat uit de geëxporteerde sequenties die uit GisMo komen. Voor R hoeven deze niet in FASTA formaat te staan. Bij het inladen worden twee kolommen ingelezen, het MAC-adres en de sequentie, die gescheiden zijn door middel van een dubbelepunt. In (4) en (5) krijgen de kolommen een nieuwe naam toegekend, namelijk ‘mac’ en ‘seq’, en wordt gespecificeerd dat de kolom sequenties uit karakters bestaat. Deze kolom wordt dan in een nieuwe variabele opgeslagen. In (6) worden de Levenshtein afstanden berekend tussen alle sequenties. Deze afstanden worden gebruikt voor de hiërarchische clustering op basis van de Ward-methode in (7). (8) zorgt voor een visualisatie van het dendrogram en via (9) kan een cluster op het dendrogram gevisualiseerd worden. Tijdens het aanklikken van een cluster, worden alle MAC-adressen geprint die in de cluster zitten. Door die MAC-adressen weg te schrijven naar een bestand in (10) kunnen de clusters verder onderzocht worden in GisMo.
4.5.3
Clustering op basis van alle bezienswaardigheden en Dienst Toerisme
4.5.3.1 Inclusief hotels Het resultaat van de hiërarchische clustering van de sequenties bestaande uit de unie van alle bezienswaardigheden en Dienst Toerisme is weergegeven in Figuur 21. Bij het exporteren uit GisMo zijn de detecties van de hotels niet weggefilterd.
Figuur 21: Dendrogram van clustering op basis van alle bezienswaardigheden en Dienst Toerisme, inclusief hotels (Blauwe lijn = grens waar de clusters bepaald werden) 60
Op het aangeduide niveau in Figuur 21 zijn er vijf clusters zichtbaar. Visueel is meteen duidelijk dat C17 niet meer verder is onderverdeeld in verschillende clusters. Hierdoor kan meteen besloten worden dat deze cluster een verzameling is van allemaal identieke sequenties. Wanneer het resultaat van deze vijf clusters in GisMo geïmporteerd wordt kunnen een aantal zaken verder onderzocht worden. C1 bestaat uit alle sequenties die enkel en alleen gedetecteerd zijn in het Groot Vleeshuis gedurende de volledige meetperiode. In Tabel 13 is het gemiddelde en de mediaan van het aantal karakters per cluster weergegeven. C1 en C2 bestaan voornamelijk uit eenmalige bezoeken aan een bezienswaardigheid. C4 en C5 hebben beiden een mediaan van drie karakters per sequentie. C3 bevat het grootste aantal karakters per sequentie.
Tabel 13: Mediaan en gemiddelde lengte van de sequenties per cluster Cluster
Gemiddelde
Mediaan
Aantal sequenties
C1
1
1
568
C2
1,12
1
1423
C3
7,98
7
784
C4
2,9
3
1154
C5
3,23
3
2313
In Bijlage 8 is een overzicht weergegeven van het aantal unieke objecten per locatie per cluster. Voor C2 is het duidelijk dat ongeveer 1/3 de Sint-Baafskathedraal bezocht heeft. Dit is lager dan in C3, C4 en C5. C2 heeft procentueel het meeste individuen die het STAM bezocht hebben, daarnaast scoren ook de andere bezienswaardigheden in het kunstenkwartier relatief hoger dan bij de andere clusters. C3 scoort hoog bij alle bezienswaardigheden die zich in het historisch centrum van de stad bevinden. In deze cluster heeft ongeveer 40% de Dienst Toerisme bezocht, wat het hoogste percentage is in vergelijking met de andere clusters. C4 en C5 hebben eveneens veel individuen die de bezienswaardigheden in de historische kern bezoeken, hoewel C5 in het algemeen daar iets lagere percentages heeft dan C4. C5 heeft dan weer de hoogste percentages ten opzichte van de andere clusters wat het SMAK en het Museum voor Schone Kunsten betreft.
Wanneer we ons focussen op de hotels, kan vastgesteld worden dat C3 voornamelijk alle hotelgasten bevat. Indien teruggekeken wordt naar het aantal toestellen na de filtering kan hier
7
Alle clusters worden vermeld door ‘C’ gevolgd door het nummer van de cluster.
61
gezegd worden dat alle types hotels in deze cluster vertegenwoordigd zijn. C3 scoort bij veel hotels hoog en kan min of meer gezien worden als de cluster met overwegend overnachtende toeristen. C2 heeft bijzonder weinig toestellen die ook gedetecteerd zijn in een hotel. C4 en C5 bevatten hotelgasten, maar minder in vergelijking met C3.
Rekening houdend met bovenstaande feiten kan beredeneerd worden dat C2 detecties bevat van museabezoekers die specifiek een stad bezoeken voor een bepaald museum. Deze toeristen hebben waarschijnlijk bepaalde voorkennis en bezoeken enkel die musea die hen interesseren. Deze cluster gaat amper gepaard met overnachtingen. Dit is logisch want mensen die naar een stad komen om één museum te bezoeken zullen zelden blijven overnachten. C3 bevat zoals eerder vermeld het grootste aandeel aan hotelgasten. De toeristen uit C3 bezoeken voornamelijk het historisch centrum. C4 en C5 zijn eerder een mengeling van C2 en C3. Het is minder duidelijk om conclusies uit deze clusters te trekken.
4.5.3.2 Exclusief hotels Het kan ook nuttige resultaten opleveren indien een clustering uitgevoerd wordt als alle detecties van de hotels verwijderd worden uit de sequenties. Hier wordt dus opnieuw een unie gemaakt van alle bezienswaardigheden en Dienst Toerisme. In tegenstelling tot in 4.5.3.1 worden de hotels bij het exporteren buiten beschouwing gelaten. De clustering van deze geëxporteerde sequenties worden weergegeven in Figuur 22.
Figuur 22: Dendrogram van clustering op basis van alle bezienswaardigheden en Dienst Toerisme, exclusief hotels (Blauwe lijn = grens waar de clusters bepaald werden, Rode lijn = analyse op groep clusters) 62
Op het aangeduide niveau in Figuur 22 zijn er zeven clusters zichtbaar. Visueel is meteen duidelijk dat C4 en C5 niet verder onderverdeeld zijn in verschillende clusters. Ook hier bestaan deze clusters uit allemaal identieke sequenties. Door de clusters te exporteren uit R en te importeren in GisMo kunnen een aantal basiskarakteristieken onderzocht worden. In Tabel 14 is de gemiddelde lengte en de mediaan weergegeven. We kunnen zien dat C1 de langste sequenties bevat. C2 en C3 hebben een mediaan van drie karakters per sequentie. Sequenties van C4 tot en met C7 hebben een gemiddelde lengte tussen 1,15 en 2,14 karakters per sequentie.
Tabel 14: Mediaan en gemiddelde lengte van de sequenties per cluster Cluster
Gemiddelde
Mediaan
Aantal sequenties
C1
5,12
5
779
C2
3,22
3
582
C3
2,79
3
1275
C4
1
1
881
C5
1
1
687
C6
1,15
1
903
C7
2,14
2
1135
In Bijlage 9, Tabel 1 is een overzicht gegeven van het aantal unieke objecten per locatie voor elke cluster. C4 en C5 zijn niet weergegeven in de bijlage omdat elke cluster uit eenzelfde veelvoorkomende sequentie bestaat. C4 bevat alle sequenties die gedurende de meetperiode enkel het Groot Vleeshuis bezocht hebben. C5 bevat alle sequenties die enkel uit één karakter bestaan. Dit karakter vertegenwoordigt de Sint-Baafskathedraal. We zien dat C1, C2 en C3 voornamelijk hoog scoren op alle bezienswaardigheden binnen het historische centrum. C6 en C7 scoren dan iets hoger op de bezienswaardigheden buiten het centrumgebied.
Het lijkt interessant om de eerste drie clusters samen te voegen en die te vergelijken met een unie van de laatste twee clusters. Dit wordt weergegeven in Figuur 22. In Bijlage 9 worden het aantal unieke objecten per locatie per groep clusters weergegeven. Het is duidelijk dat C123 voornamelijk gefocust is op bezoeken aan het historisch centrum. Het aantal bezoeken aan Dienst Toerisme is voor C123 ongeveer 7% hoger. C67 heeft veel unieke objecten die musea bezoeken in het kunstenkwartier terwijl het aantal bezoeken aan bezienswaardigheden in het historisch centrum lager ligt dan bij C123. 63
Uit bovenstaande feiten kan geconcludeerd worden dat C1 tot en met C3 toeristen bevatten die eerder het historisch centrum bezoeken. Gemiddeld zullen ze tussen drie en vijf bezienswaardigheden bezoeken. Toeristen die het historisch centrum bezoeken zullen minder vaak één bezienswaardigheid bezoeken. Tegenovergesteld zijn C6 en C7 eerder clusters met toeristen die ook interesse tonen in de bezienswaardigheden in het kunstenkwartier. Deze clusters worden getypeerd door bezoeken aan gemiddeld 1 tot 2 bezienswaardigheden. Zoals in 4.5.3 kan ook hier geconcludeerd worden dat de toeristen in C6 en C7 een diepere ervaring zoeken en vaak reeds vooraf bepaald hebben wat ze gaan bezoeken. Doordat ze weinig bezoeken blijven ze ook minder vaak overnachten.
4.5.4
Clustering op basis van alle hotels
Een clustering van de geëxporteerde sequenties van de unie van alle selecties van alle hotels kan interessant zijn om te onderzoeken wat het gedrag van een overnachtende toerist is. Bij het exporteren wordt een compressie uitgevoerd maar worden geen andere scanners uit de sequenties verwijderd. Het resultaat van de clustering is zichtbaar in Figuur 23.
Figuur 23: Dendrogram van clustering op basis van alle hotels (Blauwe lijn = grens waar de clusters bepaald werden)
Volgens het dendrogram lijkt het logisch om drie clusters te kiezen. In Bijlage 10 worden alle unieke objecten per locatie per cluster weergegeven. C1 vertegenwoordigt hotelgasten die zeer weinig tot geen bezienswaardigheden bezocht hebben. Dit is eveneens af te leiden uit 64
tabel 15. De sequenties uit C1 hebben een gemiddelde lengte van 1,06 karakters want er moet minimaal één karakter een hotel representeren. Met een mediaan van 1 en een gemiddelde van 1, 06 is er geen ruimte meer voor een extra karakter die mogelijks een bezienswaardigheid zou kunnen representeren. C2 bevat lange sequenties van gemiddeld 11,96 karakters lang. In Bijlage 10 is het overduidelijk dat C2 de cluster is die het grootste aantal objecten bevat die bezienswaardigheden hebben bezocht gedurende hun verblijf in Gent. C3 bevindt zich ergens tussen C1 en C2. De gemiddelde lengte van de sequenties is 4,79 en alle percentages van het aantal objecten per locatie zijn beduidend lager dan bij C2. Wat opvalt bij C3 is dat de hotels die buiten het historisch centrum liggen, zoals Holiday Inn Express Gent, Holiday Inn Gent Expo en Hostel 47 hogere percentages hebben dan bij de andere clusters. Toeristen die gedetecteerd zijn in deze hotels zullen daar eerder verblijven voor conventies en andere zaken, dan dat ze in Gent zijn om een toeristisch bezoek te brengen aan het historisch centrum en het kunstenkwartier.
Tabel 15: Mediaan en gemiddelde lengte van de sequenties per cluster Cluster
Gemiddelde
Mediaan
Aantal sequenties
C1
1,06
1
796
C2
11,96
11
139
C3
4,79
4
555
4.6
Analyse in GisMo
Naast de analyses van de clusters in GisMo kunnen nog enkele interessante zaken onderzocht worden op de verworven data. Zo kan geanalyseerd worden wat het gedrag is per type hotel en wat het grote verschil is tussen toeristen die al dan niet de Dienst Toerisme bezocht hebben.
4.6.1
Analyse van de toeristen per type hotel
Het kan interessant zijn om na te gaan hoe de toeristen uit bepaalde hotels zich gaan gedragen en of dit anders is dan toeristen uit een ander hotel. Daarom kan het nuttig zijn om alle viersterrenhotels samen te brengen in één selectie en om dit te doen voor elk type hotel.
65
In Bijlage 11 zijn per locatie het aantal unieke objecten weergegeven voor elk type hotel. De gasten die blijven overnachten in een hostel blijken over het algemeen de meest exploratieve toeristen te zijn. Bij bijna alle scanners die in het kunstenkwartier opgesteld stonden of net buiten de kern van het historisch centrum scoort de groep hostels het hoogst. We zien dat net deze toeristen het minst naar het bureau van toerisme gaan. Dit kan eventueel te verklaren zijn doordat ze in de hostels veel informatie krijgen over toeristische bezienswaardigheden. De toeristen uit een eensterrenhotel (in deze masterproef is er maar 1 hotel opgenomen in het onderzoek) gaan voornamelijk naar de typische bezienswaardigheden in het historisch centrum. Deze toeristen gaan procentueel het meest inlichtingen vragen bij de Dienst Toerisme. Niet veel toeristen uit een tweesterrenhotel gaan naar bezienswaardigheden in het kunstenkwartier. Ze gaan eerder de bezienswaardigheden in het historisch centrum bezoeken. De cijfers van de drie- en viersterrenhotels zijn moeilijk eenduidig te interpreteren door de aanwezige overlap tussen Novotel Gent Centrum en NH Gent Belfort. De niet-selectiviteit is duidelijk te zien in de cijfers van Bijlage 11. Bij elk type hotel heeft gemiddeld 25% van de toeristen ook het NH Gent Belfort bezocht (wat bijzonder veel is in vergelijking met de andere percentages) en ook Novotel Gent Centrum heeft met 10% een te hoog gemiddeld percentage.
4.6.2
Analyse van de toeristen die Dienst Toerisme al dan niet hebben bezocht
Voor de Dienst Toerisme kan het nuttig zijn om kennis te hebben over hoe een toerist zich gedraagt indien ze wel of niet een bezoek gebracht heeft aan het kantoor van de Dienst. Om dit na te gaan is er in GisMo een selectie gemaakt van alle bezienswaardigheden en zijn alle toestellen uit de selectie gewist die origineel (vóór de filtering) ook bij Dienst Toerisme gedetecteerd zijn. Die selectie wordt vergeleken met de selectie van alle toestellen die gedetecteerd zijn in de Dienst Toerisme (na de filtering). Deze resultaten zijn zichtbaar in Bijlage 12.
Wat meteen opvalt is dat de bezienswaardigheden die zich binnen het kunstenkwartier, de Vrijdagsmarkt-site en de Portus Ganda-site bevinden, hoger scoren bij toeristen die geen bezoek hebben gebracht aan de Dienst Toerisme. Dit geldt ook voor het Museum Dr. Guislain, dat zich toch redelijk buiten het centrum bevindt. Dit vindt men ook terug in de resultaten van de clustering. Mensen die een museum bezoeken hebben vooraf al onderzoek gedaan en weten zeer specifiek wat ze precies willen bezoeken. De musea die zich binnen de 66
Gravensteen-site, Graslei-site of Toren-site bevinden scoren hoog in beide groepen. Het feit dat deze musea wel aanspreken bij de gewone (buitenlandse) toeristen, heeft hoogstwaarschijnlijk met hun zeer gunstige ligging te maken. Toeristen die de Dienst Toerisme wel bezoeken gaan voornamelijk naar alle bezienswaardigheden binnen het historisch centrum, met uitzondering van het MIAT, de Sint-Baafsabdij en Museum Dr. Guislain.
67
5
DISCUSSIE
In dit onderdeel wordt teruggeblikt op de resultaten en wordt bekeken wat de mogelijke betekenissen en verklaringen zijn uit dit onderzoek. Daarnaast worden de resultaten getoetst aan eerder uitgevoerde onderzoeken die besproken zijn in de literatuurstudie van deze masterproef.
In de literatuurstudie wordt een belangrijke typologie aangehaald die gebruikt wordt in de Nota Cultuur- en Erfgoedtoerisme. Het is de typologie van McKercher (2002) die in deze masterproef getoetst wordt aan de resultaten van de Bluetooth-tracking van toeristen in Gent. Er zijn volgens McKercher (2002) vijf soorten toeristen; met name de ontdekkende, de vastberaden, de terloopse, de toevallige en de sightseeing cultuurtoerist. Op basis van de clustering in R kunnen we besluiten dat er zeker vastberaden cultuurtoeristen zijn. Die stemmen hoofdzakelijk overeen met de clusters waarbij er veel bezoeken zijn aan het kunstenkwartier en waarbij het aantal hotelovernachtingen lager is dan bij de andere clusters. Bijvoorbeeld C2 bij de clustering op basis van alle bezienswaardigheden, inclusief hotels, kan een cluster zijn met hoofdzakelijk vastberaden cultuurtoeristen. C6 en C7 bij de clustering op basis van alle bezienswaardigheden, exclusief hotels, voldoen aan de voorwaarden van de vastberaden cultuurtoerist. Het aantal bezochte bezienswaardigheden zal lager liggen dan bij een sightseeing cultuurtoerist omdat de vastberaden cultuurtoerist een diepere graad van belevenis zoekt, waardoor ze waarschijnlijk meer tijd in een bezienswaardigheid doorbrengen dan een andere toerist. Deze clusters kunnen eveneens bestaan uit ontdekkende cultuurtoeristen. Het verschil tussen de vastberaden en ontdekkende cultuurtoerist is hier moeilijk te onderscheiden om dat de toeristen geen vragen hebben moeten beantwoorden. Een sightseeing cultuurtoerist gaat eerder voor een volledige culturele ervaring en gaat zo veel mogelijk proberen bezoeken. Dit type toerist kan eerder herkend worden in de clusters waar er lange sequenties aanwezig zijn. Dit is het geval bij C3 uit 4.5.3.1, C1 uit 4.5.3.2 en C2 uit 4.5.4. C2 en C3 uit 4.5.3.2 hebben ook gedeeltelijk het profiel van een sightseeing toerist, maar minder uitgesproken dan C1. Deze twee clusters kunnen ook overwegend uit een ander type toerist bestaan zoals bijvoorbeeld de toevallige cultuurtoerist. Deze zal ook relatief veel bezoeken, maar zal minder vooraf plannen en zal een meer oppervlakkige graad van beleving ervaren. Een terloopse cultuurtoerist zal in verschillende clusters te vinden zijn, maar kan moeilijk geïdentificeerd worden. De clusters die bestaan uit één soort sequentie zoals C1 en
68
C4, C5 respectievelijk bij de clustering op basis van bezienswaardigheden, inclusief en exclusief hotels, bestaan hoofdzakelijk uit terloopse cultuurtoeristen.
Naast de resultaten uit de clusters zijn er nog enkele nuttige conclusies te trekken uit de analyse van de gefilterde data in GisMo. Zo is te zien dat de toeristen die overnachten in een hostel de grootste variatie aan bezienswaardigheden bezoeken. De toeristen die overnachten in een hostel gaan zowel naar het historisch centrum als naar de bezienswaardigheden in het kunstenkwartier. Daarnaast tonen de cijfers uit Bijlage 12 aan dat mensen die de Dienst Toerisme bezoeken niet buiten het historisch centrum gaan. Ook het omgekeerde is waar: toeristen die Dienst Toerisme niet raadplegen, bezoeken voornamelijk de musea buiten de Gravensteen-site, Graslei-site en Toren-site. Uit het verloop in Tabel 10 (4.2.6.3) is duidelijk dat de bezienswaardigheden binnen de Toren-site sterk aan elkaar gelinkt zijn. Het SMAK en het Museum voor Schone Kunsten hebben een grote overlap, alsook het SMAK en de SintPietersabdij die 10% overlap hebben.
Data afkomstig van Bluetooth-tracking is nog niet veel gebruikt in de literatuur om de toeristen van een bepaalde stad te gaan onderzoeken. Desalniettemin is het een uitstekende techniek om goedkoop en snel onderzoek te doen naar toeristen. Via deze acquisitiemethode kan onderzoek gedaan worden zonder dat individuen die getrackt worden daar enige weet van hebben. Het opstellen van een Bluetooth-scanner kan in het begin misschien wat stroef verlopen maar met een beetje meer praktische ervaring is het mogelijk om relatief snel veel scanners te installeren. Nadelig aan deze methode is dat je nooit 100% zeker bent van wie je precies gemeten hebt. Er zal afhankelijk van het soort onderzoek een grondige filtering moeten plaatsvinden zodat een betrouwbare dataset gecreëerd wordt waar verdere analyse op kan plaatsvinden.
Het toepassen van SAM op Bluetooth-data leek veelbelovend. Ondanks de positieve ervaringen van enkele auteurs, heeft ClustalG hier geen grote bijdrage geleverd aan het onderzoek. De opzet van ClustalG was SAM toegankelijker maken voor verschillende onderzoeksdomeinen door de beperking van twintig karakters op te heffen. Dit was een belangrijk feature voor deze masterproef aangezien er met 29 scanners gewerkt wordt. Ondanks de mogelijkheid om met meer dan twintig karakters te werken was het niet mogelijk de SAM in ClustalG tot een goed einde te brengen. Indien ClustalG de alignering wel goed zou uitvoeren, zouden de lange rekentijden het grote pijnpunt van deze software zijn. Nadat er 69
overgestapt is naar SAM in R, ging al het rekenwerk veel vlotter. In enkele seconden waren alle Levenshtein afstanden berekend tussen alle sequenties van de volledige gefilterde dataset. R lijkt een perfect programma om analyses op sequenties uit te voeren en die sequenties te manipuleren. SAM is dus een nuttige methode voor het bestuderen van sequenties, maar kan zeker niet als enige instrument gebruikt worden. De Bluetooth-data kunnen nog via andere methoden geanalyseerd worden. Een combinatie van meerdere methoden kan zeer nuttige informatie naar boven brengen over de dynamiek van het toerisme in een bepaalde stad.
Los van de SAM kunnen er via GisMo ook enkele nuttige berekeningen gedaan worden die de Bluetooth-data dieper doorgronden. Zo worden de clusters uit de SAM verder uitgediept in GisMo. Er zijn enkele basisfuncties die zeer veel gebruikt zijn bij de filtering van de data en de analyse van de clusters.
70
6
TOEKOMSTIG ONDERZOEK
Wegens de vele problemen met ClustalG was de tijd om R tot zijn maximale capaciteit te gebruiken beperkt. In de korte periode dat er met R gewerkt werd in functie van deze thesis, werd gebruik gemaakt van het pakket Biostrings van Bioconductor. Er zijn echter nog veel andere pakketten waarmee een analyse kan uitgevoerd worden. Een zeer interessant pakket naar toekomstig onderzoek toe is TraMineR. Dit pakket is geschikt voor manipulatie van sequentiële data. De focus ligt ook hier op biologische data maar de meeste beschikbare functies zijn ook toepasbaar op niet-biologische data.
Naast SAM wordt er binnen de CartoGIS onderzoeksgroep (Vakgroep Geografie) ook onderzoek gedaan naar associatieregels. Mathias Versichele gebruikt hiervoor R en gebruikt dezelfde dataset als de dataset in deze thesis. Momenteel is die studie nog volop bezig maar het ziet er een veelbelovende tool uit. Verder onderzoek naar de combinatie van associatieregels en Bluetooth-data kan zeer interessante resultaten opleveren.
71
7
BESLUIT
Uit deze masterproef is gebleken dat met Bluetooth-tracking enkele nuttige onderzoeken kunnen uitgevoerd worden in functie van toerisme. Er kan geconcludeerd worden dat Bluetooth-tracking een geschikte acquisitiemethode is om data omtrent bewegende toeristen te verzamelen. De toepassing van sequentieanalyse op de verworven Bluetooth-data resulteert in een aantal clusters. Uit deze clustering is gebleken dat er voornamelijk twee groepen toeristen kunnen gedetecteerd worden. Enerzijds de toeristen die niet blijven overnachten en voornamelijk bezienswaardigheden bezoeken buiten het historisch centrum. Vaak brengen deze toeristen geen bezoek aan de Dienst Toerisme. Anderzijds is er de groep toeristen die het historisch centrum bezoekt en zelden musea gaat bekijken buiten dit centrum. Deze toeristen brengen vaak een bezoek aan de Dienst Toerisme en blijven overnachten in de stad Gent. Tussen deze twee groepen is er eveneens een eerder kleine groep, die een combinatie is van beiden. Dit type toerist blijft overnachten in Gent en bezoekt zowel het historisch centrum als de musea in het kunstenkwartier. Procentueel bezoeken deze toeristen de Dienst Toerisme minder dan de toeristen uit de groep die voornamelijk de bezienswaardigheden in het historisch centrum bezoekt. Er is uit de cijfers gebleken dat de overnachters uit een hostel voornamelijk tot deze groep toeristen behoren. Toeristen uit een ander type hotel hebben eerder een patroon die aansluit bij de groep die voornamelijk de bezienswaardigheden in het historisch centrum bezoekt.
Er kan besloten worden dat sequentieanalyse een geschikte analysetool is voor het verwerken van Bluetooth-data omtrent de beweging van toeristen. Er is wel gebleken uit deze masterproef dat het vooropgestelde programma ClustalG waarmee de sequentieanalyse zou uitgevoerd worden, niet voldoet. Het is niet geschikt voor de hoeveelheid data die gepaard gaat met uitgebreid onderzoek over toerisme.
De bestaande typologie van McKercher (2002) kan aan de gevonden clusters getoetst worden. Er zijn enkele overeenkomsten zichtbaar maar types zoals de ontdekkende cultuurtoerist en de terloopse of toevallige cultuurtoerist zijn eerder moeilijk te detecteren in de dataset zonder dat er extra informatie verworven is omtrent de gedetecteerde toeristen.
72
8
REFERENTIELIJST
Abbott, A. (1995) "Sequence-Analysis - New Methods for Old Ideas". Annual Review of Sociology. 21, 93-113. Ahas, R., Aasa, A., Mark, U., Pae, T., Kull, A. (2007) "Seasonal Tourism Spaces in Estonia: Case Study with Mobile Positioning Data". Tourism Management. 28 (3), 898-910. Ahas, R., Aasa, A., Roose, A., Mark, U., Silm, S. (2008) "Evaluating Passive Mobile Positioning Data for Tourism Surveys: An Estonian Case Study". Tourism Management. 29 (3), 469-486. Bahaire, T., Elliott-White, M. (1999) "The Application of Geographical Information Systems (Gis) in Sustainable Tourism Planning: A Review". Journal of Sustainable Tourism. 7 (2), 159-174. Bensky, A. (2007) Wireless Positioning Technologies and Applications. Artech House. Chang, J. (2006) "Segmenting Tourists to Aboriginal Cultural Festivals: An Example in the Rukai Tribal Area, Taiwan". Tourism Management. 27 (6), 1224-1234. Chen, J. S., Kerstetter, D. L., Graefe, A. R. (2001) "Tourists' Reasons for Visiting Industrial Heritage Sites". Journal of Hospitality & Leisure Marketing. 8 (1-2), 19-31. D'Urso, P., Massari, R. (2013) "Fuzzy Clustering of Human Activity Patterns". Fuzzy Sets and Systems. 215, 29-54. De Roeck, S. (2011) Sequentieananalyse van het bewegingspatroon van de bezoekers aan de gentse feesten. Scriptie: Universiteit Gent, Vakgroep Geografie. De Wulf, A., Brondeel, M., De Maeyer, P. (2012) Satellietgeodesie. Gent: Universiteit Gent. Delafontaine, M., Cohn, A. G., Van de Weghe, N. (2011) "Implementing a Qualitative Calculus to Analyse Moving Point Objects". Expert Systems with Applications. 38 (5), 5187-5196. Delafontaine, M., Versichele, M., Neutens, T., Van de Weghe, N. (2010) Analysing Spatial and Temporal Sequences in Bluetooth Tracking Data. In Mobile positioning, spatial mobility, geography, LBS, Abstracts, ed. Ahas, R., 1-2. Delafontaine, M., Versichele, M., Neutens, T., Van de Weghe, N. (2012) "Analysing Spatiotemporal Sequences in Bluetooth Tracking Data". Applied Geography. 34, 659668. Della Lucia, M. (2012) "Economic Performance Measurement Systems for Event Planning and Investment Decision Making". Tourism Management.
73
Dietvorst, A., Ashworth, G., Larkham, P. (1994) "Cultural Tourism and Time-Space Behaviour". Building a new heritage: tourism, culture and identity in the New Europe., 69-89. H. Pages, P. Aboyoun, R. Gentleman, DebRoy, S. (2013) Package ‘Biostrings’. http://www.bioconductor.org/packages/release/bioc/manuals/Biostrings/man/Biostring s.pdf. 12/05/2013. Huybrechts, R. (2012) Realtime Bluetoothtracking Testcase Lichtfestival Gent 2012. Scriptie: Universiteit Gent, Vakgroep Geografie. Janelle, D. G., Goodchild, M. F., Klinkenberg, B. (1988) "Space-Time Diaries and Travel Characteristics for Different Levels of Respondent Aggregation". Environment and Planning A. 20 (7), 891-906. Jawad, A., Kersting, K., Andrienko, N. (2011) Where Traffic Meets DNA: Mobility Mining Using Biological Sequence Analysis Revisited. In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, 357-360. ACM. Lau, G., McKercher, B. (2006) "Understanding Tourist Movement Patterns in a Destination: A Gis Approach". Tourism and Hospitality Research. 7 (1), 39-49. Laube, P., Imfeld, S., Weibel, R. (2005a) "Discovering Relative Motion Patterns in Groups of Moving Point Objects". International Journal of Geographical Information Science. 19 (6), 639-668. Laube, P., van Kreveld, M., Imfeld, S. (2005b) "Finding Remo - Detecting Relative Motion Patterns in Geospatial Lifelines". In: Fisher, P. (Ed.) Developments in Spatial Data Handling. Berlin: Springer-Verlag Berlin, pp. 201-215. McKercher, B. (2002) "Towards a Classification of Cultural Tourists". International Journal of Tourism Research. 4 (1), 29-38. McKercher, B., Chow, B. (2001) "Cultural Distance and Participation in Cultural Tourism". Pacific Tourism Review. 5 (1), 23-32. Millonig, A., Gartner, G. (2010) A Multi-Method Approach to the Interpretation of Pedestrian Spatio-Temporal Behaviour. Berlin: Springer-Verlag Berlin. Murphy, P. E., Rosenblood, L. (1974) "Tourism: An Exercise in Spatial Search". The Canadian Geographer. 18 (3), 201-210. N.N. (2007) Toerisme in Cijfers. Rapport: Toerisme Vlaanderen. O’Neill, E., Kostakos, V., Kindberg, T., Penn, A., Fraser, D. S., Jones, T. (2006) "Instrumenting the City: Developing Methods for Observing and Understanding the Digital Cityscape". In: Ubicomp 2006: Ubiquitous Computing. Springer, pp. 315-332.
74
Öztayşi, B., Baysan, S., Akpinar, F. (2009) "Radio Frequency Identification (Rfid) in Hospitality". Technovation. 29 (9), 618-624. Pearce, D. G. (1988) "Tourist Time-Budget". Annals of Tourism Research. 15 (1), 106-121. Pels, M., Barhorst, J., Michels, M., Hobo, R., Barendse, J. (2005) "Tracking People Using Bluetooth". Implications of Enabling Bluetooth Discoverable Mode, University of Amsterdam. Ratti, C., Frenchman, D., Pulselli, R. M., Williams, S. (2006) "Mobile Landscapes: Using Location Data from Cell Phones for Urban Analysis". Environment and Planning BPlanning & Design. 33 (5), 727-748. Richards, G. (1996) "Production and Consumption of European Cultural Tourism". Annals of tourism research. 23 (2), 261-283. Shoval, N., Isaacson, M. (2006) "Application of Tracking Technologies to the Study of Pedestrian Spatial Behavior". Professional Geographer. 58 (2), 172-183. Shoval, N., Isaacson, M. (2007) "Sequence Alignment as a Method for Human Activity Analysis in Space and Time". Annals of the Association of American Geographers. 97 (2), 282-297. Shoval, N., Isaacson, M. (2009) Tourist Mobility and Advanced Tracking Technologies. Routledge. Silberberg, T. (1995) "Cultural Tourism and Business Opportunities for Museums and Heritage Sites". Tourism management. 16 (5), 361-365. Stebbins, R. A. (1996) "Cultural Tourism as Serious Leisure". Annals of tourism research. Tchetchik, A., Fleischer, A., Shoval, N. (2009) "Segmentation of Visitors to a Heritage Site Using High-Resolution Time-Space Data". Journal of Travel Research. 48 (2), 216229. Thornton, P. R., Williams, A. M., Shaw, G. (1997) "Revisiting Time-Space Diaries: An Exploratory Case Study of Tourist Behaviour in Cornwall, England". Environment and Planning A. 29 (10), 1847-1867. Tobler, W. R. (1970) "Computer Movie Simulating Urban Growth in Detroit Region". Economic Geography. 46 (2), 234-240. Van de Weghe, N. (2012) Geografische informatie wetenschap. Onuitgegeven cursus: Univeristeit Gent. Van de Weghe, N., Bellens, R., De Jaeger, T., Gautama, S., Huybrechts, R., Meier, B., Versichele, M. (2013) "Towards an Integrated Crowd Management Platform". In: Intelligent Systems for Crisis Management. Springer, pp. 301-308.
75
Van de Weghe, N., Cohn, A. G., De Tre, G., De Maeyer, P. (2006) "A Qualitative Trajectory Calculus as a Basis for Representing Moving Objects in Geographical Information Systems". Control and Cybernetics. 35 (1), 97-119. Van Der Knaap, W. G. M. (1999) "Research Report: Gis‐Oriented Analysis of Tourist Time‐Space Patterns to Support Sustainable Tourism Development". Tourism Geographies. 1 (1), 56-69. Van der Spek, S., Van Schaick, J., De Bois, P., De Haan, R. (2009) "Sensing Human Activity: Gps Tracking". Sensors. 9 (4), 3033-3055. Versichele, M., Neutens, T., Delafontaine, M., Van de Weghe, N. (2012a) "The Use of Bluetooth for Analysing Spatiotemporal Dynamics of Human Movement at Mass Events: A Case Study of the Ghent Festivities". Applied Geography. 32 (2), 208-220. Versichele, M., Neutens, T., Goudeseune, S., Van Bossche, F., Van de Weghe, N. (2012b) "Mobile Mapping of Sporting Event Spectators Using Bluetooth Sensors: Tour of Flanders 2011". Sensors. 12 (10), 14196-14213. Versichele, M., Neutens, T., Van de Weghe, N. (2013) "Person Monitoring with Bluetooth Tracking". In: Renso, C., Spaccapietra, S., Zim´anyi, E. (Ed.) Mobility Data: Modeling, Management and Understanding. Cambridge: Cambridge Univeristy Press, pp. 284-301. Wilson, C. (2001) "Activity Patterns of Canadian Women - Application of Clustalg Sequence Alignment Software". In: Passenger Travel Demand Forecasting, Planning Applications, and Statewide Multimodal Planning: Planning and Administration. Washington: Transportation Research Board Natl Research Council, pp. 55-67. Wilson, C. (2008) "Activity Patterns in Space and Time: Calculating Representative Hagerstrand Trajectories". Transportation. 35 (4), 485-499. Wilson, C., Harvey, A., Thompson, J. (1999) Clustalg: Software for Analysis of Activities and Sequential Events. In IATUR Conference Proceedings. Wilson, W. C. (1998) "Activity Pattern Analysis by Means of Sequence-Alignment Methods". Environment and Planning A. 30 (6), 1017-1038.
Internetbronnen: N.N. (2013) R-Project. http://www.r-project.org/. 06/05/2013. N.N. (s.d.) Stadsdelen Gent. http://www.visitgent.be/nl/stadsdelen. 08/04/2013. Software:
Wilson, C. (1999) ClustalG. Universiteit van Saint-Mary, Halifax, Canada. 76
R Core Team (2013) R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. (http://www.R-project.org/).
Kaarten:
Data voor kaart in deze masterproef is afkomstig van het AGIV
77
9 9.1
BIJLAGEN Bijlage 1: Brief voor de deelnemende partijen aan het onderzoek
78
9.2
Bijlage 2: Lijst Bluetooth-sensoren
79
Nummer Kabel 3G scanner 322 102 122 301 312 331 325 108 308 320 117 328 311 104 316 121 307 113 324 326 314 329 114 313 109 107 115 112 101 315 303 Bron: Eigen verweking
Naam Ghent River Hotel Holiday Inn Gent Expo NH Gent Belfort Sandton Grand Hotel Reylof Holiday Inn Express Gent Novotel Gent Centrum Hotel Ibis Gent Opera Hotel Restaurant Campanile Hotel Monasterium PoortAckere Formule 1 Hostel 47 De Draecke Best Western Hotel Chamade Castelnou Sint-Baafskathedraal Belfort Sint-Niklaaskerk Design-museum Groot Vleeshuis Gravensteen Huis van alijn Museum dr. Guislain MIAT Sint-Baafsabdij Sint-Pietersabdij Museum voor schone kunsten S.M.A.K. STAM Dienst Toerisme Zuidsite - bibliotheek Koutersite
Xcoördinaat 51,058094 51,025849 51,054857 51,054681 51,020335 51,054702 51,048004 51,019343 51,052429 51,075927 51,059894 51,057918 51,037414 51,049650 51,053029 51,053649 51,054027 51,055848 51,055902 51,057021 51,057520 51,067035 51,059543 51,053690 51,042095 51,038331 51,038257 51,044045 51,056327 51,047883 51,049836
Ycoördinaat 3,725587 3,688602 3,725447 3,714773 3,734223 3,723902 3,721306 3,736208 3,716701 3,744083 3,731434 3,719383 3,714757 3,739082 3,726767 3,724964 3,722486 3,720061 3,721767 3,721070 3,723430 3,704279 3,729202 3,736551 3,726606 3,723859 3,722733 3,717336 3,721250 3,731099 3,722578
80
9.3
Bijlage 3: Gebeurtenissen en weersomstandigheden tijdens de meetperiode
Dag
Weer
Opmerkingen m.b.t. scanners
16/05/2012
Bewolkt, geen neerslag
Museum Dr Guislain (315) werkt niet Zuid-Bibliotheek (110) werkt niet Holiday Inn Gent Expo is eens uitgevallen (102) Chamade (329) vervangen door 311
17/05/2012
Bewolkt, geen neerslag
Museum Dr Guislain (315) werkt niet Zuid-Bibliotheek (110) werkt niet Chamade (311) ’s nachts kort uitgevallen
18/05/2012
Mooi weer
Chamade (311) valt af en toe uit Museum Dr Guislain (315) vervangen door (329) Zuid-Bibliotheek (110) vervangen door (315)
19/05/2012
Mooi weer
Novotel (331) uitgevallen
20/05/2012
Mistig weer
Novotel (331) werkt terug
21/05/2012
Mistig weer
/
22/05/2012
Mooi weer
/
23/05/2012
Mooi weer
Holiday Inn Gent Expo (102) uitgvallen, werkt niet door stopcontact eens in en uit te halen
24/05/2012
Mistig,
daarna
mooi Holiday Inn Gent Expo (102) werkt terug vanaf de
weer
middag
25/05/2012
Mooi weer
/
26/05/2012
Mooi weer
Chamade (311) valt af en toe uit
27/05/2012
Mooi weer
Chamade (311) valt af en toe uit, ’s avonds gaat hij niet meer aan
28/05/2012
Mooi weer
Chamade (311) werkt terug na in en uit halen van stopcontact
29/05/2012
Wisselvallig weer
Ibis gent centrum opera (325) is uitgevallen en gaat niet aan door stopcontact in en uit te halen
Bron: Eigen verwerking
81
9.4
Bijlage 4: Beschikbaarheidstabellen ter controle van de functionaliteit van Bluetooth-scanners
Figuur 1: Databeschikbaarheidsgrafiek van gefilterde data in blokken van een dag (rood = geen data, bauw = wel data)
Figuur 2: Databeschikbaarheidsgrafiek gefilterde data in blokken van één uur (grijs en rood = geen data, blauw = wel data)
82
H0_Formule1_320
H1_MonasteriumPoortAckere_308
H2_Campanile_108
H2_IbisGentOpera_325
H3_BestWesternChamade_311
H3_Castelnou_104
H3_HolidayInnExpressGent_312
H3_NovotelGentCentrum_331
H4_GhentRiverHotel_322
H4_HolidayInnGentExpo_102
H4_NHGentBelfort_122
H4_SandtonGrandHotelReylof_301
HH_DeDraecke_328
HH_Hostel47_117
TG_GrootVleeshuis_324
TG_Sint-Baafskathedraal_316
TG_Sint-Niklaaskerk_307
TI_DientToerisme_101
TM_Belfort_121
TM_Design museum_113
TM_Gravensteen_326
TM_Huis van Alijn_314
TM_MIAT_114
TM_Museum voor Schone Kunsten_107
TM_MuseumDrGuislain_315_329
TM_SMAK_115
TM_STAM_112
TM_Sint-Baafsabdij_313
TM_Sint-Pietersabdij_109
0%
10%
20% Audio/Video
30% Computer
Imaging
50% Network access point
40%
60% Peripheral
70% Unknown
80%
90%
100%
Figuur: Spreiding van de data over zeven toetselklassen, per locatie
Phone
Spreiding toestelklassen per locatie
9.5 Bijlage 5: Spreiding van de data over zeven toestelklassen per locatie
83
9.6
Bijlage 6: Rëele bovengrens aantal gedetecteerde toestellen voor hotels
HH_Hostel47_117
HH_DeDraecke_328
H4_SandtonGrandHotelReylof_301
H4_NHGentBelfort_122
H4_HolidayInnGentExpo_102
H4_GhentRiverHotel_322
H3_NovotelGentCentrum_331
H3_HolidayInnExpressGent_312
H3_Castelnou_104
H3_BestWesternChamade_311
H2_IbisGentOpera_325
H2_Campanile_108
H1_MonasteriumPoortAckere_308
H0_Formule1_320
1
10
100
1000
Aantal toestellen Reëel max toestellen (ratio 8%)
phones (>=31 sec)
phones (>=11 sec)
phones (>=6 sec)
phones (>=2 sec)
phones (all)
Figuur: Vergelijking van het aantal gedetecteerde toestellen bij verschillende korte detectie-intervallen met de theoretische bovengrens van het aantal gedetecteerde toestellen bij hotels (logaritmische schaal)
84
9.7
Bijlage
7:
Rëele
bovengrens
aantal
gedetecteerde
toestellen
voor
bezienswaardigheden
TM_Sint-Pietersabdij_109
TM_Sint-Baafsabdij_313
TM_STAM_112
TM_SMAK_115
TM_MuseumDrGuislain_315_329
TM_Museum voor Schone Kunsten_107
TM_MIAT_114
TM_Huis van Alijn_314
TM_Gravensteen_326
TM_Design museum_113
TM_Belfort_121
TI_DientToerisme_101
TG_Sint-Niklaaskerk_307
TG_Sint-Baafskathedraal_316
TG_GrootVleeshuis_324
1
10
100
1000
Aantal toestellen theoretisch maximum
phones (>=31 sec)
phones (>=11 sec)
phones (>=6 sec)
phones (>=2 sec)
phones (all)
Figuur: Vergelijking van het aantal gedetecteerde toestellen bij verschillende korte detectie-intervallen met de theoretische bovengrens van het aantal gedetecteerde toestellen bij toeristische bezienswaardigheden (logaritmische schaal)
85
9.8
Bijlage 8: Clustering op basis van alle bezienswaardigheden en Dienst Toerisme, inclusief hotels
Tabel: Aantal en percentage unieke objecten per locatie en per cluster C1 # H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117 TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
C2 #
0 0 0 0 0 0 0 0 0 0 0 0 0 0
% 0 0 0 0 0 0 0 0 0 0 0 0 0 0
568 0 0 0 0 0 0 0 0 0 0 0 0 0 0
100 0 0 0 0 0 0 0 0 0 0 0 0 0 0
C3
0 0 0 0 5 1 1 4 11 1 17 4 4 1
% 0,00 0,00 0,00 0,00 0,35 0,07 0,07 0,28 0,77 0,07 1,19 0,28 0,28 0,07
18 548 5 153 31 38 172 50 20 78 69 83 166 47 67
1,26 38,51 0,35 10,75 2,18 2,67 12,09 3,51 1,41 5,48 4,85 5,83 11,67 3,30 4,71
# 2 10 3 52 47 20 3 244 122 30 498 58 67 6
% 0,26 1,28 0,38 6,63 5,99 2,55 0,38 31,12 15,56 3,83 63,52 7,40 8,55 0,77
580 583 309 312 376 386 374 113 23 34 3 36 43 13 29
73,98 74,36 39,41 39,80 47,96 49,23 47,70 14,41 2,93 4,34 0,38 4,59 5,48 1,66 3,70
C4 #
C5
1 1 1 4 11 7 3 68 23 6 298 13 29 0
% 0,09 0,09 0,09 0,35 0,95 0,61 0,26 5,89 1,99 0,52 25,82 1,13 2,51 0,00
# 5 10 17 9 77 21 24 284 129 10 862 41 65 7
% 0,22 0,43 0,73 0,39 3,33 0,91 1,04 12,28 5,58 0,43 37,27 1,77 2,81 0,30
545 847 466 139 259 153 286 46 2 16 2 6 16 12 7
47,23 73,40 40,38 12,05 22,44 13,26 24,78 3,99 0,17 1,39 0,17 0,52 1,39 1,04 0,61
1346 988 281 590 398 487 487 151 35 177 12 215 41 65 115
58,19 42,72 12,15 25,51 17,21 21,05 21,05 6,53 1,51 7,65 0,52 9,30 1,77 2,81 4,97
86
9.9
Bijlage 9: Clustering op basis van alle bezienswaardigheden en Dienst Toerisme, exclusief hotels
Tabel 1: Aantal en percentage unieke objecten per locatie en per cluster (zeven clusters) C1 # H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117
0 4 2 13 31 16 1 134 48 11 329 23 29 3
% 0,00 0,51 0,26 1,67 3,98 2,05 0,13 17,20 6,16 1,41 42,23 2,95 3,72 0,39
TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
553 715 404 243 414 366 426 110 23 45 2 21 28 14 21
70,99 91,78 51,86 31,19 53,15 46,98 54,69 14,12 2,95 5,78 0,26 2,70 3,59 1,80 2,70
C2 # 0 2 4 5 4 3 4 57 22 5 196 15 18 2
% 0,00 0,34 0,69 0,86 0,69 0,52 0,69 9,79 3,78 0,86 33,68 2,58 3,09 0,34
328 561 180 153 196 134 216 19 2 8 1 1 11 1 0
56,36 96,39 30,93 26,29 33,68 23,02 37,11 3,26 0,34 1,37 0,17 0,17 1,89 0,17 0,00
C3 # 2 8 7 26 34 10 6 172 55 9 473 29 44 2
% 0,16 0,63 0,55 2,04 2,67 0,78 0,47 13,49 4,31 0,71 37,10 2,27 3,45 0,16
884 799 137 356 342 331 366 54 6 13 3 15 45 10 7
69,33 62,67 10,75 27,92 26,82 25,96 28,71 4,24 0,47 1,02 0,24 1,18 3,53 0,78 0,55
C6 #
C7
1 2 0 3 15 5 8 31 48 3 121 10 13 2
% 0,11 0,22 0,00 0,33 1,66 0,55 0,89 3,43 5,32 0,33 13,40 1,11 1,44 0,22
# 3 1 2 12 24 4 4 104 41 10 254 22 32 3
% 0,26 0,09 0,18 1,06 2,11 0,35 0,35 9,16 3,61 0,88 22,38 1,94 2,82 0,26
35 20 3 201 44 13 137 8 45 122 74 10 170 79 79
3,88 2,21 0,33 22,26 4,87 1,44 15,17 0,89 4,98 13,51 8,19 1,11 18,83 8,75 8,75
376 184 337 241 68 220 174 169 4 117 6 293 12 33 111
33,13 16,21 29,69 21,23 5,99 19,38 15,33 14,89 0,35 10,31 0,53 25,81 1,06 2,91 9,78
87
Tabel 2: Aantal en percentage unieke objecten per locatie en per cluster (twee clusters) C123 # H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117 TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
C67
2 14 13 44 69 29 11 363 125 25 998 67 91 7
% 0,08 0,53 0,49 1,67 2,62 1,10 0,42 13,77 4,74 0,95 37,86 2,54 3,45 0,27
# 4 3 2 15 39 9 12 135 89 13 375 32 45 5
% 0,20 0,15 0,10 0,74 1,92 0,44 0,59 6,63 4,37 0,64 18,42 1,57 2,21 0,25
1765 2075 721 752 952 831 1008 183 31 66 6 37 84 25 28
66,96 78,72 27,35 28,53 36,12 31,53 38,24 6,94 1,18 2,50 0,23 1,40 3,19 0,95 1,06
411 204 340 442 112 233 311 177 49 239 80 303 182 112 190
20,19 10,02 16,70 21,71 5,50 11,44 15,28 8,69 2,41 11,74 3,93 14,88 8,94 5,50 9,33
88
9.10 Bijlage 10: Clustering op basis van alle hotels
Tabel: Aantal en percentage unieke objecten per locatie en per cluster
H0_Formule1_320 H1_MonasteriumPoortAckere_308 H2_Campanile_108 H2_IbisGentOpera_325 H3_BestWesternChamade_311 H3_Castelnou_104 H3_HolidayInnExpressGent_312 H3_NovotelGentCentrum_331 H4_GhentRiverHotel_322 H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117 TG_GrootVleeshuis_324 TG_Sint-Baafskathedraal_316 TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101 TM_Belfort_121 TM_Design museum_113 TM_Gravensteen_326 TM_Huis van Alijn_314 TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329 TM_SMAK_115 TM_STAM_112 TM_Sint-Baafsabdij_313 TM_Sint-Pietersabdij_109
C1 # % 43 5,40 14 1,76 59 7,41 46 5,78 23 2,89 44 5,53 134 16,83 56 7,04 70 8,79 109 13,69 127 15,95 77 9,67 21 2,64 4 0,50 6 5 1 2 1 2 1 0 0 1 0 1 2 0 0
0,75 0,63 0,13 0,25 0,13 0,25 0,13 0,00 0,00 0,13 0,00 0,13 0,25 0,00 0,00
C2 0 5 0 10 12 12 4 73 22 5 117 36 15 2
% 0,00 3,60 0,00 7,19 8,63 8,63 2,88 52,52 15,83 3,60 84,17 25,90 10,79 1,44
C3 # % 14 2,52 20 3,60 22 3,96 59 10,63 26 4,68 21 3,78 55 9,91 157 28,29 87 15,68 49 8,83 302 54,41 64 11,53 35 6,31 10 1,80
108 111 61 64 75 79 64 23 5 9 1 11 10 5 11
77,70 79,86 43,88 46,04 53,96 56,83 46,04 16,55 3,60 6,47 0,72 7,91 7,19 3,60 7,91
252 198 72 73 83 93 111 15 7 17 1 12 12 4 4
#
45,41 35,68 12,97 13,15 14,95 16,76 20,00 2,70 1,26 3,06 0,18 2,16 2,16 0,72 0,72
89
9.11 Bijlage 11: Analyse per type hotel
Tabel: Aantal en percentage unieke objecten per locatie en per type hotel 0 sterren
1 ster %
#
%
3 sterren
4 sterren
#
#
%
%
HH
#
%
55
100
0
0,00
1
0,56
1
0,22
2
0,09
1
1,56
H1_MonasteriumPoortAckere_308
0
0,00
39
100
0
0,00
0
0,00
5
0,22
0
0,00
H2_Campanile_108
0
0,00
1
2,56
74
41,11
10
2,22
0
0,00
0
0,00
H2_IbisGentOpera_325
1
1,82
0
0,00
106
58,89
9
2,00
15
0,65
0
0,00
H3_BestWesternChamade_311
1
1,82
0
0,00
2
1,11
49
10,89
68
2,96
0
0,00
H3_Castelnou_104
0
0,00
0
0,00
0
0,00
76
16,89
20
0,87
1
1,56
H3_HolidayInnExpressGent_312
0
0,00
0
0,00
8
4,44
180
40,00
14
0,61
0
0,00
H3_NovotelGentCentrum_331
1
1,82
7
17,95
14
7,78
180
40,00
197
8,58
10
15,63
H4_GhentRiverHotel_322
0
0,00
3
7,69
3
1,67
18
4,00
1859
80,97
11
17,19
H4_HolidayInnGentExpo_102
0
0,00
0
0,00
1
0,56
6
1,33
14
0,61
0
0,00
H4_NHGentBelfort_122
3
5,45
17
43,59
28
15,56
133
29,56
625
27,22
22
34,38
H4_SandtonGrandHotelReylof_301
0
0,00
0
0,00
1
0,56
6
1,33
185
8,06
1
1,56
HH_DeDraecke_328
1
1,82
2
5,13
3
1,67
6
1,33
63
2,74
50
78,13
HH_Hostel47_117
0
0,00
0
0,00
0
0,00
2
0,44
27
1,18
14
21,88
TG_GrootVleeshuis_324
5
9,09
19
48,72
35
19,44
88
19,56
363
15,81
22
34,38
TG_Sint-Baafskathedraal_316
3
5,45
6
15,38
41
22,78
81
18,00
229
9,97
12
18,75
H0_Formule1_320
#
2 sterren
#
%
TG_Sint-Niklaaskerk_307
0
0,00
6
15,38
23
12,78
31
6,89
112
4,88
3
4,69
TI_DienstToerisme_101
2
3,64
5
12,82
17
9,44
40
8,89
114
4,97
2
3,13
TM_Belfort_121
4
7,27
2
5,13
22
12,22
42
9,33
160
6,97
6
9,38
TM_Design museum_113
1
1,82
7
17,95
13
7,22
46
10,22
194
8,45
15
23,44
TM_Gravensteen_326
3
5,45
12
30,77
20
11,11
46
10,22
138
6,01
5
7,81
TM_Huis van Alijn_314
0
0,00
0
0,00
6
3,33
6
1,33
50
2,18
0
0,00
TM_MIAT_114
0
0,00
0
0,00
2
1,11
4
0,89
59
2,57
2
3,13
TM_Museum voor Schone Kunsten_107
1
1,82
0
0,00
0
0,00
6
1,33
31
1,35
2
3,13
TM_MuseumDrGuislain_315_329
0
0,00
1
2,56
0
0,00
1
0,22
4
0,17
0
0,00
TM_SMAK_115
1
1,82
0
0,00
1
0,56
5
1,11
28
1,22
6
9,38
TM_STAM_112
1
1,82
1
2,56
2
1,11
14
3,11
23
1,00
1
1,56
TM_Sint-Baafsabdij_313
0
0,00
0
0,00
4
2,22
3
0,67
22
0,96
1
1,56
TM_Sint-Pietersabdij_109
0
0,00
2
5,13
0
0,00
5
1,11
17
0,74
2
3,13
90
9.12 Bijlage 12: Analyse indien Dienst toerisme al dan niet bezocht is
Tabel: Aantal en percentage unieke objecten per locatie en per categorie Geen bezoek aan Dienst Toerisme # H0_Formule1_320
%
Wel bezoek aan Dienst Toerisme #
%
6
0,12
2
0,18
H1_MonasteriumPoortAckere_308
16
0,32
5
0,45
H2_Campanile_108
18
0,36
3
0,27
H2_IbisGentOpera_325
41
0,81
22
1,99
110
2,18
30
2,72
H3_Castelnou_104
36
0,71
13
1,18
H3_HolidayInnExpressGent_312
22
0,44
9
0,82
H3_NovotelGentCentrum_331
438
8,68
149
13,51
H4_GhentRiverHotel_322
219
4,34
60
5,44
34
0,67
13
1,18
1277
25,30
365
33,09
84
1,66
29
2,63
122
2,42
40
3,63
11
0,22
2
0,18
TG_GrootVleeshuis_324
2431
48,16
561
50,86
TG_Sint-Baafskathedraal_316
2416
47,86
501
45,42
792
15,69
251
22,76
0
0,00
1103
100,00
TM_Belfort_121
806
15,97
240
21,76
TM_Design museum_113
704
13,95
329
29,83
TM_Gravensteen_326
950
18,82
340
30,83
TM_Huis van Alijn_314
227
4,50
125
11,33
67
1,33
12
1,09
275
5,45
30
2,72
81
1,60
5
0,45
TM_SMAK_115
307
6,08
31
2,81
TM_STAM_112
240
4,75
25
2,27
TM_Sint-Baafsabdij_313
117
2,32
18
1,63
TM_Sint-Pietersabdij_109
195
3,86
21
1,90
H3_BestWesternChamade_311
H4_HolidayInnGentExpo_102 H4_NHGentBelfort_122 H4_SandtonGrandHotelReylof_301 HH_DeDraecke_328 HH_Hostel47_117
TG_Sint-Niklaaskerk_307 TI_DienstToerisme_101
TM_MIAT_114 TM_Museum voor Schone Kunsten_107 TM_MuseumDrGuislain_315_329
91