REVEALING SPATIAL AND TEMPORAL PATTERNS FROM FLICKR SANDER VAN DER DRIFT
TOENEMENDE ZORGEN OVER TOERISME EEN SELECTIE VAN RECENTE NIEUWS ARTIKELEN
Toeristentrekker Amsterdam bezwijkt onder populariteit Algemeen Dagblad, 23 april 2015
'Amsterdam dreigt te disneyficeren' Het Parool, 8 februari 2015
Groei toerisme wordt Amsterdam te veel BNR Nieuwsradio, 23 april 2015
'Ze lopen kotsend en plassend over de Zeedijk' NOS, 5 december 2014
In 2030 heeft Amsterdam twee keer zoveel toeristen als nu Het Parool, 9 december 9 2014
A’DAM INSTITUTE FOR ADVANCED METROPOLITAN SOLUTIONS NIEUW WETENSCHAPPELIJK INSTITUUT
Kunnen we toeristenstromen in Amsterdam analyseren op basis van (geo)Tweets? Maar waarom Twitter? Wat denken jullie van Flickr? Twitter
Flickr
Aantal gebruikers
+++
+
Hoeveelheid data
+++
+
Relatie tussen data en echte locatie
+/-
++
Gebruik door toeristen
+/-
++
Interval tussen Tweets / foto’s
+/-
++
ONDERZOEKSVOORSTEL DOEL
Het doel van dit exploratieve onderzoeksproject is om methoden te ontwikkelen, implementeren en testen waarmee ruimtelijke en temporele patronen van toeristen kunnen worden afgeleid van een grote dataset met geotagged Flickr photos GLOBALE INHOUD VAN ONDERZOEKSVRAGEN
RQ-01: Literatuurstudie RQ-02: Ontwikkeling en implementatie van methoden RQ-03: Validatie van resultaten
FLICKR DATA DOWNLOADEN OVERZICHT VAN STAPPEN & TECHNIEKEN
FLICKR DATA DOWNLOADEN OVERZICHT VAN STAPPEN & TECHNIEKEN
Request Metadata XML-file
Flickr database (API)
Java applicatie
Restrictie: 1 request per seconde
Lokale database (PostgreSQL)
FLICKR DATA DOWNLOADEN STAP 1: VERZAMELEN VAN PHOTO ID’S PER BOUNDING BOX (1550)
Zoek parameters: • Xmin, Xmax, Ymin, Ymax • Minimale datum: 1 januari 2005 • Maximale datum: 31 december 2014
Resultaat: • Foto ID • Gebruikers ID • Foto titel
FLICKR DATA DOWNLOADEN STAP 2: VERZAMELEN VAN AANVULLENDE METADATA
Zoek parameters: • Foto ID, geïdentificeerd in stap 1 Resultaat: • Latitude, longitude (locatie) • Datum en tijd • Gebruikersnaam • Thuislocatie van gebruiker • Tags • Foto URL • Nauwkeurigheid locatie
2.849.261 foto’s
Downloadtijd: +/- 5 weken
FLICKR DATA VERKENNING ALLE FOTO’S OP EEN KAART
FLICKR DATA VERKENNING SELECTIE VAN FOTO’S IN GOOGLE EARTH
CLASSIFICATIE VAN TOERISTEN GEBASEERD OP THUIS LOCATIE VAN GEBRUIKER
CLASSIFICATIE VAN TOERISTEN GEBASEERD OP THUIS LOCATIE VAN GEBRUIKER
1. Classificatie met behulp van SQL (8628 users - 54%) UPDATE users SET countryname = 'Japan', istourist = 'True', classification = 'SQL' WHERE geoname = '' AND userid IN (SELECT userid FROM users WHERE (userlocation ~* '\y(japan|nippon|⽇日本)\y'))
2. Classificatie met behulp van online geocoding (450 users - 3%)
PostgreSQL (Lokale database)
Tokyo
Tokyo
Japan
Japan
Locatie gebruiker = Tokyo
Java Applicatie
Geonames API (Externe database)
Tokyo = Japan
CLASSIFICATIERESULTATEN AMSTERDAM AANTAL UNIEKE FOTOGRAFEN
7.000
6.914 6.257
5.250
3.500
2.821 1.750
0
Locals
Toeristen
Onbekend
17,6%
39,1%
43,2%
Overall accuracy = 99%
CLASSIFICATIERESULTATEN AMSTERDAM AANTAL UNIEKE FOTO’S
160.000
154.599 132.213
120.000
107.016 80.000
40.000
0
Foto’s locals
Foto’s toeristen
Onbekend
39,3%
27,2%
33,6%
Overall accuracy = 99%
CLASSIFICATIERESULTATEN AMSTERDAM FOTO’S VAN EEN AANTAL JAPANSE TOERISTEN IN AMSTERDAM
CLASSIFICATIERESULTATEN AMSTERDAM FOTO’S VAN EEN AANTAL LOCALS IN AMSTERDAM
CLASSIFICATIERESULTATEN AMSTERDAM RELATIEF AANTAL TOERISTEN PER NATIONALITEIT (2013)
Verenigde Staten
Verenigd Koninkrijk
Duitsland
Italië
Spanje
Frankrijk
0%
5%
10%
15%
Nationaliteiten op basis van Flickr foto’s (2013) Nationaliteiten op basis van CBS hotelovernachtingen (2013)
20%
TEMPORELE SPREIDING VERSCHILLENDE SCHAALNIVEAUS
TEMPORELE SPREIDING RELATIEF AANTAL TOERISTEN VERGELEKEN MET FOTO’S TOERISTEN (2005-2014)
Relatief veel foto’s overdag
10% Toeristen Foto’s toeristen 8%
6%
4%
0:00
23:00
22:00
21:00
20:00
19:00
18:00
17:00
16:00
15:00
14:00
13:00
12:00
11:00
10:00
9:00
8:00
7:00
6:00
5:00
4:00
3:00
2:00
0%
1:00
2%
TEMPORELE SPREIDING RELATIEF AANTAL TOERISTEN VERGELEKEN MET LOCALS (2005-2014)
Ander piekmoment
10% Toeristen Locals
Locals maken meer foto’s in de avond
8%
6%
0:00
23:00
22:00
21:00
20:00
19:00
18:00
17:00
16:00
15:00
14:00
13:00
12:00
11:00
10:00
9:00
8:00
7:00
6:00
5:00
4:00
3:00
0%
2:00
2%
1:00
4%
Toeristen maken relatief meer foto’s in de nacht
TIMESTAMP VALIDATIE TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD
Exacte match 2 uur verschil
TIMESTAMP VALIDATIE TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD
Selectie • alle foto’s met ‘clock’ tag • alle foto’s bij het centraal station
Resultaat • 70 geschikte foto’s van toeristen • 50 geschikte foto’s van locals
1032 foto’s van locals 1134 foto’s van toeristen
0% 10:00:00
9:00:00
8:00:00
7:00:00
6:00:00
5:00:00
4:00:00
3:00:00
2:00:00
1:00:00
0:00:00
-1:00:00
-2:00:00
-3:00:00
-4:00:00
-5:00:00
-6:00:00
-7:00:00
-8:00:00
-9:00:00
-10:00:00
TIMESTAMP VALIDATIE
TIJDSVERSCHIL TUSSEN TIJD VAN FOTO EN ECHTE TIJD 80% Locals Toeristen
60%
40%
20%
TEMPORELE SPREIDING FOTOGRAFEN PER DAG VAN DE WEEK (2005-2014) 20% Toeristen Locals 15%
10%
Zondag
Zaterdag
Vrijdag
Donderdag
Woensdag
Dinsdag
0%
Maandag
5%
TEMPORELE SPREIDING FOTOGRAFEN PER MAAND (2005-2014) 12%
Toeristen Locals
10% 8% 6% 4%
December
November
Oktober
September
Augustus
Juli
Juni
Mei
April
Maart
Februari
0%
Januari
2%
TEMPORELE SPREIDING TOERISTEN EN BUITENLANDSE HOTELGASTEN PER MAAND (2012+2013) 12%
Toeristen (Flickr 2012 + 2013) Buitenlandse hotelgasten (CBS 2012 + 2013)
10% 8% 6% 4%
December
November
October
September
August
July
June
May
April
March
February
0%
January
2%
TEMPORELE SPREIDING FOTOGRAFEN PER DAG VAN HET JAAR (2005-2014)
Locals Toeristen
1
Koninginnedag
365
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING
1
1
2
1
1 1
2
3
1
1
1
1
1
1
1 1
1 2
1
1 1
1
1
RUIMTELIJKE SPREIDING GRID-BASED CLUSTERING
RECHTHOEKIG GRID
HEXAGON GRID
Voordelen van een hexagon grid: • Minst afwijkende vorm van cirkel waarmee een grid kan worden gevormd • 6 topologisch gelijke buurcellen • Minder richting bias, geschikter voor het visualiseren van corridors
RUIMTELIJKE SPREIDING UNIEK AANTAL TOURISTEN PER HEXAGON IN GOOGLE EARTH
RUIMTELIJKE SPREIDING ÉÉN VAN DE TOP HIGHLIGHTS, 'I AMSTERDAM'
RUIMTELIJKE SPREIDING DENSITY-BASED CLUSTERING
RUIMTELIJKE SPREIDING DENSITY-BASED CLUSTERING
DBSCAN: Density-Based Spatial Clustering for Applications with Noise • Ontdekt clusters van verschillende vormen and maten • Niet gevoelig voor ruis zeer geschikt voor social media data • •
Eps: radius zoekgebied MinPts: minimum aantal punten in zoekgebied Eps Noise
MinPts=4
RUIMTELIJKE SPREIDING ALLE FOTO’S OP EEN KAART
RUIMTELIJKE SPREIDING TOEWIJZEN PUNTEN AAN CLUSTERS
RUIMTELIJKE SPREIDING CONCAVE HULL OM CLUSTERS
RUIMTELIJKE SPREIDING IDENTIFICATIE VAN CLUSTERS DOOR FOTO TAGS VAN GEBRUIKERS
TOERISTISCHE ROUTES
TOERISTISCHE ROUTES ÉÉN DAG IN HET LEVEN VAN EEN TOERIST
TOERISTISCHE ROUTES LINEAIRE ROUTES VAN MEERDERE TOERISTEN
TOERISTISCHE ROUTES LINEAIRE ROUTES TUSSEN CLUSTERS
TOERISTISCHE ROUTES RELATEREN ROUTES AAN STEDELIJK WEEFSEL MET ROUTING ALGORITME
Lineaire route
Route over het netwerk
TOERISTISCHE ROUTES TOERISTEN NEMEN VAAK DE MEEST POPULAIRE ROUTES
TOERISTISCHE ROUTES FOTO’S SELECTEREN VOOR ROUTING ALGORITME
1. Lijst opstellen met paren van opeenvolgende fotolocaties per toerist Fotolocatie A
Fotolocatie B
Fotolocatie B
Fotolocatie C
…
…
2. Berekenen afstand, tijdsinterval en snelheid per foto paar 3. Selecteren van foto paren binnen de volgende thresholds: •
Afstand > 50 m en < 750 m
•
Tijdsinterval > 0 sec en < 600 sec
•
Snelheid > 1 km/h en < 5 km/h
4. Berekenen network node voor start en eindpunt van elk paar
TOERISTISCHE ROUTES BEREKENEN ROUTES AND SAMENVOEGEN TOT ROUTE DENSITY MAP
1. Berekenen routes voor 6,477 foto paren met routing algoritme 2. Samenvoegen en tellen van overlappende delen van routes 3. Visualiseren van toeristische routes
TOERISTISCHE CLUSTERS EN ROUTES VALIDATIE VAN RESULTATEN
Probleem:
Geen vergelijkbare kwantitatieve data beschikbaar
Oplossing: Expert judgement met behulp van enquette Deelnemers: 8 toerisme experts van verschillende afdelingen
van de gemeente Amsterdam
TOERISTISCHE ROUTES VALIDATIE VAN RESULTATEN DOOR 3 8 TOERISME EXPERTS -> ZELFVERZEKERD (5/5)
Match: Match:100% 75%
Match: 50% 67%
Match: 75% 67%
Match: 100%
Match: 100%
Match: Match:100% 63%
TOERISTISCHE CLUSTERS AND ROUTES VALIDATIE VAN RESULTATEN
Correctheid
resultaten[1-5]
Bruikbaarheid
resultaten [1-5] 5
#
Functie
1
Beleidsmaker verkeer & publieke ruimte
4
2
Data Analist, Informatie en Statistiek
4
4
3
Senior Adviseur Verkeersmanagement
4
4
4
Onderzoeker, Informatie en Statistiek
3
4
5
Senior Adviseur Verkeersonderzoek
5
4
6
Stedenbouwkundige
5
5
7
Stedenbouwkundige
4
5
8
Stedelijk ontwerper
4
5
4.1
4.5
*
* Hoe goed vertegenwoordigen de resultaten de echte situatie? ** Zijn de uitkomsten bruikbaar voor u of uw organisatie?
**
BEDANKT VOOR JULLIE AANDACHT! NEEM GERUST CONTACT OP VOOR VRAGEN OF OPMERKINGEN