1 Automatische plaatsbepaling van Wikipedia pagina's Chris De Rouck Promotoren: prof. dr. ir. Bart Dhoedt, Steven Schockaert Begeleider: Olivier Van L...
Automatische plaatsbepaling van Wikipedia pagina's Chris De Rouck
Promotoren: prof. dr. ir. Bart Dhoedt, Steven Schockaert Begeleider: Olivier Van Laere Masterproef ingediend tot het behalen van de academische graad van Master in de ingenieurswetenschappen: computerwetenschappen
Vakgroep Informatietechnologie Voorzitter: prof. dr. ir. Daniël De Zutter Vakgroep Vakgroep Toegepaste Wiskunde en Informatica Voorzitter: prof. dr. Willy Govaerts Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2010-2011
Automatische plaatsbepaling van Wikipedia pagina's Chris De Rouck
Promotoren: prof. dr. ir. Bart Dhoedt, Steven Schockaert Begeleider: Olivier Van Laere Masterproef ingediend tot het behalen van de academische graad van Master in de ingenieurswetenschappen: computerwetenschappen
Vakgroep Informatietechnologie Voorzitter: prof. dr. ir. Daniël De Zutter Vakgroep Vakgroep Toegepaste Wiskunde en Informatica Voorzitter: prof. dr. Willy Govaerts Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2010-2011
Voorwoord Ik wens hierbij uitdrukkelijk enkele mensen te bedanken die geholpen hebben bij het tot stand komen van deze masterproef. In de eerste plaats zijn dit Steven Schockaert, Olivier Van Laere en Bart Dhoedt voor het beantwoorden van vele vragen, de hulp doorheen het volledige jaar en het nauwkeurige naleeswerk. Daarnaast wens ik ook mijn broers en Chirovrienden te danken voor hun steun en vooral voor af en toe voor ontspanning te zorgen wanneer de nood het hoogst was. Ook de vrienden waarmee ik samen de voorbije vijf jaar op school heb doorgebracht wens ik nog even te danken voor de vele momenten die we samen beleefd hebben. Ten slotte wens ik ook mijn ouders te bedanken die me de kans gegeven hebben om te studeren en me dit op mijn eigen manier hebben laten doen.
Chris De Rouck, 2011
Toelating tot bruikleen “De auteur geeft de toelating deze scriptie voor consultatie beschikbaar te stellen en delen van de scriptie te kopi¨eren voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting de bron uitdrukkelijk te vermelden bij het aanhalen van resultaten uit deze scriptie.”
Chris De Rouck, mei 2011
Automatische plaatsbepaling van Wikipedia pagina’s door Chris De Rouck Masterproef ingediend tot het behalen van de academische graad van Master in de ingenieurswetenschappen: computerwetenschappen Promotoren: Prof. Dr. Ir. Bart Dhoedt, Dr. Steven Schockaert Begeleider: ir. Olivier Van Laere Vakgroep Informatietechnologie Voorzitter: Prof. Dr. Ir. Dani¨el. De Zutter Vakgroep Toegepaste Wiskunde en Informatica Voorzitter: Prof. Dr. Willy. Govaerts Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2010–2011 Universiteit Gent
Samenvatting Tegenwoordig duiken er als maar meer applicaties op die gebruik maken van geografische informatie. Dit komt doordat het nu ook mogelijk is het Internet te benaderen via mobiele toestellen. Via deze toestellen is het mogelijk om met behulp van GPS co¨ordinaten enkel geografisch relevante inhoud en in het bijzonder artikels te tonen. Het grootste deel van de beshikbare bronnen op het web zijn echter nog niet voorzien van geografische co¨ordinaten. Daarom gaan we proberen om automatisch geografische co¨ordinaten te bepalen voor Wikipedia pagina’s. In dit werk beperken we ons tot pagina’s die over specifieke locaties gaan zoals gebouwen en steden. Met behulp van een Naive Bayes classifier gaan we die pagina’s proberen voorzien van geografische co¨ordinaten. Hiervoor worden taalmodellen gebruikt, die in eerder onderzoek gegenereerd zijn uit Flickr foto’s. We hebben experimenten uitgevoerd met verschillende vormen van smoothing, met verschillende taalmodellen en hebben vervolgens nog andere verbeteringen gezocht. Met onze beste resultaten doen we beter dan Yahoo! Placemaker, een gratis beschikbare state-ofthe-art webservice die in staat is om documenten of webpagina’s te voorzien van geografische co¨ordinaten. We kunnen 16% (Placemaker: 4%) van de geteste pagina’s binnen een straal van 1 kilometer lokaliseren en tot 77% (Placemaker: 67%) binnen een straal van 100 kilometer.
Trefwoorden Georeferencing, Wikipedia, Taalmodellen, Naive Bayes, Web 2.0
Automatic location detection of Wikipedia pages Chris De Rouck Supervisor(s): Bart Dhoedt, Steven Schockaert, Olivier Van Laere Abstract— We describe a method for the automatic location detection of Wikipedia pages. For achieving this goal, a Naive Bayes classifier with language models trained with Flickr data is used. We experimented with different kinds of smoothing, language models and enhanced the technique with our knowledge of the structure of Wikipedia. Our experimental results show that the resulting method is able to outperform state-of-the-art methods that are based on gazetteer look-up. Keywords— Georeferencing, Wikipedia, Language models, Naive Bayes, Web 2.0
I. I NTRODUCTION HE geographic scope of a web resource plays an increasingly important role for assessing its relevance in a given context, as can witnessed by the popularity of location-based services on mobile devices. When uploading a photo to Flickr, for instance, users can explicitly add geographical coordinates to indicate where it has been taken. Similarly users can update their Facebook status with their current location at that time. Nonetheless, such coordinates are currently only available for a minority of all relevant web resources, and techniques are being studied to estimate geographic location in an automated way. In the domain of Flickr photos there is sufficient spatially grounded training data available which can be used to train language models. These are already successfully used [1] to obtain the location of other photos. However, in other domains, like the Wikipedia encyclopedy, there is not enough spatially grounded training data available. For some articles the coordinates are already available, and for other articles they are not. But because of the nature of the encyclopedy there are not multiple articles about the same place, which implies they can not be used to predict the location of other pages. As language models trained on Flickr data have already proven useful for georeferencing photos, we may wonder whether they could be useful for finding the coordinates of other web resources, for example Wikipedia pages. This paper is structured as follows. In the next section we describe our technique for the georeferencing of Wikipedia pages. Section 3 contains our experimental results, after which we discuss related work and conclude.
T
II. G EOREFERENCING W IKIPEDIA The idea of geographic scope can be interpreted in different ways for Wikipedia pages. A page about a person, for instance, might geographically be related to the places where this person has lived throughout his life, but perhaps also to those parts of the world in which this person’s work has influences (e.g. locations of buildings that were designed by some architect). In this article, however, we exclusively deal with finding the coordinates of Wikipedia pages about a specific place, such as a landmark or a city. It is then natural to assume that the geographic scope of the page corresponds to a point.
A. Language Models The language models used in this work have been generated in previous research [1]. Flickr photos containing geographic coordinates have been clustered and their tags have been retrieved as well. Tags that are not specific enough for a given region are filtered using the χ2 feature selection technique. This results in a list of clusters which have a geographic coordinate, the number of photos that are used to generate them and a list of tags from these photos with their number of occurences. B. Extracting Tags The next step consists of representing a Wikipedia page as a list of Flickr tags. This can be done by scanning the Wikipedia page and identifying occurrences of Flickr tags. As Flickr tags cannot contain spaces, however, it is important that concatenations of word sequences in Wikipedia pages are also considered. Moreover capitalization should be ignored. For example, an occurrence of “Eiffel tower” on a page is mapped to the Flickr tags “eiffeltower”, “eiffel” and “tower”. C. Naive Bayes classifier The problem of georeferencing a Wikipedia page consists of selecting the area a from the set of areas A that is most likely to cover the geographic scope of the Wikipedia page. This probability can be estimated using a standard language modeling approach. The important part here is obtaining a reliable estimate of the chance that tag t is in a cluster a. Some form of smoothing is needed, to avoid a zero probability when encountering a tag t that does not occur with any of the photos in area a. We first built our experiments with the Laplace smoothing technique. D. Jelinek-Mercer smoothing and Bayesian smoothing with Dirichlet Priors Jelinek-Mercer smoothing calculates the interpolation between two terms. The first term is the chance that when there is a tag occurence in a, it is tag t. This probability is then interpolated with the chance that when their is a tag occurence over all clusters in A, it is tag t. Bayesian smoothing using Dirichlet Priors is similar to Laplace smoothing, but is generally considered to be a better alternative. Bayesian smoothing uses the same information, used by Jelinek-Mercer smoothing but combinates them in a different way. E. Adaptations specific for Wikipedia Wikipedia pages are not just articles, they have been marked up semantically using HTML tags, which contain valuable information. The first idea is to only look at tags that occur in section titles (identified using HTML tags of the form