~----
1---
-~
Céline Van Damme
Vrije Universiteit Brussel
[email protected]
Structuur •
Informatie overload op het web
•
Informatie zoeken op het web
•
Vergelijking huidige classificatietechn ieken documenta 1ist
il1forum2tJ07 CeUne Van Damme
l5Mû4--tJJ "-""""'*""~
~
Pag,L ~""
~.-c~d
~=
~
"~
~
~
0
__,_~
~
f-·
~-
l
~
"--. 1---4
1
l.Informatie overload op het web (1) • Statische web pagina's • Altijd aanspreekbaar en beschikbaar • Indexeerbaar door meeste zoekmachines • Vormen het visible web
• Dynamische web pagina's • Pagina's worden gecreëerd bij opvraging (uit database) en verdwijnen daarna (vb. Online Vandale Woordenboek) • Niet indexeerbaar door meeste zoekmachines • Vormen het dark web
l.Informatie overload op het web(2) • Visible Web • 200 mîljoen pagina's (1997)l 1 l • 800 miljoen pagina's (1998) l 1 l • 11,5 miljard pagina's (januari 2005)l 1l
• Dark Web • 500 keer visible web (2003) f 2 l
2
1~
Informatie overload op het web(3)
Grote invloed social software of Web 2.0 tools • Lage kost en lage technologiebarrière • Internetgebruiker: geëvolueerd van een informatieconsument naar een informatiecreator • Enkele voorbeelden: • Wiki 7 Wikipedia: meer dan 5.300.000 web pagina's [3] • Blogs: meer dan 71.000.000 blogs geregisteerà bij Technorati[4]
2. Informatie zoeken op het web
• Directories • Zoekmachines & Ontologies • Folksonomies
3
2~
Informatie zoeken op het web
• Directo ries • Zoekmachines & Ontologies • Folksonomies
Definitie • Taxonomies • Classificeren van websites in hiërarchische categorieën • Groep experten • Navigeren via drill dawn • Vb. Yahoo Directories, Open Directory Project
4
Voorbeeld "'Y.AHoO! Arta & Hum•nftin ~tlr:liiliCt,.~.
BuaJnna & Econamy m.~~ilill!
•
Compoblra & Jnœmet
'
~tœflm.~
C::~~r----------~ Entertainment ~~WliJI;,!11:œQ::..
Bf"QW!!b!R•g\on(168)
• DvCul!!.!ot91'Çmp!J0.1)
pisbnnL•am!ta~
•~ilT"'~
• &11j5.4.:-UJ
•~I!IT~;
;.dijldOIIal.Catf~
Gowmment
• ,.tg9ml<; CD!!!p!tttion• {~)
• lob ;one!
.f!ar;;l;;m.l.!bl:. lm. !Sm.
·~m
·~(JI!
~Uu/n.e::o..~
• Butfn!utoB\tf.\ntn4"
• L.tll!!!!!!o!!O'I • IJt!Ba!DI
News&Medl!
,
Cp!t!rl!!!dV!!(;;;It!o!!!IJJQ.I;
•
Clmsmdl'oruln•!Zll
~
~·~~
Recreation &
SPOrt!
~!!ml-~~
Referen~ fl!;mfr,;a:Q ~~
R!Clional ~~.~
·-
l!mploym!f!t
Rtt;O!,!t!;!!@'
·~~ 'Onpniutlons(U36}
·~ml
·~
•
E!rtJChllifloodEduc.!tkm/11~~
• fœlll:m! fll!) -~~\
• Sf!opp,lng and Sm!ç!!S
~
tmra.~~
@ -7 Subcategorie ook komt voor in andere categorieën
2. Informatie zoeken op het web
• Directories • Zoekmachines & Ontologies • Folksonomies
5
Werking Zoekmachine (1) • Web crawlers doorzoeken het web • Lijstje van URLs • Kopiëren en indexeren web pagina • Afhankelijk soort zoekmachine • Data bewaren in database
Werking Zoekmachine (2) • Zoekopdracht gebruiker toetsen aan database • Genereren van een resultatenlijst
6
Problemen
/
/
~
/~
Betekenis 2
Intemet community
• Zoekopdracht wordt verkeerd geïnterpreteerd • Web pagina's worden geïndexeerd ais
Opfossing • Meta data in web pagina plaatsen via - XML:
abc • MAAR kan verschillende betekenissen hebben: titel van een boek, film, paper ...
7
Definitie ontology • beschrîjft de natuurlijke taal van een domein • bevat concepten en attributen (instances) • beschrijft hun onderlinge relaties • beschrijft hun regels • geschreven in een forme le taal: een taal begrijpbaar voor machines (RDF, OWL)
Een vergelijking .... • Controlled vocabulary • Taxonomy = controlled vocabulary
+ hiërarchische relaties
• Thesaurus = taxonomie met horizontaal gerelateerde terminologie (synoniemen, antoniemen, meroniemen etc,) vb. Wordnet • Ontology =uitgebreider dan thesaurus
8
Voorbeeld
Semantische Web • Belangrijke technologie voorde ontwikkeling van het semantische web web waar alle informatie begrijpbaar en interpreteerbaar is voor machines Rijker dan een taxonomie: meer relaties worden blootgelegd zoals meroniem vb. hand is deel van een arm Bevordert het opzoeken van informatie: zoekmachines zullen veel betere resultaten kunnen genereren aan de gebruikers
9
Problemen '
• Ontwikkeling en onderhoud duur en arbeidsintensief • Groep experts <----> Effectieve gebruikers • Formele taal schrikt gebruikers af om te participeren in ontwikkeling
2. Informatie zoeken op het web
• Directories • Zoekmachines & Ontologies
• Folksonomies
10
Definitie folksonomy (1) • Sociaal Classificatiesysteem • Ontwikkelaars = gebruikers • Gebruikers mogen hun eigen keywords of tags gebruiken voor het omsclirijven van content: - volgens Amerikaanse studie: 28°/o internet gebruikers heeft reeds content getagd[sJ • Vergelijkbaar met keywords toegevoegd door auteur(s) aan een paper
• Het aggregeren van alle tags = vlakke bottom-up taxonomy • Folksonomy = folk + taxonomy (Thomas Vander Wal[6J) • Sociale navigatie: informatie vinden via personen met gelijke interesse.
11
Enkele voorbeelden ... .,
: ',
'W' slidAshare
• •
"" (Gonnotea
del.icio.us
V'
Youiimi:J
flickr~ BibSonomy
dteulike
~
Technoratï En vele andere ...
~ del.icio.us
• Beheren van favoriete websites of bookmarks • Tags worden gebruikt voor het omschrijven van bookmarks • Tags kunnen door de gebruiker worden geclusterd in bundels • Feedback • Eike gebruiker heeft zijn ei~en account • Op basis van tags of bookmarks kunnen personen met gelijke interesses elkaar terugvinden • Knoppen in browser
12
Del..icio.us (2)
J:ül slideshar~ u.-a.~::c -;:u :h"l<.<::.. ~"-" (!w!J",
;, !a.<., eorn..:l i". :t llb::. <.f:'.u"M"'
~J~;;>!j..nl':'JW....:!.~"''
y,._.,. _...,_,,._~~ Y"<>n·op-,;!' ~
-J
Feedback
... :c~~-·7···--.--~~.,-·.,..···.,..···-,-"" .. .....,..,.....-_, ..-....-... ~--------= ::.:1:3 reUIIIIIIIIWinlt~lill
umn·~ dH>;:T• ~!>:llo• l:o' '""~
liiiiï~o ~Hl'Ut*l~---
..
13
Del..lcio.us (4)
J:Hl slidesharf? isa neal"H'afto9nre & ~-v:;r~s U;;,:,ro,.~t·~-~~~~uu'l'd!l;,;.,.,<:rltni•l:.tt:h..cdh:...Nl"
~~=..t<.JIDT'm<~.li.l~n.Jl
lou_"" _ _ ,._~~ Mt
a..~
.
,.,~"''l-t"'~l.'ll.~ .~::t--.,,
.. ••:4.t.ll':w,_O'I!•o
_,
DeLicio.us (5)
'~ :n~t<~t.·.~r~d!~ t~ctc~-<"" '~' _,_.,...,. ~l',;~o'~t"<<--{<".Y>::>'
~a..~bylcpoe··'' ""'· "o\:o-:,o\.t>! ~ ~' ~~,--;.-
..,.->;
~,'~~~~~~/~.ol WC~'1~.
~.,:._~s_.~_:''"·'""' JROXCŒJ~~-~~-~~:;
w<\1''1''~:-
~""""'· ë·-...,.,--.r~
-rr,;-3"
~~~~~: f'lllrntA:ttrG.il..dl;lea•Grtli.CI~~~olf1:.-..k"~·
·~
~= ·-"'"
~==--.
~= ~=-
~:E:.. ~= ~~ 11ft'
~~2~~~ '·~-~v~~ _·r-r~~~~--.-~~Fn:r:_~~~~f?
14
DeLicio.us (6)
.,.... oui6QIH . . _ _ _ .,.,.,,.,....
;;_;,;:";;;r.;,."~·"'~~. ~li'"'
r
""'J'fMI
...... ,._
·~=
=·ls.
"~Üift
~
·-
~~
~=
;:.':..-
·-"·~~.tfi_ ... _
i:
~,.._~., ... IObv!llllotl1lm'loi,_,I_•....-,I<..,..._.,I~"'I.1::13Jo•U•,.... ~
~~.:"'-
~.
....
-·
~.-·--·--~·-.--"·2:.::.:~·=-:.~.:~::-=:~=--~::-:.~==r:~~~:~.,.·.~
Del. ici o. us (7)
Tagcloud
- Y M I U I - .........
b]lPM~t.
!Wo~~htU~~~!'JWrl· 1-r::::.
, '" -, .· ...,., ~.. ,... ;· '"''"" '
.
"
15
•
•
del.icio.us Cloud (popular tags) Thl:sks•IRVdowl-ebtolk9f1'o'tolnlsaerellettl~ty ~~~L~1':1?'1:
aov-ernsmg
ajax
community
apple
co-rnputer
archltectur~
artcle
artJ:Ie-$
mh
CSS
culture t~ataease
c~X.I
cookmg
entertamment eJ"Mronmeot fa!hicn fic film 11nance riô'efOlol grapllcs
grun
hardwarE
gta
inspiration internet java mavies
poocast
mp3
mUSÎC
polttics
heaHh
r:et....'Otl
portroiiD productJY~t;'
neWS
luming
housl!
howto
lllm:l!)'
lttenackS
On!Jne
ruby rucyoor3ib: SCiBOCB Search S8CUrity Se1l
wt:~rk ~'mhfl\1
!gil
ShOp
hlml
111u~I:Tatlon Images
humor
linux mac
OpeOSOUfCe
programming 11~to
tools ''"••o travel tutorial uocio~ n-ebdev wM<1 windows lollorapres.s
auoo
nash fonts food free rreeware fun funny galttry games google
hlstOfY home
javascript JOb!
myspace
blog blCÇQinQ blogs books business ~~r c~ITI\c~ design development dr/ download educallon emai:
art
OSX
phcto
ShOpping
Sla!l'l SOCial
imported
rr.lormaJroo
marketJnQ media mobile mcney
photography photOS
falls r~i?e reclpes
tv - · ' typag"""" ubuntu
rrnii!!Uine
reference re~lon
SOftware
pl"loto,t;cp
l.)~1p
rBsear:::h resources
spOOs teetl techfloJogy tipS
Video "'"' web web2,0 webdesign
youtube
Enkele nadelen
•
• Homoniemen • Synonîemen • Idiosyncratisch taggen • Meervouden • Schrijf-en tikfouten • Algemene versus gespecialiseerde termen
16
"' '""'' ""'"'
'""'"·" "''"r"'"' arch~ecture art .,,, australia ""'"''· baby
beach berlin irthday black bi>ol<"
Meervouden
borceicno
~~
Synoniemen
garden geotagged
m""
germany QJn
hone,mcon "'"'"""''
\Il"'""
house india
~reiano
en
halloween h""m!Ï ''"'' holiday
"'"''
ital japan
Mi tod0ake
~Qht I!Jré london l<'l$til'9SIU. macro marc me mexiCO mc:xrt;ur: !TIOIJIU~m·1 museum mUSiC n8ÎUf8 ne ne\\.'Y0f """""'~m ne>Heoiand night nikon
lorîdSC'8pt?
~ o:e>n
paris park party people portrait red ""'" ""''""' rt<:k """" son sanfrancisco scctlar>J sea seattle show sky snow spain spring street
summer ""' sunset
flickr~
0"605
trip Uk "'"""
white winter
syoney
U5a
yrJ!!m yr~n.
taiwan
vacation
te;as thailand tokyo t·oronto vorlWN"' ''•BsilJnC:c,n
water
traveltree
wedding
zoo
• Stem ming algoritmes • Clustering
•
• Facets • Folksonomies + Ontologies
17
• • • • • •
Lage kost Lage cognitieve overhead Gebruikers = ontwikkelaars Nieuwe woorden worden direct opgenomen Gebruikers vinden hun content zeer snel terug Tags gecreëerd door mensen sluiten veel beter aan dan deze gecreëerd door automatische creatier7J
•
• •
3~
Vergelijking hui'dige classificatietechnieken documentalist
•
Hiërarchisch - opsommend: v b. DDC
•
Analytisch-synthetisch: vb. Colon classificatie 1 Bliss Bibliographie classification
18
Dewey Decimal CJassificatie (DDC} l
• Melvil Dewey • In 200.000 bibliotheken • 10 hoofdklasses • 1 hoofdklasse heeft 10 subklasses
Il
• 1 subclasse heeft 10 sectîes • Arabîsche getallen • Updates op regelmatîge basîs
DDC <----> Classificatietechnieken Web
• Parallellismen met de dîrectories op www, aileen zijn het aantal categorieën veel kleîner (Open Directory Project 500.000 [SJ) • Enkel hiërarchîsche relaties • Een boek kan maar op 1 plaats voorkomen • Het wordt ge-update door een commîssîe: mist flexibiliteit van folksonomies: gebruikers hebben geen înspraak
19
'
Colon Classiftcatie (CC)
• S.R. Ranganathan • Reactie op beperking van hiërarchische en opsommende classificatietechnieken • Facet classificatie: alle aspecten van een domein worden verzameld in een soort clusters of facets. De facets worden gebruikt om de boeken te beschrijven • Personality Matter Energy Space Time
Il
• Bouwt verder op werk Ranganathan • Facets: -
Thing
-
Kind
-
Part
-
Property
-
Materiai
-
Process Operation
-·
Patient
-
Product
-
By product
-
Agent
-
Space
-
Time
20
Facets zijn voorafbepaald Opportuniteit folksonomies Creatîe van facets
= doelstelling
FaceTag
Referenties [1] A. Gulli and A. Slgnorini. (2005) The indexable Web is more than 11.5 billion pages. In Poster proceedings of the 14th international conference on World Wide Web, pages 902903, Chiba, Japan, ACM Press. [2] P. Lyman,H. R. Varian,K. Searingen,P. Charles, N. Good, L. L. Jordan, and J. Pal. (2003) How much information? Onllne beschlkbaar [3] Wlkipedia Foundatlon: About Wikipedia. 2007 Onllne beschikbaar op
[5] PEW internet & american Llfe Project (2005) Online News and User-generated Content Dec.2005 [6] Vander Wal, T. (2004). Folksonomy. ·c. [7] AI-Khallfa, H. S. and Davis, H. C. (2007) Exploring The Value Of Folksonomies For Creating Semantlc l'-1etadata. International Journal on Semantic Web and Information Systems (DSWIS) 3(1) pp. 13-39 [8] SIEVERTS, Eric. (2004). Inhoudelijk toegankelljk maken van hybride blbllotheekcollecties. Paper Konlnklljke bibliotheek Den Haag. 50 p .
• 21