RIJKE DATAVISUALISATIES datavisualisatie als paradox: reductie versus ruwe data
Titel:
Rijke datavisualisaties
Datum:
9 november 2011 (blok 1, 2011/2012)
Door:
Thomas Boeschoten (3547736)
[email protected] Student MA Nieuwe Media en Digitale Cultuur
Docent:
Ann-Sophie Lehmann
Cursus:
Get Real! (Universiteit Utrecht)
Thomas Boeschoten (3547736) Get Real!
INHOUDSOPGAVE
1
SAMENVATTING
3
2
REDUCTIE IN PRAGMATISCHE VISUALISATIES
4
3
PROBLEMATISCHE ASPECTEN VAN DATAVISUALISATIE
5
4
DUIDING: DE BELOFTE VAN SOCIALE INTERACTIE
7
5
DE COMPLEXE GELAAGDHEID VAN DATA
9
6
HORIZONTALE EN VERTICALE EXPLORATIE
12
7
CONCLUSIE: PLEIDOOI VOOR RIJKE DATAVISUALISATIES
13
8
LITERATUUR
15
Thomas Boeschoten (3547736) Get Real!
1 SAMENVATTING Datavisualisaties bezitten de kracht om patronen en structuren in beeld te brengen, maar kunnen tegelijkertijd een vertroebeld, simplistisch en manipulatief beeld schetsen. De nieuwe inzichten die visualisaties kunnen bieden moeten altijd bekeken worden in de juiste context door de rol van de maker, gebruiker, data en het algoritme in acht te nemen. Daarnaast zijn niet alle nieuwe inzichten die een visualisatie aan het licht brengt te verklaren door louter naar de visualisatie zelf te kijken. In dat geval kan het belangrijk zijn om bijvoorbeeld de onderliggende data nader te onderzoeken. Ik bespreek case studies van de visualisatiesoftware Many Eyes, Sense.us en Guardian.co.uk Chalksboards die gebruikers elk op een andere manier in staat stellen om onderliggende data te exploreren. Uit de case studies blijkt dat deze software aanzienlijke beperkingen kennen in het faciliteren van de gebruiker om het getoonde grondig te kunnen analyseren. Om het grotere geheel (de patronen en structuren) in beeld te brengen, moet een visualisatie data reduceren. Er is daarom sprake van een paradox: een visualisatie moet inzicht bieden in data, maar om dat te bereiken moet het data tegelijkertijd manipuleren, versimpelen en verbergen. In dit artikel zal ik beargumenteren dat met name pragmatische visualisaties niet alleen het grotere geheel zouden moeten laten zien, maar ook toegang moeten bieden tot specifieke objecten in de onderliggende data. Dit kan door de gebruiker in staat te stellen om data horizontaal en verticaal te exploreren. Om de paradox te doorbreken moeten beide methoden gefaciliteerd worden door het ontwerp van de visualisatie. Het resultaat is dat we kunnen spreken van rijke datavisualisaties. Dat is een visualisatie die is: 1. Ontworpen als interface voor zo ruw mogelijke data 2. Niet statisch, maar interactief, zodat de gebruiker zelf kan onderzoeken 3. Een interface die de gebruiker faciliteert om de data zowel horizontaal als verticaal te exploreren
Een rijke datavisualisatie kan de paradox grotendeels doorbreken en stelt gebruikers in staat om dieper in de data te duiken en uiteindelijk de visualisaties en de onderliggende data beter te begrijpen. Rijke datavisualisaties kunnen de gebruiker zo een oppervlakkige observatie naar een gedegen analyse brengen. BELANGRIJKE BEGRIPPEN DATAVISUALISATIE, PRAGMATISCHE VISUALISATIE, SOCIALE VISUALISATIE, META-DATA, MANY EYES, GUARDIAN CHALKBOARDS, REDUCTIE, CONTEXT, INTERFACE, HORIZONTALE EXPLORATIE, VERTICALE EXPLORATIE.
Thomas Boeschoten (3547736) Get Real!
2 REDUCTIE IN PRAGMATISCHE VISUALISATIES Alvorens in detail te treden is het van belang om het begrip datavisualisatie af te bakenen. Volgens de artiest Richard Wright (2008 78) wordt datavisualisatie doorgaans begrepen als ‘a mapping of digital data onto a visual image’. Lev Manovich (2002a) gebruikt de term voor ‘the situations when quantified data which by itself is not visual [..] is transformed into a visual representation.’ Beide definities kunnen een groot scala aan uiteenlopende visualisaties omvatten en zijn voor dit artikel daarom nog te breed. De computerwetenschapper Robert Kosara (2007), die zich specialiseerde in visualisaties, geeft al meer richting als hij twee culturen van visualisatie beschrijft, die hij samenvat als zijnde twee uitersten: pragmatic en artistic visualization. Uiteraard is het onderscheid tussen beiden niet zo strikt: artistieke visualisaties kunnen wel degelijk serieuze, pragmatische intenties hebben en pragmatische visualisaties kunnen gebaat zijn bij esthetische kwaliteiten. In de context van dit artikel is het onderscheid echter zeer bruikbaar, aangezien ik mij voornamelijk richt op de pragmatische kwaliteiten van een visualisatie. In tegenstelling tot artistieke visualisaties, waarin data meer als middel lijkt te worden gebruikt om kunst te creëren, gaat het in dit artikel over het vermogen van (pragmatische) visualisaties om (nieuwe) inzicht(en) in de onderliggende data te bieden. Dergelijke visualisaties worden bijvoorbeeld in een academische, educatieve, politieke of journalistieke context gebruikt. Visualisaties van data kunnen verrassende nieuwe inzichten bieden die wellicht niet aan de oppervlakte zouden komen door slechts naar losse objecten (de onderliggende data) te kijken. Om data te visualiseren moet deze allereerst versimpeld en vertaald worden in een visueel aantrekkelijke verschijningvorm. Lev Manovich (2010) noemt dat reduction en beschouwt het als een belangrijk principe van datavisualisaties: ‘We throw away 99% of what is specific about each object to represent only 1%- in the hope of revealing patterns across this 1% of objects’. De reductie van informatie is de grote kracht van visualisaties, want het is noodzakelijk om structuren en patronen te ontdekken. Tegelijkertijd is het haar grote zwakte, want die 99% weggegooide data kan essentieel blijken als context van het getoonde, als benodigde informatie om een visualisatie goed en genuanceerd te kunnen interpreteren. We kunnen dus stellen dat er sprake is van een paradox: een visualisatie moet inzicht bieden in data, maar om dat te bereiken moet het data tegelijkertijd manipuleren, versimpelen en verbergen.
Thomas Boeschoten (3547736) Get Real!
3 PROBLEMATISCHE ASPECTEN VAN DATAVISUALISATIE Naast de zojuist beschreven paradox zijn er meer problematische aspecten van visualisaties te benoemen die zich bevinden op het niveau van de maker, gebruiker, het algoritme en data. Het grootste probleem is misschien wel dat datavisualisaties de schijn van objectiviteit wekken, maar in wezen allesbehalve neutraal zijn. Net als andere mediateksten, zoals een artikel in een krant of een reportage op televisie, is datavisualisatie onderhevig aan bewuste en minder bewuste keuzes (Pauwels 2008 79). Visualisaties zijn eveneens middelen om een verhaal te vertellen die geaard zijn in een bepaalde cultuur. Er huizen (politieke) ideeën, argumenten, opvattingen en vooronderstellingen in datavisualisaties (Selfe en Selfe Jr. 1994). Manovich (2002a) vat het bovenstaande samen als the new politics of mapping of computer culture, die hij als volgt omschrijft: Who has the power to decide what kind of mapping to use, what dimensions are selected; what kind of interface is provided for the user – these new questions about data mapping are now as important as more traditional questions about the politics of media representation by now well rehearsed in cultural criticism (who is represented and how, who is omitted). More precisely, these new questions around the politics of quantified data representation run parallel to the questions about the content of the iconic and narrative media representations.
Manovich laat zien hoe representaties van data op hun eigen manier niet neutraal zijn – en dat daarom dezelfde kritische vragen gesteld moeten worden over datavisualisaties als over andere media. Naast de (soms) expliciete keuzes van mensen zijn er ook de meer impliciete, denk bijvoorbeeld aan de rol die algoritmes spelen. Algoritmes zijn essentieel voor de presentatie van visualisaties, maar vaak ook ondoorgrondelijk en misleidend. Het gevaar hiervan wordt treffend verwoord door Felice Frankel en Rosalind Reid (1998 30): We think we are on the path to insight when shading reveals contours in 3D renderings, or when bursts of red appear on heat maps, for example. But the algorithms used to produce the graphics may create illusions or embed assumptions. The human visual system creates in the brain an apparent understanding of what a picture represents, not necessarily a picture of the underlying science.
Waar Frankel en Reid en ook hoogleraar visuele cultuur Luc Pauwels (2008 79) op wijzen is dat het denken te begrijpen wat een visualisatie betekent niet gelijkstaat aan het begrijpen van de onderliggende data. Mede door algoritmes die kleur en vorm toekennen aan in zichzelf niet-visuele data is er ondanks de aanwijsbare verbintenis tussen
Thomas Boeschoten (3547736) Get Real!
data en visualisatie ook sprake van een zekere afstand. Een visualisatie kan heel duidelijk een bepaald beeld schetsen, maar dat betekent nog niet dat we deze daadwerkelijk begrijpen. Cognitiewetenschappers Mike Scaife en Yvonne Rogers (1996 185) benadrukken bijvoorbeeld dat er nog veel onduidelijkheid is over hoe grafische representaties eigenlijk werken en hoe de hersenen visuele informatie verwerken. Wat in ieder geval vaststaat, is dat voor zowel de makers als gebruikers van datavisualisaties de algoritmes vaak een black box zijn. Visualisatiesoftware als Many Eyes en Gephi bijvoorbeeld bieden een heel scala aan algoritmes waarvan niet inzichtelijk is hoe ze data precies verwerken. 1 En ook analoge visualisaties zijn meestal ooit gecreëerd met behulp van algoritmes die voor de gebruiker niet meer inzichtelijk zijn. Een ander problematisch aspect van datavisualisaties is de data zelf. Welke data is het uitgangspunt voor een visualisatie? Axel Bruns et. al (2010 2-3) wijzen bijvoorbeeld op de beperkingen van crawling software die gebruikt wordt om data van netwerken te verzamelen. Crawling software heeft altijd een startsample nodig die bijvoorbeeld handmatig is geselecteerd. Deze software maakt vaak gebruik van Application Programming Interfaces (API’s), die op hun beurt weer beperkingen hebben: ‘The public APIs provided by social media and social network companies do not give all data that these companies themselves are capturing about the users’ (Manovich 2011 5). Dit soort problemen en beperkingen zorgen voor wat Joshua Holt (2011) omschrijft als selection bias. Zelfs als een sample, bijvoorbeeld van gebruikers van een sociaal netwerk, willekeurig wordt verzameld moet in acht genomen worden wie er bij voorbaat al buiten deze selectie vallen (bijvoorbeeld delen van de wereldbevolking die niet of nauwelijks gebruik maken van sociale media – zelfs de drukstbezochte sociale netwerken zijn op talloze plaatsen ondervertegenwoordigd). Een ander voorbeeld wordt beschreven door Jasper Sluijs (2008), die aantoont dat de onderliggende (demografische) data van de sociale visualisatiewebsite Sense.us hoogst onbetrouwbaar is door inconsistente meetmethoden van de Amerikaanse overheid door de jaren heen. Dit wordt duidelijk als Sluijs een verklaring zoekt voor een opvallende steiging van de populatie die Sense.us laat zien in de zuidelijke staten in 1870: Did the population of the Southern states grow exponentially after the Civil War, or is something different going on? Does this sudden increase relate to an actual demographic development that is represented in the graph, or to the fact that for the first time in history the former slave population was included in the U.S. Census? 1 Er zijn algoritmes voor visualisatiesoftware die uitgebreid worden toegelicht in papers, maar dit betekent geenszins dat makers en gebruikers deze algoritmes dus doorgronden.
Thomas Boeschoten (3547736) Get Real!
[T]he collection of Census data over the years has been far from an unbiased practice. (Sluijs 2008)
Wat Sluijs laat zien is dat onderliggende data corrupt kan zijn. En ook als het dat niet is, is het van belang te weten hoe het is verzameld en hoe het is opgeslagen. Waar Sluijs in zijn artikel voor pleit is een dieper begrip van de data, waarmee hij niet doelt op louter de data zelf, maar juist op de bredere sociaal-culturele context waarin deze vergaard is. Ik heb niet de ruimte om hier uitgebreid op in te gaan, maar het mag duidelijk zijn dat Sluijs hier een belangrijk punt maakt. Iemand kan een visualisatie nog zo goed begrijpen, als de onderliggende data “corrupt” is kunnen visualisaties hoogstens dienen om inconsistenties in de data te ontdekken.
4 DUIDING: DE BELOFTE VAN SOCIALE INTERACTIE De problematische aspecten van datavisualisaties zoals besproken in paragraaf 3 hebben talloze auteurs geïnspireerd om te pleiten voor een andere omgang met visualisaties. Een belangrijke stroming heeft gepleit voor software die het visualiseren en duiden van data tot een sociaal proces maakt en wijzen op de voordelen van social data analysis en collaborative information visualisation (Heer 2006, Heer, Viégas en Wattenberg 2007, Sluijs 2008, Viégas et al. 2007 en Wattenberg 2006). Samengevat zien zij een belangrijke rol weggelegd voor gebruikers van visualisaties om de onderliggende data te duiden en te voorzien van de nodige context (waaronder de sociaal-culturele context waar Sluijs naar verwijst). Deze beloften blijken bijvoorbeeld uit het onderstaande citaat van Heer, Viégas en Wattenberg (2007): [S]ensemaking is often also a social process. People may disagree on how to interpret the data and may contribute contextual knowledge that deepens understanding. As participants build consensus or make decisions they learn from their peers. Furthermore, some data sets are so large that thorough exploration by a single person is unlikely. This suggests that to fully support sensemaking, visualizations should also support social interaction.
De auteurs formuleren de belofte op basis van de vooronderstelling dat sociale interactie een belangrijke voorwaarde is voor een dieper begrip van de data. In visualisatiesoftware zoals Many Eyes en Sense.us is dit ideaal van sociale interactie zelfs ingesloten in het ontwerp van de software.2 Niet alleen wordt getracht om participatie van gebruikers te faciliteren, sociale interactie wordt zelfs Viégas en Wattenberg zijn namens het IBM Visual Communication Lab als ontwikkelaars betrokken bij Many Eyes en Sense.us. 2
Thomas Boeschoten (3547736) Get Real!
aangemoedigd. In Many Eyes moeten gebruikers een dataset die ze willen visualiseren bijvoorbeeld éérst publiceren alvorens deze kan worden gevisualiseerd, waarbij er geen keuzemogelijkheid wordt geboden om de dataset te verbergen voor anderen. Jasper Sluijs (2008) noemt het delen van de complete dataset deep sharing: ‘Whereas shallow sharing practices rely on the indirect representation of visualization images — through printouts or screen shots, for instance — deep sharing involves sharing an entire dataset and its visualizations.’ Many Eyes nodigt gebruikers uit om diep te delen, maar daar moet bij worden opgemerkt dat dit niet betekent dat de complete dataset wordt gedeeld. Enkel de data die wordt gevisualiseerd is in dit geval door de gebruiker geselecteerd – terwijl een oorspronkelijkere dataset misschien wel veel groter is. Ook het proces van visualiseren is in Many Eyes ontworpen met het idee om social interaction tot affordance van de software te maken. Gebruikers kunnen verschillende algoritmes kiezen voor dezelfde dataset, met als achterliggend ideaal dat verschillende visies op dezelfde data ten goede komt van het begrip van de data. De visualisaties kunnen vervolgens als snapshot worden opgeslagen die automatisch als comment bij de dataset verschijnt. Het sociaal visualiseren is een veelbelovende ontwikkeling, maar heeft ook haar beperkingen. Op Many Eyes worden bijvoorbeeld talloze datasets geüpload waarvan de betrouwbaarheid, bruikbaarheid en documentatie zwaar te wensen overlaat. Een korte blik op de meest recente geüploade datasets laat zien dat voor veel datasets geldt dat er meerdere versies van verschijnen, waarschijnlijk omdat datasets voortdurend getest en aangepast moeten worden. Omdat het niet mogelijk is om te kiezen of een dataset, al dan niet, openbaar toegankelijk moet zijn ontstaat er op Many Eyes een groot aanbod onbruikbare datasets, waarvan alleen de uploader een idee heeft wat het voorstelt. Ondanks dat het mogelijk is om de naam van, een url naar en een beschrijving van het bronmateriaal toe te voegen ontbreekt deze meta-data bij de meeste datasets.3 En al zou deze niet ontbreken dan blijft het onduidelijk of de data betrouwbaar is, aangezien er geen enkel bewijs is dat een dataset van een goede bron afkomstig is. Waar dit toe leidt is dat er van de meeste datasets nooit een visualisatie wordt opgeslagen. Uit onderzoek onder gebruikers van Many Eyes blijkt dan ook dat de meeste sociale interactie rondom de data(visualisaties) plaats vond ‘outside of the site: on blogs, in face-to-face meetings, or in e-mail’ (Danis et al. 2008). Ondanks alle pogingen om sociale interactie op te nemen in het ontwerp van de software worden mensen vooral via vertrouwde kanalen op een dataset geattendeerd, waar verificatie van de data tot op zekere hoogte mogelijk is. 3
Manovich omschreef meta-data bondig doch treffend als ‘data about the data’ (2002b).
Thomas Boeschoten (3547736) Get Real!
Niet alleen de data zelf, maar ook bijdragen áán de data door gebruikers kunnen problematisch zijn. Sense.us probeerde gebruikers aan te zetten tot sociale interactie door ‘view sharing, discussion, graphical annotation, [..] social navigation and [..] novel interaction elements’ te faciliteren (Heer, Viégas en Wattenberg 2007). Een belangrijk aspect is dat ze hiermee gebruikers in staat stellen om meta-data toe te voegen aan de visualisaties, als een soort extra context voor het getoonde. De kwaliteit van deze toegevoegde meta-data is echter betwistbaar. Zoals Pauwels opmerkt, hoeft een toegenomen democratisering van visuele technologieën (zoals datavisualisaties) niet te leiden tot ‘greater visual literacy’ (2008 80). Ook Sluijs (2008) is sceptisch over bijdragen van gebruikers: The emphasis in Heer, et al.’s (2007) design document is very much focused on utilitarian principles: their attempt to create an asynchronous, collaborative visualization tool should eventually improve the process of ‘sensemaking’. However, it is questionable whether their emphasis on social interaction can be applied to utilitarian principles. With social interaction, subjective sensemaking increases, which tends to undermine visual efficiency.
“Subjectieve duiding” is vrij vertaald hoe Sluijs de bijdragen van gebruikers noemt. Zolang gebruikers visualisaties niet kunnen doorgronden en te maken krijgen met problematische aspecten zoals besproken in paragraaf 3, is de kwaliteit van toegevoegde meta-data afhankelijk van te veel onzekerheden. Sociale visualisatie kan evengoed duiding verschaffen als verwarring saaien – en is daarmee niet de ideale oplossing om bijvoorbeeld de paradox van visualisaties te doorbreken.
5 DE COMPLEXE GELAAGDHEID VAN DATA Zojuist is duidelijk geworden dat sociale interactie niet de heilige graal van datavisualisaties is. In de populaire visualisatiesoftware Guardian.co.uk Chalkboards (GC), waarin de gebruiker geen data kan toevoegen maar wel verschillende parameters kan instellen, komen andere beperkingen naar voren. GC is software die gebruikers in staat stelt om visualisaties van verschillende voetbalwedstrijden te maken door data uit een database te selecteren en parameters in te stellen. Visualisaties in GC zijn altijd gebaseerd op een wedstrijd. Als casus heb ik een wedstrijd geselecteerd en enkele parameters ingesteld. Figuur 1 toont een visualisatie van de passes van een voetballer genaamd Samir Nasri gedurende een complete wedstrijd van negentig minuten. De passes worden weergegeven als pijlen met een startpunt (waar de bal verstuurd werd) en eindpunt (waar de bal ontvangen of onderschept werd) en de afstand die de bal afgelegde (de lengte van de pijl). De patronen die je in deze visualisatie kunt ontdekken zijn bijvoorbeeld
Thomas Boeschoten (3547736) Get Real!
dat de meeste passes die Nasri verstuurde aankwamen (blauw) en dat hij verreweg de meeste passes verstuurde op de helft van de tegenstander. Deze observaties zijn zeker nuttig om het spel van Nasri te analyseren, maar kunnen niet alles verklaren wat de visualisatie laat zien. Daarvoor is het nodig om dieper in de onderliggende data te duiken. Hierin voorziet Chalkboards tot op zekere hoogte. Mocht iemand bijvoorbeeld benieuwd zijn naar de mislukte pass van Nasri vlak bij zijn eigen strafschopgebied (onderin), dan kan door de cursor over de rode pijl te bewegen meta-data worden opgevraagd. Er verschijnt dan een grijs blokje waarin bijvoorbeeld staat dat het een kopbal betrof. Dat het een kopbal was, zegt echter nog weinig over waarom de pass mislukte. Daarvoor is het nodig om te weten of Nasri onder druk stond, of het een moeilijke kopbal was, hoe de bal werd aangespeeld, etc.
Figuur 1 Screenshot van een visualisatie van de passes van Samir Nasri in GC.
Thomas Boeschoten (3547736) Get Real!
Wat bovenstaande voorbeeld laat zien is dat Chalkboards is ontworpen om onderliggende data inzichtelijk te maken, maar dat dit alsnog onvoldoende is om genuanceerde uitspraken te kunnen doen over sommige opvallende zaken in de visualisatie. Dat komt doordat de visualisatie slechts inzicht biedt in de gevisualiseerde dataset (zoals de meta-data, het gegeven dat het een kopbal is) van de mislukte pass van Nasri. De gevisualiseerde gebeurtenis is echter te complex om aan de hand van louter statistieken te kunnen doorgronden. Er is een ander soort data nodig die op een andere manier kan worden onderzocht, bijvoorbeeld de videobeelden van de wedstrijd. In feite heeft de gebruiker van GC een omgedraaid proces van reductie nodig, die hem of haar terugbrengt naar de ruwe data. Hoewel het lastig is om te zeggen wat de “ruwe” data precies zijn, kunnen we wel stellen dat naarmate er meer reductie plaatsvindt, de data verder afraakt van haar ruwere oorsprong (Pauwels 2008 79). In dit voorbeeld vormt de wedstrijd zelf de ruwe data voor de videobeelden, die op haar beurt de onderliggende data vormt voor de statistieken, die op haar beurt weer de onderliggende data van een visualisatie vormt. De onderliggende data van de visualisatie bestaat dus uit een complexe gelaagdheid van verschillende soorten data, die we als volgt zouden kunnen rangschikken: GEREDUCEERD Visualisatie Statistieken Videobeelden Gebeurtenis RUW
Voor elk “laag” data geldt dat ze onderling overeenkomstige en afwijkende metadata kunnen hebben. De meta-data over tijd zal bijvoorbeeld synchroon zijn voor alle lagen, maar aan de statistieken kunnen bijvoorbeeld weer heel andere gegevens worden toegevoegd dan aan de videobeelden. In figuur 2 is de gelaagdheid van informatie schematisch weergegeven. De figuur laat zien dat er verschillende lagen van data zijn met daaraan verbonden meta-data die zich in dezelfde laag bevindt. Naarmate er meer reductie plaatsvindt (de peil omhoog) worden data abstracter en verwijdert het zich verder van de ruwe data. Een interface (de peil omlaag) kan echter toegang bieden tot ruwere data of meta-data, maar altijd slechts tot een bepaalde hoogte. Een voetbalwedstrijd die in
Thomas Boeschoten (3547736) Get Real!
het verleden plaatsvindt, kan bijvoorbeeld niet meer in haar ruwste vorm worden opgevraagd.
Figuur 2 Een model om de gelaagdheid van datavisualisaties in beeld te brengen. Aan de rechterkant is dit model toegepast op de case Guardian Chalkboards.
6 HORIZONTALE EN VERTICALE EXPLORATIE Datavisualisatie is zeer geschikt om opvallende zaken aan te wijzen (zoals de mislukte pass van Nasri), om deze vervolgens nader te onderzoeken. Deze gedachte werd al in 1987 door de US National Science Foundation geopperd. In haar rapport Visualization in Scientific Computing werd voorgesteld ‘to use visualization to quickly spot patterns in the data that could then be used to guide investigations toward hypotheses more likely to yield results’ (geciteerd in Wright 2008 78). Recent stelde ook Manovich (2011 9-10) een dergelijke methodiek voor: We can use computers to quickly explore massive visual data sets and then select the objects for closer manual analysis. [..] Ideally, we want to combine human ability to understand and interpret - which computers can’t completely match yet - and computers’ ability to analyze massive data sets using algorithms we create.
Voor een nadere handmatige analyse – waar Manovich voor pleit – moeten specifieke objecten in de onderliggende data beschikbaar zijn. Zoals in de vorige paragraaf duidelijk werd, gaat er onder een visualisatie een complexe gelaagdheid van data schuil, maar zijn niet alle lagen van onderliggende data altijd toegankelijk. De onderliggende data wordt verborgen door het proces van reductie. Daarbij moet onderscheid gemaakt worden tussen de dataset (de gevisualiseerde data) en de ruwere data (die wel de basis vormt voor de dataset, maar er geen rechtstreeks onderdeel van uitmaakt). Neem bijvoorbeeld de mislukte pass van Nasri. Videobeelden van dit moment maken geen onderdeel uit van de gevisualiseerde
Thomas Boeschoten (3547736) Get Real!
dataset, maar vormen wel de ruwere vorm van de data (de statistieken) in deze dataset, zoals we in de vorige paragraaf vaststelden. Voor een handmatige analyse van de mislukte pass van Nasri zijn er twee methoden. De eerste methode zou ik horizontale exploratie willen noemen. Dit betekent dat binnen de onderliggende dataset, dus binnen dezelfde datalaag (statistieken) wordt gezocht naar aanvullende meta-data (nog meer statistieken). In dit geval volstaat het dus om onderliggende data te bestuderen, deze meta-data maakt immers al onderdeel uit van de dataset (zie figuur 2) die is gevisualiseerd. De tweede methode zou ik de verticale exploratie willen noemen. Dat betekent dat er naar diepere, ruwere lagen (een ander soort gegevens) wordt teruggegrepen om de visualisatie te ontrafelen. Deze data is doorgaans niet rechtstreeks verbonden aan de visualisatie, maar bevindt zich er buiten. Het kunnen herinneringen aan een bepaald moment zijn, foto’s, geluidsopnamen enzovoorts die zelf niet gevisualiseerd zijn. Denk aan de videobeelden waar de statistieken van GC weliswaar naar refereren, maar die verder los staan van de visualisatie zelf. Om de mislukte pass van Nasri te analyseren, moet de gebruiker verder kijken dan de visualisatie en de dataset zelf – en dus verticaal exploreren.
7 CONCLUSIE: PLEIDOOI VOOR RIJKE DATAVISUALISATIES Reductie van informatie is de grote vijand van handmatige analyse en heeft, zoals eerder beargumenteerd, gezorgd voor een merkwaardige paradox. Om deze paradox te doorbreken stel ik voor dat datavisualisaties ontworpen moeten worden als interface om zowel horizontale als verticale exploratie van de data te faciliteren en aan te moedigen. Er heerst een hoopvol aura rondom het op deze manier toegankelijk maken van data. Lev Manovich (2011 10) is bijvoorbeeld enthousiast over de kansen die het zou bieden: Imagine that you have software that combines large-scale automatic data analysis and interactive visualization. [..] If you also have skills to examine individual artifacts and the openness to ask new questions, the software will help you to take research in many new exiting directions.
Jasper Sluijs (2008) pleit voor het openen van de data, zoals in Many Eyes gebeurt, en wil dat combineren met sociale visualisatie: Besides simply representing data in a visualization, the next step for social visualization to take is to open up these datasets, and allow for critical exploration. This allows users to think beyond the data as some pre–imposed and objective given, and develop a deeper understanding of the data they study.’
Thomas Boeschoten (3547736) Get Real!
De methodemix die dergelijke visualisaties bieden zijn inderdaad hoopgevend – al moet worden opgemerkt dat hoe de gebruiker er mee omgaat altijd nog van cruciaal belang is. Als iemand echter grondig te werk gaat, kunnen dit soort visualisaties prachtige nieuwe inzichten bieden én onderbouwen. Rest de vraag hoe dit model er uit ziet in de praktijk. Guardian Chalkboards zou haar data bijvoorbeeld kunnen verrijken door de videobeelden van dezelfde speelminuut aan elke actie toe te voegen, die door op een actie te klikken zouden openen in een venster. Deze videobeelden vormen daarmee een soort toegevoegde data die in wezen verticale exploratie faciliteert binnen de interface van de visualisatie, zonder dat het de kracht van de visualisatie schaadt. Een datavisualisatie kan zo voorzien in het grotere geheel (de patronen en structuren) én in exploratie van de specifieke objecten en ruwere data. De paradox is hiermee grotendeels doorbroken en stelt gebruikers in staat om dieper in de data te duiken en uiteindelijk de visualisaties en de onderliggende data beter te begrijpen. Ik zou visualisaties die dergelijke exploratie faciliteren rijke datavisualisaties willen noemen. Een rijke datavisualisatie is: 1. Ontworpen is als interface voor zo ruw mogelijke data 2. Niet statisch, maar interactief, want de gebruiker kan met data interacteren 3. Een interface die de gebruiker faciliteert om de data te zowel horizontaal als verticaal te exploreren
Een voorbeeld van een rijke datavisualisatie – misschien is “mapping” in dit geval een beter woord – is Google Maps. Deze software stelt de gebruiker nadrukkelijk in staat om verticaal te exploreren. Wanneer iemand bijvoorbeeld vergeten is wat het adres is van een bepaalde woning, heeft hij of zij misschien onvoldoende aan de tweedimensionale kaart of satellietfoto met straatnamen. Door in te zoomen en de functie Google Streetview te activeren, kan de gebruiker foto’s bekijken die zijn gemaakt van de betreffende locatie. Deze foto’s zijn een werkelijk ander soort gegevens dan de kaarten en satellietfoto’s. Ze kunnen geraadpleegd worden om duiding te geven bij wat de tweedimensionale kaart laat zien. De foto’s zullen bevestigen of de plek op de kaart inderdaad de plek is waar iemand dacht heen te moeten. Uiteraard zijn er nog ruwere varianten van deze data denkbaar, maar Google Maps biedt gebruikers al de mogelijkheid om bijzonder diep in de data te duiken. Het zal per visualisatie opnieuw bekeken moeten worden wat de meest geschikte, registreerbare ruwe data is om op te nemen in de visualisatie. Rijke datavisualisaties kunnen een brug bouwen tussen abstracte en
Thomas Boeschoten (3547736) Get Real!
specifieke objecten, tussen kwantitatief en kwalitatief onderzoek, tussen het grotere geheel en de kleine details. Het kan de gebruiker van een oppervlakkige observatie naar een gedegen analyse brengen – als visualisaties maar ruw genoeg kunnen worden.
8 LITERATUUR Bruns, A., J. Burgess, T. Highfield, L. Kirchhoff en T. Nicolai. "Mapping the Australian Networked Public Sphere" Social Science Computer Review. Sage Publications, 2010 Heer, J. “Socializing Visualization” CHI. Montreal: ACM, 2006 Heer, J., F.B. Viégas en M. Wattenberg. “Voyagers and Voyeurs: Supporting Asynchronous Collaborative Information Visualisation” CHI 2007 San José: ACM, 2007 Holt, J. "Social media as a research tool - The danger of selection bias" [2011] Knowledge Dynamo 9-10-2011
Frankel, F en R. Reid. “Distilling Meaning from Data” Nature 455, 2008 30 Kosara, R. “Visualization Criticism – The Missing Link Between Information Visualization and Art” Proceedings of the 11th International Conference on Information Visualisation (IV), 2007 631–636 Manovich, L. "Data Visualisation as New Abstraction and Anti-Sublime" [2002a] Manovich.net, 24-10-2011
Manovich, L. "Metadata, Mon Amour" [2002b] Manovich.net, 24-10-2011 Manovich, L. "What is Visualization?" [2010] Manovich.net, 14-10-2011 Manovich, L. "Trending: The Promises and the Challenges of Big Social Data" [2011] Manovich.net, 24-10-2011 Pauwels, L. “Visual Literacy and Visual Culture: Reflections on Developing More Varied and Explicit Visual Competencies” The Open Communication Journal 2, 2008 79‐85 Scaife, M. en Y. Rogers "External cognition: how do graphical representations work?" International Journal of Human – Computer Studies 45 (2), 1996 185-213 Sluijs, J.P. "Sense.us: Towards a more social 'social visualization'" First Monday 13 (12), 2008 Selfe, C.L. en R.J. Selfe, Jr. "The Politics of the Interface: Power and Its Exercise in Electronic Contact Zones" College Composition and Communication 45 (4), 1994 480-504 Viégas, F.B. en M. Wattenberg. "Artistic Data Visualization: Beyond Visual Analytics" Online Communities and Social Computing 4564, 2007 182-191 Viégas, F.B., M. Wattenberg, J. Kriss en M. McKeon. “Many Eyes: A Site for Visualization at Internet Scale” IEEE InfoVis, 2007 Wattenberg, M. en J. Kriss. “Designing for Social Data Analysis” IEEE Transactions on Visualization and Computer Graphics 12 (4), 2006 Wright, R. "Data Visualization" red. M. Fuller. Software Studies: A Lexicon. Cambridge: MIT Press, 2008 78‐87