Master Minds on Data Science Multimedia Datamining 12 november 2015 In de eerste sessie zijn we vooral ingegaan op de toegevoegde waarde van data vanuit het perspectief van de gebruiker. Duidelijk is dat de kwaliteit van de data in beide gevallen het succes van data science in de mediasector bepaalt. In de tweede bijeenkomst duiken we daarom dieper in op de eisen die gesteld worden aan de databronnen. Want naast kwaliteit zijn er ook eisen aan de kwantiteit van de databronnen om automatisch bruikbare patronen te herkennen en daarvan ‘actionable data’ te maken. Multimedia datamining vereist het verzamelen van echt grote hoeveelheden data. De omvang van de gebruikte data is essentieel om goede voorspellingen en verrijkingen te kunnen toevoegen aan je mediacontent. Vandaar dat deze gegevens worden verzameld uit een aantal verschillende media, waaronder tekst, video's, geluidsbestanden en afbeeldingen, maar steeds vaker ook uit ‘spatial data’. Om die echt bruikbare informatie te extraheren uit deze databronnen zijn traditionele technieken echter niet meer afdoende. Datamining en Machine Learning technieken uit het domein van de Kunstmatige Intelligentie zijn specifiek ontwikkeld om op een data-gedreven manier automatisch patronen te ontdekken. In deze tweede bijeenkomst staan we ook stil bij de uitdagingen rondom beeld- en spraakherkenning, het doorzoeken van audiovisuele content, semantisch zoeken en de voorwaarden voor goede metadateringen. Multimedia datamining is alleen al noodzakelijk om de grote hoeveelheid eigen data die een content aanbieder genereert te kunnen doorzoeken en terugvinden, nog los van de vraag of je ze in wil zetten voor nieuwe of verrijkte personalisatiediensten.
Het belang van patroonherkenning Arno Siebes is hoogleraar Algoritmische Data Analyse aan het Departement Informatica van de Universiteit Utrecht. Hij doet onderzoek op het gebied van data mining: het zoeken naar patronen in grote databestanden. Dit gebied verbindt de diepe theorie met praktische toepassingen. De toepassingsgebieden variëren van de financiële wereld tot wetenschappen als de bio-informatica. Naast zijn bijdrage aan onderwijs en onderzoek, is hij ook lid van een aantal tijdschriftredacties en meerdere programmacommissies van conferenties. Siebes start zijn verhaal met de constatering dat informatie in feite immaterieel is. En dat er maar één machine voor nodig is - de computer-, die alles wat je met informatie zou kunnen willen doen, je ook in staat stelt om dat te kunnen doen. Informatie heeft geen materiële grootte, waardoor het mogelijk was om apparaten te laten krimpen. In tegenstelling tot de apparaten nemen wel de databases toe in grootte, zoals grote digitale bibliotheken, clouds en social networks. Daarmee zijn we beland in een wereld van Big Data.
1
Big Data is feitelijk een marketingterm gedefinieerd door de drie V’s: volume, velocity (snelheid) en variety (verschillende vormen en groottes). Big is echt Big. In 2012 heeft de wereld 1,8 zettabyte aan data geproduceerd. Het is interessant dat er veel data wordt geproduceerd, maar waarom wordt alles bewaard? Ten eerste uploaden gebruikers persoonlijke data over zichzelf via social media, waardoor het aantal dataproducenten vele malen groter is geworden. En ten tweede gebruiken bedrijven deze data om profielen te schetsen om daarop te anticiperen in de vorm van het genereren van aanbevelingen en het behouden van klanten, zoals we ook al in de eerste sessie over personalization & recommendation zagen. Om aanbevelingen te kunnen doen moeten eerst bepaalde patronen vastgesteld worden.
Patronen en profielen Een patroon is een set van karakteristieken die gedeeld worden door een bepaalde groep (bijv. klanten of patiënten). De karakteristieken kunnen dan bijvoorbeeld zijn: alle patiënten met dezelfde ziekte, of alle klanten die de afgelopen maand meer dan 1000 euro hebben besteed in je webshop. Omdat mensen meer op elkaar lijken dan ze denken (“birds of a feather flock together”), komen bij patroonherkenning meer overeenkomsten naar boven dan het ene resultaat dat ze >1000 euro hebben besteed. Zo’n heel patroon van interessante overeenkomsten kan ingezet worden als een profiel. Op basis van digitale gebruiks- en gedragspatronen kan deze groep steeds rijker en gedetailleerder beschreven worden en kunnen vervolgens voorspellingen zoals aanbevelingen gedaan worden. Dataminers kunnen met behulp van algoritmes relatief efficiënt alle interessante patronen voor deze doelgroep vinden in de database (van een ziekenhuis, een webshop, etc). De formule van pattern mining wordt door Manilla & Toivonen (1997) als volgt gedefinieerd:
Kortom, met een goede database en een eerst goede beschrijving van een subgroep (>1000 euro besteed) kunnen complete profielen worden opgesteld: mensen die >1000 euro hebben besteed, wonen gemiddeld in een huis van meer dan 7 ton, gaan 3x per jaar op vakantie waarvan 1 x transatlantisch, en hebben gemiddeld 2,3 kinderen. Een datascientist heeft voor het trainen van algoritmes voor patroonherkenning ook altijd een domeinexpert nodig die kan omschrijven welke karakteristieken in een patroon zinvol zijn, want niet elk gevonden patroon in de datastromen leidt tot zinvolle profielen in de echte wereld. Want
2
misschien laat bovenstaand profiel op basis van de patronen ook zien dat ze in hun jeugd een goudvis bezaten, maar dat interesseert de webshop-marketeer niet bij het doen van product-aanbevelingen. Een andere beperking die Siebes schetst bij patroonherkenning is de mogelijke schending van privacy. Aan de hand van slechts vier kenmerken kan een algoritme namelijk al ontdekken wie jij bent en wat je hebt gedaan. Hij noemt dit de paradox of patterns, waarbij patronen zowel een vloek zijn door het schenden van privacy, als een geschenk doordat ze data omzetten tot actionable knowledge.
Recommendations Er zijn heleboel technieken om een recommender system te maken en één daarvan is, zoals ook behandeld in bijeenkomst 1, collaborative filtering. Er zijn twee manieren om collaborative filtering toe te passen: user centric en item centric (zie voor de bijbehorende formules dia’s 34-37). Bij user centric wordt er gekeken naar soortgelijke patronen van andere gebruikers, die overeenkomen met de huidige gebruiker. Hierbij wordt de cosinus tussen twee gebruikers berekend, en kan het algoritme inschatten in hoeverre deze gebruikers gelijk zijn. Hoe dichter de uitkomst ligt bij de 1, hoe groter de gelijkenis.
De item centric-manier kijkt paarsgewijs naar bijvoorbeeld tegelijk gekochte gekochte items, in plaats van naar het koopgedrag van op elkaar lijkende gebruikers: men bouwt een matrix waarbij de relaties tussen paren worden vastgesteld. Elke klant vormt een item set (alle items die hij heeft gekocht krijgen) en deze item set vormt een van de vele subsets van alle rijen in de matrix. Daarna gaat het algoritme op zoek naar items die je nog niet hebt gekocht op basis van alle subsets waar de reeds gekochte items ook in voorkomen, en doet hiervoor een aanbeveling.
Valkuilen in het recommender-systeem Er zijn heel veel meer 0’en dan 1’en in een matrix. Hoewel mensen op elkaar lijken, lijken ze ook niet helemaal op elkaar. Ook wordt er nog geen rekening gehouden met de factor tijd. Denk aan transacties van een jaar geleden, die momenteel niet meer relevant voor gebruikers zijn. Ook betekent één user account niet per se één gebruiker. Zoals we ook gezien hebben bij de vorige sessie zijn de algoritmes in de aanbevelingssystemen nog altijd in ontwikkeling en worden ze steeds slimmer. In de toekomst zal het er op gaan lijken dat deze valkuilen vermeden kunnen worden, aldus Siebes. Genoeg uitdagingen voor de aanbevelingsystemen. Een andere tak van sport waar datamining ook niet stil staat, is het puur doorzoekbaar maken van audiovisuele data. Waar deze vorm van datamining op dit moment staat, laten de twee praktijk-cases van Beeld & Geluid en Media Distillery zien.
3
Archief van Beeld & Geluid doorzoekbaar maken Bouke Huurnink, IT Development Manager bij Beeld & Geluid, deelt de ervaringen van Beeld & Geluid in het gebruik van datamining-technieken om hun archief beter doorzoekbaar te maken voor hun professionele gebruikers (onderzoekers en mediaprofessionals). Beeld & Geluid fungeert als museum, archief en als kennisinstituut op het gebied van audiovisueel erfgoed. Het archief bezit meer dan 70% van al het Nederlandse audiovisuele erfgoed. Al het materiaal van de Publieke Omroepen wordt onmiddellijk na uitzending ingestroomd in het archief van Beeld & Geluid. Tot vorig jaar had Beeld & Geluid 40-60 mensen in dienst die de content handmatig aan het beschrijven waren om data vindbaar te maken. Vanaf dit jaar maakt Beeld & Geluid geen gebruik meer van deze groep mensen. Nu zorgt Beeld & Geluid er voor dat de door de omroepen aangeboden (tekstgebaseerde) metadata zo goed mogelijk is ,om daarnaast met behulp van automatische annotaties extra metadata toe te voegen. De twee automatische technieken waarmee Beeld & Geluid zich bezig houdt zijn: sprekerherkenning (niet spraakherkenning) en termextractie op basis van ondertitels. Het doel is om zoekresultaten met hoge precisie te leveren zonder ruis. Bij sprekerherkenning wordt het audiosignaal van televisie-uitzendingen geanalyseerd. Er is een model gevormd met 300 verschillende sprekers. In samenwerking met Spraaklab wordt de aangeleverde audio geanalyseerd: wie praat er, wanneer begon iemand te praten, en wanneer stopte iemand met praten. Bij termextractie worden de ondertitels geanalyseerd. Ondertitels zijn echter ontzettend uitgebreid en ongestructureerd. Het doel is om structuur aan te brengen in die ondertitels. Door het gebruik van beide technieken heeft Beeld & Geluid nu een zoekmachine die vrij goed inspeelt op de behoeften van de professionele gebruiker, die bijvoorbeeld graag alle data willen sorteren op data, gewend zijn zeer gestructureerd te zoeken en volledige transparantie willen. De zoekmachine voor deze groep ziet er nu als volgt uit dankzij de automatische annotatietools:
4
Beeld & Geluid gebruikt Thesaurus-termen voor keywords, mensen, locaties en organisaties die belangrijk zijn in het beschrijvingsproces van een uitzending. Per journaal uitzending gebruikt Beeld & Geluid nu vijf tot tien keywords. Het gebruikmaken van Thesaurus-termen geeft echter nog geen volledige garantie voor ruisvrije zoekresultaten (voorbeeld: hoe relevant is het resultaat Amsterdam bij de uitzendingen over het Fyra-debacle van Mansveld, omdat in 1 uitzending wordt gezegd dat de Fyra reed tussen Amsterdam en Brussel). Ook is de zoekmachine nog niet optimaal voor gebruik door het gewone publiek. Beeld & Geluid blijft daarom ook de komende tijd flink investeren in nog betere automatische annotatietools. Een andere vorm van het vindbaar maken van AV-content wordt aangeboden door de Nederlandse startup Media Distillery.
Mediamonitoring door Media Distillery Joost de Wit en Geert Vos hebben anderhalf jaar geleden Media Distillery opgericht. Media Distillery houdt zich bezig met het vindbaar maken van audio en video, met name radio- en tv-content. De hoeveelheid audiovisuele content neemt in hoog tempo toe, maar de slechte doorzoekbaarheid maakt hergebruik lastig. Media Distillery lost dit probleem op en laat de gebruiker op een gemakkelijke manier audiovisuele databases doorzoeken, aldus De Wit. Daarbij hanteert Media Distillery verschillende technieken om informatie uit videocontent te halen, waaronder teletekst-extracties, spraakherkenning, ingebrande ondertiteling, (ingetrainde) logo’s, en gezichtsherkenning. De gebruiker kan een zoekvraag indienen die zeer specifiek beantwoord wordt. De gebruiker krijgt te weten in welke video en op welk moment datgene gezegd of getoond wordt wat de gebruiker probeert te zoeken.
Media Distillery heeft drie proposities rondom de analyses die ze doen. Ze metadateren uitzendingen in real time. Alle informatie die binnenkomt wordt opgeslagen in een zoekmachine, en uiteindelijk belandt alle data in een archief dat achteraf doorzoekbaar is.
5
Media Distillery richt zich op twee markten: mediamonitoring en content owners. Mediamonitoring is interessant voor bedrijven die in de gaten willen houden hoe ze in de media genoemd worden. Content owners zijn mensen die hun eigen content doorzoekbaar willen maken. Op dit moment verkrijgt Media Distillery al het audiovisuele materiaal van 26 Nederlandse radio- en televisiezenders. Vanaf het moment van instroming begint het analyseproces. Allereerst wordt er gekeken naar een region of interest (ROI zoals ‘voetbal’). Elk frame wordt beschreven en de ondertiteling wordt gedetecteerd en geanalyseerd. Verder maakt Media Distillery geen gebruik van een woordenboek, maar van lettercombinaties die normaal in de Nederlandse taal aanwezig zijn. De laatste stap is om opeenvolgende frames te combineren om tot betere resultaten te komen.
De grootste uitdaging is de balans vinden tussen de beperkingen die gesteld worden aan het echt real time metadateren, de kwaliteit van de zoekresultaten en de hoge kosten die ermee gemoeid zijn.
Toekomstplannen en verbeteringen Het development team van Beeld & Geluid houdt zich op het moment bezig met het verbeteren en toevoegen van de annotatiemethoden. Doordat Beeld & Geluid gebruik maakt van een thesaurus is het lastig om zeer specifieke content aan te leveren als zoekresultaat. Verder wil Beeld & Geluid expliciete feedback verkrijgen van gebruikers, de zoekmachine geïntegreerd krijgen op de publieke website, en nieuwe interfaces ontwikkelen. Media Distillery is bezig met het verder ontwikkelen van gezichtsherkenning, teksten in beeld (naast ondertitels), en het automatisch herkennen van reclame-uitingen (ad detection). Verder verbeteren ze de spraakherkenning, ondertitelextractie, en logoherkenning. Op het gebied van logoherkenning gebruikt Media Distillery momenteel een conventionele techniek genaamd SIFT. SIFT kan enkele
6
punten in het beeld detecteren die overeen kunnen komen met een al bestaand logo, woonachtig in de database, waardoor een logo herkend kan worden. In de toekomst willen ze echter gebruikmaken van deep learning. Deep learning is een dataminingmethode waarmee je het algoritme echt kan trainen waardoor volautomatisch patronen geanalyseerd en geclassificeerd worden. Hierdoor kan het algoritme snel ontdekken of er bijvoorbeeld één of meerdere logo’s zich in het beeld bevinden. Verder wil Media Distillery kijken of ze de kwaliteit van aanbevelingen kunnen verbeteren met behulp van metadata.
Conclusie Big data is hier en gaat nooit meer weg. De hoeveelheid verkregen data neemt alsmaar toe. Big data kan het leven verbeteren, mits de data relevant is, er personen zijn die het domein begrijpen, en er personen zijn die het leuk vinden om met data om te gaan. Arno Siebes vertelt dat privacy niet geschonden hoeft te worden bij het realiseren van het potentieel van big data, en dat daar dus de toekomst ligt.
Donderdag 26 november: Predictive and real time marketing In de derde bijeenkomst gaan we een stap verder met het verrijkte aanbod. Ervan uitgaand dat gepersonaliseerd aanbod een rijkere mediabeleving oplevert voor de gebruiker, roept het de vraag op wat jij daar als contentaanbieder mee opschiet. Hoe helpt die verrijking een mediaorganisatie om zijn doelstellingen te realiseren?
7