Werking van het algoritme en toekenningsproces
NSTC Informatie over o.a. Definitie ‘werk’ Algoritme Handmatige controle
1. NSTC Het NSTC zorgt ervoor dat alle verschijningsvormen van een ‘werk’ onder één noemer bij elkaar worden gebracht. Het NSTC wordt bepaald door een algoritme en toekenningsproces wat is ontwikkeld in een gezamenlijk project van CB en Me ta4Books. Dit document probeert in zicht te geven in welke titels van een NSTC voorzien worden, de toekenningsregels van het algoritme en de processen en protocollen rondom titels waarbij het algoritme geen eenduidige toekenning kon vinden. Uiteraard kunnen we hierin niet compleet zijn. Voor al uw vragen kunt u terecht bij
[email protected].
1.1. Doel Het doel is om alle verschijningsvormen bij elkaar te brengen die in de beleving van de consument ‘hetzelfde verhaal beschrijven’. Dit is een vrij ruime definitie, waarin verkorte audioboeken, luxe edities in doos, dyslexie-edities, e-books, grootletteruitgaven, enz. allemaal bij elkaar gebracht worden indien het verhaal in deze verschijningsvormen in de beleving van de consument identiek is.
Belangrijkste doelgroep De groepering gaat ook over uitgevers heen. Dit betekent dan ook dat de belangrijkste doelgroep van het NSTC de boekverkoper en daarachter de consument is. Uiteraard kunnen uitgevers het NSTC ook gebruiken om te zien wat de totaalomzet van een werk is, maar zij moeten er dan wel alert op zijn dat het NSTC ISBN’s kan bevatten van andere uitgevers. Ook is het NSTC niet één op één te gebruiken voor royaltyverwerking, omdat er per onderliggend ISBN andere betrokkenen kunnen zijn (denk aan een voorlezer). Het NSTC heeft voor de uitgever zeker waarde, maar de primaire belanghebbende waarop het NSTC gericht is, is de consument en daarmee de boekverkoper.
Definitie werk Zoals gezegd groeperen we ISBN’s waarvan ‘het verhaal in de beleving van de consument vergelijkbaar is’. De groepering heeft dus niks te maken met de vorm van het boek (papier/digitaal, hardcover/paperback), maar alles met de inhoud van het boek. In een aantal gevallen wijken twee verhalen van elkaar af terwijl we toch deze ISBN’s onder hetzelfde werk willen scharen: Een audioboek is vaak een verkorte versie van het oorspronkelijke verha al Een filmeditie geeft een weergave die kan afwijken van het oorspronkelijke verhaal Een dyslexie editie kan op punten afwijken van de oorspronkelijke versie Een nieuwe druk met een extra voorwoord wordt onderdeel van hetzelfde werk
2 / NSTC: Werking van het algoritme en toekenningsproces
1.2. Toekenningsproces Het proces wat moet leiden tot een toekenning van een NSTC verloopt in 3 stappen: 1. 2. 3.
Selectie van ISBN’s die in aanmerking komen Aanbieden van ISBN aan matchingsalgoritme Verwerken uitval algoritme via handmatige procedures
In onderstaand plaatje wordt het proces geschetst. De uitleg van de diverse stappen volgt na het diagram.
1. Selectie van ISBN’s ISBN’s die voldoen aan de volgende voorwaarden worden opgenomen in het algoritme: De ISBN is onderdeel van het commerciële assortiment van CB of Boekenbank De ISBN betreft een A- of O-boek ISBN’s worden aangeboden aan het toekenningsproces zodra de redactionele controle door Bureau ISBN is uitgevoerd. De reden hiervoor is dat we in het algoritme gebruik maken van titel - en auteurgegevens en vaak tijdens de redactionele controle foutieve situaties corrigeren. De redactionele controle gebeurt zodra CB het fysieke of digitale boek binnenkrijgt en kent in de regel een doorlooptijd van 2 werkdagen. Indien om welke reden dan ook de titel al 10 dagen verschenen is zon der redactioneel gecontroleerd te zijn, wordt de titel alsnog aangeboden aan het algoritme.
3 / NSTC: Werking van het algoritme en toekenningsproces
2. Aanbieden van ISBN aan matchingsalgoritme Indien de ISBN aan de voorwaarden uit stap 1 voldoet, wordt het ISBN aangeboden aan het matchingsalgoritme. Dit algoritme maakt gebruik van de titel- en auteursvelden om potentieel vergelijkbare ISBN’s in kaart te brengen. Omdat het een te zware operatie is om tienduizenden boeken te matchen met tienduizenden boeken, maken we voor elk ISBN waarbij we een werk willen creë ren een short list van titels die redelijkerwijs een grote kans hebben om tot hetzelfde werk te behoren. Dit doen we door een selectie te maken van alle ISBN’s met dezelfde achternaam van de eerste contributor. Deze contributor zal in veel gevallen de auteur zijn, maar dit kan ook de illustrator, redacteur, enz. zijn. Vervolgens wordt voor alle boeken op de short list de matchingsscore berekend met de oorspronkelijke ISBN. Dit wordt gedaan door te bepalen in hoeverre de hoofdtitel en naam van de eerste con tributor overeenkomt via de zogeheten Levenshtein afstand. Op dit moment kunnen er zich een aantal scenario’s voordoen: Indien de score 100% is worden de ISBN’s beschouwd als onderdeel van hetzelfde werk. Indien de score onder een bepaalde ondergrens valt wordt de potentiële groepering verworpen. Indien de score tussen de ondergrens en de 100% zit wordt de match handmatig beoordeeld.
3. Verwerken uitval algoritme Er zijn twee zogenaamde parkeerlijsten waar potentiële groeperingen op geplaatst worden waar bij niet met 100% zekerheid een match te realiseren valt: Alle matchingsscores tussen de ondergrens van 80% en 99%. In dit geval kunnen we de groepering niet automatisch toekennen noch verwerpen en zal de match handmatig beoordeeld moeten worden. Alle ISBN’s zonder contributor. In dit geval kunnen we geen ISBN’s selecteren met dezelfde contributor en kiezen we ervoor om te kijken of ISBN’s waarvan de eerste karakters van de titel overeenkomen tot hetzelfde werk behoren. Dit is niet altijd via een algori tme betrouwbaar te bepalen en daarom kiezen we er voor deze ISBN’s ook handmatig te beoordelen. Aangezien NSTC een gezamenlijk project is van CB en Meta4Books, wordt het werk ook verdeeld. Bovenstaande parkeerlijsten kennen dan ook een Nederlandse en een Vlaamse versie, waarbij het land van origine van de prefixhouder van de ISBN bepaalt op wiens parkeerlijst de ISBN komt. Momenteel komt ca. 40% van de matches op één van de parkeerlijsten terecht. Dit percentage is bewust hoog gehouden, omdat we in deze fase liever extra controleren op kwaliteit dan dat we blind moeten vertrouwen op de correcte werking van het algoritme. In de toekomst zullen we het matchingsalgoritme dusdanig verfijnen dan er minder matches op de parkeerlijst terecht komen.
1.3. Diverse gemaakte keuzes In het testproces wat CB en Meta4Books hebben doorlopen hebben we de keus gemaakt niks te doen met andere metadata die wellicht een hint zouden kunnen geven of twee ISBN’s hetzelfde werk betreffen. Denk hierbij aan de NUR, de uitgever, andere contributors dan de eerste, de ondertitel, enz. De reden hiervoor is dat we door het opnemen van deze elementen in het algoritme meer ruis en false negatives verkregen dan dat het ons aan een betere matching opleverde.
1.4. Bezwaarprocedure De verantwoordelijk voor de NSTC toekenning ligt bij CB (uitvoering door Bureau ISBN) en Meta4Books. In geval een uitgever of boekverkoper het niet eens is met een toekenning kan men contact zoeken met
[email protected] of met Meta4Books . Wij zullen zoveel mogelijk naar uw argumenten luisteren, waarbij de uiteindelijke keuze bij CB en Meta4Books blijft liggen.
4 / NSTC: Werking van het algoritme en toekenningsproces
Nederland Erasmusweg 10 4104 AK Culemborg +31 (0)345 47 59 11
[email protected]
cb-logistics.nl
België Baaikensstraat 2-D 9240 Zele België Uitbreidingsstraat 84 2600 Berchem België +32 (0)524 569 40
[email protected]
cb-logistics.be