Depersonaliseren
Onderdeel van het boek “Testdata management” Geschreven door Bert Nienhuis DATPROF
Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 1 (6)
1 Depersonaliseren
Het beveiligen van persoonsgegevens kan op verschillende manieren worden gewaarborgd; hardware-‐ en softwarematige firewalls, autorisatie modellen en geheimhoudingsverklaringen kunnen bijdragen aan het voorkomen van het oneigenlijk gebruik van persoonsgegevens. Deze maatregelen hebben een aantal grote nadelen. De kosten zijn hoog, de administratieve werklast is groot en deze methoden beschermen maar een gedeelte van de risico’s. In veel gevallen is niet de techniek de bepalende factor in het verlies of oneigenlijk gebruik van persoonsgegevens, maar de mens. De beste vorm van het beveiligen van persoonsgegevens is door ze niet beschikbaar te stellen. Toch is het tijdens het ontwikkelen en testen van informatiesystemen noodzakelijk dat men goede representatieve testdata heeft. Het anonimiseren − ook wel bekend als depersonaliseren − van productiedata is een oplossing die het beste van beide werelden biedt. Het zorgt ervoor dat productiedata kan worden gebruikt voor het ontwikkelen en testen, zonder dat daarmee gevoelige persoonsgegevens bloot worden gesteld aan oneigenlijk gebruik. Dit hoofdstuk gaat in op methoden die gebruikt kunnen worden voor het depersonaliseren van persoonsgegevens. Hierbij moet altijd rekening worden gehouden met het feit dat het kiezen van een anonimiseermethode afhankelijk is van het soort gegeven en de herleidbaarheid van een gegeven in combinatie met andere gegevens. Voorbeeld : Een unieke naam zoals Wibisono Augustinus Soerjadi (beter bekend als Wibi Soerjadi) bestaat uit drie vrij unieke namen. In dit geval is voor-‐ en achternaam in combinatie met andere gegevens erg herleidbaar, zelfs als voor-‐ of achternaam geanonimiseerd is. Voorbeeld: De leeftijd van een individu in combinatie met een adres is voor bekenden (zoals buren) al identificerend.
Het anonimiseren van persoonsgegevens zorgt ervoor dat gegevens zodanig gemanipuleerd worden, dat de betrokkenen niet meer geïdentificeerd kunnen worden of dat gevoelige gegevens niet meer herleidbaar zijn naar de daadwerkelijke personen. Hierbij moet een afweging worden gemaakt tussen de bruikbaarheid en de beveiliging van gegevens.
Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 2 (6)
1.1 Scrambling Het scramblen van gegevens is een methode voor het maskeren van data, zodat deze niet meer herkenbaar is. Deze actie is in essentie onomkeerbaar. Dat betekent dat zelfs met kennis van het gebruikte algoritme, de oorspronkelijke gegevens niet herleid kunnen worden uit de gescramblede gegevens. Een voorbeeld van scramblen is het vervangen van letters door een ‘X’ en cijfers door ‘0’. Voorbeeld Scrambling Het e-‐mailadres is een erg identificerend persoonsgegeven. In sommige gevallen is het verstandig om een e-‐mailadres te scramblen. Oorspronkelijk
[email protected]
Gescrambled
[email protected]
Het kiezen van de scramble methode kan grote gevolgen hebben voor de testdata. Bedragen en datumvelden zijn vaak ongeschikt. Deze worden vaak gebruikt door de applicatie om andere elementen te berekenen, zoals totaalbedragen of leeftijd. Tevens levert deze methode weinig representatieve testdata op.
1.2 Shuffling De nadelen van het scramblen van gegevens worden deels opgelost door de shuffle methode. De shuffle methode verwisselt binnen één of meer kolommen de waarden onderling. Op deze manier kan optimaal gebruik worden gemaakt van bestaande gegevens door deze te combineren met andere gegevens. Hierdoor kunnen bijvoorbeeld voornamen met andere achternamen worden gecombineerd. Er valt onderscheid te maken tussen ‘set-‐shuffling’ en ‘unique-‐shuffling’. De eerste variant zorgt ervoor dat elke waarde door een andere waarde wordt verwisseld. Wanneer een waarde vaker voorkomt zal deze altijd door dezelfde waarde worden vervangen. Dit kan bijvoorbeeld gewenst zijn wanneer een adres wordt verwisseld ten opzichte van de inwoners, maar de samenstelling van het huishouden niet gewijzigd mag worden. Na de verwisseling wonen dezelfde inwoners op een ander adres.
Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 3 (6)
Voorbeeld ‘set-shuffling’ Oorspronkelijk Jan de Boer Eline de Boer Hugo Groot
Diamantlaan 5 Diamantlaan 5 Goudlaan 34
Geshuffled Jan de Boer Eline de Boer Hugo Groot
Klaas Veenstra
Edelsteenstraat 123
Klaas Veenstra
Goudlaan 34 Goudlaan 34 Edelsteenstraat 123 Diamantlaan 5
Een groot nadeel van ‘set-‐shuffling’ zit in het feit dat met kennis van buitenaf mogelijk gevoelige gegevens te koppelen zijn aan bestaande individuen. Stel dat in het bovenstaande voorbeeld de adressen medicijnen waren geweest. Als iemand kennis had gehad van het feit dat Eline de Boer, HIV remmende middelen afneemt en in de testset dit is vervangen door aspirine, dan is te herleiden welke andere personen HIV remmende middelen afnemen. Namelijk in alle gevallen waar aspirine voorkomt. Het nadeel van ‘set-‐shuffling’ kan worden voorkomen door gebruik te maken van ‘unique-‐shuffling’. Met deze manier worden alle bestaande waarden volkomen willekeurig met elkaar verwisseld. De distributie van waarden blijft hiermee ongewijzigd. Met deze methode kan in dit geval niet de oorspronkelijke achternaam worden herleid met kennis van buitenaf. Voorbeeld ‘unique -shuffling’ Oorspronkelijk Jan de Boer Eline de Boer Hugo Groot Klaas Veenstra
Geshuffled Jan Eline Hugo Klaas
Veenstra Groot de Boer de Boer
Bij het verwisselen van gegevens moet rekening worden gehouden met onderlinge verbanden. Zo kan het voorkomen dat een kolom met voornamen een logisch verband heeft met de aanhef, geslacht of voorletters. In dit geval moeten deze kolomen als groep worden verwisseld ten opzichte van de rest van de kolommen. Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 4 (6)
1.3 Blurring
‘Blurring’ is het beperkt manipuleren van gegevens. Het toepassen van deze methode leent zich uitstekend voor het manipuleren van bijvoorbeeld salarissen, omzetbedragen en geboortedata. In veel gevallen is het noodzakelijk voor de representativiteit dat realistische bedragen en datumvelden worden gebruikt. Voor bedragen kan ervoor worden gekozen tussen bepaalde grenzen, bijvoorbeeld tussen de -‐10% en +10%, willekeurig te verhogen dan wel te verlagen. Datumvelden kunnen worden gemanipuleerd door bijvoorbeeld alles op de eerste van de maand of jaar te zetten. De leeftijd, die in sommige gevallen bepalend is voor berekeningen, blijft in een berekening dan ongewijzigd. Voorbeeld blurring: Productie Jan de Boer Eline de Boer Hugo Groot
16-‐02-‐1987 23-‐06-‐1967 € 3620.00
Test Jan de Boer Eline de Boer Hugo Groot
01-02-1987 (eerste van de maand) 01-01-‐1967 (eerste van het jaar) € 3909.60 (+8%)
Het nadeel van ‘blurring’ is dat er altijd bestaande elementen van het oorspronkelijke gegeven blijven bestaan. Sommige elementen, zoals leeftijd of salaris boven een bepaalde grens, kunnen herleidbaar blijven.
1.4 Replacing In sommige gevallen is het niet mogelijk bestaande gegevens te gebruiken. Het voorkomen van een unieke voor-‐ of achternaam op een delinquentenlijst maakt de bovenstaande methoden al ongeschikt. In deze gevallen bestaat er nog een mogelijkheid. Dit is het vervangen van bestaande waarden door volledig fictieve waarden (bijvoorbeeld klant-‐01, klant-‐02, etc.) of door gebruik te maken van referentie data. Voor namen, adressen, bankrekeningnummers, geboortedata kan gebruik worden gemaakt van referentie tabellen en generatoren. Veel applicaties controleren door middel van de zogenaamde 11-‐proef of er wel een valide Burger Service Nummer (BSN) of bankrekeningnummer is vastgelegd. Let dus op dat bij het genereren van BSN en bankrekeningnummers wel nummers worden gegenereerd die voldoen aan de 11-‐proef . Een groot nadeel van ‘replacing’ is dat representativiteit moeilijk te waarborgen is. De unieke gevallen die vaak voorkomen in productie, zijn lastig te creëren door middel van ‘replacing’. Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 5 (6)
1.5 Chain depersonalisation
Deze paragraaf behandelt methoden die het mogelijk maken voor het anonimiseren over ‘de keten heen’. Dit wil zeggen dat data op dezelfde wijze wordt geanonimiseerd in meerdere systemen. Een manier om over de keten te anonimiseren is gebruik te maken van translatietabellen. Van het ene systeem wordt de anonimisering vastgehouden in translatietabellen. Het is natuurlijk van belang deze translatietabellen in een afgeschermde omgeving te plaatsen. Andere systemen, waarin dezelfde informatie staat, kunnen met gebruik van de translatietabellen de oude informatie op dezelfde manier vervangen. Sommige organisaties gebruiken een integraal relatienummer over meerdere systemen. Dit is een ideaal middel om altijd de juiste gegevens te verwisselen. Wanneer een dergelijke sleutel niet aanwezig is, is in de meeste gevallen een logische sleutel te definiëren. Een logische sleutel is vaak een samenstelling van de daadwerkelijke data die uniek genoeg is één record te identificeren. Een voorbeeld van een logische sleutel is bijvoorbeeld de combinatie postcode + huisnummer. De logische sleutel is in dit geval de koppeling tussen het te anonimiseren systeem en de translatietabel. Wanneer er geen logische sleutel te definiëren valt, is het ook nog mogelijk op de waarde zelf in te prikken. In dit laatste geval is het noodzakelijk voor het vastleggen van alleen unieke translaties in de translatietabel. Voorbeeld ‘over de keten heen’: Oorspronkelijk Jan de Boer Eline Veenstra Hugo Groot Hugo Groot
Translatie de Boer Veenstra Veenstra Groot Groot de Boer
Geanonimiseerd Jan Veenstra Eline Groot Hugo de Boer
Groot -‐> de Boer
Hugo de Boer
1.6 Fictive creation
Naast alle bovenstaande mogelijkheden data te depersonaliseren is het natuurlijk ook mogelijk zelf fictieve data te creëren. In een voorgaand voorbeeld werd al gesproken over een delinquentenlijst. Elk uniek voorkomen van een naam is hierbij al identificerend. Om dit te voorkomen kan ervoor worden gekozen alle namen te vervangen door fictieve namen. Hoewel dit een arbeidsintensief proces is, bestaan hiervoor ook hulpmiddelen die grote sets referentie data meeleveren voor het genereren van namen, straten, plaatsen, telefoonnummers of e-‐mailadressen. Hierbij kunnen nog steeds bestaande namen worden gegenereerd. Het is dus van belang dat de gebruikers van gedepersonaliseerde data op de hoogte worden gesteld dat het fictieve gegevens betreft.
Depersonaliseren Onderdeel van boek Testdata management Aangeboden door Suprida.nl
Blz 6 (6)