Datakwaliteit - What’s in a name? Holger Wandt – principal advisor
Human Inference 24 jaar ervaring >250 loyale klanten Experts op het gebied van DQ en CDI Europese basis Internationale oplossingen aangepast op lokale behoeftes 20% R&D
Natural Language Processing
The European Data Quality Authority
Welke situaties / welke oplossingen? • Data-analyse • Data-integratie (CDI) • Oplag en uitwisseling van (inter)nationale naam- en adresgegevens • Ontdubbelen en consolideren van bestanden • Datakwaliteit in CRM-systemen • Data Governance • Fraudebestrijding (suspect-lists) • Andere eisen ten aanzien van compliance
Datakwaliteit is voorwaarde voor talloze bedrijfsprocessen
Wat is kwaliteit?
Het beste parfum?
De beste wijn?
Wat is datakwaliteit? • Fitness for use Joseph Juran: is de data geschikt voor het doel? • Conformance to requirements: Phil Crosby: voldoet de data aan de gestelde eisen? Of… “Defining quality is destroying quality” R.M. Pirsig: “Zen and the art of motorcycle maintenance”
Datakwaliteit - definitie Datakwaliteit is de mate waarin het geheel van eigenschappen en kenmerken van de gegevens voldoen aan het doel van het gebruik en de verwachting van de ontvanger.
Livestock directional assistant
Regional livestock operations & analysis manager
Regional grassland engineers
De kwaliteit van data en informatie staat en valt met de interpretatie van de gegevens. De belangrijke vraag is dan ook: Wat is wat?
Sprechen Sie Deutsch? ZIEL HOTEL LEIDER LUSTIGE NOVELLEN SCHILLER VERFLUCHT ENGE DIE
Of spreekt u Nederlands? VERFLUCHT IN HOTEL SCHILLER Die arme ziel in hotel Schiller was leider der lustige dichters die enge novellen bedenken.
Wat is wat? • • • • •
3,14 π 3,1415926535 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, …. 144 (De reeks van Fibonacci)
Arie Jongman Velperweg 8 6824 BH Arnhem 0263550655
77564 Mevrouw dr. A. Galloux-van Voorst
H. van der Ven Woonboot Marianne t.o. nummer 2 De Watersnip 7609 LD ALMELO
Sven Nilsson Nybyn 10-II TR SE-234 56 Lillbyn SWEDEN
Monsieur e/o Madame Durand
Int. Transp. Ond. Joh. Tilburg Hardinxv./Giessend. e/o
Peter Arnold Frank Mohammed Ouazzani Benhaddou Panos Ioannis Archontakis
ESAG Energieversorgung Sachsen Ost AG
CQCS International Consulting Ltd.
Dr. John J. Farren jr. John J. Pharan jr. PhD
Suomen Posti OY Tuotteet/ Mediapalvelut/ Osoitepalvelut
Natuurlijke taalverwerking: Wat is wat ? • Woordenboek • • • •
Segmentatie (definitie van datagroepen) Attributen van datagroepen Attributen van specifieke items binnen een groep Verbanden tussen items (afkorting, meervoud)
• Mathematische and linguistische methodieken • Contextanalyse, patroonherkenning, semantische en syntactische associaties, frequentieberekeningen, stringvergelijk, fonetische variatie en overeenkomst, etc.
Wat komen we tegen? - Enkele soundbites • “Jullie data is niet in het juiste formaat.” • “Ik heb de gegevens niet op tijd ontvangen.” • “Wie is verantwoordelijk voor de kwaliteit van de klantgegevens?” • “Wij weten dat de gegevens onjuist zijn, maar we mogen ze niet veranderen.” • “Ik heb zelf de data gewijzigd; er stonden te veel fouten in…” • “Weet je wel hoeveel tijd het ons kost om die samengevoegde data te ontdubbelen?” • “De aangeleverde gegevens zijn niet consistent.” • “De aangeleverde gegevens zijn onvolledig. Hier kunnen we niets mee...“
Dat betekent o.a. • Problemen bij data capture: – Verschillende bronnen, verschillende formaten, beschikbaarheid, verschillende inhoud
• Problemen bij data-integratie: – Niet-compatibele bestanden, foute samenvoeging van gegevens, veel handmatige nabewerkingen
• Problemen bij dataconsolidatie: – Autonome correcties, informele, ongestructureerde afstemming, autonome verrijking van gegevens
• Problemen bij dataverstrekking: – Wantrouwen t.a.v. de kwaliteit van data; gegevens worden niet of verkeerd gebruikt
Waarom zijn goede gegevens belangrijk? CIA map error led to hit on mission By Richard Norton-Taylor Wednesday May 12, 1999
“A US B2 bomber hit the Chinese embassy in Belgrade not only because the CIA used an outdated map but also because of a simple map-reading error by its intelligence officers, it emerged yesterday…” “It was the right address applied to the wrong building” Belgrado, 8 mei 1999
Wil ik mijn klant zo benaderen?
Andere voorbeelden • Een Nederlandse Bank – CRM project stopgezet vanwege datakwaliteitsproblemen
• Ministerie VROM – 40,000 burgers te laat betaald
• Energiebedrijf – € 40.000.000 te laat gefactureerd
• Frauderende Duitsers – adreswijzigingen na watersnood
Wat is wat? – De business case….
Cost reduction
Quality improvement
Revenue increase
Nader inzicht: Familienamen • • • • •
Voorvoegsels Structuur van namen Naamgevingsconventies Fonologie Diakritische symbolen
Voorvoegsels • In NL moeten voorvoegsel en familienaam gescheiden worden om te sorteren. • Schrijfwijze: – Mevrouw Van Dam Jeanette van Dam – Matt LeTissier Matt Le Tissier – Ellen MacAllister Niccolò Machiavelli
• Validatie van namen: Le Galloudec, maar niet Galloudec
Structuur van namen Adelheid de Boer-van Buiten H. Thomassen á Thuessink van der Hoop van Slochteren Zhiang Van Tranh Mohammed el Bahlaoui Husseini al Fharid Abu Said Eva Fonseca Aranda de Pereira Rodriguez
Naamgevingsconventies Patroniemen Sergei Ivanovich Golubev Olga Ivanovna Golubeva Olav Svenson x Anna Thorgeirsdottir Björn Olavson x Helga Nilsdottir
Majbritt Olavsdottir
Sven Björnson
Grafemen en fonemen Dezelfde klank, verschillende spelling Mateijsen Matheijsen Matheysen Mathijse Mathijsse Mathyse Mathyssen Matijssen Mattheijsen Mattheysen
Matthijse Matthijsse Matthijszen Matthyssen Mattijsse Mattyssen Mateysen Matheijssen Matheyssen Mathijsen
Mathijssen Mathysen Matijsen Matteijssen Mattheijssen Mattheyssen Matthijssen Matthysse Mattijsen Mattijssen
Diakritische symbolen • Alle diakrietvarianten moeten worden opgeslagen in de database. • Aanschrijven van personen • Validatie van namen • Herschrijfregels: Müller Mueller Muller • Voorbeelden: – Büch – Hällström – Özgüleç – Güçlütürk
Nader inzicht: Adressen Triatlonweg 1 3223 AN Hellevoetsluis -> Triathlonweg 1 3223 AN Hellevoetsluis
Zeilstraat 1 2268 HK Leidschendam -> Waterskistraat 1 2492 VK ‘s-Gravenhage
Adressen in het ‘oude’ Europa RegTP Heusallee 2-10 Haus IV 53113 Bonn
Mme. Eva Riebel 38b, rue de Benfeld 67100 Strasbourg
Pilar Gonzales Passeo de Gracia 22, 1° B 08012 Barcelona
Frederick Hartford Chipping Norton Fawler Little Acre OX7 3AL
Het ‘nieuwe’ Europa…… Shell Gas Sp. z.o.o.
Shell България ЕАД
Adres: Ul. Modlińska 344
Адрес: Кв. "Хаджи Димитър“
03-152 Warszawa Non-Latin writing systems
Shell Hellas AE., Τµήµα ∆ηµοσίων Σχέσεων, Αγ. Κυριακήσ & Χαρίτων 6-8, 175 64, Π. Φάληρο
ул."Резбарска" 5 София 1510 България Cyrillic variants – Belarus, Bulgaria, Macedonia, Russia, Serbia, Ukraine
Hoe interpreteren mensen? Natuurlijke taalverwerking
• Servicebureau Jnasen/ Jansen Serviceburo • Art Gallery Janssen & Labrie / Johan Meijer Handel in Kunstart. / Paul Simon & Art Garfunkel • André Matthijssen / Andrée Matheyssen
Ambiguïteit en contextanalyse • Arend van Lobeek • Arend & Van Lobeek • Tromp, Arend & Van Lobeek
Natural Language Processing
Vergelijken van gegevens Lee Fairin & Comp. CAD Aberdeen Ltd. Computer Aided Design – L. Pharan and Co. Abn
Johannes Martinus Veenstra MSc. Braamstraat 2 6881 RD Velp Drs. Hans M. Feenstra Brahmsstraat 2a Velp (Gld)
Zoek- en identificatiemethoden • Spelling en klank (grafeem–foneemomzetting) • Matrixvergelijk • N-grammen ( zoals bijv. trigrammen) • Datumvergelijk (220510 20100522) • Woordbeeld (oa Levenshtein distancealgoritmen) Combinatie van probabilistische en deterministische methoden leidt tot het beste zoekresultaat: Geen mismatches en geen missed matches!
Exact zoeken werkt niet Resultat = no-match
Arazi
El
Mustafa
Aarasi
No match
No match
No match
El
No match
Match
No match
Mustapha
No match
No match
No match
Trigrammen: hoe werkt het? PIET PIETER .pi
PETER .pe
pie
pie
pet
iet
iet
ete
et.
ete
ter
ter
er.
.pi
er.
Zoeken met trigrammen Arabella De Fonseca Aranda Gomez – Bella Gomes Fonseca Armanda Resultaat:
Bella
Gomes
Fonseca
Armanda
Match Arabella
Trigramscore > 50%
Geen match
Geen match
De Fonseca
Geen match
Geen match
Trigramscore > 50%
Geen match
Aranda
Geen match
Geen match
Geen match
Trigramscore > 50%
Gomez
Geen match
Geen match
Geen match
Trigramscore > 50%
Geen match
Fonetisch zoeken Mohamed Benzakourri Dyman Varzin - Diman Warsin Mehmed Bensaquri Resultaat: Match Diman = <dene> Warsin =
Mehmed = <menet> Bensaquri =
Mohamed = <menet>
Benzakourr i=
Dyman = <dene>
Varzin =
No match No match Match
No match No match No match Match
Match
No matc h Matc h No matc h No matc h
No match
No match No match No match
Oefening: Elkerlyck BV
Descriptions
Comparison methods
Subscore
Weighting Configuration
Database-ID Sound surname Surname Sound key word street Street Sound key word town Town Given name(s) Abb. Given name(s) Key word surname Key word street Building number Building number addition Postcode Date of birth
Phonological Comparison Matrix comparison Word image Letter sequence Trigram comparison Building number Postcode comparison Date comparison No comparisomn
100 0 100 50 50 100 0 70 73 100 100 80
15 10 10 5 5 10 10 10 20 20 10 10
100
75 70
Result
Evaluation 0 Score
Threshold
78
The efficient configuration (combination of comparison methods combined with weighting factors) leads to the best results.
First Time Right • Data Quality “firewall” in CRM-systemen • Schoning en doublure-check van contactgegevens van (mogelijke!) nieuwe relatie – Naamvalidatie, -schoning en –opmaak – Idem voor adresgegevens
• Verrijking met externe gegevens – Telefoonnr, Kamer van Koophandel-nr, credit status
• Identity resolution – Blacklists (EU-sanctielijst, OFAC, PEP-lists)
Clean Data
Invoeren nieuwe relatie
Database
Reference Universe EEnr nric ichh
Knowledge
M Meerg rgee Id Iden entitify fy
A Addddre ressss N Naam mee
le sib s Po
ts fec e D
Clean Data
Invoeren nieuwe relatie Customer Information
Database
Company Name
bv handelsonderneming nico van oers House number
Reference Universe
Street Address
velperpln 2a.
Locality
Knowledge
Postal Code
EEnr nric ichh
arnhem M Meerg rgee
Contact
Id Iden entitify fy
Full Name
A Addddre annemieke k. van ommeren-de groot msc ressss N Naam Titles mee Initials
First Name
Surname
le sib s Po
ts fec e D
Gender
Phone Number
Credit Rating
Add
Clean Data
Invoeren nieuwe relatie Customer Information
Database
Company
HIquality Name HIquality Name Name BV Handelsonderneming Nico van Oers ensures ensures quality quality of of Company House number Street Address Company name name Reference Universe Locality
Postal Code
EEnr nric ichh
Knowledge
M Meerg rgee
Contact
Id Iden entitify fy
Full Name
Annemieke K. van Ommeren-de Groot MscA Addddre ressss
N Naam mee
Titles
MSc
HIquality HIquality Name Name ensures ensures quality quality of of Name Name
Initials
A. K. First Name
Annemieke Surname
le sib s Po
ts fec e D
Van Ommeren-de Groot Gender
V Phone Number
Credit Rating
Add
Clean Data
Invoeren nieuwe relatie Customer Information
Database
Company Name
BV Handelsonderneming Nico van Oers House number
HIquality Reference Universe HIquality Address Address 2 ensures ensures Locality Address Address Quality Quality Arnhem Knowledge
Street Address
Velperplein Postal Code
EEnr nric ichh
6812 AB
M Meerg rgee
Contact
Id Iden entitify fy
Full Name
Annemieke K. van Ommeren-de Groot MscA Addddre ressss
N Naam mee
Titles
MSc Initials
A. K. First Name
Annemieke Surname
le sib s Po
ts fec e D
Van Ommeren-de Groot Gender
V Phone Number
Credit Rating
Add
Clean Data
Invoeren nieuwe relatie
Database
Potentials duplicates found HIquality HIquality Identify Identify Reference Universe Detects Detects potential potential duplicates duplicates 95 Van Oers Handelsond. BV Velperplein 2 Knowledge Arnhem
EEnr nric ichh
M Meerg rgee
6812 AB
Id Iden entitify fy A Addddre ressss N Naam mee
---------------------------Drempel --------------------------------
CG Oerlemans Detailhandel ts 70 Velperweg 201 fec e Arnhem le D b i ss 6813 BG Po OK Cancel
Clean Data
Insert Party Customer Information Company
Database
Name
BV Handelsonderneming Nico van Oers House number
Street Address
2
Velperplein
Locality
Postal Code
Arnhem
6812 AB
Reference Universe
Contact
Knowledge
EEnr nric ichh
Full Name
Annemieke K. van Ommeren-de Groot Msc Titles
M Meerg rgee Id Iden entitify fy
MSc
A Addddre ressss
Initials
N Naam mee
A. K. First Name
Annemieke Surname
Van Ommeren-de Groot Gender
V
HIquality HIquality Enrich Enrich Delivers Delivers additional additional validation validation and and enrichment enrichment data data
Phone Number
le sib s Po
ts fec e D
+31 (0)26 3655500 Credit Rating
£ 75.000,Add
Wat is wat? – De business case….
Cost reduction
Quality improvement
Revenue increase
Datakwaliteitstrategie Assessment van de data- en informatiestructuur
Datakwaliteit borgen Definiëren van oplossingen ter schoning van bestaande gegevens Gedefinieerde oplossingen implementeren
Assessment van de datakwaliteit
Bespreken van DQproblemen en oorzaken
Meten
Definiëren van oplossingen om toekomstige vervuiling te voorkomen (technisch + proces)
Verbeteren
Verbetering van datakwaliteit meten
Verbetering van datakwaliteit melden
Implementeren
Borgen
Meten/analyseren: Waarom? • De Reality check • Never ASS U ME! • Werkelijkheid is meestal niet: – wat het lijkt – wat je hoopt
• Risico management – Quality level <-> Requirements
Meten/analyseren: Waarom? • Ontdekken van verborgen INFORMATIE • Meten van kwaliteit externe bronnen om: – Vervuiling te voorkomen – Aanleveraars opvoeden
• Problemen in kaart brengen • Eerste stap voor kwaliteitsverbetering en verdere vervolgstappen • Maken van de business case
Meten en Analyseren
Documentatie
Werkelijke eigenschappen
Gedocumenteerde Eigenschappen
Analyse
Slechte gewoonten
Data Ontdekte eigenschappen
Meten
Onjuiste gegevens
Kenmerken en eigenschappen Inhoudelijk: – – – –
Actueel Compleet Correct Uniek
Systeemtechnisch: – Benaderbaar / bruikbaar – Tijdig – Integer
Dimensies: – performance – levensduur – betrouwbaarheid – onderhoudbaarheid – esthetiek – vermeende kwaliteit
Compleet • Twee dimensies: – Dekking t.o.v. het universum – Vulling van individuele records
Naam
Adres
Wetens waardigheden
Compleet 100 90 80 70 60 50 40 30 20 10 0
Voorletter
Naam
Straat
Huisnr
Htv
PC
Woonplaats
Geb.Dat.
SoFiNr.
Compleet Ontbrekende waarden: • Kunnen accuraat zijn! • “This field is intentionally left blank”-indicatie ontbreekt veelal • Pas op voor “leeg”-steekwoord – N.v.t. – Geb. datum 1/1/1900 – “adres onbekend”
Correct: Inhoud - Waarde van de kenmerken
Naam Relatiegegevens
Adres
Wetens waardigheden
Correct: Inhoud - Samenhang van de kenmerken
Naam
Adres
Wetens waardigheden
Correct: Vorm • Kapitalisatie • Diakrieten – Beperkingen • • • •
Bron Codepage Opslag Presentatie
– Transcriptie / transliteratie – Ambiguïteit
• Normen (NEN, CEN, GBA, TNT, Raadsbesluit)
Workshop HIquality Inspect
Voor verdere informatie…..
Holger Wandt Holger Advisor Wandt Principal Principal Advisor Mobile +31 (6) 22477594 Mobile +31 (6) 22477594
Utrechtseweg 310, Building B01 Utrechtseweg 310, Building B01 6812 AR Arnhem 6812 AR Arnhem The Netherlands The Netherlands [email protected] [email protected] Phone: + 31 (26) 355 06 55 Phone: + 31 (26) Fax: + 31 (26) 355355 06 06 66 55 Fax: + 31 (26) 355 06 66 www.humaninference.com www.humaninference.com