PRN Koppelingsprocedure 2006 (LVR1, LVR2 en LNR-registratie)
Stichting Perinatale Registratie Nederland Postbus 8588 3503 RN Utrecht Tel. 030-28 23 165 www.perinatreg.nl
[email protected]
Klinische Informatiekunde1 Klinische Epidemiologie & Biostatistiek2 Afdeling Verloskunde & Gynaecologie3 Academisch Medisch Centrum 1100 DE Amsterdam Tel. 020-566 4624 Fax: 020-691 9840 http://kik.amc.uva.nl/KIK
PRN/KIK-rapport Klinische Informatiekunde Technisch rapport 2007-05
In opdracht van Uitvoering door
Stichting Perinatale Registratie Nederland Afdeling Klinische Informatiekunde, AMC, Amsterdam
Datum
November 2007
Auteurs
Aantal pagina’s Aantal bijlagen
Marc Tromp1 (
[email protected]) Miranda Tromp1 (
[email protected]) Anita CJ Ravelli1 (
[email protected] ) Hans JB Reitsma2 (
[email protected]) 3 Joris AM van der Post (
[email protected]) 61 1
Inhoudsopgave
Inhoudsopgave ................................................................................................2 Summary in English ........................................................................................3 Inleiding ............................................................................................................7 Samenvatting resultaten en leeswijzer....................................................... 10 Hoofdstuk 1 Schoningskoppelingen .......................................................... 11 §1.1 Koppeling LVR1 ^ LVR1 .............................................................................................11 §1.2 Koppeling LVR2 ^ LVR2 .............................................................................................13 §1.3 Koppeling LNR ^ LNR.................................................................................................14
Hoofdstuk 2 Koppeling LNR ^ LNR voor vinden van heropnames......... 15 §2.1 Koppeling LNR ^ LNR voor vinden van heropnames bij eenlingen .............................15 §2.2 Koppeling LNR ^ LNR voor vinden van heropnames bij meerlingen...........................17 §2.3 Koppeling niet-gekoppelde LNR eenlingen ^ meerlingen............................................18 §2.4 Creatie LNR^LNR eindbestanden...............................................................................19
Hoofdstuk 3 Koppeling LVR1 ^ LVR2......................................................... 21 §3.1 Koppeling LVR1 ^ LVR2 eenlingen.............................................................................21 §3.2 Koppeling LVR1 ^ LVR2 meerlingen...........................................................................24 §3.3 Koppeling niet-gekoppelde LVR1 eenlingen met LVR2 meerlingen............................26 §3.4 Koppeling niet-gekoppelde LVR1 meerlingen met LVR2 eenlingen............................26 §3.5 Creatie LVR1^LVR2 eindbestand ...............................................................................26
Hoofdstuk 4 Koppeling (LVR1 ^ LVR2) ^ LNR........................................... 27 §4.1 Koppeling (LVR1 ^ LVR2) ^ LNR eenlingen................................................................27 §4.2 Koppeling LVR12 ^ LNR meerlingen ..........................................................................30 §4.3 Koppeling niet-gekoppelde LVR12 eenlingen met LNR meerlingen............................30 §4.4 Koppeling niet-gekoppelde LVR12 meerlingen met LNR eenlingen............................30 §4.5 Creatie eindbestand (LVR1 ^ LVR2) ^ LNR ................................................................32
Hoofdstuk 5 PRN jaar 2006 bestanden....................................................... 33 §5.1 Beschrijving eindbestanden........................................................................................33 §5.2 Toegevoegd variabelen ..............................................................................................34 §5.3 Mogelijke dubbeltelling ...............................................................................................37 §5.4 Controles op het gekoppelde PRN bestand................................................................37 §5.5 Versie beheer en bestandnaam..................................................................................37 §5.6 Validatie koppeling LNR-registratie.............................................................................37
Samenvatting ................................................................................................ 38 Epiloog ........................................................................................................... 42 Referenties .................................................................................................... 45 Begrippen ...................................................................................................... 47 Appendix: Contents gekoppelde bestand LVR1^LVR2^LNR 2006 ......... 49
Pagina 2 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Summary in English Linking three Dutch LVR1, LVR2 and LNR registries to combine medical information on pregnancy, childbirth and postnatal period for the year 2006
Introduction In the Netherlands most pregnant women are seen by an independent midwife. Referral of women to the obstetrician during gestation or labour takes place frequently. Approximately one third of the births are attended by a midwife and two thirds by an obstetrician, and less than 5% by a general practitioner [www.knov.nl]. Following birth, around 15% of the children are admitted to a paediatric unit and are seen by a paediatrician. As a result, both mother and child may be seen by more than one caregiver. Depending on the profession of the caregivers involved in perinatal care, details of the pregnancy (including demographic data on the mother), birth and possible hospital admissions are recorded in one or more of three registries: the LVR1 (National Obstetric Registry (primary care)), the LVR2 (National Obstetric Registry (secondary care)) and the LNR (National Neonatal Registry). No data was available from the general practitioners for 2006. In table 1 the number of records in the separate and in the combined linked registry is described. Table 1: Number of records in the separate LVR1, LVR2, LNR and linked PRN registries in 2006 Year LVR1 registry
2006 168,010
LNR registry
Unit “pregnancy women/ delivery child” “pregnancy women/ delivery child” “admission of a child”
Combined linked PRN registry Linked LNR^LNR registry Linked LNR^LNR registry
“pregnancy/children” “admissions of children” “children”
193,888 34,810 31,706
LVR2 registry
119,593 34,882
Under Dutch privacy law, information within these registries must be rendered anonymous to any parties outside of the treating institution. A unique key, which identifies individuals, simply does not exist. Therefore, in order to collate information on the same woman, pregnancy and child, anonymous linking of the three prenatal registries is required.
The linkage procedure and linkage methods Below, we briefly describe the linkage procedure used by the LinKID group of the Academic Medical Center Amsterdam to achieve a valid, combined PRN registry through a series of transparent, repeatable steps. The first step in a linkage was to ‘clean’ each of the three datasets i.e. remove duplicate records. No other data cleaning (such as the removal of ‘impossible’ date values) was carried out. Next, the LVR1 registry was first linked to the LVR2. Separate linkages were done for singleton and multiple births, after which data were recombined. Then the linked file (LVR12) was linked to the LNR. Linkage methods can be classified as either deterministic or as probabilistic. Under both methods, variables which partially identify a patient and which are present in more than one registry and are of sufficient quality (in terms of coding and degree of missingness) are chosen as linkage variables.
Pagina 3 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
In deterministic linkage, a pair of records (one from each dataset) is considered a match if all linkage variables agree. A variation on this rule is to consider a pair as a match if they differ on only a (pre-specified) small number of variables, usually one ('n-1' linking, where n is the number of linking variables used). In probabilistic linkage, weights are calculated for each linking variable separately in case of agreement or disagreement. The weight calculation is based on the probability of agreement on each variable in both true matches and non-matches (accidental agreement) [2]. These variable-specific weights assign ‘rewards’ to each record pair for all variables that agree by assigning the pair a positive score (specific to each variable) and to ‘punish’ the record pair (by assigning negative weights) for all variables that differ. The total weight for each record pair is calculated by summing all the weights of the individual linkage variables. Pairs with a high total weight are likely to be matches, while pairs with a low score are unlikely to be a match. Deterministic linkage was only used to ‘clean’ the data of the separate registries. All other linkages were made using probabilistic linkage [2,3,17,18]. A number of variables may not be recorded identically in the two registries. For example, birth weight may be recorded as 3010 gm in one registry, but may be rounded down to 3000 gm in another. Probabilistic linkage can be extended to include so-called ‘close’ matches. Record pairs with a close match on a given variable are given a smaller reward than a full match, but this procedure will still identify many true matches. A computer algorithm computes the variable-specific weights. Because of this it is possible to estimate the ‘threshold value’ above which total scores are assumed to represent a match. The threshold reflects an estimate of the prevalence of matches among all possible record pairs. Usually, the great majority of record pairs falls well below the threshold (no match) and a small number fall well above the threshold. The quality of the linkage procedure can be crudely judged when looking to the number of record pairs on both sides of the threshold. The smaller this grey area, the better the discriminatory performance of the linkage procedure. The choice of the correct threshold and the best decision rule on record pairs in the grey area usually requires a judgement based on contextual knowledge in addition to information drawn from the computer output. Given the large number of records (particularly in the LVR1 and LVR2 registries), it is computationally impossible to compare all possible pairs of records from two datasets. To overcome this problem, the data are ‘blocked’ on certain variables. For example, in creating the link between the LVR1 and LVR2, the data were first blocked on the mother's date of birth: only pairs in which the mother's date of birth was identical in both datasets were considered. This reduced the number of record pairs to be considered from approximately 2 x 1010 to just over 3 million. Subsequently, non-linked records were blocked on the postal code of the mother to identify any links missed by the first blocking. Similarly, records in the LVR12^LNR linkage were blocked first on the child’s date of birth and, subsequently, on the mother’s postal code (see Figure 2). From validation and comparative studies, it is now known that the LinKID probabilistic linkage procedure performs very well in absolute terms, and considerably better than the best deterministic alternative. Additionally, it provides quantitative information on the success of the linkage and the main sources of error.
Results Here we present a selection of information from the 2006 linkage study, which, in total, involves 14 separate steps. First we present the variables used in the LVR1-LVR2 singleton linkage (after blocking on the mother’s date of birth) with their estimated weights (see Table 2).
Pagina 4 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
From Table 2 one can read that agreement of postcode provides the highest positive award (10.50) being, apparently, the most informative variable if correct! Date of birth is less informative (8.45). However, the weights assigned to disagreement are -4.75 and -7.34, respectively, indicating that the error rate in recording the postcode is much higher than in recording birth date. Table 2: linkage weights for the LVR1^LVR2 linkage singletons 2006 Weights Agree Disagree 10.50 -4.75 8.45 -7.34 1.64 n.a. 8.43 -7.00 0.94 n.a. 8.10 -4.52 1.07 n.a. 6.86 -3.34 5.74 -3.98 4.52 -5.33 1.61 -3.69 0.99 -6.38
Variable Postcode (mother) Date of birth (child, full match) Date of birth (close, ±1 day) Expected Date of Birth (DOB) (full match) Expected DOB (close, ±7 days) Birth weight (full match) Birth weight (close, ±10gm) Place of birth (hospital) Minute of birth Hour of birth Gravidity Gender (child)
In Table 3, we present the final linking results after all steps have been taken. The combined dataset consists of 193,888 different records (children), of which 101,751 represent record pairs or triplets that comprise data from two or three registries. Table 3: number of links between the LVR1 LVR2 and LNR registries 2006 Records with information from LVR1 LVR2 LNR LVR1^LVR2 LVR1^LNR LVR2^LNR LVR1^LVR2^LNR
Number of links 71,463 19,484 1,190 71,235 1,721 6,270 22,525
Percentage of links 36.9% 10.0% 0.6% 36.7% 0.9% 3.2% 11.6%
193,888
100.0%
PRN (LVR1^LVR2^LNR) registration
Conclusion We successfully linked the three LVR1, LVR2, LNR Dutch perinatal registries in the PRN registry 2006. As a result, all information concerning the same pregnancy and child have been combined into one medical record, making it possible to obtain information across the entire prenatal care period (table 4). Table 4: The linked LVR1 LVR2 and LNR perinatal registries 2006 File LVR1_LVR2_LNR_2006 LNR_LNR_2006 LNR_LNR_kind_2006
Version Versie 1.0 Versie 1.0 Versie 1.0
Date 16-aug-2007 16-aug-2007 30-aug-2007
Records 193,888 34,810 31,706
It is important to stress that any linkage needs to be validated after it has been carried out. Also, the linkage itself cannot solve the problem as to the 'true' value of a variable in a linked
Pagina 5 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
record, if this variable - despite the match - has a different value in the two data sources. Apparently, the positive weights associated with the remaining linking variables were sufficient to overcome such disagreement, but the procedure itself provides no information on which, if either, of the two values is 'true’.
Pagina 6 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Inleiding Voor u ligt de rapportage van de PRN koppeling van de perinatale registraties (LVR1, LVR2 en LNR) voor het jaar 2006. Dit koppelingsproject is een vervolg op het LinKID koppelingsproject van de perinatale registraties voor de jaren 2000 tot en met 2005 [3-9]. Deze rapportage is de verantwoording van de koppeling van 2006 en de documentatie bouwt daarbij primair voort op de uitgebreide documentatie van de koppeling van 2001 [3] en volgende jaren (Koppelingsprocedure PRN 2001: Deel I Hoofdlijnen en Deel II Beschrijving en Toelichting en Koppelingsprocedure PRN 2002: Beschrijving en Toelichting) [3-4]. De PRN koppelingsmethodiek is in 2003 in opdracht van Stichting PRN ontwikkeld op de afdeling klinische informatiekunde van het AMC door dr N Méray, dr ACJ Ravelli, dr JB Reitsma en prof dr GJ Bonsel [18-19]. Deze PRN koppelingsmethodiek is door dr Nora Meray, drs Miranda Tromp, drs Joseph McDonnel en Marc Tromp BSc. toegepast op vervolg jaren 2000-2005 van de PRN registratie. Deze PRN koppelingsmethodiek bouwt voort op het koppelingswerk van dr JB Reitsma en Prof dr GJ Bonsel voor de Hartstichting in het kader van het proefschrift van Hans Reitsma [2]. De PRN koppelingen van 2001 en 2002 zijn op validiteit getest [10-12], en functioneren daarom in het vervolg als referentie. De documentatie van de koppeling van 2001 tot en met 2005 is beschikbaar op de website van de Stichting Perinatale Registratie Nederland (www.perinatreg.nl) en de website van de afdeling Klinische Informatiekunde van het AMC (kik.amc.uva.nl/KIK/) onder ‘Technical Reports’. De uitgangspunten voor de PRN koppeling van 2006 zijn niet veranderd ten opzichte van de eerdere jaren. De Stichting PRN heeft begin februari 2007 de afdeling Klinische Informatiekunde van het AMC opdracht gegeven om, op basis van de ontwikkelde PRN koppelingsmethodiek, de koppeling uit te voeren van de LVR1, LVR2 en LNR registratie bestanden van 2005 t/m 2008. Het vervolgkoppelingsproject 2006 is uitgevoerd op de afdeling Klinische Informatiekunde, AMC Amsterdam, door medische informatiekundige Marc Tromp, onder begeleiding van medische informatiekundige Miranda Tromp en epidemioloog Anita Ravelli. Het projectteam bestaat verder uit epidemioloog dr Hans Reitsma en gynaecoloog prof dr JAM van de Post. De begeleidingsgroep bestaat uit een verloskundige, een gynaecoloog en een neonatoloog. De projectuitvoering van de LVR1^LVR2^LNR 2006 koppeling liep vanaf 16 juli 2007 t/m 31 augustus 2007. De verslaglegging vond plaats in augustus en september 2007. Er is voor de koppeling van 2006 een aantal kleine veranderingen doorgevoerd in de koppelmethodiek ten opzichte van de PRN koppeling van het jaar 2005 [9]. Ten eerste is de syntax op een aantal punten efficiënter gemaakt. Bijvoorbeeld door het aanmaken van paren (met blocking op geboortedatum moeder en postcode moeder) direct na elkaar te laten plaatsvinden. De gevonden links worden eerst samengevoegd, alvorens er clusters worden aangemaakt. Hierdoor worden er per koppelingsstap slechts éénmaal clusters aangemaakt. Dit is nog niet bij alle koppelingsstappen doorgevoerd. Ten tweede is de naamgeving in de syntax op een aantal punten logischer dan wel consistenter geworden, en is er meer commentaar (tekst ter uitleg) toegevoegd. Het LVR1 bronbestand 2006 bestond uit 168.010 records, het LVR2 bronbestand uit 119.593 records en het LNR bronbestand uit 34.882 records (tabel 1). Tabel 1 Aantal records per LVR1, LVR2 en LNR bestand Jaar 2006
Aantal Records
Datum Bronbestand Prismant
LVR1 registratie LVR2 registratie LNR registratie
168.010 119.593 34.882
13-apr-2007 09-mrt-2007 08-jun-2007
Datum ontvangst AMC voor koppeling 12-jul-2007 12-jul-2007 12-jul-2007
Aantal Deelnemende Praktijken 448 98 67
De 2006 koppeling is gestart op maandag 16 juli 2007, na het ontvangst van de losse LVR1, LVR2 en LNR bestanden. Het aantal deelnemende LVR1 praktijken in 2006 is hoger in
Pagina 7 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
vergelijking met voorafgaande jaren. Het aantal deelnemende LVR2 praktijken is constant rond de 99 ziekenhuizen. Het aantal deelnemende LNR praktijken neemt toe.
Pagina 8 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Het gekoppelde PRN eindbestand 2006 bestaat uit 193.888 records. 55,8 % van de LVR1 records (93.760 records) kon gekoppeld worden aan een LVR2 record, dit was 78,4% van de LVR2 records. Tabel 2 Trend in LVR1, LVR2, LNR en gekoppelde PRN registratie 2000-2006 [3-9,13-17] PRN gekoppeld bestand
2000
2001
2002
2003
2004
2005
2006
LVR1 registratie LVR2 registratie LNR registratie
154.742 124.716 32.189
155.832 125.061 30.130
162.649 122.859 31.996
169.326 125.150 35.462
160.967 121.716 33.545
163.764 118.553 36.805
168.010 119.593 34.882
PRN gekoppelde registratie
204.584
202.904
202.778
206.778
199.859
193.724
193.888
Ten opzichte van het jaar 2000 is in 2006 het aantal records in de LVR1 registratie toegenomen (168,010 records versus 153.754) Het aantal records in de LVR2 registratie is licht afgenomen (119.593 versus 124.716) en het aantal records in de LNR registratie neemt toe (34.882 versus 32,189). Het aantal records in het gekoppelde bestand is afgenomen (193.888 versus 204.584) (tabel 2 en figuur 1). Deze trend komt overeen met het aantal geboren kinderen in Nederland (dit wordt verder beschreven in de epiloog).
Figuur 1 Trend in LVR1, LVR2, LNR en gekoppelde PRN registratie 2000-2006 [3-9,13-17]
250.000 204.584
202.904
202.778
206.778
199.859
193.724
193.888
162.649
160.967
163.764
168.010
155.832
169.326
154.742
124.716
125.061
122.859
125.150
121.716
118.553
119.593
32.189
30.130
31.996
35.462
33.545
36.805
34.882
2000
2001
2002
2003
2004
2005
2006
Aantal records
200.000
150.000
100.000
50.000
0 Registratiejaar PRN gekoppelde registratie
LVR1 registratie
Pagina 9 van 61
LVR2 registratie
LNR registratie
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Samenvatting resultaten en leeswijzer Alles bijeen zijn voor de PRN 2006 koppeling 14 koppelingen uitgevoerd. Hoofdstuk 1: de schoningskoppelingen - LVR1 ^ LVR1 - voor het herkennen van administratieve dubbeltellingen (§1.1). - LVR2 ^ LVR2 - voor het herkennen van administratieve dubbeltellingen (§1.2). - LNR ^ LNR - voor het herkennen van administratieve dubbeltellingen (§1.3). Hoofdstuk 2: beschrijving koppelingen tussen de LNR ^ LNR registratie: - Herkennen van heropnames van hetzelfde kind binnen de groep eenlingen. (§2.1). - Herkennen van heropnames van hetzelfde kind binnen de groep meerlingen. (§2.2). - Koppelen van niet-gekoppelde LNR eenlingen met niet-gekoppelde LNR tweelingen voor het vinden van heropnames (§2.3). Hoofdstuk 3: beschrijving koppelingen tussen de LVR1 en LVR2 registratie - Koppelen van eenlingen LVR1 ^ LVR2 (§3.1). - Koppelen van meerlingen LVR1 ^ LVR2 (§3.2). - Koppelen van niet-gekoppelde LVR1 eenlingen met niet-gekoppelde LVR2 meerlingen (§3.3). - Koppelen van niet-gekoppelde LVR1 meerlingen met niet-gekoppelde LVR2 eenlingen (§3.4). Hoofdstuk 4: beschrijving koppelingen tussen de gekoppelde LVR1^LVR2 registratie met de LNR registratie - Koppelen van eenlingen LVR1 ^ LVR2 met LNR (§4.1). - Koppelen van meerlingen LVR1 ^ LVR2 met LNR (§4.2). - Koppelen van niet-gekoppelde LVR1 ^ LVR2 eenlingen met niet-gekoppelde LNR meerlingen (§4.3). - Koppelen van niet-gekoppelde LVR1 ^ LVR2 meerlingen met niet-gekoppelde LNR eenlingen (§4.4). Hoofdstuk 5: beschrijving van het gekoppelde PRN jaarbestand Epiloog: een vergelijking gemaakt met voorgaande jaren.
Pagina 10 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Hoofdstuk 1 Schoningskoppelingen In §1.1 t/m § 1.3 worden de interne koppelingen LVR1^LVR1, LVR2^LVR2, en LNR^LNR besproken. Dit zijn voorbereidende of schoningskoppelingen, voordat de verschillende registratie met elkaar kunnen worden gekoppeld.
§1.1 Koppeling LVR1 ^ LVR1 Hier wordt de interne koppeling van de LVR1 registratie beschreven. Het doel van de toegepaste interne LVR1 ^ LVR1 koppeling is het verwijderen van administratieve dubbeltellingen uit het LVR1 bestand. De methodiek van deze koppeling is een deterministische koppeling. De koppeling vond plaats op basis van 10 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van de moeder gebruikt en daarna de postcode van de moeder. Het LVR1 2006 ASCII bestand (Z:\Jaarbestand\ASCII\LVR1\lvr1jaar2006.dat) wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\LVR1\lvr1jr06.sas7bdat), het LVR1 2006 bestand bestaat uit 168.010 records. Daarnaast wordt ook het LVR1 2005 (Z:\Jaarbestand\SAS jaar\LVR1\lvr1jr05) bestand ingelezen (163.764 records). Uit dit bestand worden de records geselecteerd waarbij de à terme datum in 2006 is, records waarbij de geboorte datum van het kind en de à terme datum missend is en records waarbij de à terme datum na 1 december 2005 is (7.720 records). In totaal zijn er nu 175.730 LVR1 records uit 2006 (bestand ‘V’). Zie figuur 1A (volgende bladzijde) voor een flowchart van de LVR1 ^ LVR1 koppeling. Het LVR1 bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum moeder en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van de moeder overeenkomt, worden aangemaakt (2.431.764 paren). Voor de interne LVR1-LVR1 koppeling worden de volgende 10 variabelen vergeleken: postcode moeder (geboortedatum moeder bij blocking op postcode), praktijknummer, graviditeit, geboortedatum kind, à terme datum, gewicht, geslacht, geboorte uur en geboorte minuut. Daarnaast worden nog meerlingcode en omvang meerling meegenomen. Records worden als een administratieve dubbeltelling beschouwd als 9 van de 10 variabelen overeenkomen of als 8 van de 10 variabelen overeenkomen en daarnaast ook sprake is van een eenling. Er is vanaf 2005 nog een extra situatie voor een administratieve dubbeltelling, namelijk als 7 van de 10 variabelen overeenkomen en daarnaast niet alleen sprake is van een eenling, maar ook de praktijkcodes overeenkomen en de aterme datum missing is. Op deze manier worden 593 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode overeenkomt worden aangemaakt (9.849.197). Administratieve dubbeltellingen worden op dezelfde wijze geselecteerd, maar nu met geboortedatum moeder als koppelvariabele in plaats van postcode moeder. Er worden geen extra administratieve dubbeltellingen gevonden. De 593 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden 5 administratieve tripels gevonden. Van iedere administratieve dubbel wordt het tweede record verwijderd en van iedere administratieve trippel wordt daarnaast ook het derde record verwijderd. Van de 175.730 LVR1 records zijn nu 588 administratieve dubbeltellingen verwijderd, waardoor er nog 175.142 records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het ‘sleutelbestand’ op positie 2 (v_admin1) na positie 1 waar de recordidentificatie (v_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LVR1 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lvr1_opgeschoond.sasb7dat
Pagina 11 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 1A Flowchart LVR1 ^ LVR1 koppeling
Pagina 12 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§1.2 Koppeling LVR2 ^ LVR2 Het doel van de toegepaste interne LVR2 ^ LVR2 koppeling is het verwijderen van administratieve dubbeltellingen uit het LVR2 bestand. De methodiek van deze LVR2^LVR2 koppeling is een deterministische koppeling. De LVR2^LVR2 koppeling vond plaats op basis van 11 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van de moeder gebruikt en daarna de postcode van de moeder. Het LVR2 2006 ASCII (Z:\Jaarbestand\ASCII\LVR2\lvr2jaar2006.dat) bestand wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\LVR2\lvr2jr06.sasb7dat). Het LVR2 2006 bestand bestaat uit 119.593 records. Het LVR2 bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling en selectie van administratieve dubbeltellingen vindt op dezelfde wijze plaats als bij de LVR1 koppeling. Met blocking op geboortedatum moeder worden 76 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Er worden nog 3 extra administratieve dubbeltellingen gevonden. De 79 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden geen administratieve tripels gevonden. Van de administratieve dubbeltellingen wordt ieder tweede record verwijderd. Van de 119.593 LVR2 records zijn nu 79 administratieve dubbeltellingen verwijderd waardoor er nog 119.514 records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het ‘sleutelbestand’ op positie 2 (g_admin1) na positie 1 waar de recordidentificatie (g_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LVR2 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lvr2_opgeschoond.sasb7dat
Pagina 13 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§1.3 Koppeling LNR ^ LNR Het doel van de toegepaste interne LNR ^ LNR koppeling is het verwijderen van administratieve dubbeltellingen uit het LNR bestand. De methodiek van deze koppeling is een deterministische koppeling. De koppeling vond plaats op basis van 11 koppelvariabelen. Als blocking-variabele is eerst de geboortedatum van het kind gebruikt en daarna de postcode van de moeder. Deze koppeling is iets veeleisender omdat heropnames kunnen voorkomen. Het LNR 2006 ASCII (Z:\Jaarbestand\ASCII\LNR\lnrjaar2006.dat) bestand wordt ingelezen en omgezet in een SAS jaarbestand (Z:\Jaarbestand\SAS jaar\LNR\lnrjaar2006.sas7bdat). Het LNR 2006 bestand bestaat uit 34.882 records. Het LNR bestand wordt deterministisch met zichzelf gekoppeld voor het vinden van administratieve dubbeltellingen. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum kind en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (1.698.213 paren). Voor de koppeling worden de volgende 11 variabelen vergeleken: postcode moeder (geboortedatum kind bij blocking op postcode), geboortedatum moeder, amenorroeduur, gewicht, geslacht, datum opname, datum ontslag, LNR praktijkcode, meerlingcode en omvang meerling. Records worden als een administratieve dubbeltelling beschouwd als alle variabelen overeenkomen of als 1 variabele niet overeenkomt, het een eenling betreft en in ieder geval opname datum, ontslagdatum en LNR praktijkcode overeenkomen. Op deze manier worden 72 administratieve dubbeltellingen gevonden. De niet-gekoppelde records worden vervolgens nog gekoppeld met blocking op postcode moeder. Hierbij worden geen extra administratieve dubbeltellingen gevonden. De 72 gevonden administratieve dubbeltellingen worden samengevoegd en er worden clusters aangemaakt om te controleren of er administratieve tripels bijzitten. Er worden geen administratieve tripels gevonden. Van de administratieve dubbeltellingen wordt ieder tweede record verwijderd.
Van de 34.882 LNR records zijn nu 72 administratieve dubbeltellingen verwijderd, waardoor er nog 34.810 LNR records over zijn. De recordidentificaties van de verwijderde administratieve dubbeltellingen records, staan beschreven in het ‘sleutelbestand’ op positie 2 (n_admin1) na positie 1 waar de recordidentificatie (n_recid) staat van het record waar het een administratieve dubbeltelling van is. Het opgeschoonde LNR 2006 bestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat
Pagina 14 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Hoofdstuk 2 Koppeling LNR ^ LNR voor vinden van heropnames Het doel van de toegepaste interne LNR ^ LNR koppeling is het vinden van heropnames behorend bij hetzelfde kind in het LNR bestand. De methodiek van deze koppeling is een probabilistische koppeling op basis van 8 koppelvariabelen, apart voor eenlingen en meerlingen. Als blocking-variabele is eerst de geboortedatum van het kind gebruikt en daarna de postcode van de moeder.
§2.1 Koppeling LNR ^ LNR voor vinden van heropnames bij eenlingen Het opgeschoonde LNR bestand met 34.810 records ($1.3) wordt ingelezen vanaf Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat. Uit dit bestand worden de eenlingrecords (31.607) en meerlingrecords (3.203) gescheiden. Zie figuur 2A voor de flowchart van de LNR ^ LNR eenlingkoppeling. Het LNR bestand wordt probabilistisch met zichzelf gekoppeld voor het vinden van heropnames. De koppeling wordt eerst uitgevoerd met blocking op geboortedatum kind en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (1.390.644 paren). Voor de koppeling worden de volgende 8 variabelen vergeleken (zie Tabel 2.1): geboortedatum moeder, amenorroeduur in weken, postcode (geboortedatum kind bij blocking op postcode), gewicht, geslacht, Apgarscore na 5 minuten en patiëntidentificatie. Voor de variabele geboortegewicht wordt naast een full match ook een close gedefinieerd. Er is sprake van een close als het verschil in gewicht kleiner of gelijk is aan 50 gram. Tabel 2.1 Frequentietabel koppelvariabelen LNR^LNR heropnames eenlingen 2006 Variabele label Geboortedatum moeder Apgar score na 5 minuten Postcode (4 cijfers) Gewicht kind Geslacht kind Patiëntidentificatie Amenorroeduur in weken Geboortedatum kind
Variabele naam n_ddgebmoe n_kop_apg5 n_kop_pc n_kop_gew n_kop_gesl n_patid n_kop_amw n_ddgebkind
Aantal missend 4.221 1.806 567 296 3 2 1 0
% Missend 13,3% 5,7% 1,8% <1% <0,01% <0,01% <0,01% 0%
Tabel 2.2 geeft de gewichten bij overeenstemming en geen overeenstemming weer, die berekend zijn op basis van de ui en mi waarden waarden met blocking op geboortedatum kind. De ui waarden zijn berekend op basis van de randtotalen en de mi waarden op basis van fitting met een non-lineaire procedure. Tabel 2.2 Gewichten koppelvariabelen LNR ^ LNR heropnames eenlingen 2006 Variabele mi waarden ui waarden Gewicht bij Gewicht bij agree Disagree Geboortedatum moeder 0,9178 0,0001 12,87 -3,60 Patiëntidentificatie 0,6242 0,0001 12,58 -1,41 Postcode (4 cijfers) 0,9800 0,0011 9,84 -5,64 Gewicht kind (full) 0,8391 0,0022 8,58 -3,92 Gewicht kind (+/- 50 gr) 0,0975 0,0374 1,38 nvt Geboortedatum kind* 0,9732 0,0030 8,36 -5,22 Amenorroeduur in weken 0,9699 0,1262 2,94 -4,86 Apgar-score na 5 minuten 0,9165 0,3884 1,24 -2,87 Geslacht kind 0,9545 0,5055 0,92 -3,44 * deze waarden zijn berekend met blocking op postcode moeder
Op basis van de geschatte prevalentie van het aantal matches berekend met de fitting procedure verwacht men 0,00239 * 1.390.644 = 3.326 links te vinden. Op basis van de geschatte prevalentie en het bekijken van de paren wordt een afkappunt van 6,6 gekozen en worden 3.178 paren geselecteerd als link.
Pagina 15 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 2A Flowchart LNR ^ LNR eenlingkoppeling
Pagina 16 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Vervolgens worden alle paren aangemaakt waarbij de postcode van de moeder hetzelfde is (568.728 paren). Paren boven het afkappunt van 17,5 en waarbij de geboortedatum van het kind niet overeenkomt worden geselecteerd (15 paren). In totaal zijn er 3.193 paren geselecteerd als links. Er worden clusters aangemaakt van deze paren om alle heropnames van een kind bij elkaar te vinden. In totaal zijn er 2.149 kinderen die meer dan één keer zijn opgenomen (1.743 kinderen die twee keer zijn opgenomen, 355 kinderen drie keer, 41 kinderen vier keer, 5 kinderen vijf keer, 4 kinderen zes keer en 1 kind negen keer.). Het overgebleven LNR eenlingbestand (26.834 records) bestaat uit kinderen die één keer zijn opgenomen (tabel 2.3). Tabel 2.3 Aantal opnames bij LNR eenlingen 2006 Opname 1 2 3 4 5 6 9 Totaal
Aantal Records 26.834 3.486 1.065 164 25 24 9 31.607
Aantal kinderen 26.834 1.743 355 41 5 4 1 28.983
% Aantal records 84,8% 11,0% 3,4% 0,5% <0,1% <0,1% <0,1% 100,0 %
Het uiteindelijke LNR 2006 eenlingbestand bestaat uit de samenvoeging van het bestand van kinderen die één keer zijn opgenomen (26.834 records) en het bestand van de kinderen met heropnames (4.773 records van 2.149 kinderen). Dit bestand bestaat in totaal uit 31.607 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_2006_singleton.sasb7dat. Dit bestand zal gebruikt worden voor de eenlingkoppeling met het gekoppelde LVR1^LVR2 bestand.
§2.2 Koppeling LNR ^ LNR voor vinden van heropnames bij meerlingen Het vinden van heropnames bij meerlingen gebeurt op dezelfde wijze als bij eenlingen. Nu worden alleen de meerlingrecords geselecteerd uit het Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_opgeschoond.sasb7dat bestand (3.203 records). Zie figuur 2B voor een flowchart van de LNR^LNR meerlingkoppeling. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (17.490 paren). Er worden net als bij de eenlingkoppeling 8 variabelen vergeleken. Alle paren boven het afkappunt 9,0 worden geselecteerd als link (2.222 paren). Blocking op postcode moeder levert nog 2 extra paren op. In totaal zijn er 2.224 paren geselecteerd als link. De meerlingcode en omvang meerlingcode worden nu niet meegenomen, omdat uit de LNR validatiestudie bleek dat deze waarden niet betrouwbaar zijn [9,10]. Er is voor de PRN koppeling 2005 een nieuwe systematiek bedacht om heropnames van meerlingen in de clusters in de LNR registratie op te lossen (oftewel de juiste heropname aan het juiste meerlingkind te koppelen). Uit de validatiestudie bleek namelijk ook dat het algoritme er goed in slaagde om alle opnames van kinderen van één meerling bij elkaar te vinden maar binnen een meerlingpaar heropnames verwisselde indien er een fout zat in de meerlingcode. Deze nieuwe systematiek is in 2006 wederom toegepast. Er worden clusters aangemaakt van de 2.224 paren boven het afkappunt, om de juiste opnames bij elkaar te vinden. In totaal zijn er 1.125 clusters gevonden van verschillende grootte (zie tabel 2.4) Een tweede totaalgewicht wordt gebruikt om de clusters op te lossen (opnames van 1 meerlingkind bij elkaar te zoeken). Dit tweede totaalgewicht is alleen gebaseerd op variabelen die kunnen verschillen tussen kinderen van een meerling (gewicht kind, geslacht, apgarscore 5 min en meerlingcode) daarnaast wordt voor de meerlingcode een gewicht van +1 toegekend als de code overeenkomt en een gewicht van -1 als de code verschilt.
Pagina 17 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Na visuele inspectie van de verschillende clusters blijkt het afkappunt 5.0 goed te voldoen. Op basis van het afkappunt voor het tweede totaalgewicht worden er 584 paren gevonden. Dit is een selectie van de 2.224 paren met het eerste totaalgewicht boven het afkappunt. Tabel 2.4 Clusters LNR ^ LNR heropnames meerlingen 2006 Aantal paren per cluster 1 2 3 4 5 6 7 8 9 10 12 15 21 27 36 Totaal
Aantal clusters 898 23 63 11 9 87 2 2 1 9 2 12 4 1 1 1.125
Aantal paren 898 46 189 44 45 522 14 16 9 90 24 180 84 27 36 2.224
Er worden opnieuw clusters aangemaakt om de heropnames van hetzelfde kind te vinden. Er zijn 389 meerlingkinderen die meer dan één keer zijn opgenomen (316 kinderen zijn 2 keer opgenomen, 61 kinderen 3 keer, 8 kinderen 4 keer, 2 kinderen 5 keer, en 2 kinderen 6 keer). Het overgebleven LNR meerlingbestand (2.334 records) bestaat uit kinderen die één keer zijn opgenomen. Het uiteindelijke LNR 2006 meerlingbestand bestaat uit de samenvoeging van het bestand van kinderen die één keer zijn opgenomen (2.334 records) en het bestand van de kinderen met heropnames (869 records van 389 kinderen). Dit bestand bevat in totaal 3.203 records van 2.723 kinderen en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\lnr_2006_meerling.sasb7dat. Dit bestand zal gebruikt worden voor de meerlingkoppeling met het gekoppelde LVR1^LVR2 bestand. Tabel 2.3 Aantal (her)opnames bij LNR meerlingen 2006 Opname 1 2 3 4 5 6 Totaal
Aantal records 2.334 632 183 32 10 12 3.203
Aantal kinderen 2.334 316 61 8 2 2 2.723
% Aantal records 72,8% 9,9% 5,7% 1,0% 0,3% 0,4% 100,0 %
§2.3 Koppeling niet-gekoppelde LNR eenlingen ^ meerlingen Het niet-gekoppelde LNR eenlingbestand (26.834 records) wordt gekoppeld met het nietgekoppelde LNR meerlingbestand (2.334 records). Met blocking op geboortedatum kind en met blocking op postcode moeder worden in dit jaar geen extra paren gevonden. Er zijn in 2006 geen records gekoppeld bij de koppeling van niet-gekoppelde LNR eenlingen met nietgekoppelde meerlingen.
Pagina 18 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§2.4 Creatie LNR^LNR eindbestanden Als vast onderdeel van de koppeling worden vanaf 2006 twee gekoppelde LNR eindbestanden aan de stichting PRN geleverd, een opname LNR bestand en een kind LNR bestand. Het LNR opnamebestand wordt gevormd door het LNR eenling eindbestand (31.607 opnamerecords van 28.983 kinderen) en het LNR meerling eindbestand (3.203 opnamerecords van 2.723 kinderen) samen te voegen, en bestaat uit 34.810 opname records (van 31.706 kinderen). Het LNR kindbestand wordt gevormd door alle opnames van een kind te voorzien van een opname nummer en deze op kind niveau naast elkaar te zetten (31.706 kinderen).
Het gekoppelde LNR^LNR eindbestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lnr_lnr_totaal2006_final.sas7bdat. Het LNR administratieve dubbel eindbestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lnr_admindubbel _2006_final.sas7bdat.
Pagina 19 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 2B Flowchart LNR ^ LNR meerlingkoppeling
Pagina 20 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Hoofdstuk 3 Koppeling LVR1 ^ LVR2 Het doel van de LVR1 ^ LVR2 koppeling is het koppelen van LVR1 records en LVR2 records die bij dezelfde zwangerschap horen. De LVR1 ^ LVR2 koppeling wordt voor eenlingen en meerlingen afzonderlijk uitgevoerd. De methodiek van de koppelingen is een probabilistische koppeling op basis van 10 variabelen, met blocking op geboortedatum moeder en vervolgens op postcode moeder.
§3.1 Koppeling LVR1 ^ LVR2 eenlingen Het opgeschoonde LVR1 bestand wordt ingelezen (175.142 records). Uit dit bestand worden de eenlingrecords geselecteerd (170.422 records). Het opgeschoonde LVR2 bestand wordt ingelezen (119.514 records). Uit dit bestand worden de eenlingrecords geselecteerd (112.879 records). Zie figuur 3A voor een flowchart van de LVR1^LVR2 eenlingkoppeling. Het LVR1 en LVR2 bestand worden probabilistisch gekoppeld met blocking op geboortedatum moeder en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van de moeder overeenkomt, worden aangemaakt (3.082.580 paren). Voor de koppeling worden de volgende 11 variabelen vergeleken (zie Tabel 3.1): postcode (geboortedatum moeder bij blocking op postcode), graviditeit, geboortedatum kind, à terme datum, gewicht, geslacht, geboorte uur, plaats bevalling en geboorte minuut. Voor de variabelen geboortedatum kind, à terme datum en geboortegewicht worden naast een full match ook een close gedefinieerd. Bij geboortedatum kind is er sprake van een close als de geboortedatum niet meer dan 1 dag verschilt. Bij à terme datum is er sprake van een close als de à terme datum niet meer dan 1 week verschilt. Bij gewicht is sprake van een close als het verschil in gewicht kleiner of gelijk is aan 5 gram. De à terme datum wordt alleen vergeleken als de geboortedatum van het kind ontbreekt. De plaats bevalling wordt alleen vergeleken als de postcode van de moeder ontbreekt of niet overeenkomt. Tabel 3.1 Frequentietabel koppelvariabelen LVR1 ^ LVR2 eenlingen 2006 Variabele label LVR1 (n=175.142) Ziekenhuisnummer bevalling* Geslacht kind* Gewicht kind* Geboorte uur kind* Geboorte minuut* Geboortedatum kind* Plaats bevalling* À terme datum Postcode moeder (4 cijfers) Graviditeit Geboortedatum moeder
Variabele naam
Aantal missend
% Missend
v_klin v_kop_gesl v_kop_gew v_kop_uur v_kop_min v_ddgebkind v_pltsbev v_ddaterm v_kop_pc v_kop_grav v_ddgebmoe
63.866 24.967 24.914 24.702 24.702 24.691 21.454 19.829 412 118 2
37,5% 14,7% 14,6% 14,5% 14,5% 14,5% 12,6% 11,6% 0,24% <0,1% <0,01%
LVR2 (n=112.879) Postcode moeder (4 cijfers) Geslacht kind Gewicht kind Graviditeit À terme datum Geboorte minuut Geboorte uur kind Geboortedatum moeder Geboortedatum kind Lvr-nummer praktijk Plaats bevalling
g_kop_pc g_kop_gesl g_kop_gew g_kop_grav g_ddaterm g_kop_min g_kop_uur g_ddgebmoe g_ddgebkind g_lvr g_pltsbev
1467 189 161 11 5 3 0 0 0 0 0
1,3% 0,17% 0,14% 0,01% <0,01% <0,01%
*Missend is hier soms het gevolg van het terecht (logisch) ontbreken van informatie, een hoog missing percentage betekent in deze gevallen dus niet een op voorhand lage data kwaliteit.
Pagina 21 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 3A Flowchart LVR1 ^ LVR2 eenlingkoppeling
Pagina 22 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Tabel 3.2 geeft de gewichten bij overeenstemming en geen overeenstemming weer, die berekend zijn op basis van de ui en mi waarden met blocking op geboortedatum moeder. De ui waarden zijn berekend op basis van de randtotalen en de mi waarden op basis van fitting met een non-lineaire procedure. De ui en mi waarden met blocking op postcode zijn vergelijkbaar. Tabel 3.2 Gewichten koppelvariabelen LVR1 ^ LVR2 eenlingen 2006 Variabele Geboortedatum moeder* Postcode (4 cijfers) Geboortedatum kind (full) Geboortedatum kind (± 1dg) À terme datum (full) À terme datum (± 7 dgn) Gewicht kind (full) Gewicht kind (± 5 gr) Plaats bevalling Geboorte minuut Geboorte uur kind Graviditeit Geslacht kind
mi waarden 0,9939 0,9629 0,9766 0,0173 0,9219 0,0706 0,9495 0,0074 0,9022 0,9378 0,9762 0,9466 0,9940
ui waarden 0,0007 0,0007 0,0028 0,0055 0,0027 0,0368 0,0035 0,0035 0,0078 0,0175 0,0426 0,3093 0,5005
Gewicht bij ’agreement’ 10,48 10,50 8,45 1,64 8,43 0,94 8,10 1,07 6,86 5,74 4,52 1,61 0,99
Gewicht bij ’disagreement’ -7,36 -4,75 -7,34 Nvt -7,00 Nvt -4,52 Nvt -3,34 -3,98 -5,33 -3,69 -6,38
* deze waarden zijn berekend met blocking op postcode moeder
Op basis van de geschatte prevalentie van het aantal matches berekend met de fitting procedure verwacht men 0,0302 * 3.082.580 = 93.093 links te vinden. Op basis van de geschatte prevalentie wordt een afkappunt van 7,7 gekozen en worden 90.536 paren geselecteerd als link. Het LVR1 en LVR2 bestand worden nu gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode van de moeder overeenkomt, worden aangemaakt. Paren boven het afkappunt van 7.0 en waarbij de geboortedatum van de moeder niet overeenkomt worden geselecteerd (480 paren). Het totale gegelinkte bestand bestaat uit 91.016 recordparen (90.536+480). Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 88.321 paren die uniek gekoppeld zijn en 2.695 paren die in de clusters terecht komen. Er worden 980 LVR1 records zonder kind informatie (zogenaamde ‘losse zwangerschaps’ records) verwijderd uit de clusters omdat een ander LVR1 record met meer informatie aan hetzelfde LVR2 record koppelde. Deze records worden als administratieve dubbeltellingen weggeschreven. Vervolgens wordt van iedere cluster het recordpaar met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 1.341 paren geselecteerd als link en bestaat het totale gekoppelde bestand uit 89.662 recordparen (88.321 + 1.341). De gekoppelde LVR1 records worden verwijderd uit het LVR1 eenlingbestand dat daarna nog bestaat uit 80.760 records (170.422 – 89.662). Vervolgens worden ook nog de LVR1 ‘losse zwangerschapsrecords’ (980) verwijderd en bestaat het LVR1 eenling restbestand uit 79.780 records. Tot slot worden uit dit bestand de extra toegevoegde 7.129 LVR1 records uit 2005 verwijderd die niet gekoppeld zijn aan een LVR2 record van 2006, waardoor het nietgekoppelde LVR1 bestand bestaat uit 72.651 records. De gekoppelde LVR2 records worden verwijderd uit het LVR2 eenlingrestbestand, dat daarna nog bestaat uit 23.217 records (112.879 – 89.662). Het totale gekoppelde LVR1^LVR2 eenlingbestand bestaat uit de niet-gekoppelde LVR1 records (72.651), de gekoppelde LVR1^LVR2 records (89.662) en de niet-gekoppelde LVR2 records (23.217). Het gekoppelde eenlingbestand bestaat uit 185.530 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie1.0\ lvr1_lvr2_2006_singleton.sasb7dat.
Pagina 23 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§3.2 Koppeling LVR1 ^ LVR2 meerlingen De meerlingrecords worden geselecteerd uit het opgeschoonde LVR1 bestand (4.720 records) en uit het opgeschoonde LVR2 bestand (6.635 records). Zie figuur 3B voor een flowchart van de LVR1 ^ LVR2 meerlingkoppeling. De meerlingkoppeling wordt op dezelfde manier uitgevoerd als de eenlingkoppeling, alleen wordt er nu ook gekeken naar de LVR1 en LVR2 variabelen meerlingcode en omvang meerling. De ui en mi waarden die op basis van het eenlingbestand LVR1^LVR2 zijn berekend worden ook hier bij de meerlingkoppeling gebruikt. Alle paren waarbij de geboortedatum van de moeder hetzelfde is, worden aangemaakt (13.846 paren). Alle paren boven het afkappunt van 13.0 waarbij de meerlingcode en omvang meerling overeenkomen of de meerlingcode en omvang meerling beide 1 zijn, worden geselecteerd als match (4.089 paren). Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 3.710 paren die uniek gekoppeld zijn en 379 paren die in de clusters terecht komen. De clusters worden bekeken en administratieve dubbeltellingen worden alsnog verwijderd. (41 LVR1 records). Hier geldt dat records worden beschouwd als administratieve dubbeltelling, als het een ‘los zwangerschaprecord’ betreft of als iedere waarde in de vector overeenkomt. Vervolgens wordt van iedere cluster het recordpaar met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 260 paren geselecteerd als link en bestaat het totale gelinkte bestand uit 3.970 recordparen. Er komen 67 dubbele LVR1 records voor in het bestand (3.903 unieke LVR1 records). LVR1 records met omvang meerling “1” zijn meegenomen als meerling als de reden verwijzing naar de 2e lijn een meerlingzwangerschap was. Dit LVR1 record is aan beide LVR2 records van deze meerling gekoppeld en komt daardoor dubbel voor in het gekoppelde bestand. De gekoppelde LVR1 records worden verwijderd uit het LVR1 meerlingbestand dat nu nog bestaat uit 776 records (4.720 – 3.903 – 41). De gekoppelde LVR2 records worden verwijderd uit het LVR2 meerlingbestand dat nu nog bestaat uit 2.665 records (6.635 – 3.970). Deze bestanden worden vervolgens gekoppeld met blocking op postcode moeder. Alle paren waarbij de postcode moeder overeenkomt worden aangemaakt (2.194 paren). Paren boven het afkappunt van 13.0 en waarbij de geboortedatum van de moeder niet overeenkomt en bovendien de meerlingcodes gelijk zijn of beide 1, worden geselecteerd (25 paren). Er zijn geen clusters. Het totale aantal links is 3.970 + 25 = 3.995 paren. De records die gekoppeld zijn met blocking op postcode moeder worden verwijderd uit het LVR1 meerlingbestand, dat nu nog uit 751 records bestaat (776 - 25). Uit dit bestand worden de 115 records uit 2005 verwijderd, waardoor het niet-gekoppelde LVR1 meerlingbestand bestaat uit 636 records. De records die gekoppeld zijn met blocking op postcode moeder worden verwijderd uit het LVR2 meerlingbestand, dat nu nog uit 2.640 records bestaat (2.665 - 25). Het totale gekoppelde LVR1^LVR2 meerlingbestand bestaat uit de niet-gekoppelde LVR1 records (636), de gekoppelde LVR1^LVR2 records (3.995) en de niet-gekoppelde LVR2 records (2.640). Het gekoppelde bestand bestaat uit 7.271 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_2006_meerling.sas7bdat.
Pagina 24 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 3B Flowchart LVR1 ^ LVR2 meerlingkoppeling
Pagina 25 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§3.3 Koppeling niet-gekoppelde LVR1 eenlingen met LVR2 meerlingen Het niet-gekoppelde LVR1 eenlingbestand (72.651 records) wordt gekoppeld met het nietgekoppelde LVR2 meerlingbestand (2.640 records). Bij blocking op geboortedatum moeder worden 46 paren gevonden boven het afkappunt van 30,0. Er zijn geen clusters, dus worden er 46 paren geselecteerd als link. Blocking op postcode moeder levert geen extra paren.
§3.4 Koppeling niet-gekoppelde LVR1 meerlingen met LVR2 eenlingen Het niet-gekoppelde LVR1 meerlingbestand (636 records) wordt gekoppeld met het nietgekoppelde LVR2 eenlingbestand (23.217 records). Bij blocking op geboortedatum moeder worden 63 paren gevonden boven het afkappunt van 22,5. Na het oplossen van de clusters worden er 57 paren geselecteerd als link. Blocking op postcode moeder levert geen extra paren.
§3.5 Creatie LVR1^LVR2 eindbestand Uit het LVR1^LVR2 eenling eindbestand (185.530 records) worden de records verwijderd die nog gekoppeld zijn bij de koppeling van niet-gekoppelde eenlingen met meerlingen (103 paren). Het LVR1^LVR2 eenling eindbestand bestaat uit 185.427 records. De gevonden links bij de koppeling van niet-gekoppelde eenlingen met meerlingen worden toegevoegd aan het meerling eindbestand (103 paren). Tevens worden de records die nog gekoppeld zijn, verwijderd uit het meerling eindbestand (103 records). Het LVR1^LVR2 meerling eindbestand bestaat uit 7.271 records (zie tabel 3.3). De gekoppelde LVR1^LVR2 eenling en meerling eindbestanden worden weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_singleton_2006_final.sas7bdat. Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_meerling_2006_final.sas7bdat. De LVR1 en LVR2 administratieve dubbel eindbestanden worden weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_admindubbel_final _2006.sas7bdat. Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr2_admindubbel_final_2006.sas7bdat. Tabel 3.3 Overzicht van de LVR1 ^ LVR2 koppeling 2006
Geschoond bestand LVR1 eenling LVR2 eenling LVR^LVR2 eenling LVR1 meerling LVR2 meerling LVR1^LVR2 meerling
Voor koppeling
Na koppeling
Na eenling/meerling koppeling
185.530
185.427
7.271
7.271
170.422 112.879
4.720 6.635
Pagina 26 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Hoofdstuk 4 Koppeling (LVR1 ^ LVR2) ^ LNR Het doel van de (LVR1 ^ LVR2) ^ LNR koppeling is het koppelen van LVR12 records en LNR records die bij dezelfde moeder en kind horen voor eenlingen en meerlingen. De methodiek van de koppelingen is een probabilistische koppeling op basis van 7 variabelen, met blocking op geboortedatum kind en vervolgens op postcode moeder.
§4.1 Koppeling (LVR1 ^ LVR2) ^ LNR eenlingen Het gekoppelde LVR12 eenlingbestand (185.427 records) en het gekoppelde LNR eenlingbestand (31.607 records) wordt ingelezen. Uit het gekoppelde LNR bestand wordt van ieder kind maar één record geselecteerd (28.983 records). Zie figuur 4A voor een flowchart van de (LVR1^LVR2)^LNR eenlingkoppeling. Het LVR12 en LNR bestand worden probabilistisch gekoppeld met blocking op geboortedatum kind en vervolgens met blocking op postcode moeder. Alle paren waarbij de geboortedatum van het kind overeenkomt, worden aangemaakt (13.751.906). Voor de koppeling worden de volgende 7 variabelen vergeleken (zie Tabel 4.1): postcode (geboortedatum kind bij blocking op postcode), geboortedatum moeder, zwangerschapsduur in weken, gewicht, geslacht en Apgarscore na 5 minuten. Voor de variabele geboortegewicht wordt naast een full match ook een close gedefinieerd: er is sprake van een close als het verschil in gewicht kleiner of gelijk is aan 20 gram. Tabel 4.1 Frequentietabel koppelvariabelen LVR12 ^ LNR eenlingen Variabele label LVR12 (n=185.427) Zwangerschapsduur in weken Geslacht kind Apgarscore na 5 minuten Gewicht kind Geboortedatum kind Postcode moeder (4 cijfers) Geboortedatum moeder LNR (n=31.607) Geboortedatum moeder Apgarscore na 5 minuten Postcode moeder (4 cijfers) Gewicht kind Geslacht kind Zwangerschapsduur in weken Geboortedatum kind
Variabele naam
Aantal missend
% Missend
vg_kop_amw vg_kop_gesl vg_kop_apg vg_kop_gew vg_ddgebkind vg_kop_pc vg_ddgebmoe
15.743 15.044 15.016 14.920 14.790 659 2
8,4% 8,1% 8,1% 8,0% 8,0% 0,36% <0,01%
n_ddgebmoe n_kop_apg n_kop_pc n_kop_gew n_kop_gesl n_kop_amw n_ddgebkind
3.013 1.540 447 266 3 1 0
9,5% 4,9% 1,4% 0,8% <0,01% <0,01% 0%
Pagina 27 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Figuur 4A Flowchart (LVR1 ^ LVR2) ^ LNR eenlingkoppeling
Pagina 28 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Tabel 4.2 geeft de gewichten bij overeenstemming en geen overeenstemming weer, die berekend zijn op basis van de ui en mi waarden. De ui waarden zijn berekend op basis van de randtotalen en de mi waarden op basis van fitting met een non-lineaire procedure. Tabel 4.2 Gewichten koppelvariabelen LVR12 ^ LNR eenlingen blocking op geboortedatum kind Variabele Geboortedatum moeder Postcode moeder Geboortedatum kind* Gewicht kind (full) Gewicht kind (± 20 gr) Zwangerschapsduur in weken Geslacht kind Apgarscore na 5 minuten
mi waarden 0,9791 0,9692 0,9870 0,9021 0,0523 0,9598 0,9880 0,8974
ui waarden 0,0002 0,0006 0,0028 0,0028 0,0175 0,1537 0,5015 0,4734
Gewicht bij ’agreement’ 12,64 10,77 8,46 8,34 1,58 2,64 0,98 0,92
Gewicht bij ’disagreement’ -5,58 -5,02 -6,26 -4,42 Nvt -4,40 -5,38 -2,36
* deze waarden zijn berekend met blocking op postcode moeder
Op basis van de geschatte prevalentie van het aantal matches berekend met de fitting procedure verwacht men 0.00205 * 13.751.906 = 28.191 links te vinden. Op basis van de geschatte prevalentie wordt een afkappunt van 7,6 gekozen en worden 28.096 paren geselecteerd als link. Zie figuur 4B voor de verdeling van de links rond het afkappunt.
2500
2000
C o u n t
1500
1000
500
0 2.4
4.8
7.2
9.6
12
14.4
16.8
19.2
21.6
24
26.4
28.8
wgttot
Figuur 4B LVR1^LVR2^LNR paren met blocking geboorte datum moeder 2006 Vervolgens worden alle paren aangemaakt waarbij de postcode van de moeder overeenkomt (2.999.550 paren). Paren boven het afkappunt van 7,6 en waarbij de geboortedatum van het kind niet overeenkomt, worden geselecteerd (195 paren). Het totale gelinkte bestand bestaat nu uit 28.264 records. Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 27.447 paren die uniek gekoppeld zijn en 817 paren die in de clusters terecht komen. Vervolgens worden van iedere cluster de recordparen met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 407 paren geselecteerd als link en bestaat het totale gelinkte bestand uit 27.854 recordparen (27.447 + 407).
Pagina 29 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
De gekoppelde LVR12 records worden verwijderd uit het LVR12 eenlingbestand dat nu nog bestaat uit 157.573 records (185.427 – 27.854). De gekoppelde LNR records worden verwijderd uit het LNR eenlingbestand dat nu nog bestaat uit 1.129 records (28.983 – 27.854). Het totale gekoppelde LVR12^LNR eenlingbestand bestaat uit de niet-gekoppelde LVR12 records (157.573), de gekoppelde LVR12^LNR records (27.854) en de niet-gekoppelde LNR records (1.129). Het gekoppelde eenlingbestand bestaat uit 186.556 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_lnr_singleton.sasb7dat
§4.2 Koppeling LVR12 ^ LNR meerlingen Het gekoppelde LVR12 meerlingbestand (7.271 records) en het gekoppelde LNR meerlingbestand (3.203 records) wordt ingelezen. Uit het gekoppelde LNR bestand wordt van ieder kind maar één record geselecteerd (2.723 records). Zie figuur 4B voor een flowchart van de LVR12 ^ LNR meerlingkoppeling. De meerlingkoppeling wordt op dezelfde manier uitgevoerd als de eenlingkoppeling, alleen wordt er nu ook gekeken naar de meerlingcode en omvang meerling. De ui en mi waarden die op basis van het eenlingbestand zijn berekend worden ook hier gebruikt. Alle paren waarbij de geboortedatum van het kind hetzelfde is, worden aangemaakt (61.420 paren). Alle paren met een totaalgewicht groter of gelijk aan 15,6 en waarbij ofwel de meerlingcode en omvang meerling overeenkomen, ofwel deze codes gelijk zijn aan ‘1’, worden geselecteerd als link (2.557 paren). Vervolgens worden alle paren aangemaakt waarbij de postcode van de moeder overeenkomt (16.628 paren). Paren boven het afkappunt van 15.4 waarbij de geboortedatum van het kind niet overeenkomt, de meerlingcode en omvang meerling overeenkomen, ofwel gelijk zijn aan ‘1’, worden geselecteerd (16 paren). Het totale gelinkte bestand bestaat nu uit 2.573 paren. Er worden clusters aangemaakt van de records die met twee of meer records uit het andere bestand koppelen. In totaal zijn er 2.337 paren die uniek gekoppeld zijn en 236 paren die in de clusters terecht komen (114 clusters). Van iedere cluster worden de recordparen met het hoogste gewicht meegenomen. Na het oplossen van de clusters zijn er 94 paren geselecteerd als link en bestaat het totale gelinkte bestand uit 2.431 (2.337 + 94) recordparen. De gekoppelde LVR12 records worden verwijderd uit het LVR12 meerlingbestand dat nu nog bestaat uit 4.840 records (7.271 – 2.431). De gekoppelde LNR records worden verwijderd uit het LNR meerlingbestand dat nu nog bestaat uit 292 records (2.723 – 2.431). Het totale gekoppelde LVR12^LNR meerlingbestand bestaat uit de niet-gekoppelde LVR12 records (4.840), de gekoppelde LVR12^LNR records (2.431) en de niet-gekoppelde LNR records (292). Het gekoppelde bestand bestaat uit 7.563 records en wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr1_lvr2_lnr_2006_meerling.sasb7dat
§4.3 Koppeling niet-gekoppelde LVR12 eenlingen met LNR meerlingen Het niet-gekoppelde LVR12 eenlingbestand (157.573 records) wordt gekoppeld met het nietgekoppelde LNR meerlingbestand (292 records). Bij blocking op geboortedatum kind worden 12 links gevonden boven het afkappunt van 9. Geen van deze paren zitten in clusters. Blocking op postcode moeder levert geen extra paren op. In totaal zijn er dus 12 links.
§4.4 Koppeling niet-gekoppelde LVR12 meerlingen met LNR eenlingen Het niet-gekoppelde LVR12 meerlingbestand (4.840 records) wordt gekoppeld met het nietgekoppelde LNR eenlingbestand (1.129 records). Bij blocking op geboortedatum kind worden 290 links gevonden boven het afkappunt van 15.6. Blocking op postcode moeder levert nog 3
Pagina 30 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
extra paren. Van deze in totaal 293 paren zijn er 150 uniek en 143 die in een cluster zitten. Oplossen van de clusters levert 69 extra paren. Er zijn in totaal dus 219 links.
Figuur 4C Flowchart (LVR1 ^ LVR2) ^ LNR meerlingkoppeling
Pagina 31 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
§4.5 Creatie eindbestand (LVR1 ^ LVR2) ^ LNR De extra gevonden links bij de koppeling van niet-gekoppelde eenlingrecords met meerlingrecords (231 paren) worden verwijderd uit het LVR12^LNR eenling eindbestand (186.556 records). Het LVR12^LNR 2006 eenling eindbestand bestaat uit 186.325 records. De extra gevonden links bij de koppeling van niet-gekoppelde eenlingrecords met meerlingrecords (231 paren) worden toegevoegd aan het meerlingbestand (7.563 records). Tevens worden de records die nu nog gekoppeld zijn, verwijderd uit het meerling eindbestand. Het LVR12^LNR 2006 meerling eindbestand bestaat uit 7.563 records. Het eenling eindbestand en het meerling eindbestand vormen samen het totale eindbestand van de 2006 koppeling. Dit PRN gekoppeld bestand 2006 bestaat uit 193.888 records (zie tabel 4.3). Het totale gekoppelde LVR1^LVR2^LNR eindbestand wordt weggeschreven naar: Z:\Jaarbestand\SAS jaar\gekoppelde bestanden\2006 versie 1.0\ lvr12_lnr_totaal2006_final.sas7bdat.
Tabel 4.3 Overzicht van de LVR1 ^ LVR2^LNR koppeling 2006
Geschoond bestand LVR1^LVR2 eenling LNR eenling LVR1^LVR2^LNR eenling LVR1^LVR2 meerling LNR meerling LVR1^LVR2^LNR meerling
Voor koppeling
Na koppeling
Na eenling/meerling koppeling
186.556
186.325
7.563
7.563
185.427 31.607
7.271 3.203
LVR1^LVR2^LNR totaal
193.888
Pagina 32 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Hoofdstuk 5 PRN jaar 2006 bestanden §5.1 Beschrijving eindbestanden Als product van het PRN koppelingsproject 2006 wordt het totale gekoppelde bestand LVR1^LVR2^LNR 2006 opgeleverd aan de Stichting PRN. Het totale gekoppelde bestand wordt aangeleverd in drie delen: 1) het “LVR1_LVR2_LNR_2006 versie 1.0.sas7bdat” bestand (1e opname in LRN), 2) het “LNR_LNR_2006 versie 1.0.sas7bdat” bestand met alle opnames van hetzelfde kind onder elkaar (noemer = opname), en 3) het “LNR_LNR_kind_2006 versie 1.0.sas7bdat” bestand met alle opnames van hetzelfde kind achter elkaar (noemer = kind). Een beschrijving van alle variabelen die in het aangeleverde gekoppelde bestand voorkomen, wordt gegeven aan het einde van dit document. Naam bestand LVR1_LVR2_LNR_2006 LNR_LNR_2006 LNR_LNR_kind_2006
Versienummer Versie 1.0 Versie 1.0 Versie 1.0
Datum bestand 16-aug-2007 16-aug-2007 30-aug-2007
Aantal records 193.888 34.810 31.706
Het totale gekoppelde PRN bestand 2006 (LVR1^LVR2^(LNR 1e opname) bestaat uit 193.888 records en 436 variabelen. Het totale gekoppelde LNR 2006 bestand (met alle LNR opnames) bestaat uit 34.810 records en 184 variabelen. Het totale gekoppelde LNR kindbestand 2006 bestaat uit 31.706 records en 1666 variabelen. Deze bestanden zijn gemaakt in SAS en zijn geconverteerd naar ASCII formaat en worden aan de PRN geleverd in twee formaten. Het SAS bestanden bevat ook label informatie over de variabelen (zie appendix 1).
Een aantal variabelen werd gedefineerd voor het koppelen. Deze variabels zijn (o.a): LVR1 registratie: - v_recid is de door LinKID aangemaakte recordidentificatie van het Prismant bronbestand LVR1 record. - v_recid_b is de door LinKID aangemaakte recordidentificatie van het LVR1 record, dat de eerste administratieve dubbeltelling van het in de eerste kolom (v_recid) gedefinieerde LVR1 record is. Deze administratieve dubbeltelling is door LinKID verwijderd uit het gekoppelde bestand om te voorkomen dat dezelfde zwangerschap twee keer geteld zou worden. - v_recid_c is de door LinKID aangemaakte recordidentificatie van het LVR1 record, dat de tweede administratieve dubbeltelling van het in de eerste kolom (v_recid) gedefinieerde LVR1 record is. Deze administratieve dubbeltelling is door LinKID verwijderd uit het gekoppelde bestand om te voorkomen dat dezelfde zwangerschap twee keer geteld zou worden. - v_recid_d is de door LinKID aangemaakte recordidentificatie van het LVR1 record, dat de derde administratieve dubbeltelling van het in de eerste kolom (v_recid) gedefinieerde LVR1 record is. Deze administratieve dubbeltelling is door LinKID verwijderd uit het gekoppelde bestand om te voorkomen dat dezelfde zwangerschap twee keer geteld zou worden. LVR2 registratie: - g_recid is de door LinKID aangemaakte recordidentificatie van het Prismant bronbestand LVR2 record. - g_recid_b is de door LinKID aangemaakte recordidentificatie van het LVR2 record, dat de eerste administratieve dubbeltelling van het in de zesde kolom (g_recid) gedefinieerde LVR2 record is. Deze administratieve dubbeltelling is door LinKID verwijderd uit het gekoppelde bestand om te voorkomen dat dezelfde zwangerschap twee keer geteld zou worden.
Pagina 33 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
LNR registratie: - n_recid_1 is de door LinKID aangemaakte recordidentificatie van het LNR record. - n_admin_1 is de door LinKID aangemaakte recordidentificatie van het LNR record, dat de eerste administratieve dubbeltelling van het in de negende kolom (n_recid1) gedefinieerde LNR record is. Deze administratieve dubbeltelling is door LinKID verwijderd uit het gekoppelde bestand om te voorkomen dat dezelfde opname van een kind twee keer geteld zou worden. - n_recid_2 is de door LinKID aangemaakte recordidentificatie van het LNR record wat een tweede opname is van het kind waarvan het in de negende kolom gedefinieerde record (n_recid1) de eerste opname betreft. - n_admin_2 is de door LinKID aangemaakte recordidentificatie van het LNR record, dat de eerste administratieve dubbeltelling van het in de elfde kolom (n_recid2) gedefinieerde LNR record is. - n_recid_3 is de door LinKID aangemaakte recordidentificatie van het LNR record wat een derde opname is van het kind waarvan het in de negende kolom gedefinieerde record (n_recid1) de eerste opname betreft. - n_admin_3 is de door LinKID aangemaakte recordidentificatie van het LNR record, dat de eerste administratieve dubbeltelling van het in de dertiende kolom (n_recid3) gedefinieerde LNR record is. - Indien meerdere opnames worden ook meerdere volgnummers gegeven
§5.2 Toegevoegd variabelen Een aantal variabelen zijn toegevoegd aan het gekoppelde bestand. Variabelen die gedefineerd zijn binnen het LVR1 bestand hebben het voorvoegsel “v_”, variabelen gedefineerd binnen het LVR2 bestand hebben het voorvoegsel “g_” en die binnen LNR hebben het voorvoegsel “n_”. Sommige variabelen zijn ook gebruikt om de koppeling uit te voeren. Dit wordt ook aangegeven met het tussenvoegsel “kop”. Er is ook een klein aantal variabelen toegevoegd die gebruikt worden op het gekoppelde bestand. Ze hebben het voorvoegsel “l_” (LINKID variabelen). Hieronder is een tabel met de namen van de variabelen, hun definitie en hun eigenschappen. Variabelen zonder definitie zijn direct gelezen van de brondata (LVR1, LVR2, LNR).
Pagina 34 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Bron LVR1
LVR2
Naam v_recid v_ddgebmoe v_ddgebkind v_ddaterm v_dat1ond v_datvlies v_datovdr v_pariteit
Beschrijving Recordidentificatie geboortedatum moeder geboortedatum kind a terme datum datum 1e onderzoek datum breken vliezen datum overdracht Pariteit
Definitie v<jaar>_
v_kop_grav v_multipari
graviditeit (koppelvariabel) multipariteit (j/n)
v_amddd v_amwww v_kop_amd v_kop_gesl
amenorroeduur in dagen amenorroeduur in weken amenorroeduur in dagen (koppelvariabel) geslacht (koppelvariabel)
v_kop_omv
meerling (j/n) (koppelvariabel)
v_kop_gew v_kop_mort
geboortegewicht kind (koppelvariabel) kind overleden in 1e of 2e lijn (koppelvariabel)
v_kop_pc v_kop_uur v_kop_min
postcode (koppelvariabel) geboorteuur kind (koppelvariabel) geboortemin kind (koppelvariabel)
g_recid g_ddgebmoe g_ddgebkind g_ddaterm g_ddvorkin g_dat1ond g_ddontsl g_pariteit
Recordidentificatie geboortedatum moeder geboortedatum kind a terme datum datum vorige bevalling datum 1e onderzoek Ontslagdatum Pariteit
g_kop_grav g_multipari
graviditeit (koppelvariabel) multipariteit (j/n)
g_amddd g_amwww
amenorroeduur in dagen amenorroeduur in weken
Verschil tussen graviditeit en aantal abortussen (gelijk aan graviditeit als aantal abortussen missend) gelijk aan graviditeit 1 = pariteit>=2 0 = pariteit=1 280 + verschil tussen geboortedatum en a terme datum amenorroeduur gedeeld door 7 gelijk aan amenorroeduur in dagen 1 = jongen 2 = meisje 0 = kind eenling 1 = kind (een van een) meerling gelijk aan geboortegewicht kind 0 = kind niet overleden 1 = kind overleden gelijk aan postcode gelijk aan geboorteuur kind gelijk aan geboortemin kind g<jaar>_
Verschil tussen graviditeit en aantal abortussen (gelijk aan graviditeit als aantal abortussen missend) gelijk aan graviditeit 0 = pariteit=1 1 = pariteit>=2 280 + verschil tussen geboortedatum en a terme datum amenorroeduur gedeeld door 7 Pagina 35 van 61
Type string datum datum datum datum datum datum integer integer binair
Range
0/1
integer continu integer integer
84-329 12-47
binair
0/1
continu integer
200-6000gm
integer integer integer
1000-9999 0-24 0-59
string datum datum datum datum datum datum integer
0-20
integer integer integer continu
84-329 12-47
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
LNR
LINKID
g_kop_amd g_kop_gesl
amenorroeduur in dagen (koppelvariabel) geslacht (koppelvariabel)
g_kop_omv
meerling (j/n) (koppelvariabel)
g_kop_pc g_kopovern_var
postcode (koppelvariabel) overgenomen uit 1e lijn (j/n)
g_kop_mort
kind overleden in 1e of 2e lijn
g_kop_uur g_kop_min
geboorteuur kind (koppelvariabel) geboortemin kind (koppelvariabel)
n_recid n_ddgebkind n_ddgebmoe n_ddopname n_dd1000gram n_ddontslag n_kop_amw n_kop_gew n_kop_gesl
Recordidentificatie geboortedatum kind geboortedatum moeder Opnamedatum datum 1000g Ontslagdatum amenorroeduur in weken (koppelvariabel) geboortegewicht kind (koppelvariabel) geslacht (koppelvariabel)
n_kop_pc n_kop_apg5
postcode (koppelvariabel) apgarscore (5 min) (koppelvariabel)
l_vg_wgtmax l_vg_wgttot l_vgn_wgtmax l_vgn_wgttot l_her
max weight van niet gekoppelde LVR1^LVR2 linkage weight bij LVR1^LVR2 max weight van niet gekoppelde LVR12^LNR linkage weight bij LVR12^LNR (her)opnamenummer
l_kindovl
kind overleden in de LNR (j/n, ongeacht in welke heropname) Identificatienummer LINKID
l_kind
gelijk aan amenorroeduur 1 = jongen 2 = meisje 0 = kind eenling 1 = kind (een van een) meerling gelijk aan postcode 0 = niet overgenomen 1 = overgenomen 0 = kind niet overleden 1 = kind overleden gelijk aan geboorte uur kind gelijk aan geboorte min kind
integer binair
1/2
binair
0/1
integer Integer
1000-9999
integer integer
0-24 0-59
n<jaar>_
string datum datum datum datum datum integer continu binair
<6000gm 1/2
integer integer
1000-9999 0-10
gelijk aan amenorroeduur gelijk aan geboortegewicht kind 1 = jongen 2 = meisje gelijk aan postcode gelijk aan apgarscore (5 min)
1 = 1e opname e e 2 = 2 opname of 1 heropname e n = n opname of (n-1)e heropname 0 = kind niet overleden 1 = kind overleven
Pagina 36 van 61
integer
continu continu continu continu integer
integer String
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
§5.3 Mogelijke dubbeltelling Bij het aanmaken van het gekoppelde LVR1 bestand zijn een aantal records uit het voorafgaande jaar ingelezen als kandidaten voor koppeling met records uit het LVR1 bestand. Niet gekoppelde records van het voorafgaande jaar zijn verwijderd van het ‘huidige’ LVR1 bestand maar zijn niet verwijderd van het oudere bestand. Het is dus mogelijk dat sommige records zijn geteld zowel in het LVR1 bestand van een betreffende jaar als in het LVR1 bestand van het voorgaande jaar. Bij gebruik van de gekoppelde bestanden over meerdere jaren moet hiermee rekening worden gehouden.
§5.4 Controles op het gekoppelde PRN bestand De volgende controles zijn uitgevoerd op de drie gekoppelde PRN eindbestanden bestand: 1) aantal records: voor elk bestand (LVR1/LVR2/LNR) moet het aantal records (inclusief administratieve dubbeltellingen en heropnames) gelijk zijn aan het aantal records in het oorspronkelijke bestand. 2) elke record in het ASCII bestand moet precies één keer voorkomen in de gekoppelde bestanden (inclusief administatieve dubbels en heroponames). 3) het geboortejaar van het kind moet overeenkomen met het jaar waarin de koppeling wordt gedaan. 4) een 10-tal niet koppelvariabelen wordt gecontroleerd op voorkomen (freq) in het eindbestand.
§5.5 Versie beheer en bestandnaam Bij het afronden van een gekoppeld jaarbestand krijgt het jaarbestand het versie 1.0 nummer. Indien er nog kleine wijzingingen doorgevoerd worden op het bestand naar aanleiding van commentaar gebruikers, wordt er een nieuwe bestand uitgegeven. Dit bestand krijgt dan versienummer 1.1 enz. Indien de procedure of het algoritme wordt aangepast en er een update plaatsvindt van de koppelingsmethodiek, wordt er een nieuw bestand uitgegeven met versienummer 2.0. Bij het afronden van de documentatie krijgt het rapport versie 1.0 nummer. indien er tekstuele wijzigingen in het rapport worden doorgevoerd naar aanleiding van commentaar gebruikers, wordt er een nieuw rapport uitgegeven met versienummer 1.1. Deze documentatie behoort nog steeds bij jaarbestand versie 1.0. Bij aanpassing van de procedure of algoritme, met nieuw bestand (versie 2.0) kan een nieuwe documentatie worden uitgegeven met versienummber 2.0.
§5.6 Validatie koppeling LNR-registratie In 2004 is de LVR1^LVR2 koppeling voor het jaar 2001 gevalideerd [10-11]. In 2005 is de LNR^LNR koppeling voor het jaar 2001 gevalideerd [12]. De doelen van de validatie waren: 1) om te kijken of er voldoende onderscheid is tussen heropnames en administratieve dubbeltellingen 2) om te kijken naar de kwaliteit van de koppelingvariabelen 3) om te valideren of de koppeling er in geslaagd is heropnames van een kind te onderscheiden van die van zijn/haar sibling Een conclusie van de validatiestudie is dat de datakwaliteit over het algemeen goed is, behalve van de geboortedatum van de moeder en de meerlingvariabelen ‘meerlingcode’ en ‘omvang meerling’. Bij de koppeling van LNR records van eenlingen zijn weinig fouten gevonden en het koppelalgoritme hoeft niet aangepast te worden. Meer fouten traden op bij de koppeling van records van kinderen van een meerling. De voornaamste oorzaak is de lage datakwaliteit van de variabele ‘meerlingcode’ die een belangrijke rol speelt bij de koppeling. Op basis van de validatieresultaten is het algoritme voor de LNR^LNR koppeling van meerlingen aangepast in 2005.
Pagina 37 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Samenvatting Hier wordt in het kort de koppeling van drie Nederlandse perinatale registraties (LVR1, LVR2 en LNR) besproken, die als doel heeft om medische gegevens over de zwangerschap, geboorte van het kind en de postnatale periode samen te voegen voor het jaar 2006.
Inleiding In Nederland wordt ongeveer een derde van de zwangerschappen begeleid door een verloskundige, twee derde door de gynaecoloog, en een klein deel door de huisarts. [20]. In sommige gevallen wordt het kind na de geboorte opgenomen op een neonatale afdeling, en wordt onderzocht door de kinderarts. Dit betekent dus dat de moeder en het kind door verschillende zorgverleners worden gezien. Afhankelijk van de zorgverlener die betrokken is bij de prenatale zorg, bevalling en postnatale zorg, worden gegevens over de bevalling (inclusief demografische gegevens over de moeder), geboorte en verwijzingen naar het ziekenhuis geregistreerd in een of meer van de drie registraties. Dit zijn de LVR1 (Landelijke Verloskundige Registratie (eerste lijn)) de LVR2 (Landelijke Verloskundige Registratie (tweede lijn)) en de LNR (Landelijke Neonatale Registratie). In tabel 1 staat het aantal records in de verschillende registraties en in het uiteindelijke gekoppelde PRN bestand. Tabel 1: Aantal records in de verschillende perinatale registraties in 2006 Registratie LVR1 registratie los LVR2 registratie los LNR registratie los Gekoppelde PRN (LVR1^LVR2^LNR) registratie Gekoppelde LNR^LNR registratie Gekoppelde LNR^LNR registratie
Eenheid Zwangerschap/baring vrouw + geboorte kind Zwangerschap/baring vrouw + geboorte kind Opname van een kind Kind Opname van een kind Kind
Aantal Records 168.010 119.593 34.882 193.888 34.810 31.706
Vanwege de Nederlandse privacy wetgeving moet de informatie in deze registraties eerst geanonimiseerd worden, voordat andere partijen buiten de zorginstellingen deze mogen gebruiken. Een unieke sleutel, die individuen identificeert, is dus niet toegestaan. Om informatie over dezelfde vrouw, zwangerschap en kind uit deze 3 registraties te kunnen koppelen wordt een anonieme koppelingsprocedure gebruikt.
De koppelingsprocedure en koppelingsmethoden Hieronder beschrijven we de koppelingsprocedure, die bestaat uit een aantal stappen en wordt gebruikt door het LinkID team om een valide, gekoppelde registratie te verkrijgen De eerste stap in het koppelingsproces is om elk van deze drie datasets op te schonen, met andere woorden het verwijderen van dubbele records. Er worden geen andere schoningsstappen uitgevoerd (zoals het verwijderen van onwaarschijnlijke waarden) Vervolgens wordt de LVR1 registratie gekoppeld met de LVR2 registratie. Hierbij worden eenlingen en meerlingen apart behandeld, en na de koppeling weer samengevoegd. Het gekoppelde bestand (LVR12) wordt hierna gekoppeld met het LNR bestand.
Pagina 38 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Men onderscheidt twee belangrijke koppelingsmethoden, deterministisch en probabilistisch. Bij beide methoden worden er koppelvariabelen gekozen, die partieel identificerend zijn voor een patiënt, daarnaast in beide registraties voorkomen en bovendien van voldoende kwaliteit zijn (laag percentage missings) Bij de deterministische methode wordt een recordpaar beschouwd als een match als alle koppelvariabelen overeenkomen. Een altenatieve en minder strenge methode is om een paar als match aan te merken als een klein aantal variabelen verschilt (meestal één, de zogenaamde n-1 koppeling, waarin n is het aantal gebruikte koppelvariabelen) Bij de probabilistische methode worden er gewichten uitgerekend voor iedere koppelvariabele, zowel voor ‘overeenstemming’ als ‘geen overeenstemming’. De berekening van het gewicht is gebaseerd op de kans op overeenstemming van iedere variabele voor zowel de werkelijke matches als de niet-matches.[2]. Deze variabele-specifieke gewichten geven een beloning (door middel van een positieve score) voor ieder variabele die overeenkomt binnen het recordpaar, en een straf (door middel van een negatieve score) voor iedere variabele die verschilt binnen het recordpaar. Het totale gewicht voor ieder recordpaar wordt berekend door het optellen van de gewichten van de afzonderlijke koppelvariabelen. Paren met een hoog totaalgewicht zijn waarschijnlijk matches, en paren met een lage score waarschijnlijk geen matches. De deterministische methode wordt alleen gebruikt om de losse registraties op te schonen. Voor alle andere koppelingen wordt de probabilistische methode gebruikt [2,3]. Een aantal variabelen wordt soms niet precies gelijk in de beide registratie opgenomen. Het geboortegewicht van een kind zou bijvoorbeeld in de ene registratie als 3010 gram zijn geregistreerd en in de andere registratie afgerond naar 3000 gram. Om deze close-waarden te ondervangen kan de probabilistisch methode worden uitgebreid. Recordparen met een close match op een bepaalde variabele krijgen een lagere beloning dan recordparen met een full match Een algoritme berekent de variabele-specifieke gewichten. Hierdoor wordt het mogelijk om het afkappunt te schatten; paren met een hogere totaalscore worden beschouwd als een link. Het afkappunt geeft een schatting weer van de prevalentie van de matches tussen alle mogelijke recordparen. In het algemeen valt de grote meerderheid van de records ver beneden het afkappunt (geen match) en een klein aantal ruim boven het afkappunt. De kwaliteit van de koppelingsprocedure kan beoordeeld worden door een aantal recordparen aan beide kanten van het afkappunt te onderzoeken. Hoe kleiner het grijze gebied, hoe beter het discriminerend vermogen van de koppelingsprocedure. De keuze van het juiste afkappunt voor de recordparen in het grijze gebied wordt zowel bepaald door informatie die de output van de computer oplevert, als door kennis over de context. Vanwege het grote aantal records (met name in de LVR1 en LVR2), is het onmogelijk (lees: zeer tijdrovend) om met de computer alle mogelijke recordparen te vergelijken in beide datasets. Om dit probleem op te lossen, wordt de data ‘geblocked’ op een bepaalde variabele. Om bijvoorbeeld de koppeling tussen de LVR1 en LVR2 te realiseren wordt de data eerst geblocked op de geboortedatum van de moeder: er worden dan alleen paren met een identieke geboortedatum van de moeder vergeleken. Hierdoor wordt het aantal recordsparen dat wordt beschouwd als mogelijke match gereduceerd van ongeveer 2 x 1010 naar 3 x 106. Vervolgens worden de niet-gekoppelde records geblocked op postcode van de moeder, om links te vinden, die bij de eerste blocking zijn gemist. Op een vergelijkbare manier worden de records in de LVR12^LNR koppeling eerst geblocked op de geboortedatum kind, en vervolgens op de postcode van de moeder. Uit de validatie en vergelijkende studies is gebleken dat de probabilistische koppelingsprocedure goed presteert in absolute zin, en behoorlijk beter dan het beste deterministische alternatief. Bovendien hebben deze studies kwantitatieve informatie opgelevert over het succes van de koppelingsprocedure, en de belangrijkste bronnen van fouten.
Pagina 39 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Resultaten Hier presenteren we een selectie van de informatie uit de koppelingsstudie van 2006, die in totaal uit 14 verschillende stappen bestaat. Eerst tonen we de variabelen die zijn gebruikt in de LVR1-LVR2 eenling koppeling (na blocking op geboortedatum moeder) met de bijbehorende geschatte gewichten (zie tabel 2) In tabel 2 kan men de zien dat de overeenstemming op postcode de hoogste positieve score geeft (10,50) en daarmee geeft het de meest informatieve waarde. De geboortedatum van het kind is minder informatief (8,45). De bijbehorende gewichten voor ‘geen overeenstemming’ zijn respectievelijk -4,75 and -7,34. Dit geeft aan dat het foutenpercentage bij het registreren van de postcode veel hoger is dan bij de geboortedatum. Tabel 2: koppelgewichten voor de LVR1^LVR2 koppeling voor singletons
Variabele Postcode (moeder) Geboortedatum (kind, full match) Geboortedatum (close, ±1 dag) Aterme datum (full) Aterme datum (close, ±7 dagen) Geboorte gewicht (full) Geboorte gewicht (close, ± 5gr) Geboorteplaats (ziekenhuis) Geboorte minuut Geboorte uur Graviditeit Geslacht (kind)
Gewichten Agree Disagree 10,50 -4,75 8,45 -7,34 1,64 Nvt 8,43 -7,00 0,94 nvt 8,10 -4,52 1,07 Nvt 6,86 -3,34 5,74 -3,98 4,52 -5,33 1,61 -3,69 0,99 -6,38
In Tabel 3, staan de uiteindelijke resultaten nadat alle koppelingsstappen zijn uitgevoerd. Het gekoppelde PRN eindbestand bevat 193.888 verschillende records (moeder-kind combinaties), waarvan 101.751 recordparen data bevatten uit twee of drie registraties. Tabel 3: aantal links tussen de LVR1, LVR2 en LNR registraties 2006 Records met informatie uit LVR1 LVR2 LNR LVR1^LVR2 LVR1^LNR LVR2^LNR LVR1^LVR2^LNR
Aantal gelinkte records 71.463 19.484 1.190 71.235 1.721 6.270 22.525
Percentage van links 36,9% 10,0% 0,6% 36,7% 0,9% 3,2% 11,6%
193.888
100.0%
PRN linked LVR1^LVR2^LNR registratie 2006
Pagina 40 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Conclusie We hebben de drie Nederlandse perinatale registraties (LVR1, LVR2 en LNR) succesvol gekoppeld tot het PRN 2006 eindbestand. Het resultaat is dat alle informatie over dezelfde zwangerschap en hetzelfde kind gecombineerd zijn in één medisch record. Dit maakt het mogelijk om informatie te verkrijgen over de gehele periode van perinatale zorg (tabel 4). Tabel 4: de gekoppelde eindbestanden LVR1, LVR2 en LNR koppeling 2006 Naam bestand LVR1_LVR2_LNR_2006 LNR_LNR_2006 LNR_LNR_kind_2006
Versienummer Versie 1.0 Versie 1.0 Versie 1.0
Datum bestand 16-aug-2007 16-aug-2007 30 aug-2007
Aantal records 193.888 34.810 31.706
Het is belangrijk om iedere koppeling na afloop te valideren. De koppeling zelf kan het probleem van de werkelijke waarde van een variabele, als deze verschillend is in de twee registraties bij een link, niet oplossen. Het positieve gewicht van de overige koppelvariabelen was voldoende om het verschil te overkomen, maar de procedure geeft geen informatie over welke van de twee waardes de werkelijke waarde is.
Pagina 41 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Epiloog De koppeling van de LVR1, LVR2 en LNR perinatale registraties voor 2006 heeft geleid tot een PRN jaarbestand 2006, wat op dezelfde wijze gebruikt kan worden als het PRN jaarbestand 2000 tot en met 2005. Er zijn een aantal kleine aanpassingen gedaan aan de koppelingsmethodiek ten opzichte van 2005. Deze aanpassingen zijn in de inleiding beschreven. De resultaten van de koppeling van 2006 zijn vergelijkbaar met de resultaten van 2000-2005 en de zeven bestanden kunnen in combinatie gebruikt worden voor PRN gegevensverstrekkingen en PRN producten zoals het PRN jaarboek.
Vergelijking met PRN koppelingen van andere jaren Wanneer we aannemen dat de bronbestanden voor 2000 tot en met 2006 vergelijkbaar zijn wat betreft omvang, samenstelling, gebruikte classificaties voor de variabelen, toegepaste coderingsregels en voorbewerking tot aan de aanlevering aan PRN, is de vergelijking van de resultaten voor de verschillende jaren zinvol en van belang voor het beoordelen van de stabiliteit van het koppelingsprotocol. Een zeer gevoelige maat hiervoor zijn de koppelgewichten die op basis van de datasets berekend worden. Alleen als in alle opzichten de koppeling vergelijkbaar is en de databestanden gelijk van inhoud, ontstaan vergelijkbare gewichten. Tabel E1, E2 en E3 geven de koppelgewichten weer voor de LVR1^LVR2 koppeling, de LNR^LNR koppeling en de (LVR1^LVR2)^LNR eenlingkoppeling voor 2004, 2005 en 2006. De gewichten zijn goed vergelijkbaar voor de drie jaren. Tabel E1 Koppelgewichten LVR1^LVR2 eenling koppeling [8-9] (Blocking op geboortedatum moeder) Gewichten 2004 Gewichten 2005 Variabele agree disagree Agree disagree geboortedatum moeder1 n.a. n.a. 8,23 -7,47 postcode moeder 10,48 -4,78 10,54 -4,78 geboortedatum kind (full) 8,47 -7,28 8,42 -7,28 1,81 nvt 1,83 nvt geb.dat. kind (close ±1 dag) aterme datum (full) 8,43 -6,49 8,41 -6,49 1,20 nvt 0,91 nvt aterme datum (close ±7 dgn) geboortegewicht (full) 8,08 -4,68 8,07 -4,68 0,94 nvt 0,75 nvt geboortegewicht (close ±5g)2 plaats bevalling 6,98 -3,41 6,92 -3,41 geboorte minuut 5,72 -3,83 5,72 -3,83 geboorte uur 4,51 -5,24 4,52 -5,24 graviditeit 1,59 -3,72 1,60 -3,72 geslacht kind 0,99 -6,40 0,99 -6,40 1 deze waarden zijn berekend met blocking op postcode moeder 2 in 2004 en 2005 was de close value voor geboortegewicht ± 10g
Pagina 42 van 61
Gewichten 2006 agree disagree 10,48 -7,36 10,50 -4,75 8,45 -7,34 1,64 Nvt 8,43 -7,00 0,94 Nvt 8,10 -4,52 1,07 Nvt 6,86 -3,34 5,74 -3,98 4,52 -5,33 1,61 -3,69 0,99 -6,38
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Tabel E2 Koppelgewichten LNR^LNR koppeling [8-9] (Blocking op geboortedatum kind)
Variabele geboortedatum moeder patiënt id (binnen ziekenhuis) Postcode moeder geboortegewicht (full) geboortegewicht (close ± 50g)1 geboortedatum kind2 zwangerschapsduur in weken apgar-score na 5 min geslacht kind
Gewichten 2004 agree disagree 12,53 -5,01 10,08 -1,28 9,86 -6,08 8,54 -5,66 0,91 nvt n.a. n.a. 2,98 -6,19 1,35 -4,06 0,98 -6,35
Gewichten 2005 Agree disagree 12,49 -3,64 11,13 -1,35 9,95 -4,28 8,62 -4,80 1,50 nvt 8,56 -7,67 2,89 -3,86 1,30 -3,68 0,96 -4,34
Gewichten 2006 agree disagree 12,87 -3,60 12,58 -1,41 9,84 -5,64 8,58 -3,92 1,38 nvt 8,36 -5,22 2,94 -4,86 1,24 -2,87 0,92 -3,44
1 in 2004 was de close value voor geboortegewicht ± 100g, 2 deze waarden zijn berekend met blocking op postcode moeder
Tabel E3 Koppelgewichten LVR12^LNR koppeling [8-9] (Blocking op geboortedatum kind)
Variabele geboortedatum moeder Postcode moeder geboortedatum kind1 geboortegewicht (full) geboortegewicht (close ±20g)2 zwangerschapsduur in weken geslacht kind apgar-score na 5 min
Gewichten 2004 agree disagree 12,59 -5,48 10,80 -4,94 n.a. n.a. 8,29 -5,46 0,07 nvt 2,65 -4,21 0,98 -5,28 0,94 -2,23
Gewichten 2005 Agree disagree 12,54 -5,57 10,82 -5,04 8,48 -6,19 8,31 -4,31 1,58 nvt 2,64 -4,27 0,98 -5,34 0,92 -2,29
Gewichten 2006 agree disagree 12,64 -5,58 10,77 -5,02 8,46 -6,26 8,34 -4,42 1,58 Nvt 2,64 -4,40 0,98 -5,38 0,92 -2,36
1 deze waarden zijn berekend met blocking op postcode moeder 2 bij 2004 was de close value voor geboortegewicht ± 100g
Nu er PRN bestanden over een langere periode op dezelfde gedocumenteerde wijze zijn gekoppeld, wordt het ook mogelijk om de gekoppelde bestanden onderling te vergelijken. In tabel E4 is een overzicht gegeven van het aantal records in de afzonderlijke LVR1, LVR2 en LNR registraties en in de gekoppelde PRN registratie voor de periode 2000-2006, zie ook figuur E1. Het aantal records in de LVR1 registratie laat de afgelopen jaren een positieve trend zien. Het aantal records steeg vanaf het jaar 2000 met 154.742 records tot 169.326 records in 2003. In het jaar 2004 waren er minder records in de LVR1 registratie (160.967). Toch lijkt er nu opnieuw een positieve trend te zijn ingezet, want zowel in het jaar 2005 (163.764) als in 2006 (168.010) steeg het aantal LVR1 records. Een verklaring voor deze toename zou kunnen zijn dat er meer LVR1 praktijken registreren. Het aantal records in de LVR2 registratie is in dezelfde periode licht gedaald van 124.716 tot 119.593 records. Het aantal records in de LNR registratie blijft ongeveer gelijk, en schommelt tussen de 30.130 (2001) en 36.805 (2005) records. Het aantal records in de gekoppelde PRN registratie is de afgelopen jaren flink afgenomen, van 204.584 (2000) tot 193.888 records in 2006, met een piek in 2003 (206.778). Deze trend volgt het aantal levend- en doodgeborenen kinderen volgens de GBA/CBS registratie. [22] Tabel E4 Trend in LVR1, LVR2, LNR registratie en de PRN gekoppelde registratie voor de periode 2000-2006 [3-9] PRN gekoppelde registratie
2000
2001
2002
2003
2004
2005
2006
LVR1 registratie LVR2 registratie LNR registratie PRN gekoppelde registratie
154.742 124.716 32.189 204.584
155.832 125.061 30.130 202.904
162.649 122.859 31.996 202.778
169.326 125.150 35.462 206.778
160.967 121.716 33.545 199.859
163.764 118.553 36.805 193.724
168.010 119.593 34.882 193.888
Pagina 43 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Figuur E1 Trend in LVR1, LVR2, LNR registratie en de PRN gekoppelde registratie voor de periode 2000-2006 [3-9]
250.000 204.584
202.904
202.778
206.778
199.859
193.724
193.888
162.649
160.967
163.764
168.010
155.832
169.326
154.742
124.716
125.061
122.859
125.150
121.716
118.553
119.593
32.189
30.130
31.996
35.462
33.545
36.805
34.882
2000
2001
2002
2003
2004
2005
2006
Aantal records
200.000
150.000
100.000
50.000
0 Registratiejaar PRN gekoppelde registratie
LVR1 registratie
LVR2 registratie
LNR registratie
Datakwaliteit De datakwaliteit van de koppelvariabelen is van groot belang voor de koppeling. Vooral missende waarden van een koppelvariabele bemoeilijken de koppeling omdat er dan niets valt te vergelijken. Uit de LVR1^LVR2 validatie studie [10,11] en de LNR^LNR validatiestudie [12] is gebleken dat bepaalde koppelvariabelen minder goed worden geregistreerd dan anderen. De uitkomsten hiervan zijn ook teruggekoppeld aan de deelnemende zorgverleners/praktijken. Hoe beter een koppelvariabele geregistreerd wordt, des te betrouwbaarder is de uitkomst van de koppeling. Het is daarom belangrijk om te monitoren of de datakwaliteit van bepaalde koppelvariabelen de afgelopen jaren is toegenomen. Hieronder wordt een case besproken van een koppelvariabele waarvan het percentage missende waarden relatief hoog is; de geboortedatum van de moeder in de LNR registratie. Voor deze variabele is gekeken of deze over de jaren heen beter geregistreerd wordt. In tabel E5 is de trend van het aantal LNR eenling records te zien. Daarnaast toont deze tabel de trend van het aantal missende waarden bij eenlingen op de variabele geboortedatum moeder in de LNR registratie. Uit deze analyse blijkt dat nog steeds in 13% van de LNR records de geboortedatum van de moeder ontbreekt. Dit is iets verbeterd na de publicatie van het LNR validatie rapport [12], maar nog steeds te veel hoog. Bovendien bemoeilijkt dit de koppeling tussen de LVR1^LVR2 en de LNR registratie. Bij de vastlegging van de variabele geboortedatum moeder in de LNR is dus nog een forse verbetering te behalen. Tabel E5 Variabele geboortedatum moeder in LNR [3-9] LNR registratie N (eenling records) Geboortedatum moeder (missings) % missing geboortedatum moeder
2001 26.819 3.652 13,3%
2002 28.361 3.509 12,4%
Pagina 44 van 61
2003 31.744 5.304 16,7%
2004 31.583 4.093 12,9%
2005 33.039 4.665 14,1%
2006 31.607 4.221 13,3%
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Referenties [1] Newcombe HB. Handbook of Record Linkage, Methods for Health and Statistical Studies. Oxford University Press, 1998. [2] Registers in Cardiovascular Epidemiology. Reitsma JB, thesis University Amsterdam, ISBN 90 901 3206 6, Nov 1999.
Rapportage van eerdere PRN koppelingen: [3] Koppelingsprocedure PRN 2001: Deel I. Hoofdlijnen. Auteurs GJ Bonsel, JB Reitsma, N Méray, ACJ Ravelli Afdeling Klinische Informatiekunde Technisch rapport 2004-03, AMC, Amsterdam, Juni 2004. [4] Koppelingsprocedure PRN 2001: Deel II. Beschrijving en Toelichting. Auteurs GJ Bonsel, JB Reitsma, ACJ Ravelli, N Méray, Miranda Tromp Afd. Klinische Informatiekunde Technisch rapport 2004-04, AMC, Amsterdam, Juni 2004. [5] Koppelingsprocedure PRN 2002: Beschrijving en Toelichting. Auteurs N Méray, Miranda Tromp, ACJ Ravelli, JB Reitsma, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2005-03, AMC, Amsterdam, Feb 2005. [6] Koppelingsprocedure PRN 2003: Beschrijving en Toelichting. Auteurs N Méray, Miranda Tromp, ACJ Ravelli, JB Reitsma, GJ Bonsel Afd. Klinische Informatiekunde, Technisch rapport 2005-04, AMC, Amsterdam, Mei 2005. [7] Koppelingsprocedure PRN 2000: Beschrijving en Toelichting. Auteurs J McDonnell, Miranda Tromp, ACJ Ravelli, JB Reitsma, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2005-05, AMC, Amsterdam, Okt 2005. [8] Koppelingsprocedure PRN 2004: Beschrijving en Toelichting. Auteurs J McDonnell, Miranda Tromp, ACJ Ravelli, JB Reitsma, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2006-01, AMC, Amsterdam, Mrt 2006. [9] Koppelingsprocedure PRN 2005: Beschrijving en Toelichting. Auteurs Marc Tromp, MirandaTromp, ACJ Ravelli, JB Reitsma, JAM van der Post Afd. Klinische Informatiekunde Technisch rapport 2007-03, AMC, Amsterdam, Apr 2007.
Rapportages van validatie studies van de PRN koppelingen [10] Validatie koppelingsprocedure PRN 2001. Empirische validatie LVR1 & LVR2 koppeling. Auteurs GJ Bonsel, ACJ Ravelli, JB Reitsma, N Méray Afd. Klinische Informatiekunde Technisch rapport 2004-01, AMC, Amsterdam, Mei 2005. [11] Validatie koppelingsprocedure PRN 2001. Technische beschrijving Validatie LVR1 & LVR2 koppeling. Auteurs GJ Bonsel, N Méray, ACJ Ravelli, JB Reitsma Afd. Klinische Informatiekunde Technisch rapport 2004-02, AMC, Amsterdam, Mei 2005. [12] LNR-registratie Compleetheid, Datakwaliteit en Validatie LNR koppeling Auteurs Miranda Tromp, ACJ Ravelli, N Méray, JB Reitsma, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2005-06, AMC, Amsterdam, Dec 2005.
Pagina 45 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Rapportages van koppelingen PRN bestand met externe bestanden [13] Koppelingsprocedure PRN 2003 met ABCD bestand 2003. Auteurs M Tromp, ACJ Ravelli, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2006-02, AMC, Amsterdam, April 2006. [14] Koppelingsprocedure PRN 2003 en 2004 met ABCD bestand 2003-2004. Auteurs M Tromp, ACJ Ravelli, GJ Bonsel Afd. Klinische Informatiekunde Technisch rapport 2006-03, AMC, Amsterdam, Sept 2006.
Output rapportages op basis van de gekoppelde PRN bestanden [15] Stichting Perinatale Registratie Nederland. Perinatale Zorg in Nederland 2001. ISBN 90 901 9204-2, Bilthoven, mei 2005. [16] Stichting Perinatale Registratie Nederland. Perinatale Zorg in Nederland 2002. ISBN 97 890-809-66-28, Bilthoven, dec 2005. [17] Stichting Perinatale Registratie Nederland. Perinatale Zorg in Nederland 2003. ISBN 97 890-809-66-35, Bilthoven, juli 2006.
Artikelen op basis van de koppeling van de perinatale registraties [18] Record Linkage: Making the most out of errors in linking variables. Tromp M, Reitsma JB, Ravelli, Meray N, Bonsel GJ AMIA Annual Symposium Proc, 2006;779-83. [19] Probabilistic record linkage is a valid and transparent tool to combine databases without a patient identification number. Méray N, Reitsma JB, Ravelli ACJ, Bonsel GJ, Journal of Clinical Epidemiology, 60 (2007) 883-391.
Websites [20] KNOV website: www.knov.nl/themas/de_bevalling/ cijfers_over_bevallen_in_/index.xml [21] Stichting PRN website: www.perinatreg.nl [22] Afdeling Klinische Informatiekunde website: http://kik.amc.uva.nl/KIK2/index.jsp [23] CBS website: http://statline.cbs.nl/, 30-08-2007
Pagina 46 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Begrippen Gegeven Uitkomst Eenling
Meerling Administratieve dubbeltelling
Cross-sectioneel koppelen Longitudinaal koppelen
Deterministisch koppelen
Probabilistisch koppelen
Match (non-matches) Link (non-links) Koppel(ings)sleutel Blocking-variabele
Vector
Gegeven zoals vastgelegd in registratie. Een meetbare representatie van het doel van zorg op individuniveau. Een record dat informatie bevat van een zwangere met een enkel(voudig)e zwangerschap. Tot een enkele zwangerschap wordt beslist bij afwezigheid van aanwijzingen voor een meerling in 2 variabelen: meerlingcode en reden overdracht: wegens meerlingzwangerschap. Ook wordt soms de term singleton gebruikt. Een record dat informatie bevat van een zwangere met een meerling zwangerschap. Alle niet enkele zwangerschappen. Twee of meer records in een bestand die volledig identiek zijn op de koppelsleutel; dit kan bij koppelen van een bestand met zichzelf het gevolg zijn van een echt duplicaat record of van de aanwezigheid van een record met dezelfde koppelsleutel. Het koppelen van gegevens waarbij de gegevens van slechts 1 primaire gebeurtenis (hier zwangerschap) met elkaar worden verbonden in tegenstelling tot longitudinaal koppelen (zie aldaar). Het koppelen van gegevens van verschillende primaire gebeurtenissen die in de tijd gescheiden zijn. Dit kan zowel betrekking hebben op gegevens uit 1 registratie of uit meerdere registraties. Koppeling waarbij alle (of een bepaald aantal van het totaal van de koppelsleutel) variabelen overeen moeten komen om te spreken van een link. Als de koppelsleutel n variabelen bevat spreekt men over een volledig deterministische koppeling als n waarden moeten corresponderen, over n-1 koppeling als er 1 willekeurig welke variabele mag verschillen, etc.
Koppeling waarbij voor iedere variabele van de koppelsleutel een mate van overeenstemming wordt bepaald die via een statistische bewerking wordt vertaald in een gewicht dat hoger is naarmate de kans op overeenstemming van het betreffende record op basis van deze variabele groter is. De statistische bewerking voorziet in, per variabele, een gewicht dat commensurabel is waardoor een totaalgewicht kan worden berekend. A priori of via berekening wordt bij probabilistisch koppelen een drempel vastgesteld waarboven twee gekoppelde records worden verondersteld te behoren tot dezelfde registratie-eenheid (dit heet 'link'). Wanneer externe informatie over de werkelijke status (al dan niet behorend tot dezelfde eenheid; 'match' of 'non-match') beschikbaar is, dus een gouden standaard, dan kan het begrippenapparaat worden toegepast dat ontwikkeld is ten behoeve van evaluatie van (medische) tests om de kwaliteit van de koppeling te beschrijven (b.v. x% fout positieve links, etc.). (E) Twee records horen bij elkaar op basis van de werkelijke status. (E) Twee records horen vermoedelijk (niet) bij elkaar op basis van het gewicht van de koppelsleutel. De set gemeenschappelijke variabelen uit 2 of meer te koppelen bestanden die voor het koppelen wordt gebruikt. (E) Records worden alleen met elkaar vergeleken als ze overeenstemmen op de blocking-variabele; een blocking-variabele is idealiter foutloos en informatierijk; toepassing van blocking vereenvoudigt de omvang van het koppelen aanzienlijk. Geeft het overeenkomen van koppelvariabelen weer met een positie voor iedere koppelvariabele, die de uitslag van overeenstemming Pagina 47 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007.
Full Close
mi (1-mi) ui (1-ui) Afkappunt
Tie
weergeeft voor die variabele (‘1’ bij overeenstemming, ‘2’ bij klein verschil, ‘0’ bij groot verschil, ‘.’ bij missende waarde). (E) adjectief om op variabelenniveau aan te geven dat een koppelvariabele qua waarde exact overeenkomt tussen records. (E) adjectief om op variabelenniveau aan te geven dat een koppelvariabele niet exact overeenkomt, maar wel - op gedefinieerde wijze - voldoende overeenkomt om niet van 'fout' te kunnen spreken. De kans dat koppelvariabele i overeenstemt (verschilt) onder paren die werkelijk bij elkaar horen (matches). De kans dat koppelvariabele i overeenstemt (verschilt) onder paren die niet bij elkaar horen (non-matches). Synoniem: drempel, (E) threshold. Een gekozen totaalgewicht bij een probabilistische koppeling, waarboven paren als een link worden beschouwd. (E) een record uit het ene koppelbestand koppelt aan meerdere records uit het andere koppelbestand, deze multiple koppelingen heten ties; bij deterministisch koppellen en de eis van volledige overeenstemming berust een tie per definitie op een administratieve dubbeltelling (zie boven).
Pagina 48 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Appendix: Contents gekoppelde bestand LVR1^LVR2^LNR 2006 Variables in Creation Order # Variable
Type
Len Label
1 v_recid
Char
2 v_id
Char
4 registratie identificatie
3 v_prak
Num
8 uniek praktijk nr
4 v_actie
Num
8 actiecode SIG
5 v_admin
Char
6 padministratienr binnen praktijk
6 v_mc
Num
8 Meerlingcode
7 v_omv
Num
8 omvang meerling
8 v_ozA
Char
1 onze zorg betrof (A)
9 v_ozB
Char
1 onze zorg betrof (B)
10 v_ozTOT
Char
2 onze zorg betrof A+B
11 v_nrvk
Char
4 nr vk/ha
12 v_dd1ond
Char
6 datum 1e onderzoek
13 v_d1ond_d
Num
8 dag, datum 1e onderzoek
14 v_d1ond_m
Num
8 maand, datum 1e onderzoek
15 v_d1ond_j
Num
8 jaar, datum 1e onderzoek
16 v_contact
Num
8 hoe kwam contact tot stand
17 v_ddgebm
Char
6 geboorte datum moeder
18 v_mdat_d
Num
8 gebdatum moeder, dag
19 v_mdat_m
Num
8 gebdatum moeder, maand
20 v_mdat_j
Num
8 gebdatum moeder, jaar
21 v_pc2
Num
8 postcode -2 cijfers
22 v_pc
Num
8 postcode -4 cijfers
23 v_her
Num
8 herkomst moeder
24 v_grav
Num
8 graviditeit
25 v_abo
Num
8 aant.abortus
26 v_addat
Char
6 datum ateme ddmmyy
27 v_addat_d
Num
8 dag, datum ateme
28 v_addat_m
Num
8 maand, datum ateme
29 v_addat_j
Num
8 jaar, datum ateme
30 v_zek
Num
8 zekerheid amen
31 v_ovlg
Num
8 overlegsit/medium risk
32 v_redovlg
Char
3 reden overlegsituatie/medrisk
33 v_ondA
Char
2 onderzoek/verrichting A
34 v_ondB
Char
2 onderzoek/verrichting B
18 recordidentificatie -LinKID
Pagina 49 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
35 v_ondC
Char
2 onderzoek/verrichting C
36 v_aangep
Num
8 aangepakt door
37 v_superv
Num
8 supervisie door
38 v_ddvlies
Char
4 datum breken vliezen (ddmm)
39 v_vlies_d
Num
8 dag, datum breken vliezen
40 v_vlies_m
Num
8 maand, datum breken vliezen
41 v_uuvlies
Num
8 uur breken vliezen
42 v_amnio
Num
8 amniotomie
43 v_vrwat
Num
8 kleur vruchtwater
44 v_ontsl
Num
8 ontsluitingsduur
45 v_uupers
Num
8 uur begin meepersen
46 v_mmpers
Num
8 min begin meepersen
47 v_lig
Num
8 ligging
48 v_peri1
Num
8 perineum/vulva 1
49 v_peri2
Num
8 perineum/vulva 2
50 v_peri3
Num
8 perineum/vulva 3
51 v_medicpp
Num
8 medicatie na geb kind
52 v_hpp
Num
8 bloedverlies
53 v_gesl
Num
8 geslacht
54 v_ddgeb
Char
6 kind geboortedatum ddmmyy
55 v_kind_d
Num
8 kind geboortedatum, dag
56 v_kind_m
Num
8 kind geboortedatum, maand
57 v_kind_j
Num
8 kind geboortedatum, jaar
58 v_gebuur
Num
8 uur geboorte kind
59 v_gebmin
Num
8 min geboorte kind
60 v_apg
Num
8 apgar na 5 min
61 v_gew
Num
8 gewicht
62 v_weeg
Num
8 weegmethode
63 v_kraam
Num
8 kraamzorg
64 v_voed
Num
8 voeding 7e dag
65 v_lyn2red1
Char
3 reden zorg 2e lijn 1
66 v_lyn2red2
Char
3 reden zorg 2e lijn 2
67 v_mort1
Num
8 kind overleden 1e lijn
68 v_mort2
Num
8 kind overleden 2e lijn
Pagina 50 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
69 v_pltsplan
Num
8 geplande plaats bevalling
70 v_pltsecht
Num
8 echte plaats bevalling
71 v_klin
Num
8 ziekenhuisnr bevalling
72 v_lconsgyn
Num
8 laatste consult gyn
73 v_redcon1
Char
3 reden consult gyn 1
74 v_redcon2
Char
3 reden consult gyn 2
75 v_redcon3
Char
3 reden consult gyn 3
76 v_overdr
Num
8 overdracht naar 2e lijn
77 v_klinovdr
Num
8 ziekenhuisnr overdracht
78 v_ddovdr
Char
6 datum overdracht, ddmmyy
79 v_ovdr_d
Num
8 dag, datum overdracht
80 v_ovdr_m
Num
8 maand, datum overdracht
81 v_ovdr_j
Num
8 jaar, datum overdracht
82 v_redovd1
Char
3 reden overdracht 1
83 v_redovd2
Char
3 reden overdracht 2
84 v_redovd3
Char
3 reden overdracht 3
85 v_conska
Num
8 consult kinderarts
86 v_redconka
Char
2 reden consult kinderarts
87 v_overdrka
Char
1 overdracht kinderarts
88 v_redovdka
Char
2 reden overdr kinderarts
89 v_klinka
Num
8 ziekenhuis kinderarts
90 v_probk1
Char
2 problemen kind 1
91 v_probk2
Char
2 problemen kind 2
92 v_probk3
Char
2 problemen kind 3
93 v_bijz1
Char
2 bijzonderheden 1
94 v_bijz2
Char
2 bijzonderheden 2
95 v_bijz3
Char
2 bijzonderheden 3
96 v_probmoe1
Char
3 problemen moeder 1
97 v_probmoe2
Char
3 problemen moeder 2
98 v_probmoe3
Char
3 problemen moeder 3
99 v_indcode1
Char
2 individule codering 1
100 v_indcode2
Char
2 individule codering 2
101 v_indcode3
Char
2 individule codering 3
102 v_partus
Char
6 partusnummer -vrouw binnen praktijk
Pagina 51 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
103 v_lft
Num
8 leeftijd moeder -Prismant
104 v_amwwd
Num
8 zwangerschapsduur in ww+d -Prismant
105 v_epzwk
Num
8 eigen prenatale zorg vanaf n-de wk -Prismant
106 v_indzorg
Num
8 indicatie zorg -Prismant
107 v_amwws
Num
8 am.duur in weeken -Prismant
108 v_par
Num
8 pariteit -Prismant
109 v_jaar
Num
8 registratiejaar -Prismant
110 v_ddgebmoe
Num
8 geboortedatum moeder, date -LinKID
111 v_ddgebkind
Num
8 geboortedatum kind, date -LinKID
112 v_ddaterm
Num
8 a terme datum, date -LinKID
113 v_dat1ond
Num
8 datum 1e onderzoek, date -LinKID
114 v_datovdr
Num
8 datum overdracht, date -LinKID
115 v_pariteit
Num
8 pariteit -LinKID
116 v_kop_grav
Num
8 graviditeit als koppelvariabel -LinKID
117 v_multipari
Num
8 multipari j/n -LinKID
118 v_amddd
Num
8 amenorroeduur in dagen -LinKID
119 v_amwww
Num
8 amenorroeduur in weken -LinKID
120 v_kop_amd
Num
8 am.duur in dagen als koppelvariabel -LinKID
121 v_kop_gew
Num
8 gewicht als koppelvariabel -LinKID
122 v_kop_gesl
Num
8 geslacht als koppelvariabel -LinKID
123 v_kop_omv
Num
8 meerling, volgens meerlingcode, j/n -LinKID
124 v_omv_ovdr
Num
8 meerling, volgens reden overdracht, j/n -LinKID
125 v_kop_mort
Num
8 kind overleden in 1e of 2e lijn -LinKID
126 v_kop_pc
Num
8 postcode (4 cijfers) als koppelvariabele -LinKID
127 v_kop_uur
Num
8 geboorteuur kind als koppelvariabele -LinKID
128 v_kop_min
Num
8 geboortemin kind als koppelvariabele -LinKID
129 l_vg_wgtmax
Num
8 maximum weight van niet gekoppelde lvr1^lvr2 -LinKID
130 g_recid
Char
131 g_id
Char
4 recordnummer
132 g_lvr
Num
8 lvr-nummer praktijk
133 g_actie
Num
8 actiecode -Prismant
134 g_partus
Char
6 partusnummer
135 g_mc
Num
8 meerlingcode
136 g_omv
Num
8 omvang meerling
18 recordidentificatie -LinKID
Pagina 52 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
137 g_ddgebm
Char
6 geboortedatum moeder
138 g_moegeb_d
Num
8 dag geboortedatum moeder
139 g_moegeb_m
Num
8 maand geboortedatum moeder
140 g_moegeb_j
Num
8 jaar geboortedatum moeder
141 g_pc
Num
8 postcode
142 g_pc2
Num
8 eerste 2 cijfers van postcode
143 g_her
Num
8 herkomst moeder
144 g_grav
Num
8 graviditeit
145 g_abo
Num
8 aant.abortus
146 g_dd_vor
Char
6 datum vorige bevalling
147 g_ddvor_d
Num
8 dag datum vorige bevalling
148 g_ddvor_m
Num
8 maand datum vorige bevalling
149 g_ddvor_j
Num
8 jaar datum vorige bevalling
150 g_lvr_vor
Num
8 lvrnr zkhs vorige bevalling
151 g_overname
Num
8 overname uit 1e/2e lijn
152 g_prak_ov
Num
8 praktijknr overname
153 g_bgl
Num
8 begeleiding door u
154 g_dd1ond
Char
4 datum 1e onderzoek, date -LinKID
155 g_dd1ond_d
Num
8 dag datum 1e onderzoek
156 g_dd1ond_m
Num
8 maand datum 1e onderzoek
157 g_iuvd1
Num
8 dood bij 1e ond
158 g_ten
Num
8 hoogste diastolische tensie
159 g_ddat
Char
6 a terme datum
160 g_ddat_d
Num
8 dag a terme datum
161 g_ddat_m
Num
8 maand a terme datum
162 g_ddat_j
Num
8 jaar a terme datum
163 g_zek
Num
8 zekerheid amen
164 g_aangep
Num
8 aangepakt door
165 g_gyn
Num
8 gynnr baring
166 g_superv
Num
8 supervisie door
167 g_gynsup
Num
8 gynnr supervisie
168 g_bb1
Num
8 begin baring 1
169 g_bb2
Num
8 begin baring 2
170 g_indbeg
Num
8 indicatie inl/scp
Pagina 53 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
171 g_ddvlies
Char
4 datum breken vliezen
172 g_ddvlies_d
Num
8 dag datum breken vliezen
173 g_ddvlies_m
Num
8 maand datum breken vliezen
174 g_uuvlies
Num
8 uur breken vliezen
175 g_fetloss
Num
8 aantal fetal loss (>20 wkn)
176 g_uupers
Num
8 uur begin meepersen
177 g_mmpers
Num
8 min begin meepersen
178 g_lig
Num
8 ligging
179 g_hlp1
Num
8 hulp bij baring 1
180 g_hlp2
Num
8 hulp bij baring 2
181 g_indhlp
Num
8 indicatie hulp
182 g_peri1
Num
8 perineum 1
183 g_peri2
Num
8 perineum 2
184 g_nageb1
Num
8 nageboortetijdperk 1
185 g_nageb2
Num
8 nageboortetijdperk 2
186 g_gesl
Num
8 geslacht
187 g_ddgeb
Char
6 geboortedatum kind
188 g_kindgeb_d
Num
8 dag geboortedatum kind
189 g_kindgeb_m
Num
8 maand geboortedatum kind
190 g_kindgeb_j
Num
8 jaar geboortedatum kind
191 g_gebuur
Num
8 uur geboorte
192 g_gebmin
Num
8 min geboorte
193 g_gew
Num
8 gewicht
194 g_apg
Num
8 apgar na 5 min
195 g_mort
Num
8 mortaliteit
196 g_cgm1
Char
2 cong.afw/trauma 1
197 g_cgm2
Char
2 cong.afw/trauma 2
198 g_cgm3
Char
2 cong.afw/trauma 3
199 g_pediat
Num
8 pediatr.betrokkenheid
200 g_huis
Num
8 kind mee naar huis
201 g_ddontm
Char
4 datum ontslag moeder
202 g_ddontm_d
Num
8 dag datum ontslag moeder
203 g_ddontm_m
Num
8 maand datum ontslag moeder
204 g_matmort
Num
8 maternale mort
Pagina 54 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
205 g_bijz1
Char
2 bijz.-1
206 g_bijz2
Char
2 bijz.-2
207 g_bijz3
Char
2 bijz.-3
208 g_bijz4
Char
2 bijz.-4
209 g_bijz5
Char
2 bijz.-5
210 g_bijz6
Char
2 bijz.-6
211 g_bijz7
Char
2 bijz.-7
212 g_redov1
Char
2 reden 1 overname
213 g_redov2
Char
2 reden 2 overname
214 g_redov3
Char
2 reden 3 overname
215 g_concep1
Num
8 wijze conceptie 1
216 g_concep2
Num
8 wijze conceptie 2
217 g_conmed1
Char
2 medicatie 1 conceptie
218 g_conmed2
Char
2 medicatie 2 conceptie
219 g_conmed3
Char
2 medicatie 3 conceptie
220 g_stimul
Num
8 stimulatie
221 g_pijn1
Num
8 pijnbestrijding 1
222 g_pijn2
Num
8 pijnbestrijding 2
223 g_prot
Num
8 proteinurie j/n
224 g_prot_mg
Num
8 proteinurie in mg/l
225 g_IVFnr
Char
5 IVF-nummer
226 g_admin
Char
6 administratienr uit 1e lijn
227 g_par
Num
8 pariteit -Prismant run
228 g_lft
Num
8 leeftijd moeder -Prismant
229 g_amwwd
Num
8 zwangerschapsduur in ww+d -Prismant
230 g_epzwk
Num
8 eigen prenatale zorg vanaf n-de wk -Prismant
231 g_ddgebmoe
Num
8 geboortedatum moeder, date -LinKID
232 g_ddgebkind
Num
8 geboortedatum kind, date -LinKID
233 g_ddaterm
Num
8 a terme datum, date -LinKID
234 g_ddvorkin
Num
8 datum vorige bevalling, date -LinKID
235 g_ddontsl
Num
8 ontslagdatum, date -LinKID
236 g_pariteit
Num
8 pariteit -LinKID
237 g_kop_grav
Num
8 graviditeit als koppelvariabel -LinKID
238 g_multipari
Num
8 multipariteit j/n -LinKID
Pagina 55 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
239 g_amddd
Num
8 amenorroeduur in dagen -LinKID
240 g_amwww
Num
8 amenorroeduur in weken -LinKID
241 g_kop_amd
Num
8 am. duur in dagen als koppelvariabele -LinKID
242 g_kop_gew
Num
8 gewicht als koppelvariabel -LinKID
243 g_kop_gesl
Num
8 geslacht als koppelvariabel -LinKID
244 g_kop_omv
Num
8 meerling, volgens meerlingcode -LinKID
245 g_kop_pc
Num
8 postcode (4 cijfers) als koppelvariabele -LinKID
246 g_kopovern_var
Num
8 overgenomen uit 1e ijn? j/n -LinKID
247 g_kop_mort
Num
8 kind overleden in 1e of 2e lijn -LinKID
248 g_kop_uur
Num
8 geboorteuur kind als koppelvariabele -LinKID
249 g_kop_min
Num
8 geboortemin kind als koppelvariabele -LinKID
250 l_vg_wgttot
Num
8 linkage weight bij LVR1^LVR2
251 n_recid
Char
20 LNR record identificatie -LinKID
252 n_id
Char
3 identificatie (LNR)
253 n_actie
Num
8 actiecode
254 n_lnr
Num
8 LNR-nr opname
255 n_patnrprk
Num
8 praktijkpatientnummer
256 n_patnrzhs
Num
8 ziekenhuispatientnummer
257 n_pc
Num
8 postcode (1e 4)
258 n_ddgeb
Char
6 geboortedatum kind
259 n_daggeb
Char
2 geboortedatum kind, dag
260 n_mndgeb
Char
2 geboortedatum kind, maand
261 n_jrgeb
Char
2 geboortedatum kind, jaar
262 n_gesl
Num
8 geslacht
263 n_amww
Num
8 amenorroeduur in weken
264 n_amd
Num
8 amenorroeduur +dagen
265 n_gew
Num
8 geboortegewicht
266 n_mc
Num
8 meerlingvolgnr
267 n_omv
Num
8 meerling omvang
268 n_ddgebm
Char
6 geboortedatum moeder
269 n_daggebm
Char
2 geboortedatum moeder, dag
270 n_mndgebm
Char
2 geboortedatum moeder, maand
271 n_jrgebm
Char
2 geboortedatum moeder, jaar
272 n_bmoe1
Num
8 bijz moeder 1
Pagina 56 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
273 n_bmoe2
Num
8 bijz moeder 2
274 n_bmoe3
Num
8 bijz moeder 3
275 n_bmoe4
Num
8 bijz moeder 4
276 n_bmoe5
Num
8 bijz moeder 5
277 n_bmoe6
Num
8 bijz moeder 6
278 n_bmoe7
Num
8 bijz moeder 7
279 n_bmoe8
Num
8 bijz moeder 8
280 n_bmoe9
Num
8 bijz moeder 9
281 n_bmoe10
Num
8 bijz moeder 10
282 n_gebplts
Num
8 plaats geboorte
283 n_zorg
Num
8 zorgverlener zwangerschap
284 n_prak
Num
8 praktijknummer 1e lijn
285 n_admin
Num
8 administratienr 1e lijn
286 n_lvr
Num
8 prak.nr lvr-2
287 n_partus
Num
8 partusnr lvr-2
288 n_IVFnr
Num
8 ivf-nr
289 n_bpart1
Num
8 bijz partus 1
290 n_bpart2
Num
8 bijz partus 2
291 n_bpart3
Num
8 bijz partus 3
292 n_bpart4
Num
8 bijz partus 4
293 n_Apgar_1
Num
8 Apgar na 1 min
294 n_Apgar_5
Num
8 Apgar na 5 min
295 n_rean1
Num
8 reanimatie 1
296 n_rean2
Num
8 reanimatie 2
297 n_rean3
Num
8 reanimatie 3
298 n_nrvlgprk
Num
8 volgnr van kind in praktijk (ka)
299 n_opnnr
Num
8 opnamenummer
300 n_ddopn
Char
6 datum opname
301 n_dagopn
Char
2 datum opname, dag
302 n_mndopn
Char
2 datum opname, maand
303 n_jropn
Char
2 datum opname, jaar
304 n_herkopn
Num
8 herkomst bij deze opname
305 n_herkzkhs
Num
8 ziekenhuisnummer herkomst
306 n_spectran
Num
8 speciaal transport
Pagina 57 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
307 n_diag1
Num
8 diagnose 1
308 n_diag2
Num
8 diagnose 2
309 n_diag3
Num
8 diagnose 3
310 n_diag4
Num
8 diagnose 4
311 n_diag5
Num
8 diagnose 5
312 n_diag6
Num
8 diagnose 6
313 n_diag7
Num
8 diagnose 7
314 n_diag8
Num
8 diagnose 8
315 n_diag9
Num
8 diagnose 9
316 n_diag10
Num
8 diagnose 10
317 n_diag11
Num
8 diagnose 11
318 n_diag12
Num
8 diagnose 12
319 n_diag13
Num
8 diagnose 13
320 n_diag14
Num
8 diagnose 14
321 n_diag15
Num
8 diagnose 15
322 n_diag16
Num
8 diagnose 16
323 n_diag17
Num
8 diagnose 17
324 n_diag18
Num
8 diagnose 18
325 n_diag19
Num
8 diagnose 19
326 n_diag20
Num
8 diagnose 20
327 n_diag21
Num
8 diagnose 21
328 n_diag22
Num
8 diagnose 22
329 n_diag23
Num
8 diagnose 23
330 n_diag24
Num
8 diagnose 24
331 n_diag25
Num
8 diagnose 25
332 n_diag26
Num
8 diagnose 26
333 n_diag27
Num
8 diagnose 27
334 n_diag28
Num
8 diagnose 28
335 n_diag29
Num
8 diagnose 29
336 n_diag30
Num
8 diagnose 30
337 n_indic1
Num
8 opname-indicatie 1
338 n_indic2
Num
8 opname-indicatie 2
339 n_indic3
Num
8 opname-indicatie 3
340 n_cgm1
Num
8 cong afwijking 1
Pagina 58 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
341 n_cgm2
Num
8 cong afwijking 2
342 n_cgm3
Num
8 cong afwijking 3
343 n_cgm4
Num
8 cong afwijking 4
344 n_cgm5
Num
8 cong afwijking 5
345 n_cgm6
Num
8 cong afwijking 6
346 n_cgm7
Num
8 cong afwijking 7
347 n_cgm8
Num
8 cong afwijking 8
348 n_cgm9
Num
8 cong afwijking 9
349 n_cgm10
Num
8 cong afwijking 10
350 n_cgm11
Num
8 cong afwijking 11
351 n_cgm12
Num
8 cong afwijking 12
352 n_cgm13
Num
8 cong afwijking 13
353 n_cgm14
Num
8 cong afwijking 14
354 n_cgm15
Num
8 cong afwijking 15
355 n_cgm16
Num
8 cong afwijking 16
356 n_cgm17
Num
8 cong afwijking 17
357 n_cgm18
Num
8 cong afwijking 18
358 n_cgm19
Num
8 cong afwijking 19
359 n_cgm20
Num
8 cong afwijking 20
360 n_beh1
Num
8 behandeling 1
361 n_beh2
Num
8 behandeling 2
362 n_beh3
Num
8 behandeling 3
363 n_beh4
Num
8 behandeling 4
364 n_beh5
Num
8 behandeling 5
365 n_beh6
Num
8 behandeling 6
366 n_beh7
Num
8 behandeling 7
367 n_beh8
Num
8 behandeling 8
368 n_beh9
Num
8 behandeling 9
369 n_beh10
Num
8 behandeling 10
370 n_beh11
Num
8 behandeling 11
371 n_beh12
Num
8 behandeling 12
372 n_beh13
Num
8 behandeling 13
373 n_beh14
Num
8 behandeling 14
374 n_beh15
Num
8 behandeling 15
Pagina 59 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
375 n_beh16
Num
8 behandeling 16
376 n_beh17
Num
8 behandeling 17
377 n_beh18
Num
8 behandeling 18
378 n_beh19
Num
8 behandeling 19
379 n_beh20
Num
8 behandeling 20
380 n_beh21
Num
8 behandeling 21
381 n_beh22
Num
8 behandeling 22
382 n_beh23
Num
8 behandeling 23
383 n_beh24
Num
8 behandeling 24
384 n_beh25
Num
8 behandeling 25
385 n_beh26
Num
8 behandeling 26
386 n_beh27
Num
8 behandeling 27
387 n_beh28
Num
8 behandeling 28
388 n_beh29
Num
8 behandeling 29
389 n_beh30
Num
8 behandeling 30
390 n_restver1
Num
8 restverschijnsel 1
391 n_restver2
Num
8 restverschijnsel 2
392 n_restver3
Num
8 restverschijnsel 3
393 n_restver4
Num
8 restverschijnsel 4
394 n_restver5
Num
8 restverschijnsel 5
395 n_restver6
Num
8 restverschijnsel 6
396 n_dd1000g
Char
6 datum 1000 g
397 n_dag1000g
Char
2 datum 1000 g, dag
398 n_mnd1000g
Char
2 datum 1000 g, maand
399 n_jr1000g
Char
2 datum 1000 g, jaar
400 n_icdg
Num
8 dagen ic
401 n_hcdg
Num
8 dagen hc
402 n_cpapdg
Num
8 dagen cpap
403 n_ippvdg
Num
8 dagen ippv
404 n_pvoedg
Num
8 dagen parent voeding
405 n_o2dg
Num
8 dagen O2
406 n_couvdg
Num
8 dagen couveuse
407 n_monitdg
Num
8 dagen monitor
408 n_infdg
Num
8 dagen infuus
Pagina 60 van 61
Koppelingsprocedure PRN 2006: Beschrijving en Toelichting, versie 1.1, nov 2007
Variables in Creation Order # Variable
Type
Len Label
409 n_fotodg
Num
8 dagen fototherapie
410 n_ddont
Char
6 ontslagdatum
411 n_dagont
Char
2 ontslagdatum, dag
412 n_mndont
Char
2 ontslagdatum, maand
413 n_jront
Char
2 ontslagdatum, jaar
414 n_wijzeont
Num
8 wijze van ontslag
415 n_lnrovpl
Num
8 zkhs overplaatsing
416 n_redovpl
Num
8 reden overpl naar NICU door NICU
417 n_mort
Num
8 kind overleden
418 n_obductie
Num
8 obductie verricht
419 n_postichc
Num
8 post IC-HC dagen
420 n_patid
Char
421 n_prism_k
Num
8 Prismant keurmerk
422 n_ddgebkind
Num
8 geboortedatum kind, date -LinKID
423 n_ddgebmoe
Num
8 geboortedatum moeder, date -LinKID
424 n_ddopname
Num
8 opnamedatum, date -LinKID
425 n_dd1000gram
Num
8 datum 1000g, date -LinKID
426 n_ddontslag
Num
8 datum ontslag, date -LinKID
427 n_kop_amw
Num
8 am.duur in dagen als koppelvariabel -LinKID
428 n_kop_gew
Num
8 gewicht als koppelvariabel -LinKID
429 n_kop_gesl
Num
8 geslacht als koppelvariabel -LinKID
430 n_kop_pc
Num
8 postcode (4 cijfers) als koppelvariabele -LinKID
431 n_kop_apg5
Num
8 apgarscore (5min) als koppelvariabele -LinKID
432 l_her
Num
8 kind meerdere keren opgenomen in LNR -LinKID
433 l_kindovl
Num
8 kind in LNR overleden
434 l_kind
Num
8 kindnummer in LNR -LinKID
435 l_vgn_wgttot
Num
8 linkage weight bij LVR12^LNR
436 l_vgn_wgtmax
Num
8 maximum weight van niet gekoppelde lvr12^lnr
10 patient ID
Pagina 61 van 61