Het NTvG-project aan het INL 1999-20..
Jeannine Beeken
[email protected] www.inl.nl 1
INL-bewerking NTvG-gegevens 1857 1) omspellen van ca. 90.000 NTvG-trefwoorden volgens de spellingregels van 1995 (1999 – 2000) 2) lexicografisch uniformeren (meervoud, hoofdletter…) 3) clusteren van vormvarianten en synoniemen in de NTvGlijst (2002 – 2006) 4) koppelen van de clusters aan de vertaalde MeSH-lijst (32.000 headings) a. richting NTvG -> MeSH (2002 – 2005) b. richting MeSH -> NTvG (2005 - 2006) 5) bewerken resultaten na update NTvG-trefwoorden en na update MeSH (2005 – 2006) 2
Omspellen en lexicografisch bewerken (1)
PROBLEMEN 1) 1857: 1865 (De Vries en te Winkel), 1954, 1995, 2005
2) spellingregels 1995 met afwijkingen volgens de NTvGrichtlijnen 3) vreemde talen: Engels, Duits, Frans, Portugees, Latijn… 4) hoofdletter -> kleine letter (markering in apart veld) 5) liggend streepje (-) -> apart weglatingsteken (~)
3
Omspellen en lexicografisch bewerken (2) OPLOSSINGEN : NTvG/INL-trefwoordenlijst
1) NTvG-trefwoord: Afdeelingen, Rattebeetkoorts, ‘Bastaardmazelen’, palladium (chloor-), ischemie (placenta-)
2) spelverwijzing: afdeling, rattenbeetkoorts, bastaardmazelen, palladium (chloor~), ischemie (placenta-~) 3) relatie met 1: chloorpalladium, placenta-ischemie
4) aan: [hl] voor o.m. namen en Duitse substantieven (Whipple, Echinococcus multilocularis, ’s-Hertogenbosch, Desalgina, Augenheilkunde) 5) NTvG-synoniemen (betekenisverwanten; onvolledig) 4
Clusteren van vormvarianten en synoniemen (1)
PROBLEMEN 1) verschil in spelling, in uniciteit, in aanlevering
2) verschil in leeftijd en betekenis (1857 – heden) 3) vreemde talen: Engels, Duits, Frans, Portugees, Latijn… 4) vormvarianten
5) synoniemen 6) verschillende medewerkers simultaan, dezelfde databank met dezelfde deelbestanden (zie www.inl.nl/NTvG, technisch synchroniseren door MF) 5
Clusteren van vormvarianten en synoniemen (2)
OPLOSSINGEN : clusterscherm en onderhoud clusters
1) databank met 4 verschillende deelbestanden: clusternaam (53.000), toponaam (37.000), vragenbestand (100), nieuw (1100; 1998-2003) overheveling van trefwoorden naar verschillende deelbestanden
2) verouderde en obsolete woorden: loopgravenvoet, wisseltonnenstelsel, woudwol, zinkingssnuif, bewaarschool, boeltjeskruid 3) politia medica, hygieine publica, porte liquide laryngée, Prüfungsordnung, Public Health Service, Rivista Internazionale d’Igiene, ciguatera, nastoika, sodoku, hegemonikon 6
Clusteren van vormvarianten en synoniemen (3)
4) vormvarianten: abces, huid met huidabces (≠ sterfte, roken); afwijking, aangeboren, stofwisseling met stofwisseling, aangeboren afwijking met aangeboren afwijking, stofwisseling met stofwisselingsstoornis (afwijking) 5) synoniemen: huisstofmijt, Dermatophagoides pteronyssinus; dermatose, huidziekte; aambei, hemorroïdale zweer, hemorroïd (na fase 1 op NTvGtrefwoorden Aambei, Haemmorrhoïdaal-zweren, Haemorrhoïde, Haemorroïden, Hemorroïd, Hemorroïde, Hemorroïden (vertaling MeSH-term is uitsluitend aambei); bulimia nervosa, boulimie, eetlust (overmatige), fames canina, vraatzucht, boulimia nervosa
7
Clusteren van vormvarianten en synoniemen (4)
6) keuze clusternaam: rattenbeetziekte vs. sodoku; cijfers, haakjes, accenten, subscripten correcte spelling
7) elke cluster bestaat uit 1 of meer clusterleden
8) homoniemen: beenbreuk (os, fractuur), beenbreuk (crus); breuk (os, fractuur), breuk (hernia, ingewandsbreuk) hernia (breuk, ingewandsbreuk), hernia (discusprolaps, hernia nuclei pulposi, HNP) EEG (Europese Economische Gemeenschap), EEG (elektro-encefalogram)
8
Koppelen van clusters aan de vertaalde MeSH (1)
1) koppelen aan de bestaande MeSH-boom (max. 11 lagen)
2) MeSH-clusters: headings en print entries (50.000) 3) koppeling van NTvG-clusters aan MeSH-clusters 4) automatische koppeling: 5,4% (INL-clusternaam: 93,5%) 5) identieke koppelingen met hetzelfde woord of met een synoniem of met een synonieme omschrijving 6) hyperoniem +1, hyponiem -1, betekenisverwant +1;-1
7) DC-koppeling (D-tak), D0-koppeling 8) tweerichtingsverkeer 9
Koppelen van clusters aan de bestaande MeSH (2)
VOORBEELDEN 1) couveuse met Couveuse; gynaecologisch gezwel met Geslachtsorgaan, tumor van het vrouwelijke 2) tomatensap met Tomaat, coxartritis met Artritis (+1); apenpokken met Apenpokkenvirus (-1); neurohumorale transmissie met Transmissie, synaptische (+1;-1) 3) enkele afspraken: (+1) geneesmiddel vs. ziekte, verwekker vs. ziekte/aandoening, instrument vs. bijhorende techniek 4) D-tak: Drugs and Chemicals: niet vertaald en niet koppelbaar (16 subcategorieën) 10
Samenvatting Gebruiker
NTvG /INL III CLUSTERS
MATCH
+1 - 1 ±1 Ø Met of zonder DC-markering
MATCHES NTvG /INL - MeSH
NTvG /INL II CLUSTERS ± uniek cluster - synoniemen - varianten - homonienem
-
NTvG/ INL I - trefwoorden - codes
- correctie - variatie - veelvoud
NTvG - trefwoorden - codes
MeSH (Nederlands) - headings - print entries - boomdiagram
MeSH (ENG) - headings - print entries - boomdiagram
11
Enkele cijfers
1) 90.000 NTvG-trefwoorden in 4 deelbestanden: clusternaam: 53.000, toponaam: 37.000, vragen: 100, nieuw: 1100
2) NTvG-trefwoorden + INL-vormvarianten (correcte spelling): 130.000 3) MeSH-headings: 32.000, incl. print entries 50.000 4) percentage koppelingen tussen NTvG-clusters en MeSH-clusters per deelbestand:
a. clusternaam: van 5,6 % naar 93,5 % b. toponaam: 10%
12
Nog uit te voeren eenmalige acties: D-tak
1) koppelen van de NTvG-clusters aan de vertaalde D-tak van de MeSH-boom, richting NTvG -> MeSH a. ca. 8400 vertaalde termen door Medilingua b. verdeeld over 16 deeltakken c. automatische detectie van DC in opmerkingen van koppelscherm en aangeven getroffen clusters d. Dx/DC en D0/DC (bv. bloedgroep, saralasine; sterine, gitoxigenine) e. resp. ongeveer 1930 en 2500 clusters 2) koppelen van niet-gekoppelde MeSH-termen aan NTvG, richting MeSH -> NTvG 3) eventueel herspellen en hercategoriseren van o.a. merknamen/soortnamen 13
Nog uit te voeren eenmalige acties: doc en plan
1) documenteren van de afgelopen trajecten en van het toekomstige D-traject (i.s.m. MF) 2) stappenplan voor beheer en onderhoud van de NTvGdatabank en de tweerichtingskoppelingen met de MeSH 3) presentaties en publicaties i.s.m. het NTvG
14
Onderhoud (1)
1) jaarlijkse NTvG-update: doorlopen van de productiestraat
a. spelling b. categoriseren c. clusteren: aanvullen, schrappen, naamgeving en samenvoegen d. koppelen van NTvG -> MeSH e. koppelen van MeSH -> NTvG f. laatste update betrof ca. 1100 NTvG-termen
15
Onderhoud (2)
2) jaarlijkse MeSH-update: doorlopen van de productiestraat
a. verzamelen getroffen clusters b. update van de boomstructuur in termen van nieuw/geschrapt/verplaatst c. update van de headings en print entries in termen van nieuw d. herziening van de bestaande clusters en koppelingen e. nieuwe koppelingen en nieuwe clusters f. laatste update leverde 3800 getroffen clusters op
16
Screenshot beginscherm
17
Screenshot scherm met zoekacties
18
Screenshot uitgevouwen scherm MeSH/INL
19
Screenshot scherm met MeSH-scope note (pop-up)
20
Screenshot onderhoudsscherm
21
Screenshot boomdiagram
22
Screenshot voor boomdiagram Giardiasis
23
Screenshot vertaalscherm
24