Nederlandse TaalUnie. Vertrouwelijk GridLine B.V., 2012 Pagina 1 van 52

Nederlandse TaalUnie

Vertrouwelijk

GridLine B.V., 2012

Pagina 1 van 52

TermTreffer Eindgebruikersdocumentatie

Versie: Datum:

3.1 5-1-2012

Documenthistorie Datum 07-03-2011 09-05-2011 12-05-2011 28-10-2011 05-01-2012

Versie 1.0 2.0 2.1 3.0 3.1

Beschrijving Initiële versie Uitbreidingen n.a.v. opmerkingen NTU Definitieve versie Herschreven versie Toevoeging mbt UTF-8

Auteur Dennis de Vries Dennis de Vries Mart Trautwein Anne Spaan Dennis de Vries

Distributie Naam GridLine Nederlandse TaalUnie

Vertrouwelijk

1.0 X X

2.0 X

2.1 X X

3.0 X X

3.1 X X

GridLine B.V., 2012

Pagina 2 van 52


Versie: Datum:

3.1 5-1-2012

Inhoudsopgave Inleiding.......................................................................................................................................... 4 Algemeen ....................................................................................................................................... 5 Aanmelden ..................................................................................................................................... 6 Homepage ...................................................................................................................................... 7 Taakvenster ............................................................................................................................ 7 Corpora .......................................................................................................................................... 9 Standaard beschikbare corpora ........................................................................................... 10 Corpus importeren ............................................................................................................... 11 Samenvoegen ....................................................................................................................... 12 Geselecteerd corpus ............................................................................................................ 13 Termbanken en Resultaten .......................................................................................................... 22 Termbanken ......................................................................................................................... 22 Standaard beschikbare termbanken ............................................................................ 22 Resultaten ............................................................................................................................ 23 Overzicht .............................................................................................................................. 23 Nieuwe termbank ......................................................................................................... 24 Termbank importeren .................................................................................................. 25 Geselecteerde termbank/resultaat .............................................................................. 25 Pipelines ....................................................................................................................................... 37 Nieuwe pipeline ................................................................................................................... 38 Geselecteerde pipeline ........................................................................................................ 39 Bewerken ............................................................................................................................. 41 Taalmodules ......................................................................................................................... 42 Statistische modules ............................................................................................................ 46 Expansiemodules.......................................................................................................... 47 Extractiemodules.......................................................................................................... 47 Beheer .......................................................................................................................................... 50 Gebruiker toevoegen ........................................................................................................... 51 Gebruiker bewerken ............................................................................................................ 51

Vertrouwelijk

GridLine B.V., 2012

Pagina 3 van 52


Versie: Datum:

3.1 5-1-2012

Doel van dit document TermTreffer is een applicatie van de Nederlandse TaalUnie, die u helpt de kernwoorden in een tekst te vinden. TermTreffer wordt aangeboden als website en als desktop-applicatie. Dit document biedt gebruikers een handleiding voor het gebruik van de TermTreffer website.

Referenties [1]

Grootheest, D.; Handleiding Eindhoven-corpus; 1992

Vertrouwelijk

GridLine B.V., 2012

Pagina 4 van 52


Versie: Datum:

3.1 5-1-2012

TermTreffer is een webapplicatie van de Nederlandse TaalUnie die u helpt om relevante woorden in teksten te vinden. U kunt in TermTreffer onder andere teksten (corpora) inladen, bestaande termbanken inladen en automatisch termbanken extraheren uit corpora die u ingeladen heeft.

Vertrouwelijk

GridLine B.V., 2012

Pagina 5 van 52


Versie: Datum:

3.1 5-1-2012

U kunt u aanmelden met uw emailadres en wachtwoord. Door de optie Aangemeld blijven? aan te vinken, blijft u aangemeld, ook als u de browser afsluit. Wanneer u gebruik maakt van een publieke computer is het verstandig deze optie niet aan te vinken. Na het aanmelden verschijnt de homepage van TermTreffer.

Vertrouwelijk

GridLine B.V., 2012

Pagina 6 van 52


Versie: Datum:

De homepage is als volgt opgebouwd:

3.1 5-1-2012

aan- en afmeldmenu

hoofdmenu

helpfunctie

meldingen

taakvenster importeren

Het hoofdmenu bestaat uit de hoofdtabbladen Corpora, Termbanken, Resultaten, Pipelines en Beheer. Deze hoofdtabbladen worden in aparte hoofdstukken beschreven. Het hoofdtabblad Pipelines is alleen beschikbaar voor expert-gebruikers; het hoofdtabblad Beheer is alleen beschikbaar voor beheerders. Door op te klikken keert u terug naar de Homepage. In het aan- en afmeldmenu ziet u onder welke naam u aangemeld bent. Daarnaast kunt u zich hier afmelden. In het taakvenster kunt u de taken volgen die momenteel lopen of onlangs voltooid zijn. Door op

te klikken wordt de helptekst weergegeven.

Opmerking: Het aan- en afmeldmenu, het taakvenster en de helpfunctie zijn niet alleen op de homepage, maar ook op de andere pagina’s beschikbaar. Op de homepage kunt u ook direct een corpus importeren of een termbank importeren. De werking van deze functies wordt toegelicht bij de beschrijving van de hoofdtabbladen Corpora resp. Termbanken.

Taakvenster In het taakvenster kunt u de taken volgen die momenteel lopen of onlangs voltooid zijn. U kunt details van een taak bekijken door in het taakvenster op te klikken; het taakvenster wordt hierdoor “uitgeklapt”.

Vertrouwelijk

GridLine B.V., 2012

Pagina 7 van 52


Versie: Datum:

3.1 5-1-2012

Als uw taak afgerond is, ziet u bij de taak een link naar het resultaat. U vindt de resultaten ook onder hoofdtabblad Resultaten in het hoofdmenu. Om een overzicht te krijgen van alle voltooide en lopende taken, klikt u in het takenvenster op Alle taken... .

selecteer pipeline selecteer corpus

selecteer resultaat

log tonen

In dit overzicht kunt u bij succesvol voltooide (extractie)taken doorklikken naar het (extractie)resultaat. U kunt ook klikken op het corpus waarop de extractie is uitgevoerd en op de gebruikte pipeline. Wanneer u bij een uitgevoerde taak op Log tonen klikt, krijgt u een overzicht van de uitgevoerde modules met de bijbehorende parameterinstellingen. Let op: indien u een extractie uitvoert met een bepaalde pipeline en na voltooiing van de taak de pipeline aanpast, is de oorspronkelijke configuratie van de pipeline die gebruikt was voor de extractietaak niet meer te herleiden. Alleen in het log van de betreffende extractietaak kunt u de samenstelling van de gebruikte pipeline nog terugvinden.

Vertrouwelijk

GridLine B.V., 2012

Pagina 8 van 52


Versie: Datum:

3.1 5-1-2012

Een corpus (meervoud corpora) is een verzameling van een of meer documenten. In TermTreffer kunt u corpora importeren, bekijken, doorzoeken en vergelijken met termbanken. Als u de muis op het hoofdtabblad Corpora positioneert (zonder erop te klikken), dan verschijnt het submenu voor dit hoofdtabblad.

Corpora zijn ingedeeld in algemene corpora en persoonlijke corpora. De algemene corpora worden aangemaakt door de beheerders van uw instantie van TermTreffer en zijn voor iedereen beschikbaar. Binnen TermTreffer zijn een aantal algemene corpora standaard beschikbaar. De persoonlijke corpora zijn de corpora die u zelf importeert. Deze zijn alleen voor uzelf beschikbaar. Als u op het hoofdtabblad Corpora klikt, dan wordt een overzicht van recent toegevoegde algemene en persoonlijke corpora getoond. Met de submenukeuzes Algemene corpora en Mijn corpora worden alle algemene corpora resp. alle persoonlijke corpora getoond. Tenslotte kunt u in dit submenu recent toegevoegde (zowel algemene als eigen) corpora direct selecteren. overzicht kiezen sorteren

corpus importeren

corpus verwijderen

samenvoegen

status wijzigen

corpus selecteren

U heeft in de overzichten de volgende mogelijkheden: Kiezen welk overzicht er getoond moet worden. Het overzicht sorteren. De corpora worden standaard aflopend gesorteerd op Aanmaakdatum; door op een kolomnaam te klikken kunnen de corpora ook op Naam, Beschrijving of Favoriet gesorteerd worden. De status van een corpus wijzigen (favoriet of niet-favoriet). Door in de kolom Favoriet op een sterretje te klikken wijzigt u de status van een corpus. Een favoriet corpus wordt aangegeven door een in de kolom Favoriet. Indien u vervolgens het overzicht op deze

Vertrouwelijk

GridLine B.V., 2012

Pagina 9 van 52


Versie: Datum:

3.1 5-1-2012

kolom sorteert komen al uw favoriete corpora bovenaan te staan. Het favoriet maken van een corpus heeft verder geen invloed op andere processen. Een corpus verwijderen. Door in de laatste kolom op te klikken kunt u een corpus verwijderen; hierbij wordt altijd om een bevestiging gevraagd. Een corpus selecteren. Door op de naam van een corpus te klikken wordt dit corpus geselecteerd. Daarnaast kunt u in het overzicht van de laatste algemene en eigen corpora (submenukeuze Overzicht) ook een corpus importeren en corpora samenvoegen. Ook in het overzicht van alleen de eigen corpora (submenukeuze Mijn corpora) kunt u een corpus importeren. Door op Corpus importeren te klikken wordt het venster van deze menukeuze “uitgeklapt”.

Standaard beschikbare corpora Binnen TermTreffer zijn een de volgende corpora standaard beschikbaar: Corpus Gesproken Nederlands (CGN). PAROLE-Corpus. Eindhoven Corpus. Het CGN is in een aantal delen ingeladen omdat het te groot is om in één keer te verwerken. Samenvoegen van delen van het CGN is mogelijk, maar bij gebruik hiervan in een pipeline kan de belasting te groot worden voor het systeem waardoor de extractietaak zal falen. TermTreffer gebruikt voor de set van POS-annotaties een versimpelde versie van de tagset van het CGN: ADJ BW LID N TSW TW VG VNW VZ WW

Bijvoeglijk naamwoord Bijwoord Lidwoord Zelfstandig naamwoord Tussenwerpsel Telwoord Voegwoord Voornaamwoord Voorzetsel Werkwoord

De tagset van het CGN bevat annotaties met daarachter mogelijk verdere specificaties tussen haakjes (bijvoorbeeld ADJ(nom)). In de set van POS-annotaties die TermTreffer gebruikt zijn deze verdere specificaties overal weggelaten (ADJ(nom) wordt dus ADJ). POS-annotaties van het Eindhoven Corpus en het PAROLE-corpus zijn naar deze versimpelde CGNset omgezet.

Vertrouwelijk

GridLine B.V., 2012

Pagina 10 van 52


Versie: Datum:

3.1 5-1-2012

Corpus importeren

U kunt een lokaal corpus of een extern corpus importeren. Als uw (lokale of externe) corpus part-ofspeech (POS) annotaties bevat, kunt u bij het importeren het type POS-annotatie opgeven.

Lokaal Om een lokaal corpus te importeren selecteert u in het veld Documenten een bestand dat lokaal op uw computer staat. Als uw browser dit ondersteunt, kunt u ook meerdere bestanden selecteren; deze bestanden worden dan geïmporteerd als één corpus, waarbij het onderscheid tussen de documenten dus verloren gaat. Het corpus krijgt automatisch de naam van het (eerste) bestand dat u geïmporteerd heeft. U kunt deze naam aanpassen door, wanneer u het corpus geselecteerd heeft, de optie Bewerken te kiezen. U kunt bestanden in de volgende formaten importeren: Microsoft Word (.doc /.docx), ODF Text (.odt), PDF, RTF, XML, platte tekstbestanden (.txt), CSV, HTML en XHTML. Aangezien de formaten Microsoft Word en PDF geen open standaard zijn, kan het voorkomen dat de module van TermTreffer voor tekstextractie niet of niet goed in staat is om sommige documenten te importeren. In een dergelijk geval is de beste oplossing om het document handmatig om te zetten in platte tekst en het in dat formaat te importeren. Let op: Platte tekstbestanden die u importeert moeten UTF-8 codering hebben.

Extern Om een extern corpus te importeren voert u in het veld Url van externe pagina het internetadres op waarvan TermTreffer een bestand moet downloaden. Alleen het bestand op de URL die u opgeeft wordt opgehaald; TermTreffer haalt niet een hele website op door links op iedere pagina te volgen.

POS-annotaties Als uw corpus part-of-speech (POS) annotaties bevat, kunt u bij het importeren het type annotatie opgeven. Het corpus dient in de stijl van het Eindhoven Corpus geannoteerd zijn. In het Eindhoven Corpus wordt achter elk woord de woordsoort aangegeven door een underscore (“_”) gevolgd door een code (bijvoorbeeld “zetten_254”). Het gebruikte type POS-annotaties mag dat van het Eindhoven Corpus, het Corpus Gesproken Nederlands, of het PAROLE-Corpus zijn. Het Eindhoven Corpus gebruikt codes van 3 of 4 cijfers (bijvoorbeeld “254”); het Corpus Gesproken Nederlands en het PAROLE-corpus gebruiken lettercodes waarin eerst de hoofdwoordsoort wordt aangegeven, gevolgd door verdere specificaties tussen haakjes (bijvoorbeeld: CGN: “WW(pv, tgw, mv)”; PAROLE: “V(type=m, mood=i, tense=p, person=1, number=p, main verb function=t)”). De tokenisatie en POSannotaties worden dan door TermTreffer opgeslagen en gebruikt bij de termextractie. Als uw corpus geen annotaties bevat, zal TermTreffer deze automatisch afleiden en toevoegen.

Vertrouwelijk

GridLine B.V., 2012

Pagina 11 van 52


Versie: Datum:

3.1 5-1-2012

De set van POS-annotaties die TermTreffer aan het corpus en aan de termen toekent is een versimpelde versie van de tagset van het Corpus Gesproken Nederlands (CGN). Eventueel aanwezige POS-annotaties uit de tagset van het Eindhoven Corpus of het PAROLE-Corpus zullen ook naar deze tagset geconverteerd worden. TermTreffer hanteert de volgende set van POS-annotaties: ADJ BW LID N TSW TW VG VNW VZ WW

Bijvoeglijk naamwoord Bijwoord Lidwoord Zelfstandig naamwoord Tussenwerpsel Telwoord Voegwoord Voornaamwoord Voorzetsel Werkwoord

De tagset van het CGN bevat annotaties met daarachter mogelijk verdere specificaties tussen haakjes (bijvoorbeeld WW(pv, tgw, mv)). In de set van POS-annotaties die TermTreffer gebruikt zijn deze verdere specificaties overal weggelaten (WW(pv, tgw, mv) wordt dus WW). Ook bij de PAROLEtagset worden de verdere specificaties in TermTreffer weggelaten (V(type=m, mood=i, tense=p, person=1, number=p, main verb function=t) wordt dus ook WW). In de interface wordt niet getoond of een corpus wel of niet annotaties bevat. Indien u een corpus met annotaties inlaadt, is het aan te raden in de beschrijving van het corpus te noteren dat het om een vooraf geannoteerd corpus gaat. Eindhoven Corpus[1] Het Eindhoven Corpus bestaat uit een aantal tekstfragmenten. Zo’n tekstfragment ziet er bijvoorbeeld als volgt uit: [ 1

< dit_360 is_240 de_370 eerste_103 zin_000 . >

2

< en_700 dit_360 is_240 zin_000 2_470 ! >

3

< nu_500 sluiten_2510 we_301 het_370 tekstfragment_000 af_6205 . > ]

Elk fragment begint met “[“ plus spatie. Dan volgt, tussen “<” en “>”, de bronvermelding. Dit is een verwijzing naar de herkomst van het fragment. Vervolgens komen de zinnen, één per regel. Elke zin begint met een zinsnummer, gevolgd door TAB. Dan volgt de eigenlijke zin, voorafgegaan door “<” plus spatie en afgesloten door spatie plus “>”. Na de laatste zin wordt het fragment afgesloten door spatie plus “]”. Elk woord is voorzien van een code, die woordsoort-informatie bevat. Deze code is door middel van een underscore (“_”) met het woord verbonden.

Samenvoegen U kunt corpora die in TermTreffer beschikbaar zijn samenvoegen. De corpora die u samenvoegt, worden gekopieerd en gecombineerd tot een nieuw corpus. De oorspronkelijke corpora blijven onveranderd.

Vertrouwelijk

GridLine B.V., 2012

Pagina 12 van 52


Versie: Datum:

3.1 5-1-2012

Door in het overzicht van de laatste algemene en eigen corpora (hoofdtabblad Corpora, submenukeuze Overzicht) op Samenvoegen te klikken wordt het venster van deze menukeuze “uitgeklapt”.

In het veld Naam kunt u de naam van het nieuwe gecombineerde corpus invoeren. In de lijst van beschikbare Corpora kunt u de samen te voegen corpora selecteren door de Ctrl-toets ingedrukt te houden en achtereenvolgens de samen te voegen corpora aan te klikken. Het nieuwe gecombineerde corpus zal geen POS-annotaties bevatten, ook niet als één of meerdere originele corpora POS-annotaties bevatten. Indien u de POS-annotaties wilt behouden, dan kunt u de tekstbestanden met geannoteerde corpora zelf samenvoegen en vervolgens de samengevoegde tekstbestanden importeren. Overigens zullen bij het uitvoeren van een termextractie wel automatisch POS-annotaties aan het corpus worden toegekend.

Geselecteerd corpus Als u een corpus geselecteerd heeft dan worden de gegevens van dit corpus getoond: zoeken metadata pipelines termbanken termbank extraheren

Informatie

bladeren

Als u een corpus bekijkt, wordt het door TermTreffer in stukken gehakt. Dankzij deze functionaliteit hoeft u uw corpus niet telkens volledig te laden. Deze stukken worden “pagina's” genoemd, maar ze houden geen verband met eventuele pagina's in uw oorspronkelijke bestand. Boven de tekst van het corpus staan paginanummers waarmee u door de tekst kunt bladeren.

Vertrouwelijk

GridLine B.V., 2012

Pagina 13 van 52


Versie: Datum:

3.1 5-1-2012

Opmerking: Het proces van termextractie staat los van de opdeling van het corpus in pagina’s en gebeurt altijd op het hele corpus. Met de knop Zoeken kunt u in de tekst van het corpus naar één of meerdere zoektermen laten zoeken. Links van het corpus ziet u de metadata van het corpus. Van uw eigen corpora kunt u de metadata bewerken. Beheerders kunnen ook de metadata van algemene corpora bewerken. Met de knop Termbank extraheren kunt u een standaardextractie uitvoeren. Voor de standaardextractie hoeft u niets in te stellen en wordt de standaardmethode voor extractie gebruikt. Rechts van het corpus staan de tabbladen Informatie, Termbanken en Pipelines. In het tabblad Informatie staat in eerste instantie alleen het aantal woorden dat het corpus bevat. Indien u in het corpus gaat zoeken zal in dit tabblad informatie over het zoekresultaat gegeven worden. In het tabblad Termbanken kunt u het geselecteerde corpus vergelijken met een termbank. Het tabblad Pipelines is alleen beschikbaar voor expert-gebruikers. Via dit tabblad kunt u door een algemene of persoonlijke pipeline te starten een geavanceerde extractie uitvoeren.

Zoeken Boven de tekst van het corpus wordt er door te klikken op Zoeken een zoekscherm “uitgeklapt”:

Termen die u hier invult worden in het document gemarkeerd. Als u termen scheidt met een komma worden ze afzonderlijk gemarkeerd in de tekst (met verschillende kleuren). U kunt in dit zoekveld ook zoeken met reguliere expressies. Zo zult u met de zoekopdracht “boeken[a-z]*” zoeken op alle woorden die beginnen met “boeken”.

Vertrouwelijk

GridLine B.V., 2012

Pagina 14 van 52


Versie: Datum:

3.1 5-1-2012

Als het zoeken voltooid is verschijnen rechts van het corpus in het tabblad Informatie de subtabbladen Informatie, Voorkomens en Concordanties.

Metadata bewerken

U kunt de naam, de beschrijving, de bron, de organisatie, het genre en de licentie-informatie invoeren of wijzigen. Daarnaast kunt u aangeven of het corpus algemeen is of niet.

Vertrouwelijk

GridLine B.V., 2012

Pagina 15 van 52


Versie: Datum:

3.1 5-1-2012

Extractie Standaardextracties kunnen alleen worden uitgevoerd door expert- en standaardgebruikers. Geavanceerde extracties kunnen alleen worden uitgevoerd door expert-gebruikers. Indien u een corpus geselecteerd heeft kunt u met de knop Termbank extraheren (links van het corpus) een standaardextractie uitvoeren. Voor de standaardextractie hoeft u niets in te stellen en wordt de standaardmethode voor extractie gebruikt. Expert-gebruikers kunnen door op het tabblad Pipelines (rechts van het corpus) een algemene of persoonlijke pipeline te starten een geavanceerde extractie uitvoeren. In de resulterende termbank worden voor de termen lemma's aangegeven. Termen die van dezelfde basisvorm afkomstig zijn, hebben hetzelfde lemma. Wat de relatie tussen termen onder een lemma is, hangt af van de gebruikte pipeline. Termen krijgen hetzelfde lemma toegekend als ze vervoegingen/verbuigingen zijn van hetzelfde lemma, of als ze spellingsvarianten van elkaar zijn. Fout gespelde woorden worden eerst verbeterd en krijgen vervolgens een lemma toegekend, bijvoorbeeld: "rieppen" wordt verbeterd naar "riepen" en vervolgens teruggebracht tot "roepen". U vindt de resulterende termbank onder hoofdtabblad Resultaten in het hoofdmenu. Opmerking: Het proces van termextractie staat los van de opdeling van het corpus in pagina’s en gebeurt altijd op het hele corpus. Zodra een extractietaak gestart is, kunt u de voortgang hiervan bijhouden in het taakvenster rechtsboven in het scherm. Aangezien de extractie nooit lokaal op uw eigen computer wordt uitgevoerd, maar op de centrale server, kunt u in de tussentijd de applicatie gewoon verder blijven gebruiken, of de applicatie juist afsluiten, of zelfs uw computer helemaal uitzetten. De extractie zal ondertussen door de centrale server worden uitgevoerd. Wanneer de taak voltooid is, wordt er, als dat in uw gebruikersprofiel aangegeven is, automatisch een notificatie gestuurd naar het e-mailadres waarmee u bent ingelogd. Standaardextractie Deze functie is alleen beschikbaar voor expert- en standaardgebruikers. Om een standaardextractie te starten, selecteert u een corpus en klikt u links van het corpus op de knop Termbank extraheren.

Er wordt dan een taak gestart om een termbank te extraheren uit het corpus. Hoe lang de taak duurt, hangt af van de lengte van het corpus en de hoeveelheid andere taken (zowel van u als van Vertrouwelijk

GridLine B.V., 2012

Pagina 16 van 52


Versie: Datum:

3.1 5-1-2012

andere gebruikers). U kunt de taak volgen in het taakvenster rechtsboven in het scherm. Door in het taakvenster op te klikken wordt het taakvenster “uitgeklapt” en kunt u de details van de taak bekijken. Als uw taak afgerond is, ziet u in het taakvenster een link naar het resultaat. U vindt de resulterende termbank ook onder hoofdtabblad Resultaten in het hoofdmenu. Geavanceerde extractie Deze functie is alleen beschikbaar voor expert-gebruikers. In het tabblad Pipelines (rechts van het corpus) worden de beschikbare persoonlijke en algemene pipelines getoond. Een pipeline is een aaneenschakeling van algoritmen die één voor één op de brontekst worden toegepast. Bij het maken van een pipeline kiest u zelf welke algoritmen gebruikt worden, en met welke parameters deze algoritmen gestuurd worden. Verschillende pipelines resulteren in verschillende termbanken.

Door op Start te klikken wordt er met behulp van de gekozen pipeline een taak gestart om de geavanceerde extractie uit te voeren. Hoe lang de taak duurt, hangt af van de lengte van het corpus en de hoeveelheid andere taken (zowel van u als van andere gebruikers). U kunt de taak volgen in het taakvenster rechtsboven in het scherm. Door in het taakvenster op te klikken wordt het taakvenster “uitgeklapt” en kunt u de details van de taak bekijken. Als uw taak afgerond is, ziet u in het taakvenster een link naar het resultaat. U vindt de resulterende termbank ook onder hoofdtabblad Resultaten in het hoofdmenu.

Tabblad Informatie In het tabblad Informatie staat in eerste instantie alleen het aantal woorden dat het corpus bevat. Indien u in het corpus gaat zoeken zal in dit tabblad informatie over het zoekresultaat gegeven worden. Als het zoeken voltooid is verschijnen rechts van het corpus in het tabblad Informatie de subtabbladen Informatie, Voorkomens en Concordanties.

Vertrouwelijk

GridLine B.V., 2012

Pagina 17 van 52


Vertrouwelijk

Versie: Datum:

GridLine B.V., 2012

3.1 5-1-2012

Pagina 18 van 52


Versie: Datum:

3.1 5-1-2012

Informatie Het subtabblad Informatie toont hoe vaak de zoekterm op de huidige pagina van het corpus voorkomt, hoe vaak de zoekterm in het hele corpus voorkomt en de relatieve frequentie van de zoekterm.

Voorkomens In het subtabblad Voorkomens krijgt u een lijst van de delen van de tekst waar de termen in voorkomen.

Wanneer u op het pijltje naast een voorkomen klikt, verspringt het tekstveld naar de pagina waar het betreffende voorkomen op staat.

Vertrouwelijk

GridLine B.V., 2012

Pagina 19 van 52


Versie: Datum:

3.1 5-1-2012

Concordanties In het subtabblad Concordanties ziet u voor ieder voorkomen van de gezochte term de tekst die links en rechts van de term staat.

De tabel met corcondanties wordt standaard alfabetisch gesorteerd op de kolom Term. U kunt de tabel op iedere kolom sorteren door op de kolomnaam te klikken. Door nogmaals op de kolomnaam te klikken, draait u de sorteervolgorde om. De secundaire sorteervolgorde is altijd alfabetisch op de kolom Term.

Vertrouwelijk

GridLine B.V., 2012

Pagina 20 van 52


Versie: Datum:

3.1 5-1-2012

Als u een corcondantie selecteert en op de knop Toon in corpus klikt, dan wordt in een nieuw venster de pagina van het corpus waar de geselecteerde concordantie staat weergegeven.

Door op te klikken wordt het venster weer gesloten en keert u terug naar de pagina van het corpus waar u gebleven was.

Tabblad Termbanken Via het tabblad Termbanken kunt u het geselecteerde corpus vergelijken met een termbank. Als u een termbank geselecteerd heeft, “springt” u naar het hoofdtabblad Termbanken, waar naast de geselecteerde termbank het geselecteerde corpus wordt getoond in het tabblad Corpus.

Tabblad Pipelines Het tabblad Pipelines is alleen beschikbaar voor expert-gebruikers. Via dit tabblad kunt u door een algemene of persoonlijke pipeline te starten een geavanceerde extractie uitvoeren.

Vertrouwelijk

GridLine B.V., 2012

Pagina 21 van 52


Versie: Datum:

3.1 5-1-2012

Een termbank is een lijst met termen; in deze context is een term een woord of een sequentie van meerdere woorden die relevant is voor het domein van de tekst. In een termbank kan bij iedere term extra informatie staan, zoals de frequentie, een relevantiewaarde of de POS-tag van de term. Binnen TermTreffer zijn een aantal termbanken standaard beschikbaar. Daarnaast kunt u bestaande termbanken importeren of TermTreffer automatisch een termbank laten extraheren uit een tekst. Standaard beschikbare termbanken en geïmporteerde termbanken vindt u in het hoofdtabblad Termbanken in het hoofdmenu, automatisch geëxtraheerde termbanken vindt u in het hoofdtabblad Resultaten. Aangezien het hoofdtabblad Termbanken en het hoofdtabblad Resultaten allebei termbanken bevatten, heeft u in hoofdtabblad Resultaten vaak dezelfde mogelijkheden als in hoofdtabblad Termbanken. Het hoofdtabblad Resultaten is alleen beschikbaar voor expert- en standaardgebruikers.

Termbanken Als u de muis op het hoofdtabblad Termbanken positioneert (zonder erop te klikken), dan verschijnt het submenu voor dit hoofdtabblad.

Termbanken zijn ingedeeld in algemene termbanken en persoonlijke termbanken. De algemene termbanken worden door de beheerders van uw instantie van TermTreffer aangemaakt en zijn voor iedereen beschikbaar. Binnen TermTreffer zijn een aantal algemene termbanken standaard beschikbaar. De persoonlijke termbanken zijn de termbanken die u zelf importeert, extraheert of handmatig aanmaakt. Deze zijn alleen voor uzelf beschikbaar. Als u op het hoofdtabblad Termbanken klikt, dan wordt een overzicht van recent toegevoegde algemene en persoonlijke termbanken getoond. Met de submenukeuzes Algemene termbanken en Mijn termbanken worden alle algemene termbanken resp. alle persoonlijke termbanken getoond. Met de submenukeuze Nieuwe termbank kunt u een nieuwe termbank aanmaken. Tenslotte kunt u direct recente (geïmporteerde of handmatig aangemaakte) termbanken of resultaten (geëxtraheerde termbanken) selecteren.

Standaard beschikbare termbanken Binnen TermTreffer zijn een aantal termbanken standaard beschikbaar. Deze termbanken zijn: Referentiebestand Nederlands - Voorbeelden zelfstandige naamwoorden Referentiebestand Nederlands - Zelfstandige naamwoorden Referentiebestand Nederlands - Voorbeelden werkwoorden

Vertrouwelijk

GridLine B.V., 2012

Pagina 22 van 52


Versie: Datum:

3.1 5-1-2012

Referentiebestand Nederlands – Werkwoorden PAROLE Corpus – lexicon Neologismen Online Referentiebestand Nederlands - Functiewoorden en bijwoorden DCoi – lexicon Referentiebestand Nederlands - Voorbeelden bijvoeglijke naamwoorden Referentiebestand Nederlands - Bijvoeglijke naamwoorden ANW Corpus – lexicon 38 Miljoen Woorden Corpus 1996 27 Miljoen Woorden Corpus 1995 5 Miljoen Woorden Corpus 1994 Referentiebestand Belgisch-Nederlands Corpus Gesproken Nederlands – lemmas Bronbestand Woordenlijst Nederlandse Taal 2005 Bronbestand Woordenlijst Nederlandse Taal 1995

Resultaten Dit tabblad is alleen beschikbaar voor expert- en standaardgebruikers. Als u de muis op het hoofdtabblad Resultaten positioneert (zonder erop te klikken), dan verschijnt het submenu voor dit hoofdtabblad.

In dit submenu staan de meest recente resultaten (geëxtraheerde termbanken). Door op een resultaat te klikken, wordt dit resultaat direct geselecteerd. Als u op het hoofdtabblad Resultaten klikt, dan wordt een overzicht van alle resultaten (geëxtraheerde termbanken) getoond.

Overzicht

sorteren nieuwe termbank

corpus verwijderen

termbank importeren

status wijzigen

termbank selecteren

Vertrouwelijk

GridLine B.V., 2012

Pagina 23 van 52


Versie: Datum:

3.1 5-1-2012

U heeft in het overzicht van termbanken/resultaten de volgende mogelijkheden: Kiezen welk overzicht er getoond moet worden (dit is alleen van toepassing op hoofdtabblad Termbanken). Het overzicht sorteren. De termbanken worden standaard aflopend gesorteerd op Aanmaakdatum; door op een kolomnaam te klikken kunnen de termbanken ook op Naam, Beschrijving of Favoriet gesorteerd worden. De status van een termbank wijzigen (favoriet of niet-favoriet). Door in de kolom Favoriet op een sterretje te klikken wijzigt u de status van een termbank. Een favoriete termbank wordt aangegeven door een in de kolom Favoriet. Indien u vervolgens het overzicht op deze kolom sorteert komen al uw favoriete termbanken bovenaan te staan. Het favoriet maken van een termbank heeft verder geen invloed op andere processen. Een termbank verwijderen. Door in de laatste kolom op te klikken kunt u een termbank verwijderen; hierbij wordt altijd om een bevestiging gevraagd. Een termbank selecteren. Door op de naam van een termbank te klikken wordt deze termbank geselecteerd. Daarnaast kunt u in het overzicht van de laatste algemene en eigen termbanken (hoofdtabblad Termbanken, submenukeuze Overzicht) en in het overzicht van alleen de eigen termbanken (hoofdtabblad Termbanken, submenukeuze Mijn termbanken) ook een nieuwe termbank toevoegen en een termbank importeren. Door op Termbank importeren te klikken wordt het venster van deze menukeuze “uitgeklapt”.

Nieuwe termbank Het is mogelijk om handmatig een eigen termbank te maken. Deze termbank kan bijvoorbeeld gebruikt worden als negeerwoordenlijst bij een extractie, of om een selectie uit een andere termbank in op te slaan.

Een nieuwe termbank krijgt automatisch de naam Nieuwe Termbank, gevolgd door een volgnummer. U kunt deze naam wijzigen. Verder kunt u de beschrijving, de bron, de organisatie, het genre en de licentie-informatie invoeren. Tenslotte kunt u aangeven of de termbank algemeen is of niet.

Vertrouwelijk

GridLine B.V., 2012

Pagina 24 van 52


Versie: Datum:

3.1 5-1-2012

Termbank importeren

Om een termbank te importeren selecteert u in het veld Bestand een bestand. Het bestand wordt ingelezen als termbank en komt onder Mijn termbanken te staan. U kunt bestanden in de volgende formaten importeren: CSV, OLIF, RDF, SKOS, DXLT, MARTIF, TBX of XLT. Een handige manier om te bepalen hoe de verschillende bestandsformaten eruit zien is door een export van een termbank in TermTreffer uit te voeren naar het betreffende bestandsformaat. Ook frequentielijsten kunt u op deze manier als termbank importeren. Let op: Termbankbestanden die u importeert moeten UTF-8 codering hebben.

Geselecteerde termbank/resultaat Als u een termbank of een resultaat (geëextraheerde termbank) geselecteerd heeft dan worden de gegevens van deze termbank getoond: kolommen tonen/verbergen

lemma’s

metadata

termbank corpus

termvergelijking

informatie

exporteren

termen raadplegen en bewerken Links van de termbank ziet u de metadata van de termbank. Van uw eigen termbanken kunt u de metadata bewerken). Beheerders kunnen ook de metadata van algemene termbanken bewerken. Met de knop Termvergelijking kunt u aan een geïmporteerde termbank lemma’s toevoegen. Met de knop Exporteren kunt u termbanken exporteren (downloaden). Met de knop Kolommen kunt u aangeven welke kolommen er getoond moeten worden. Binnen de lijst van termen kunt u termen raadplegen en bewerken. Hierbij heeft u de volgende mogelijkheden: De lijst sorteren. Een nieuwe term toevoegen. Een term bewerken.

Vertrouwelijk

GridLine B.V., 2012

Pagina 25 van 52


Versie: Datum:

3.1 5-1-2012

Eén of meerdere termen verwijderen. Zoeken). Vernieuwen. Bladeren. Daarnaast kunt u termen samenvoegen, een bestaand lemma aan een term toekennen of een nieuw lemma aan een term toekennen. Rechts van de termbank/het resultaat staan de tabbladen Informatie, Corpus, Termbank en Lemma’s. Het tabblad Informatie dient voor algemene informatie over de geselecteerde termbank. In het tabblad Corpus kunt u de geselecteerde termbank vergelijken met een corpus; in het tabblad Termbank kunt u de geselecteerde termbank vergelijken met een andere termbank. Het tabblad Lemma’s toont een overzicht van alle lemma’s die de geselecteerde termbank bevat.

Metadata bewerken

U kunt de naam, de beschrijving, de bron, de organisatie, het genre en de licentie-informatie invoeren of wijzigen. Daarnaast kunt u aangeven of de termbank algemeen is of niet.

Termvergelijking

In termbanken die het resultaat zijn van een extractie worden voor termen lemma's aangegeven. Wanneer u zelf een termbank importeert, kan het zijn dat u daar ook lemma's in wilt detecteren. Hiertoe kunt u links een termvergelijking starten. De termvergelijking start een taak met als resultaat een kopie van uw termbank met lemma’s.

Vertrouwelijk

GridLine B.V., 2012

Pagina 26 van 52


Versie: Datum:

3.1 5-1-2012

Exporteren Door op Exporteren te klikken wordt het exportvenster “uitgeklapt”:

U start de export door achter het gewenste bestandsformaat (XML, CSV, XLS, TBX, RDF, SKOS, OLIF, ODT of DOC) te klikken op de optie alle termen of op de optie met filter. Indien u met de zoekfunctionaliteit (het vergrootglas) de termen gefilterd heeft, kunt u met de optie met filter er voor kiezen alleen de gefilterde termen te exporteren.

Kolommen tonen/verbergen Via de knop Kolommen bovenaan de termbank kunt u aangeven welke kolommen in de tabel getoond moeten worden. Deze knop opent een uitklapvenster waarin u kolommen kunt selecteren of deselecteren.

Sorteren De termbank wordt standaard alfabetisch gesorteerd op de kolom Term. U kunt een termbank op iedere kolom sorteren door op de kolomnaam te klikken. Door nogmaals op de kolomnaam te klikken, draait u de sorteervolgorde om. De secundaire sorteervolgorde is altijd alfabetisch op de kolom Term.

Vertrouwelijk

GridLine B.V., 2012

Pagina 27 van 52


Versie: Datum:

3.1 5-1-2012

Nieuwe term Met deze functie (het termbank.

-icoontje onderaan de termbank) kunt u zelf termen toevoegen aan de

Term bewerken Met deze functie (het

-icoontje) kunt u de bestaande velden van een term wijzigen.

Term verwijderen U kunt één of meerdere termen selecteren door de gewenste termen aan te vinken. Met deze functie (het -icoontje) kunt u termen uit een termbank verwijderen.

Vertrouwelijk

GridLine B.V., 2012

Pagina 28 van 52


Versie: Datum:

3.1 5-1-2012

Zoeken U kunt in de termen zoeken door linksonder op het

-icoontje te klikken.

U heeft hier één of meerdere zoekcriteria invoeren. verwijder criterium kopieer criterium voeg criterium toe

Met de knop Herstellen kunt u alle ingevoerde zoekcriteria verwijderen. Wanneer u op Zoek klikt, worden de getoonde termen op uw zoekcriteria gefilterd. Wanneer u nu een export van de termbank uitvoert en de optie met filter selecteert, worden alleen de met uw zoekopdracht gevonden termen in de export meegenomen.

Vernieuwen Als een andere gebruiker de termbank heeft gewijzigd, kunt u met het vernieuwen, zodat deze wijzigingen zichtbaar worden.

-icoontje de termbank

Bladeren

Met de knop wordt de eerste pagina van de termbank weergegeven, met de knop de laatste pagina. Met de knoppen en bladert u één pagina achter- resp. vooruit. U kunt ook een paginanummer invoeren; door op Enter te klikken wordt de gewenste pagina vervolgens getoond. Tenslotte kunt u aangeven hoeveel termen u per pagina wilt laten weergeven (20, 5, 100 of 500).

Samenvoegen U kunt meerdere termen selecteren door de gewenste termen aan te vinken. Met de knop Samenvoegen kunt u vervolgens de geselecteerde termen samenvoegen.

Vertrouwelijk

GridLine B.V., 2012

Pagina 29 van 52


Versie: Datum:

3.1 5-1-2012

In de dropdownlijst kunt u aangeven welke van de geselecteerde termen over moet blijven. De frequentie van deze term is de frequentie van alle samengevoegde termen samen.

Bestaand lemma toekennen U kunt één of meerdere termen selecteren door de gewenste termen aan te vinken. Met de knop Bestaand lemma toekennen kunt u vervolgens aan de geselecteerde termen één van de in de termbank aanwezige lemma's toekennen.

In de dropdownlijst kunt u het lemma selecteren dat u aan de geselecteerde termen toe wilt kennen.

Nieuw lemma toekennen U kunt één of meerdere termen selecteren door de gewenste termen aan te vinken. Met de knop Nieuw lemma toekennen kunt u vervolgens een nieuw lemma invoeren dat toegekend wordt aan de geselecteerde termen.

Tabblad Informatie In het tabblad Informatie kan algemene informatie over de geselecteerde termbank worden gegeven.

Vertrouwelijk

GridLine B.V., 2012

Pagina 30 van 52


Versie: Datum:

3.1 5-1-2012

Tabblad Corpus Via het tabblad Corpus kunt u de geselecteerde termbank vergelijken met een corpus, of een geselecteerd corpus vergelijken met een termbank. Als u een corpus geselecteerd heeft, wordt het naast de geselecteerde termbank getoond. In het tabblad Corpus verschijnen dan de subtabbladen Volledig, Voorkomens, Concordanties en Selecteer. U kunt de termbank vergelijken met het corpus waaruit hij geëxtraheerd is, maar dat hoeft niet. U kunt bijvoorbeeld ook een geïmporteerde termbank vergelijken met het Eindhoven Corpus. Volledig Het subtabblad Volledig toont het volledige corpus. Als u één of meerdere termen in de termbank selecteert worden de geselecteerde termen in het corpus gemarkeerd.

Vertrouwelijk

GridLine B.V., 2012

Pagina 31 van 52


Versie: Datum:

3.1 5-1-2012

Voorkomens In het subtabblad Voorkomens krijgt u een lijst van de delen van de tekst waar de in de termbank geselecteerde termen in voorkomen.

Wanneer u op het pijltje naast een voorkomen klikt, wordt in het subtabblad Volledig de pagina van het corpus weergegeven waar het betreffende voorkomen op staat.

Vertrouwelijk

GridLine B.V., 2012

Pagina 32 van 52


Versie: Datum:

3.1 5-1-2012

Concordanties In het subtabblad Concordanties ziet u voor ieder voorkomen van de in de termbank geselecteerde termen de tekst die links en rechts van de term staat.

De tabel met corcondanties wordt standaard alfabetisch gesorteerd op de kolom Term. U kunt de tabel op iedere kolom sorteren door op de kolomnaam te klikken. Door nogmaals op de kolomnaam te klikken, draait u de sorteervolgorde om. De secundaire sorteervolgorde is altijd alfabetisch op de kolom Term. U kunt een concordantie als contextzin toevoegen aan een term door de concordantie te selecteren en op de knop Toevoegen als contextzin te klikken. Wanneer aan de geselecteerde term al een contextzin is toegekend, wordt deze overschreven.

Vertrouwelijk

GridLine B.V., 2012

Pagina 33 van 52


Versie: Datum:

3.1 5-1-2012

Als u een corcondantie selecteert en op de knop Toon in corpus klikt, dan wordt in een nieuw venster de pagina van het corpus waar de geselecteerde concordantie staat weergegeven.

Door op te klikken wordt het venster weer gesloten en keert u terug naar de pagina van de termbank waar u gebleven was. Selecteer Door op Selecteer te klikken kunt u een ander corpus selecteren.

Tabblad Termbank Via het tabblad Termbank kunt u de geselecteerde termbank ook vergelijken met een andere termbank. Dit is bijvoorbeeld handig als u het resultaat van een extractie wilt evalueren tegen een handmatig samengestelde termenlijst, of als u de extractieresultaten van verschillende pipelines wilt vergelijken, of als u termen van de ene termbank naar de andere wilt kopiëren.

Vertrouwelijk

GridLine B.V., 2012

Pagina 34 van 52


Versie: Datum:

3.1 5-1-2012

U kopieert termen van de linker termbank naar de rechter door termen te selecteren en op de knop Termen kopiëren te klikken. De geselecteerde termen worden dan met alle metadata naar de rechter termbank gekopieerd. Hierbij worden geen bestaande termen overschreven. Indien de rechter termbank de term al bevat, zal deze term er dubbel in komen te staan. De beide termbanken krijgen tevens een extra kolom Freq. termbank die aangeeft wat de frequentie van een term in de andere termbank is. Door hierop te sorteren kunt u makkelijk zien welke termen wel in de ene, maar niet in de andere termbank zitten.

Tabblad Lemma’s TermTreffer deelt termen automatisch in onder lemma's. Termen die hetzelfde lemma hebben, zijn varianten van hetzelfde woord. Als er lemmatisering is ingezet, dan zijn termen gegroepeerd onder lemma's. Als spellingcontrole is ingezet, worden spellingsvarianten van termen ook gegroepeerd onder lemma's.

Vertrouwelijk

GridLine B.V., 2012

Pagina 35 van 52


Versie: Datum:

3.1 5-1-2012

Het tabblad Lemma’s toont een overzicht van alle lemma’s die de termbank bevat.

Voor ieder lemma staan in de linker kolom alle verschillende vormvarianten die in de termbank voorkomen en in de rechter kolom het aantal voorkomende vormvarianten van het lemma. Wanneer u op het icoontje (rechts van een item in de lijst) klikt, worden in het overzicht van de termbank alleen de vormvarianten van het betreffende lemma getoond.

Vertrouwelijk

GridLine B.V., 2012

Pagina 36 van 52


Versie: Datum:

3.1 5-1-2012

Dit hoofdtabblad is alleen beschikbaar voor expert-gebruikers. In dit hoofdtabblad kunt u zelf zogenaamde pipelines aanmaken om het termextractieproces te beïnvloeden. Een pipeline is een aaneenschakeling van modules die één voor één op de brontekst worden toegepast. Bij het maken van een pipeline kiest u zelf welke modules gebruikt worden, en met welke parameters deze modules gestuurd worden. Verschillende pipelines resulteren in verschillende termbanken. Bij het maken van pipelines is het aan te raden om simpel te beginnen, met zo min mogelijk modules, en stap voor stap het effect van verschillende modules te onderzoeken. Pipelines worden niet per definitie beter van meer modules. Als u de muis op het hoofdtabblad Pipelines positioneert (zonder erop te klikken), dan verschijnt het submenu voor dit hoofdtabblad.

Pipelines zijn ingedeeld in algemene pipelines en persoonlijke pipelines. De algemene pipelines worden door de beheerders van uw instantie van TermTreffer aangemaakt en zijn voor iedereen beschikbaar. De persoonlijke pipelines zijn de pipelines die u zelf heeft aangemaakt. Deze zijn alleen voor uzelf beschikbaar. Als u op het hoofdtabblad Pipelines klikt, dan wordt een overzicht van recent toegevoegde algemene en de laatst gebruikte persoonlijke pipelines getoond. Met de submenukeuzes Algemene pipelines en Mijn pipelines worden alle algemene pipelines resp. alle persoonlijke pipelines getoond. Met de submenukeuze Nieuwe pipeline kunt u een nieuwe pipeline aanmaken. Tenslotte kunt u in dit submenu recent toegevoegde (zowel algemene als persoonlijke) pipelines direct selecteren.

overzicht kiezen sorteren nieuwe pipeline

pipeline verwijderen pipeline bewerken

pipeline selecteren

status wijzigen

U heeft in de overzichten de volgende mogelijkheden: Kiezen welk overzicht er getoond moet worden.

Vertrouwelijk

GridLine B.V., 2012

Pagina 37 van 52


Versie: Datum:

3.1 5-1-2012

Het overzicht sorteren. De pipelines worden standaard aflopend gesorteerd op Aanmaakdatum; door op een kolomnaam te klikken kunnen de pipelines ook op Naam, Beschrijving of Favoriet gesorteerd worden. De status van een pipeline wijzigen (favoriet of niet-favoriet). Door in de kolom Favoriet op een sterretje te klikken wijzigt u de status van een pipeline. Een favoriete pipeline wordt aangegeven door een in de kolom Favoriet. Indien u vervolgens het overzicht op deze kolom sorteert komen al uw favoriete pipelines bovenaan te staan. Het favoriet maken van een pipeline heeft verder geen invloed op andere processen. Een pipeline selecteren. Door op de naam van een pipeline te klikken wordt deze pipeline geselecteerd. Een pipeline bewerken. Een pipeline verwijderen. Hierbij wordt altijd om een bevestiging gevraagd. Daarnaast kunt u in het overzicht van de laatste algemene en eigen pipelines (submenukeuze Overzicht) en in het overzicht van alleen de eigen pipelines (submenukeuze Mijn pipelines) ook een nieuwe pipeline aanmaken.

Nieuwe pipeline

U kunt de naam en de beschrijving invoeren, en u kunt u aangeven of de termbank algemeen is of niet. In het venster Taalkundige analyse kunt u aangeven welke taalmodules u wilt gebruiken.

Vertrouwelijk

GridLine B.V., 2012

Pagina 38 van 52


Versie: Datum:

3.1 5-1-2012

Door op Statistische analyse te klikken wordt dit venster “uitgeklapt” en kunt u aangeven welke statistische modules u wilt gebruiken.

De volgorde waarin de modules worden toegepast wordt door TermTreffer bepaald en is gelijk aan de volgorde waarin ze in het overzicht staan.

Geselecteerde pipeline Als u een pipeline geselecteerd heeft dan worden de gegevens van deze pipeline getoond:

bewerken

starten

U kunt uw eigen pipelines bewerken door op de knop Bewerken te klikken. Beheerders kunnen ook algemene pipelines bewerken. In het linkervenster kunt u de geselecteerde pipeline starten.

Vertrouwelijk

GridLine B.V., 2012

Pagina 39 van 52


Versie: Datum:

3.1 5-1-2012

Starten U kunt óf een corpus (veld Corpus) óf een termbank (veld Extraction item list of Referentietermbank) selecteren.

Indien u een corpus selecteert, dan wordt er uit dit corpus met behulp van de geselecteerde pipeline een termbank geëxtraheerd. Indien u in het veld Extraction item list een termbank selecteert, dan wordt deze termbank gebruikt als invoer voor een pipeline. Het gaat hierbij niet zozeer om termextractie, maar om het toevoegen van metadata aan de termbank. Als u bijvoorbeeld de lemmatizer inschakelt, zal TermTreffer aan de termen in uw termbank lemma’s toekennen. De enige modules die in een dergelijke toepassing effect hebben zijn: Spellingscontrole Geslachtsbepaling Morfologische analyse Lemmatizer Woordsplitser Indien u in het veld Referentietermbank een termbank selecteert, dan wordt deze termbank gebruikt als basis voor de in de pipeline ingeschakelde expansiemodule(s). De optie Verbose is alleen bedoeld voor beheerders van TermTreffer. Wanneer deze optie is ingeschakeld, zal TermTreffer bij het verwerken van de pipeline grote hoeveelheden data naar het logbestand schrijven. Hierdoor zal de termextractie trager verlopen. Het logbestand is niet toegankelijk voor normale gebruikers. In het taakvenster kunt u de lopende (extractie)taken volgen.

Vertrouwelijk

GridLine B.V., 2012

Pagina 40 van 52


Versie: Datum:

3.1 5-1-2012

Bewerken

U kunt de naam en de beschrijving invoeren of wijzigen, en u kunt u aangeven of de termbank algemeen is of niet. In het venster Taalkundige analyse kunt u aangeven welke taalmodules u wilt gebruiken. Door op Statistische analyse te klikken wordt dit venster “uitgeklapt” en kunt u aangeven welke statistische modules u wilt gebruiken.

Vertrouwelijk

GridLine B.V., 2012

Pagina 41 van 52


Versie: Datum:

3.1 5-1-2012

De volgorde waarin de modules worden toegepast wordt door TermTreffer bepaald en is gelijk aan de volgorde waarin ze in het overzicht staan.

Taalmodules Taalmodules analyseren het corpus en voegen annotaties toe. Taalmodules resulteren nog niet in een termbank, maar verrijken het corpus om de termextractie te verbeteren of voor extra metadata te zorgen. Sommige taalmodules merken sequenties van woorden aan als kandidaatterm. Als geen van deze modules geselecteerd is, worden alle sequenties van 1 tot 4 woorden aangemerkt als kandidaattermen. Nadat alle taalmodules hun taak hebben afgerond, beschikt TermTreffer over twee tussenresultaten: een verrijkt corpus en een lijst met kandidaattermen. Deze tussenresultaten worden vervolgens door de statistische modules gebruikt om termen te extraheren. Een pipeline moet dus minstens één statistische module bevatten. Pipelines met alleen taalmodules zullen een lege termbank opleveren. De volgende taalmodules zijn beschikbaar binnen TermTreffer:

Modules voor corpusverwerking: Tokenizer Tagger Spellingcontrole Geslachtsbepaling Morfologische analyse Lemmatizer Stopwoorden Woordsplitser Naamherkenning Lexicon-extractor Negeerwoorden Modules voor kandidaatbepaling: Chunker MWU-herkenning

Vertrouwelijk

GridLine B.V., 2012

Pagina 42 van 52


Versie: Datum:

3.1 5-1-2012

Coördinatieparser (deze module staat in het scherm bij de statistische modules) Samenstellingsanalyse (deze module staat in het scherm bij de statistische modules)

Tokenizer De tokenizer herkent woorden en zinnen. Zonder de tokenizer is termextractie niet mogelijk.

Tagger De POS ("part of speech") tagger leidt de lexicale categorieën van woorden af, zoals "zelfstandig naamwoord" of "bijvoeglijk naamwoord". Als een corpus al POS-tags bevat, dan worden deze gebruikt.

Spellingcontrole De volgende spellingcontroles zijn beschikbaar: Spellingcontrole (typefouten) Spellingcontrole (Levenshtein afstand) Spellingcontrole Nederlands Spellingcontrole (Woordenlijst '95) Spellingcontrole (Woordenlijst '05) Spellingcontrole (typefouten) Spellingcontrole op basis van veel gemaakte typefouten. Het achterliggende lexicon is een automatisch geëxtraheerd lexicon met frequentie-informatie uit het CGN. Frequente woorden worden eerder als verbetering gekozen dan infrequente woorden. In de uiteindelijke termbank staat zowel het correct gespelde woord als het incorrect gespelde woord, gegroepeerd onder hetzelfde lemma. Spellingcontrole (Levenshtein afstand) Een spellingcontrole die werkt op basis van de gelijkenis tussen woorden. Het achterliggende lexicon is een automatisch geëxtraheerd lexicon met frequentie-informatie uit het CGN. Frequente woorden worden eerder als verbetering gekozen dan infrequente woorden. Als een onbekend woord veel lijkt op een bekend woord, zal het bekende woord gebruikt worden. In de uiteindelijke termbank staat zowel het bekende woord als het onbekende woord, gegroepeerd onder hetzelfde lemma. Spellingcontrole Nederlands Een spellingcontrole met regels voor de Nederlandse taal. Hierbij moet u denken aan spelfouten als ‘c’/’k’, ‘au’/’ou’ en ‘d’/’t’. Het achterliggende lexicon is een automatisch geëxtraheerd lexicon met frequentie-informatie uit het CGN. Frequente woorden worden eerder als verbetering gekozen dan infrequente woorden. In de uiteindelijke termbank staat zowel het correct gespelde woord als het incorrect gespelde woord, gegroepeerd onder hetzelfde lemma. Spellingcontrole (Woordenlijst '95) Een spellingcontrole op basis van de Woordenlijst Nederlandse Taal 1995 (het "groene boekje"). Dit lexicon bevat geen frequentiedata. In de uiteindelijke termbank staat zowel het correct gespelde woord als het incorrect gespelde woord, gegroepeerd onder hetzelfde lemma.

Vertrouwelijk

GridLine B.V., 2012

Pagina 43 van 52


Versie: Datum:

3.1 5-1-2012

Spellingcontrole (Woordenlijst '05) Een spellingcontrole op basis van de Woordenlijst Nederlandse Taal 2005 (het "groene boekje"). Dit lexicon bevat geen frequentiedata. In de uiteindelijke termbank staat zowel het correct gespelde woord als het incorrect gespelde woord, gegroepeerd onder hetzelfde lemma.

Geslachtsbepaling Bepaalt het geslacht van zelfstandige naamwoorden. Deze informatie komt in het resultaat terug als kolom. Deze module heeft geen invloed op de termextractie.

Morfologische analyse De morfologische analyse splitst samenstellingen op in de zinnen van het corpus. Dit heeft geen invloed op de extractie van termen. De opsplitsing van de morfologische analyse leidt over het algemeen tot kleinere componenten dan die van de woordsplitser aangezien ook op voor- en achtervoegsels gesplitst wordt. Het woord “blikopener” zou bijvoorbeeld door de woordsplitser opgedeeld worden als “blik” en “opener”, terwijl de morfologische analyse het verder opsplitst in “blik”, “open” en “er”.

Lemmatizer De lemmatizer reduceert woorden tot een basisvorm in de zinnen van het corpus. Meervouden en werkwoordsvervoegingen worden bijvoorbeeld herleid tot een lemma. Dit kan bevorderlijk zijn voor de statistiek die TermTreffer vergaart. Indien deze module is ingeschakeld, maken de statistische modules namelijk gebruik van de lemma-frequenties in plaats van de woordvorm-frequenties. Bij het samenstellen van de resultaattermbank worden de originele woordvormen gegroepeerd onder hun lemma's. Aangezien de werking van de lemmatizer op regels en waarschijnlijkheden gebaseerd is, kan hij soms fouten maken bij het lemmatiseren.

Stopwoorden De stopwoordenmodule verwijdert stopwoorden uit de tekst. Dit kan bevorderlijk zijn voor de statistiek die TermTreffer vergaart. Stopwoorden zijn woorden die weinig of geen informatie bevatten, zoals lidwoorden en voorzetsels. De MWU-herkenning kan last ondervinden van de stopwoordenmodule. Woordgroepen die stopwoorden bevatten, zoals bijvoorbeeld voorzetsels, zullen niet meer herkend worden door de MWU-herkenning. Indien u zelf stopwoorden toe wilt voegen, kunt u gebruik maken van de module Negeerwoorden.

Woordsplitser De woordsplitser splitst samenstellingen op in de zinnen van het corpus. Dit heeft geen invloed op de extractie van termen. In de resultaattermbank kan een kolom getoond worden die van samenstellingen of meerwoordige termen het hoofd toont ("waterfiets" -> "fiets", "sleutel van de voordeur" -> “sleutel”).

Naamherkenning Deze module categoriseert automatisch "named entities": termen die verwijzen naar bijvoorbeeld mensen of bedrijven. Woorden die door de POS-tagger als naam zijn aangemerkt, worden door deze module verder gecategoriseerd. Deze module heeft geen invloed op de termextractie.

Vertrouwelijk

GridLine B.V., 2012

Pagina 44 van 52


Versie: Datum:

3.1 5-1-2012

Lexicon-extractor De lexiconextractor extraheert alle woorden en woordcombinaties tot een lengte van 4 uit de tekst en bepaalt hiervan tevens de frequentie. Indien deze module zonder statistische modules gebruikt wordt, levert dit een volledig lexicon van de tekst op.

Negeerwoorden Deze module stelt u in staat een eigen termbank als stopwoordenlijst te gebruiken.

Chunker De chunker herkent op basis van regels voor de Nederlandse taal woordgroepen die gezamenlijk een nominale eenheid vormen. De chunker en MWU-herkenning hebben allebei tot doel relevante woordgroepen te extraheren. Wanneer zowel de chunker als MWU-herkenning zijn ingeschakeld worden de door beide modules gevonden woordgroepen samengenomen. Als zowel de chunker als MWU-herkenning zijn uitgeschakeld, komen alle woordgroepen tot een lengte van 4 in aanmerking voor extractie.

MWU-herkenning MWU staat voor "Multi-word unit". Als u een reguliere expressie invult dan worden alleen woordgroepen wier POS-tags overeenkomen met de expressie, gebruikt als mogelijke termen. Als u het veld leeg laat, wordt de voorgeprogrammeerde reguliere expressie gebruikt: ((((ADJ)|(N))*((N)(VZ)(LID)?)?)((ADJ)|(N))*)(N) Eigen reguliere expressies die u hier opgeeft, dienen dezelfde notatie te hebben als deze standaardexpressie. U kunt alle door TermTreffer gehanteerde set van POS-annotaties in uw reguliere expressie gebruiken. Geselecteerde woordgroepen hebben een maximumlengte van 4. MWU-herkenning en de chunker hebben allebei tot doel relevante woordgroepen te extraheren. Wanneer zowel MWU-herkenning als de chunker zijn ingeschakeld worden de door beide modules gevonden woordgroepen samengenomen. Als zowel MWU-herkenning als de chunker zijn uitgeschakeld, komen alle woordgroepen tot een lengte van 4 in aanmerking voor extractie. De MWU-herkenning kan last ondervinden van de stopwoordenmodule. Woordgroepen die stopwoorden bevatten, zoals bijvoorbeeld voorzetsels, zullen niet meer herkend worden door de MWU-herkenning.

Coördinatieparser Opmerking: Deze module staat in het scherm bij de statistische modules (termexpansiemodules). Omdat de coördinatieparser qua techniek echter een taalmodule is, wordt deze module bij de taalmodules besproken. De coördinatieparser gebruikt conjuncties in de tekst om met behulp van expansie termen te vinden. Woordgroepen die in conjunctie staan met de termen uit de gegeven lijst worden aangemerkt als termen. Voorbeeld: wanneer “appel” een bekende term is en in het corpus de frase “appels en peren” voorkomt, wordt “peren” als term toegevoegd.

Vertrouwelijk

GridLine B.V., 2012

Pagina 45 van 52


Versie: Datum:

3.1 5-1-2012

Samenstellingsanalyse Opmerking: Deze module staat in het scherm bij de statistische modules (termexpansiemodules). Omdat de samenstellingsanalyse qua techniek echter een taalmodule is, wordt deze module bij de taalmodules besproken. Bij samenstellingsanalyse worden de resultaten van de woordsplitser gebruikt om met behulp van expansie termen te vinden. Van termen in een gegeven lijst die door de woordsplitser gesplitst zijn, wordt het hoofd als nieuwe term toegevoegd. Zo wordt "kat" toegevoegd wanneer de gegeven lijst "lapjeskat" bevat.

Statistische modules Statistische modules passen statistische extractiemethodes toe op de resultaten van de taalmodules. Op deze manier maken ze een selectie uit de termkandidaten die zijn aangeleverd door de taalmodules. Dit resulteert in een termbank. Een pipeline moet dus minstens één statistische module bevatten. Pipelines met alleen taalmodules zullen een lege termbank opleveren. De volgende statistische modules zijn beschikbaar binnen TermTreffer:

Opmerking: De coördinatieparser en de samenstellingsanalyse worden besproken bij de taalmodules. Statistische modules vallen uiteen in expansiemodules en extractiemodules. Vertrouwelijk

GridLine B.V., 2012

Pagina 46 van 52


Versie: Datum:

3.1 5-1-2012

Alle combinaties van statistische modules zijn toegestaan, dus bijvoorbeeld ook expansiemodules in combinatie met extractiemodules.

Expansiemodules Expansiemodules breiden de bestaande kandidatenlijst uit op basis van een gegeven referentielijst met termen. Termen in het corpus worden vergeleken met de termen in de referentielijst. Als in het corpus een woordgroep vaker in de context van termen uit de referentielijst voorkomt dan zou worden verwacht, dan wordt deze woordgroep als termkandidaat aangemerkt. De statistische maat (tussen haakjes) wordt gebruikt om te meten in hoeverre het daadwerkelijke aantal voorkomens afwijkt van de verwachting. De resulterende termbank bestaat uit de referentielijst, aangevuld met de in het corpus gevonden termkandidaten. Als basis voor termexpansie kan zowel een geïmporteerde termbank als een automatisch geëxtraheerde termbank gebruikt worden. De volgende modules voor expansie zijn beschikbaar binnen TermTreffer: Expansie (χ²) Expansie (Pointwise mutual information) Expansie (T-score) Expansie (Log likelihood) Expansie (Dice) Indien u een pipeline geselecteerd heeft kunt u in het veld Referentietermbank aangeven welke termbank gebruikt moet worden als basis voor de in de pipeline ingeschakelde expansiemodule(s).

Extractiemodules Extractiemodules kennen aan kandidaten een relevantiewaarde toe. De kandidatenlijst wordt hierop gesorteerd, het onderste deel van de kandidaten wordt verwijderd. Hoeveel kandidaten doorgaan naar de volgende stap kan met een parameter ingesteld worden. Dit kan ingesteld worden als percentage van de totale lijst (fractie tussen 0 en 1), als absoluut aantal woorden, of als drempelwaarde voor de relevantiewaarde. Als u bijvoorbeeld wilt dat alle woorden met frequentie lager dan vier uitgesloten worden, kunt u de frequentiemodule aanzetten met drempelwaarde 4. Extractiemodules zijn op te delen in unithoodmodules en termhoodmodules.

Relevantiewaardes Alle extractiemodules bepalen relevantiewaardes voor termkandidaten. Andere modules doen dit niet. Aangezien de relevantiewaardes die de verschillende statistische modules produceren

Vertrouwelijk

GridLine B.V., 2012

Pagina 47 van 52


Versie: Datum:

3.1 5-1-2012

verschillende schalen hebben en niet altijd met elkaar te vergelijken zijn, is het moeilijk om voor kandidaattermen een gewogen relevantie van alle extractiemodules te bepalen. Daarom worden in de resulterende termbank alleen de relevantiewaardes van de laatst uitgevoerde extractiemodule getoond. Omdat deze statistische waardes de meeste mensen vrij weinig zeggen, worden ze in de resulterende termbank genormaliseerd naar waardes tussen 0 en 1. Hierbij krijgen de minst relevante termen een waarde van 0 en de meest relevante termen een waarde van 1. Een relevantie van 0 betekent dus niet dat ze niet relevant zijn, maar dat ze van de geëxtraheerde termen het minst relevant zijn.

Unithoodmodules Deze modules kennen alleen een relevantiewaarde toe aan kandidaten die uit meerdere woorden bestaan. Kandidaten die uit één woord bestaan worden altijd doorgelaten. Deze unithood-maat (de naam tussen haakjes) bepaalt in hoeverre een combinatie van woorden binnen een term een eenheid vormt. Als bijvoorbeeld de woorden “groen” en “gras” respectievelijk met kansen a en b voorkomen, dan is het de verwachting dat de term “groen gras” voorkomt met een kans a maal b. De significantiemaat meet in hoeverre de werkelijke kans op deze woordcombinatie in het corpus afwijkt van deze verwachting. Hoe groter deze afwijking, hoe sterker de woorden een eenheid vormen. De volgende unithoodmodules zijn binnen TermTreffer beschikbaar: Extractie (Pointwise mutual information) Extractie (Mutual information) Extractie (T-score) Extractie (Log likelihood) Extractie (χ²) Extractie (Dice) Extractie (C-Value)

Termhoodmodules Deze modules kennen aan alle kandidaten een relevantiewaarde toe. Ze gebruiken ieder een eigen strategie om te bepalen wanneer een kandidaat een term is. De volgende unithoodmodules zijn binnen TermTreffer beschikbaar: Corpusvergelijking Tf-Idf Afstandsbepaling Frequentie-extractie Corpusvergelijking Bij corpusvergelijking worden de voorkomens van een kandidaat in het corpus vergeleken met een referentiecorpus. Dit referentiecorpus geldt als voorbeeld van niet-domeinspecifiek Nederlands. Als een kandidaat vaak voorkomt in beide corpora zal het waarschijnlijk een algemeen woord zijn en krijgt het een lage score. Als een kandidaat vaker voorkomt in de invoer dan in het referentiecorpus (relatieve frequentie), zal het waarschijnlijk domeinspecifieke terminologie zijn en krijgt het een hoge score. Deze methode werkt het beste voor termen die uit één woord bestaan.

Vertrouwelijk

GridLine B.V., 2012

Pagina 48 van 52


Versie: Datum:

3.1 5-1-2012

Met Comparison type kunt u aangeven welke termkandidaten door de module in beschouwing moeten worden genomen en op welke manier frequenties met elkaar vergeleken moeten worden. Bij Simple worden alleen termen die uit één woord bestaan in beschouwing genomen. Meerwoordige termen worden niet weggefilterd. Bij Max worden ook meerwoordige termen in beschouwing genomen. De frequentie van het meest frequente woord binnen de term wordt dan als frequentie van de hele term gebruikt. Bij Sequentie wordt geen gebruik gemaakt van frequenties, maar van de statistische waarschijnlijkheid van de woordsequentie. Tf-Idf De tf-idf maat (term frequency, inverse document frequency) bepaalt voor een collectie van documenten in hoeverre een term relevant is voor één van de documenten in de collectie. Om relevant te zijn moet een term niet alleen vaak voorkomen in het document, maar ook onderscheidend zijn binnen de collectie, d.w.z. de term mag niet binnen alle documenten uniform voorkomen. De collectie van documenten is hier het document waaruit geëxtraheerd wordt, samen met een aantal andere documenten die u in de pipeline kunt specificeren. Het document waarbinnen relevanties van termen bepaald gaan worden is het document waaruit geëxtraheerd wordt. Tf-idf werkt zowel op enkelwoordige als op meerwoordige termen. Afstandsbepaling Deze module is gebaseerd op het principe dat clustering in een tekst een indicatie is van een kernwoord. Als een kandidaat binnen een tekst uniform verdeeld voorkomt (op iedere pagina ongeveer even vaak), is de kans groot dat zijn relevantie klein is. Als een kandidaat heel ongelijk over de tekst verdeeld is (heel vaak op de ene pagina, heel weinig op de andere), dan is het waarschijnlijk een relevante term. Afstandsbepaling werkt zowel op enkelwoordige als op meerwoordige termen. Frequentie-extractie De frequentie-extractie gebruikt de frequentie van de kandidaat in het corpus als maat voor relevantie. Frequentie-extractie werkt zowel op enkelwoordige als op meerwoordige termen.

Vertrouwelijk

GridLine B.V., 2012

Pagina 49 van 52


Versie: Datum:

3.1 5-1-2012

Dit tabblad is alleen beschikbaar voor beheerders. Het hoofdtabblad Beheer bevat de submenukeuze Gebruikers.

Door op submenukeuze Gebruikers te klikken krijgt u een overzicht van alle gebruikers.

Met de knop Aanmaken kunt u een nieuwe gebruiker toevoegen. U kunt een gebruiker bewerken door op het e-mailadres van de gebruiker te klikken. Door rechts van een gebruiker op Verwijder te klikken wordt deze gebruiker verwijderd. Hierbij wordt altijd om een bevestiging gevraagd.

Vertrouwelijk

GridLine B.V., 2012

Pagina 50 van 52


Versie: Datum:

3.1 5-1-2012

Gebruiker toevoegen

U moet het e-mailadres en het wachtwoord van de nieuwe gebruiker invoeren. Ter bevestiging moet u het wachtwoord nogmaals invoeren. Door de optie Ontvang e-mail als taak klaar is aan te vinken zal deze gebruiker een e-mail ontvangen bij elke voltooide extractietaak. Tenslotte kunt u aangeven welke rol(len) de nieuwe gebruiker heeft: admin, expert en/of user. Een gebruiker kan ook meerdere rollen hebben. Een beheerder (admin) kan geen extracties uitvoeren, en heeft dus ook geen toegang tot hoofdtabblad Resultaten. Alleen beheerders kunnen gebruikers toevoegen, wijzigen en verwijderen; het hoofdtabblad Beheer is dan ook alleen beschikbaar voor beheerders. Een standaardgebruiker (user) kan geen geavanceerde extracties uitvoeren; het hoofdtabblad Pipelines is dan ook niet beschikbaar voor standaardgebruikers.

Gebruiker bewerken

Vertrouwelijk

GridLine B.V., 2012

Pagina 51 van 52


Versie: Datum:

3.1 5-1-2012

U kunt het e-mailadres en het wachtwoord van de gebruiker wijzigen. Als u het wachtwoord wijzigt, moet u het nieuwe wachtwoord ter bevestiging nogmaals invoeren. Door de optie Ontvang e-mail als taak klaar is aan te vinken zal deze gebruiker een e-mail ontvangen bij elke voltooide taak. Tenslotte kunt u de rol(len) die de gebruiker heeft wijzigen (admin, expert en/of user). Een gebruiker kan ook meerdere rollen hebben. Een beheerder (admin) kan geen extracties uitvoeren, en heeft dus ook geen toegang tot hoofdtabblad Resultaten. Alleen beheerders kunnen gebruikers toevoegen, wijzigen en verwijderen; het hoofdtabblad Beheer is dan ook alleen beschikbaar voor beheerders. Een standaardgebruiker (user) kan geen geavanceerde extracties uitvoeren; het hoofdtabblad Pipelines is dan ook niet beschikbaar voor standaardgebruikers.

Vertrouwelijk

GridLine B.V., 2012

Pagina 52 van 52

Nederlandse TaalUnie. Vertrouwelijk GridLine B.V., 2012 Pagina 1 van 52

Recommend Documents