Gebruik en gebruikers STEVIN en TST-Centrale Verleden, heden en toekomst
Remco van Veenendaal, TST-Centrale STEVIN-programmadag 2009
De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie.
Inhoud • Verleden en heden – Meten aan de keten (KPI) – Gebruik(ers) van STEVIN-resultaten
• Evaluatie 2009 (Folkert de Vriend, NTU) • Toekomst – Toekomstplannen TST-Centrale 2
Meten aan de keten Vereenvoudigde voorstelling van de keten Acquisitie (licenties)
Leveranciers (onderzoekers en ontwikkelaars binnen en buiten STEVIN)
Beschikbaarstelling Service(de)s(k)
Gebruikers (onderzoek, onderwijs en ontwikkeling)
TST-Centrale
3
Acquisitielicenties STEVN • • • • •
< 2007: 2007: 2008: 2009: Top – SoNaR: – DPC:
6 (moment handtekening INL) 8 50 42 50 41
4
Gebruikerslicenties TSTC • ‘Offline’ (papieren licenties) N ed
erland – 2006: 21 (incl.N3 commercieel) rojecteinde 45 B e p G l g l j i ë i C e b j e i i b c N r G o e f C m 4as commercieel) 22 e m r in 98 (incl. o c T–e2007: e l 8 e . D r l u d cd i t s n n l i a i n e , * A D 6 – 2008: 98 (incl. 3 commercieel) l) L •1 e E 1 e i 4 a i c r v e N m V G e m r C e o n i * c g d Korcnieinekl)rijk 3 0 3 . – 2009: 66 (incl. 5 commercieel) l • c n i ( 9 1 Fra comme 1 : 6 n k 3 r ) i j l k . l e c e i n • Top •200 i c ( r e 14 V 6 m m : o 7 c 0 0 1 e ) r l l.enigde Setra •2 e c e n i i c ( – INL-corpora 2 t e n 2 m m 5 : o 8 c 0 0 5 2 . l … • – CGN 17 (inc : 9 0 0 2 •
5
Gebruikerslicenties TSTC • Online (actieve licenties Mijn TSTC) – 2006: 580 – 2007: 55.544 (excl. GTB: 4.495) – 2008: 64.328 (excl. GTB: 2.918) – 2009: 67.770 (excl. GTB: 2.996)
• Top – GTB – BWNT2005 6
Service(de)s(k) • Berichten in de servicedesk – 2006: (35) – 2007: 1420 (
[email protected]) – 2008: 1565 – 2009: 675 – Excl. persoonlijk contact
• Top – GTB – Spellingvragen SpelSpiek 7
STEVIN-resultaten
Gebruik en gebruikers STEVIN-resultaten
8
Gebruikerslicenties • Licenties STEVIN-resultaten – Tussenresultatenlicenties Cornetto, D-Coi, DPC – Projectpartnerlicenties IRME, COREA, D-Coi, JASMINCGN (Autonomata via overeenkomst)
• Getoonde interesse in (gebruikerslicentie voor) – – – –
Autonomata namencorpus JASMIN-CGN D-Coi Cornetto
9
Gebruik STEVIN-resultaten • Hergebruik, ervaringen en plannen van gebruikers STEVIN-resultaten – Met dank aan • • • • •
Eindverslagen STEVIN-projecten Gosse Bouma, RUG (over COREA) Nicole Grégoire (over D-Coi) Antal v.d. Bosch, UvT (over D-Coi) Gudrun Vanderbauwhede, KULeuven (over DPC)
10
Uit eindverslagen • • • • •
Autonomata Æ Autonomata Too Autonomata Æ N-Best, NEON COREA Æ Joost (QA-systeem RUG) D-Coi Æ SoNaR, Lassy IRME Æ Promotieonderzoek Nicole Grégoire – Interesse Van Dale, spraaktechnologen, Alpino
• JASMIN-CGN Æ DISCO – Interesse uitgevers leermateriaal NT2
• STEVIN can Praat: “The worldwide phonetic community will be using the results.” 11
Uit eindverslagen • N-Best – Gebruikt bij evaluatie SPRAAK, promotieonderzoek Marijn Huijbregts (BSIK MultimediaN), Laurens v.d. Werff bezoekt LIMSI/CNRS, David v. Leeuwen professor RU, ESAT en RU in BATS (ICTRegie/IBBT), spin-off HMI (Twente): XMI
• Cornetto Æ DutchSemCor (NWO) • Cornetto Æ Kyoto (FP7) • SoNaR (f1) Æ DutchSemCor (semantiek) – Voorbeeld voorstel programma Hercules Infrastructuur Vlaanderen
• SPRAAK Æ NEON, HATCI, AAP, DISCO, Diademo • SPRAAK Æ BATS (ICTRegie/IBBT ) – Interesse uit Zuid-Afrika en van commerciële partijen 12
13
14
• Selectie niet-nieuws en niet-wikipedia uit D-Coi voor promotieonderzoek Nicole Grégoire • Gezocht naar gebruik (combinaties van) 25 expressies – boot && missen, boot && gemist, boten && missen, etc. • Letterlijk of idiomatisch gebruik? • Data uiteindelijk niet gebruikt: geen (te weinig) variatie • Citaat proefschrift (over aantallen in D-Coi en CGN vergeleken met TwNC): “If we compare the total number of 10,346 idiom examples found in the TwNC, which only consists of newspaper texts, with the numbers found in the D-coi corpus (Dutch Language Corpus Initiative),6 and the Corpus Gesproken Nederlands (‘Corpus of Spoken Dutch’, (CGN)),7 we can confirm this observation: a total of 98 examples have been found in a subpart of the D-coi corpus, which includes 15 million words taken from magazines, books, brochures, proceedings, etc., whereas only 37 examples have been found in the CGN, a 9million-word corpus. This means that there are 4 times more examples in the TwNC than in part of the D-coi corpus, and even 6.3 times more than in the CGN.”
15
Gebruik D-Coi
• For Dutch (memory-based) language modeling – for translation to Dutch; – for context-sensitive spelling correction – (Reynaert, Van den Bosch, Berck)
• For theoretical linguistics & psycholinguistics research – Correlating language model predictions with human sentence processing measurements; – Supplying corpus statistics for collostructional analyses – (Dogruoz, Mos, Backus, Schilperoord, 16 Van den Bosch, Berck)
17
18
SumNL • Samenvattingencorpus “SumNL” • 30 clusters teksten (5-25 teksten) uit D-Coi en DAESO • Elke cluster betrekking op 1 onderwerp • Voor iedere cluster maakten 5 verschillende annotatoren twee samenvattingen van verschillende grootte • Samenvattingen in eigen woorden • Extracts: 10 zinnen uit krantenartikelen gekozen • Zinnen van iedere tekst voorzien van score die belangrijkheid aangeeft 19
SumNL
• Producent en eigenaar: UA, CLiPS/CNTS (Walter Daelemans, Iris Hendrickx) • Binnenkort beschikbaar via TST-Centrale
20
21
22
23
De toekomst
Toekomstplannen van de TST-Centrale
24
Toekomstplannen TSTC • Interne verbeteringen • Data van derden • CLARIN (EU, NL, VL) – Online – Standaarden
• Open source
25
Interne verbeteringen • Gebruik nieuwe infrastructuur INL (2008) – Virtualisatie, Windows, Red Hat en telewerken)
• Witboek TST-Centrale N g beter bereikba • Administratieoprofessionaliseren ar 06 - 42 0 5 90 78 • Softwarepakket voor servicedesk – Proef 2e helft 2009, ‘live’ 2010
• ‘Medewerker producten’ 26
Data van derden • Taalunie, INL en STEVIN hofleveranciers • Maar… – CHOREC-spraakcorpus (KULeuven, UGent) – Sofeer (Shj) – SumNL (UA)
• Gesprekken met – UGent, Shj, UvT, UTwente
27
CLARIN • Onlinegebruikers > offlinegebruikers, dus… • INL Center (B) in CLARIN – Taalmaterialen online via CLARIN-infrastructuur
• CLARIN-startfederatie met BBAW, IDS, DFKI, MPI, Meertens en CSC – Toegang via SurfNet, DFN, Haka
28
CLARIN • Betrokken bij proposals CLARIN-NL – Hergebruik STEVIN-resultaten – CMDI-project i.s.m. MPI en Meertens Instituut • Component-gebaseerde metadata voor taalmaterialen Æ metadata taalmaterialen TST-Centrale
• Bijdragen aan CLARIN-VL • Aandacht voor standaardisatie taalmaterialen – – – –
Best practices standaarden taalmaterialen TST-Centrale CLARIN-standaarden Toepassen op taalmaterialen TST-Centrale Adviseren over gebruik standaarden 29
Open source
Lunchdiscussie: blijft open source uitzondering of wordt het uitgangspunt?
30
Einde
Vragen?
31