MIMORE Demonstratieproject CLARIN-NL
Folkert de Vriend
[email protected] Meertens Instituut, Amsterdam 26/08/2010
Overzicht
I.
Resources en onderzoeksgereedschappen in MIMORE
II. Inbedding van resources en onderzoeksgereedschappen in CLARINarchitectuur
I: Resources en onderzoeksgereedschappen in MIMORE
Algemeen • •
MIMORE = Microcomparative Morphosyntax Research Tool Doel is de ontwikkeling van CLARIN-compatibel onderzoeksgereedschap waarmee taalkundigen (morfo-)syntactische verschijnselen uit de resources GTRP, DiDDD en DynaSAND gecombineerd kunnen interpreteren.
Resources in MIMORE •
GTRP (Goeman-Taeldeman-Van-Reenen-project) - Morfologische variatie op woordniveau: boekje vs. boekske
•
DiDDD (Diversity in Dutch DP Design) - Syntactische variatie op het niveau van zelfstandignaamwoordgroepen: hem zijn boek vs. zijn boek
•
DynaSAND (Dynamische Syntactische Atlas van de Nederlandse Dialecten) - Syntactische variatie op zinsniveau. Bijv. variatie in woordvolgorde op het einde van bijzinnen: (dat hij) moet kunnen zwemmen vs. zwemmen kunnen moet.
Voorbeeld van een (morfo)syntactisch vraagstuk Zijn voornaamwoorden van de tweede persoon (jouw, jullie) misschien geen onanalyseerbare woorden, maar eerder woordgroepen, die bestaan uit twee of meer woorden of morfemen in een hiërarchische structuur (zoals bij zelfstandignaamwoordgroepen)?
Hoe helpt MIMORE? Met de MIMORE-gereedschappen wordt het mogelijk om bewijzen te zoeken voor een dergelijke aanname. De variatie die voornaamwoorden van de tweede persoon vertonen in isolatie (GTRP) kan met MIMORE namelijk gemakkelijk vergeleken worden met de variatie die ze vertonen in verschillende syntactische contexten: - binnen zinnen (DynaSAND) - binnen zelfstandig-naamwoordgroepen (DiDDD) Voorbeeld DiDDD: “jouw opa” versus “jullie opa”: Vorstenbosch: ouw opa Vorstenbosch: hullie én opa Zoutleeuw: oere bompa Zoutleeuw: oerlingze bompa Axel: joen opa Axel: judder opa … …
Gereedschappen in ontwikkeling Gecombineerd zoeken • Op basis van tekst in glossen • Op basis van woordsoorten Verwerking van zoekresultaat • Kaart • Statistiek • Export
Web browser
Onderliggende architectuur Webserver Resources (MySQL) DiDDD DynaSAND GTRP Webservices (PHP) DiDDD DynaSAND GTRP MIMORE Data selection (text or tagging) Processing of selection (statistics, map, export) User interfaces (HTML) DynaSAND GTRP MIMORE
Implementatie webservices and UI • •
Zoeken: testomgeving Verwerking zoekresultaten: to do.
Benodigde bewerkingen van resources POS-tagging
• • •
DynaSAND is inmiddels geheel voorzien van POS-tagging. GTRP en DiDDD worden automatisch van POS-tags voorzien en vervolgens handmatig gecorrigeerd. Voor alle drie is dezelfde set gebruikt.
Oplijning
• • •
De opnames van de DynaSAND zijn al opgelijnd. Voor DiDDD semiautomatische procedure met PRAAT We bekijken nog wat haalbaar is voor GTRP.
II: Inbedding van resources en onderzoeksgereedschappen in CLARIN-architectuur
MIMORE: onderliggende architectuur
Web browser
Webserver Resources (MySQL) DiDDD DynaSAND GTRP Webservices (PHP) DiDDD DynaSAND GTRP MIMORE Data selection (text or tagging) Processing of selection (statistics, map, export) User interfaces (HTML) DynaSAND GTRP MIMORE
MIMORE: onderliggende architectuur + CLARIN Webserver Resources (MySQL) DiDDD DynaSAND GTRP Application
Webservices (PHP) DiDDD DynaSAND GTRP MIMORE Data selection (text or tagging) Processing of selection (statistics, map, export)
Web browser
User interfaces (HTML) DynaSAND GTRP MIMORE
Harvester
Metadata (CMDI + OAI-PMH) Resources DiDDD GTRP DynaSAND Schema Instances Webservices User interfaces
Mapping POS-tags op ISOcat.
MIMORE: metadata voor resource DynaSAND Webserver Resources (MySQL) DiDDD DynaSAND
“Een PID voor http://meertens/we bservices/dynasand? location=1”
GTRP Application
Webservices (PHP) DiDDD DynaSAND GTRP MIMORE Data selection (text or tagging) Processing of selection (statistics, map, export)
Web browser
“Een PID voor http://meertens/w ebservices/dynasan d?all”
User interfaces (HTML) DynaSAND GTRP MIMORE
Harvester
Metadata (CMDI + OAI-PMH) Resources DiDDD GTRP DynaSAND Schema dynasand_profile.xsd dynasand_sub_location_profile.xsd Instances
“dynasand_instance.oai-pmh”
“dynasand_sub_location_instance_location1.oai-pmh”
MIMORE: inbedding in bredere CLARIN-context
Source: Researchers editing resources and metadata Import
Webserver
Publish
Resources (conversions)
Resources (MySQL) DiDDD
DiDDD
DynaSAND
DynaSAND
GTRP
MAND
Webservices (PHP)
Application
Production environment
Archiv e
Meertens EASY II (TDR) Resources (XML + PID’s)
Webservices (PHP)
DiDDD DynaSAND GTRP MIMORE Data selection (text or tagging) Processing of selection (statistics, map, export)
Web browser
User interfaces (HTML)
User interfaces (HTML)
DynaSAND GTRP MIMORE Harvester
Metadata (CMDI + OAI-PMH) Resources DiDDD GTRP DynaSAND Schema Instances Webservices User interfaces CLARIN metadata repository
Metadata search service
Metadata browsing service
Metadata (CMDI + OAI-PMH)
Metadata (CMDI + OAI-PMH)
Tijd en mens • •
Looptijd project: 1 april tot en met 31 december 2010 Betrokkenen:
o Sjef Barbiers (Projectcoördinator, Meertens Instituut)
o Norbert Corver (Universiteit Utrecht, UiL-OTS) o Jan Pieter Kunst (Meertens Instituut) o Matthijs Brouwer (Meertens Instituut) o Franca Wesseling (Meertens Instituut) o Folkert de Vriend (Meertens Instituut)
Dank