Telecats white paper: Taal- en Spraaktechnologie bij de Nederlandse politie Samenvatting Taal- en Spraaktechnologie is de technologie die zich bezig houdt met geschreven en gesproken taal. Het gaat onder andere om het herkennen van gestructureerde en ongestructureerde spraak, het identificeren/verifiëren van sprekers, het semantisch zoeken in grote databases, het automatisch clusteren van “overeenkomstige” (geschreven en gesproken) documenten en, steeds vaker, om het classificeren en interpreteren van gesproken en geschreven teksten. De mogelijke toepassingen voor de politie zijn legio omdat steeds meer informatie digitaal beschikbaar is zodat er door computers iets nuttigs mee gedaan kan worden. Snelle toegang tot de juiste informatie en/of mensen, en het zoeken, filteren en koppelen van geschreven en gesproken informatie zijn voorbeelden van technologieën die, mits juist toegepast, zeer bruikbaar kunnen zijn voor verschillende onderdelen van de Nederlandse Politie.
Inleiding Al een aantal jaren tonen verschillende onderdelen van de “de Nederlandse Politie” een duidelijk gemotiveerde interesse in verschillende onderdelen van wat met een algemene term Taal- en Spraaktechnologie (TST) genoemd kan worden. Werd een aantal jaren geleden nog gesproken over afzonderlijke technologieën zoals spellingscorrectie, semantisch zoeken of spraakherkenning, met het voortschrijden van de technologie wordt duidelijk dat we beter kunnen spreken van Taal- en Spraaktechnologie (TST). TST kan gezien worden als een containerbegrip waaronder allerlei technologieën vallen die met elkaar gemeen hebben dat ze “talige informatie” processen. In dit document zullen we in gaan op een aantal TST toepassingen die mogelijkerwijs interessant zijn voor de Nederlandse Politie. De technologie die aan de verschillende toepassingen ten grondslag ligt, zal slechts summier besproken worden omdat dit document voor een doelgroep bedoeld is, die zich voornamelijk bezighoudt met de organisatorische processen binnen de Nederlandse Politie.
Taal en Spraaktechnologie Taal- en Spraaktechnologie (TST) is de technologie die zich bezighoudt met het processen (herkennen, interpreteren en genereren) van geschreven en gesproken informatie. Er zijn verschillende manieren om naar TST te kijken. Zo kan apart naar taal en spraak gekeken worden maar ook apart naar juist de generatie of de interpretatie ervan. Spraak Uit wetenschappelijk onderzoek is duidelijk geworden dat Spraaktechnologie zonder Taaltechnologie niet of nauwelijks realistisch is. Zodra spraakherkenning verder gaat dan het herkennen van losse
1
TST bij de Nederlandse Politie
Was het een aantal jaren geleden al fantastisch als je treinreisinformatie via spraakherkenning kon opvragen (“ik wil van Utrecht naar Enschede”), tegenwoordig kunnen systemen, mits de vraag binnen de context valt, zeer goed zogeheten openvragen beantwoorden. Open vragen zijn vragen van bellers in antwoord op de door het systeem gestelde openingszin “Hallo met de Politie, waarmee kunnen we u van dienst zijn?”.De door de beller gegeven informatie kan in principe over alles van “DE Politie” gaan, en de applicatie moet zo slim zijn om aan de vraag van de beller automatisch het juiste label te hangen. Zo’n label wordt vervolgens gebruikt voor de verdere afhandeling van het gesprek
woorden, komt er al Taaltechnologie bij kijken om de verschillende manieren waarop bijvoorbeeld informatie gevraagd kan worden, te “berekenen”. Als we gesproken informatie over een aantal “objecten” via de telefoon willen voorlezen, dan is Taaltechnologie noodzakelijk om een goed klinkende zin te genereren. Zoeken Ook bij het intelligent zoeken wordt duidelijk dat taaltechnologie onontbeerlijk is. Hebben Yahoo en Google het zoeken naar documenten waarin een bepaalde set sleutelwoorden voorkomen, populair gemaakt, huidige state-of-the-art systemen leveren veel betere resultaten doordat ze de context van de vraag bij het zoeken gebruiken en desgewenst de “zoekwoorden” semantisch kunnen expanderen (fiets fiets, bike, rijwiel, racefiets, mountainbike, etc.).
Spraaktechnologie Spraaktechnologie wordt traditioneel in drie onderdelen verdeeld: 1. genereren van spraak (tekstaudio) 2. herkennen van spraak (audiotekst) 3. identificeren/verifiëren van sprekers (wie spreekt er/ klopt het dat Jan spreekt) Text-to-Speech (TTS) De generatie van natuurlijk klinkende en begrijpelijke spraak is bijna geen issue meer. Moderne systemen van bijvoorbeeld Loquendo, Nuance en Acapela zijn allen in staat om goede, verstaanbare spraak te genereren. Het enige dat nog niet goed lukt, is het automatisch genereren van de juiste (emotionele) klemtoon. Hoewel subtiel, is er toch een verschil tussen de drie onderstaande zinnen (op de vet gedrukte woorden ligt de nadruk): 1. Wilt u de politie spreken? 2. Wilt u de politie spreken? 3. Wilt u de politie spreken? TTS kan zeer goed gebruikt worden om agenten via de telefoon gesproken dynamische informatie (=informatie die vooraf niet bekend is zodat het voorlezen via vooraf opgenomen spraak geen optie
2
TST bij de Nederlandse Politie
is). Gedacht kan worden aan het voorlezen van voertuig- of persoonsinformatie in antwoord op een ingesproken nummerbord, postcode-huisnummer combinatie of paspoortnummer. Automatische Spraakherkenning (ASR) Spraakherkenning is het omzetten van geluid (=spraak) in tekst.
De business rules zullen veelal vastgelegd zijn in de routeringtabellen van de telefooncentrale. Chef/secretaresse schakelingen, doorschakelen en dergelijke. Deze rules worden dus niet in een spraakherkenningsysteem ondergebracht maar in de bestaande telefonie infrastructuur!
Een belangrijke parameter bij spraakherkenning is de kwaliteit van het audiosignaal. Het maakt nogal uit of het om GSM-spraak vanuit een rumoerige omgeving of om desktop spraak vanuit een rustig kantoor gaat. Ook de manier van praten is sterk bepalend voor de kwaliteit van de herkenning. Zo is duidelijk spontane spraak, vol met aarzelingen, eh’s, hmm’s, etc., duidelijk lastiger te herkennen dan een rustig uitgesproken, grammaticaal correcte zin. Ook de aan- of afwezigheid van een persoonlijk audioprofiel is sterk bepalend voor de mate waarin de spraak herkend kan worden. In tabelvorm kan de kwaliteit van de herkenning worden weergegeven als: Item
Lage kwaliteit
Hoge kwaliteit
Spraakkanaal
Telefoon
Desktop met headset
Omgeving
Rumoerig
Rustig
Manier van spreken
Spontaan
Semi-voorgelezen
Spreker
Onbekend
Bekend
Onderwerp Onbekend Bekend Tabel 1: de mate waarin spraak herkend kan worden voor verschillende omstandigheden Het zal duidelijk zijn dat welgevormde, bijna voorgelezen zinnen door een “bekende” spreker, over een bekend onderwerp achter de PC in een rustige kantooromgeving, veel beter herkend zullen worden dan spontane spraak over een onbekend onderwerp, via een mobiele telefoon ingesproken op een rumoerige straat door een “onbekende” spreker. In het geval van dictation is correctie van de Toch kan ook in dit laatste geval spraakherkenning automatisch gegenereerde tekst door een een duidelijk toegevoegde waarde hebben. Bijna natuurlijk persoon veelal noodzakelijk. Toch 100% herkenning is beslist nodig bij Command en hoeft dit geen nadeel te zijn daar, bij Control (C&C) en bij dictation (gesproken automatische verslaglegging over de telefoon, verslaglegging). Hoewel zeer goede herkenning de spreker geen feedback heeft van wat hij natuurlijk altijd wenselijk is , is het niet altijd gezegd heeft. Een menselijke controleur kan noodzakelijk. Wanneer de herkende spraak dan behalve de spraakherkenningsfouten gebruikt wordt voor classificatie, audiomining of verbeteren, ook de logica van het betoog Spoken Document Retrieval (SDR) is de statistiek, corrigeren. De spreker moet dan bij uitgevoerd op de herkenningsresultaten, veel terugkomst op het bureau alleen de tekst nog belangrijker. In dit soort gevallen is 50%-60% door lezen en paraferen. correcte herkenning dikwijls voldoende om de
3
TST bij de Nederlandse Politie
applicatie toch succesvol te laten werken. Spreker herkenning De derde poot in de spraaktechnologie is het herkennen van de spreker. Het gaat hier dus niet om wat er gezegd wordt maar door wie het gezegd wordt. Spreker herkenning kent twee verschillende onderdelen: identificatie en verificatie Sprekeridentificatie Bij spreker identificatie gaat het erom dat het systeem een zo nauwkeurig mogelijke schatting geeft van de spreker van een audiofragment. In principe komt iedereen in aanmerking van wie een audioprofiel in de database aanwezig is. In de praktijk blijkt dit erg lastig en lukt het nauwelijks om met een hoge betrouwbaarheid de spreker te herkennen wanneer uit meer dan 30 sprekers gekozen moet worden. Sprekerverificatie Bij spreker verificatie gaat het erom dat het systeem aangeeft hoe waarschijnlijk het is dat het audiofragment behoort bij spreker A. Spreker A (de waarschijnlijke spreker) moet dus bekend zijn. Spreker verificatie gaat behoorlijk goed, zolang de condities waarmee het stemprofiel is gemaakt overeenkomen met de condities waaronder het te verifiëren audiofragment is opgenomen. Deze techniek kent veel meer bruikbare toepassingen. Zo kan de telefoon van een agent eenvoudig beveiligd worden doordat het systeem regelmatig controleert of de spraak wel afkomstig is van de spreker die bij de telefoon hoort (via telefoon of IMEInummer)
Taaltechnologie Taaltechnologie is de technologie die zich bezig houdt met taal. Het bestrijkt een zeer uitgebreid gebied en gaat onder andere over: Spellingscontrole
de manier waarop een woord geschreven wordt
Grammaticale ontleding
de bepaling van onderwerp/gezegde/lijdend voorwerp
Automatische vertaling
het correct omzetten van de ene taal in een andere taal
Semantiek
het bepalen van de betekenis van een zin of woord
Classificatie
het toekennen van één of meerdere vooraf bepaalde klassen aan een stuk tekst
Information Retrieval ophalen van relevante informatie gegeven een startdocument Tabel 2: verschillende toepassingen van taaltechnologie Het gaat te ver om in dit document dieper in te gaan op de verschillende technieken. In de rest van het document zal de onderliggende techniek slechts genoemd worden wanneer dit voor de geschetste toepassingrelevant is.
4
TST bij de Nederlandse Politie
Toepassingen Het aantal toepassingen van TST voor de Nederlandse Politie is zeer groot en het is daarom niet doenlijk alle mogelijke toepassingen op te noemen. In dit hoofdstuk zullen we ons daarom beperken tot een aantal verschillende toepassingen waarmee het TST-veld zo goed mogelijk wordt afgedekt.
Telefonie De telefoon is bij uitstek een apparaat dat gebruikt wordt voor snelle informatie. Men wil nu iemand spreken of men wil nu informatie opvragen/doorgeven aan een systeem. Always-connected systemen voorzien deels in deze behoefte (nu mijn e-mail checken) maar niet altijd is het beeld het geëigende medium voor de informatie uitwisseling. Hieronder een paar al in de praktijk werkende toepassingen die waarschijnlijk zonder enig bezwaar ook door de Nederlandse Politie gebruikt kunnen worden. Naambellen De (mobiele) telefoon wordt vooral gebruikt om met anderen te bellen. Een van de meest gebruikte toepassingen van spraakherkenning voor de telefoon is het zogeheten naambellen. In plaats van het kiezen van een naam uit een lijst op het scherm of het invoeren van een numeriek telefoonnummer, kan bij naambellen volstaan worden met het bellen naar een centrale applicatie (bijvoorbeeld onder voorkeurtoets 9 of zoals bij Politie Fryslân door het interne nummer 8844 te kiezen) en vervolgens het inspreken van de naam van een persoon en/of afdeling. Door gebruik te maken van het nummer van de beller, kunnen allerlei “business rules” gebruikt worden. Zo kan de één wel direct met de commissaris verbonden worden en de ander juist niet of zo kan de één wel met het privénummer worden doorgeschakeld en de ander niet. Ook maakt naambellen met een centrale database het mogelijk dat de beller om persoon A vraagt, maar met persoon B wordt doorverbonden omdat persoon A bijvoorbeeld ziek is. Op dit moment gebruiken veel politieagenten het algemene politienummer (0900-8844) om collega’s aan de lijn te krijgen. Met naambellen hoeft dat niet meer waardoor het algemene politienummer ontlast wordt en de politieagenten zelf bovendien sneller doorverbonden worden de persoon die ze daadwerkelijk willen spreken. Bovendien kunnen aan zo’n politieintern telefoonnummer meerdere mogelijkheden gekoppeld worden. Verfijningen in het doorverbinden die men niet voor het algemene publiek beschikbaar wil hebben, kunnen wel voor de politie beschikbaar komen. Zo kan behalve met de “Politie Amsterdam” ook direct worden doorverbonden met de “Technische recherche, Politie Amsterdam” of met “Bureau Warmoesstraat, Politie Amsterdam”. Rapporteren Wijkagenten die een dagrapport maken, doen dit in de regel op A5-jes die na afloop van de dienst door de agent zelf in het Politie Beheers Systeem moeten worden ingevoerd. Hieraan kleven twee nadelen: 1. De tijd tussen de waarneming en de invoering in het PBS kan behoorlijk oplopen waardoor andere agenten een informatieachterstand oplopen,
5
TST bij de Nederlandse Politie
2. De omstandigheden op straat zijn in de regel niet ideaal voor het uitvoerig opschrijven van de informatie. Men heeft haast, het weer zit tegen of een volgende actie vereist het gebruik van beide handen. Politiebeambten geven zelf aan dat de uiteindelijk in het PBS ingevoerde informatie minder nauwkeurig/uitgebreid is dan gewenst. Het zou mooi zijn wanneer de dagrapporten direct via de mobiele telefoon gedicteerd zouden kunnen worden. Uit het overzicht van tabel 1 blijkt natuurlijk dat spraakherkenning in combinatie met dicteren over de telefoon een lastige klus is: het kan, maar de kwaliteit is nog niet zodanig dat menselijke tussenkomst niet meer nodig is. Toch kan dicteren over de telefoon voordeel bieden omdat: 1. De rudimentaire herkenning gebruikt kan worden om binnenkomende rapporten te classificeren, 2. Administratieve medewerkers heel goed de dagrapporten kunnen uitschrijven en verwerken. 3. Agenten via de telefoon direct de ingesproken mededelingen, die door bovenstaande acties voorzien is van relevante metadata, kunnen beluisteren
Spraak LAN
Rapportage workflow door dienders op straat aan het politiebureau. De gesprekken worden gevoerd met een medewerker (de script-agent) en in stereo opgenomen. De herkenningsresultaten worden door de transcribeur gecorrigeerd en door de rapporteur uitgewerkt en in het PBS ingevoerd. De diender moet het rapport bij terugkomst verifiëren. Call Classification De politie heeft waarschijnlijk veel baat bij een duidelijk overzicht wanneer er waarover gebeld wordt. Call Classification is een techniek waarbij de beller gevraagd wordt waarvoor men belt. Het
6
TST bij de Nederlandse Politie
opgenomen antwoord wordt eerst door de spraakherkenner zo goed mogelijk herkend waarna het herkenningsresultaat aan één (of meer) van de voorgedefinieerde klassen wordt gekoppeld. Op die manier krijgt ieder gesprek één of meerdere labels, die gebruikt kunnen worden voor een volgende stap: 1. Antwoord geven (vorm van self-service) 2. Doorsturen naar de juiste medewerker die het gesprek verder afhandelt (call routing) 3. Een relevante vervolgvraag stellen Samen met zaken als gespreksduur, gesprekstijdstip en datum worden de aan het gesprek toegekende labels opgeslagen in een database om later te worden gebruikt voor managementinformatie. Een aantal grote Nederlandse bedrijven gebruikt deze technologie al zowel voor de managementrapportage als voor het automatisch beantwoorden van veel gestelde vragen. Telefoon taps Re-speaking
Respeaking workflow van Nederlandse en niet-Nederlandse tap-gesprekken. De opnamen zijn doorzoekbaar gemaakt op woordniveau en zowel de originele als de nagesproken tekst kan beluisterd worden. In Nederland worden relatief erg veel telefoongesprekken afgeluisterd. Het maken van een goede transcriptie van een telefoontap is een erg tijdrovende bezigheid waarbij veel fouten gemaakt worden. Het direct herkennen van de opgenomen telefoongesprekken met behulp van automatische spraakherkenning is vooralsnog niet mogelijk. De opgenomen spraak is dikwijls voor mensen al
7
TST bij de Nederlandse Politie
moeilijk te verstaan: ze bevat dikwijls veel achtergrondlawaai, het Nederlands is lang niet altijd perfect en veel sprekers spreken omfloerst. Een techniek die hier echter wel gebruikt kan worden is het zogeheten “respeaking” waarbij de opgenomen spraak door de agent in de studio/tapkamer wordt nagesproken. De agent, waarvan een eigen akoestisch profiel is gemaakt, spreekt dan de door hem/haar gehoorde spraak in met behulp van een goede microfoon. De herkenning van deze spraak gaat wel goed. Deze technologie wordt al succesvol toegepast door onder andere de publieke omroepen in Nederland en Vlaanderen voor het real-time ondertitelen van Nederlands gesproken uitzendingen. Het herkenningsresultaat wordt vervolgens via teletekst op het televisiescherm gezet. Ook de politie Amsterdam-Amstelland heeft geëxperimenteerd met respeaking bij het transcriberen van verhoren van seksueel misbruikte kinderen.
Desktop Bij desktop/laptop toepassingen wordt de spraak direct op de computer opgenomen in een hoge kwaliteit. De omgeving is meestal rustig wat de herkenningsresultaten ten goede komt. Het gebruik is echter anders dan bij de telefoon omdat (bijna) alle computers met intranet en/of internet verbonden zijn en er dus directe toegang is tot allerlei systemen. Het opvragen van bijvoorbeeld persoonsgegevens gaat dan ook via het toetsenbord en niet met spraak. Toch kan spraakherkenning via de desktop zeer succesvol toegepast worden. Hieronder passeren een aantal toepassingen de revue. Het gaat wederom om toepassingen die hun bestaansrecht in de praktijk al bewezen hebben. Het gaat hierbij om dicteer-achtige toepassingen waarbij zowel de spreker(s) als de onderwerpen waarover gesproken gaat worden min-of-meer bekend zijn. Dicteren De waarschijnlijk bekendste toepassing van spraakherkenning is het dicteren van verslagen. In plaats van het uittypen van een rapport, spreekt men het rapport in en de spraakherkenner maakt er dan een geschreven rapport van. Onder bepaalde omstandigheden werkt deze technologie bijna foutloos. Met enig oefenen en onder ideale condities (de spreker heeft een akoestisch model gemaakt en er is een contextmodel gemaakt) is 98% correcte herkenning zeer goed mogelijk. Toch wordt er veel minder gedicteerd dan op grond van deze goed haalbare resultaten verwacht mag worden. Een van de redenen dat dicteren weinig gebruikt wordt is dat de meeste mensen het moeilijk vinden om een verslag correct in te spreken, daar men gewend is om al typend de gedachten te ordenen en de zinnen te (her-)formuleren. Experimenten hebben laten zien dat veel mensen zeer aarzelend spreken met veel eh’s, herhalingen en verbeteringen hetgeen het lastig maakt om het goed te herkennen. Alleen in die beroepen waar men gewend is om direct in volzinnen te denken en te spreken (juristen, artsen, journalisten) wordt deze vorm van dicteren veel gebruikt. Eerdere gesprekken met agenten van de verkeersdienst hebben echter laten zien dat ook zij in volzinnen kunnen praten waardoor wellicht dicteren ook hier succesvol kan worden ingezet. Aan de basisvoorwaarden (de spreker is bekend en heeft een akoestisch model en er kan een contextmodel gemaakt worden) kan eenvoudig voldaan worden. In dit geval zou de dialoog deels uit een vast vraag-antwoord deel kunnen bestaan en deels uit vrij ingesproken tekst. Op die manier wordt het beste van twee werelden bereikt.
8
TST bij de Nederlandse Politie
Spraakherkenning is sterk afhankelijk van de mate waarin de input (=de spraak) voorspeld kan worden. De voorspelbaarheid kan sterk verhoogd worden door het systeem het initiatief te laten nemen. Het systeem stelt de agent eerst een aantal vragen. Pas helemaal op het einde bestaat er dan nog de mogelijkheid om additionele, vrije spraak toe te voegen. De herkenning zal op deze manier flink verbeterd worden zonder dat de agenten in een keurslijf gedrongen worden. Verhoren Een van de typische politie taken is het afnemen van een verhoor. In Nederland worden verhoren op dit moment niet of nauwelijks opgenomen en er wordt slechts een schriftelijke samenvatting gemaakt door de agent die het verhoor afneemt. In de nabije toekomst gaat dat veranderen voor delicten waar een straf van 8 jaar voor gegeven kan worden. Een verhoor dat door één spreker wordt afgenomen en waarbij slechts één persoon ondervraagd wordt, leent zich echter uitstekend voor spraakherkenning. Wanneer beide sprekers een eigen microfoon gebruiken (bij voorkeur een headset) en het verhoor in stereo wordt opgenomen, dan kan iedere spreker apart herkend worden waardoor het proces ongeveer gelijk is aan dubbelzijdig dicteren.
Dictation workflow voor het opnemen van gesproken input voor PD (Plaats van Delict) beschrijvingen (mono) en voor het opnemen van verhoren van verdachten (stereo). In beide gevallen is de spraak van goede kwaliteit en zijn de sprekers bekend en hebben idealiter een eigen audio-profiel. Herkenning moet hier optimaal kunnen zijn. Ook aan de andere voorwaarden voor succesvol herkennen kan eenvoudig voldaan worden. De politieagenten die het verhoor afnemen hebben een eigen akoestisch model. De ondervraagde meestal niet, maar wanneer het om een groot aantal ondervragingen gaat waarbij de ondervraagde gedurende een aantal dagen steeds opnieuw ondervraagd wordt, dan loont het om van de
9
TST bij de Nederlandse Politie
ondervraagde ook een akoestisch model te maken. Het onderwerp waarover gesproken wordt is vooraf bekend en dus kan betrekkelijk eenvoudig een contextmodel gemaakt worden. De combinatie van akoestisch model, context model, hoge kwaliteit spraak en rustige omgeving is ideaal voor een goede herkenning (zie plaatje hieronder). Toch zal handmatige correctie nog wel nodig blijven wanneer 100% herkenning gewenst is. Gaat het er alleen maar om dat de ingesproken informatie bewaard, doorzoekbaar en terugluisterbaar gemaakt moet worden, dan volstaat herkenning van minimaal 60% (4 op de 10 woorden dus fout herkend). Oplijnen Een eenmaal gecorrigeerd document kan echter eenvoudig nogmaals door de spraakherkenner gehaald worden waardoor de geschreven en gesproken tekst opgelijnd kan worden. Van ieder woord is dan precies bekend wanneer het uitgesproken werd. Dit maakt zoeken in de geluidsfragmenten mogelijk. Men geeft één of meerdere zoekwoorden op en krijgt direct die audio en tekst fragmenten gepresenteerd waarin de woorden voorkomen. Via een muisklik kan het fragment dan beluisterd worden. Het NIOD en het IIAV hebben deze oplijn-techniek samen met de HMI-groep van de Universiteit Twente toegepast op (NIOD) de toespraken van Koningin Wilhelmina voor Radio Oranje (1940-1945) waardoor al haar toespraken via Internet doorzocht en beluisterd worden en (IIAV) een collectie interviews met vooraanstaande feministen (tweede feministische golf, jaren 70). In opdracht van de Raad voor de Rechtspraak is Telecats op dit moment bezig een uitgebreidere versie van het hier beschreven verhoorsysteem te ontwikkelen voor de Rechtbank Almelo. De gesprekken van maximaal 12 verschillende sprekers worden gescheiden opgenomen en door de spraakherkenner herkend. In dit RechtSpraakHerkenningssysteem is het doel echter niet het verkrijgen van een 100% correcte herkenning maar van een redelijk goede herkenning zodat de griffier het resultaat kan gebruiken om snel een verslag van de zitting te maken en de rechters het resultaat kunnen gebruiken om opnieuw naar gezochte geluidsfragmenten te luisteren. Indien de mogelijkheid om direct op de computer op te nemen er niet is, dan kan voor het verhoren gebruik gemaakt worden van een dicteerapparaat. Bij terugkomst op kantoor wordt de stereoopname dan via een cradle overgebracht naar de computer en vervolgens door de spraakherkenner gehaald.
10
TST bij de Nederlandse Politie
Forensisch onderzoek Bij forensisch onderzoek van ernstige delicten mogen slechts gespecialiseerde agenten de te onderzoeken ruimte betreden. Tijdens het daadwerkelijke sporenonderzoek is het lastig voor de agenten om aantekeningen te maken. Zonder aantekeningen is het echter weer lastig om een goed rapport te maken omdat wellicht een aantal zaken vergeten of fout herinnerd worden. Een eenvoudige oplossing voor dit probleem is het volledig opnemen van de gesproken bevindingen tijdens het sporenonderzoek. De agent start bij aanvang van het sporenonderzoek het dicteerapparaat, spreekt wat algemene gegevens is (naam agent, plaats, tijdstip en wellicht een omschrijving van het delict) en spreekt daarna op zijn eigen wijze de bevindingen van het sporenonderzoek in. Na afloop gaat het dicteerapparaat in de cradle en wordt de opgenomen spraak door de spraakherkenner gehaald. Het resultaat zal in de meeste gevallen niet een direct bruikbaar proces-verbaal opleveren, maar wel een goed doorzoekbaar geluid en tekstbestand dat de agent kan helpen bij het maken van het eigenlijke proces-verbaal. Alles wat tijdens het onderzoek werd ingesproken kan immers weer beluisterd worden zodat in principe niets vergeten kan worden. De spraakherkenning dient hier slechts voor de indexering en het doorzoekbaar maken van de geluidsopname.
Spoken Document Retrieval In de hierboven genoemde applicaties wordt spraak omgezet in tekst. De tekst wordt vervolgens gebruikt om informatie op te vragen (telefoon) of voor het sneller en beter maken van een verslag. Bij Spoken Document Retrieval (SDR) wordt de (niet noodzakelijk 100% correct) herkende spraak gebruikt voor het aan elkaar koppelen van documenten. Stel dat de geluidsopnamen van een verhoor door de spraakherkenner is gehaald, dan zou het herkenningsresultaat gebruikt kunnen worden om automatisch andere, gelijksoortige verhoren te zoeken. Het zoeken gebeurd dan niet met behulp van door de gebruiker opgegeven zoekwoorden maar met de gehele of gedeeltelijk herkende tekst waar de niet-relevante functiewoorden uitgehaald zijn (de, ik, wil, heb, ben, zijn, moeten, etc. etc.). De manier van zoeken blijkt zeer robuust te zijn voor herkenningsfouten omdat hier de wet van de grote getallen gaat werken. Ook al is slechts 50% van de woorden goed herkend, dan nog is de andere, wel goed herkende 50% zeer goed bruikbaar om gelijkluidende documenten te vinden. Op de website van de HMI-groep van de Universiteit Twente is een demo van deze technologie te vinden. De demo is password protected, maar het password kan desgewenst opgevraagd worden. Met deze demo kan eerst met zoekwoorden in de journaaluitzendingen van de laatste twee weken gezocht worden. Vervolgens kan het herkenningsresultaat gebruikt worden om krantenartikelen van de landelijke PCM-dagbladen te zoeken waarin over het zelfde onderwerp geschreven wordt als door de spraakherkenner herkend werd.
11
TST bij de Nederlandse Politie
Het doorzoeken van (Nederlands) gesproken bestanden wordt steeds meer een “commodity”. Hier boven verschillende collecties waarbij spraakherkenning en ontsluitingstechnologie ontsluitingstechnologie wordt gebruikt om opgenomen audiovisuelebestanden al dan niet via internet te doorzoeken.
Conclusie In dit document is geprobeerd een overzicht te maken van de mogelijkheden die Taal- en (vooral) Spraaktechnologie bieden voor de Nederlandse Politie. De getoonde voorbeeldapplicaties dienen slechts om een goed beeld te geven van de mogelijkheden die de technologie biedt. In het algemeen kan gezegd worden dat spraakherkenning in veel veel situaties een handig hulpmiddel kan zijn voor het efficiënt verwerken van de informatie. Het is zeker niet zo dat de spraaktechnologie (en dan vooral de spraakherkenning) ingezet kan worden om mensen volledig te vervangen.
12
TST bij de Nederlandse Politie