Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) Technologie verslag
Spraakherkenning 1. Geschiedenis Spraakherkenning heeft een langere geschiedenis dan we wellicht denken. Als mens zijnde hebben we sinds eeuwenlang de behoefte gehad om moeilijke taken te versimpelen. In 1881 werd er door Alexander Graham Bell, Chichester Bell en Charles Sumner Tainter een apparaat uitgevonden die reageerde op geluid-druk, op de manier hoe een microfoon in de telefoon ook werkt. Ze borduurde op dit voort en in hetzelfde jaar kwamen de mannen met de grafofoon, dat later de dictafoon werd genoemd. Rond diezelfde tijd vond Thomas Edison de fonograaf uit. Het doel van deze apparaten was voor kantoordoeleinden. Met deze technologieën konden er brieven, aantekeningen etc. worden opgenomen en vervolgens later door de secretaresses worden uitgeschreven. Zo konden bedrijven ruim bezuinigen op het aannemen van een stenograaf. In 1930 was de spraaktechnologie een stapje verder in zijn ontwikkeling. Op de ‘World fair’ van 1939 presenteerde Homer Dudley de ‘Voder’ (Voice Operating Demonstrator). De voder was het eerste apparaat wat de stem opving, converteerde tot basisklanken en de stem daarna elektronisch reproduceerde. Hoe mooi dit ook klonk, er zaten wel haken en ogen aan. De technologie sprak niet uit zich zelf; iemand moest het apparaat bedienen met knoppen en voetpedalen om er geluid uit te krijgen. Daarnaast was het zo gecompliceerd dat diegene die de voder bediende een jaar op cursus gaan om de bediening te leren. De eerste echte bekende automatische spraakherkenning werd gelanceerd in 1952 door onderzoekers uit het Bell-laboratoria. Dit apparaat werd gedoopt als ‘Audrey’ en kon de cijfer 0 tot en met 9 herkennen. Audrey was tot ongeveer 97% precies als de spreker mannelijk was en 350 milliseconden pauze tussen zijn woorden had. Het systeem werkte doordat het apparaat aparte klanken (cijfers) kon onderscheiden en deze controleerde door middel van modellen die al waren ingesproken door de makers. Vervolgens streken er 20 jaar voorbij zonder dat er iets echt vooruitstrevends gebeurde in de wereld van spraaktechnologie. Pas in 1971 werd er een stap gezet richting innovatie. De Amerikaanse veiligheidsdienst ARPA besloot te investeren in spraaktechnologie. Ze sponsorde onderzoekers die een systeem zouden ontwikkelen , die op zijn minst 1000 woorden zou kunnen herkennen en ook zinnen zou herkennen als er geen regelmatige pauzes tussen de woorden zaten. Ook zou het systeem een lage tolerantie moeten hebben op achtergrond geluid tijdens het gebruik. In 1976 werden er 6 spraakherkenningsystemen ontwikkeld. Het meest succesvolle systeem was ontworpen door de ‘Carnegie Mellon’ universiteit. Het apparaat wat werd ontwikkeld heette ‘Harpy’ en zijn voornaamste kenmerk was dat hij langzaam was. Bij een zin van 4 woorden had Hapry 5 minuten nodig om deze te verwerken. Ook was het vereist het appartaat te trainen zodat het altijd kon refereren aan al ingesproken spraak modellen. Hoe dan ook, het apparaat voldeed wel aan de eisen die ARPA had gesteld. Harpy was het beste model om te baseren voor verder onderzoek. Het maakte namelijk gebruik van het Markov-model. Hierbij werden woorden als kleine overlappende stukken geluid opgevangen en opgeslagen. Het
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) apparaat vangt delen van vorige woorden op als de gebruiker een nieuw woord zegt. Zo vergelijkt het dus eerder gesproken klanken met nieuwe klanken. In de jaren 70/80 werd het onderzoek nog voortgezet, waarbij de er het meest gebruikt werd van de markov-modellen. Later in de jaren 70 sponsorde ARPA onderzoek opnieuw om de spraakherkenning fouten in systemen van ongeveer 10% naar een paar procent te brengen. Andere onderzoeken naar spraakherkenningen hebben zich gefocust op het systeem meer accuraat te maken en spraakherkenning op de computers. Hierna werd de meest geavanceerde technologie door microsoft op de markt gebracht. Met Microsofts’ technologie kon je het systeem heel duidelijk aansturen. Wel moest je voor gebruik een tekst inspreken zodat het systeem jouw stem voortaan kon herkennen. Verder worden de huidige en toekomstige mogelijkheden verderop in dit rapport beschreven. - http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistoryfinal-10-8.pdf - http://nl.wikipedia.org/wiki/Stenografie - http://davidszondy.com/future/robot/voder.htm - http://en.citizendium.org/wiki/Speech_Recognition
2. Alternatieve technologieën In zijn rapport ‘An overview of Automatic Speaker Recognition Technology’ beschrijft Douglas A. Reynolds vier soorten technologien die er voorkomen in spraaktechnologie. Zoals eerdere besproken is het markov-model de meest gebruikte in spraakherkenning. Het is gebruikelijk om te spreken over modellen in spraaktechnologie. Het geeft aan hoe de technologie geprogrammeerd is. ‘Template matching’: Bij deze techniek bestaat het model uit lijn van voorgeprogrammeerde woorden en zinnen. Bij het gebruik probeert het systeem de gesproken woorden te matchen met de bestaande sjablonen. Deze techniek wordt haast alleen gebruikt voor spraakherkenning die moet worden gelinkt aan tekst. ‘Nearest neighbour’: Deze techniek maakt geen gebruik van een specifiek model. Maar zoekt tijdens het gebruik naar de dichtstbijzijnde klank die ervoor is gebruikt en het verschik tussen de klanken. Omdat dit model een te grote database kan veroorzaken worden er vaak applicaties geschreven die deze woordenschat inkrimpen. ‘Neural Networks’: Het model gebruikt in deze techniek kan verschillende vormen aannemen. Het grootste verschil met de anderen modellen is dat dit model speciaal is getraind om verschil te maken tussen gebruikers die al zijn geprogrammeerd en gebruikers die dat niet zijn.
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/)
‘Markov-modell’: deze techniek wordt eerder beschreven en geldt als meest succesvolle. Het model maakt gebruik van algoritmes die klanken met elkaar vergelijken. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.3003&rep=rep1&type=p df 3. 4R Model Rumours Op het gebied van spraakherkenning zijn er twee softwarepakketten die er momenteel uitspringen in het nieuws: Dragon NaturallySpeaking en SpeechMagic. - Dragon NaturallySpeaking, het paradepaardje van het – in spraakherkenningssoftware gespecialiseerd - bedrijf Scansoft (Nuance), staat sinds hun nieuwste versie vaak in de publiciteit als het gaat om meest betrouwbare spraakherkenningssoftware voor particulier gebruik. In - SpeechMagic het spraakherkenningsoftwarepakket van Philips wordt bestempeld als beste nieuw komende spraakherkenningsoftware in de healthcare sectie. In tegen stelling tot de al bestaande Dragon NaturallySpeaking Medical is SpeechMagic op het gebied van gebruiksvriendelijkheid en nauwkeurigheidsgraad kwantitatief en kwalitatief beter. Spraakherkenning wordt steeds meer toegepast voor particulier gebruik. Besturingssystemen zullen steeds vaker samenwerken met in spraakherkenning gespecialiseerde bedrijven. Trendwatchers zien spraakherkenning toegepast op mobiele telefoons als één van de ontwikkelingen, er is al een mobiel ontwikkeld die 100% accuraat werkt en die in de toekomst de markt zal gaan veroveren. De publicaties laten zien dat de technieken voor spraakherkenning zich blijven ontwikkelen, men gaat er van uit de spraakherkenning in de toekomst een belangrijke component zal zijn op het gebied van healthcare en de juridische sector en een verijking voor particulier gebruik. Als het gaat om remours scoort spraakherkenning hoog. Spraakherkkening heeft zich nog niet helemaal ontwikkeld tot een, niet meer weg te denken , techniek. Maar elke ontwikkeling, vooruitgang en toepassing zorgt voor veel publicaties. Spraakherkenning moet ten slotte het aansturingssysteem worden voor devices in de toekomst. bronnen: http://www.computable.nl http://speechrecognition.wordpress.com http://www.idealize.com http://www.wired.com http://tweakers.net
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) Research Er is op verschillende vlakken van spraakherkenning, door verschillende organisaties, onderzoek gedaan. Er is onderzoek gedaan naar; wat de gevolgen zullen zijn voor devices en natuurlijk de gebruiker, als spraakherkenning 100% accuraat zal werken. Zo is er door ICSI onderzoek gedaan hoe spraakherkenning werkt. En natuurlijk wordt er veel onderzoek gedaan vanuit spraakherkennings gespecialiseerde bedrijven naar de houdige status van accuraatheid van de software en of deze verbeterd zou kunnen worden. Op het gebied van research scoort spraakherkenning hoog. Er is en wordt veel onderzoek gedaan naar de techniek, het meeste onderzoek is/was ook noodzakelijk voor de ontwikkeling van de technologie. bronnen: http://www.researchportal.be Resource Er is geen organisatie benoemd als uitvinder voor spraakherkening. De eerste commerciele spraakherkenningsoftware zijn al vanaf 1990 op de markt. Het Belgische bedrijf Lernout & Hauspie was een van de koplopers op het gebied van spraakherkenning, maar ze gingen ten onder door boekhoudschandalen en te hoge verwachtingen. Philips en Vocollect zijn nu de grootste beheerders van spraakherkenning toepassingen en zijn nog steeds bezig met de ontwikkeling van deze techniek. De resours zijn hoog omdat er meerdere organisaties tegelijkertijd bezig zijn met de ontwikkeling van spraakherkenning. bronnen: www.wikipedia.nl Ready for business Er zijn verschillende bedrijven, die spraakherkenningssoftware aanbieden en met elkaar concurreren op deze markt. Omdat de techniek nog niet volledig ontwikkeld is, is het moeilijk te zeggen welke de beste is. Door de ontwikkelingen en concurrentie zal spraakherkenning op ten duur zijn optimale vorm krijgen. Spraakherkenningssoftware: - SpeechMagic - Dragon NaturallySpeaking - AVT legal. - etc. In alle gevallen werken de softwarepakketten nog niet 100% accuraad en is het hoogst haalbare 99%. De ready for business is op dit moment gemiddeld, maar zal binnen aanzienbare tijd hoog worden.
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) bronnen: http://www.spraakherkenning.nl/home.htm
4R matrix
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/) 5.Zwakke punten spraaktechnologie Spraaktechnologie wordt op kwaliteit gemeten door WER (Word error rate) en de ‘real-time’ factor. De eerste meet de nauwkeurigheid van het systeem. De tweede factor berekent de snelheid waarmee de woorden worden omgezet naar tekst. Hoewel veel gebruikers hun spraakherkenningsoftware ervaren als heel accuraat, zijn er toch nog enkele punten waar aan gewerkt mag worden. Ten eerste is de spraaktechnologie van tegenwoordig niet helemaal zo accuraat als we denken. Als de gebruiker een accent/dialect heeft daalt de nauwkeurigheid van het systeem al flink in procenten. Ook als de gebruiker een verkoudheid of een hese stem heeft, geeft dat problemen met de technologie. Daarnaast kan de spraakherkenningsoftware zich flink vergissen in zijn alternatieven. Stel een gebruiker zegt: ‘for’. Het device signaleert een dubbelzinnigheid en geeft de gebruiker alternatieven. De kans bestaat dat het alternatief er niet bij staat en de gebruiker moeite moet doen om het desbetreffende woord aan de database toe te voegen. Ten tweede kan de spraaktechnologie problemen hebben met omgevingsgeluiden. Het beste resultaat wordt bereikt als de gebruiker in een volledige stille ruimte is. Dit is vaak moeilijk te verwezenlijken.
http://www.fan.tv/DIGITAAL/toontext.asp?id=5019 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.3003&rep=rep1&type=p df http://en.wikipedia.org/wiki/Speech_recognition#cite_note-0
Door: Dàzz Hityahubessy (3/4/6) Edyta Gil (deel 1/2/5/)
6. Technische details Er zijn een tweetal technieken die van elkaar kunnen worden onderscheiden als het gaat om spraakherkennings systemen. Zo heb je de sprekersafhankelijk en sprekersonafhankelijke spraakherkennings systemen. Sprekersafhankelijk De meest toegepaste techniek bij spraakherkenningssoftware zijn sprekersafhankelijke systemen. Alle woorden die in het proces worden gebruikt, moeten eerst door de gebruiker eenmalig worden ingesproken. Door later de gesproken woorden continu met de opslagen woorden te vergelijken, begrijpt het systeem wat de gebruiker bedoelt. Het voordeel van deze techniek is de ongevoeligheid voor taal of dialect. Sprekersonafhankelijk Sprekersonafhankelijke systemen hoeven niet door de gebruiker te worden ingesproken. Deze systemen bevatten een database met woorden in een bepaalde taal. Omdat de toonhoogte en intonatie per persoon verschillen, vergt deze techniek meer rekencapaciteit om een gesproken woord te herkennen. Dat gaat ten koste van de responstijd. Deze technologie wordt vaak gebruikt voor telefonische bestelsystemen, waar de responstijd van minder groot belang is. Op dit moment genieten sprekersafhankelijke systemen de voorkeur, maar dat kan in de toekomst veranderen. Als de rekencapaciteit van de hardware blijft toenemen, zal dit systeem van de toekomst worden. Deze twee technieken worden vaak ondersteund door Digital Signal Processing oftwel DSP. DSP is een techniek die gebruikt wordt voor het onderdrukken van lawaai of ruis om zo de spraak extra te versterken. Dit gebeurd bij simpele sspraakherkennings software door vast ingestelde waarden. Bij geavanceerdere systemen is de mate waarin spraak extra versterkt wordt afhankelijk van de sterkte van het binnenkomende spraaksignaal.