Perceptuele grounding in de fonetiek. Stijn van Balen 9946667
[email protected]
Abstract Er is veel onderzoek gedaan naar methoden en systemen die gegrounde concepten spontaan ontwikkelen. Die concepten zijn de symbolen die agenten gebruiken om te redeneren (woorden in de Language of Thought, Chomsky). De motivatie daarachter is niet zuiver theoretisch van aard; het is niet alleen maar om het argument van geprojecteerde betekenis in AI-systemen te bestrijden. Voorgeprogrammeerde symbolen die slechts hun betekenis halen uit de betekenis die wij er aan geven (onze interpretatie) wordt beschouwd als ouderwetse AI en krijgt dikwijls kritiek. Grounden is ook bedoeld als middel om een theorie te verwezenlijken die geïmplementeerd kan worden in praktische zaken. Dit zou namelijk een brug kunnen slaan tussen theorie en praktijk. Dergelijke bruggen leveren staafbare theorie en gerichte praktijonderzoeken op. En ik zal proberen aan te geven, dat het in de fonetiek een nuttig middel kan zijn om systemen te ontwikkelen die zelflerend en daardoor schaalbaar zijn. Daarnaast zou een theorie als deze ook inzicht kunnen geven in de ontwikkeling van onze eigen taal. ::Wat is grounding::
ogen hebben (Zoals bijvoorbeeld in Searle’s kamer al dan niet chinees). Dat dit probleem historisch voornamelijk naar voren kwam bij de theoretische kant is makkelijk te verklaren: Het was namelijk Turing die zei dat als iets zich gedroeg als intelligent dan was het ook intelligent; we konden immers ook niet bij andere mensen in het hoofd gaan checken of die zich eigenlijk niet gedroegen als een chinese kamer. Praktische AI is daarom vaak prestatie gericht met als risico’s; onverklaarbare resultaten of locale maxima waar men in terecht komt. De stappen die volgen na een dergelijke argumentatie zijn dikwijls: Dergelijke systemen begrijpen dus niet waar ze mee bezig zijn (ze begrijpen eventueel nog wel wat ze zelf aan het doen zijn maar ze zijn zich niet bewust van wat wij interpeteren) en hebben dus geen intentionaliteit (of misschien wel een hele andere; misschien wel vergelijkbaar met het orakel van Delphi en haar interpreterende priesters of Johan Cruyff en voetbal minnend Nederland). Ok das een argument; maar niet iedereen is overtuig. Dat er wel degelijk mensen zijn die tegen dergelijke argumenten ten strijde trekken; met argumenten als “wie heeft er dan wel intentionaliteit” en “hoe meet je eigenlijk wat iemand echt bedoeld?” neemt niet weg dat het wel degelijk mogelijk is symbolen in agenten; meer betekenis te geven (voor de agent zelf) door de agent ze zelf betekenis te laten geven (Door de symbolen te vormen uit basisprincipes en ervaring). En zelfs door deze agent zelf de semantische categorieen samen te laten stellen. En dat is nou juist het idee achter grounding dat deze symbolen gekoppeld worden aan ervaringen; danwel opgebouwd zijn uit symbolen die gekoppeld zijn aan ervaringen.
Veel abstracte begrippen krijgen pas een betekenis als het duidelijk is wat het doel ervan is. Zo niet anders bij grounding.
Als voorbeeld daarbij geeft Harnad (1990) de zebra; die veel mensen als symbool in hun hoofd hebben, zonder er ooit een gezien te hebben, als combinatie van de wel eerstegraads gegrounde begrippen ‘paard’ en ‘streep’.
Waarom dan?
Ok, koppelen aan sensorische input en dan?
Een van de meest gehoorde kritieken op AI en aanverwante gebieden is dat de formele kant de praktische kant niet benaderd. En dat formele systemen die soms indruk wekkende kunstjes vertonen, slechts produkten zijn van de betekenis die wij erin hebben gestopt: De symbolen waar ze mee zouden redeneren hebben alleen betekenis voor ons. Zij reageren alleen op de vorm (een vorm die niks heeft te maken met de betekenis)
Zoals er in Chrisley’s paper (2003) wordt opgemerkt zijn er AI-wetenschappers van het traditionele slag (of G.ood O.ld F.ashioned AI zoals Chrisley zegt) die zullen beweren dat dit al gebeurd. Ze hebben het dan over agenten die wel degelijk sensorische input nodig hebben bij hun symbolen. Ze hebben echter niet zoals christley zegt er ook echt rekening meegehouden en hun data en sensors daar ook op ontworpen.
De agenten zouden apparaten zijn die doen wat wij ze vertellen; door slechts regels uit te voeren op symbolen die voor hun herkenbaar zijn aan eigenschappen die niets te maken hebben met de betekenis die wij voor
Wat belangrijk is, is dat je je beseft dat dit zo is; dat je geen symbolen toewijst bij sensorische input. Op die manier kom je namelijk weer op hetzelfde uit: Gehardcode symbolen met gehardcode links naar input. Wat hier bedoel wordt met grounding is dat je symbolen voorkomen uit die sensorische data, ontworpen zijn op
die sensorische data (het liefst door zo generiek mogelijke processen en dus niet door de ontwerper). Chrisley gaat hier nog wat verder in en draagt zelfs aan dat agenten soms ook gewoon fysieke eigenschappen moeten hebben om taken te volbrengen (embodiment). Zoals sprinkhanen met oren die zijn benen direct aansturen (comportment zou Sun dit noemen). En heb je daar nog voorbeelden van? Het laten ontstaan van betekenisvolle begrippen in agenten door perceptie (en communicatie wat een speciale vorm van perceptie is) is uitgebreid onderzocht. Een bekend voorbeeld daarvan is het onderzoek van Steels (1996), waarbij hij ‘spontaan’ gegronde begrippen waarnam in een proefopstelling. Verder heeft Belpaeme (Simulating the formation of Color Categories) dit onderzoek nog uitgebreid met Communicatie tussen agenten, die uitgerust waren met hun eigen categorieën, waarbij spontaan gemeenschappelijk categorieën ontstonden. In de proefopstelling van Steels probeerden agent situaties van elkaar te onderscheiden; het enige Wat ze aangeboden kregen was sensorische input. De vraag daar bij was of deze agenten features aan die situaties zouden leren herkennen en gebruiken bij discriminatie. Bij het vervolg onderzoek lieten ze de agenten communiceren over situaties waarbij ze hun categorieën gebruikte om de situaties te omschrijven, wat er dan gebeurde was dat de agenten hun categorieën meer overeen lieten stemmen en de gemeenschappelijke namen ervoor leerden. Een ander voorbeeld is Clarion (Sun 1997, Sun & Peterson 1998 a b, and Sun et al (1998 a b 1999). Wat een model is wat handeld met zowel sub- als conceptuele verwerking. Clarion is dus ook een combinatie van een symbolische systeem en comportement. Het idee achter een systeem als Clarion is dat door de subconceptule verwerking van ervaringen (comportment) met daarbij aanwezig een systeem wat conceptueel kan redeneren; de concepten worden gevormd door de alledaagse omgang (de comportment). Systemen van netwerken met symbolische redenatie erboven op wordt besproken door mijn collega (Joukes 2004).
::Introductie grounding en fonetiek:: Grounding in de phonetiek?
Praktijk onderzoek onderbouwd door theorie heeft dat meestal niet en hebben het voordeel van een beter ontwerp.
In analogie met het onderzoek van Luc Steels (1996), zijn er in het veld van fonetiek ook categorieën van symbolen die gemeenschappelijk gebruikt worden. Ook hier ook hier is er dus de mogelijkheid dat deze symbolen niet zomaar arbitraire hoge level symbolen zijn die gehardcode zijn in ons (Chomsky & Halle 1968) en op grond daarvan eventueel gedoemd zijn betekenisloos te blijven voor agenten van een andere aard (Searle).
Eventueel zou het mogelijk zijn om met een algoritmen zoals dat van Hayes agenten te ontwerpen die zonder geprogrammeerde fonemen talen kunnen leren synthetiseren; met praktische toepassingen als universele spraaksynthesizers of agenten die hun eigen optimale taal ontwikkelen.
Het is mogelijk dat er basis principes zijn waarlangs deze groepen worden aangelegd en vervolgens via communicatie aangepast (op de begrippen van anderen) en gemeenschappelijk gemaakt (zoals met kleurconcepten bij Steels en Belpaeme).
Situatie
Dit draagt niet alleen oplossingen aan voor de problemen van theoretici, die deze hebben met betekenis van de symbolen voor de formele systemen (namelijk dat ze betekenis voor ons hebben en dat slechts de vorm van de symbolen betekenis heeft voor de systemen), maar ook practische kanten zou kunnen hebben voor onderzoek en toepassingen. Ik zou dan ook graag willen aangeven wat volgens mij de meest praktische kanten zijn van grounding; naast dat het theorie dichter bij de practijk zou brengen. Wat ons brengt bij; Waarom grounding in de phonetiek? In het veld van AI staat de theorie niet zelden ver van de praktijk; zo niet anders bij fonetiek (praktisch gericht onderzoek) en fonologie (de theoretische kant die op zoek is naar algemeen geldende regels). Het grounden van fonemen in de fonetiek zou echter deze praktijk dichter bij de theorie kunnen brengen, zoals Hayes al betoogde (met zijn eigen grounding principe naast Optimality Theory). Daarnaast geeft een theorie die praktisch toepasbaar is ook mogelijkheden tot proefopstellingen waarmee onze eigen talen onderzocht en vergeleken kunnen worden. Bijv. Simulaties met communicerende agenten waarbij soortgelijke phonemen onstaan. Praktijk onderzoek (waar de resultaten vaak op steunen) lopen het gevaar hun theorieen te ontwikkelen door ze steeds aan te passen op de resultaten; wat lijkt op een soort hill-climbing. Het gevaar daarbij is dat je soms op locale maxima terecht komt. Waarbij nog komt dat, zoals elke programmeur weet, een dergelijke aanpak zelden leidt tot elegante oplossingen.
Laten we even kijken naar de huidige praktijk.
Fonologie onder praktijk. Fonetiek zonder theorie. Fonologie zonder praktijk betekent in effect dat theoretische modellen, niet aan te tonen zijn met proefopstellingen; vergelijkbaar met de situatie van klassieke psychologie. Een situatie die bijdraagt aan het blabla imago van filosofie. Waarbij ik nog wil laten aantekenen dat het niet alleen jammer is van het imago, maar dat dit ook betekent dat veel onderzoek gewoon niet gebruikt wordt en dat is zonde. Terwijl fonetiek slechts alleen maar afhankelijk is van proefopstellingen kort door de bocht te vergelijken met het behaviorisme in de psychologie, waarbij in en output het enige is wat telt. De achterliggende systemen, waar AI juist onderzoek naar doet, worden buiten beschouwing gelaten. Een van de doelstellingen van AI zou juist moeten zijn om te achterhalen hoe het bij ons werkt en het zou zonde zijn om dit te laten varen. Een dergelijke aanpak van beginnen en vanuit een oogpunt dicht op zaken ad hoc oplossingen zoekn is vergelijkbaar met ‘poor design’ in programmatuur; wat vaak leid tot locale optima en slechte schaalbaarheid (en niet zelden het verliezen van het overzicht en onnodig lange ontwikkeling). Een rol waarbij theoretische grondslaggelijke processen werden gemodelleerd en in de praktijk werden gebracht; waarop vervolgens nieuwe theorieën konden worden gebaseerd was al eerder weggelegd voor AI juist weer in het veld van psychologie.
Enkele begrippen die tegen gaan komen Onderzoeken in de fonetiek komen vaak dat het vormen van fonemen en foneemgrammatica afhangt van restricties. Ook in de fonologie wordt gezocht naar theorieen met simpele en verklaarbare regels.
worden dus samengebracht in een regel die fonetieke regels opleveren. Steriade (1995, in progress) gebruikt de notie van distinctie ook als aanname; maar laat daar wel bij optekenen dat in sommige gevallen de plaats van een foneem niet alleen wordt bepaald door de distinctie.
Ik zal even twee verschijnsel opsommen die in de literatuur gebruikt worden als restricties:
Want er is ook zoiets als;
Distinctie van fonemen.
Gemak van fonemen.
Een van de eisen aan foneemgrammatica is dat fonemen van elkaar te onderscheiden zijn als je ze met elkaar we vergelijkt een-op-een of in sequentie. (Dit is onontbeerlijk voor communicatie).
Hayes verdiept zich ook in het gemak van realisatie van fonemen. Het eerste deel van zijn Inductive Grounding algorithme, draait hier zelfs op. Daarbij beschrijft hij dat een taal lerende agent voor zichzelf allerlei configuraties kan uitproberen om zo inzicht te krijgen in fonetieke restricties. Vergelijkbaar met de agenten van Luc Steels die eerst zelf kleur categorieën gaan bepalen voor zichzelf en dan later gaan communiceren.
Dit betekend zowel dat sterk op elkaar lijkende fonemen niet in dezelfde set voormogen komen als dat fonemen grammaticaal niet voor zouden mogen komen daar waar ze niet meer te onderscheiden zijn. Sterk op elkaar lijkende fonemen zijn schwa’s (stomme ‘e’ ‘s) in verschillende talen. Onderzoeken naar realisaties daarvan laten zien dat de grondtonen per taal verschillen. (voor een voorbeeld zie Padget 2001). Met niet te onderscheiden fonemen bedoel ik niet de stomme h van l’hospitâl. Dat is namelijk een teken wat weliswaar wel opgeschreven wordt maar in het geheel niet gerealiseerd hoeft worden. Bepaalde fonemenparen verschillen minder waarneembaar van elkaar dan anderen. Deze notie wordt gebruikt in fonetiek om spraak herkenbaar te maken; onderzoek leverde duidelijke voorbeelden op dat dit principe ook gevolgen heeft voor echte talen Bijvoorbeeld; Onderzoek van Padget (2001) in Contrast Dispersion. Padget gaf in dit paper een voorbeelden van klinkers en hun gepalataliseerde tegenhanger. Ze merkte hierbij op dat als een taal onderscheid maakt tussen het minst verschillende paar (i > ji) de taal dan ook onderscheid maakt tussen alle meer verschillende paren (resp. je ja jo ju), maar niet per se andersom. Zoals in het engels als voorbeeld van een taal waarbij alle paren als verschillend behandeld worden; met voorbeeld als east/yeast, ale/yale & on & yon. En Spaans waarbij de i en ji klank niet onderscheiden wordt maar waarbij el/jel wel wordt onderscheden en alle klanken daarboven ook weer. Het feit dat i en ji niet voldoende verschillen in sommige talen is dus een regel in de fonetiek, maar niet in de fonologie omdat het niet in alle talen geldt; wat wel geldt is dat als ji een apart foneem is de meer distincte paren ook onderscheden worden (dit is (of kan wel gebruikt worden in) een fonologische regel). Fonetiek en fonologie
Ook hiervoor geldt dat dit principe op te merken is talen, maar dat dat dan weer fonetieke verschijnselen zijn. Variatie per taal die te rechtvaardigen valt door locale maxima bij het zoeken van realisaties. Zo heb je bijvoorbeeld tjechen die met gemak medeklinker na medeklinker plakken of aziatische talen waar men moeite heeft met het realiseren van de rollende ‘r’. Het zou dan ook waardevol kunnen zijn precies hetzelfde onderzoek uit te voeren maar dan met luisterende agenten; en deze dan vergelijken met actiefsynthetiserende agenten (om te staven of Hayes claim van het voordeel van actief participeren blijft staan). Onderzoek van Hayes geeft aan dat de manier waarop talen hun fonemen realiseren graviteren naar de gemakkelijkste punten (locale maxima) van zijn model (van een menselijk spreekorgaan). Wat niet alleen een verklaring voor bestaande verschillen geeft; maar ook een model waarop men voorspellingen kan maken van wat men tegen kan komen in een veld als spraakherkenning. ::Aanpak van grounding:: In de fonologie wordt dikwijls aangenomen dat er principale restricties zijn die fonemen en foneemgrammatica bepalen. Volgens Hayes hamert Steriade op het belang van distinctie in foneemgrammatica; ze beweerd dus dat grammaticas een voorkeur hebben klanken daar te laten voorkomen waar ze ook het best gehoord kunnen worden. En Hayes laat daar bij aantekenen dat sommige klanken het grootste deel van hun hoorbaarheid danken aan de omringende klanken. Optimality Theorie noemt hij daarbij als een theorie die die markedness in grammaticas kan verklaren doordat in deze theorie markedness en
weergave tegen elkaar af worden gewogen met behulp van prioriteiten. Hayes zet daarnaast een in zijn paper beter besproken, en misschien daarom attractievere, aanpak uit; zijn inductive grounding algorithm.
Nu houd men dus een set van regels over van wat voor fonemen wanneer toepasbaar zijn. En deze set is gebaseerd op de fonemen die gerealiseerd moeten worden (die dus goede info overdracht hebben) en hoe makkelijk dis is om te doen. Daar zijn ze dus op gegrond. Wat Dan?
Inductive Grounding Algorithme Het inductive grounden waar Hayes zijn theorie op baseerd gaat erin de beginne vanuit dat een taal lerende agent beschikking heeft een map heeft van met phonemen en de moeite die het kost om ze te realiseren. Daar wil ik even bij optekenen dat babies zo map kunnen maken door te oefenen (brabbelen). Voor zijn agenten gaf ie ze gemodeleerde vocal tracts en daar konden ze door beredeneren wat de map zou moeten worden. Als realisaties voldoen (er zijn meerdere realisaties gevonden die voldoen qua informatie overdracht) dan kan er op de map gezocht worden naar een goede restrcitie (een goed restrictie is die restrictie die de moeilijkste realisatie uitsluit). De effectiviteit van de restrictie kan dan volgens Hayes worden uitgedrukt door: Effectiveness = Correct Predictions/(Correct Predictions + Error) De beste effectiviteit is dus 1 omdat de restrictie dan perfect is (alle moeilijkere realisaties vallen af). Tot op zo ver kunnen we dan constraints vinden die effectief zijn zonder dat wij dat als programmeurs hoeven aan te geven.
Je kunt deze constraints gaan rangschikken, daarvor draagt Hayes een algorithme aan (Tesar Smolensky 1993, 1995) En Hayes incorporeerd dan nog wat constraints die niet hun origine vinden in het realiseren van fonemen. ::Conclusie:: Hayes heeft een systeem bedacht wat in staat is opzich zelf regels te bedenken voor zoiets complex als fonemen. Niet veel anders dan bij Steels is het systeem in staat zijn eigen concepten te bedenken; aan de hand van sensorische data. Verschil is hierbij dat deze data ook over het fysiek van de robot gaat (hier komt dus een stuk embodiment om de hoek kijken). Het zou een mooi vervolg onderzoek zijn om robots over hun fonemen te laten communiceren in analogie van het onderzoek van Belpaeme. Systemen die met simpele regels (informatie overdracht en haalbaarheid) zelf ingewikkelde concepten en grammaticas voor die concepten ontwikkelen; dat riekt al minder naar [begrip voor symbolen die slechts in ons hoofd worden uitgelegd]. En als die concepten informatie overdracht en haalbaarheid ook weer kunnen uitgelegd zouden werkende proefopstellingen ons verder kunnen brengen in begrip over onszelf.
Het grounden Wat levert dat op? Hayes vind dat een een dergelijke set van constraines niet voldoende is hij noemt dat nog niet geground. Hayes betoogt dat je weliswaar wel alle perfecte regels kan kiezen maar dat dat complexe regels opleverd en teveel riekt naar opgelegde constraints. Daarvoor is zijn inductie grounding algorithme opgezet wat hij daartna doet is de gevonden constraints naast elkaar zetten en effectiveness vergelijken. Hij wil dan alleen die constraints overhouden dieeffectiver zijn dan hun buren. Buren zijn constraints die simpeler dan wel even simpel zijn als de constraint in beschouwing. Daarmee bedoel hij dat een constraint een mutatie weg mag liggen. Voorbeeld de Constraint [LAB, -voice] heeft als buren met dezelfde of minder groote complexiteit [LAB,+ voice], [LAB,+ voice], [COR,-voice], [DORS,-voice], [LAB], [voice]. [LAB, -voice] is overigens bijvoorbeeld een p het is een phoneem zonder stem waarbij men de lippen gebruikt.
Wat niet alleen verklarende modellen voor de eigen taal oplevert, lerende systemen,maar ook onderzoeks opstellingen. Je zou bijvoorbeeld na kunnen denken over optimale (betere dan de huidige) talen; denk daarbij aan een project als esperanto. Maar ook aan talen voor agenten die samen moeten werken, met andere synthesizer-eigenschappen of in andere media (wat distinctie kan beinvloeden). Of Spraakgestuurde systemen die zichzelf kunnen programmeren, zodat ze opgelost kunnen worden voor meerder talen en zelfs veranderende talen.