Postojová modalita a možnosti automatické extrakce emocionality z psaného textu Kateřina Veselovská
[email protected]
2. prosince 2016, Ústav jazyků a komunikace neslyšících
Osnova • Představení projektu • Emoce v jazyce – motivace • Jazykovědné aspekty postojové analýzy • Kam jsme došli a kam směřujeme
Kdo jsme = SEntiment ANalysis in Czech Kateřina Veselovská Vladislav Kuboň, Jana Šindlerová, Aleš Tamchyna, Jan Hajič, Jr. + studenti
http://ufal.mff.cuni.cz/seance/
Odkud přicházíme •
Ústav Formální a Aplikované Lingvistiky MFF UK
• tým vědeckých pracovníků, programátorů, pedagogů a studentů, kteří společně pracují na široké škále témat spojených s oborem počítačové lingvistiky • GAUK "Sentence-Level Polarity Detection in a Computer Corpus" • GAČR "On Linguistic Structure of Evaluative Meaning in Czech"
Odkud přicházíme
• strojový překlad, dialogové systémy, závislostní korpusy (PDT, PCEDT, PDTSC…) https://ufal.mff.cuni.cz/teaching/prospective-students/
Emoce v jazyce Rozpor: • emocionální prožitek je společností vnímán jako pozitivní hodnota („žít“ znamená „cítit“) • život s nedostatkem emocí je vnímán jako plochý, neuspokojivý • neschopnost interpretovat komplexní emoce jako mentální handicap (Aspergerův syndrom aj.) X • v mezilidské komunikaci jsou emoce (jak pozitivní, tak negativní) často prostředkem manipulace
Emoce v jazyce Sociolingvistika • interpersonální funkce – sociální vztahy mezi lidmi jsou vyjadřovány jazykově • textové strategie
Emoce v jazyce Pragmalingvistika • faces – positive, negative - to, co vystavujeme k veřejnému (pozitivnímu) hodnocení, to, čím se vůči společnosti vymezujeme negativně • strategie „ohrožování tváří” a strategie „zachování tváře”
Emoce v jazyce Forenzní lingvistika • míra emocionality/expresivity textu jako distinktivní rys
• predikce lži
Emoce v jazyce Teorie komunikace • Speech Act theory – expresivní ilokuční akt – vyjádření postoje a emocí • Griecovy konverzační maximy • RaBR, nenásilná komunikace a další praktické komunikační techniky – úspěšná a účelná komunikace má být prosta emocí. Explicitní hodnocení (i pozitivní) vnímáno negativně.
Emoce v jazyce Manipulativní techniky v médiích • teorie argumentace, logické (argumentační) fauly: zesměšňování, zastrašování, lichocení, vyvolání zášti, kvalifikující jazyk... „Každá slušná rodina chodí do kostela.”
Emoce v jazyce Míra subjektivity textu jako měřítko „dobré/špatné” žurnalistiky J.X.D.: „Příběh je to tak strašně podobný těm drogovým, že se zdá být termín „nesubstanční závislost“ používaný některými lékaři jako oprávněný. Podle mého je to však blbost.”
Emoce v jazyce • objektivní žurnalistika x komentáře, názory, sloupky vyjadřující stanovisko redakce x subjektivní blog • kategorie „pravda” ustupuje kategorii „ztotožnění s převládajícím názorem”? • kritická analýza diskurzu (např. migrační krize)
Emoce v jazyce Marketingové strategie: emocionalizace produktů „Mléko pro spokojená bříška.”
Emoce v jazyce Marketingové strategie: emocionalizace produktů
Emoce v jazyce PR: mluvčí společnosti • prezentuje cizí postoje bez odkazu na vlastní postoje • musí vyjádřit hodnocení informací, ale bez emocionality
• vytváří maximálně pozitivní obraz společnosti minimálně emocionálními prostředky
Emoce v jazyce • Analyzovat a interpretovat emocionalitu (subjektivitu, expresivitu, atd.) v textu je v rámci analýzy a interpretace komunikace důležité. • Proto se zabýváme tím, jaké prostředky jsou pro vyjadřování emocionality (subjektivity, postojů, atd.) jsou v češtině dostupné, obvyklé, a jak se liší od prostředků jiných jazyků.
Osnova • Představení projektu • Emoce v jazyce – motivace • Jazykovědné aspekty postojové analýzy • Kam jsme došli a kam směřujeme
Postojová analýza • sentiment analysis • automatická extrakce názorů a postojů z textu a řeči = co si vlastně lidé myslí
Postojová analýza • sentiment analysis • automatická extrakce názorů a postojů z textu a řeči = co si vlastně lidé myslí
Postojová analýza • binární úloha nebo ordinální škála: - líbí x nelíbí -
Proč to děláme • hodnocení produktů • průzkum veřejného mínění • monitoring sociálních sítí • intenční analýza • forenzní lingvistika • predikace trendů v marketingu – vývoj akciových trhů • predikace výsledků voleb
Proč to děláme • potenciální zákazník – názory a komentáře jiných • uživatel – sdílení zkušeností • obchodník – zpětná vazba
Jak to děláme • kvalitativně: • případové studie • kritická analýza diskurzu (Zámec, 2009) • rozhovor • zúčastněné pozorování
Jak to děláme • kvantitativně: • větší soubory dat/respondentů • obsahová analýza • dotazníky • strojové učení
Jak to děláme • kvantitativně: • větší soubory dat/respondentů • obsahová analýza • dotazníky • strojové učení ↑ TADY VYUŽÍVÁME LINGVISTIKU
Jak to děláme • strojové učení: klasifikace, regrese, klastrování… • statistické metody • pravděpodobnostní modely
• metody kvantitativní lingvistiky (tematická koncentrace, Veselovská & Čech, 2014)
Jak to děláme • unsupervised learning • supervised learning - support vector machines - maximální entropie
- slovníkové klasifikátory - Naivní Bayesův klasifikátor
Jak to děláme • unsupervised learning • supervised learning - support vector machines - maximální entropie
- slovníkové klasifikátory - Naivní Bayesův klasifikátor
Jak to děláme Naivní Bayesův klasifikátor • základní algoritmus • filtrování - podle slovních druhů - na základě frekvence - zohlednění negace - zohlednění textových jevů
Postojová analýza z lingvistického hlediska • The language of morals (Hare 1952): filozofie jazyka, etika • Appraisal theory (Martin & White 2005): systemická funkční lingvistika
• The stance triangle (DuBois 2007): konverzační analýza • Stance adverbials (Conrad & Biber 2000): kvantitativní přístup • Flavours of corpus (Hunston 2011): korpusová analýza • Mezijazykové srovnání (Baider & Cislaru 2014)
Postojová analýza z lingvistického hlediska • • • • • • • • • •
Bečka Daneš Čmejrková Hausenblas Hoffmannová Krčmová Grepl Mikulová Čermák stylistiky češtiny
Postojová analýza z lingvistického hlediska • Bečka • Daneš • Čmejrková • Hausenblas • Hoffmannová • Krčmová • Grepl • Mikulová • Čermák • stylistiky češtiny + Veselovská 2015
Postojová analýza lexikálně
Nerezový vejcovar Steba má vyměnitelné pláty pro volská oka. vs.
Krásný nerezový vejcovar Steba je i u netrpělivých zákazníků velmi oblíben.
Postojová analýza lexikálně
Nerezový vejcovar Steba má vyměnitelné pláty pro volská oka. vs.
[Krásný nerezový vejcovar Steba je i u netrpělivých zákazníků velmi oblíben.]+
Postojová analýza lexikálně
Nerezový vejcovar Steba má vyměnitelné pláty pro volská oka. vs.
[Krásný nerezový vejcovar Steba je i u netrpělivých zákazníků velmi oblíben.]+ = hlasování prostou většinou
Postojová analýza lexikálně Czech subjectivity lexicon 1.0 (Veselovská & Bojar, 2012)
Postojová analýza lexikálně Czech SubLex 1.0 • překlad části MPQA korpusu (Wiebe et al. 2004) přes paralelní korpus CzEng (Bojar & Žabokrtský 2006) 1954 substantiv 1698 sloves 819 adjektiv 465 adverbií 4936 hodnotících slov
přístupný ze stránek Seance (Veselovská 2013, Veselovská et al. 2014)
Postojová analýza lexikálně
automatická detekce: • indikátory • explicitní hodnocení
Postojová analýza lexikálně
• indikátory: slovesa osobního mínění - myslet, domnívat se, předpokládat, pohlížet na…
Postojová analýza lexikálně • explicitní hodnocení: vyjádření citového stavu - nesouhlasit s, nesnášet, chválit, zbožňovat…
[Toho hrdopýška všichni nesnášejí.] [Toho hrdopýška všichni chválí.] +
Postojová analýza lexikálně • augmentativa (babizna) • deminutiva (dědoušek)
• eufemismy (okrasný tukový prstenec x špek) • vulgarismy (@#%$!!)
• evaluativní frazémy a idiomy • pojmenované entity
Postojová analýza lexikálně Vulgarismy: neutrální: Je tu tma jak v prdeli. pozitivní: S Jardou je vždycky prdel. negativní: A je to v prdeli.
Postojová analýza lexikálně za málo peněz hodně muziky mít se jako prase v žitě cítit se jako nahý v trní stát za houby být příjemný jako osina v zadku jít jako po másle být šťastný jako blecha tvářil se, jako by mu uletěly včely má to své mouchy lepší než drátem do oka
Postojová analýza lexikálně moderátorka Jolka Krásná obec Krásná karpatský hřeben Krásná polonina zemědělské družstvo Krásná Hora nad Vltavou bar/pořad Krásný ztráty časopis Krásná a zdravá lunární kalendář Krásné paní píseň Krásná je Neapol poéma Krásná Poldi román Cizinec a krásná paní film Život je krásný soutěž Věda je krásná
Postojová analýza lexikálně + alternativní grafická podoba • emotikony :-) :-D :-P ;-) >:-[ :-/ :-( … • výrazná interpunkce!!!!!!!??????????!!!!!! • opakování znaků: Supeeeeeeeeer! • důraz pomocí kapitálek: Je to prostě BOŽÍ! • vytýkání: Kolínka nade všechno *miluju*. • nové pojetí vulgarismů: KUA
Postojová analýza morfologicky
• důležitost desambiguace Dobře, já to udělám. vs. Zachoval se dobře.
Postojová analýza morfologicky
• korpusová analýza Mají nejfrekventovanější slovní druhy největší vliv na celkovou polaritu věty? - do velké míry otázka syntaxe, ale! pracujeme s prostým textem
Postojová analýza morfologicky
[Toho hrdopýška všichni nesnášejí.] – [Toho hrdopýška všichni chválí.] + → hodnotící sloveso má větší indikační sílu než hodnotící substantivum
Postojová analýza morfologicky
[Toho hrdopýška všichni nesnášejí.] – [Toho hrdopýška všichni chválí.] + → hodnotící sloveso má větší indikační sílu než hodnotící substantivum → hlasování prostou většinou nestačí
Postojová analýza morfologicky
• důležitost částic [Bohudík toho hrdopýška všichni nesnášejí.] + [Bohužel toho hrdopýška všichni chválí.] – → emocionální částice má větší indikační sílu než evaluativní sloveso - chválabohu, naštěstí, zaplať pánbůh…
Postojová analýza morfologicky
• důležitost adjektiv [Bylo příjemné nedorozumění.]+
→ hodnotící adjektivum má větší indikační sílu než hodnotící substantivum
Postojová analýza morfologicky
• pragmatická odbočka: ironie Byl to hrdinný chlípník. Byl to chlípný hrdina.
Postojová analýza morfologicky
• pragmatická odbočka: ironie Byl to hrdinný chlípník. Byl to chlípný hrdina.
Postojová analýza morfologicky
• intenzifikátory [Ještě si pamatuju, že to kafe bylo strašně dobrý.] +
Postojová analýza morfologicky • důležitost negace - obrací větnou polaritu [Jídlo nebylo dobré.] –
Pravidlo: vše napravo od negace má opačnou polaritu. pozor! členská negace (Veselovská 2011)
Postojová analýza syntakticky • důležitost slovesa zdroj – hodnocení – cíl subjekt – predikát – objekt
→ trénování klasifikátoru na syntakticky analyzovaných datech, sémantické rysy (Šindlerová & Veselovská 2014)
Postojová analýza syntakticky • ruční pravidla pro automatickou detekci cílů hodnocení (Veselovská & Tamchyna 2014, 2015 a 2016)
„Když jsem evaluativní adjektivum a jsem součástí verbonominálního predikátu, je podmět slovesa, na kterém visím, pravděpodobně cílem hodnocení.“ Jan je ušlechtilý.
• vyhledávání potenciálně evaluativních závislostních struktur v PDT pomocí slov ze SubLexu
Postojová analýza syntakticky • příprava trénovacích dat pro experimenty • ruční anotace závislostních dat – pilotní studie • nové rozhraní editoru TrEd: PML_T_Sentiment
Postojová analýza syntakticky
Byl perfektní a věděl o řízení závodního vozu úplně všechno.
Postojová analýza syntakticky • nadvětná syntax: možnost propojení s anotací diskurzních vztahů a koreference zdroj – hodnocení – cíl = subjekt – predikát – objekt
ale! na plain textu mnohdy zdroj nebo cíl nenajdeme:
Postojová analýza syntakticky • nadvětná syntax: možnost propojení s anotací diskurzních vztahů a koreference zdroj – hodnocení – cíl = subjekt – predikát – objekt
ale! na plain textu mnohdy zdroj nebo cíl nenajdeme: Pokud se v rámci nejnižšího stupně tržní hierarchie chovají slušně, neformální společnost trhovců je svým způsobem uznává a odměňuje je zbytky potravin, poskytne jim i místo ke spánku.
Postojová analýza syntakticky
Postojová analýza syntakticky
Postojová analýza syntakticky Textová syntax • adverzativní koordinace
[Pláž byla hrozná]- , ale [v hotelu se nám líbilo.]+
Pravidlo: posuzujeme jako samostatné věty pozor! gradační vztah
Postojová analýza syntakticky • přípustkové spojky přestože, ačkoliv, jakkoliv, byť, i když…
Přestože příjezd nesplnil všechna jeho očekávání, leccos ho potěšilo.
Postojová analýza syntakticky
• konstrukce s významem srovnání • podmínkové věty
Postojová analýza sémanticky styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ „Jeho
→ zdroj
Postojová analýza sémanticky „Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ → zdroj → cíl
Postojová analýza sémanticky „Jeho styl mi nic neříká, neoslovuje mě. Poezii (já) miluju, ale Šrámek ani náhodou. Ve škole na něj češtinářka pěla ódy, tak mě to zajímalo, jestli je (on) fakt tak dobrej, chtěla jsem přečíst i něco jinýho než Splav, ale neshledala jsem (já) v jeho díle nic obdivuhodného, takže (já) fakt nechápu tu všeobecnou glorifikaci.“ → zdroj → cíl → hodnocení
Postojová analýza sémanticky
zdroj – hodnocení – cíl agens – predikát – patiens • ruční pravidla pro automatickou detekci zdrojů a cílů (Šindlerová & Veselovská 2014)
Postojová analýza sémanticky
Postojová analýza sémanticky Teorie postojové konzistence: Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997) - lexikální pole (Lehrer 1974)
- omezení užitím (Lyons 1977) - spojky kladou omezení na sémantickou orientaci svých argumentů (Anscombre & Ducrot 1983)
Postojová analýza sémanticky Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997)
Petr je laskavý a oduševnělý. x *Petr je laskavý a chamtivý.
Postojová analýza sémanticky Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997)
Petr je laskavý a oduševnělý. x *Petr je laskavý a chamtivý.
Postojová analýza sémanticky Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997)
Petr je laskavý, ale chamtivý. x *Petr je laskavý, ale oduševnělý.
Postojová analýza sémanticky Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997)
= > konektor A spojuje výrazy se stejnou polaritou
konektor ALE spojuje výrazy s opačnou polaritou
Postojová analýza sémanticky Hatzivassiloglou & McKeown Predicting the Semantic Orientation of Adjectives (1997)
= > konektor A spojuje výrazy se stejnou polaritou
konektor ALE spojuje výrazy s opačnou polaritou
* úspěšnost klasifikace přes 90% (korpus o 21MW)
Postojová analýza sémanticky = > pravidlo pro automatický klasifikátor: „Najdeš-li v textu konektor A, kterému předchází výraz kladný, následující část hodnocení bude pravděpodobně také kladná.“
Postojová analýza sémanticky = > pravidlo pro automatický klasifikátor: „Najdeš-li v textu konektor ALE, kterému předchází výraz kladný, následující část hodnocení bude pravděpodobně záporná.“ (a vice versa)
Postojová analýza sémanticky • v lingvistice pro testování synonymie/antonymie • lze vztáhnout také na další autosémantika uštěpačně a podle; dobrodinec, ale blázen… • lze uplatnit na různé konektory z kategorií conc, conj, conjalt, confr, disj, disjalt, grad, opp… • analýza na češtině (Přikrylová, Kuboň & Veselovská 2016)
Postojová analýza sémanticky
Postojová analýza sémanticky + alternativní vyjádření diskurzních konektorů
navzdory tomu, na rozdíl od toho, i přes tato fakta, jednoduše řečeno…
Postojová analýza sémanticky + alternativní vyjádření diskurzních konektorů navzdory tomu, na rozdíl od toho, i přes tato fakta, jednoduše řečeno… Navzdory tomu, že dobře vypadáte a máte šarm, jste pěkný posera. [syn2010]
Postojová analýza pragmaticky
hodnocení je často závislé na doméně:
• chytrý telefon x chytrý zásah litvínovského útočníka • tichý vysavač x tichý detektor kouře • „Go read the book!“
+ kulturní závislost
Postojová analýza pragmaticky
hodnocení je často závislé na situaci:
Dneska je hezky.
Postojová analýza pragmaticky • ironie • sarkasmus
• implicitní hodnocení • „lidé hovořící na formulář“ (Veselovská & Hajič Jr., 2013)
Postojová analýza pragmaticky
„Rubbish hotel in Madrid“
Postojová analýza formálně hodnocený cíl = objekt → o: (C, A) C = hierarchie komponentů (částí) - baterie, displej… A = množina atributů
- výdrž, rozlišení…
Postojová analýza formálně
Postojová analýza formálně • rozšíření formalismu konstrukční gramatiky (Veselovská 2014)
Postojová analýza formálně
Postojová analýza formálně
Postojová analýza formálně
Postojová analýza formálně
Osnova • Představení projektu • Emoce v jazyce – motivace • Jazykovědné aspekty postojové analýzy • Kam jsme došli a kam směřujeme
Kam jsme došli
(Veselovská 2015)
Kam jsme došli http://twittersentiment.appspot.com/
Kam jsme došli http://socialmention.com/
Kam jsme došli
Zdroj: http://www.yeseter.com
Kam jsme došli
Zdroj: http://www.semantic-visions.com/
Kam jsme došli
Kam jsme došli
Kam směřujeme • analýza multimodálních dat – modelování emocí u robotů (Veselovská 2014)
Kam směřujeme • lepší detekce cílů (umělé neuronové sítě) • analýza mluvených dat (suprasegmentální rovina emocionálního vyjadřování) • psycholingvistické experimenty
*Děkuji* za pozornost!!
*Děkuji* za pozornost!!
[email protected] Lingvistické aplikace, FFUK, st 9:10-10:50 http://ufal.mff.cuni.cz/~veselovska