Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami reg. č.: CZ.1.07/2.2.00/28.0076
Lingvistické aplikace
Kateřina Veselovská
[email protected]
po 16:45 – 18:15 Kateřinská 17, 1.16
Kateřina Veselovská vědecká pracovnice + doktorandka ÚFAL On the Linguistic Structure of Emotional Meaning in Czech
produktová manažerka pro textovou analytiku
Co budeme dělat Lingvistické aplikace = kde všude lze lingvistické znalosti uplatnit prakticky
Co budeme dělat • lingvistická analýza textu (k čemu a jak) • rozpoznávání mluvené řeči (dialogové systémy a spol.) • rozpoznávání jazyka (strojový překlad apod.)
• „dolování informací“ (automatická detekce emocí atd.) • neuro a psycholingvistické aplikace…
Co budu chtít • aktivní účast v semináři • esej na vybrané téma • heslo v encyklopedii
Co za to • zápočet
Lingvistické aplikace Aplikovaná lingvistika = VŠECHNO…
Aplikovaná lingvistika a) „humanitní“ = didaktika jazyka, teorie překladu, jazyková terapie… b) „komputační“ = umělá inteligence, automatizace, strojový překlad…
Aplikovaná lingvistika c) „narativní věda“ = vězměte jakákoliv data (zákaznické e-maily, fotbalové statistiky, bankovní účty) a proměňte je v příběh.
Lingvistická analýza textu – motivace Samotná data vám řeknou JAK se lidé chovají. Lingvistická analýza vám řekne PROČ.
Příklady zdrojů dat
Lingvistická analýza textu – motivace • lepší pochopení zákaznických potřeb – o čem zákazníci mluví, co si myslí, jak se cítí atp.
• zefektivnění práce zaměstnanců – úspora času, inteligentní plánování
• obeznámenost s konkurencí – co plánují, na čem pracují, o čem se baví ostatní
• integrace výše zmíněného – přizpůsobení procesů
Lingvistická analýza textu ‒ jak • automatická kategorizace
• sémantické technologie
• shluková analýza
• extrakce entit
• automatická sumarizace
• question answering
• analýza sentimentu
• strojový překlad atd.
Příprava dat • segmentace na věty • tokenizace • spell-checking • lemmatizace • Part-of-speech tagging
• parsing
Automatická kategorizace • obsahová analýza • přiřazuje k textu některou z předem daných kategorií
- na základě četnosti výskytů - na základě strojového učení
Automatická kategorizace Také jsem se o tuhle hypotéku trochu zajímal. Přišla mi až podezřele výhodná a bez skrytých drobných částek placených kolem, které ve finále hypotéku celkem přidraží. Problém je, když něco najdou (nějaký dluh nebo nějakou nesrovnalost). To prý žádost o hypotéku zamítnou, zapíše se to do databáze a je potom složitější získat hypotéku u jiné instituce. kategorie hypotéka
Shluková analýza
• obsahová analýza • rozděluje texty do skupin - na základě podobností - sémantické sítě - hierarchické/nehierarchické klastrování
Shluková analýza
Sumarizace textu • summary extraction – výběr podstatných vět (heuristika, statistika, latentní sémantická analýza) • summary abstraction – hlubší sémantická analýza
Sumarizace textu Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Ale kterou CK vybrat. Kam jít koupit svou vysněnou dovolenou. Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě. Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám si dovolenou na internetových stránkách. Jsou zde zájezdy všech velkých cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojištění stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova - internetem.
Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To vše rychle a z pohodlí domova - internetem.
Analýza sentimentu • automatická extrakce názorů a postojů z textu - pozitivní a negativní sentiment - extrakce cílů hodnocení • jednoduché hlasování • strojové učení – pravděpodobnostní modely
Analýza sentimentu [Pochvala pro callcentrum Reiffeisenbank, když jsem si vyřizoval tu KK Style, aspoň že mají vstřícný zaměstnance, což jinde bejvá někdy problém.]+
- hlasování s prostou většinou na základě slovníku
Analýza sentimentu
Sémantické technologie • získávání informací ze sémantického webu např. pomocí běžných ontologií • extrakce faktů
auto = dopravní prostředek, má řidiče = člověka, který má řidičský průkaz Petr jel autem do práce = Petr pravděpodobně má řidičský průkaz.
Extrakce entit • určení entit zmíněných v textu - známé i neznámé entity - eventy atp.
• katalogy variant • pravidlová extrakce • desambiguace
Extrakce entit „Paris Hilton je jednou z největších superstar současného Hollywoodu. Prosadila se před necelými čtyřmi lety v lehce skandální televizní live-show The Simple Life, kterou produkovala stanice Fox. Dále se objevila v televizních sériích Las Vegas nebo Veronica Mars.“
Question answering • systémy pro automatické odpovědi
- na základě korpusu - filtrování false positives aj.
Q: Co je to aplikovaná lingvistika? A: Narativní věda.
Lingvistická analýza textu - proč • customer churn analysis • customer loyalty analysis
• customer risk analysis • customer feedback analysis • analýza sociálních sítí
Customer churn analysis „Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od roku 2002 a jediné co mi umíte nabídnout jsou běžné − a stále dost nevýhodné − tarify. Člověk si aspoň uvědomí, jak moc potřebujeme Evropskou unii (jejíž instituce jako jediná z relevantních subjektů tlačí ceny dolů). Po špatných zkušenostech hodlám přejít ke konkurenci.“
• analýza sentimentu, kategorizace
Customer loyalty analysis „Produkt této společnosti používám na několika PC už několik let a zatím jsem neobjevil žádné vady. Vzhledem k mé naprosté spokojenosti ani do budoucna nehodlám měnit.“
• analýza sentimentu, kategorizace
Customer risk analysis • Detekce lži: kratší věty, krátká slova, více výrazů vyjadřujících pozitivní emoce… (+ další dimenze)
• Detekce spamu, detekce falešných profilů aj.
• obsahová analýza, analýza sentimentu
Customer feedback analysis „Koupit si tento fotoaparát a spoléhat na jméno firmy se mi vůbec nevyplatilo. Např. proti mému stařičkému fotoaparátu je toto naprostý propadák. Průměrný telefon s fotoaparátem udělá stejné, ne-li lepší fotografie. Ani komunikace s centrem podpory nestojí za nic. Výrobek mě zklamal a víckrát už si žádný produkt této firmy bezpochyby nekoupím.“ cílený marketing
Analýza sociálních sítí
personalizovaný marketing, individuální interakce se zákazníkem
Lingvistická analýza textu - shrnutí • žijeme ve věku „velkých dat“, která stále přibývají
Lingvistická analýza textu - shrnutí • rozvoj Webu 2.0 => obsah generovaný uživateli => potřeba třídění a vytěžování informací => potřeba kvalifikovaných lingvistů
Příště – témata • exkurze na ÚFAL • dialogové systémy
Příště – úkoly • popovídejte si s Petrou:
• popovídejte si s Alex: 800 899 998