New Media Inspiration 2013
Martin Petrášek, eMerite.cz
Softwarová analýza dat z monitoringu internetových diskusí: Cesta do pekel
Případová studie: Srovnání výsledků Softwarová analýza dat nástrojem pro Social Media Monitoring versus Obsahová analýza týchž dat nástrojem Homo Sapiens
po očištění od irelevantních výskytů klíčových slov s doplněnými kontextovými příspěvky bez klíčových slov s „ručně“ stanoveným sentimentem (pozitivní/neutrální/negativní) po započtení lajků, sdílení či retweetů jednotlivých příspěvků po zohlednění vlivu Opinion Makers
_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 2. z 11
Klíčová slova k vyhledávání: jména šesti největších českých pojišťoven zkratky ČP (Česká pojišťovna), ČPP (Česká podnikatelská pojišťovna) pojišťovna, pojištění, pojistka, pojistit se, apod. povinné ručení (POV), životko, cestovko, atp. Prohledány byly: příspěvky na Facebooku, Twitteru, Google Plus apod. komentáře pod články samostatná diskusní fóra blogy, a diskuse na dalších typech webových stránek Zdroj dat: kombinace softwarů, určených k monitoringu sociálních médií _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 3. z 11
Výsledek? celkem nalezeno příspěvků 22 981
nerelevantní, bezcenné
Pouze 9 % z příspěvků vyhledaných softwarem obsahovalo nějaký názor či smysluplné konstatování hodné analýzy.
91 % (20 901) relevantní 9 % (2 080)
91 % tvořily irelevantní výskyty klíčových slov a bezobsažné plky.
Počet relevantních zahrnuje navíc oproti softwarově nalezeným: 98 kontextových hodnocení bez uvedení jména pojišťovny (4,7 %) 165 názorů vyjádřených prokliknutím tlačítka „To se mi líbí“ (8 %), „Souhlasím“, „Nesouhlasím“ apod. _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 4. z 11
Které výskyty keywords byly irelevantní? klíčová slova: pojištění, pojistka, pojišťovna, pojistit celkem softwarem nalezeno: 16 300(!) z toho po pročtení relevantních: 775 (4,8 %)
Proč irelevantní? ¾ = sociální/důchodové/zdravotní pojištění, aniž bylo výslovně zmíněno (jistěže daná sousloví byla už v softwaru filtrována) ¼ = obecná konstatování typu „tak jsem si to pojistil“, „pojišťovna to proplácí“ apod.
_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 5. z 11
Které výskyty keywords byly irelevantní? klíčové slovo: ČP celkem softwarem nalezeno: 1 724 z toho po pročtení relevantních: 185 (11 %) Proč irelevantní? ½ ve smyslu „číslo popisné“ ½ = „Česká pošta“ (filtrace slov „dopis“ či „balík“ by odstranila mj. negativní zmínky o tom, že Česká pojišťovna rozesílala v reklamním dopise složenku, což bylo jedno z nejdiskutovanějších témat)
_____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 6. z 11
Které výskyty keywords byly irelevantní? klíčové slovo: generali/generaly „asi nema rada generaly“ (Karolína Peak) klíčové slovo: ČPP „miluju ČPP Ostrava“ (florbalový klub) klíčové slovo: Uniqa/Unika/Uniqua „mě se osvědčila Unika“ (klinika léčby neplodnosti v Brně) Plus stovky a tisíce tweetů a facebookových upoutávek na články zpravodajských serverů, s burzovními informacemi, atp. Filtraci pomocí vylučovacích slov či dle zdrojů nelze vždy použít. Diskutéři nepíšou celými větami, správné tvary slov. _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 7. z 11
Software nechápe souvislosti, kontext.
příspěvek negativní vůči České pojišťovně
příspěvek není negativní vůči České podnikatelské pojišťovně _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 8. z 11
Software nepozná sentiment.
příspěvek negativní vůči (nejmenované) Kooperativě
příspěvek pozitivní vůči (nejmenované) Evropské cestovní pojišťovně Objem diskusí o firmě/značce není roven počtu výskytů jejího jména. Kontextové příspěvky bez klíčových slov totiž tvoří až ¼. _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 9. z 11
Podíly na diskusích dle softwaru:
Skutečnost po očištění dat:
1. Česká poj. 27,8 % 1. ČSOB poj. 36,3 % 2. Allianz 17,1 % 2. Uniqa 19,0 % 3. Generali 11,2 % 3. Allianz 16,7 % 4. Kooperativa 10,4 % 4. Generali 13,6 % 5. ČS 8,3 % 5. Česká poj. 8,5 % 6. ČPP 5,6 % 6. Kooperativa 2,1 % 7. Uniqa 5,6 % 7. ostatní 2,1 % 8. ČSOB poj. 3,5 % 8. ČPP 1,4 % 9. AXA 2,7 % 9. ČS 0,6 % ostatní 7,7 % AXA nenalezena _____________________________________________________________________________________________________ New Media Inspiration 2013
Martin Petrášek, eMerite.cz
10. z 11
A co teprve rozdíly v parametrech: nejdiskutovanější témata v souvislosti s pojišťovnami sentiment u jednotlivých témat nejčastější servery s diskusemi nejaktivnější autoři příspěvků …v nepročtených datech jen samá hausnumera.
Závěry? Softwarová analýza obsahu diskusí poskytuje většinou zkreslená, resp. zcela chybná data. Účelem softwaru je monitoring, tzn. sběr dat. Smysluplně zanalyzovat obsah a emoční vyznění textu může jedině člověk. _____________________________________________________________________________________________________ New Media Inspiration 2013 Martin Petrášek, eMerite.cz 11. z 11