Využití dataminingu v oblasti hotelnictví Diplomová práce
Bc. Štěpán Chalupa Vysoká škola hotelová v Praze 8, spol. s r. o. katedra Hotelnictví
Studijní obor: Management hotelnictví a lázeňství Vedoucí diplomové práce: doc. RNDr. Zdena Lustigová, Csc. Datum odevzdání diplomové práce: 2015-05-07 E-mail:
[email protected]
Praha 2015
Master’s Dissertation
Datamining in hotel industry
Bc. Štěpán Chalupa
The Institute of Hospitality Management in Prague 8, Ltd. Department of Hospitality Management
Major: Hotel and Spa Management Thesis Advisor: doc. RNDr. Zdena Lustigová, Csc. Date of Submission:2015-05-07 E-mail:
[email protected] Praha 2015
Čestné prohlášení Prohlašuji, že jsem diplomovou práci na téma Využití dataminingu v oblasti hotelnictví zpracoval samostatně a veškerou použitou literaturu a další podkladové materiály, které jsem použil, uvádím v seznamu použitých zdrojů a že svázaná a elektronická podoba práce je shodná. V souladu s § 47b zákona č. 111/1998 Sb., o vysokých školách v platném znění souhlasím se zveřejněním své diplomové práce, a to v nezkrácené formě, v elektronické podobě ve veřejně přístupné databázi Vysoké školy hotelové v Praze 8, spol. s r. o.
………………..…….......... Štěpán Chalupa V Praze dne 07. 05. 2015
Poděkování Rád bych touto cestou poděkoval doc. RNDr. Zdeně Lustigové, CSc., která mě během psaní této diplomové práce odborně vedla a poskytovala mi rady, zlepšovací návrhy a komentáře, díky kterým jsem byl schopný tuto práci zdárně dokončit. Dále bych rád poděkoval všem bývalým kolegům ze společnosti Vienna International Hotels & Resorts za poskytované informace, názory a odborné komentáře, které jsem získal během své odborné stáže v obchodním oddělení této společnosti. V neposlední řadě bych chtěl poděkovat celé své rodině, která mě podporovala během celého mého studia a tvořila tak pevný základ, na kterém jsem mohl postavit nejen své studium, ale i tvorbu této práce.
Abstrakt CHALUPA, Štěpán. Využití dataminingu v oblasti hotelnictví. [Diplomová práce] Vysoká škola hotelová v Praze 8, spol. s r. o. Praha: 2015. 85 stran. Zákaznická hodnocení jsou v současné době velmi důležitým informačních zdrojem. Cílem této diplomové práce je stanovení možností a limitů použitelnosti dataminingového nástroje IBM SPSS Statistics a textminingového nástroje STATISTICA pro analyzování volně dostupných zákaznických hodnocení pražských hotelů Vienna International Hotels & Resorts na serverech Booking.com a TripAdvisor.com. Hlavní metodu zpracování této práce byla explorační analýza dat, protože současná literatura neumožňuje tvorbu ověřitelných hypotéz. Součástí teoretické části práce je rešerše již publikované literatury v oblasti hotelnictví vztahující se aplikaci textmining a dataminingu. Aplikací vybraných nástrojů bylo možné dat sebraná z vybraných zdrojů sumarizovat, identifikovat v nestrukturovaných datech klíčová slova a ty následně porovnat s klíčovými slovy charakterizující jednotlivé hotely. Součástí analytické části je náznak shlukové analýzy, která nemohla být provedena vzhledem k velkému počtu chybějících dat. Shlukovou analýzu by bylo možné aplikovat na data z PMS a dalších systému, ve kterých jsou data v kompletní podobě. Jak datamining, tak textmining májí poměrně významné limity pro aplikaci v hotelnictví, ale pro zlepšení vztahu se zákazníky a jejich lepší identifikaci oba přístupy prokazují velký potenciál. Pro lepší aplikaci by bylo potřebné vybrat modernější nástroje, hlavně v oblasti textminingu. Klíčová slova: dataminingu, textmining, zákaznická hodnocení, explorační analýza dat, statistika, Word of Mouth.
Abstract CHALUPA, Štěpán. Datamining in hotel industry [Master’s Dissertation]. The Institute of Hospitality Management in Prague 8, Ltd. Prague: 2015. 85 pages. Customer reviews are a very important source of information. The aim of this thesis is to determine the possibilities and limits of application of datamining tools IBM SPSS Statistics and STATISTICA textmining tools for analyzing freely available customer reviews of Prague hotels Vienna International Hotels & Resorts from servers Booking.com and TripAdvisor.com. The main selected method of this work was exploratory data analysis, because the current literature does not allow the creation of verifiable hypotheses. The theoretical part of the work is research of already published literature in the field of hospitality related to textmining and data mining application. During application of selected instruments it was possible to summarize collected data from selected sources, identify keywords in unstructured data and then compare those keywords with characteristics of individual hotels. Part of the analysis is a hint of cluster analysis, which could not be performed due to the large number of missing data. Cluster analysis could be applied on data from PMS and other systems where data are in complete form. Datamining and textmining have quite significant limits for application in the hotel industry. On the other hand using these tools can be used to improve customer relations and their better identification. Both approaches show great potential. For better application would be necessary to choose more advanced tools, especially in the area of textmining. Key words: dataminingu, textmining, customer reviews, exploratory data analysis, statistics, Word of Mouth.
Obsah Úvod ..................................................................................................................................................12 1.
Teoretická část ..........................................................................................................................14 1.1.
Význam zákaznická hodnocení pro zákazníky a provozovatele ubytovacích zařízení ..... 14
1.1.1.
Vliv eWOMu na zákazníka ........................................................................................ 15
1.1.2.
Význam zákaznických hodnocení pro provozovatele hotelu ................................... 17
1.2.
1.1.2.1.
Reputation management ................................................................................. 17
1.1.2.2.
Ekonomické dopady zákaznických hodnocení ................................................. 18
1.1.2.3.
Dopady na SEO ................................................................................................. 19
Využití dataminingu a textminingu v hotelnictví ............................................................. 19
1.2.1.
1.2.1.1.
Rozdíl mezi OLAP a dataminingem................................................................... 21
1.2.1.2.
Modelové procesy dataminingu ...................................................................... 21
1.2.1.3.
Přehled současné literatury vztahující se k aplikaci dataminingu v hotelnictví 23
1.2.2.
2.
Datamining ............................................................................................................... 20
Textmining................................................................................................................ 25
1.2.2.1.
Multidisciplinární struktura textminingu ......................................................... 25
1.2.2.2.
Natural language processing (NLP) .................................................................. 27
1.2.2.3.
Rozdíly a možné propojení textminingu a dataminingu .................................. 28
1.2.2.4.
Modelový proces textminingu ......................................................................... 29
1.2.2.5.
Přehled současné literatury vztahující se k aplikace textminingu hotelnictví . 30
Analytická část...........................................................................................................................32 2.1.
Výběr zdrojových serverů pro sběr zákaznických hodnocení .......................................... 32
2.1.1.
Zdroj 1: Rezervační server Booking.com .................................................................. 32
2.1.1.1. 2.1.2.
Zdroj 2: Recenzní server TripAdvisor.com ............................................................... 35
2.1.2.1. 2.2.
Popis vybraných hotelů ............................................................................................ 38
2.2.1.1.
andel's Hotel Prague ........................................................................................ 38
2.2.1.2.
angelo Hotel Prague ......................................................................................... 38
2.2.1.3.
Chopin Hotel Prague ........................................................................................ 39
2.2.1.4.
Diplomat Hotel Prague ..................................................................................... 39
Úprava a zpracování sebraných dat ................................................................................. 39
2.3.1. 2.4.
Struktura hodnocení a sběr dat ....................................................................... 36
Výběr ubytovacích zařízení pro sběr dat .......................................................................... 37
2.2.1.
2.3.
Struktura zákaznického hodnocení a sběr dat ................................................. 33
Indexace slovních hodnocení programem STATISTICA ............................................ 40
Sumarizace a analýza dat - Booking.com ......................................................................... 43
2.4.1.
Shluková analýza dat ................................................................................................ 43
2.4.2.
Sumarizace sebraných dat ....................................................................................... 46
2.4.3.
Analýza nestrukturovaných dat a abnormálních hodnocení ................................... 53
2.4.3.1.
Analýza slovních a abnormálních hodnocení hotelu andel’s Hotel Prague ..... 55
2.4.3.2.
Analýza slovních a abnormálních hodnocení hotelu angelo Hotel Prague ...... 56
2.4.3.3.
Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague ..... 57
2.4.3.4.
Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague .. 59
2.4.4. 2.5.
Sumarizace a analýza dat - TripAdvisor.com.................................................................... 61
2.5.1.
Shluková analýza dat ................................................................................................ 61
2.5.2.
Sumarizace sebraných dat ....................................................................................... 62
2.5.3.
Analýza nestrukturovaných dat a abnormálních hodnocení ................................... 68
2.5.3.1.
Analýza slovních a abnormálních hodnocení hotelu andel’s Hotel Prague ..... 69
2.5.3.2.
Analýza slovních a abnormálních hodnocení hotelu angelo Hotel Prague ...... 70
2.5.3.3.
Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague ..... 71
2.5.3.4.
Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague .. 73
2.5.4. 3.
Diskuze ..................................................................................................................... 60
Diskuze ..................................................................................................................... 74
Návrhová část............................................................................................................................75 3.1.
Servery Booking.com a TripAdvisor.com jako zdroje dat ................................................ 75
3.2.
Sběr dat ............................................................................................................................ 76
3.3.
Využití dataminingu a dataminingové nástroje IBM SPSS Statistics v hotelnictví ........... 76
3.3.1. 3.4.
Limity využití dataminingu v hotelnictví .................................................................. 77
Využití textminingu a textminingového nástroje STATISTICA v hotelnictví ..................... 78
3.4.1.
Limity využití textminingu v hotelnictví ................................................................... 79
Závěr..................................................................................................................................................80 Literatura...........................................................................................................................................82
Seznam tabulek Tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com .................................. 35 Tabulka 2 Struktura dat zákaznického hodnocení ze serveru TripAdvisor.com .............................. 37 Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA .......................... 40 Tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru .......................... 41 Tabulka 5 Ukázku word- matrixu indexovaných zákaznických hodnocení ...................................... 42 Tabulka 6 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (Booking.com) .................................................................................................................................. 49 Tabulka 7 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) ..................................................................................................................... 53 Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) ..................................................................................................................... 54 Tabulka 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel’s Hotel Prague (Booking.com) ...................................................................................................................... 55 Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com) ............................................................................................................ 57 Tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com) ............................................................................................................ 58 Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com) ............................................................................................................ 59 Tabulka 13 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (TripAdvisor.com)............................................................................................................................. 64 Tabulka 14 Seznam stručných a podrobných indexovaných slovních hodnocení pražských hotelů Vienna International Hotels & Resorts (TripAdvisor.com) ............................................................... 68 Tabulka 15 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu andel’s Hotel Prague (TripAdvisor.com) ....................................................................................................... 69 Tabulka 16 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu angelo Hotel Prague (TripAdvisor.com) ....................................................................................................... 71 Tabulka 17 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Chopin Hotel Prague (TripAdvisor.com) ....................................................................................................... 72 Tabulka 18 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (TripAdvisor.com) ....................................................................................................... 73
Seznam grafů Graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com) ....................... 44 Graf 2 Segmentace hodnocení na základě slovních hodnocení (Booking.com) .............................. 45 Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty (Booking.com) .................................................................................................................................. 46 Graf 4 Počet hodnocení jednotlivých hotelů (Booking.com) ........................................................... 46 Graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com) ................................................................................................................ 47 Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com) ................................ 48 Graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 – leden 2015 (Booking.com) .................................................................................................................................. 50 Graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 – leden 2015 (Booking.com) .................................................................................................................................. 51 Graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com) ...................... 51 Graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com) ....... 52 Graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com) ................ 61 Graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com).................................................... 62 Graf 13 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com) ................................................................................................ 63 Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com) ......................... 64 Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 – leden 2015 (TripAdvisor.com)............................................................................................................................. 65 Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com) ............... 66 Graf 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com (vlevo) ................. 67 Graf 18 Rozložení celkových číselných hodnocení na serveru Booking.com (vpravo) .................... 67 Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com) .. 67
Abecední seznam použitých zkratek ADR
Average Daily Rate
CRIPS-DM
Cross Industry Standard for Data Mining
eWOM
Electronic Word of Mouth
OLAP
Online Analytical Processing
OTA
Online Travel Agent
PMS
Property Management System
PR
Public Relations
RevPAR
Revenue Per Available Room
SEMMA
Sample, Explore, Modify, Model, Assess
SEO
Search Engine Optimalization
WOM
Word of Mouth
Úvod Zákaznická hodnocení jsou důležitým zdrojem informací nejen pro potenciální zákazníky, ale také pro hotelové subjekty. S rozvojem informačních technologií a stále intenzivnějším využíváním internetu se zákaznická hodnocení přesunula z reálných konverzací na internetové servery. Mají tak mnohem větší dosah a vliv. Tato hodnocení jsou agregována na rezervačních portálech, tzv. Online Travel Agents (např. Booking.com), a recenzních portálech (např. TripAdvisor.com). Tyto portály jsou hojně využívány zákazníky, ale už ne tak často samotnými provozovateli ubytovacích zařízení. Aplikací dataminingových a textminingových nástrojů je možné z těchto dat získat důležité informace o silných a slabých stránkách hotelu, případně klíčové informace o svých zákaznících. Hlavním cílem této diplomové práce je stanovení možností a limitů použitelnosti dataminingového nástroje IBM SPSS Statistics a textminingového nástroje STATISTICA pro analyzování volně dostupných zákaznických hodnocení pražských hotelů Vienna International Hotels & Resorts na serverech Booking.com a TripAdvisor.com. Tato diplomová práce je rozdělena do tří hlavních částí. První část, teoretická, je zaměřena na důležitost zákaznických hodnocení při rozhodovacím procesu zákazníka a jejich vlivu na potenciální zákazníky. Zákaznická hodnocení na internetu jsou označovány jako eWOM a podle studie o reklamě společnosti The Nielsen Company (The Nielsen Company, 2013) jsou druhým nejdůvěryhodnějším zdrojem informací pro zákazníky. Proto hrají významnou roli při volbě ubytovacích zařízení. Tato hodnocení jsou důležitá i pro provozovatele ubytovacích zařízení, protože poskytují zpětnou vazbu od zákazníků, hodnocení kvality a rozsahu služeb. Dále obsahují klíčová slova charakterizující dané ubytovací zařízení z pohledu zákazníka, která se dají využít pro Search Engine Optimalization (SEO). Zákaznická hodnocení mají vliv i na ekonomické ukazatele ubytovacího zařízení (Anderson, 2012) a ovlivňují jeho cenovou politiku, ADR, obsazenost, RevPAR a další. Součástí teoretické části je popsání základních principů dataminingu a textminingu a všeobecně uznávaných procesních vzorců CRISP-DM a SEMMA, které slouží jako návod pro správnou implementaci těchto nástrojů. Nedílnou součástí je přehled dosud publikované literatury se zaměřením na oblast hotelnictví. Vzhledem k tomu, že se jedná o velmi mladou a rozvíjející se technologii, je tento přehled velmi úzký. Na teoretickou část navazuje praktická aplikace dataminingového nástroje IBM SPSS Statistics a textminingové modelu nástroje STATISTICA na data sesbíraná ze serverů Booking.com a TripAdvisor.com. Tato data byla manuálně sesbírána do předem připravené 12
struktury tak, aby bylo možné jejich rychlé a přesné zpracování. Díky zvoleným nástrojům bylo možné sesbíraná data analyzovat a zjistit tak možnosti a limity použití těchto nástrojů v oblasti hotelnictví. Na začátku analytické části je popsán proces sběru dat, jejich úpravy a zvolená datová struktura. Také důvod výběru pražských hotelů Vienna International Hotels & Resorts a jejich krátký popis. Data jsou analýzována odděleně pro vybrané servery, protože data obsažená v zákaznických hodnoceních na těchto serverech nejsou shodná a mohlo by tak dojít ke zkreslení výsledků analýz. Pro analyzování strukturovaných dal byl vybrán software IBM SPSS Statistics a pro základní analýzu nestrukturovaných dat byl vybrán software STATISTICA. Třetí částí je část návrhová, ve které jsou shrnuty všechny podstatné informace získané během rešerše základmí literatury vztahující se k aplikaci dataminingu a textminingu v oblasti hotelnictví. Dále možnosti využití dalších zdrojů zákaznických hodnocení pro získávání
důležitých
informací
a
limity
nejen
použitých
dataminingových
a
textminingových nástrojů v hotelnictví. Hlavní metodou dosažení stanoveného cíle byla zvolena explorační analýza volně dostupných dat ze serverů Booking.com a TripAdvisor.com, která je doplněna o rešerši publikované literatury vztahující se k vlivu zákaznických hodnocení na zákazníka a činnost hotelu, použitelnosti dataminingových a textminingových nástrojů pro analýzu dat v oblasti hotelnictví a základním principům dataminingu a textminingu. Jako hlavní informační zdroje byly vybrány studie společnosti TripAdvisor LLC „TripAdvisor for business. 24 insights to shape your TripAdvisor strategy”, studie Chrise K. Andersona “The Impact of Social Media on Lodging Performance”, studie společnosti The Nielsen Company “Global Trust in Advertising and Brand Messages”, kniha “The Text Mining Handbook” autorů Ronena Feldmana a Jamese Sangera a kniha “Data Mining and Analysis: Fundamental Concepts and Algorithms” autorů Mohammeda J. Zakiho a Wagnera Meira Jr.
13
1.
Teoretická část Hotelnictví je oborem, které je velmi silně vázáno na spokojenost svých zákazníků.
O této spokojenosti se mohou hotely dozvědět přímo od svých zákazníků během nebo po skončení jejich pobytu nebo ze zákaznických hodnocení. Důležitou součástí práce s těmito hodnoceními je schopnost dokázat z těchto dat získat srozumitelné a užitečné informace. Proto se v této teoretické části zaměříme na to, jaký vliv mají zákaznická hodnocení na budoucí zákazníky a současně i na provozovatele ubytovacích zařízení. Pro získání informací z těchto dat byly vybrány dataminingové a textminingové nástroje, a proto je potřebné popsat tyto analytické metody a jejich minulou aplikace v hotelnictví.
1.1. Význam zákaznická hodnocení pro zákazníky a provozovatele ubytovacích zařízení Rozvoj informačních technologií a internetu na konci 20. století přinesl značné změny v procesu získávání informací, spotřebního chování a rozhodování zákazníků. Ti již nejsou omezeni v informačních zdrojích pouze na profesionální hodnocení a recenze odborných recenzentů, informace předávané hotely a další převážně tištěné materiály (Ong, 2012) a přímá doporučení svých známých a členů rodiny. Přímá, osobní, doporučení jsou marketéry označována jako WOM, tedy Word of Mouth. Jsou to nekomerční konverzace o značkách, produktech a službách (Anderson, 1998) (Mann, a další, 2013). Internet a jeho neustálé zjednodušování a rozvoj umožňuje každému uživateli vytvářet vlastní obsah na blozích, diskuzních fórech a sdílet svá videa a fotografie (Gretzel, 2006). Tento obsah má díky internetu a jeho rozvoji stále větší dosah a publikum. Názory, postoje a zkušenosti jednotlivých uživatelů jsou proto mnohem dostupnější a lépe a rychleji se šíří. Tyto informace souhrnně označujeme jako eWOM. Význam eWOMu stále roste. Dokazují to počty zákaznických hodnocení na stránkách OTAs a počty konverzací na diskuzních fórech. Tato hodnocení a diskuze slouží jako velmi důležitý informační zdroj potenciálním zákazníkům. Jsou psána uživatelským jazykem a popisují všechny produkty z pohledu zákazníka. Navíc je zákazníci vnímají jako užitečnější, aktuálnější a důvěryhodnější informace než informace poskytované podnikateli, v tomto případě hotely (Gretzel, 2008). Podle Paola Torchia (Torchio, 2011) téměř 75 % lidí nevěří informacím, které o sobě poskytují podniky. Dle studie o důvěryhodnosti reklamy (The Nielsen Company, 2013) věří WOMu téměř 84 % lidí a eWOMu 68 % lidí. Z tohoto pohledu jsou sdílené informace a zkušenosti velmi důvěryhodné a platí i to, že zákazník považuje za důvěryhodnější ty informace, u kterých zná jejich zdroj a může si je přímo propojit s 14
konkrétní osobou. Důvěryhodnost eWOMu je proto nižší, a to hlavně kvůli anonymitě zdroje.
1.1.1.
Vliv eWOMu na zákazníka
Většina hodnocení v oblasti hotelnictví, nebo šířeji v oblasti hospitality, spojuje jak kvalitativní, tak kvantitativní prvky. Tedy slovní hodnocení a číselná hodnocení převážně na škále od 1 do 5 (TripAdvisor.com) nebo od 1 do 10 (Booking.com). Z pohledu zákazníka jsou mnohem lepším informačním zdrojem slovní hodnocení, která přinášejí konkrétní informace, a zákazníci je důkladněji zkoumají a čtou, případně na ně reagují (Chevalier, a další, 2006) (Ong, 2012). Z pohledu použitého jazyka má největší vliv na rozhodování rodný jazyk potenciálního zákazníka, ale vlivem globalizace a internacionalizace se do popředí pomalu dostává angličtina, jako univerzální komunikační jazyk. Vliv na rozhodování má i sentiment sdělovaných informací. Většina portálů nabízí odlišení pozitivních a negativních hodnocení. Toto rozdělení má pomoci potenciálním zákazníkům najít silné a slabé stránky hotelu. Ne vždy jsou ale pozitivní hodnocení opravdu pozitivní a negativní hodnocení negativní. Velmi často se v kolonce negativní hodnocení objevují fráze jako „vše bylo v pořádku“ a podobné. Z toho je patrné, že množství negativních hodnocení reálně neodpovídá počtu negativních zkušeností se službami a hotelem jako takovým. Vlivu negativních a pozitivních hodnocení na rozhodování zákazníka se věnovalo velké množství autorů (Downey, a další, 2006) (Ong, 2012). Výsledky většiny studií se přikláněly k tomu, že jak negativní, tak pozitivní hodnocení mají víceméně stejný vliv na rozhodování zákazníka. Což potvrzuje i Linda Fox (Fox, 2012), která poukazuje na studii společnosti PhoCusWright pro Tripadvisor LLC, která říká, že 59 % lidí ignoruje extrémně negativní hodnocení a pouze 5 % lidí tato hodnocení přímo vyhledává. Oproti tomu však stojí osobní zkušenost autora této práce a výstupy dalších studií. Z nich je patrné, že z pohledu zákazníka je mnohem jednodušší vyjádřit extrémní nespokojenost než extrémní spokojenost, a proto mají extrémně negativní hodnocení („Nikdy se sem nevrátím“ nebo „Naprosto otřesný hotel“) větší dopad než hodnocení extrémně pozitivní („Perfektní hotel“ aj.). Ze studie vnímání značky (Lee, 2009) je patrné, že extrémně negativní pohled a zkušenost se značkou má mnohem větší váhu, než mírná nespokojenost nebo dokonce spokojenost. Vliv negativních hodnocení na sociálních sítích (Twitter, Facebook, Youtube apod.) popisuje studie Convergys Corp. (Shannon, 2009), která říká, že jeden „tweet“ nebo recenzi si zobrazí v průměru 45 dalších uživatelů a téměř dvě třetiny z nich by negativní hodnocení produktu nebo služby odradilo od jeho koupě.
15
Vzhledem k těmto rozdílným pohledům je vhodné minimalizovat počet extrémně negativních zkušeností svých hostů, přeneseně počet negativních hodnocení, která mohou, ale nemusí, mít vliv na budoucí zákazníky. Společnost Tripadvisor LLC dlouhodobě sleduje a analyzuje svoji komunitu pomocí pravidelných studií za pomoci společnosti PhoCusWright. Vhledem k velikosti uživatelské komunity se dají tyto studie považovat za relevantní. Z poslední studie (TripAdvisor LLC, 2014) vyplývají následující zjištění:
53 % cestovatelů si nezarezervuje pokoj bez čtení online recenzí,
73 % cestovatelů sleduje při rozhodování nejel recenze, ale i fotografie ostatních uživatelů,
83 % cestovatelů potvrdilo, že se díky recenzím ujišťují ve své volbě,
80 % cestovatelů přikládá větší váhu novějším recenzím,
80 % cestovatelů přečte 6 až 12 recenzí před výběrem hotelu.
Této studie se zúčastnilo 12 225 uživatelů portálu TripAdvisor.com a proběhl v prosinci roku 2013. Ze studie společnosti Laterooms.com (Davies, 2012), která oslovila 1 366 respondentů, vyplývá, že 40 % lidí nerezervuje hotelové pokoje bez čtení recenzí předchozích hostů. Studie dále zmiňuje postoj respondentů k falešným hodnocením a uvádí, že 45 % lidí nepřikládá falešným hodnocením žádnou váhu a nesnaží se odlišovat falešná a pravdivá hodnocení. Z hlediska sentimentu hodnocení pouze 28 % respondentů nečte a nepřikládá váhu extrémně negativním nebo pozitivním hodnocením. Což pouze potvrzuje nutnost minimalizace negativních zkušeností hotelových hostů. Ve studii je dále velmi zajímavý údaj vztahující se k obsahu hodnocení. Více než 90 % respondentů by si nezabookovalo hotel, v jehož hodnoceních se nachází „špinavý pokoj“. Všechna předchozí zjištění popisují vliv hodnocení na rozhodovací proces potenciálních zákazníků. Velmi málo se ale průzkumy zaměřují na motivaci, kterou mají zákazníci sdílející své zkušenosti a názory. V poslední zmíněné studii je problém motivace zohledněn. Hlavním motivem pro zanechání recenze na internetovém portálu je úroveň služeb a produktu. Polovina respondentů by napsala hodnocení po negativní zkušenosti během svého pobytu. Důležitější fakt je, že pozitivní hodnocení by zanechalo 70 % respondentů. Stejně tak se málo studií zabývalo pravdivostí zákaznických hodnocení. Za falešné recenze se označují recenze od uživatelů, kteří s daným hotelem nemají žádné osobní
16
zkušenosti, dále recenze od fiktivních uživatelů a z fiktivních účtů, které jsou zřízené jednotlivými ubytovacími zařízeními. Je třeba zmínit další skupinu falešných hodnocení a to hodnocení, které píší skuteční uživatelé, kteří mají s daným hotelem osobní zkušenost, ale jsou ovlivněni vnějšími vlivy (sleva za dobré hodnocení). Studie zaměřená na chování zákazníků na sociálních sítích ve vztahu k hotelům řetězce Sheraton odhalily vliv pohlaví na čestnost recenzentů při psaní recenzí (White Plains, 2010). Pouze 17 % žen přiznalo, že jsou zcela upřímné a čestné při psaní uživatelských recenzí. Tuto upřímnost při psaní recenzí přiznalo 48 % mužů.
1.1.2.
Význam zákaznických hodnocení pro provozovatele hotelu
V předchozí části byl zobrazen vliv zákaznických hodnocení na rozhodování zákazníků při výběru produktu (včetně ubytování), z kterého zcela jasně vyplývá, že zákaznická hodnocení hrají velkou roli při rozhodování o výběru hotelu. Na první pohled se jedná o komunikaci mezi současnými a potenciálními zákazníky. Vzhledem k dostupnosti těchto recenzí mohou ale sloužit i jako komunikační kanál mezi zákazníky a hotely (formou zpětné vazby). Mnoho OTAs nabízí svým obchodním partnerům (hotelům) možnost reagovat na jednotlivá hodnocení, ať již kladná, či záporná. Z tohoto pohledu se nejedná pouze o zpětnou vazbu, ale nový druh vzájemné komunikace. Zákaznická hodnocení může hotel získávat ze čtyř hlavních zdrojů. Prvním zdrojem těchto hodnocení jsou dotazníky spokojenosti umisťované na hotelových pokojích, které mají zákazníci možnost vyplnit během svého pobytu. Pro vyplnění těchto dotazníků musí mít zákazník extrémně pozitivní nebo negativní motiv. Takto sesbíraná data často nebývají analyzována a mnoho hotelů je i přes vlastní sběr nijak nevyužívá. Druhým zdrojem hodnocení jsou přímé rozhovory se zákazníky. Tato varianta se využívá spíše při řešení problémů, které není schopný a kompetentní řešit nikdo z řadových zaměstnanců. Jedná se o bezprostřední reakce hostů, které vyžadují bezprostřední řešení. Problematikou řešení problémů a reklamací v hotelnictví se zabývá mnoho hoteliérů i odborníků z jiných profesí. Třetí možností je přímé elektronické kontaktování hostů se žádostí o vyplnění elektronických dotazníků. Návratnost těchto dotazníků je velmi malá a slouží převážně pro udržení kontaktu s loajálními zákazníky. Poslední možností je využívání OTAs a porovnávacích portálů, které umožňují hostům zanechat osobní hodnocení pobytu a hotelu. 1.1.2.1.
Reputation management
Reputation management je v hotelnictví poměrně mladou oblastí řízení vztahu se zákazníky. Jeho hlavní náplní je monitorování a ovlivňování pohledu veřejnosti na hotel 17
prostřednictvím internetu (Admin, 2014) (Customer Alliance, 2015). Ve většině podniků je reputation management zakomponován v PR strategii a dalších aktivitách. S růstem počtu zákaznických hodnocení a možností na tato hodnocení reagovat se reputation management oddělil jako samostatná disciplína. Hlavní náplní je tedy monitorování online recenzí a správná reakce na ně. Reakce hotelu na online hodnocení mohou ovlivnit vnímání podniku a rozhodování potenciálních zákazníků. Zákazníci očekávají od hotelů reakce na hodnocení (pokud takovou možnost OTA nebo srovnávací portál nabízí) a ovlivňuje to jejich vnímání hotelu (Fox, 2012). Téměř 84 % lidí potvrdilo, že reakce vedení hotelu na špatné hodnocení zlepšilo jejich pohled na hotel, a 78 % lidí spojuje tyto reakce s dobrou péčí o zákazníky. Více než polovina lidí raději zvolí hotel, který se svými zákazníky komunikuje než ten, který ne. V návaznosti na útočnou nebo agresivní reakci by si hotel nevybralo 64 % lidí. Podle studie společnosti Forrester pro TripAdvisor LLC. u 78 % lidí vyvolá dobrá reakce na dobré i špatné hodnocení zlepšení pohledu na hotel (Special Nodes, 2012). Samotným reagováním či nereagováním se zabýval Ian Taylor v rozhovoru s Andy Phillippsem (Taylor, 2012), zakladatelem serveru Booking.com, který řekl, že reakce hotelu pomáhají snížit relativní počet negativních hodnocení hotelu. Hotely, které na hodnocení nereagují, mívají 20 % hodnocení záporných. U aktivních hotelů je tato hodnota pouze 6 %. 1.1.2.2.
Ekonomické dopady zákaznických hodnocení
Zákaznická hodnocení ovlivňují nejen vnímání hotelu nebo značky a proces zákaznického rozhodování, ale ovlivňují také objem prodeje (Admin, 2014) a další ekonomické ukazatele hotelu (obsazenost, cenu pokojů, ADR a RevPAR). Obsazenost hotelů je přímo spojena s poptávkou, která je ovlivněna pozitivními, případně negativními hodnoceními na internetu. Souvisí to s předchozími údaji o vlivu hodnocení na rozhodovací proces spotřebitele. Jeniffer Davies ze společnosti Expedia Inc. (Torchio, 2011) poukazuje na fakt, že hotely s hodnocením 4.0 až 5.0 mají větší tzv. conversion rate než hotely s hodnocením 1.0 až 2.9. Vliv na cenu hotelových pokojů zobrazuje studie společnosti comScore Inc. a The Kelsey Group (comScore Inc., 2007). Při stejné úrovni služeb jsou zákazníci ochotni zaplatit za hotelový pokojů v hotelu hodnoceném pěti hvězdičkami o 38 % vyšší cenu než v hotelu hodnoceném čtyřmi hvězdičkami. Nejkomplexněji na celou problematiku vlivu online hodnocení na ekonomické ukazatele hotelu pohlíží Chris K. Anderson ve studii „The Impact of Social Media on Lodging Performance“ (Anderson, 2012). Mezi hlavní zjištění patří: 18
zvýšení hodnocení hotelu o 1 bod na stupnici od 1 do 5 umožní hotelu zvýšení ceny o 11,2 % při zachování stejné úrovně obsazenosti a tržním podílu,
navýšení online reputace hotelu o 1 % (podle ReviewPRO Global Review Index TM) vede k navýšení ceny (měřeno pomocí ADR) o 0,89 %,
stejný nárůst reputace o 1 % vede k navýšení obsazenosti o 0,54 % a RevPAR o 1,42 %. 1.1.2.3.
Dopady na SEO
Jedním z mnoho cílů současných hotelů a hotelových řetězců je maximalizace počtu rezervací, které přicházejí z vlastních stránek. Hotely mají tři hlavní rezervační kanály, a to OTAs, přímé rezervace (vlastní rezervační formulář a stránky, popřípadě telefon nebo walkin) a cestovní kanceláře. Před vznikem OTAs hotely prodávaly svoje kapacity přes GDS cestovním kancelářím a ti je pak přeprodávaly zákazníkům. To vytvářelo určitou neprůhlednost a žádný z článků tohoto řetězce nevěděl, jaké jsou náklady a ceny služeb. OTAs tento proces podstatně zjednodušily a zprůhlednily. V současné době je 76 % rezervací realizováno přes OTAs (Dean, 2015) a velké množství z nich umožňuje zákazníkům zanechat své hodnocení. SEO má hlavní cíl, a to vylepšit obsah stránek tak, aby jej potenciální zákazník lépe našel. Hodnocení zákazníků obsahují klíčová slova, která dané hotely charakterizují, a díky nim mohou hotely upravit obsah svých stránek tak, aby je potenciální zákazník vyhledal a mohl z nich provést rezervaci pokoje. Je také důležité sledovat jazyk, jakým zákazníci hovoří, protože použitá slova charakterizují jednotlivé tržní segmenty. Používání stejného jazyka přiláká mnohem více zákazníků (Dholakiya, 2014).
1.2.
Využití dataminingu a textminingu v hotelnictví
Rozvoj informačních technologií přinesl do mnoha oblastí podnikání možnost získávat a skladovat velké množství dat, které se týkají různých vnitropodnikových procesů (Uldrich, 2010). Nejinak je tomu v oblasti hotelnictví. Hotely mají oproti jiným podnikům povinnost evidovat své hosty v domovní krize (pouze cizince), do které zapisují „jméno a příjmení ubytovaného cizince, den, měsíc a rok narození, státní občanství, číslo cestovního dokladu, počátek a konec ubytování“, podle § 101 zákona č. 326/1999 Sb., o pobytu cizinců na území České republiky a o změně některých předpisů. Stejně tak hotely evidují všechny své hosty podle zákona č. 565/1990 Sb., České národní rady o místních poplatcích, pro účely výběru poplatků z ubytovací kapacity a poplatku za lázeňsky nebo rekreační pobyt. Ve znění tohoto předpisu hotely vedou evidenční knihu, do které zapisují „dobu ubytování, účel 19
pobytu, jméno, příjmení, adresu místa trvalého pobytu nebo místa trvalého bydliště v zahraničí a číslo občanského průkazu nebo cestovního dokladu fyzické osoby, které ubytování poskytl.". S růstem objemu dat a nároků na jejich skladování dochází k tvorbě nových softwarů, které umožňují dlouhodobé skladování a dostupnost uložených dat v uceleném uživatelském prostředí. V současnosti jsou nejpoužívanější PMS, které dávají možnost všem svým uživatelům zadávat, skladovat a analyzovat relevantní data vhodná pro danou pracovní pozici i ostatní uživatele tohoto systému. Tyto nástroje agregují rezervační systémy, databázové systémy, systémy revenue management a mnoho dalších systémů. Všechna data jsou vzájemně propojena a je možné k nim přistupovat z jakékoliv stanice, která má k dané oblasti přístup. Proto je možné neustále aktualizovat a sdílet relevantní data. Vzhledem k tomu, že tyto systémy měly ve svých počátcích předem stanovenou strukturu zadávaných dat, která neodpovídala požadavkům jejich uživatelů, rozšířily se tyto systémy o možnost sdílení nestrukturovaných dat (tedy textových poznámek o hostech, jejich požadavcích a přáních). Hlavním hnacím motorem pro tyto změny bylo zvyšování kvality služeb pro zákazníky.
1.2.1.
Datamining
Datamining je jedním z nástrojů Business Inteligence, který zažívá od konce 20. století velmi rychlý rozmach (Struhl, 2008). Datamining je proces používající různé analytické nástroje k odhalení vzájemných souvislostí a vztahů, které slouží pro tvorbu validních prediktivních modelů (Two Crowns Corporation, 2005). Na datamining lze nahlížet i jako na proces odhalování hlubších souvislostí, zajímavých a neobvyklých vzorů chování stejně tak jako na deskriptivní, srozumitelný a prediktivní model tvořený z velkých datových souborů (Zaki, a další, 2015). Datamining pracuje stejně jako statistické metody s numerický a kategorickými (nominální a ordinální) proměnnými. Všechna data jsou uspořádána v předem definované struktuře a mají validní hodnoty vzhledem k definované proměnné. Jsou to tedy strukturovaná data, pomocí kterých se mohou vytvářet nejen prediktivní modely, ale i velké množství analýz. Datamining ale nelze chápat jako automatický proces, který prohledává předem definovaná data, a vytváří z nich smysluplné závěry, případně zajímavé vzory chování. Stejně jako u jiných analytických metod je třeba znát obor, ve kterém se datamining aplikuje, data, ze kterých tyto analýzy vycházejí, a hlavně možnosti a limity používaného nástroje. Výstup dataminingových nástrojů je také třeba důkladně kontrolovat a porovnávat s realitou.
20
Ačkoliv se jedná o velmi užitečný nástroj, nedokáže rozhodovat o předem definovaných možnostech řešení, ale může velmi dobře posloužit jako zdroj pro rozhodování zkušených analytiků a manažerů. 1.2.1.1.
Rozdíl mezi OLAP a dataminingem
Datamining byl definován v přechozí části, ale je třeba jej odlišit od OLAP technologie (Online Analytical Processing). OLAP technologie se zabývá ukládáním dat do datových skladů nebo databází do předem připraveného formátu tak, aby sloužily jako zdroj dat pro analýzu trendů. Pomocí tohoto uspořádání se poté provádí dotazování, tedy ověřování hypotéz. A právě v tom spočívá základní rozdíl mezi těmito technologiemi. Využívání OLAP technologií vychází z ověřování hypotéz a možných vztahů mezi daty. Datamining oproti tomu analyzuje datové soubory a hledá v nich na první pohled nečekané souvislosti a vztahy (Two Crowns Corporation, 2005). 1.2.1.2.
Modelové procesy dataminingu
Ve svých počátcích byl datamining určen pouze odborníkům s dobrou znalostí problematiky a průběhu zpracování dat. Aby se tato technologie mohla šířit do dalších oborů, bylo třeba vytvořit univerzálně použitelné modely pro úspěšnou implementaci dataminingu. Tyto modely vycházely z faktu, že uživatel nemusí znát analytické procesy, ale musí vědět, jak s nimi pracovat a jak je používat. A proto byly vytvořeny dva základní modely procesů dataminingu, a to CRISP-DM a SEMMA. CRISP-DM (Cross Industry Standard Process for Data Mining) začal být tvořen v roce 1996 v průběhu spolupráce tří hlavních partnerů, kteří měli s dataminingem dlouholeté zkušenosti. Společnostmi DaimlerChrysler, SPSS a NCR (SPSS Inc., 2000). V průběhu několika let se stal hlavním používaným dataminingovým přístupem (Zaki, a další, 2015) (Two Crowns Corporation, 2005). Obrázek č. 1 Modelový proces CRISP-DM (Jensen, 2012) zobrazuje šest základních kroků pro úspěšnou implementaci a využití dataminingu.
Business Understanding. První fáze dataminingu, jejíž cílem je přesně definovat požadavky a cíle z pohledu daného podniku.
Data Understanding. Ve druhé fázi je třeba pracovat s daty a poznat je. Zjistit, jakých hodnot mohou nabývat a postupně odhalovat možné vztahy a modelovat hypotézy.
Data Preparation. Po poznání dat je třeba tato data očistit, upravit a dále připravit pro dataminingové nástroje. 21
Modeling. V další fázi se již aplikují zvolené nástroje. Datamining má velmi širokou škálu použitelných metod. Je třeba najít ten správný nástroj, který podá ty správné poznatky a informace o datovém souboru. Velmi často se z této fáze pracovníci vracejí do fáze předchozí a upravují datový soubor pro potřeby vybraného analytického nástroje.
Evaluation. Po modelování přichází fáze zhodnocení. Hodnotí se nejen dosažené výsledky, ale i samotný postup a příprava dat. Vše se pečlivě zaznamenává tak, aby bylo možné analýzu na stejném datovém souboru opakovat.
Deployment. V poslední fázi se poznatky z celého dataminingového procesu převádějí do takového formátu, který odpovídá konečným uživatelům. (SPSS Inc., 2000)
Obrázek 1 Modelový proces CRISP-DM (Jensen, 2012)
SEMMA (Sample, Explore, Modify, Model, Assess) je proces vytvořený společnosti SAS (SAS Institute Inc., 1998) pro úspěšnou aplikaci dataminingových nástrojů v praxi. Společnost SAS je jedním z největších dodavatelů těchto řešení, nicméně její proces je dnes na druhém místě co do četnosti používání, hned za dříve zmíněným CRISP-DM. Proces je sestavený z pěti kroků (Obrázek 2 Modelový proces SEMMA). Oproti CRISP-DM se SEMMA zaměřuje na podrobnější poznání datového souboru a již počítá se znalostí podnikatelského prostředí a řešených problémů. Stejně tak počítá s předáváním informací jejich uživatelům, a proto v sobě nezahrnuje první a poslední fáze procesu CRISP-DM (Business Understanding a Deployment). 22
Prvním krokem je SAMPLE, neboli vzorkování datového souboru, při kterém se z datového souboru vybírá reprezentativní vzorek vhodný pro poznání datového souboru. Hlavním důvodem je malý objem dat, s kterým se pracuje mnohem lépe, a dají se v něm odhalit případné chyby zkreslující výsledek.
Druhým krokem je EXPLORE, tedy prohledávání dat a hledání určitých vzorů a specifických znaků, které jsou důležité pro formulování hypotéz a výzkumných cílů.
Třetí krok, MODIFY, vychází z potřeby pracovat pouze s takovými daty, které se přímo vztahují k řešenému problému. Probíhá výběr důležitých proměnných a případů.
Čtvrtý krok je stejný jako u CRISP-DM, tedy MODEL. Vytváření modelů aplikací analytických nástrojů.
V posledním kroku, ASSESS, se hodnotí získané informace, jejich spojitost s cílem projektu a také možnosti jejich implementace. Tedy použitelnosti těchto závěrů. (Azevedo, a další, 2008)
SAMPLE
EXPLORE
MODIFY
MODEL
ASSESS
Obrázek 2 Modelový proces SEMMA
Oba zmíněné procesy slouží jako návod pro úspěšnou aplikaci dataminingových nástrojů na velké datové soubory. Z pohledu komplexnosti je lepší proces CRIPS-DM, který v sobě zahrnuje jak počáteční fázi poznání oblasti podnikání, tak fázi aplikace a přizpůsobení výstupů konečným uživatelům. SEMMA tyto kroky pouze předpokládá, a proto nemůže být plnohodnotným návodem pro laické uživatele bez přesnější znalosti dataminingu a jeho nástrojů. 1.2.1.3. Přehled současné literatury vztahující se k aplikaci dataminingu v hotelnictví „Going forward, technology will be the most important competitive weapon for any hospitality company. If hospitality organizations want to compete successfully they must do so by using technology to drive the value to both the customer and the firm.“ (Olsen, a další, 1999 str. 29). Aplikací dataminingu v hotelnictví se již v minulosti zabývalo několik autorů (Magnini, a další, 2003), (Kim, a další, 2008), (Law, 1998), (Danubianu, a další, 2008) a mnoho dalších. Ve většině případů se autoři zaměřují na aplikaci těchto analytických metod hlavně v oblasti marketingu pro segmentování zákazníků a pro možnou predikci jejich
23
chování. „Data mining can provide a window into customers‘ behavior – if it’s handled correctly.“ (Magnini, a další, 2003 str. 94) Segmentace zákazníků již není pouze otázkou demografických ukazatelů (věk, rodinný stav, pohlaví, země původu a další). Do popředí se dostávají psychografické ukazatele (Kim, a další, 2008) vycházejících ze zákazníky využívaných služeb, zákaznických preferencí, spotřebního chování a mnoha dalších ukazatelů, které mohou být závislé na základních demografických ukazatelích, ale ty se používají pouze pro dodatečnou segmentaci, pokud jsou segmenty příliš široké a velké. Využíváním dataminingových nástrojů je možné získat všechny důležité poznatky a informace o svých zákaznících, i ty, které nejsou na první pohled patrné, a použít je pro vylepšení produktu a poskytovaných služeb. Většina autorů se shoduje na možnostech využití těchto nástrojů v hotelnictví. Stejně tak se zaměřují na limity a překážky, které stojí před implementací dataminingových nástrojů. Nejvýznamnější překážkou je finanční náročnost těchto nástrojů. Hotelové podniky provozují vlastní PMS, který je sám o sobě finančně náročný. Nové verze těchto systémů obsahují funkce Business Inteligence, které umožňují základní analýzy, nicméně nedokáží vyhledat a identifikovat na první pohled neviditelné vztahy a ukazatele. Ve spojení s nízkou důvěrou v tyto nástroje, nízkou informovaností o možnostech jejich využití a možných výstupech, a v mnoho případech i nedostatečnou znalostí analytických nástrojů a procesů, jsou dataminingové nástroje pro mnohé hotely nedostupné a neatraktivní (Magnini, a další, 2003).
24
1.2.2.
Textmining
Jak již bylo zmíněno, moderní společnosti hromadí velké množství dat ve svých datových skladech, případně databázích. „Je obecně známo, že až osmdesát procent uložených dat v databázích po celém světě má podobu textu, tedy nestrukturovaných dat.“ (Uldrich, 2011 str. 18). Na stejný fakt poukazuje i společnost Butler Analytics. „This is something of an irony since text based data typically accounts for eighty per cent of the data most organizations generate and process.“ (Butler Analytics, 2014 str. 3). Je s podivem, že se velmi málo společností zaměřuje na analýzu nestrukturovaných dat. Velký zdroj důležitých poznatků a informací, kterými jsme doslova obklopeni (emaily, články, zprávy, recenze, stížnosti, dopisy, volné otázky v dotaznících a další). Proto je velmi důležité analyzovat a sledovat i tato nestrukturovaná data pro získání drahocenných informací, souvislostí a charakteristik. Nejjednodušším přístupem pro analyzování textu je jejich přímé ruční třídění. Zaměstnanci jednotlivé textové záznamy pročítají a vyhledávají v nich například klíčová slova. Z tohoto pohledu je analýza textu neefektivní a velmi drahá, a proto se přistupuje k automatickým analýzám textu pomocí textminingových nástrojů. Textmining je charakterizován jako automatizovaný přístup pro získávání nových, dříve neznámých informací a vztahů z textových dokumentů (nestrukturovaných dat) (Hearst, 2003). Zde je patrný rozdíl mezi textminingem a dataminingem. Textmining pracuje s předem nestrukturovanými daty, kdežto datamining potřebuje pro analýza data strukturovaná. Dnes se již velmi zřídka používá pojem nestrukturovaných dat a spíše se mluví o takzvaných „semistructured data“, neboli částečně strukturovaných datech. Hlavní důvodem je, že i nestrukturovaná data v podobě volného textu mají určitou strukturu. Příkladem může být i tato práce, která má přesně definovanou strukturu, tedy úvod, teoretickou, praktickou a návrhovou část a závěr. Textmining převádí tato nestrukturovaná nebo částečně strukturovaná data do podoby informací, které jsou srozumitelné jejich dalších uživatelům, a to lidem nebo dalších nástrojům. (Butler Analytics, 2014) 1.2.2.1.
Multidisciplinární struktura textminingu
Textminingu je vnímán jako komplexní jednotná oblast, která dokáže analyzovat nestrukturovaná data. Pro lepší pochopení celého procesu textminingu je nutné pochopit alespoň základní charakteristiky jednotlivých oblastí, kterých se textmining dotýká. Obrázek 3 Text mining a jeho složky (Klein, a další, 2014) zobrazuje tzv. venn diagram textminingu.
25
Obrázek 3 Text mining a jeho složky (Klein, a další, 2014)
Z tohoto obrázku je patrné, že se textmining prolíná hlavně s oblastí statistiky, která zasahuje do všech analytických činností. Dalšími oblastmi jsou oblasti dataminingu, databází a jejich správy, knihoven a dalších informací, výpočetní lingvistiky a strojového učení. V návaznosti na tyto propojené oblasti probíhá při textminingu následujících sedm procesů.
Information retrieval, často označovaný pouze jako IR. Proces získávání dat z různých zdrojů a databází, jejich následné skladování a označování klíčovými slovy pro usnadnění dalšího vyhledávání.
Document clustering, dělení dokumentů do předem určených shluků (skupin s podobnými charakteristikami). Velikost a charakteristiky shluků je nutné přesně určit tak, aby nedošlo k duplikaci jednotlivých záznamů.
Document classification, další dělení dokumentů a jejich částí s využitím dataminingových nástrojů a postupů.
Webmining, neboli dolování informací z webu za využití dataminingových a textminingových nástrojů. Webmining se od textminingu liší hlavně tím, že vyhledává předem známé informace a data v neznámém webovém prostředí.
Information
extraction.
Vytažení
důležitých
a
zajímavých
informací
z nestrukturovaných a částečně strukturovaných dat, které lze následně měnit na data strukturovaná.
26
Natural language processing (NLP). Proces získávání znalostí z textu, pochopení souvislostí a vazeb mezi jednotlivými slovy, který napomáhá počítačovým systémům „chápat“ psané texty a dokázat je analyzovat. Tento proces hraje velkou roli při úpravě dat a jejich přípravě pro analytické metody textminingových nástrojů, protože současné nástroje umožňují rozdílné „chápání“ textu.
Concept extraction. Získávání nových pojmů, skupin slov a frází na základě sémantické podobnosti. Tento proces je velmi silně vázán na NLP a vytváří jeho nadstavbu. Umožnuje lepší chápání textů, jejich hlavních konceptů a témat.
Nejdůležitější částí celého textminingu je schopnost počítačových systémů analyzovat nestrukturované nebo částečně strukturovaná data ve formě textu, a proto je třeba zmínit alespoň základní pohled na problematiku NLP. 1.2.2.2.
Natural language processing (NLP)
NLP je součást umělé inteligence umožňují počítačovým systémům pochopit lidskou řeč (Rouse, 2011) a dále ji analyzovat a zpracovávat. Základnou pro NLP je lingvistika, ze které vychází i filosof Charles Morris, který určil tři hlavní oblasti, které ovlivňují vzájemnou komunikaci (Spyns, 1996). První oblastí je pragmatika. Věda na pomezí lingvistiky a filosofie, která nesleduje komunikaci jako pouhý sled slov, ale snaží se postihnout motiv řečníka, proč řečník dané věci říká, jaký cíl tím sleduje a jaké jsou jeho úmysly. Sleduje kontext celého projevu. Druhou oblastí je sémantika. Ta sleduje slovníkový význam slov a slovních spojení. Nevnímá tedy slova jednotlivě, ale dokáže z nich tvořit i fráze a ustálená spojení, která mohou mít odlišný význam než jednotlivá slova v tomto spojení. Poslední oblastí je syntax. Ten sleduje větnou skladbu a skládá se ze slovníkových výrazů, tedy slov a jejich skladby. Kvalitní nástroj by měl být schopný odhalit a analyzovat jednotlivé oblasti lidské řeč. Ne vždy je ale možné použít takový nástroj, který dokáže identifikovat kontext dokumentu. Proto je nutné podřídit složitost a nároky na analýzu používaným nástrojům. Prvním krokem při analyzování textu je proces identifikování jednotlivých slov a frází, případně dělení slov do určitým skupin. K tomuto účelu se používají čtyři přístupy: tokenization, part-of-speech tagging, syntactical parsing, shallow parsing (Feldman, a další, 2006). Tokenization je prvním krokem zpracování nestrukturovaných dat a je velmi důležitá pro všechny navazující aktivity. Je to proces dělení nepřetržitého proudu znaků (textu) do smysluplných slovních (ale i znakových) útvarů. Toto dělení může probíhat na několika
27
úrovních podle velikosti a složitosti textu. Základní je dělení podle odstavců, dále podle vět, slovních spojení, slov. Někdy se přistupuje i k dělení podle slabik nebo dokonce podle jednotlivých znaků (souhlásek, samohlásek, interpunkce). Textová analýza probíhá v převážné většině na úrovni slov, slovních spojení, případně na úrovni slabik. Tokenizace je velmi složitý proces, který se musí vypořádávat s velkým množstvím nepravidelností, jakými jsou například tečky ve zkratkách, která neoznačují konec věty. Mezi další problematické oblasti patří velké písmeno na začátku některých slov. Part-of-Speech tagging je navazujícím procesem na proces tokenizace, který dělí text na jednodušší slovní útvary. V tomto kroku se jednotlivá slova označují určitými značkami podle jejich postavení ve větě, jejich významu a celkovém kontextu. Rozlišení kontextu je velmi důležité, protože existuje velké množství slov, u kterých kontext určuje jejich význam. Nejčastěji se jako skupiny používají slovní druhy, ale existují složitější systémy, které rozlišují desítky různých skupin, např. Brown Corpus. Syntactical parsing, v překladu syntaktická analýza, je pokročilejším analytickým nástrojem pro analýzu textu. Vychází z gramatiky jednotlivých jazyků a jejich větné skladby. V angličtině se používá vzorec SVOMPT, který charakterizuje posloupnost slovních druhů ve větě. K této analýze existuje dva hlavní přístupy. Prvním přístupem je analýza založená právě na postavení jednotlivých slovních druhů ve větě (constituency grammar). Každé slovo má svoji předem danou pozici a je tak možné věty dělit do skupin slov podle větných členů. Druhým přístupem je hledání souvislostí mezi jednotlivými slovy ve větě (dependancy grammar). Hledanými objekty nejsou pouze podmět, předmět, přísudek a další, ale jejich vzájemné vazby a vytvářené fráze, jako například „dobrý hotel“ a další. Shallow parsing je posledním možným analytickým přístupem. Ten přináší kompromis mezi rychlostí a důkladností analýz. Analyzuje pouze „lehké“ a počítači srozumitelné fráze a věty. Zabývá se pouze výrazy a větami, jejichž význam je zcela jasný. Vzhledem ke své rychlosti a jednoduchosti je velmi často používán, ale jeho použití ztrácí význam při aplikaci na silně specializované a odborné texty, jejichž význam a smysl nemusí být vždy zcela jasně patrný. 1.2.2.3.
Rozdíly a možné propojení textminingu a dataminingu
Jak již bylo zmíněno v předchozí části této práce, hlavním rozdílem mezi textminingem a dataminingem jsou data, se kterými jednotlivé metody pracují. Datamining pracuje se strukturovanými daty. Zjednodušeně s daty, které je možné uchovávat a agregovat v tabulkách. Tato data mají určitou strukturu, jako například věk, zákaznických segment, bydliště, rodinný stav a objevují se v nich předem předpokládané hodnoty. Textmining 28
oproti tomu pracuje s daty nestrukturovanými nebo semi strukturovanými v podobě textu (emaily, články a další.). Cílem obou metod je vytvářet přesný pohled na současný a minulý stav podniku a na tomto základě vytvářet prediktivní modely. Pro to, aby byl model co
nejpřesnější
a
měl
co
nejvyšší
vypovídající hodnotu, je třeba využívat všechna
dostupná
data
a
informace.
Z tohoto důvodu se pomocí textminingu vytváří nové proměnné, které se dále přenášejí ve formě strukturovaných dat do existujících databází a vytváří tak nový rozměr analýz a prediktivních modelů. Tento fakt zobrazuje i obrázek 4 Využití nestrukturovaných
dat
v
dataminingu
(Butler Analytics, 2014). V případě uživatelských hodnocení
Obrázek 4 Využití nestrukturovaných dat v dataminingu (Butler Analytics, 2014)
je tak možné přiřadit hlavní témata hodnocení k jednotlivých národnostem, pohlaví, ale i zákaznickému segmentu. Tato znalost klíčových slov, jak pozitivních, tak negativních, umožňuje podnikatelům upravovat produkt podle zvoleného zákaznického segmentu nebo dalších kritérií. Zde vycházíme z toho, že poptávka zákazníků není homogenní, a produkt je nutný specifikovat pro každý zvolený segment, aby odpovídal požadavkům tohoto segmentu. Text mining lze tedy použít jako nástroj pro tvorbu nových proměnných. Většinou je výstupem tzv. word-matrix, matice všech použitých slov podle jednotlivých záznamů. Tento word-matrix se dále připojuje k již vytvořených tabulkám strukturovaných dat a umožňuje komplexnější analýzu. Na textmining by se tedy dalo pohlížet jako na součást dataminingového procesu, která dokáže na základě vlastních analytických metod přinést nový rozměr všech analýzám. 1.2.2.4.
Modelový proces textminingu
Stejně jako datamining má i textmining svoji procesní posloupnost. Postup, podle kterého se postupuje pro úspěšnou aplikaci textmining. Vzhledem k tomu, že je datamining jednou z oblastí, která ovlivňuje textmining, je možné postupovat podle dříve zmíněných 29
postupů (CRISP-DM, SEMMA). S tím rozdílem, že je třeba věnovat mnohem větší pozornost sběru dat a jejich úpravě před samotnou analýzou. Ronen Feldman ve své knize The Text Mining Handbook (Feldman, a další, 2006) popisuje proces textminingu v několika krocích podle nároků na samotný proces a podrobnosti popisu jednotlivých částí tohoto procesu. Obrázek 5 Procesní model textminingu (Feldman, a další, 2006 str. 15) popisuje 5 základních částí tohoto procesu. Na začátku jsou nestrukturovaná data v podobě textových dokumentů, které jsou následně předzpracovány. Tyto dokumenty jsou zařazeny do různých kategorií podle jejich obsahové podobnosti a jsou z nich vybrána klíčová slova, termíny a slovní spojení. Takto zpracované dokumenty jsou dále děleny podle jednotlivých klíčových slov případně dalších kritérií. Na tento krok navazuje již vlastní textová analýza, při které jsou odhaleny dříve neznámé vztahy, trendy. Posledním krokem je vizualizace a sumarizace analýz a předání informací uživateli těchto nástrojů. Tyto výstupy pak slouží jako důležitý zdroj informací při rozhodovacích procesech.
Obrázek 5 Procesní model textminingu (Feldman, a další, 2006 str. 15)
1.2.2.5. hotelnictví
Přehled současné literatury vztahující se k aplikace textminingu
Textmining je poměrně mladou technologií, která se neustále vyvíjí a téměř každý den je možné narazit na nové průlomové poznatky z této oblasti. Oblast hospitality má oproti jiným odvětvím nevýhodu v tom, že poměrně pomalu přijímá a využívá nové technologie. Jedním z důvodů je vysoká oborová konkurence a vysoké náklady na nákup nových technologií, které představují riziko možné finanční ztráty. Proto se první aplikace textminingu v oboru uskutečnili na akademické půdě Cornell School of Hotel Administration (Lau, a další, 2005). Hlavním cílem bylo zjištění, zda je možné využít text mining pro získání konkurenční výhody, pomocí dolování dat a informací o nabízených službách a aktuálních cenách tak, aby nebylo nutné prohlížet jednotlivé hotelové weby. Součástí bylo i analyzování uživateli tvořeného obsahu, na který se v současnosti zaměřuje veškerá pozornost hotelových marketérů. Ze studie vyplynulo, že každý geografický
30
segment má vlastní požadavky na úroveň a rozsah služeb, což se přímo promítá i do obsahu hodnocení a hlavních oblastí hodnocení. Analýzou hotelových recenzí se zabývali i další akademické studie (Lustigová, a další, 2014), (Barreda, a další, 2013), (Hospitality-industry.com, 2014). Společným znakem těchto studií je aplikace na hotelové, respektive restaurační, recenze, pro zjištění komplexních informacích o zákaznících a jejich vztahu k jednotlivým objektům. Všechny studie zmiňují současné limitace a hrozby pro aplikaci textminingu v hotelnictví. Nejvýznamnější překážkou pro aplikaci text miningu v hotelnictví je jeho vysoká finanční náročnost a požadavek na kvalifikovaného pracovníka, který je schopný provádět důkladně analýzy dostupných dat. Další překážkou je časová náročnost svázaná se změnami webu, které jsou velmi interaktivní, uživatelsky příjemné, ale nelze z nich extrahovat jednotlivá data automaticky. Poslední překážkou jsou jazykové mutace nestrukturovaných dat, kterých se objevuje velké množství a většina dostupných systémů pracuje pouze s omezených počtem znakových sad. Dalším shodným bodech těchto studií je poukazování na narůstající množství dat, které je nutné analyzovat, a proto je textminingu předpovídána slibná budoucnost.
31
2.
Analytická část V teoretické části této práce byla popsána důležitost uživatelských hodnocení jak pro
zákazníky v rámci jejich rozhodovacího procesu, tak pro hotelové provozovatele, kteří díky nim mohou získat větší množství zákazníků, zvýšit hodnoty hlavních ekonomických ukazatelů a snížit náklady na zprostředkovatele ubytovacích služeb. V této části byla na základě těchto poznatků analyzována zákaznická hodnocení ze serverů Booking.com a TripAdvisor.com pro pražské hotely hotelového řetězce Vienna International Hotels & Resorts pomocí dataminingových nástrojů statistického softwaru IBM SPSS Statistics a textminingového nástroje STATISTICA. Na základě poznatků z dosud publikované literatury vztahující se k využití dataminingových a textminingových nástrojů v hotelnictví nebylo možné určit žádné hypotézy, které by bylo možné statisticky testovat. Proto je zvolenou metodu explorační analýza dostupných dat.
2.1.
Výběr zdrojových serverů pro sběr zákaznických hodnocení
Jako hlavní a jediný zdroj dat pro další zkoumání byly zvoleny recenzní a rezervační portály Booking.com a TripAdvisor.com. Ty obsahují velké množství volně dostupných dat ve velmi podobných strukturách. Podle prezentace společnosti ReviewPro je v současné době v provozu 123 rezervačních a recenzních serverů, které mají vztah k oblasti hotelnictví. Pro účely této práce byly zvolena dva nejvýznamnější servery, a to Booking.com a TripAdvisor.com.
2.1.1.
Zdroj 1: Rezervační server Booking.com
Booking.com je v současné době největším a nejpoužívanějším rezervačním portálem nejen v Evropě (Fox, 2012), ale i na světě. V databázi tohoto serveru se nachází více než 600 000 aktivních ubytovacích zařízení (Hotelmarketing'com, 2015) a to nejen díky velkým možnostem hotelové propagace v rámci webu, případně re-marketingu, ale i díky velkému množství uživatelských recenzí, které napomáhají jednotlivým zákazníkům při rozhodování. Server Booking.com agreguje uživatelská hodnocení za posledních 14 měsíců, tak aby byla hodnocení relevantní pro jejich uživatele. Možnost hodnotit ubytovací zařízení mají pouze ti uživatelé, kteří přes tento server zabookovali svůj pobyt, a proto jsou hodnocení ověřená a měla by být pravdivá. Alespoň z toho pohledu, že je vytváří reální uživatelé, kteří se v daném hotelu ubytovali. Jedním rozporuplným a velmi často diskutovaným tématem je cenzura uživatelských hodnocení. Někteří uživatelé mohou nabýt pocit, že hotel může přímo 32
ovlivnit kvalitu svých hodnocení domluvou se serverem, který bude negativní hodnocení mazat nebo je nebude publikovat. Proto přišel server Booking.com s uživatelským návodem, jak a proč psát hodnocení. Součástí tohoto návodu je několik důvodů, proč Booking.com nezveřejní hodnocení v plném rozsahu, nebo je nezveřejní úplně. Zde je výčet těchto důvodů.
Nežádoucí obsah, tedy urážky, sprostá slova a diskriminace.
Osobní informace jako telefonní čísla a emailové adresy, které by mohl kdokoliv zneužít.
Citlivé informace, jako nařčení z krádeže a další. Všechny tyto problémy se řeší přímo se společností Booking.com a daným hotelem.
Irelevantní informace ve formě reklam a politicky orientovaných příspěvků.
Chybějící klíčové informace.
Host nespal v daném ubytovacím zařízení a vytváří tak hodnocení bez osobní zkušenosti.
Host udělal chybu a má tak možnost kontaktovat Booking.com a chybu napravit.
Hodnocení obsahuje velké množství indikátorů, které poukazují an to, že hodnocení není pravdivé. Systém hodnocení na serveru Booking.com se v průběhu posledních dvou let výrazně
změnil. Poslední a nejvýraznější změnou je přidání některých funkcí a možností vyhledávání pro uživatele webu. Tyto změny se odehrály hlavně kvůli rostoucímu vlivu eWOMu a reputation managementu v oboru. Stejně tak tyto změny směřují k udržení pozice na trhu a nabídnutí více možností získání informací pro své zákazníky. Nejvýraznější změny byly realizovány v roce 2015, a to přidání možnosti odpovědi na uživatelské hodnocení, možnosti vyhledávání hodnocení podle klíčových slov, řazení hodnocení podle uživatelských segmentů a použitého jazyka. 2.1.1.1.
Struktura zákaznického hodnocení a sběr dat
Obrázek 6 Struktura zákaznického hodnocení na serveru Booking.com zobrazuje současnou strukturu dat. V levé horní části jsou údaje o uživateli, tedy jeho jméno, zvolená národnost, zařazení do věkového segmentu a počet hodnocení na serveru Booking.com. Hlavní část tvoří samotné hodnocení v podobě celkového číselného hodnocení a k němu přiřazenému slovní hodnocení. Pod ním jsou čtyři kategorie, do kterých je hodnocení zařazeno. V tomto případě se jedná o zařazení do zákaznického segmentu Business Trip a Solo Traveller, využití pokoje Double Room a počet dní strávených v hotelu. Tato hodnocení a zařazení jsou doplněna o pozitivní a negativní hodnocení hotelu. Hotely mají od roku 2015 33
možnost na tato hodnocení reagovat a jejich odpověď je zařazena pod samotné hodnocení. Nad každým hodnocením je i datum, a proto lze tato hodnocení řadit i chronologicky.
Obrázek 6 Struktura zákaznického hodnocení na serveru Booking.com (Booking.com, 2015)
Vzhledem k tomu, že zdrojový kód těchto stránek byl velmi složitý a data nebylo možné získávat pomocí jednoduché aplikace pro stahování dat ze zvoleného místa ve zdrojovém kódu internetové stránky, bylo nutné přistoupit k ručnímu stahování těchto dat ze stránek Booking.com. Takto získaná data byla uspořádána do předem připravené struktury v programu Microsoft Excel. Tu zobrazuje tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com. Pro každé hodnocení bylo vytvořeno následujících 12 proměnných.
Jazyk hodnocení.
Pohlaví hodnotitele.
Zemi původu hodnotitele.
Datum vložení hodnocení, které bývá vloženo do 14 dnů po ukončení pobytu v daném hotelu.
Celkové číselné hodnocení.
Celkové slovní hodnocení, které je přidělována na základě stanovené stupnice.
Hlavní segmentační zařazení.
Doprovodné segmentační zařazení.
Délka pobytu.
Doprovodná informace (typ využitého pokoje).
Pozitivní slovní hodnocení.
Negativní slovní hodnocení.
34
Jazyk
Pohlaví
Země
Datum
#
ENG
W
CZ
26. 2. 2015
8,8
Slovní Business hodnocení Fabulous 1
Solo 1
Double room 1
# nocí 1
Pozitivní slovní hodnocení
Negativní slovní hodnocení
Great location and staff
only negative was that the wifi was not working properly. It was impossible to log in or browse any website
Tabulka 1 Struktura dat v zákaznickém hodnocení ze serveru Booking.com
2.1.2.
Zdroj 2: Recenzní server TripAdvisor.com
Druhým použitým zdrojem dat byl recenzní portál TripAdvisor.com. Ten je v současné době největším recenzním portálem v oblasti hotelnictví na světě a agreguje přes 200 milionů uživatelských recenzí a názorů týkajících se 4, 4 milionu ubytovacích zařízení (TripAdvisor Inc., 2015). Tato hodnocení jsou využívána nejen na tomto portálu, ale i na jiných rezervačních portálech jako například Expedia.com, Hotels.com, Travelocity.com, Trivago.com a další. V porovnání s dříve zmíněným rezervačním portálem Booking.com nabízí TripAdvisor.com mnohem více uživatelských hodnocení. To je způsobem hlavně tím, že TripAdvisor.com shromažďuje všechna hodnocení od založení profilu ubytovacího zařízení až po současnost. Druhým zásadním rozdílem mezi těmito servery je možnost přidání recenze, která je v případě Booking.com zpřístupněna pouze uživatelům, kteří využili služeb daného hotelu. U serveru TripAdvisor.com má možnost přidat recenzi k ubytovacímu zařízení kdokoliv, a proto mezi odborníky převládá názor, že obsahuje velké množství fiktivních a nepravdivých hodnocení.
35
2.1.2.1.
Struktura hodnocení a sběr dat
Obrázek 7 Struktura zákaznického hodnocení na serveru TripAdvisor.com (TripAdvisor Inc., 2015) zobrazuje základní strukturu
uživatelského
hodnocení
na
serveru TripAdvisor.com. Ta je na první pohled zcela zřetelná. V levé části jsou opět údaje o uživateli jako uživatelské jméno, země původu uživatele, počet recenzí a recenzovaných měst a bodové ocenění za přínosnou recenzi. V hlavní části hodnocení je velmi stručné, většinou jednořádkové shrnutí celého hodnocení. Tato shrnutí jsou dobrým
zdrojem
klíčových
slov
pro
jednotlivé hotely. Na stručné hodnocení navazuje bodové hodnocení na škále od 0 do
5.
Nejdůležitější
části
je
Obrázek 7 Struktura hodnocení na serveru TripAdvisor.com (TripAdvisor Inc., 2015)
slovní
hodnocení ubytovacího zařízení. Na rozdíl od Booking.com není slovní hodnocení rozděleno na pozitivní a negativní část, což může vyvolat nepřesnosti při analýze slovních hodnocení. Na ně navazuje datum pobytu, díky kterému se dá zařadit hodnocení do určité časové řady. Hodnocení na serveru TripAdvisor.com obsahují i dílčí hodnocení jednotlivých zákazníků v šesti kategoriích, a to poměr ceny a kvality, umístění, kvality spánku, pokoje, čistotu a služby. Všechna tato dílčí hodnocení mají vliv na celkové hodnocení. Stejně jako u přechozího serveru byla data získávána manuálně do připravené struktury v programu Microsoft Excel. Tuto strukturu zobrazuje Tabulka 2 Struktura dat v zákaznickém hodnocení ze serveru TripAdvisor.com.
36
Jazyk
Pohlaví
ENG Segment
M
Země
Datum pobytu
X 12/2014 Stručné hodnocení
Cena/ výkon 5
“Conveniently located and servicefriendly.”
X
Kval. Po Služb spán Čistota koj y ku 5 X 5 5 5 Podrobné hodnocení A very nice family-sized room overlooking the railway station park. The hotel staff were very friendly and helpful. Conveniently located and within walking distance of the city-center attractions. Overall, we were pleased with the visit.
Umístění
Tabulka 2 Struktura dat zákaznického hodnocení ze serveru TripAdvisor.com
2.2.
Výběr ubytovacích zařízení pro sběr dat
Východiskem pro výběr ubytovacích zařízení, u kterých budou zkoumána uživatelská hodnocení, byl průzkum provedený doc. RNDr. Zdenou Lustigovou, Csc. a Bc. Štěpánem Chalupou (Lustigová, a další, 2014). Ti pro svůj průzkum využili velmi široký vzorek hotelů, přesněji všechny pětihvězdičkové hotely z oblasti Praha 1 ze serveru Booking.com. Výsledek aplikace textminingového nástroje STATISTICA byl ovlivněn hlavně nerovnoměrným počtem hodnocení u jednotlivých hotelů a také tím, že byla hodnocení zkoumána pouze jako celek, ne jednotlivě pro vybrané hotely. Na základě těchto zkušeností byly pro účel této práce vybrány pražské hotely hotelového řetězce Vienna International Hotels & Resorts a to z následujících důvodů.
Osobní zkušenost autora této práce s hotely Vienna International Hotels & Resorts.
Členství hotelů v řetězci, u kterého se dá předpokládat soustavné hlídání standardů služeb, a proto by v průběhu roku nemělo docházet k výkyvům kvality poskytovaných služeb.
Hotely se od sebe odlišují nejen svojí velikostí, ale i svojí třídou a hlavně konceptem. U konferenčních hotelů se dá očekávat větší zastoupení segmentu business cestujících, což bude mít vliv i na obsah a počet zákaznických hodnocení. I přesto lze hotely porovnat na základě standardně poskytovaných služeb.
Vybrané hotely jsou situovány v Praze, čímž se snižuje rozdílnost hodnocení na základě geografického umístění. Hotelový řetězec Vienna International Hotels & Resorts provozuje v České republice
celkem 6 hotelů ve dvou třídách (tři hvězdy Superior a čtyři hvězdy) a jeden apartmánový komplex napojený na pražský hotel andel’s Hotel Prague. Čtyři hotely jsou situovány v Praze (andel’s Hotel Prague, angelo Hotel Prague, Diplomat Hotel Prague, Chopin Hotel
37
Prague), jeden v Karlových Varech (Dvořák Spa Hotel Carslbad) a jeden v Plzni (angelo Hotel Pilsen).
2.2.1.
Popis vybraných hotelů
Jak již bylo zmíněno v předchozí části, vybrané hotely mají drobné odlišnosti ve svém zaměření a vybavení. Proto je důležité popsat alespoň základní a nejdůležitější charakteristiky vybraných hotelů. Tento popis je doplněn o seznam pěti odhadovaných klíčových slov, které vycházejí z osobní zkušenosti se všemi hotely a také z popisu hotelů. Tento seznam bude konfrontován při analýze slovní části hodnocení z jednotlivých internetových portálů. 2.2.1.1.
andel's Hotel Prague
andel’s Hotel Prague je designovým konferenčním hotelem, který se nachází v pražské části Smíchov v blízkosti obchodního centra Nový Smíchov. V rámci hotelové řetězce je prototypem pro další hotely s názvem andel’s, které se nacházejí v dalších evropským metropolích. Hotel těží primárně z moderního designu pokojů a konferenčních prostor, které jsou velmi variabilní a prostorné. Hotel je velmi dobře dostupný, a to jak automobilem (ulice Radlická a Plzeňská), vlakem (Smíchovské nádraží), tak městkou hromadnou dopravou, protože se nachází v těsné blízkosti stanice metra Anděl, tramvajové a autobusové zastávky. Tento čtyřhvězdičkový hotel nabízí 231 pokojů a 8 suitů, které jsou doplněny apartmánovou částí andel’s Suites Prague. Velikost konferenčních prostor je přizpůsobena až pro 500 účastník. Tuto kapacitu lze navýšit o konferenční prostory v přilehlém angelo Hotel Prague, případně o kino, které se nachází ve stejném komplexu budov. Stravování je zajištěno moderní restaurací Delight a barem Oscar’s. Pro andel’s Hotel Prague byla vybrána tato klíčová slova. Moderní, lokalita, metro, obchodní centrum a služby (jejich kvalita). 2.2.1.2.
angelo Hotel Prague
Tento designový hotel se stejně jako andel’s Hotel Prague nachází v pražské části Praha 5. Je situován ve stejném komplexu budov jako andel’s Hotel Prague, a proto je stejně dobře dostupný. Nabízí 163 pokojů, 5 apartmánů a vlastní konferenční prostory s kapacitou až 250 osob nebo 650 osob při propojení s konferenčními prostory andel’s Hotelu Prague. Hotel je stylizován do barevných odstínů červené, žluté a černé. Za pozornost stojí lobby hotelu propojené s Jazz barem ve stylu 70. let minulého století. Na rozdíl od svého sousedního hotelu se hotel prezentuje jako čistý designerské klenot a konferenční prostory nabízí pouze jako doplňkovou službu. 38
Pro angelo Hotel Prague byla identifikována následující klíčová slova. Design, moderní, služby, lokalita a vřelý (jako charakteristika vybraných barevných odstínů. 2.2.1.3.
Chopin Hotel Prague
Třetím pražským hotelem je Chopin Hotel Prague, který se nachází v blízkosti hlavního vlakového nádraží. Navíc se nachází pár korků od Václavského náměstí, a proto je hotel vyhledávaný hlavně turisty, kteří označují Prahu jako přestupní stanici pro další cestovní. Jako jediný z pražských hotelů nemá čtyři hvězdičky, ale pouze tři hvězdičky s označením superior. Hotel nabízí 80 prostorných pokojů, snídaňový bar, který slouží i jako večerní bar, a proto hotel nenabízí žádné jiné stravování než barové občerstvení a snídaně. Pro své klienty nabízí jednu konferenční místnost s bezbariérovým vstupem. Hlavní silnou stránkou Chopin Hotelu Prague je jeho lokalita a příjemné prostředí pro nenáročné cestovatele. Pro Chopin Hotel Prague byla vybrána tato klíčová slova. Lokality (umístění), vlak, centrum, snídaně a malý (vztahující s k velikosti hotelu). 2.2.1.4.
Diplomat Hotel Prague
Poslední pražským hotelem řetězce Vienna International Hotels & Resorts je Diplomat Hotel Prague. Velký, čistě konferenční hotel, který se nachází v blízkosti pražského letiště Václava Havla v Praze. Díky své poloze v blízkosti stanice metra Dejvická je dostupný i pražskou městskou dopravou z centra Prahy do 5 minut. Hotel nabízí 398 pokojů, 19 suitů a 25 rozsáhlých konferenčním místností s celkovou kapacitou pro více než 1000 osob. Dále v hotelu najdete snídaňovou restauraci Loreta, velmi dobrý CD Restaurant, japonskou restauraci Katsura a Café Klimt. V lobby hotelu se nachází i klenotnictví, kadeřnictví a malý obchod. Pro Diplomat Hotel Prague byla na základě popisu a osobních zkušeností vybrána následující klíčová slova. Velký, starý, konference, zápach (hlavně cigaretový kouř) a služby.
2.3.
Úprava a zpracování sebraných dat
Po úspěšném sesbírání dat z obou zmíněných portálů a jejich utřídění do předem připravených struktur bylo nutné tato data zkontrolovat a zjistit možné logické chyby a chyby vniklé při přenosu dat z internetových serverů do programu Microsoft Excel. Takto očištěná data šlo zpracovávat textminingovým nástrojem STATISTICA a dataminingovým nástrojem IBM SPSS Statistics. Po zkontrolování a utřídění dat byla data zakódována pro
39
lepší a jednodušší práci s nimi. Všechny proměnné v podobě textu byly převedeny na kategorické proměnné s numerickém označením. STATISTICA je dataminingový nástroj společnosti StatSoft (StatSoft CR s. r. o., 2015), který v sobě ukrývá i textminingový a webminingový modul pro zpracování textu a dat z internetu. Pro textmining nabízí tento software značné možnosti na vstupu a importu dat. Podporuje většinu v současné době používaných typů souborů jako .pdf, .txt, .doc, .xls a mnoho dalších.
2.3.1.
Indexace slovních hodnocení programem STATISTICA
Indexace je základní proces analýzy nestrukturovaných dat, který program STATISTICA nabízí. Během indexace jsou nestrukturovaná data (v našem případě text) děleny na útvary oddělené mezerou. Tyto útvary (slova) jsou dále analyzovány a program v nich vyhledávání slovní kořeny. Tomuto přístupu se říká stemming, tedy identifikace slov na základě jejich kořene. Slovní kořeny jsou poté označeny jako indexovaná slova. Při zpracování dat používá STASTISTICA stop- listy, tedy seznamy slov, které neindexuje. Do těchto seznamů se zapisují hlavně předložky, spojky, členy, zvratná slovesa a další slova, která přímo nenesou žádnou informaci a pro další analýzu by byla zcela zbytečné. Tím se snižuje celkový počet indexovaných slov a výstup je tak přehlednější. Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA zobrazuje indexované stručné a podrobné hodnocení ze serveru TripAdvisor.com. Jak je vidět ve sloupci indexované hodnocení, tento výstup zobrazuje samotné hodnocení jako soubor indexovaných slov. Pokud porovnáme stručné a podrobné hodnocení z tabulek 2 a 3 zjistíme, že nejsou indexována slova jako and, very, the, a, we, were a další, které opravdu pro další analýzu hodnocení nenesou žádný zásadní význam. Součástí tabulky je celkový počet znaků v neindexovaném datovém souboru a celkový počet indexovaných slov. Délka fráze
# Slov
Indexované hodnocení
Stručné hodnocení
44
3
conveni locat service-friend
Podrobné hodnocení
237
21
nice family-s room overlook railway station park hotel staff friend help conveni locat within walk distanc city-cent attract overal pleas visit
Tabulka 3 Indexovaná slovní hodnocení textminingovým nástrojem STATISTICA
Z takto indexovaných slov byl vytvořen seznam indexovaných slov, který zobrazuje tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru. Četnost indexovaných slov zobrazuje druhý sloupek této tabulky a ve třetím sloupci je počet
40
dokumentů (případů v datovém souboru), ve kterých se dané slovo vyskytuje. Čtvrtý sloupec zobrazuje příklady pro jednotlivé indexované soubory. Indexované slovo attract city-cent conveni distanc family-s friend help hotel locat nice overal overlook park pleas railway room service-friend staff station visit walk
# 1 1 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1
# Příklad Důležitost dokumentů 1 Attractions 70,710678 1 city-center 70,710678 2 conveniently 100 1 Distance 70,710678 1 family-sized 70,710678 1 Friendly 70,710678 1 Helpful 70,710678 1 70,710678 2 Located 100 1 70,710678 1 Overall 70,710678 1 Overlooking 70,710678 1 70,710678 1 Pleased 70,710678 1 70,710678 1 70,710678 1 service-friendly 70,710678 1 70,710678 1 70,710678 1 70,710678 1 Walking 70,710678
Tabulka 4 Seznam indexovaných slov včetně jejich četností v datovém souboru
Nevýhodou tohoto způsobu zpracování textových dokumentů je spojování slov se stejným kořenem. Příkladem může být hned prví indexované slovo v tabulce 4. Indexované slovo attract zde odpovídá podstatnému jménu attractions. Nástroj by k tomuto kořenu přiřadil i sloveso attract, které může být vyloženo v jiném kontextu. Jak již bylo zmíněno, textminingový nástroj STATISTICA indexuje pouze slova, která odpovídají předem zvolenému kritériím. Těchto kritérií umožňuje tento nástroj zvolit opravu velké množství. Zde je výčet těch nejdůležitějších.
Stemming language (těch STATISTICA nabízí 13).
Procentuální výskyt slov v dokumentech (indexace pouze slov s minimálně 1% zastoupením ve vybraných případech).
Maximální počet zvolených slov.
Zvolení znakové sada povolené pro indexaci. Jakýkoliv jiný znak nebude nástroj identifikovat.
Zvolení stop-listu a jeho úprava.
41
Podrobné volení parametrů slov k indexaci (minimální a maximální délka slova, minimální délka kořene slova, minimální počet samohlásek ve slově, maximální počet samohlásek, souhlásek, zdvojení znaků a interpunkce).
Provedená indexace a její tabulkové zobrazení umožňuje vytvoření seznamu klíčových slov. V další části budeme jednotlivě analyzovat každý hotel a server. Proto bude možné pro každý hotel identifikovat hlavní klíčová slova. Klíčovými slovy jsou ta slova, která se objevují v největším počtu hodnocení a také mají největší počet výskytu. Je možné, že se někdy slovo objeví v jednom hodnocení vícekrát, což pouze dokládá klíčovou úlohu tohoto slova. Pro přesné ověření důležitosti vybraných klíčových slov lze využít i textminingový nástroj, který jednotlivým indexovaným slovům přiřazuje na základě jejich výskytu hodnocení důležitosti na stupnici od 1 do 100 (Tabulka 4 sloupec Důležitost). Dalším možným výstupem je vytvoření tzv. word-matrixu, tedy matice všech indexovaných slov a jejich zobrazení u jednotlivých hodnocení. Po vytvoření této matice lze všechna indexovaná slova přesunout zpět do předchozí datové struktury. Příklad wordmatrixu pro stručné a podrobné hodnocení z TripAdvisor.com zobrazuje Tabulka 5 Wordmatrix indexovaných slov. Hodnocení Stručné Podrobné
attract city-cent conveni distanc family-s friend help hotel locat nice 1 1 1 1 1 1 1 1 1 1 1 1 Tabulka 5 Ukázku word- matrixu indexovaných zákaznických hodnocení
Tato tabulka nezobrazuje celý word-matrix, který je mnohem rozsáhlejší, ale pouze jeho ukázkovou část. V případě uživatelských hodnocení na serveru Booking.com je třeba vytvořit rozdílné soubory pro pozitivní a negativní hodnocení. Jejich společná analýza by vedla ke zkreslení výsledků a nebylo by možné odlišit negativní a pozitivní skutečnosti. Takto upravený soubor dat s nově vytvořenými proměnnými v podobě indexovaných slov lze využít pro dataminingové nástroje. Jednou z nejčastěji používaných analytických metod je shluková analýza (cluster analysis), která odhaluje skupiny podobných případů na základě jejich matematické vzdálenosti. Stejně jako na vstupu, tak i na výstupu je program STATISTICA multifunkční. Nejenže podporuje celé spektrum formátů předchozích verzí programu, ale i export dat do jiných formátů jako .pdf, .txt, .xls a dalších. Velmi užitečným nástrojem je export dat do formátů používaných statistickými programy IBM SPSS Statistics (.sav) a SAS (.sd2). Díky tomu je možné software STATISTICA využít jako nástroj pro předzpracování nestrukturovaných dat a následně tato data přenést do jiného nástroje. V tomto případě byl
42
druhým nástrojem IBM SPSS Statistics, který oproti STATISTICE nabízí velké množství analytických nástrojů a metod, velkou rychlost zpracování velkého objemu dat a intuitivní ovládání a tvorbu výstupů. V následujících analýzách proto byly použity oba tyto nástroje. STATISTICA pro analýzu nestrukturovaných dat a IBM SPSS Statistics pro ostatní analýzy.
2.4.
Sumarizace a analýza dat - Booking.com
Tato část byla věnována sumarizaci a analýze dat sebraných ze serveru Booking.com. Před samotnou sumarizací byla provedena shluková analýza celého datového souboru pro odhalení možných vazeb a souvislostí mezi jednotlivými proměnnými.
2.4.1.
Shluková analýza dat
Pro shlukovou analýzu byl využit software IBM SPSS Statistics, který nabízí možnost tvorby shluků na základě měření matematické vzdálenosti jednotlivých částí zvoleného datovém souboru. Pro toto měření byl na základě různých druhů proměnných vybrán nástroj Log-likehood, který umožňuje měření vzdálenosti jednotlivých dat na základě jejich pravděpodobnostního rozdělení. Pro tvorbu klastrů byl vybrán nástroj TwoStep Cluster, který umožňuje shlukovat kategorické a spojité proměnné. Tento způsob shlukové analýzy vytváří automatický nebo předem zvolený počet shluků, do kterých jsou řazeny jednotlivé případy na základě jejich matematické vzdálenosti podle zvolených proměnných. Díky shlukové analýze je možné určit specifické zákaznické segmenty. V tomto případě bylo k analyzování vybráno celkem 16 proměnných. Z toho 13 nominálních (hotel, země, jazyk hodnocení, pohlaví, stručné slovní hodnocení, dovolená, rodina, pracovní cesta, par, jednotlivec, skupina přátel, pozitivní hodnocení, negativní hodnocení), jedna ordinální (délka pobytu) a 2 škálové (datum hodnocení a celkové hodnocení). Provedená shluková analýza však nebyla úspěšná, kvůli vysokému počtu chybějících hodnot v sesbíraných případech. Vzhledem k tomu vzniklo příliš velké množství shluků a mnoho případů nebylo do shluků ani zahrnuto. Proto byla shluková analýza využita pro ověřený současných zákaznických segmentů, které se zákazníci dobrovolně volí při zadávání hodnocení na tomto serveru, a rozdělení zákaznických hodnocení do shluků podle toho, zda obsahovala pozitivní a negativní slovní hodnocení či nikoliv. Takto ověřené shluky je možné použít při další analýze a sumarizaci sebraných dat. První případ ověření segmentace zobrazuje graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com). V tomto případě se k ověření přistoupilo z toho důvodu, že některá hodnocení obsahují nelogické kombinace volených štítků (Rodina 43
a Pracovní cesta). Největším shlukem je s počtem 918 hodnocení segment Dovolená- páry, který tak tvoří 32, 66 % z celkové počtu hodnocení. Druhým nejvýznamnějším segmentem je Jednotlivec- pracovní cesty s 556 hodnoceními (19,78 %). Druhou polovinu tvoří zbylé segmenty s velmi podobným zastoupením.
Graf 1 Segmentace zákaznických hodnocení podle volených štítků (Booking.com)
V druhé případě byla zákaznická hodnocení rozdělena do čtyř shluků podle toho, zda zákazník zanechal slovní hodnocení či ne, případně jaké slovní hodnocení zanechal. Toto rozdělení zobrazuje Graf 2 Segmentace hodnocení na základě slovních hodnocení. Největší skupinou jsou hodnocení bez slovní části. Těch základní datový soubor obsahuje 1211, což představuje 43 % všech dostupných zákaznických hodnocení. Takto vysoké číslo u tohoto segmentu poukazuje na fakt, že zákazníci nechtějí trávit a ztrácet svůj čas psaním recenzí a vystačí si pouze s číselným ohodnocením jejich pobytu. Na jednu stranu se jedná o logický postoj v dnešní uspěchané době, ale na stranu druhou tato číselná hodnocení bez slovního komentáře nejsou pro další zákazníky zajímavá. Nejmenším segmentem jsou zcela negativní hodnocení. K těm je třeba přistupovat obezřetně, protože některá negativní hodnocení nenesou znaky negativních hodnocení, a proto může být výsledné číslo ještě nižší. Příkladem těchto negativních hodnocení je například: Nothing, Everything was great! a další.
44
Graf 2 Segmentace hodnocení na základě slovních hodnocení (Booking.com)
Díky takto ověřené segmentaci bylo možné určit zákaznické segmenty, které nejčastěji zanechávají hodnocení na serveru Booking.com. Tento vztah zobrazuje Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty. Segmentem s největším počtem hodnocení bez slovního komentáře je segment Jednotlivecpracovní cesta s 57% pravděpodobností absence slovního komentáře. Tento segment je i velmi kritický, protože měl druhý nejvyšší podíl negativních hodnocení a nejnižší podíl pozitivních hodnocení. Nejkritičtějším segmentem je segment Pracovní cesta. Téměř 5 % všech hodnocení bylo pouze negativních a podíl pozitivních hodnocení byl druhý nejmenší v celém datovém souboru. Segmenty Dovolená- pár, Dovolená- rodina a Dovolenájednotlivec mají velmi podobné charakteristiky. Tyto segmenty mají nejnižší relativní počet hodnocení bez slovního komentáře, nejmenší podíl negativních hodnocení v rozmezí od 1, 67 % do 2, 07 % a největší podíl hodnocení s pozitivním a negativním komentářem. To odpovídá dobrým zkušenostem s hotelem a poskytovanými službami s malými výhradami. Z tohoto pohledu jsou segmenty Dovolená pár, Dovolená- jednotlivec a Dovolenárodina nejvýznamnějšími segmenty pro tvorbu slovních hodnocení na serveru Booking.com. Zaměření na tyto segmenty může přinést zvýšení povědomí o hotelu na serveru Booking.com a potenciální nárůst slovních hodnocení, které jsou pro zákazníky přínosné při rozhodování o daném hotelu. Segmenty Pracovní cesta a Jednotlivec- pracovní cesta mohou hotelům sloužit jako zdroj kritických pohledů na poskytované služby a hotely z nich mohou čerpat poznatky pro zlepšení a případnou úpravu služeb.
45
Graf 3 Pravděpodobnost zanechání slovního hodnocení pro jednotlivé zákaznické segmenty (Booking.com)
2.4.2.
Sumarizace sebraných dat
Sběrem dat byl vytvořen datový soubor s celkovým počtem 2 811 zákaznických hodnocení ve 35 jazykových mutacích. Graf 4 Počet hodnocení jednotlivých hotelů zobrazuje celkový přehled hodnocení a jejich rozdělení mezi hotely.
Graf 4 Počet hodnocení jednotlivých hotelů (Booking.com)
Nejoblíbenějším hotelem s největším počtem hodnocení z vybraných hotelů byl Chopin Hotel Prague, který na serveru Booking.com ke dni 19. 1. 2015 obsahoval 1220 zákaznických hodnocení. Ostatní počty hodnocení jsou uvedeny v příslušném sloupci pro každý hotel jednotlivě. 46
Graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com)
Aplikací segmentace zákaznických hodnocení na základě zvolených štítků na celkový počet hodnocení v jednotlivých hotelech bylo možné určit nejvýznamnější a nejčastěji zastoupené zákaznické segmenty pro tyto hotely. Toto rozdělení zobrazuje graf 5 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (Booking.com). Použitelnost této aplikace dokazuje konferenční Diplomat Hotel Prague, jehož hodnocení ve více než 50 % případů pocházejí od segmentů spojených s pracovními cestami, respektive kongresy a konferencemi. Z pohledu pracovních cest stojí na opačném konci Chopin Hotel Prague, který nabízí pouze jednu konferenční místnost. Díky své poloze ale slouží korporátním klientům, kteří v Praze pouze přespávají. To dokazuje necelých 20 % hodnocení od zákazníků na pracovní cestě. Pro tento hotel jsou nejvýznamnější segmenty Dovolená- pár a Dovolená- přátelé. V případě andel’s Hotelu Prague jsou nejvýznamnějšími segmenty Dovolená- pár a zákazníci na pracovní cestě (Pracovní cesta a Jednotlivec- pracovní cesta). Tyto segmenty se podílejí na téměř 65 % všech hodnocení. Čtvrtým hotelem je angelo Hotel Prague. Ten má velmi podobné podíly jednotlivých segmentů jako andel’s Hotel Prague. Jediným rozdílem je vyšší zastoupení segmentu Dovolená- pár a nižší zastoupení segmentů Dovolená- rodina, Dovolená- přátelé a Dovolená- jednotlivec. 47
Jak již bylo zmíněno dříve, hodnocení se na serveru Booking.com nacházejí celkem v 35 jazykových mutacích. Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com) zobrazuje celkové počty hodnocení v jednotlivých jazycích.
Graf 6 Počet zákaznických hodnocení v jednotlivých jazycích (Booking.com)
Tento graf potvrzuje celkový počet hodnocení bez slovního hodnocení. Těch bylo v datovém souboru 1211. K jazykům s největším počtem hodnocení patří angličtina (522 hodnocení), němčina (249 hodnocení), ruština (150 hodnocení), čeština (91 hodnocení) a italština (84 hodnocení). Ostatní jazyky jsou zastoupeny v počtu menším než 70 hodnocení. Pro další analýzu byla vybrána pouze hodnocení v anglickém jazyce a to z následujících důvodů.
Angličtina je celosvětově používaným jazykem a hodnocení na OTAs vždy agregují největší množství anglických hodnocení.
Program STASTISTICA nabízí sice 13 jazykových mutací, ale pouze angličtina má ověřenou funkčnost (Lustigová, a další, 2014). Ostatní jazyky obsahují různé znaky, které jsou buď vypouštěny či nahrazovány jinými znaky, a proto dochází k deformaci dat. Příkladem jsou různé přehlasované znaky nebo v případě ruského jazyka azbuka.
Možným alternativním přístupem je translace jednotlivých jazyků do zvoleného základního jazyka. Zde nastává problém ve strojové translaci jednotlivých slov, protože ta není nikdy přesná a nedokáže překládat slova na základě jejich kontextu. Autorský překlad
48
jednotlivých hodnocení je vázán na perfektní znalost těchto jazyků a lze jej považovat za časově náročný a tím pádem i neefektivní. Rezervační portál Booking.com je celosvětové používaným nástroje pro výběr a rezervace ubytovacích zařízení, což dokazuje i rozložení hodnocení podle 87 zdrojových zemí hodnotitelů. Nejčastější zdrojové země s více než 100 hodnoceními zobrazuje Tabulka 6 Absolutní a relativní četnost hodnocení podle zdrojové země hodnotitele (Booking.com). Počet hodnocení Zdrojová země Česká republika Itálie Německo Rakousko Rusko Slovensko Velká Británie
Absolutní 287 129 387 160 252 196 109
Relativní 10% 5% 14% 6% 9% 7% 4%
Tabulka 6 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (Booking.com)
Složení těchto nejvýznamnějších zdrojových zemí zcela odpovídá i výčtu nejvýznamnějších zdrojových zemí pro cestovní ruch v České republice. Nejvýznamnější skupinou jsou němečtí zákazníci, který využívají vysokého standardu, na který jsou zvyklí z německých hotelů řetězce Vienna International Hotels & Resorts. Druhou největší skupinu tvoří tuzemští hosté, a to díky poměrně velkému množství kongresových akcí probíhajících ve vybraných hotelech. Pomocí celkové počtu hodnocení od zákazníků z vybraných regionů lze sledovat i vliv vnějších faktorů na počet hostů ve vybraných hotelech. Praktickým příkladem je ruskoukrajinský konflikt na poloostrově Krym. Český statistický úřad poukazuje na 26, 3% úbytek hostů z Ruska v poslední kvartálu roku 2014 (ČTK, 2015). Při pohledu na graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 – leden 2015 (Booking.com) je tento trend zcela patrný. S drobnými výkyvy docházelo již v průběhu roku 2014 k celkovému snižování počtu hodnocení od hostů z Ruska, což vedlo až k velmi nízkému počtu hodnocení v lednu 2015. Při porovnání počtu hodnocení v měsíci lednu za roky 2014 (I 2014) a 2015 (I 2015) je patrný velký úbytek ruských hostů v pražských hotelech Vienna International Hotels & Resorts. Na začátku roku 2014 se počet hodnocení vyšplhal na 31 hodnocení. O rok později, tedy v roce 2015, byl tento počet snížen na pouhých 9 hodnocení. Lze předpokládat, že se toto číslo ještě mírně navýší, a to hlavně proto, že data obsahují pouze hodnocení do 19. 1. 2015. Nicméně klesající trend je z dostupných dat patrný. 49
Graf 7 Vývoj počtu hodnocení ruských hostů v časovém období leden 2014 – leden 2015 (Booking.com)
Sledováním počtu hodnocení v čase byla odhalena sezónnost poptávky po vybraných hotelech Vienna International Hotels & Resorts. Tento vývoj pro jednotlivé hotely zobrazuje graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 – leden 2015 (Booking.com). Na ose x jsou zaneseny jednotlivé měsíce ve formátu římské číslice označující číslo měsíce a dvouciferného čísla, které označuje daný rok. Údaje zobrazují období od října 2013 do ledna 2015. Z tohoto vývojového diagramu je patrné, že Diplomat Hotel Prague má díky svému zaměření na kongresové hosty slabou sezónu pouze na přelomu roku, kdy mají firmy vyčerpaný rozpočet z přechozího roku a rozpočet na nový rok nebývá stanoven nebo odsouhlasen. Ostatní hotely jsou rovnoměrně vytíženy celoročně s drobným výkyvem v měsících prosinci a únoru. Díky svému zaměření a velkému rozsahu služeb jsou hotely schopné mimosezonu kongresových akcích (období leden – březen) vyplnit jinými hosty. Od konce března přichází nárůst kongresových akcí zhruba do období dovolených, tedy do konce června. Poté jsou kongresoví hosté opět nahrazeni „dovolenkáři“ a vracejí se s nástupem měsíce října. Nízký počet hodnocení v prosinci je dán hlavně velkým množství korporátních akcí, nejčastěji vánočních večírků, při kterých mají hosté svůj pobyt zprostředkovaný zaměstnavatelem, a proto nejsou motivováni vkládat hodnocení na recenzní nebo rezervační portály.
50
Graf 8 Vývoj počtu hodnocení ve vybraných hotelech v období říjen 2013 – leden 2015 (Booking.com)
Vedle počtu hodnocení a jeho vztahu k vybraným proměnným je nutné sledovat i jejich kvalitu. Tedy slovní a číselné hodnocení. Server Booking.com nabízí číselné hodnocení hotelu na stupnici od 1 do 10 a slovní hodnocení rozdělené na pozitivní a negativní hodnocení. Slovní hodnocení lze využít k identifikaci hlavních faktorů, klíčových slov, které zákazníkovi zlepšily, případně zhoršily, celkový dojem z poskytovaných služeb a pobytu v hotelu. Celkový počet jednotlivých hodnocení zobrazuje graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com).
Graf 9 Počet jednotlivých číselných hodnocení v datovém souboru (Booking.com)
51
Díky vysokému standardu služeb ve všech vybraných hotelech se číselná hodnocení pohybují nejčastěji v rozmezí od 7, 6 do 10, což odpovídá slovnímu hodnocení GOOD – EXCEPTIONAL. Osa Celkové hodnocení je rozdělena po 0, 2 bodech. Pokud budeme uvažovat dělení po celých číslech, bude nejčastějším intervalem hodnocení 9 – 10. Průměrné hodnocení 8, 473 ukazuje na poměrně nízký počet horších hodnocení. Takto vysoká hodnocení vypovídají o vysokém standardu nabízených služeb a dlouhodobému udržování tohoto standardu. Kdyby bylo průměrné hodnocení nižší, což by mohlo být způsobeno například výkyvy v kvalitě poskytovaných služeb, měl by hotel sledovat poskytované služby a snažit se je zlepšit. Vedle celkového počtu hodnocení a průměrné úrovně hodnocení je nutné sledovat i hodnocení, která se vymykají normálnímu rozdělení a jsou takzvanými outliers. Pro zobrazení těchto hodnot se používá boxplot, který pro jednotlivé hotely zobrazuje graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com). Díky takto sestaveným grafům bylo možné identifikovat číselně označená hodnocení (toto označení vychází z čísla případu v datovém souboru), která se vymykají tomuto normálnímu rozdělení.
Graf 10 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (Booking.com)
Tato hodnocení je důležité dále podrobně zkoumat a hledat v nich faktory, které ovlivnily hodnocení hostů. Navíc mohou sloužit jako zdroj velmi přísné kritiky pro zlepšování poskytovaných služeb a eliminaci výkyvů v kvalitě těchto služeb.
52
2.4.3.
Analýza nestrukturovaných dat a abnormálních hodnocení
Díky textminingovému nástroji programu STATISTICA bylo možné analyzovat nestrukturovaná data. Jak již bylo zmíněno v předchozí části při výčtu jazykových mutací slovních hodnocení, pro textovou analýzu byla zvolena pouze hodnocení v anglickém jazyce. Díky této analýze bylo možné stanovit klíčová slova nejen k jednotlivým hotelům, ale k pražské části hotelového řetězce Vienna International Hotels & Resorts jako celku. Takto stanovená klíčová slova bude možné porovnat s klíčovými slovy identifikovanými v deskriptivní části jednotlivých hotelů. Před samotným provedením textminingu bylo nutné nastavit samotný textminer, nástroj provádějící indexaci slovních hodnocení, tak aby byla získána pouze ta nejdůležitější slova. Jako stemmingu language byla vybrána angličtina doplněná o upravený stop-list. Vzhledem k celkovému počtu 522 slovních hodnocení v anglickém jazyce byla zvolena minimálně 5% hladina výskytu indexovaných slov v datovém souboru. Aby nedošlo ke zkreslení výsledku, pozitivní a negativní hodnocení byla analyzována odděleně. Dále byla stanovena hodnota minimální důležitosti indexovaných slov na úrovni 50 bodů. Při použití všech stanovených parametrů byl získán seznam pozitivních klíčových slov pro celý datový soubor, který zobrazuje tabulka 4 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com). Celkem bylo indexováno 41 slov, ale po filtraci pouze těch nejdůležitějších zůstal seznam 12 slov, která nejvíce popisují obsah pozitivních hodnocení. Počet breakfast clean comfort good help hotel locat room staff station train walk
196 125 85 233 91 203 266 219 175 157 89 81
Počet hodnocení, ve kterých se vyskytuje 190 122 80 186 86 144 248 183 172 136 76 68
Důležitost 72,20 57,30 51,79 93,26 50,81 100,00 88,14 91,90 67,35 71,33 54,15 53,69
Tabulka 7 Seznam indexovaných pozitivních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com)
K těmto nejdůležitějším indexovaným slovům lze připojit výčet dalších indexovaných slov s celkovým počtem jejich výskytu v datovém souboru uvedeném v závorce za každým zmíněným slovem. Tato slova nesplňovala stanovenou podmínku 53
minimální důležitosti a patří mezi ně slova milý (83 hodnocení), blízko (82 hodnocení), excelentní (82 hodnocení), přátelský (74 hodnocení), skvělý (70 hodnocení), město (54 hodnocení) a centrum (57 hodnocení). Jak z tabulky nejdůležitějších slov, tak i z následujícího výčtu je patrné, že hosté byli spokojeni hlavně se samotným hotelem, jeho polohou, dopravní dostupností (metro, vlak, stanice) a zaměstnanci hotelu. O dobré kvalitě poskytovaných služeb mluví i velký výskyt pozitivních přídavných jmen. Podle stejných parametrů byla analyzována i negativní hodnocení s tím rozdílem, že byla snížena minimální úroveň důležitosti na 40, a to kvůli nižšímu počtu a rozsahu negativních hodnocení. Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com) zobrazuje výčet těchto klíčových slov pro negativní hodnocení. Nejčastěji si hoteloví hosté stěžovali na pokoje, jejich vybavení a jejich vzhled. S tím je spojená i kritika postelí. Slovo park se pak nejvíce vztahuje k Chopin Hotelu Prague, který leží v blízkosti parku u pražského hlavního vlakového nádraží, ve kterém bývá velké množství žebrajících lidí a bezdomovců, což hotelovým hostům příliš nevyhovuje.
bed breakfast hotel park room
Počet 27 59 87 33 134
Počet hodnocení, ve kterých se vyskytuje 20 57 67 25 90
Důležitost 40,68 47,1 72,43 49,29 100
Tabulka 8 Seznam indexovaných negativních slov pro pražské hotely Vienna International Hotels & Resorts (Booking.com)
Prvním indexovaným slovem, které se jenom těsně nevešlo do zvolené hladiny důležitosti je slovo nothing, které má sice větší počet výskytu v datovém souboru, vyskytuje se ve 44 případech, ale hladina důležitosti se pohybuje pod zvolenou úrovní. Stejně jako v u pozitivních hodnocení doplníme tento seznam o indexovaná slova s počtem jejich výskytu v datovém souboru v závorce, která nesplnila požadovanou důležitosti. Mezi těmito slovy bylo wifi (36 hodnocení), personál (24 hodnocení), drahý (18 hodnocení) a recepce (17 hodnocení). Následující část je věnována jednotlivých hotelům Vienna International Hotels & Resorts. Díky nižšímu počtu hodnocení oproti celku jsou jak negativní, tak pozitivní indexovaná slova uvedena ve společné tabulce. Tato slova je možná porovnat s dříve identifikovanými klíčovými slovy. Součástí této části je i pohled na dříve identifikované abnormálně negativní a jejich obsah. 54
2.4.3.1. Prague
Analýza slovních a abnormálních hodnocení hotelu andel’s Hotel
V přechozích částí, která se zabývala charakteristikou hotelu, bylo identifkováno pět základních klíčových slov, a to slova moderní, lokalita, metro, obchodní centrum a služby. Z tabulky 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel’s Hotel Prague (Booking.com) je patrné, že hosté byli nejvíce spokojeni s využitým pokojem, umístěním hotelu a kvalitou poskytovaných služeb. Kvalitu servisu potvrdilo i přátelské hodnocení personálu. Velmi dobře byla také hodnocena snídaně, čistota a dostupnost metra Anděl. Při zahrnutí dalších prostředků hromadné dopravy (tramvaj, autobus, popřípadě vlak) by byla důležitost této položky nejvyšší s počtem 27 hodnocení. V pozitivních hodnoceních bylo také velké množství pozitivních přídavných jmen jako například dobrý (18 hodnocení), excelentní (7 hodnocení) a perfektní (7 hodnocení). Pokud tato indexovaná slova porovnáme s dříve identifikovanými klíčovými slovy, je patrné, že obsah slovních hodnocení tento výběr potvrzuje v třech případech z pěti. Hotel není vnímán svými hosty jako moderní a blízké obchodní centrum není tak silnou stránkou, jak by se mohlo zdát. Indexované slovo Počet
Positivní hodnocení Negativní hodnocení
room comfort staff locat good metro clean breakfast room bad breakfast free bar
Počet hodnocení s indexovaných slovem
Příklad
Důležitost
17 7 20 23 17 13 15 18 12 3 4 4 4
located breakfast Free wifi -
63,58 60,14 49,47 49,47 46,13 44,96 43,76 43,76 100,00 77,46 53,50 58,62 44,76
22 12 21 23 18 15 16 18 19 7 6 6 5
Tabulka 9 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu andel’s Hotel Prague (Booking.com)
Součástí této tabulky jsou i negativní indexovaná slova. Z výčtu je patrné, že ne všichni hosté byli s vybraným pokojem a snídaní zcela spokojeni. Vzhledem ke standardizaci poskytovaných služeb je tento fakt způsoben hlavně individuálními požadavky jednotlivých zákazníků. Očekávaným kritizovaným bodem je Wi-Fi připojení v hotelu, které je v základní neplacené verzi pomalé a nestabilní. Jediným negativním přídavným jménem je slovo špatný, které je směřováno k nabídce baru Oscar’s. 55
Pro hotel andel’s Hotel Prague byly identifikovány pouze dvě abnormální hodnocení. Prvním hodnocení bylo od ruského páru bez slovního komentáře. Druhé hodnocení bylo na informace bohatší. Zákazník v něm upozorňoval na jeho opakované návštěvy tohoto hotelu a na snížení úrovně poskytovaných služeb při posledním pobytu. Hlavním problémem byla neschopnost pracovníků recepce vyřešit jeho požadavky na teplou vodu v ranních hodinách (7:45 – 8:00), nedostatečný úklid pokoje a koupelny a celkově špatný stav pokoje. Zákazník poukazoval na díry ve stropě po opravě klimatizační jednotky. Dalším negativním vlivem byla téměř nefunkční Wi-Fi síť. 2.4.3.2. Prague
Analýza slovních a abnormálních hodnocení hotelu angelo Hotel
angelo Hotel Prague byl charakterizován klíčovými slovy designový, moderní, vřelý, služby a lokalita. Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com) stejně jako u předchozího hotelu zobrazuje pozitivní a negativní indexovaná slova. K nejčastěji zmiňovaným slovům opět patřila snídaně a pokoj. Některá slova lze přiřadit jako doplňující charakteristiky k dalším indexovaným slovům, například čistý a komfortní jako charakteristiku pokoje, přátelský a nápomocný jako charakteristiku personálu. Ve výčtu pozitivních slov se nachází velké množství pozitivně laděných přídavných jmen (dobrý, perfektní, excelentní), která vypovídají o celkově velké spokojnosti hostů s tímto hotelem. Při porovnání nejdůležitějších indexovaných slov a identifikovaných klíčových slov můžeme dojít k závěru, že pro hosta není tak důležitý samotný styl hotelu a jeho design, ale spíše poloha hotelu, jeho dostupnost a kvalita poskytovaných služeb a pokojů. U negativních hodnocení je nejčastěji zmiňovaným slovem pokoj. Opět se jedná o individuální požadavek klienta, kterému nemusí standardní vybavení zcela vyhovovat. Dalším negativně hodnoceným elementem byla Wi-Fi síť, které není dostatečně stabilní a kvalitní. Velkým mínusem tohoto hotelu je poměrně drahé parkování, které zmiňují hosté ve svých hodnoceních. Pro angelo Hotel Pragu byly identifikovány tři abnormálně nízká hodnocení. První byl slovenský muž na pracovní cestě, který poukazoval na předražené parkování s cenou 850 Kč na jednu noc. Druhé hodnocení od německého turisty poukazující na špinavý pokoj a nefunkčního Wi-Fi připojení. Poslední hodnocení obsahovalo kritiku pracovníků recepce kvůli nízké informovanosti o možných výletech a turistických cílech.
56
Indexované slovo
Počet
Počet hodnocení s indexovaných slovem
Příklad
Positivní hodnocení
location excelent everything friendly Underground helpful comfortable -
Důležitost
Negativní hodncoení
good breakfast room locat staff clean nice excel everyth friend metro help comfort great
47 43 41 39 33 27 23 19 17 17 15 15 14 13
32 41 36 36 32 26 22 17 15 17 15 15 14 12
100,00 74,36 80,44 72,76 64,17 58,41 54,23 52,02 49,71 44,72 42.01 42,01 40,58 42,01
room
25
15 -
park
12
10 parking
50,40
wifi
12
12 -
43,64
100,00
Tabulka 10 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu angelo Hotel Prague (Booking.com)
2.4.3.3. Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague Chopin Hotel Prague má ze všech pražských hotelů řetězce Vienna International Hotels & Resorts nejlepší polohu, protože leží v blízkosti Václavského náměstí, historického centra Prahy, hlavního vlakového nádraží a dalších významných lokalit. Nejvýznamnějších indexovaným slovem bylo slovo stanice s celkovým počtem 301 hodnocení následované slovem lokalita se 164 hodnoceními, což dokazuje tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com). Mezi další pozitivně hodnocená slova lze zařadit pokoj, snídaně a služby. Hlavní silné stránky hotelu. Stejně jako u hotelu angelo Hotel Prague lze některá indexovaná slova vzájemně propojit jako například přátelský a nápomocný personál. Nejsilnějším parametrem tohoto hotelu ale zůstává jeho poloha, vlaková dostupnost blízkost prostředků MHD, blízkost městského a historického centra Prahy. V negativních hodnoceních byla nejčastěji zmiňována slova snídaně, pokoj a hotel. Při porovnání indexovaných a klíčových slov lze říci, že popis hotelu a jeho prezentace téměř odpovídá zákaznickým hodnocením, a proto jsou hotelem poskytované informace pro zákazníky přínosné.
57
Indexované slovo
Počet
Počet hodnocení s indexovaných slovem
Příklad
Positivní hodnocení
149 location main train 260 station 96 95 85 86 68 54 walking distance 55 helpful city centre, old town, main 47 station 45 32 30 32 excelent 32 fiendly 53 -
Důležitost
Negativní hodnocení
locat
164
99,7521681
station room good breakfast staff clean walk help
301 119 115 88 87 69 65 60
close comfort great nice excel friend old town
53 45 36 35 34 33 58
breakfast
38
38 -
52,4749768
hotel
25
18 -
64,2684587
room
64
44 --
100 92,8108905 89,27652 68,2163129 66,3772596 59,2861829 68,5782057 59,7022314
56,7258476 47,1987582 46,6713812 47,1987582 43,3726656 41,6253921 40,4186017
100
Tabulka 11 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Chopin Hotel Prague (Booking.com)
Chopin Hotel Prague zaznamenal jediné hodnocení s hodnotou 0. Toto hodnocení ovšem neobsahovalo žádné podrobné hodnocení a ani slovní komentář, a proto je možné, že se jednalo pouze o chybu při zadávání hodnocení. Druhé nejhorší hodnocení mělo hodnotu 2, 5 a to hlavně kvůli nefunkční klimatizaci, která způsobila extrémně vysokou teplotu v pokoji hosta. Další hodnocení s hodnotou 3, 8 bylo od korejského turisty, který poukazoval na špinavé nádobí během snídaně. Další negativní hodnocení bylo od turecké rodiny, která využila rodinný pokoj s přistýlkou, který byl tak malý, že se druhý den museli přesunout do jiného hotelu. Pro tato hodnocení je společně, že jsou všechny tři z července 2014, tedy jeden z nejvytíženějších měsících v tomto hotelu. Poslední abnormální hodnocení bylo od zákazníka, který velmi pozitivně hodnotil personál recepce, kvalitu snídaně. Na druhou stranu špatně hodnotil chování a kvalitu housekeepingu, kuřácké pokoje a spojené balkóny dvou sousedících pokojů.
58
2.4.3.4. Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague Posledním hotelem je kongresový hotel Diplomat Hotel Prague. Stejně jako u ostatních hotelů je nejlépe hodnocena poloha hotelu a jeho dostupnost z letiště a pomocí MHD. Zákazníci byli také spokojeni se snídaněmi, pokojem a hotelovým personálem, což dokazuje Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com). Z negativních hodnocení je nejvýznamnější samotné zařazení hotelu jako celku do tohoto výčtu, protože se jedná o starší a ne kompletně zrenovovaný hotel, který na některé hosty může působit zanedbaným dojmem. Zajímavý je výskyt slova parkování, protože hotel nabízí velký počet parkovacích prostor. Hlídaných i nehlídaných. Slovo parkování zde bylo zmíněno v kontextu jeho ceny. Stejně jako u předchozích hotelů ve výčtu nechybí pokoj doplněný o koupelnu a negativní přídavné jméno špatný. Při porovnání klíčových a indexovaných slov je patrný značný rozdíl, protože jsou shodná pouze slova poloha a služby To, že je hotel velký a poskytuje převážně konferenční služby, nebylo pro zákazníky tak důležité. Stejně tak, že hotel není renovovaný. Indexované slovo
Positivní hodnocení Negativní hodnocení
good breakfast locat room staff metro airport excel bus hotel room park bathroom bed
Počet
Počet hodnocení s indexovaných slovem
52 46 38 35 33 27 26 22 18 32 26 14 9 9
41 45 38 32 33 26 25 19 15 26 19 8 9 7
Příklad located excellent parking -
Důležitost 86,06 66,67 59,32 61,61 55,28 51,82 50,92 50,92 47,14 100 100 97,89 43,30 52,04
Tabulka 12 Seznam pozitivních a negativních indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (Booking.com)
Vzhledem k tomu, že u tohoto hotelu bylo zaznamenáno nejvíce hodnocení, které se nevešly do normálního rozdělení, byla vytvořena pouze jejich stručná sumarizace. Nejkritizovanějším tématem byla nečistota a špatné vybavení hotelové koupelny. Dále pak sousední staveniště, pach cigaretového kouře na pokojích a poplatky za wellness procedury a parkoviště. 59
2.4.4.
Diskuze
Na základě provedené explorační
analýzy bylo
možné určit
potenciál
dataminingových a textminingových nástrojů pro analýzu dat ze serveru Booking.com. Využití shlukové analýzy nebylo kvůli vysokému počtu chybějících hodnot možné. Z tohoto pohledu není server Booking.com nejlepším zdrojem dat, protože má velmi malé množství obligatorních položek v hodnocení. Pro provedení shlukové analýzy by bylo nutné tato data doplnit, což by s sebou neslo velké riziko zkreslení výsledků. Použitelnost takovýchto výsledků by byla velmi malá. Pro ověření, respektive očištění dat o nelogické spojení volených segmentů na serveru Booking.com, byl zvolený nástroj shlukové analýzy dostačující. Nicméně se pomocí tohoto nástroje nepodařilo zjistit neviditelné vztahy a vazby mezi jednotlivými proměnnými. Využití softwaru IBM SPSS Statistics pro statistickou sumarizaci dat bylo vyhovující. Pomocí jednoduché sumarizace bylo možné určit hotel s největším počtem hodnocení, podíl počtu hodnocení od jednotlivých segmentů na celkovém počtu hodnocení hotelu, pravděpodobnost, že daný zákaznický segment zanechá pozitivní nebo negativní hodnocení, případně hodnocení nezanechá. Dále vývoj počtu hodnocení v čase pro jednotlivé hotely. Díky tomu bylo možné určit hlavní a vedlejší sezonu jednotlivých hotelů. Sledování vývoje počtu hodnocení ruských turistů v posledních 12 měsících odhalilo klesající trend. Ten bylo možné přisoudit hlavně konfliktu na rusko- ukrajinských hranicích a poloostrově Krym. Kvůli tomuto konfliktu se snížil celkový počet ruských a ukrajinských turistů nejen v Praze, ale v celé České republice. Konstrukcí boxplotů bylo možné určit abnormální případy z datového souboru na základě celkového číselného hodnocení. Nestrukturovaná data byla zpracovávána nástrojem STATISTICA. Na základě stemmingu byla indexována hlavní slova hodnocení jednotlivých hotelů, která byla porovnána s předem připravenými klíčovými slovy. Součástí analýzy nestrukturovaných dat byla i stručná charakteristika abnormálních hodnocení. Jejich obsah vyjadřoval převážně velmi negativní osobní zkušenost s hotelem, personálem nebo poskytovanými službami.
60
2.5.
Sumarizace a analýza dat - TripAdvisor.com
Stejně jako jsme se v přechozí části zabývali sumarizací a analýzou dat sesbíraných ze serveru Booking.com, tak se nyní zaměříme na data sesbíraná z recenzního portálu TripAdvisor.com.
2.5.1.
Shluková analýza dat
Pro shlukovou analýzu byl opět vybrán nástroj IBM SPSS Statistics a celkem 13 proměnných z datového souboru všech hodnocení ze serveru TripAdvisor.com. Vybranými proměnnými byly hotel, jazyk hodnocení, pohlavní hodnotitele, země, celkové číselné hodnocení, datum pobytu, volený zákaznických segment, hodnocení polohy, ceny, služeb, kvality spánku, čistoty a pokoje. Postup byl zcela totožný jako v případě shlukové analýzy datového souboru zákaznických hodnocení ze serveru Booking.com. Bohužel i se stejným výsledkem, takže výsledná shluková analýza byla velmi nekvalitní. Proto byla opět aplikována pouze jako nástroj dalšího očištění dat a jejich kontroly. Jednou z možností byla segmentace hodnocení na základě dílčích hodnocení. Bohužel ani takto zvolená shluková analýza nebyla kvalitní a vykazoval velké množství chybějících hodnot. Ověřením zákaznické segmentace bylo získáno šest zákaznických segmentů. Zastoupení jednotlivých segmentů v datovém souboru zobrazuje graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com). Zákazníci serveru TripAdvisor.com si mohou zvolit pouze jedno segmentační označení, která ale není povinné, a proto se v datovém souboru objevuje poměrně značné množství hodnocení bez zařazení do zákaznického segmentu. Tato hodnocení jsou agregována ve skupině Bez segmentu.
Graf 11 Segmentace zákaznických hodnocení podle volených štítků (TripAdvisor.com)
61
Nejpočetnějším segmentem jsou páry s celkovým počtem 1185 hodnocení následované zákazníky na pracovní cesta s 538 hodnocení. V porovnání se segmentací provedou u portálu Booking.com je procentuální zastoupení segmentů Páry, Rodina a Přátelé téměř totožné. U segmentu Jednotlivec je viditelný téměř 6% pokles a nejmarkantnější rozdíl je u segmentu Pracovní cesty, kde rozdíl činí téměř 15 %. Tento rozdíl je způsobem hlavně velkým počtem zákazníků bez přiřazeného segmentu (628 hodnocení) a odlišným zaměřením serveru TripAdvisor.com, který slouží primárně aktivnějším cestovatelům. Kromě těchto drobných rozdílů je zastoupení jednotlivých segmentů téměř totožné.
2.5.2.
Sumarizace sebraných dat
Sběrem dat pro vybrané hotely na serveru TripAdvisor.com bylo získáno celkem 3287 hodnocení. Jejich rozdělení mezi jednotlivé hotely zobrazuje graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com).
Graf 12 Počet hodnocení jednotlivých hotelů (TripAdvisor.com)
Největší počet hodnocení měl andel’s Hotel Prague (1355 hodnocení) následovaný hotelem Diplomat Hotel Prague (951 hodnocení). Velmi překvapujícím byl nízký počet hodnocení u hotelu Chopin Hotel Prague, z čehož lze usuzovat, že servery Booking.com a TripAdvisor.com primárně oslovují rozdílné zákaznické segmenty. Graf 12 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com) zobrazuje složení zákazníků jednotlivých hotelů podle jimi zvoleného zákaznického segmentu.
62
Graf 13 Zastoupení zákaznických segmentů v jednotlivých hotelech podle podílu na celkovém počtu hodnocení (TripAdvisor.com)
V porovnání se serverem Booking.com je patrný velký výskyt nezařazených hodnocení do zákaznických segmentů, který například u hotelu andel’s Hotel Prague činí více než 25 % všech hodnocení. Při komplexním pohledu na všechny hotely a následném porovnání se stejným rozdělením hodnocení podle zákaznických segmentů ze serveru Booking.com je patrný rozdíl v počtu hodnocení segmentu Pracovní cesty, který je u serveru TripAdvisor.com nižší o více než 50 %. Z toho je patrné, že jednotlivé portály využívají různé zákaznické segmenty. Server Booking.com slouží jak zákazníkům, kteří jedou na dovolenou ve svém volném čase, tak zákazníkům na pracovní cestě. Oproti tomu se server TripAdvisor.com zaměřuje spíše na volnočasové a zkušené cestovatele. Všechna hodnocení na serveru TripAdvisor.com mají povinnou slovní část, které je jejich stěžejní částí. Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com) zobrazuje počty hodnocení v jednotlivých jazycích. Nejvyšší počet hodnocení byl psán v anglickém jazyce (2012 hodnocení) a tvořil tak 61 % veškerých hodnocení ve vybraných hotelech. Takto vysoký počet hodnocení v anglickém jazyce je dán hlavně vysokým zastoupením uživatelů z anglofonních zemí (Velké Británie, Spojené státy americké), kteří tvoří 33 % všech uživatelů hodnotících vybrané hotely, a samotnou povahou serveru TripAdvisor.com. Ten má sloužit jako místo předávání informací mezi zkušenějšími
63
cestovali, mezi kterými je angličtina považována za univerzální jazyk, který dokáže oslovit nejvíce uživatelů. V porovnání se serverem Booking.com mají ostatní jazyky jako třeba němčina, ruština, francouzština a španělština pouze minoritní zastoupení.
Graf 14 Počet zákaznických hodnocení v jednotlivých jazycích (TripAdvisor.com)
Jak již bylo zmíněno, třetina všech hodnocení pochází od uživatelů z anglofonních zemí. Tabulka 13 Absolutní a relativní četnost hodnocení podle zdrojové země zobrazuje další významněji zastoupené země, ke kterým patří hlavně Německo (6 % hodnocení), Itálie (8 % hodnocení) a Francie (6 % hodnocení). Oproti serveru Booking.com v tomto výčtu zcela chybí Česká republika, což naznačuje, že TripAdvisor.com není zajímavý pro domácí turisty, kteří raději zanechají hodnocení přímo na portálech, kde svoje pobyty rezervují. Počet hodnocení Země Španělsko Francie Itálie Německo Rusko Velké Británie
Absolutní 108 186 250 190 102 770
Relativní 3% 6% 8% 6% 3% 23%
Spojené státy americké
328
10%
Tabulka 13 Absolutní a relativní četnost zákaznických hodnocení podle zdrojové země hodnotitele (TripAdvisor.com)
Vzhledem k velmi malému počtu hodnocení od uživatelů z Ruska a Ukrajiny nebylo možné jako případě serveru Booking.com určit vliv politických a válečných konfliktů na vývoj počtu hodnocení a zprostředkovaně i vývoj počtu hostů právě z Ruska nebo Ukrajiny. 64
V případě serveru Booking.com bylo možné na základě počtu hodnocení v jednotlivých měsících určitě hlavní sezonu a mimosezonu pro jednotlivé hotely. Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 – leden 2015 (TripAdvisor.com) zobrazuje toto rozložení pro hodnocení ze serveru TripAdvisor.com. Diplomat Hotel Prague má stejně jako v případě serveru Booking.com malý počet hodnocení v měsíci únoru a klesající počet hodnocení od září do konce roku. Zbylé hotely mají velký počet hodnocení hlavně mezi měsíci květnem a srpnem. Dá se předpokládat, že tento počet přímo souvisí se zákaznickými segmenty Pár, Rodina, Přátelé a Jednotlivec, protože tyto měsíce představují hlavní sezónu dovolených s minimem pracovních cest a kongresových akcí. Nejnižší počet hodnocení získávají hotely na začátku kalendářního roku, hlavně potom v únoru.
Graf 15 Vývoj počtu hodnocení ve vybraných hotelech v období červenec 2013 – leden 2015 (TripAdvisor.com)
Hodnocení na serveru TripAdvisor.com mají jak slovní, tak číselnou část, která je zobrazena zelenými kolečky a každému hotelu je tak možné přiřadit celkové hodnocení na škále od 1 do 5. Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com) zobrazuje celkový počet jednotlivých hodnocení přidělených vybraným 65
hotelům. O velké spokojenost hostů a dobrých hodnoceních vypovídá celkový počet hodnocení v kategoriích 4 a 5. Těch je dohromady 2795 a tvoří tak 85 % všech hodnocení ve vybraných hotelech. Aby bylo možné porovnat úroveň hodnocení na vybraných portálech, bylo třeba převést desetistupňovou škálu ze serveru Booking.com na pětistupňovou škálu, která je použita ne serveru TripAdvisor.com.
Graf 16 Počet jednotlivých číselných hodnocení v datovém souboru (TripAdvisor.com)
Toto porovnání zobrazují grafy 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com a 18 Rozložení celkových číselných hodnocení na serveru Booking.com. Z tohoto porovnání je patrné, že na serveru Booking.com jsou mnohem vyšší hodnocení, která jsou složena z 96 % z hodnoceních 4 a 5 a zbylá čtyři procenta zůstávají pro hodnocení 1, 2 a 3. U serveru TripAdvisor.com stejná hodnocení zabírají pouze 85 %. Nejmarkantnější rozdíl je u nejvyššího možného hodnocení. Zde je rozdíl mezi vybranými servery téměř 15 %. Hodnocení 4 má velmi podobnou hodnotu, která se liší pouze o 4 %. U nižších hodnocení je rozdíl patrný hlavně v případě hodnocení 1, kterých je na serveru Booking.com pouze 0, 04 %, kdežto na serveru TripAdvisor.com je tento počet více než 30 krát vyšší. Tento rozdíl mezi vybranými servery může být způsoben cestovatelskými zkušenostmi hlavních skupin, protože zkušený cestovatel bývá ve většině případů mnohem kritičtější.
66
Graf 17 Rozložení celkových číselných hodnocení na serveru TripAdvisor.com (vlevo) Graf 18 Rozložení celkových číselných hodnocení na serveru Booking.com (vpravo)
Vedle celkového počtu hodnocení a jeho porovnání se serverem Booking.com bylo třeba identifikovat hodnocení, která se vymykají normálnímu rozdělení. Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com) opět zobrazuje identifikovaná abnormální slovní hodnocení pro jednotlivé hotely.
Graf 19 Identifikace abnormálně negativních hodnocení jednotlivých hotelů (TripAdvisor.com)
67
2.5.3.
Analýza nestrukturovaných dat a abnormálních hodnocení
V této části navazujeme na analýzu nestrukturovaných dat ze serveru Booking.com. Nastavení pro server TripAdvisor.com byla částečně pozměněna, a to hlavně kvůli zvýšenému počtu hodnocení v anglickém jazyce a většímu rozsahu slovních hodnocení, které obsahují podstatně více slov k indexování. Stejně jako u serveru Boooking.com byla vybrána pouze slova, s minimálně 5% výskytem. Kvůli zvýšenému počtu indexovaných slov byla snížena hladina minimální hladina důležitosti na 20. Při dodržení předem stanovené hranice (50) by bylo vybráno velmi malé množství slov. Slovní hodnocení na serveru TripAdvisor.com mají dvě základní části. První částí je stručné slovní hodnocení, které obsahuje 2 – 5 slov, která podle zákazníka nejvíce vystihují vybraný hotel. Druhá část je na počet slov rozsáhlejší a obsahuje ucelené hodnocení nejen hotelu, ale celého pobytu včetně zajímavostí v okolí hotelu a doporučení pro další potenciální zákazníky. Celkový přehled indexovaných slov zobrazuje tabulka 14 Seznam indexovaných pozitivních a negativních slov pro pražské hotely Vienna International Hotels & Resorts (TripAdvisor.com). Indexované slovo
Stručné hodnocení Podrobné hodnocení
excel good great hotel locat nice room good andel great breakfast staff metro nice tram clean locat
Počet 204 327 420 829 273 169 3288 1847 986 1132 1719 1399 1098 936 911 1133 1113
Počet hodnocení s indexovaných slovem 200 310 377 823 269 166 1626 1066 559 743 1430 1123 793 634 666 949 929
Příklad
Důležitost
excelent located locate
50,44 65,70 78,03 100,00 58,21 45,62 65,52 41,75 31,12 30,30 29,44 27,68 27,45 26,16 23,47 22,71 22,08
Tabulka 14 Seznam stručných a podrobných indexovaných slovních hodnocení pražských hotelů Vienna International Hotels & Resorts (TripAdvisor.com)
Ve stručných hodnoceních vybraných hotelů převládala pozitivní přídavná jména excelentní, dobré, perfektní, krásné nebo milé, lokalita a hotel. Z těchto slov je patrné, že společným rysem všech hotelů je všeobecná spokojenost zákazníků s hotelem a jeho umístěním, poskytovanými službami a jejich úrovní.
68
To potvrzují i indexovaná slova z podrobných slovních hodnocení. Nejčastěji zákazníci hodnotili pokoje (1626 hodnocení), snídaně (1430 hodnocení), hotelový personál (1123 hodnocení) a jejich dobrou kvalitu (1066 hodnocení). Vedle toho zákazníci hodnotili umístění hotelu (929 hodnocení) a nejčastěji lokalitu Anděl (559 hodnocení), a to díky hotelům andel’s Hotel Prague a angelo Hotel Prague, které se nacházejí v pražské části Praha 5 v blízkosti metra Anděl. Posledním společným rysem všech vybraných hotelů je časté hodnocení dostupnosti, přesněji dostupnosti prostředky městské hromadné dopravy (metro, tramvaj). 2.5.3.1. Prague
Analýza slovních a abnormálních hodnocení hotelu andel’s Hotel
Tabulka 15 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu andel’s Hotel Prague (TripAdvisor.com) zobrazuje všechna indexovaná slova ze stručných a podrobných zákaznických hodnocení. Stručná hodnocení hotelu andel’s Hotel Prague obsahovala hlavně pozitivní hodnocení hotelu a jeho umístění. Mluví o tom velký výskyt pozitivních přídavných jmen excelentní, dobrý, perfektní, krásný nebo milý a fantastický. Oproti serveru Booking.com už zákazníci zmiňují i moderní vzhled hotelu (70 hodnocení). Druhým nejčastěji indexovaným slovem je lokalita, která je velmi často zmiňovaná i v dlouhých hodnoceních. Indexované slovo
Stručné hodnocení
andel excel fantast
Podrobné hodnocení
good locat love modern nice room good metro tram breakfast staff nice locat centr
Počet
Počet hodnocení s indexovaných slovem
68 113 59 347 126 54 70 72 1582 1632 634 631 833 694 475 580 449
Příklad
Důležitost
67 109 excellent 59 fantastic good, 315 great 124 located 52 70 70 797 883 great 417 451 683 557 309 476 located 314 mall
40,07 53,11 36,79 78,26 55,02 37,10 40,07 41,75 60,85 70,10 29,74 28,04 28,02 25,71 24,68 21,61 21,56
Tabulka 15 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu andel’s Hotel Prague (TripAdvisor.com)
69
V hlavní části slovního hodnocení byl nejčastěji zmiňován pokoj (797 hodnocení), snídaně (683 hodnocení) a dobré celkové hodnocení poskytovaných služeb (883 hodnocení). Dalším často zmiňovaným parametrem byl personál, který zákazníci uvedli v 557 hodnoceních. Vedle těchto nejčastějších parametrů zákazníci zmiňovali prostředky městské hromadné dopravy, a to konkrétně metro (417 hodnocení) a tramvaj (451 hodnocení). K nejméně často uváděným parametrům patřilo hodnocení lokality (476 hodnocení) a nákupního centra, které se nachází v těsné blízkosti hotelu (314 hodnocení). Při porovnání těchto indexovaných slov s klíčovými slovy z deskriptivní části andel’s Hotelu Prague je patrné, že je komunikace zaměřena spíše na zákazníky serveru TripAdvisor.com, kteří ve svých hodnocení zmínili všech pět klíčových slov. U slovních hodnocení ze serveru Booking.com byla tato shoda pouze 60%. Pro andel’s Hotel Prague bylo identifikováno 8 abnormálních hodnocení. Tato hodnocení obsahovala hlavně negativní hodnocení hotelového pokoje, který byl podle těchto hodnocení velmi malý, špatně vybavený a špinavý. Vedle toho si hosté stěžovali na špatnou či nefungující klimatizaci, špinavou koupelnu, špatnou snídani, bar a restauraci s příliš omezeným výběrem a nedostatečným zákaznickým servisem spojeným s neochotou personálu. Jedno hodnocení velmi podrobně popisovalo špatnou kvalitu všech místa a věcí, se kterými může host přijít do styku. Autor tohoto hodnocení na server Tripdvisor.com napsal pouze jedno hodnocení, i když se odkazoval na předchozí zkušenosti s jinými pražskými hotely, a proto bylo toto hodnocení možným podvrhem, protože se extrémně odlišovalo od ostatních 2.5.3.2. Prague
Analýza slovních a abnormálních hodnocení hotelu angelo Hotel
Ve stručných hodnoceních tohoto hotelu byla nejčastěji uváděna pozitivní přídavná jména excelentní, dobrá, perfektní a milý. Vedle nich lokalita, moderní design hotelu a kvalita služeb poskytovaných hotelovým personálem. Obdobně tomu bylo i dlouhých hodnocení, protože nejčastěji byla uváděna celková dobrá kvalita služeb (297 hodnocení), hodnocení hotelového pokoje (266 hodnocení) a hodnocení snídaně (233 hodnocení). Dalšími velmi často zmiňovanými parametry byly hotelový personál a kvalita jím poskytovaných služeb (179 hodnocení), čistota hotelu a pokojů (143 hodnocení), lokalita hotelu (141 hodnocení). Díky blízkosti stanic městské hromadné dopravy bylo uváděno i metro a tramvaj. Oproti hodnocením ze serveru Booking.com byla v hodnoceních uváděna i restaurace (86 hodnocení) a bar (67 hodnocení), které jsou dominantou hotelového lobby. 70
Jak ve stručným, tak v dlouhých hodnoceních byla uvedena téměř všechna klíčová slova s výjimkou slova vřelý, které má doplňovat hodnocení vnitřního designu hotelu a použitých barevných kombinací. Shoda indexovaných a klíčových slov byla 80 %, oproti 40% shodě u serveru Booking.com, což opět potvrzuje větší zaměření na zákazníky serveru TripAdvisor.com. Indexované slovo
Stručné hodnocení Podrobné hodnocení
excel good great locat modern nice servic room good nice staff breakfast clean tram locat metro excel bar restaur
Počet
Počet hodnocení s indexovaných slovem
31 45 74 23 22 44 28 474 477 181 229 264 174 144 170 141 117 95 113
31 43 68 23 22 43 28 266 297 126 179 233 143 112 141 113 87 67 86
Příklad excellent located service locate excelent restaurant
Důležitost 42,45 53,37 70,71 36,57 35,76 51,71 40,35 58,21 42,93 30,79 30,02 29,26 24,95 24,33 23,70 23,11 21,77 21,35 20,17
Tabulka 16 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu angelo Hotel Prague (TripAdvisor.com)
Pro angelo Hotel Prague bylo identifikováno 8 abnormálních hodnocení, které obsahovaly hlavně špatné hodnocení čistoty koupelny, velmi malou rychlost připojení WiFi a nevyhovující dekoraci pokojů. Špína v koupelně mohla být způsobena nedostatečnou důkladností housekeepingu a nevyhovující dekor byl spíš otázkou osobního vkusu klienta, který si hotel vybral i přes to, že si mohl prohlédnout fotografie hotelu na libovolném serveru. Poslední problém, tedy pomalá Wi-Fi, je problém, který spojuje většinu pražských hotelů, které zdarma nabízejí základní rychlost internetu, která je pro mezinárodní hosty nepřijatelná. 2.5.3.3. Analýza slovních a abnormálních hodnocení hotelu Chopin Hotel Prague U hotelu Chopin Hotel Prague se dalo předpokládat, že ve stručných hodnoceních bude nejčastěji uváděna poloho hotelu, což indexace stručných hodnocení potvrdila a slovo lokalita bylo zmíněno 67 krát. Dalšími zmíněnými slovy byla opět pozitivní přídavná jména 71
perfektní, dobrý, excelentní a hodnocení zákaznického poměru ceny a kvality hotelu. Nejméně často byla zmiňována čistota hotelu. V podrobných hodnoceních byla nejčastěji uváděno hlavní vlakové nádraží (390 hodnocení), dobré celkové hodnocení (188 hodnocení), hodnocení hotelového pokoje (165 hodnocení) a snídaně (159 hodnocení). V podrobných hodnoceních byla uváděna i lokalita hotelu a jeho čistota, přátelskost a vstřícnost hotelového personálu, čistota hotelu a pokojů a také hodnocení postele. Při porovnání identifikovaných indexovaných a klíčových slov byla shoda 80%, stejně jako u hodnocení ze serveru Booking.com. Jediným neshodným slovem byla velikost hotelu, který se prezentuje jako malý, centrálně položený pražský hotel. Indexované slovo
Počet
Počet hodnocení s indexovaných slovem
Stručné hodnocení Podrobné hodnocení
great locat good excel valu clean room
60 69 39 26 21 20 353
53 67 37 26 21 20 165
good
279
188
station breakfast locat staff clean book nice excel help like bed airport friend
525 189 152 132 138 48 70 55 87 49 54 51 75
390 159 123 114 124 33 50 38 76 36 41 38 66
Příklad
Důležitost
located excelent value good, great main train station locate excelent -
100,00 99,34 75,22 58,49 52,57 51,30 93,28 49,37 96,25 39,01 35,96 30,94 30,26 26,30 26,22 24,41 23,93 22,35 21,81 21,44 21,25
Tabulka 17 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Chopin Hotel Prague (TripAdvisor.com)
Mezi hodnoceními Chopin Hotelu Prague se nacházela pouze tři abnormální hodnocení. Tato hodnocení kladně hodnotila polohu hotelu. Na druhou stranu negativně hodnotila služby poskytované hotelovým personálem. Vzhledem k tomu, že ostatní hodnocení hodnotila hotelové služby pozitivně, mohlo se jednat o pouze o ojedinělý případ.
72
2.5.3.4. Analýza slovních a abnormálních hodnocení hotelu Diplomat Hotel Prague Ve stručných hodnoceních Diplomat Hotelu Prague byla nejčastěji zastoupena pozitivní přídavná jména dobrý, perfektní, milý doplněná o hodnocení lokality. Zmínění lokality hotelu nebylo nikterak neočekáváné, díky perfektní dostupnosti hotelu z pražského mezinárodního letiště, blízkosti zastávek městské hromadné dopravy a dobré dostupnosti do centra Prahy. V podrobných hodnoceních dominovala hodnocení pokoje (397 hodnocení) a snídaní (355 hodnocení). Dalším často zmiňovaným parametrem byla celkově dobrá úroveň poskytovaných služeb (294 hodnocení), kvalitu hotelové personálu (272 hodnocení) a blízkost stanice metra (243 hodnocení). Tyto parametry byly doplněny o pozitivní přídavná jména milý, perfektní, dobrý a čistý. Posledním indexovaným slovem, které splňovalo podmínku minimální důležitosti, byl bar (107 hodnocení). Z tohoto pohledu se klíčová a indexovaná slova velmi lišila (shoda nastala pouze u 20 %). Vzhledem k malému zastoupení segmentu Pracovní cesty se dala očekávat absence hodnocení konferenčních prostor. Indexované slovo
Stručné hodnocení Podrobné hodnocení
good great locat nice excel room good breakfast staff metro clean great nice bar
Počet
Počet hodnocení s indexovaných slovem
Příklad
Důležitost
105 65 55 41 34 397 294 355 272 243 225 146 149 107
located excelent -
81,65 67,91 55,28 47,73 43,46 70,74 42,24 30,88 28,76 26,24 24,57 23,92 23,64 21,98
110 71 55 41 34 878 483 433 343 302 276 207 210 157
Tabulka 18 Seznam stručných a podrobných indexovaných slovních hodnocení hotelu Diplomat Hotel Prague (TripAdvisor.com)
73
2.5.4.
Diskuze
Stejně jako v případě hodnocení ze serveru Booking.com byla i zde shluková analýzy využita pouze pro další očištění dat, protože datový soubor obsahoval velké množství chybějících údajů, kvůli kterém nemohla být shluková analýza provedena. Provedení shlukové analýzy by však bylo možné při její aplikaci na mladší data. Na serveru TripAdvisor.com je viditelný posun v zadávání zákaznických hodnocení. Ta již obsahují všechny informace o pobytu. Tedy i informace, které nejsou vyžadovány. Nejenže tato hodnocení obsahují čím dál tím víc textu a osobních zkušeností, ale hodnotitelé vyplňují velmi poctivě i dílčí hodnocení jednotlivých hotelů. Díky tomu by bylo možné shlukovou analýzu provést v krátkém časovém horizontu s mnohem lepšími výsledky. Vedle toho byla opět sumarizována všechna sebíraná data. Počet hodnocení v jednotlivých hotelech, zastoupení hodnocení jednotlivých segmentů ve vybraných hotelech, rozdělení celkového počtu hodnocení podle jazykových mutací, rozdělení počtu hodnocení jednotlivých hotelů v čase a další. Vzhledem k tomu, že celkové číselné hodnocení na serveru TripAdvisor.com nabývá hodnot 1 až 5, nebylo možné tato hodnocení porovnat s číselnými hodnoceními na serveru Bookign.com. Proto byla hodnocení ze serveru Booking.com (ze stupnice 0 až 10) převedeny na stejnou stupnici. Poté už bylo možné porovnat tato hodnocení. Z porovnání je patrné, že hodnotitelé na serveru TripAdvisor.com jsou více kritičtí. To je možné přičíst hlavně tomu, že je server TripAdvisor.com zaměřený primárně na zkušené cestovatele, kteří na poskytované služby pohlížejí kritičtěji. Pro analýzu nestrukturovaných dat byl opět vybrán nástroj STATISTICA. Z hlediska obsahu nestrukturovaných dat jsou hodnocení ze serveru TripAdvisor.com velmi dobrá. Hodnocení se zaměřují nejen na samotný hotel, ale i na další věci spokojené s pobytem v daném městě. Proto jsou velmi rozsáhlým zdrojem informací nejen o samotném hotelu, poskytovaných službách nebo personálu, ale i o zajímavostech v blízkosti hotelu a ve městě. Tato hodnocení je možné použít pro upravení nabídky služeb a produktů.
74
3. Návrhová část Předchozí část této práce byla věnována explorační analýze zákaznických hodnocení pražských hotelů hotelového řetězce Vienna International Hotels & Resorts ze serverů Booking.com a TripAdvisor.com. Zákaznická hodnocení jsou velmi rozsáhlým informačních zdrojem nejen pro zákazníky, kteří je nemohou hlouběji analyzovat, ale i pro provozovatele hotelových zařízení. Z pohledu zákazníka není třeba tato hodnocení hluboce zkoumat, protože postačí pouze několik recenzí, které zákazníkovi pomohou při rozhodovacím procesu tak, aby si zvolil nejlepší možný hotel. Provozovatelé hotelů však mohou tato hodnocení využít pro získávání informací nejen ze strukturovaných dat, ale i z těch nestrukturovaných. Vzhledem k jejich povaze, tedy volné dostupnosti, je tato data možné využít i pro získání konkurenční výhody, případně jako zdroj inspirace pro zlepšení současných služeb nebo vytvoření nových služeb. Z hlediska vybraných hotelových zařízení je možné provedené analýzy aplikovat na jakýkoliv hotelový subjekt, který na zvolených stránkách agreguje větší množství zákaznických hodnocení, přestože manuální dolování informací z takto velkého datového souboru může být velmi náročné a na první pohled neefektivní. Na druhou stranu nelze aplikovat nástroje IBM SPSS Statistics a STATISTICA na příliš malý datový soubor. Výstupy takové analytické činnosti by byly nepřesné a nepřinášely by žádné smysluplné poznatky.
3.1.
Servery Booking.com a TripAdvisor.com jako zdroje dat
Pro tuto práci byly vybrány servery Booking.com a TripAdvisor.com. Oba tyto servery agregují velké množství volně dostupných dat a jsou největšími zprostředkovateli ubytovacích služeb v rámci recenzních a rezervačních portálů v oblasti hotelnictví. Sledování těchto kanálů je minimálně potřebné, a to díky jejich mezinárodní působnosti a velkým objemům dat, které agregují. Server Booking.com je největším zprostředkovatelem ubytovacích služeb nejen v Evropě, ale i ve světě. Jeho velkou výhodou je poměrně rozsáhlá kontrola zákaznických hodnocení, které musejí splňovat předem zvolené parametry. Další výhodou je, že server umožňuje hodnocení hotelů pouze hostům, kteří hotel opravdu navštívili a pokoj v daném hotelu rezervovali prostřednictví tohoto serveru. Navíc se tento server poměrně dynamicky mění a přizpůsobuje se potřebám zákazníků (vyhledávání podle klíčových slov, vyhledávání podle jazyku hodnocení, podle pozitivních či negativních hodnocení), ale i potřebám hotelů (možnost odpovídat na zákaznická hodnocení). 75
Recenzní server TripAdvisor.com je nejvýznamnější portál v oblasti hospitality a cestovního ruchu na světě. Jeho vliv v hotelnictví je každý rok stále větší a větší. Každoročně vyhlašuje žebříčky nejlepší hotelů na světě a tyto hotely z tohoto zařazení jednoznačně profitují. Zákaznická hodnocení obsahují poměrně velké množství nestrukturovaných dat, která je nutné analyzovat. Nicméně je z nich možné získat informace o hotelu, personálu, poskytovaných službách, ale i o atrakcích v okolí hotelu, případě o městských atrakcích. Z tohoto pohledu přestavuje server TripAdvisor.com lepší zdroj dat, nicméně také vyžaduje důkladnější a kvalitnější analytické přístupy a metody.
3.2.
Sběr dat
Časově nejnáročnější prací spojenou s analyzováním zákaznických hodnocení a dolování důležitých informací byl sběr dat. Hlavní důvodem této časové náročnosti byla nutná manuální práce, která by však mohla být nahrazena napsáním programu či jednoduché aplikace, která by dokázala využít dostupnosti zdrojového kódu ke stahování, extrakci, příslušných dat do předem připravené struktury. I tento krok by však neobešel bez průběžné a závěrečné kontroly získaných dat. Vzhledem k tomu, že stěžejním cílem této práce bylo prozkoumání možnosti aplikace a limit vybraných nástrojů pro získávání informací ze zákaznických hodnocení, čas nutný k tvorbě a testování příslušné aplikace mohl být věnován přímo sběru dat. Pro dlouhodobé sledování je tento přístup velmi neefektivní, a hotelové podniky by měly v případě volby dataminingových a textminingových nástrojů zvažovat i způsob získávání dat.
3.3. Využití dataminingu a dataminingové nástroje IBM SPSS Statistics v hotelnictví Pokud se hotelový podnik rozhodne pro aplikaci dataminingových nástrojů (v tomto případě IBM SPSS Statistics), je třeba dbát na to, že samotný nástroj nedokáže vytvářet řešení daných problémů, ale slouží pouze jako analytický nástroj, který novým způsobem zpracovává data do smysluplných informací. Ty pak mohou sloužit jako základ pro manažerské rozhodování. Proto je při aplikaci vhodné postupovat podle vytvořených procesních vzorců. Z uživatelského pohledu je velmi přehledný hlavně dataminingový proces CRISP-DM. Ten v sobě zahrnuje nejen samotný proces získávání a analyzování dat, ale i nutnost hlubší znalosti oboru a řešené problematiky. K dataminingu nelze přistupovat jako k nástroji, který z vložených dat vytvoří smysluplný výstup bez definování řešeného problému.
76
Z provedené analýzy je možné označit software IBM SPSS Statitistics jako nástroj vhodný pro analýzu dat ze zákaznických hodnocení. Vedle základních popisných statistik, které dávají základní přehled o celkovém počtu hodnocení pro daný hotel, jazykových mutacích hodnocení a jejich zastoupení v datovém souboru, počtu hostů z jednotlivých zdrojových zemí, celkovém hodnocení zákazníků, je možné sledovat vývoj počtu hodnocení zvolených zákaznických segmentů ve zvoleném časovém období a tím identifkovat hlavní a vedlejší sezónu, identifikovat abnormálně pozitivní či negativní hodnocení, a ta dále samostatně zkoumat. Součástí analýzy byla i shluková analýza, která sloužila pouze jako nástroj pro ověření a očištění již vzniklých zákaznických segmentů. Bohužel datový soubor obsahoval poměrně velké množství chybějících hodnot, a proto nebylo možné vytvořit unikátní segmenty pro jednotlivé hotely. Shluková analýza představuje nástroj s velkým potenciálem pro využití v hotelnictví, protože umožnuje tvorbu shluků (zákaznických segmentů) na základě libovolně zvolených proměnných. Toho lze využít hlavně v marketingu při segmentaci trhu a následném výběru a zacílení na vybraný segment. Díky provedení shlukové analýze je možné identifikovat nejen jednotlivé segmenty, ale hlavní parametry, které tyto segmenty mají. Vzhledem k velkým možnostem tvorba grafů, tabulek a dalších výstupů je možné i v těchto základních popisných statistikách identifikovat zákaznické segmenty, které nejčastěji přidávají slovní hodnocení. Vedle sledování zákaznický hodnocení vlastního hotelu, je možné využít volně dostupná data v zákaznických hodnocení k analýze konkurenčních hotelových zařízení a získání náhledu na sezónnost jejich provozu, hlavní zákaznické segmenty. Tento nástroj lze aplikovat i na data z vlastního PMS. V těchto systémech jsou data velmi dobře strukturována a jen málokdy se stane, že jsou nekompletní. Proto by bylo možné využít shlukovou analýzu pro segmentaci zákazníků na základě dat v těchto systémech. Navíc by bylo možné identifikovat segmenty, které v hotelu nejvíce utrácejí, za jaké služby vydávají nejvíce peněz a tyto služby posilovat a zkvalitňovat.
3.3.1.
Limity využití dataminingu v hotelnictví
Vedle přínosů, které mohou dataminingové nástroje přinést organizaci po jejím zavedení, je třeba zohlednit i limity, kterým je zavedení dataminingových nástrojů v oblasti hotelnictví vystaveno. Proto bylo identifikováno následujících šest hlavních limit.
Nedostatečná znalost dataminingu. Datamining je poměrně mladá oblast, která se velmi pomalu dostává do oblasti hotelnictví. Takto pomalému nástupu napomáhá i nízká znalost analytických nástrojů a procesů ve
77
vrcholném vedení podniků. Tyto nástroje jsou proto považovány za zcela zbytečné.
Nízká úroveň penetrace analytických nástrojů a moderních technologií v hotelnictví. To je dlouhodobě považováno za obor, který změny v technologiích následuje s několikaročním zpožděním. Na druhou stranu může být náskok v technologickém vybavení velkou konkurenční výhodu.
Vysoká finanční náročnost. Dataminingové nástroje s dobrým uživatelským prostředím jsou velmi často velmi drahé, a proto představují velkou investici do analytického softwaru, která nemusí být na první pohled rentabilní.
Vyšší náklady na kvalifikovaný personál nebo školení personálu pro práci s těmito nástroji. Znalost práce s těmito nástroji mají převážně absolventi matematických fakult a fakult se zaměřením na informační technologie. Zaškolení personálu pro práci s těmito nástroji může být zdlouhavé a finančně nákladné.
Datamining pracuje pouze s dostupnými daty, která figurují na vstupu. Proto je důležité sledovat kvalitu těchto dat. Analýzou nekvalitních dat nemohou vzniknout kvalitní výstupy.
Datamining pracuje pouze s tvrdými strukturovanými daty. Pro práci s měkkými daty a z nich vycházející psychografickou segmentaci je dataminingu nutné propojit s textminingem.
3.4. Využití textminingu a textminingového nástroje STATISTICA v hotelnictví Součástí této práce byla i aplikace softwaru STATISTICA a jeho textminingového nástroje na nestrukturovaná data obsažená v uživatelských hodnoceních. Z provedených analýz je patrné, že je tento nástroj vhodný pro základní analýzu textu a identifikaci hlavních témat ze slovních hodnocení. Bohužel neumožňuje hlubší analýzu nestrukturovaných dat, která by byla potřebná k získání přesných informací ze získaných zákaznických hodnocení. STATISTICA pracuje na základě stemmingu, indexaci na základě kořenů slov. Pro kvalitnější analýzu je však vhodnější využití nástrojů na základě lemmatizace, případně kontextového vyhledávání slov. Tyto modernější nástroje umožňují analýzu sentimentu, která se dá aplikovat na hodnocení ze serveru TripAdvisor.com, která nemají předem stanovenou svoji povahu, tedy jejich pozitivitu nebo negativitu. Pro hlubší a přesnější analýzu textu je vhodné použít modernější nástroje. 78
K aplikaci textminingových nástrojů v hotelnictví je možné přistupovat dvěma způsoby. Prvním způsobem je využití těchto nástrojů jako samostatného analytického nástroje, který získává informace z nestrukturovaných textových dat. Na základě těchto informací je možné segmentovat zákazníky podle jejich hlavních zájmových oblastí jako například čistota koupelny, kvalita poskytované stravy, kvalita spánku a další. Takto identifikované oblasti zájmu lze porovnávat se zákaznickými segmenty a hledat v nich pro konkrétní
hotely
vzájemné
souvislosti.
Druhý
možným
přístupem
je
využití
textminingových nástrojů pro převedení nestrukturovaných dat do strukturované podoby a jejich následná analýza dataminingovým nástrojem. Druhý přístup umožňuje získání velmi komplexních informací o hotelových zákaznících a jejich segmentaci.
3.4.1.
Limity využití textminingu v hotelnictví
Stejně jako datamining, i textmining má své limity a omezení, které je nutné zvažovat před rozhodováním o využití těchto nástrojů. Některé limity má textmining společné s dataminingem jako například finanční náročnost, náročné zaškolení personálu, nízkou penetraci moderních technologií a postupů v hotelnictví a nízkou znalost textminingových nástrojů. Pro textmining byly identifikovány i následující limity.
Nejednotný přístup textminingových nástrojů k práci s jazykem, který neumožnuje standardní výstup z jazykových analýz.
Neustálý a velmi rychlý vývoj textminingových nástrojů.
Nárůst počtu dokumentů v jazycích, které jsou psány jinou znakovou sadou než latinkou (arabské jazyky, azbuka, hebrejština, asijské jazyky). Na tyto jazyka a znakové sady jsou zaměřeny pouze nekomerční softwary bez ověřených výsledků a postupů.
Jak dataminingové, tak textminingové nástroje prokazují velký potenciál s rostoucím objemem velkých dat ve všech odvětvích včetně hotelnictví. Použité postupy a analytické nástroje jsou pro analýzu dat ze zákaznických hodnocení v současné době dostačující. S dalším vývojem těchto technologií a zdokonalováním analytických nástrojů bude možné získávat kvalitnější informace z dostupných dat. Tyto nástroje je možné a vhodné využívat ve všech ekonomických a obchodních odděleních hotelu, protože mohou hotelu přinést podstatné informace o fungování podniku a jeho výkonnosti, zákaznících a jejich chování.
79
Závěr Cílem této diplomové práce bylo stanovení možností a limitů použitelnosti dataminingového nástroje IBM SPSS Statistics a textminingového nástroje STATISTICA pro analyzování volně dostupných zákaznických hodnocení pražských hotelů Vienna International Hotels & Resorts na serverech Booking.com a TripAdvisor.com. Tento cíl byl úspěšně splněn, a to díky provedení explorativní analýzy dat z vybraných serverů pro vybrané hotely. Na základě těchto analýz bylo možné stanovit možnosti využití vybraných nástrojů pro stanovení různých charakteristik a také limitů pro jejich použití. Tyto limity byly formulovány v návrhové části společně s návrhy pro způsoby využití vybraných nástrojů. První část této diplomové práce byla věnována rešerši dostupné literatury vztahující se k vlivu zákaznických hodnocení na rezervačních a recenzních serverech na rozhodovací proces zákazníků a vybrané hotelové ukazatele. Z pohledu hotelu byl zajímavý hlavně vliv těchto hodnocení na základní ekonomické ukazatele hotelu (ADR, occupancy rate, RevPAR). Oblastí, která nebyla zcela podrobně prozkoumaná, byl možný vliv zákaznických hodnocení na SEO při jejich zahrnutí do obsahu internetových stránek. Druhým tématem této teoretické části byla rešerše současné literatury o dataminingu a textminingu v oblasti hotelnictví a základních informací o těchto analytických nástrojů. Během zpracování těchto rešerší byl identifikován jeden hlavní problém během práce se českými zdroji. Problematika dataminingu a textminingu je celosvětově poměrně mladou oblastí, a proto je většina publikací v anglickém jazyce. V českém jazyce je datamining a textmining zmiňován pouze na oficiálních stránkách společností, které tato řešení poskytují. Ucelený pohled na tuto problematiku v podobě knižní publikace v českém jazyce bohužel neexistuje. Z toho vychází i minimální počet zdrojů v českém jazyce. Na teoretickou část navazovala analytická část, jejíž hlavní náplní bylo analyzování dostupných dat. Jediným problémem této části byl velmi pracný a časově náročný sběr dat. Ten byl proveden manuálně a pro další a komplexnější zpracování byl doporučen vývoj jednoduché aplikace či programu, který by tuto manuální práci nahradil. Analytická část dále přinesla přehled možností aplikace vybraných nástrojů v hotelnictví stejně tak i některých limit. Velkým problémem, který takřka eliminoval možnost provedení shlukové analýzy, byl velký počet chybějících hodnot a nedostupných dat. Tento problém by mohl být odstraněn aplikací shlukové analýzy na mladší data ze serveru TripAdvisor.com. Ta již obsahují většinu informací a počet chybějících informací je velmi malý. Pomocí vybraných nástrojů 80
bylo možné provést i základní sumarizaci dat. Pro každý hotel bylo možné určit celkový počet hodnocení, zastoupení hodnocení od jednotlivých zákaznických segmentů v celkovém počtu hodnocení, hlavní jazykové mutace hodnocení, zdrojové země hodnotitelů. Dále bylo možné určit hlavní a vedlejší sezonu na základě vývoje počtu hodnocení v čase. Sledováním počtu hodnocení ruských hostů v čase bylo možné sledovat jejich úbytek ve vybraných ubytovacích zařízeních. Tento úbytek plně koresponduje se snižujícím se počtem ruských turistů v České republice. Díky rozdělení hodnocení podle celkového číselného hodnocení bylo možné identifikovat abnormální hodnocení, a ty dále sledovat. Nestrukturovaná data byla zpracovávána jen velmi jednoduše, protože hlubší analýzu software STASTICA neumožňuje. Indexací nejdůležitějších slov bylo možné porovnat klíčová slova ze zákaznických hodnocení s popisem hotelu a určit atributy, které jsou pro zákazníky důležité. Pro získání lepších informací by bylo třeba použít lepší nástroj. Například IBM Watson. Průběh analýz byl i hlavní zdrojem pro formulaci limitů použitých nástrojů. Ty byly vytvořeny spojením vlastních zkušeností vyplývajících z analytické části a limitů zmiňovaných v přehledech současné literatury, s kterými se autor této práce shoduje. Mezi hlavní limity byla zařazena hlavně finanční náročnost během pořízení těchto nástrojů a výcviku stávajících zaměstnanců pro práci s těmito nástroji, nutná znalost oboru statistiky a analytických procesů a větší povědomí o moderních technologiích a nástrojích. Vzhledem ke stanovenému cíli a jeho naplnění, bylo možné na vybrané nástroje nahlížet jako na použitelné, s vysokým potenciálem pro použití v hotelnictví. Pražské hotely Vienna International Hotels & Resorts by jejich využitím měli a mohli vylepšit postup segmentace zákazníků při marketingové komunikaci a zaobírat se tak nejen geografickou nebo demografickou segmentaci, ale i psychografickou segmentací zákazníků, hlavně z dat z PMS. Dále by měli uceleně sledovat všechna dostupná data a zlepšit svoji komunikaci se zákazníky na vybraných serverech. Ne všechna zákaznická hodnocení mají od hotelů odpověď, což zbytečně snižuje počet oslovených zákazníků. Stejně tak by hotely měli minimalizovat výkyvy v kvalitě služeb a měli by se snažit o jejich maximální personalizaci.
81
Literatura Admin. 2014. Virtual Social Media. Why is Hotel Reputation Management Important for Hotel Marketing Today? [Online] Virtual Social Media, 7. 10 2014. [Citace: 11. 2 2015.] http://www.virtualsocialmedia.com/hotel-reputation-management-important-hotel-marketingtoday/. Anderson, Eugene W. 1998. Costumer Satisfaction and Word of Mouth. Journal of Sevice Research. August, 1998, Sv. 1, 1, stránky 5-17. Anderson, Chrsi K. 2012. The Impact of Social Media on Lodging Performance. Cornell Hospitality Report. November 2012, 2012, Sv. 12, 15. Azevedo, Anna a Santos, Manuel Filipe. 2008. KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW. IADIS International Conference e-Learning 2008. 2008. Barreda, Albert a Bilgihan, Anil. 2013. An analysis of user-generated content for hotel experiences. Journal od Hospitality and Tourism Technology. 2013, Sv. 3, 2, stránky 263 - 280. Booking.com. 2015. Booking.com . Chopin Hotel Prague City. [Online] Booking.com, 2015. [Citace: 15. 3 2015.] http://www.booking.com/hotel/cz/chopin.engb.html?sid=70efa1d40bec63d4b7196a399c8ca5b2;dcid=1;bhh=1#tab-reviews. Butler Analytics. 2014. Text Analytics: A Business Guide. místo neznámé : Butler Analytics, 2014. comScore Inc. 2007. MarketingCharts. Online Consumer-Generated Reviews Have Big Impact on Offline Purchases. [Online] Watershed Publishing, 2007. [Citace: 14. 2 2015.] http://www.marketingcharts.com/direct/online-consumer-generated-reviews-have-big-impacton-offline-purchases-2577/kelsey-group-comscore-rating-influence-on-purchase-pricejpg/. Customer Alliance. 2015. Customer Alliance. Hotel Reputation Management. [Online] CA Customer Alliance, 1. 1 2015. [Citace: 2. 11 2015.] http://www.customeralliance.com/en/articles/hotel-reputation-management/. ČTK. 2015. Finanční noviny.cz Ekonomický server ČTK. Do Česka přijelo loni meziročně o 1, 5 procenta turistů více. [Online] ČTK, 9. 2 2015. [Citace: 12. 4 2015.] http://www.financninoviny.cz/zpravy/do-ceska-prijelo-loni-mezirocne-o-1-5-procenta-turistuvice/1179106. Danubianu, Mirela a Hapenciuc, Valenti Cristian. 2008. Improving Customer Relationship Management in Hotel Industry by Data Mining Techniques. Annals of the University of Craiova, Economic Sciences Series. 2008, Sv. 7, 39, stránky 3267-3268. Davies, Phil. 2012. Travolution. Customers 'after the truth' in hotel reviews, finds study . [Online] Travel Weekly Group Ltd., 15. 11 2012. [Citace: 2. 10 2015.] http://www.travolution.co.uk/articles/2012/11/15/6195/customers-after-the-truth-in-hotelreviews-finds-study.html#sthash.bOlhwc9A.dpuf. Dean, Brian. 2015. pebbledesign. Findign the balance between "otas" (online travel agents) & direct bookings. [Online] Pebble Design, 2015. [Citace: 12. 2 2015.] http://www.pebbledesign.com/insights/finding-the-balance-between-otas-and-direct-bookings.
82
Dholakiya, Pratik. 2014. unbounce. Are Excessively Possitive Customer Reviews Hurting Your Conversion Rates? (Study). [Online] Unbounce Marketing Solutions Inc., 9. 1 2014. [Citace: 12. 2 2015.] http://unbounce.com/conversion-rate-optimization/customer-reviews-conversion-rates/. Downey, J. L. a Christensen, L. 2006. Belief persistence in impression formation. North American Journal of Psychology. December, 2006, Sv. 8, stránky 479-487. Feldman, Ronen a Sanger, James. 2006. The Text Mining Handbook. Cambridge : Cambridge University Press, 2006. ISBN-13 978-0-511-33507-5. Fox, Linda. 2012. TNOOZ. Booking.com driving 50% of European online travel reservations. [Online] TNOOZ, 2012. [Citace: 15. 3 2015.] http://www.tnooz.com/article/booking-com-driving50-of-european-online-hotel-reservations/. —. 2012. tnooz.com. Extreme comments ignored and few focus on negative reviews says TripAdvisor. [Online] TNOOZ, 15. 11 2012. [Citace: 10. 2 2015.] http://www.tnooz.com/article/extreme-comments-ignored-and-few-focus-on-negative-reviewssays-tripadvisorinfographic/#utm_source=Tnooz+Mailing+List&utm_medium=email&utm_campaign=c619c06539 -RSS_EMAIL_CAMPAIGN. Gretzel, U., & Yoo, K. H. 2008. Use and impact of online travel reviews. Information and communication technologies in tourism 2008. 2008, stránky 35-46. Gretzel, Ulrike. 2006. Consumer Generated Content: Trends and Implications of Branding. eReview of Tourism Research. 2006, Sv. 4, 3, stránky 9-11. Hearst, Martin. 2003. What Is Text Mining? [Online] SIMS, UC Berkeley, 17. 10 2003. [Citace: 7. 3 2015.] http://people.ischool.berkeley.edu/~hearst/text-mining.html. Hospitality-industry.com. 2014. Hospitality Industry. Hospitality News. [Online] Hospitalityindustry.com, 15. 12 2014. [Citace: 3. 12 2015.] http://www.hospitalityindustry.com/index.php/news/comments/researchers_use_textmining_software_to_predict_success_failure_of/. Hotelmarketing'com. 2015. Hotelmarketing'com. Booking.com reaches 600,000th property milestone. [Online] Hotelmarketing'com, 2. 18 2015. [Citace: 3. 15 2015.] http://hotelmarketing.com/index.php/content/article/booking.com_reaches_600000th_property _milestone. Chevalier, Judith A. a Mayzlin, Dina. 2006. The Effect of Word of Mouth on Sales: Online Book Reviews. Journal of Marketing Research. August, 2006, Sv. 43, 3, stránky 345-354. Jensen, Kenneth. 2012. WikiPedia. Cross Industry Standard Process for Data Mining. [Online] Wikimedia Foundation, Inc., 26. 4 2012. [Citace: 19. 2 2015.] http://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining#mediaviewer/F ile:CRISP-DM_Process_Diagram.png. Kim, Soo, Lin, Li-Chun a Wang, Yawie. 2008. Data Mining Applications in the Hospitality Industry. [autor knihy] John Wang. Encyklopedia of Data Warehousing and Mining. Montclair State : Montclair State University, 2008, stránky 406-410. 2542 s..
83
Klein, Kevin a Becirovic, Timo. 2014. Winfwiki. Analyse Text Mining mit R. [Online] Hochschule für Oekonomie & Management, Düsseldorf, 6. 15 2014. [Citace: 7. 3 2015.] http://winfwiki.wifom.de/images/5/5d/A_Venn_Diagram_of_the_Intersection_of_text_mining.PNG. Lau, Kin-Nam, Lee, Kam-Hon a Ho, Ying. 2005. Text mining for the Hotel Industry. Cornell Hotel and Restaurant Administration Quarterly. Quarterly, August 2005, Sv. 46, 3, stránky 344-362. Law, Rob. 1998. Hospitality Data Mining Myths. FIU HOSPITALITY REVIEW. 1998, Sv. 13, 1, stránky 59-66. Lee, M., Rodgers, S., & Kim, M. 2009. Effects of valence and extremity of ewom on attitude toward the brand and Website. Journal of Current Issues and Research in Advertising. 2009, Sv. 31, 2, stránky 1-12. Lustigová, Zdena a Chalupa, Štěpán. 2014. Využití softwaru Statistica pro analýzu nestrukturovaného textu na rezervačních portálech. Sborník 3. Mezinárodní vědecké konferenceCestovní ruch, hotelnictví lázeňství ve světě vědeckého výzkumu a praxe. 2014, stránky 215 - 221. Magnini, Vincent P., Honeycutt jr., Earl D. a Hodge, Sharon K. 2003. Data Mining for Hotel Firms: Use and Limitations. Cornell Hotel and Resturant Quarterly. April, 2003, Sv. 44, 2, stránky 94-105. Mann, Puja Walia a Jha, Manisch. 2013. Maxims of Buzz: A study on impact of WOrd of Mouth. International Journal of Research in Management & Social Science . October- December 2013, 2013, Sv. 1, 1, stránky 1-13. Olsen, M.D. a Connolly, D.J. 1999. Antecedents of technological change in the hospitality industry. Tourism Analysis. 1999, Sv. 4, 1, stránky 29-46. Ong, Beng Soo. 2012. The Percieved Influence of User Reviews in the Hospitality Industry. Journal of Hospitality Marketing & Management. 2012, Sv. 5, 21, stránky 463 - 485 . Rouse, Margaret. 2011. SearchContent Management- TechTarget. natural language processing (NLP). [Online] TechTarget, 5 2011. [Citace: 7. 3 2015.] http://searchcontentmanagement.techtarget.com/definition/natural-language-processing-NLP. SAS Institute Inc. 1998. Data Mining and the Case for Sampling. Cary : SAS Institute Inc., 1998. 19963US.0399 REV. Shannon, Sarak. 2009. Bloomberg. One Bad Twitter "Tweet" Can Cost 30 Customers, Survey Shows. [Online] Bloomberg L.P., 25. 11 2009. [Citace: 10. 2 2015.] http://www.bloomberg.com/apps/news?pid=newsarchive&sid=afod9i5PqoMQ. Special Nodes. 2012. tnooz. Underscoring of online hotel reputation management. [Online] TNOOZ, 2012. [Citace: 11. 2 2015.] http://www.tnooz.com/article/underscoring-the-importanceof-online-hotel-reputation-management/. SPSS Inc. 2000. IBM . CRISP-DM: Step-by-step data mining guide. [Online] IBM Inc., 2000. [Citace: 19. 2 2015.] ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserM anual/CRISP-DM.pdf. Spyns, Peter. 1996. Methods of Information in Medicine. 1996, Sv. 34, 4-5, stránky 285-301. StatSoft CR s. r. o. 2015. STATISTICA™. StatSoft. [Online] StatSoft CR s. r. o., 2015. [Citace: 23. 3 2015.] http://www.statsoft.cz/. 84
Struhl, Steven. 2008. hospitalitynet TM. Data Mining Comes of Age: Overcoming The Myths and Misconceptions. [Online] Hospitality Net, 9. 6 2008. [Citace: 19. 2 2015.] http://www.hospitalitynet.org/news/4036261.html. Taylor, Ian. 2012. Travolution. Reviews "raise booking rates" seys Reevo; "not true" says ad agency. [Online] Travel Weekly Group Ltd., 14. 6 2012. [Citace: 11. 2 2015.] http://www.travolution.co.uk/Articles/2012/06/14/5772/reviews+raise+booking+rates+says+rev oo+not+true+says+ad.html. The Nielsen Company. 2013. Global Trust in Advertising and Brand Messages. New York : The Nielsen Company, 2013. Torchio, Paolo. 2011. Hotelmarketing'com. Five critical trends hotel marketers need to know. [Online] Hotelmarketing'com, 1. 7 2011. [Citace: 2. 10 2015.] http://hotelmarketing.com/index.php/content/article/five_critical_trends_hotel_marketers_need _to_know. TripAdvisor Inc. 2015. Conveniently located and... – Chopin Hotel Praha City. TripAdvisor Česká republika. [Online] TraipAdvisor Inc., 2015. [Citace: 19. 3 2015.] http://www.tripadvisor.cz/ShowUserReviews-g274707-d1173626-r256391655Chopin_Hotel_Prague_City-Prague_Bohemia.html#CHECK_RATES_CONT. —. 2015. O webu TripAdvisor. Tripadvisor Česká republika. [Online] TripAdvisor Inc., 2015. [Citace: 19. 3 2015.] http://www.tripadvisor.cz/pages/about_us.html. TripAdvisor LLC. 2014. TripAdvisor for business. 24 insights to shape your TripAdvisor strategy. [Online] TripAdvisor LLC, 11. 2 2014. [Citace: 10. 2 2015.] http://www.tripadvisor.com/TripAdvisorInsights/n2120/24-insights-shape-your-tripadvisorstrategy. Two Crowns Corporation. 2005. Introduction to Data Mining and Knowledge Discovery. Potomac : Two Crowns Corporation, 2005. str. 36. ISBN: 1-892095-02-5. Uldrich, Miloš. 2010. Data mining jako prostředek konkureční výhody. IT Systems. 2010, ISSN 1802-615X. —. 2011. Text mining aneb Kladivo na nestrukturovaná data. IT Systems. 2011, Sv. I, 12, stránky 18-19. White Plains. 2010. hotel Management. Sheraton reveals socila media habits. [Online] Questex Media Group LLC, 15. 11 2010. [Citace: 2. 11 2015.] http://www.hotelmanagement.net/sharaton/new-sheraton-survey-reveals-importance-socialmedia-9613. Zaki, Mohammed J. a Meira Jr., Wagner. 2015. Data Mining and Analysis: Fundamental Concepts and Algorithms. Londýn : Cambridge University Press, 2015. str. 562. ISBN 9780521766333.
85