NATIONAL AND REGIONAL ECONOMICS VIII
SHLUKOVÁ ANALÝZA E-BANKING KLIENTŮ ČESKÉ SPOŘITELNY Ivan SOUKAL Univerzita Hradec Králové, Fakulta informatiky a managementu ivan.soukal@uhkcz Abstrakt Tento článek je zaměřený na retailové základní bankovní služby pro nepodnikající fyzické osoby. Za pomocí shlukové analýzy je zkoumán výběr z populace klientů České spořitelny a.s. s aktivovaným e-banking. Analýza je založena na neagregovaných datech a jejím výstupem je identifikování klientských clusterů, dle typického užívání bankovních služeb. Výstup je využitelný nejen pro segmentaci v rámci skupiny e-banking klientů této banky, ale také jako nástroj pozdějšího zjištění poplatkového zatížení jednotlivých profilů, průměrného klienta banky a dále jako jeden z nástrojů pro zjištění cenové hladiny těchto služeb. Klíčová slova: retailové bankovnictví, e-banking, clustery, poplatky ÚVOD Tento článek je zaměřen na retailové základní bankovní služby pro nepodnikající fyzické osoby, jednotným termínem retail core banking services (dále v textu pod zkratkou RCBS). Těmto službám se v době, kdy bylo zjištěno, že je v EU více obyvatel s běžným účtem než s pevnou telefonní linkou, začíná věnovat čím dál větší pozornost. Jedním z důvodů je fakt, že na tomto trhu byla zjištěna v rámci několika studií zadaných Evropskou komisí značná netransparentnost z důvodu nepřehlednosti sazebníků bank a nemožnosti snadné komparace nabídek [7, 8]. Jedním z navrhovaných řešení je webová komparační služba pro RCBS produkty a následné vyhodnocování, které může přinést cenné údaje o chování klientů. V tomto článku jsou analyzována vícerozměrná data ze zkušebního provozu nezávislé webové komparační služby, která vznikla na základě výše zmíněného doporučení. Komparační služba se nazývá Kalkulátor bankovních poplatků (dále v textu pod názvem Kalkulátor), konkrétně budou analyzováni respondenti, kteří uvedli jako svůj bankovní ústav Českou spořitelnu a.s. (dále v textu pod zkratkou ČS). Ta je nejvýznamnějším bankovním domem v ČR, co se týče velikosti klientely. Celkový počet respondentů užívajících RCBS služby ČS byl 1596. 1
SHLUKOVÁ ANALÝZA KLIENTŮ ČESKÉ SPOŘITELNY
Cílem článku je za užití statistického software PASW Statistics 18 zjistit, do jakých skupin, segmentů se rozpadá populace e-banking klientů ČS na základě zkoumání výběru získaného z projektu Kalkulátor. Sekundárním cílem je navržení dalšího praktického využití výsledků. 2
ZDROJOVÁ DATA A METODIKA
2.1 Původ a popis dat Zdrojem dat je déle trvající spolupráce řešitelského týmu a majitelem firmy, která provozuje tematický web Bankovní poplatky1, v jehož rámci funguje i komparační webová aplikace Kalkulátor2. Aplikace je zaměřena na výpočet celkových nákladů RCBS klienta. Četnosti měsíčního užívání služeb, případně částky, se kterými je operováno, jsou zadávány klientem do elektronického formuláře, který je následně ukládán na server. Přidaná hodnota pro respondenta je výpočet konkrétní výše zpoplatnění jeho měsíčního užívání RCBS napříč trhem. Díky tomu se pak může kvalitněji rozhodnout o svém poskytovateli RCBS. Formulář je rozčleněn do logických kapitol: I. účet, II. výpisy, III. karetní služby, IV. přímé bankovnictví, V. platby – jednorázové, VI. platby – trvalé příkazy, VII. platby – povolení k inkasu (včetně SIPO), VIII. hotovostní operace, IX. další služby. Ve zdrojových datech se nachází: 43 intervalových proměnných – četnosti měsíčního užívání RCBS případně částky se službou spojené, 6 dichotomických proměnných – přítomnost určitých služeb (karetní služby, e-banking apod.), 2 nominální proměnné – forma a frekvence zasílání výpisů, 2 textové proměnné – informace o bance klienta a textové pole pro zapsání připomínek pro Kalkulátor 2 ordinální proměnné – systémové proměnné přidělování pořadového čísla jednotlivým respondentům a čas, kdy bylo provedeno uložení odpovědi. Z hlediska marketingového výzkumu se jedná o data:
1 2
Dostupný na URL: http://www.bankovnipoplatky.com/, cit. 19.8.2010 Dostupný na URL: http://www.bankovnipoplatky.com/kalkulator.html, cit. 19.8.2010
NATIONAL AND REGIONAL ECONOMICS VIII
vícerozměrná – bylo sledováno 53 proměnných o užívání RCBS a 2 systémové proměnné pro každý prvek v souboru, primární – byla získána přímo od uživatelů RCBS, subjektivní – data vychází z úsudku klienta o vlastním užívání RCBS.
2.2 Metodika 2.2.1
Transformace, verifikace, validace Vzhledem k tomu, že SPSS nedokáže naráz ve shlukové analýze zpracovat nominální a kvantitativní proměnné, bylo nutné převést proměnnou Forma_výpisu a Frekvence_výpisu na sérii dummy dichotomických proměnných o hodnotách {0,1}. Funkcí Recode into different variables byly transformovány nominální hodnoty {1,2,3} proměnné Forma_výpisu na 3 dummy dichotomické proměnné Výpis_Inet, Výpis_pošta, Výpis_osobně s binárními hodnotami. Podobně byly vytvořeny dummy proměnné pro textovou proměnnou Frekvence_výpisu {tydne, mesicne, ctvrtletne, rocne} na 4 dichotomické proměnné Výpis_týdně, Výpis_měsíčně, Výpis_kvartálně, Výpis_ročně. Dále vzhledem ke změnám, které během zkušebního provozu proběhly, byly trvalé platby příkazem a inkasem sloučeny do jedné proměnné trvalé platby. Chybějící údaje nebyly nahrazovány, i když literaturou [1] je doporučeno několik způsobů, místo toho pro výpočty byly užita metoda pairwise. Zde je při hodnocení dvojice proměnných vyloučen pouze ten respondent, u nějž se chybějící hodnota týká jedné z dvojice proměnných (v potaz se nebere, zda je v ostatních proměnných chybějící hodnota) Vzhledem k faktu, že formulář Kalkulátoru postrádal po dobu zkušebního provozu filtr omezující vstupní data, bylo nutné provést verifikaci vstupních dat až ve statistickém software. Někteří respondenti evidentně nejsou retailovými zákazníky a podnikají, např. jako OSVČ nebo v šedé ekonomice prostřednictví aukčních portálů (např. respondenti s 30+ jednorázových, příchozích nebo trvalých plateb měsíčně). Tyto záznamy byly z dalšího zkoumání vyřazeny. V rámci validace dat bylo provedeno šetření relativních četností vyplnění jednotlivých odpovědí (intervalové proměnné). Proměnné, které byly nevyplněny více jak 50 % respondenty, byly zaznamenány. Dále bylo provedeno šetření středních hodnot a všechny proměnné s relativní četností užívání 10 % a méně byly zaznamenány. Shluková analýza je extrémně citlivá na nevýznamné znaky [2]. Z tohoto důvodu byly proměnné zaznamenané na obou seznamech (relativní četnost vyplnění 50 % a méně a zároveň relativní četnost užívání 10 % a méně) vyloučeny z pozdějšího shlukování a počet hodnocených proměnných se ustálil na hodnotě 20. 2.2.2
Shlukování Vzhledem k přítomnosti intervalových proměnných s přirozeně vyšší četností užívaných služeb i proměnných s nižší bylo nutné provést normování. Pokud by provedeno nebylo, potom by se shlukování provádělo především dle proměnných s vysokou četností. To by za standardních okolností bylo pořádku, ovšem zkoumaný
SHLUKOVÁ ANALÝZA KLIENTŮ ČESKÉ SPOŘITELNY
případ je specifický a služby s přirozeně vysokou četností (především příchozí platby) jsou zpoplatněny méně než služby s nižší (především výběry z bankomatů). Z tohoto důvodu před samotnou shlukovou analýzou bylo provedeno normování metodou zscoring. Vzhledem k počtu shlukovaných prvků se na doporučení literatury [2, 3, 4] užilo nehierarchického shlukovány pomocí shlukovacího algoritmu k-průměrů. Pro shlukování se užilo: horní hranice iterací 50 (v žádné variantě shlukování nebyla dosažena), 21 intervalových proměnných a jedné ordinální jako popisné proměnné jednotlivých prvků, resp. respondentů metody vylučování prvků z důvodu nevyplněných hodnot pairwise. V rámci první varianty shlukování (varianta s extrémními klienty) bylo provedeno shlukování pro 2 – 8 shluků. Následně bylo pro každou variantu vypočítáno jakou hodnotu má tzv. globální pravidlo G5 [2]. B: matice mezishlukové variability E: matice vnitroshlukové variability k: počet shluků n: počet prvků p: počet proměnných
(1)
(2)
(3)
Optimální počet shluků byl následně zvolen dle podmínky maximalizace, resp. bylo zvoleno takové shlukování, kde byla hodnota globálního pravidla G5 nejvyšší. Na závěr obou variant shlukování bylo nutné pro získání konkrétních hodnot měsíčního užití sledovaných služeb v rámci získaných clusterů výsledné hodnoty všech centroidů tzv. de-z-scorovat. Každý centriod, resp. jeho vektor byl vynásoben vektorem směrodatných odchylek zkoumaných proměnných a následně byl přičten vektor průměrů proměnných. Tento postup bylo možné užít pouze díky nepřítomnosti záporných hodnot. 3 VÝSLEDKY Na základě provedeného shlukování pro 2 – 8 shluků byl určen jako optimální počet shluků 5, dle pravidla maximalizace globálního pravidla G5. Je zajímavé, že tento počet shluků je shodný s výzkumem [6], kde je ovšem zkoumána celá populace, nejen e-banking klienti. Bohužel Capgemini nezveřejňuje svou metodiku a na přímé dotazy o ní nereaguje.V rámci shlukování bylo 1 596 sledovaných respondentů rozděleno do
NATIONAL AND REGIONAL ECONOMICS VIII
clusterů, jejichž velikosti jsou zaznamenány v grafu níže. Jednotlivé hodnoty centroidů, resp. průměrných hodnot jednotlivých proměnných charakteristických pro 5 zjištěných clusterů, jsou k dispozici v tabulce níže.
Tabulka 1: celočíselné de-z-scorované hodnoty proměnných pro jednotlivých 5 shluků, zdroj: vlastní zpracování Proměnná/shluk Výpis_Inet Výpis_Poštou Výpis_měsíčně Výpis_čtvrtletně Výpis_ročně Karta_debet_neemboss Karta_debet_emboss Karta_kreditní Výběr_ATM_vlastní_ČR Výběr_ATM_cízí_ČR Výběr_ATM_vlastnízahraničí Výběr_ATM_cizíahraničí Příchozí_platba_vlastní Příchozí_platba_cizí Příkaz_do_vlastní_pobočka Příkaz_do_cizí_pobočka Příkaz_do_vlastní_Inet Příkaz_do_cizí_Inet Trvalé_platby Vklad_hotovost_pobočka Výběr_hotovost_pobočka Cash_back
1 1
2 1
1
1
3 1 1
4 1
5 1
1
1
1 1 3 1 1 1 2 2
1 3
1 3
3 1
4 1
Obrázek 1: Graf velikostí jednotlivých shluků při analýze 5ti shluků, zdroj: vlastní zpracování
Z grafu je patrné, že se prvky rozpadají do dvou mainstream 1 1 1 4 skupin a pak 3 specifičtějších 2 2 2 6 segmentů. Více podstatné jsou ale hodnoty charakteristické pro 3 jednotlivé shluky. 1 3 Z tabulky je jasné, že některé 3 2 1 2 6 4 3 2 4 8 služby jsou poptávány všemi v přibližně stejné 6 6 5 6 9 segmenty intenzitě (výběry bankomatů 1 1 1 1 1 vlastní banky, tedy ATM České spořitelny). Všem segmentům je 2 společné využívání výpisů s měsíční frekvencí a přibližně 3 výběry z bankomatu vlastní banky a též všechny segmenty tedy budou citlivé na poplatky spojené s touto operací. Ostatní proměnné se již v jednotlivých shlucích objevují s různými četnostmi. V následující části bude výsledek pro každý shluk komentován se zaměřením na veličiny a poplatky, kterými se liší od shluků ostatních, a shlukům bude přiřazen název, který by měl vystihovat typického klienta z tohoto shluku: 1. Aktivní klient, mezinárodní, 2 % – klienti z tohoto nejmenšího segmentu využívají především debetní embosované karty, protože neembosované karty nejsou v zahraničí přijímány. Dále jsou jedinými klienty, kteří využívají
SHLUKOVÁ ANALÝZA KLIENTŮ ČESKÉ SPOŘITELNY
2.
3.
4.
hotovostních služeb v zahraničí. Z toho vyplývá, že v otázce poplatků je toto jediný segment, který je ovlivněn paušálními (fixní poplatek za výběr v cizině) a parciálními (určován jako poměrová částka z celkové vybírané hotovosti) poplatky při výběrech v cizí zemi. Bohužel Kalkulátor nesleduje, kvůli vcelku složité struktuře, zpoplatnění mezinárodních elektronických plateb (platby užívající IBAN a SWIFT kód). Pokud by toto sledoval, je pravděpodobné, že nejvyšší frekvence těchto plateb bude právě v tomto segmentu. V ostatních službách je klient o něco aktivnější, než je průměrný klient, a to jak v bezhotovostních, tak hotovostních platbách. Průměrně aktivní klient, 49 % – Tento segment by měl reprezentovat většinovou populaci. Proto je s podivem, že je u tohoto shluku určitá inklinace k internetovému bankovnictví. Tento fakt souvisí s respondenty, resp. znakem aktivního e-banking nebo ukazuje na výraznou snahu klientů šetřit čas i peníze. Vzhledem k tomu by bylo možné do názvu segmentu přidat slovo internetový. Tento segment nemá na rozdíl od ostatních jasnou preferenci ohledně karetních služeb, i když více než 40% klientů v tomto shluku má debetní embosovanou kartu a kreditní kartu (viz. podrobnější údaje o clusteru v Přílohách a v souboru De-z-score.xls na přiloženém CD). Vzhledem k tomu, že příchozí platby a jednorázové platby zřízení pomocí elektronického bankovnictví ve většině bank zpoplatněny nejsou nebo málo, bude tato skupina citlivější na poplatky při zřizování trvalých plateb, i když se dá očekávat, že i tyto platby budou zřizovány také za užití elektronického bankovnictví. Méně aktivní klient, 29 % – Tento segment se vyznačuje nejnižším využíváním Internetu ve spojitosti s bankovnictvím. Jde o jediný segment, který užívá papírové výpisy. Přesto se nedá z hlediska bankovních poplatků hovořit o citlivosti klientů, protože od harmonizace s evropskou legislativou v posledním kvartálu roku 2009 si banka nesmí účtovat poplatky za měsíční informování klienta o jeho účtu [5]. Banky si tedy u této formy účtují jen poštovné a méně. Ohledně citlivosti na poplatky tedy budou platit stejná pravidla jako u průměrně aktivního klienta. Hotovostně-pobočkový klient, 10 % – prvky tohoto shluku je vykazována nejvyšší četnost hotovostních služeb, konkrétně vklady a výběry na pobočce a také jako jediný segment využívá službu cash-back. Dále na rozdíl od průměrného klienta, resp. nejpočetnějšího shluku, zde klienti užívají také ATM cizích bank. Podobně se shluk výrazně odlišuje zadáváním jednorázových příkazů k platbě na pobočce a to jak do vlastní, tak cizí banky. Identifikace takto silné pobočkové preference v rámci klientů s aktivovaným e-banking nebyla očekávána a je jistým překvapením. Je tedy evidentní, že tento segment bude nejvíce reagovat na poplatky spojené s hotovostními operacemi. Ovšem právě tyto služby, kromě služby cash-back, budou zpoplatňovány, čím dál tím více. Tento trend byl nastoupen přibližně před 6ti lety a není znám důvod, proč by neměl pokračovat. Banky se snaží svou poplatkovou politikou, rozuměno
NATIONAL AND REGIONAL ECONOMICS VIII
5.
výrazným zvyšováním poplatků těchto služeb, redukovat počet hotovostních operací na pobočce. Poslední proměnná odlišující tento shluk od ostatních je vlastnictví převážně neembosovaných debetních karet. Tyto karty jsou nejlevnější karetním produktem a jsou vydávány především klientům, kteří neplánují výběry v zahraničí a neužívají mezinárodně uznávané internetové platební systémy, např. Paypal (i když bylo nedávno povoleno užití i určitých neembosovaných visa karet). V ostatních službách je tento segment průměrně aktivní. Velmi aktivní klient, 10 % – Tento segment vykazuje v porovnání s ostatními nejvyšší aktivitu ohledně příchozích a odchozích plateb. To se týká jak jednorázových platebních příkazů, tak trvalých plateb. Nejvyšší rozdíl oproti průměrnému klientovi se nachází u jednorázových plateb skrze elektronické bankovnictví, kde je četnost téměř 3násobná. Oproti průměrnému klientovi se také odlišuje užíváním hotovostních služeb na pobočce. Dále je tento segment nejaktivnější v užívání ATM a jeho aktivitě nasvědčuje i vlastnictví embosované debetní karty, kterou lze užít v rámci internetových platebních systémů.
MOŽNOSTI UŽITÍ A OMEZENÍ PRO INTERPRETACI Vytvoření clusterů není samoúčelnou metodou, která má pouze explorativní charakter. Vzhledem k tomu, že ČS je užíván, na rozdíl od ostatních bank, pro kalkulaci poplatků vlastní konfigurátor3, neobsahuje projekt Kalkulátor možnost jejich přímého výpočtu. Ve zmíněném konfigurátoru si klient zvolí, které služby chce mít nezpoplatněné, dále si může zvolit nadstandardní služby ke svému účtu apod. Teprve od tohoto nakonfigurování svého budoucího účtu se odvíjí zpoplatnění služeb. Tento mechanismus, kdy některé části sazebníků pro klienta pak neplatí a některé naopak ano, je obtížné implementovat, resp. je velmi obtížné pak pro klienta vypočítat konkrétní úroveň poplatků. Jednou z možností, jak zjistit, kolik klienti zaplatí u ČS za své RCBS, je kombinace shlukové analýzy a základního ekonomického předpokladu o chování ekonomických subjektů. Jinými slovy po zjištění klientských profilů je možné v konfigurátoru pro každý z nich najít optimální nákladovou kombinaci. Za předpokladu, že se klient chová racionálně a zvolí takové nastavení účtu, které je pro něj optimální, se potom výsledné náklady pro jednotlivé shluky mohou považovat za průměrné náklady jednotlivých klientských profilů. Po provedení vážené sumy, kde vahou jsou velikosti jednotlivých clusterů a váženými sčítanci jsou zjištěné hodnoty poplatků jednotlivých profilů, je pak dokonce možné zjistit i průměrný náklad RCBS klienta ČS. Tohoto údaje může být dále využito při pokusu o sledování cenové hladiny RCBS v ČR pro již zmíněné e-banking klienty. Jak je již v článku několikrát zmíněno, výsledek lze aplikovat pouze na populaci e-banking klientů ČS. I když je skupina RCBS klientů s aktivovaným e-banking 4
3
Dostupný na URL: http://www.csas.cz/banka/pages/configc/app.jsp?ou=osobni
SHLUKOVÁ ANALÝZA KLIENTŮ ČESKÉ SPOŘITELNY
výrazně nadpoloviční a podíl těchto klientů na celkové populaci stále narůstá, stále existuje skupina klientů bez e-banking, která brání vztažení výsledků šetření výběru získaného Kalkulátorem na celou populaci. Dále je nutné ohledně zdroje dat zmínit, že internetový formulář je vzdálen optimální metodě, tedy prostému náhodnému výběru, z několika důvodů, které mohou vést ke zkreslení směrem k mírně aktivnějším klientům s určitou preferencí internetového bankovnictví a naopak se výsledky odchýlí od pasivních klientů s pobočkovými preferencemi (např. důchodci). Kromě využívání e-banking je nutné zmínit další limitující faktory, které ovlivňují výběr z celkové populace RCBS klientů v ČR: respondent musí mít přístup na Internet – tento předpoklad je ve většině případů v přímé souvislosti s předpokladem o zkoumání populace RCBS klientů s e-banking. V dnešní době není významným omezením. respondenta musí zajímat, jaké poplatky platí – tento předpoklad je založen na základní úvaze, že pro koho částka za bankovní poplatky není důležitá, ten nebude vyplňovat formulář na bankovnipoplatky.com. Vzhledem k relativně běžnému jevu, kdy občan nějakou službu odsuzuje nebo není jinak spokojen, ale dá to najevo pouze verbálně bez vlastní akce k analyzování své situace, či změně stavu, je toto dalším zdrojem zkreslení, jehož intenzitu lze jen těžko odhadnout. Situace je podobná volbám, kdy každý občan má nějakou jemu sympatickou politickou stranu, ovšem k volbám se dostaví maximálně každý druhý. CONCLUSION / ZÁVER Data získaná z pilotního provozu prokázala potenciál projektu Kalkulátor nejen v rovině výpočtu poplatků, ale také v rovině analýzy chování klientů. Vzhledem k tomu bude dále pokračováno ve vyhodnocování dat z plného provozu Kalkulátoru, který dovolí užít náročnější metodiku (přidání redukce proměnných metodou hlavních komponent apod.) k získání ještě podrobnějších a ještě přesnějších výsledků. Nová metodika bude také jiným způsobem řešit otázku dichotomických, resp. překódovaných nominálních proměnných, která je zatím řešena nedostatečně uspokojivě. V rámci e-banking klientely ČS bylo identifikováno 5 clusterů. Dva mainstream clustery průměrného (49%) a méně aktivního klienta (29%) a následně 3 menších clusterů. Překvapivým zjištěním byl cluster klientů, kteří i přes aktivní e-banking mají silnou pobočkovou preferenci (10%). U zbylých cluster byla zjištěna výrazná preference informačního kanálu Internet, která je v souladu se znakem aktivovaného ebanking. 5
Článek byl zpracován v rámci projektu specifického výzkumu „Index cenové hladiny core banking services a klientské clustery“ číslo 2111 z výdajů na výzkum a vývoj Ministerstva školství, mládeže a tělovýchovy.
NATIONAL AND REGIONAL ECONOMICS VIII
POUŽITÁ LITERATÚRA [1] HEBÁK, P. a kol. Vícerozměrné statistické metody (1). Praha : Informatorium, 2005. 240 s. ISBN 80-7333-025-3. [2] HEBÁK, P. a kol. Vícerozměrné statistické metody (3). Praha : Informatorium, 2005. 255 s. ISBN 80-7333-039-3. [3] MELOUN, M. Počítačová analýza vícerozměrných dat v příkladech. Praha : Academia, 2005. 449 s. ISBN 80-200-1335-0. [4] ŘEZANKOVÁ, H. A kol. Shluková analýza dat. druhé rozšířené vydání. Praha : Professional publishing, 2009. 218 s. ISBN 978-80-86946-81-8. [5] SOUKAL, I. Dopady harmonizace systému klientských nákladů CBS v ČR se Směrnicí 2007/64/ES. In Hradecké ekonomické dny 2010 : sborník příspěvků díl II. z vědecké konference Ekonomický rozvoj a management regionů konané 2.–3. února 2010 v Hradci Králové. Hradec Králové : Gaudeamus, 2010, s. 105–108. ISBN 978-80-7435-041-2 [6] Capgemini worldwide, World retail banking report 2008, [on-line], URL: http://www.at.capgemini.com/m/at/tl/World_Retail_Banking_Report_2009.pdf , 30.8.2010 [7] European commission, SEPA monitoring study, [online], URL: http://ec.europa.eu/consumers/rights/docs/SEPA_monitoring_study.pdf, cit. 22.8.2010 [8] European commission, Study on the Data collection for prices of current accounts provided to consumers, [online], URL: http://ec.europa.eu/consumers/strategy/docs/prices_current_accounts_report_e n.pdf, cit. 29.8.2010