Bankovní institut vysoká škola Praha Katedra informatiky a kvantitativních metod
Statistická kompilace v databázovém prostředí Diplomová práce
Autor:
Bc. Petr Matonoha Informační technologie a management
Vedoucí práce:
Praha
doc. Ing. Dagmar Blatná, CSc.
Červen, 2015
Prohlášení:
Prohlašuji, že jsem diplomovou práci zpracoval samostatně a v seznamu uvedl veškerou použitou literaturu.
Svým podpisem stvrzuji, že odevzdaná elektronická podoba práce je identická s její tištěnou verzí, a jsem seznámen se skutečností, že se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.
…………………………………………………………. Bc. Petr Matonoha V Praze dne 30.06.2015
Poděkování: Rád bych touto formou poděkoval paní doc. Ing. Dagmar Blatné, CSc. za spolupráci, cenné připomínky a její ochotu. Velký dík patří také mému zaměstnavateli ČNB a Ivanu Matalíkovi za to, že mě pro studium motivovali a připravili mi pro něj vhodné podmínky.
Anotace Cílem diplomové práce je ukázat základní možnosti hromadného zpracování dat ze statistických šetření pomocí SQL do požadované formy statistické kompilace. V teoretické části je nastíněna problematika statistik národních účtů, základní statistické metody pro zpracování dat z hromadných šetření a teoretický úvod do jazyka SQL. Praktická část práce se již zabývá samotným vytvářením národní statistiky pro finanční instrument dluhových cenných papírů a ukazuje konkrétní způsoby realizace vybraných statistických metod pro zpracování dat.
Klíčová slova: statistické šetření, hromadné zpracování dat, SQL, imputace, finanční účty
Annotation The purpose of the thesis is to show basic possibilities for mass processing of data from statistical survey using SQL into specific form of statistical compilation. The theoretical part take focus on national accounts statistics, basic statistical methods for processing data from mass survey and theoretical introduction to the SQL. The practical part of thesis deal with the actual creation of the national statistics for debt securities, showing us concrete methods of implemtation of selected statistical methods for data processing.
Key words: statistical surveys, data processing, SQL, imputation, financial accounts
Obsah 1
Statistika čtvrtletních finančních účtů ................................................................................ 9 1.1
Klasifikace ekonomických subjektů .......................................................................... 10
1.2
Klasifikace finančních instrumentů ........................................................................... 10
1.3
Základní pojmy .......................................................................................................... 11
1.4
Základní metodické principy ..................................................................................... 12
1.4.1
Účtování ............................................................................................................. 12
1.4.2
Ocenění ............................................................................................................... 12
1.4.3
Konsolidace ........................................................................................................ 12
1.4.4
Doba zachycení................................................................................................... 12
1.5 2
Publikování dat .......................................................................................................... 12
Vybrané statistické metody pro zpracování dat................................................................ 14 2.1
Základní pojmy .......................................................................................................... 14
2.2
Statistické šetření ....................................................................................................... 14
2.2.1 2.3
Zpracování dat z výběrových zjišťování.................................................................... 16
2.3.1
Míry polohy ........................................................................................................ 16
2.3.2
Poměrné ukazatele .............................................................................................. 16
2.4
3
Základní metody získání výběrového souboru ................................................... 15
Kontrola údajů ........................................................................................................... 17
2.4.1
Postupy nahrazování chybějících údajů pro základní datové matice ................. 17
2.4.2
Postupy nahrazování chybějících údajů pro časové řady ................................... 18
2.4.3
Metody vypouštění údajů ................................................................................... 18
2.5
Regresní a korelační analýza ..................................................................................... 18
2.6
Časové řady................................................................................................................ 21
2.6.1
Druhy časových řád ............................................................................................ 21
2.6.2
Charakteristiky časových řad.............................................................................. 22
2.6.3
Dekompozice časových řad ................................................................................ 22
2.6.4
Analytické vyrovnání časových řad ................................................................... 23
2.6.5
Adaptivní přístupy k trendové složce ................................................................. 23
SQL................................................................................................................................... 25 3.1
SQL příkazy ............................................................................................................... 25
3.1.1
Data manipulation language ............................................................................... 25
3.1.2
Data definition language..................................................................................... 25 5
3.1.3
Data control language ......................................................................................... 25
3.1.4
Transactional control language........................................................................... 26
3.2
4
5
Použití příkazu SELECT ........................................................................................... 26
3.2.1
Omezující podmínky pro výsledky hledání ........................................................ 26
3.2.2
Aliasy .................................................................................................................. 28
3.2.3
Omezení záznamů............................................................................................... 28
3.2.4
Agregační funkce................................................................................................ 28
3.2.5
Uspořádání výsledků dotazu............................................................................... 28
3.2.6
Přístup do více tabulek ....................................................................................... 29
3.3
UPDATE .................................................................................................................... 30
3.4
DELETE .................................................................................................................... 30
3.5
INSERT INTO ........................................................................................................... 30
Zdroje dat potřebné pro kompilaci ................................................................................... 32 4.1
Statistické výkazy ČNB ............................................................................................. 32
4.2
Centrální databáze cenných papírů ECB ................................................................... 33
Zpracování dat .................................................................................................................. 35 5.1
Příprava dat pro kontrolu ........................................................................................... 35
5.2
Kontrola údajů ........................................................................................................... 38
5.2.1 5.3
6
Chybné údaje ...................................................................................................... 39
Chybějící údaje .......................................................................................................... 45
5.3.1
Chybí UCH i JMH .............................................................................................. 45
5.3.2
Nahrazení UCH .................................................................................................. 46
5.3.3
Nahrazení JMH ................................................................................................... 46
5.3.4
Nahrazení TRH_KOEF ...................................................................................... 50
5.4
Nahrazení údaje o jmenovité hodnotě emise ............................................................. 58
5.5
Příprava dat pro kompilaci ......................................................................................... 58
Sestavování kompilace ..................................................................................................... 62
6
Úvod Žijeme v době informačních technologií, které se neustále vyvíjejí kupředu a postupně prolamují další a další hranice. Postup informačních technologií se dotýká všech oblastí života a umožňuje obrovský posun směrem kupředu. V dnešní době jsme doslova zahlceni informacemi, neustále narůstají datové objemy a současně s nimi roste i tlak na kvalitu dat. Tento trend vývoje se samozřejmě dotýká i statistiky. Před 30 lety by myšlenka týdenního vyčerpávajícího statistického šetření provedeného z pohodlí domova patřila do kategorie science fiction, v dnešní době se díky automatizovaným transakčním systémům a internetu jedná o běžnou praxi. Tato diplomová práce se zabývá metodami hromadného zpracování dat za pomoci SQL pro účely kompilace statistiky čtvrtletních národních účtů. Mojí motivací pro výběr tohoto tématu byl fakt, že v současné době pracuji jako metodik statistiky v České národní bance, kde se denně s těmito obrovskými objemy dat setkávám. Cílem práce je seznámit čtenáře s vybranými statistickými metodami a úvahami, které mu poodhalí způsoby vzniku národních statistik. Pro účely diplomové práce neuvádím kompletní metodiku kompilace a prezentuji zde jen pár vybraných metod a principů, které se při jejím sestavování uplatňují. Pro úplnost ještě uvedu, že veškerá data od vykazujících subjektů, které jsou zveřejněny v diplomové práci, byla pozměněna a neodpovídají realitě.
7
Zvolené metody zpracování Pro zpracování dat byly použity vybrané statistické metody určené především pro nahrazení chybějících údajů. Práce obsahuje konkrétní způsoby nahrazování chybějících hodnot na základě regresní a korelační analýzy, charakteristik míry polohy a poměrných ukazatelů. Důvodem pro použití těchto metod byl charakter zpracovávaných statistických znaků a věcná logika kompilace, při které data strukturujeme do vhodné finální podoby. Jako nástroj realizace vybraných metod a technik byl použit Microsoft Access a Microsoft Excel. Tyto aplikace jsem vybral především kvůli jejich rozšířenosti, snadné dostupnosti a obecnému povědomí o nich.
8
1 Statistika čtvrtletních finančních účtů Národní účty představují úplný a uzavřený systém účtů, v němž jsou tokové a stavové veličiny uspořádány tak, aby komplexně charakterizovaly ekonomický cyklus od výroby a tvorby důchodů, přes rozdělení a přerozdělení důchodů, až po jejich užití pro konečnou spotřebu či akumulaci ve formě nefinančních a finančních aktiv. Zachycují veškeré materiální, důchodové a peněžní toky mezi ekonomickými subjekty uvnitř národní ekonomiky a ve vztahu k zahraničí a současně také dopady těchto toků. Toky jsou zaznamenány dle ekonomické podstaty ve dvou formách jako transakce a tzv. ostatní změny aktiv. Z analytického hlediska má rozklad na jednotlivé komponenty velký význam, protože umožňuje odlišit, do jaké míry byly změny aktiv a závazků výsledkem záměrného jednání (transakce) a do jaké míry se jednalo o změny dané z hlediska sektoru spíše exogenně. Záznam hodnoty aktiv a závazků se provádí k začátku a konci účetního období, v roční nebo čtvrtletní periodě. Systém národních účtů je založen na posloupnosti vzájemně propojených účtů, které jsou podle své povahy seskupeny do tří kategorií: běžné účty, akumulační účty a rozvahy. [11] Finanční účty představují ucelený statistický systém, který zachycuje finanční vztahy v rámci tuzemské ekonomiky, včetně vztahu k zahraničí, z pohledu jednotlivých ekonomických sektorů a finančních instrumentů. Cílem statistiky je zlepšit představu o struktuře a fungování finančního systému a odhalit hlavní kanály, jejichž prostřednictvím jsou získávány a investovány finanční prostředky. Finanční účty jsou významným informačním zdrojem se širokým využitím jak v oblasti měnové politiky, tak v oblasti analýz finanční stability ekonomiky země, jednotlivých ekonomických sektorů a jejich vzájemných vazeb. V zemích Evropské unie je závazným předpisem pro sestavování finančních účtů Evropský systém národních a regionálních účtů (dále jen ESA), který zajišťuje vnitřní konzistenci a mezinárodně porovnatelný účetní rámec pro systematický a podrobný popis celkového hospodářství země. [10] Čtvrtletní finanční účty je možné vymezit jako tu část rozvah a akumulačních účtů, která se vztahuje k finančním aktivům a závazkům. Konkrétně zachycují počáteční a koncový stav finančních aktiv a závazků a jednotlivé komponenty toků, které mají na změnu tohoto stavu vliv. Systém čtvrtletních finančních účtů je koncipován jako vyčerpávající a uzavřený jak vzhledem k tokům, tak i stavům. To znamená, že všechny změny stavů jsou zcela vysvětleny zaznamenanými toky. [11]
9
1.1 Klasifikace ekonomických subjektů Institucionální jednotky v ekonomice podléhají jednotné klasifikaci dle ESA pro rok 2010. Výčet položek v střední míře detailu je zobrazen na obrázku pod odstavcem. Dle potřeby a možností se míra detailu kompilace upravuje. Obrázek 1:Klasifikace ekonomických sektorů
1.2 Klasifikace finančních instrumentů Klasifikace finančních instrumentů je založena především na jejich likviditě a právních charakteristikách. Detailnější specifikace jednotlivých instrumentů není pro obsah této diplomové práce potřeba. Výčet finančních instrumentů je zobrazen na obrázku 2 pod odstavcem.
10
Obrázek 2:Klasifikace finančních instrumentů
1.3 Základní pojmy • ISIN – zkratka pro international securities identification number, jedná se o 12 místní numerický kód, který jednoznačným způsobem identifikuje cenný papír. • Tržní hodnota – hodnota, za kterou by v současné době mohli být prodány či nakoupeny konkrétní finanční aktiva mezi účastníky obchodu. Tržní hodnota je očištěna o poplatky, daně a ostatní náklady spojené s pořízením či prodejem aktiva. Pro statistické účely se jedná o klíčové ocenění v rámci pozice aktiv a závazků. • Účetní hodnota – hodnota, která je zaznamenána ve finančních výkazech. Je založena na pořizovací ceně ponížené o účetní odpisy. • Jmenovitá hodnota – objevuje se nejčastěji u cenných papírů, jedná se o hodnotu, která je vytištěna na cenném papíru. Je to hodnota, kterou nám emitent cenného papíru vyplatí v den splatnosti.
11
1.4 Základní metodické principy 1.4.1 Účtování Národní účetnictví je založeno na principu podvojného zápisu. Každá transakce musí být zaznamenána dvakrát, jednou jako změna závazků a jednou jako změna aktiv. Tento princip zajišťuje konzistenci účtů.
1.4.2 Ocenění Finanční aktiva a závazky se oceňují běžnými tržními cenami k datu, ke kterému se kompilace vztahuje. Pokud tržní ceny nejsou k dispozici, bude ocenění provedeno odhadem či použitím jiného druhu ocenění.
1.4.3 Konsolidace Finanční účty se sestavují primárně jako nekonsolidované. Na účtech proto musí být zaznamenána všechna finanční aktiva a závazky bez ohledu na to, zda se vztahují k transakcím vně, nebo uvnitř sledovaného sektoru.
1.4.4 Doba zachycení Zápisy na účtech jsou prováděny na akruální bázi. Toky se zaznamenávají již na základě nároku, tj. v okamžiku, kdy pohledávky a závazky vznikají, přeměňují se, nebo zanikají. Každý tok musí být zachycen ve stejném okamžiku u všech zúčastněných i institucionálních jednotek a na všech příslušných účtech.
1.5 Publikování dat V ČR jsou čtvrtletní finanční účty sestavovány a publikovány Českou národní bankou vždy k poslednímu dni 3, 6, 9 a 12 měsíce roku. Výsledkem kompilace je sestavení stavových a tokových statistik podle jednotlivých finančních instrumentů a institucionálních sektorů. Základní strukturou pro sestavení čtvrtletních finančních účtů je kompilační tabulka, která se zpracovává pro každý finanční instrument zvlášť. Ukázka sestavené kompilační tabulky stavů pro finanční instrument dlouhodobých cenných papírů je uvedena na obrázku 3.
12
Obrázek 3:Kompilační tabulka AF.332
13
2 Vybrané statistické metody pro zpracování dat 2.1 Základní pojmy • Statistická jednotka – prvek, který statistika sleduje. • Statistický soubor – studium hromadných jevů předpokládá definování množiny prvků, z nichž každý má celou řadu vlastností, z nichž některé jsou u každého prvku dané množiny zcela stejné a jiné se u jednotlivých prvků mohou vyskytovat v různé míře. Jsou-li identické vlastnosti prvků určité množiny přesně stanoveny, mluví se o dané množině, vytvořené z prvků s těmito přesně stanovenými shodnými vlastnostmi jako o statistickém souboru. [2] • Statistický znak – charakterizuje zkoumané vlastnosti statistické jednotky. Statistické znaky dále dělíme na slovní (kategoriální) a číselné (kvantitativní). Kategoriální můžeme rozlišovat na alternativní (nabývají pouze dvou obměn) a množné (nabývají více než dvou obměn). U číselných dále rozlišujeme znaky spojité (nabývají libovolných číselných hodnot) a znaky nespojité (nabývají pouze určitých hodnot). • Základní soubor – všechny jednotky, které jsou předmětem zkoumání. Rozlišujeme konečné základní soubory, které mají určený počet statistických jednotek, a nekonečné základní soubory, které mají neurčený počet statistických jednotek. • Výběrový soubor - část základního souboru, z kterého usuzujeme vlastnosti základního souboru.
2.2 Statistické šetření Obecně můžeme způsoby získávání dat pro statistiku rozdělit do tří základních metod, pozorování, měření a dotazování. Pozorování provádíme pomocí smyslů, měření pomocí různých přístrojů a dotazování se uskutečňuje v podobě výkazů, dotazníků či interview. Z hlediska objemu získaných dat má pro tvorbu národních účtů výkaznictví bezkonkurenčně dominantní postavení. Výkaznictví je většinou plně automatizované a snižuje respondentovu zátěž na minimum. Dotazníková šetření i interview se používají v případě potřeby jako vhodný doplněk k výkaznictví. Obecně rozlišujeme při statistickém šetření dva hlavní druhy chyb, výběrové a nevýběrové. Výběrové chyby vznikají v důsledku skutečnosti prošetřování pouze jednoho ze všech možných existujících výběrových souborů. Při zvětšování rozsahu výběru se tato chyba zmenšuje. Nevýběrová chyba je způsobena existencí chybějících údajů.
14
Vzniká v případě vyčerpávajících i výběrových šetření a při zvětšování rozsahu výběru má tato chyba tendenci k růstu. [16] Údaje získané statistickým šetřením většinou nelze použít rovnou a musí se dále zpracovávat. Statistická šetření rozdělujeme na výběrová a vyčerpávající. Vyčerpávající šetření je takové, při kterém je zúčastněna každá jednotka základního souboru. Výhodou je, že pokud jsou údaje vyplněny správně, získáme přesné statistiky. Hlavní nevýhodou je, že takovéto šetření často není možné technicky provést a pokud ano, tak většinou za cenu velkých nákladů, které jsou pro požadovaný účel neefektivní. Příkladem vyčerpávajícího šetření je třeba sčítání lidí prováděné Českým statistickým úřadem v roce 2011. Výběrové šetření je založeno principu statistické indukce, kdy vlastností základního souboru usuzujeme na základě výběrového souboru. Klíčovým požadavkem pro výběrová šetření je reprezentativnost výběru, tedy potřeba, aby výběrový soubor pravdivě obsahoval požadované vlastnosti základního soubor.
2.2.1 Základní metody získání výběrového souboru Prostý náhodný výběr - každá jednotka má stejnou pravděpodobnost toho, že bude do výběrového souboru zařazena. O výběru jednotky do souboru rozhoduje prostá náhoda. Metoda základního masivu – Tato metoda se používá v případě, že se základní soubor skládá z pár dominantních jednotek a z velkého počtu malých jednotek. Při tomto druhu výběru nelze usuzovat vlastnosti celého základního souboru, ale pouze jeho vybraných částí. Záměrný výběr – dle uvážení vybereme pouze jednotky, u kterých se domníváme, že budou pro statistické zjišťování nejvhodnější. Pro tento druh výběru je důležitá znalost problematiky. Aby usuzování vlastností základního souboru bylo co nejpřesnější, je vhodné metody pro získání výběrového souboru vhodně kombinovat. Čím reprezentativnější vzorek pro usuzování získáme, tím bude náš odhad přesnější. Toho ovšem často nelze dosáhnout bez detailní znalostí zkoumané problematiky. [6]
15
2.3 Zpracování dat z výběrových zjišťování 2.3.1 Míry polohy 2.3.1.1 Střední hodnoty počítané ze všech jednotek souboru • Aritmetický průměr – nejpoužívanější ze všech průměrů, umožňuje porovnávat údaje o srovnatelném ukazateli v různých souborech. Vypočítá se jako součet hodnot všech znaků všech jednotek souboru dělený jejich počtem. • Geometrický průměr – je definován jako n-tá odmocnina součinu všech hodnot. Pro výpočet tedy jednotlivé hodnoty nejdříve vzájemně násobíme a poté odmocňujeme takovou odmocninou kolik, je jednotek v souboru. • Harmonický průměr – pro výpočet harmonického průměru dělíme počet jednotek souboru součtem převrácených hodnot.
2.3.1.2 Střední hodnoty počítané z vybraných jednotek • Medián – při uspořádání souboru dle velikosti sledovaného znaku je medián hodnota, které se nachází uprostřed. V případě sudého počtu jednotek v souboru vypočítáme medián jako aritmetický průměr dvou prostředních hodnot. • Modus – je definován jako nejčastěji se vyskytující se hodnota proměnné v souboru. Vždy odpovídá vrcholu křivky rozdělení.
2.3.2 Poměrné ukazatele • Poměrné číslo - jednoduchý podíl dvou číselných hodnot. O tom, která hodnota bude v čitateli a jmenovateli, rozhodujeme dle účelu srovnání. • Poměrné číslo struktury – stejné jako poměrná čísla, jen místo poměru dvou ukazatelů vyjadřují podíl vybrané části vůči celku. • Poměrné číslo vývoje – porovnávají údaje o stejném ukazateli v různých časových obdobích. Pokud poměr počítáme vždy ke stejnému období, mluvíme o bazických indexech.
Pokud
porovnáváme
aktuální
období
s předchozím,
mluvíme
o
koeficientech růstu. Pokud koeficient růstu vyjádříme v procentech, mluvíme o tempu růstu. [3]
16
2.4 Kontrola údajů Kvalitní a věrohodná data jsou základem dobré statistiky. Zkreslená či neúplná data mohou zásadním způsobem ovlivnit charakteristiky základního souboru. Důležité je si uvědomit, jak moc důkladnou kontrolu chceme provádět, jestli je vůbec možná a má smysl. V rámci kontroly dat ze statistického šetření rozlišujeme dva základní druhy chyb, chybějící údaje a chybné údaje. Pro řešení problému chybějících údajů z šetření existují tří základní možnosti: • Ignorace • Odstranění • Nahrazení (imputace) Varianta ignorace přepokládá použití všech ostatních údajů vzniklých společně s údaji chybějícími. U odstranění je tomu přesně naopak. V případě nahrazování chybějících údajů je důležité především zvolit správnou metodu pro doplnění. Může se jednat o modus, podíl, odhad na základě regresivní analýzy či aritmetický průměr. [9] Ať už je naše varianta naložení s chybnými údaji jakákoliv, vždy je důležité zvolit tu nejvhodnější a uvědomit si dopady na kvalitu dat v statistickém souboru.
2.4.1 Postupy nahrazování chybějících údajů pro základní datové matice • Mean Substitution - nahrazení chybějících údajů aritmetickým průměrem ze zjištěných hodnot dané proměnné. • Groups Means Imputation - hodnoty proměnné, v níž se vyskytují chybějící údaje, jsou rozděleny do skupin podle hodnot jiné proměnné. V těchto skupinách se vypočítá aritmetický průměr, případně modus a chybějící hodnota je nahrazena aritmetickým průměrem, případně modem z příslušné skupiny, nebo náhodně vybranou hodnotou z této skupiny. • Hot-Deck Imputation - hodnoty určitých proměnných u statistické jednotky, v níž se vyskytuje chybějící údaj, jsou porovnány s hodnotami u jiných statistických jednotek. Pokud je nalezen případ se stejnými hodnotami, nahradí se chybějící údaj podle této statistické jednotky. Pokud takový případ nalezen není, lze postup opakovat pro jiné proměnné, případ náhodně vybrat nebo hodnotu nenahradit. • Last Value Carried Forward - Při opakovaných sledováních určitého znaku je chybějící hodnota nahrazena naposledy zjištěnou hodnotou.
17
• Multiple Imputation - každý případ je nahrazen M (M>2) hodnotami, takže je vytvořeno M nových případů. • Regression Imputation - chybějící hodnota je nahrazena odhadem vypočítaným na základě regresní analýzy.
2.4.2 Postupy nahrazování chybějících údajů pro časové řady • Series mean - chybějící údaj je nahrazen aritmetickým průměrem vypočítaným ze všech hodnot časové řady. • Mean of nearby points - chybějící údaj je nahrazen aritmetickým průměrem vypočítaným z určitého počtu hodnot zjištěných v předchozích a pozdějším období než je období, v kterém údaj chybí. • Linear trend at point - chybějící hodnota je nahrazena odhadem vypočítaným na základě regresní analýzy časové řady.
2.4.3 Metody vypouštění údajů • Listwise - vylučuje se každý řádek datové matice s alespoň jednou chybějící hodnotou. Tato metoda je vhodná, pokud počet chybějících záznamů nepřesáhne hodnotu 5%. • Pairwise - vynechávány jsou pouze případy, kdy chybí hodnoty právě používané hodnoty ve výpočtech.
2.5 Regresní a korelační analýza Jedná se o základní statistickou metodu zkoumání závislostí mezi numerickými znaky. Při zkoumání dvou znaků mluvíme o jednoduché regresní a korelační analýze, v případě zkoumání více znaků se jedná o vícenásobnou regresní a korelační analýzu. Nejvýznamnější formou vztahů a souvislostí mezi dvěma číselnými znaky je příčinná závislost, kdy výskyt jednoho jevu má za následek výskyt druhého jevu. Příčina tohoto jevu je nezávislá proměnná a následek tohoto jevu je závislá proměnná. [7] Pokud jedné hodnotě nezávislé proměnné vždy přísluší jen jedna hodnota závislé proměnné, jedná se o funkční závislost. Pokud jedné hodnotě nezávislé proměnné přísluší více hodnot závislé proměnné, jedná se o závislost volnou. Při zkoumání závislostí mezi číselnými znaky nás bude zajímat především průběh závislosti (tedy změna závislé proměnné při změně nezávislé proměnné) a síla závislosti. Sílu závislosti měříme pomocí korelačních koeficientů. Tyto koeficienty jsou mírou těsnosti 18
vztahu. Vypočtení koeficientu z výběrového souboru je nicméně stále odhadem a pro ověření jeho pravosti je nutné provést testování jeho hodnoty za pomoci testovacího kritéria. Za předpokladu, že náhodný výběr, ze kterého je korelační koeficient počítán, má dvounormální rozdělení, lze významnost korelačního koeficientu testovat pomocí t-testu. [2] Testovací statistiku pro t-test vypočteme podle vztahu t=
r Sr
kde r = výběrový korelační koeficient Sr =střední chyba korelačního koeficientu, vypočtení podle vztahu
Regresní model popisující průběh závislosti nazýváme teoretickou regresní funkcí. Vzhledem k tomu, že při regresní analýze odhadujeme teoretickou regresní funkci na základě výběrových dat, objevuje se zde možnost chyby vyjádřena v podobě náhodné složky. Rozdíl mezi teoretickou a empirickou hodnotou nazýváme reziduum a je odhadem této náhodné složky. Nejvhodnější teoretická funkce je ta, kde je součet čtverců těchto reziduí nejmenší. V případě modelů lineárních v parametrech se rezidua počítají pomocí metody nejmenších čtverců[3].
Postup regresní analýzy můžeme rozdělit do 4 základních kroků • Volba typu regresní funkce • Odhad parametrů regresního modelu • Testování hypotéz o těchto parametrech • Ověření vhodnosti zvoleného regresního modelu
2.5.1.1 Volba typu regresní funkce Cílem je nalézt vhodnou analytickou funkci, která bude nejlépe popisovat průběh závislosti proměnné Y na nezávislé proměnné X. Analytickou funkci můžeme zvolit na základě vlastní úvahy a logického rozboru zkoumaných závislostí, pomocí grafického znázornění v bodovém grafu či pomocí matematicko-statistických kritérií.
2.5.1.2 Odhad parametrů regresního modelu Regresní funkce můžeme rozdělit do dvou skupin, na nichž závisí použitá metoda odhadu parametrů regresivní funkce
19
Funkce lineární v parametrech jsou všechny funkce, které lze obecně vyjádřit ve tvaru
Y=β0 + β1f1 (x) + β2f2 (x) + βkfk (x) + ε kde: Y je závisle proměnná / vysvětlovaná X je nezávisle proměnná / vysvětlující β jsou regresní parametry ε je náhodná složka.
Konkrétně se jedná o přímku, parabolu, hyperbolu, logaritmickou funkci a polynomickou funkci. Ostatní funkce patří mezi funkce nelineární v parametrech a patří sem například exponenciální funkce, která je vyjádřena ve tvaru Y=β0 β1 x.
2.5.1.3 Testy hypotéz o parametrech regresní funkce. Nejčastěji používaným testem pro ověřování parametrů regresní funkce je test o nulové hodnotě regresního parametru s nulovou hypotézou. Jedná se o test lineární nezávislosti mezi oběma proměnným. Zamítnutím hypotézy prokážeme závislost mezi proměnnými a potvrdíme statistickou významnost. Pro testování statistických hypotéz vypočteme testovací kritérium, na jehož základě provádím rozhodnutí platnosti nulové hypotézy. Jako testovací kritérium může sloužit například Studentův t-test či F-test. Vypočtené testovací kritérium porovnáme s kritickou hodnotou, která se určuje na zvolené hladině významnosti. Jestliže hodnota vypočtené testovací statistiky překročí kritickou hodnotu, zamítneme nulovou hypotézu. Druhou možností je převedením testovací statistiky do pravděpodobnostní škály a počítáme pravděpodobnost p-value, která kvantifikuje pravděpodobnost realizace hodnoty testovací statistiky, pokud nulová hypotéza platí. Pravidlo pro formulaci závěru je pak takové, že pokud je p-value ≤ α , znamená to zamítnutí nulové hypotézy, tedy potvrzení významnosti regresního parametru. [2]
2.5.1.4 Ověření vhodnosti zvoleného regresního modelu Metody pro ověření míry vhodnosti regresní funkce jsou založeny na rozptylu hodnot. Posuzují, jak moc se empirické hodnoty liší od teoretických. Nejpoužívanější je výpočet indexu determinace. Ten může nabývat hodnot v intervalu od 0 do 1. Čím více se hodnota 20
indexu blíží k 1, tím více lze usuzovat, že jsme vybrali vhodnou funkci. Při větším počtu vysvětlujících proměnných se používá modifikovaný index determinace.
2.6 Časové řady Časovou řadou rozumíme řadu hodnot určitého ukazatele uspořádanou od minulosti směrem k přítomnosti. Přitom je nutné, aby věcná náplň ukazatele a jeho prostorové vymezení byly shodné v celém sledovaném období. Časové řady dělíme na intervalové a okamžikové.
2.6.1 Druhy časových řád 2.6.1.1 Intervalové časové řady Intervalové časové řady obsahují údaje za určité období a velikost úsekového ukazatele závisí na délce zvoleného intervalu. Intervalové ukazatele lze shrnovat pomocí součtu. Průměrnou úroveň intervalového ukazatele za určité období lze charakterizovat aritmetickým průměrem. Při srovnávání údajů intervalové je nutné, aby všechny intervaly byly stejně dlouhé. Pokud by nás například zajímala průměrná měsíční mzda v roce, který měl 365 dní, spočítáme průměrnou délku měsíce jako 365 / 12 = 30,417. Pro grafické zobrazení intervalových časových řad je vhodné používat sloupkový graf. [3] Z časového hlediska dělíme časové řady na dlouhodobé a krátkodobé. Hodnoty dlouhodobých časových řad jsou sledovány v ročních či delších časových úsecích, u krátkodobých je tomu naopak.
2.6.1.2 Okamžikové časové řady Okamžikové časové řady se vztahují k určitému okamžiku. Hodnota okamžikového ukazatele nezávisí na délce intervalu, za který je ukazatel sledován. Průměrnou hodnotu ukazatele spočítáme pomocí chronologického průměru, který získáme průměrem aritmetických průměrů za sebou jdoucích okamžikových ukazatelů. Pokud je vzdálenost mezi okamžiky stejná, vypočítáme průměrnou hodnotu jako:
Pro grafické zobrazení okamžikových časových řad je vhodné použití spojnicových grafů. 21
2.6.2 Charakteristiky časových řad • Absolutní přírůstek - rozdíl dvou následujících hodnot časové řady. • Průměrný absolutní přírůstek - aritmetický průměr absolutních přírůstků. • Druhé diference – rozdíl dvou po sobě jdoucích absolutních přírůstků. • Koeficient růstu – podíl hodnoty časové řady s hodnotou předcházející. • Průměrný koeficient růstu – geometrický průměr všech koeficientů růstu sledovaného období.
2.6.3 Dekompozice časových řad Dekompozice časových řad je založena na principu rozložení časové řady na systematické složky, z kterých se skládá. Tyto složky charakterizují různé pohyby časové řady, které lze popsat a kvantifikovat. Trendová a cyklická složka mohou být přítomné v časových řadách ročních údajů, ale také v krátkodobých časových řadách. Sezónní složka se vyskytuje pouze v krátkodobých časových řadách, obvykle v měsíčních a čtvrtletních. Nesystematická složka je přítomná v každé časové řadě.[1] Dekompozice časové řady může být aditivní, multiplikativní nebo smíšená. V případě aditivní dekompozice se jednotlivé hodnoty časové řady dají určit jako součet hodnot jednotlivých složek, tedy Yt = Tt + Ct + St + It . U multiplikativní dekompozice se hodnoty dají určit jako součet součin hodnot jednotlivých složek, tedy Yt = Tt . Ct . St . It . O tom jakou rovnici použít, se rozhodujeme na základě hodnot časové řady. Obecně je lepší použití multiplikativní rovnice, jelikož lépe zachycuje sezónní vlivy. Pokud je ovšem nějaká hodnota časové řady nulová nebo záporná, musíme použit aditivní dekompozici, kde je sezonní složka vesměs pořád stejná. Případně ještě existují smíšené rovnice, kde Yt = Tt . Ct . St + It .
2.6.3.1 Trendová složka (Tt) Trend zachycuje dlouhodobý vývoj sledovaného ukazatele časové řady. Je výsledkem faktorů, které dlouhodobě působí určitým směrem.
2.6.3.2 Sezónní složka (St) Sezónní složka popisuje periodické změny v časové řadě, které se odehrávají v rámci jednoho roku. Nejčastěji jí sledujeme u čtvrtletních a měsíčních časových řad. U ročních časových řad se nevyskytuje.
22
2.6.3.3 Cyklická složka (Ct) Vyjadřuje kolísání okolo trendu, ve kterém se střídají fáze růstu a poklesu. Jednotlivé cykly se vytvářejí za období delší než 1 rok a mají nepravidelný charakter.
2.6.3.4 Náhodná složka (It) Náhodná složka je tvořena náhodnými výkyvy časové řady. Patří sem všechny faktory, které ovlivňují hodnoty časové řady, které nedokážeme systematicky popsat. V klasickém modelu o náhodné složce předpokládáme, že splňuje tři základní předpoklady: • Střední hodnota náhodné složky je nulová E(εi) = 0 pro každé i=1,2,…,n • Rozptyl náhodné složky je konstantní E(εi) = σ2 pro každé i=1,2,…,n • Náhodné poruchy jsou vzájemně nezávislé Cov (εi εj)=0 pro každé i ≠ j=1,2,…,n
2.6.4 Analytické vyrovnání časových řad Jedná se o základní metodu modelování trendové složky, jež umožňuje konstrukci předpovědí hodnot časové řady. Modelování trendu pomocí trendových funkcí se používá, pokud vývoj hodnot časové řady odpovídá určité funkci. Pokud je silný vliv náhodné složky, analyzujeme trend pomocí klouzavých průměrů nebo pomocí klouzavých mediánů. Prodloužení trendu časové řady do budoucnosti, neboli odhad budoucích hodnot ukazatele, nazýváme extrapolací. Odhady vychází z deterministického přístupu, že časová řada nebude do budoucna měnit své chování. Trendové funkce mohou být buď lineární v parametrech nebo nelineární v parametrech.
K odhadům parametrů lineárních trendových funkcí používáme metodu
nejmenších čtverců.
2.6.5 Adaptivní přístupy k trendové složce 2.6.5.1 Vyrovnání klouzavými průměry Princip spočívá ve vyrovnání časové řady pomocí polynomických funkcí postupně po krátkých úsecích zvaných klouzavá část. Časovou řadu tedy nevyrovnáváme jednou analytickou funkcí, která by měla stejný průběh v délce celé řady, ale lomenou čarou, která se adaptuje na změny hodnot v časové řadě. Původní hodnoty časové řady poté nahraíme řadou průměrů z klouzavé části. 23
2.6.5.2 Exponenciální vyrovnání Metoda vychází z myšlenky, že novější pozorování mají větší význam pro předpovídání dalšího vývoje, než pozorování starší. Parametry exponenciálního vyrovnání jsou potom odvozeny
modifikovanou
metodou
nejmenších
čtverců,
v níž
čtverce
odchylek
napozorovaných a vyrovnaných hodnot jsou násobeny vahami, které jsou závislé na stáří pozorování. [3]
24
3 SQL Structured Query Language, zkrácěně SQL, je standardizovaný strukturovaný dotazovací jazyk pro práci s daty v relačních databázích. Standardy podporuje prakticky každá relační databáze, ale obvykle nejsou vždy implementovány všechny požadavky normy. Je tomu spíše naopak a každá z nich obsahuje prvky a konstrukce, které nejsou ve standardech obsaženy. Přenositelnost SQL dotazů mezi jednotlivými databázemi je proto částečně omezená. Příkazy jazyka SQL můžeme rozdělit do 4 základních skupin. Pro účel této diplomové práce si vystačíme jen s příkazy ze skupiny DML a proto zde další skupiny nebudu podrobněji popisovat.[10] U většiny příkazů je uveden modrý SQL kód, který demonstruje praktické použití zmiňované funkčnosti.
3.1 SQL příkazy 3.1.1 Data manipulation language Příkazy z této skupiny umožňují manipulaci s daty. To znamená jejich výběr, úpravy, vkládání a odstranění. • SELECT • UPDATE • INSERT • DELETE
3.1.2 Data definition language Příkazy z této skupiny slouží k definování struktur v databázi. • CREATE • ALTER • DROP • TRUNCATE
3.1.3 Data control language Příkazy z této skupiny slouží k administraci přístupů do databáze. • GRANT • REVOKE
25
3.1.4 Transactional control language Příkazy z této skupiny slouží k provádění transakcí v databázi. • BEGIN • COMMIT • ROLLBACK
3.2 Použití příkazu SELECT SELECT SLOUPEC1 FROM TABULKA1 ;
Jedinými povinnými klauzulemi syntaxe jsou klauzule SELECT a FROM. [9] Pokud chceme vybrat více sloupců najednou, za název sloupce napíšeme název dalšího sloupce, který oddělíme čárkou. Pokud bychom chtěli vybrat všechny sloupce, použijeme místo názvu sloupců symbol *. Pokud chceme z výsledku dotazu odstranit duplicity, přidáme za příkaz SELECT slovo DISTINCT. Většinou potřebujeme z databáze vybírat jen určité záznamy, které splňují jisté podmínky. K tomu nám slouží klauzule WHERE, za kterou přidáme specifikaci podmínek omezení.
3.2.1 Omezující podmínky pro výsledky hledání 3.2.1.1 Matematické • = • <> • > • < • >= • <=
SELECT SLOUPEC1 FROM TABULKA1 WHERE HODNOTA1 > 10 ;
26
3.2.1.2 Logické • AND • OR • NOT SELECT SLOUPEC1 FROM TABULKA1 WHERE HODNOTA1 > 10 AND HODNOTA1 < 15 ;
3.2.1.3 Ostatní • BETWEEN - vybere hodnoty ze zadaného rozmezí. SELECT SLOUPEC1 FROM TABULKA1 WHERE SLOUPEC1 BETWEEN HODNOTA1 AND HODNOTA 2 ;
• LIKE – umožňuje vyhledávat záznamy dle zadaného vzoru pro hledání. Při textovém hledání se používají zástupné symboly, tzv. wildcards, které mohou nahradit jakýkoliv znak v řetězci. V MS ACCESS se používá symbol ? pro nahrazení jednoho znaku a symbol * pro nahrazení 0 a vice znaků. SELECT SLOUPCE1 FROM TABULKA1 WHERE SLOUPEC1 LIKE ”S*” ;
• IN - umožňuje zadat podmínky výsledku hledání výčtem. SELECT SLOUPEC1 FROM TABULKA1 WHERE SLOUPEC1 IN (HODNOTA1,HODNOTA2,…)
27
3.2.2 Aliasy Aliasy se využívají k dočasnému přejmenování sloupce či tabulky. Při složitějších dotazech nám usnadňují práci třeba tím, že nemusíme vypisovat celé jméno tabulky či sloupce. Alias vytvoříme tak, že za nahrazovaný název napíšeme AS a doplníme námi požadovaný alias. V MS ACCESS je i možno AS vynechat a za název tabulky rovnou vepsat alias, program si ho při provádění dotazu následně doplní sám. SELECT SLOUPEC1 AS TOTOJEALIAS FROM TABULKA1
3.2.3 Omezení záznamů • Top – vybere zadaný počet záznamů (funguje v MS ACCESS) • Limit – vybere zadaný počet záznamů (funguje v MySQL) • Rownum –vybere zadaný počet záznamů (funguje v DB ORACLE) SELECT TOP 10 * FROM DATA
3.2.4 Agregační funkce • Count – vrátí počet záznamů, které vyhovují dané podmínce, respektive seskupení. Pokud by bylo potřeba zjistit unikátní počet hodnot daného sloupce, přidá se před název pole slovo distinct. • Max – vybere maximální hodnotu. • Min – vybere minimální hodnotu. • Sum – umožňuje sumaci numerických hodnot. • Avg – vypočítá aritmetický průměr. SELECT COUNT (SLOUPEC1) FROM TABULKA1
3.2.5 Uspořádání výsledků dotazu • Group by - umožňuje seskupit výsledky dotazu podle zadaného sloupce či výrazu. • Order by - umožnuje seřadit výsledky dotazu, pokud chceme vzestupné řazení (ASC) ,nebo sestupně (DESC).
28
• Having – za klauzulí HAVING následuje omezující podmínka, která umožňuje omezit řádky, u kterých se budou počítat výsledky agregačních funkcí. Na rozdíl od funkce WHERE, která omezuje neseskupené záznamy, podmínka HAVING omezuje již seskupené záznamy. SELECT SLOUPEC1, SUM (SLOUPEC2) FROM TABULKA GROUP BY SLOUPEC1
3.2.6 Přístup do více tabulek 3.2.6.1 Přístup pomocí příkazu JOIN • INNER JOIN – vybere všechny záznamy, kde je shoda v obou tabulkách. Je přednastavený jako defaultní. To znamená, že pokud napíšeme pouze příkaz JOIN, automaticky se bude myslet INNER JOIN. Jedná se o průnik tabulek. • LEFT JOIN – vybere všechny řádky z levé tabulky, které doplní o shodné záznamy z pravé tabulky. Můžeme se setkat i s názvem LEFT OUTTER JOIN. Výsledkem jsou všechny záznamy z levé tabulky doplněné o průnik záznamu z pravé tabulky. • RIGHT JOIN – opak LEFT JOIN, vybere všechny záznamy z pravé tabulky a doplní je průnikem záznamů z levé tabulky. • FULL JOIN – vybere všechny řádky, kde je shoda alespoň v jedné tabulce. Jedná se o kombinaci RIGHT JOIN a LEFT JOIN dohromady. • CROSS JOIN – vytvoří kartézský součin řádků z tabulek, v případě 2 tabulek tedy pro každý záznam z první tabulky vytvoří všechny kombinace se záznamy z 2 tabulky. CROSS JOIN se dá vytvořit i pomocí funkce SELECT příkazem SELECT * FROM table 1,table2,…
SELECT TABULKA1.SLOUPEC1, TABULKA2.SLOUPEC2 FROM TABULKA1 INNER JOIN TABULKA2 ON TABULKA1.SLOUPEC3=TABULKA2.SLOUPEC3
29
3.2.6.2 Přístup pomocí UNION Operátor UNION nám umožňuje zkombinovat výsledky dvou a více příkazů SELECT. Podmínkou je, že jednotlivé příkazy SELECT mají stejný počet sloupců a zároveň také stejné, nebo alespoň podobné datové typy. U příkazu union je přednastavený DISTINCT, tedy odstranění duplicitních záznamů. Pokud bychom chtěli mít ve výsledku i duplicitní záznamy, napíšeme za operátor UNION slovo ALL.
SELECT SLOUPEC1 FROM TABULKA1 UNION ALL SELECT SLOUPEC1 FROM TABULKA2 ;
3.3 UPDATE Příkaz update slouží k úpravě záznamů v tabulce. Pro vybrání konkrétních záznamů k úpravě můžeme opět použít klauzuli where. UPDATE TABLE1 SET SLOUPEC1=HODNOTA1, SLOUPEC2=HODNOTA2,… WHERE SLOUPEC1=HODNOTA1 ;
3.4 DELETE Příkaz delete slouží k odstranění řádků v tabulce. DELETE FROM TABULKA1 WHERE SLOUPEC1=HODNOTA1 ;
3.5 INSERT INTO Příkaz slouží k vkládání záznamů. Vkládání údajů je možné realizovat i pomocí příkazu SELECT INTO. INSERT INTO TABULKA1
30
VALUES (HODNOTA1,HODNOTA2,…) ;
nebo INSERT INTO TABULKA1 (SLOUPEC 1, SLOUPEC2,…) VALUES (HODNOTA1,HODNOTA2,…) ;
31
4 Zdroje dat potřebné pro kompilaci Česká národní banka pro svoji činnost zajišťuje sběr dat a jejich prvotní zpracování prostřednictvím automatizovaného informačního systému MtS-ISL-SUD-SDNS, který je určen pro sběr strukturovaných dat od vykazujících subjektů. Tento způsob sběru dat je základní a z hlediska objemu dat převažující. Veškerá sesbíraná data jsou přístupná pro pověřené zaměstnance v centrálním datovém skladu. Zde se nacházejí všechny statistické výkazy v nezměněné formě tak, jak je reportují vykazující subjekty. Doplněná jsou pouze o základní metadata. Z bezpečnostních i logických důvodů nemá žádný zaměstnanec oprávnění do zaslaných výkazu od subjektu jakkoliv zasahovat a tak veškeré úpravy dat musí být prováděny samostatně mimo společný datový prostor. Před přijmutím výkazu do automatizovaného informačního systému banky jsou prováděny základní datové kontroly, které dbají na úplnost reportovaných dat. Tyto kontroly mají spíše formální význam a starají se především o správnost datového formátu. Metodicky související výkazy podléhají navíc i logickým kontrolám, které zajištují stejnorodost dat napříč výkazy. Obsahovou strukturu výkazů je velice obtížné měnit. Pro vykazující subjekty je pravidelné zasílání dat bezpochyby břemeno a i když se o jejich zasílání stará automatizovaný systém, každá změna se musí přinejmenším alespoň naprogramovat a vždy sebou přináší další náklady pro obě strany. Cílem je mít co nejjednodušší výkaznictví, které co nejméně zatěžuje reportující subjekty. Z tohoto důvodů je nutné data z výkazů zpracovávat individuálně pro interní potřeby jednotlivých útvarů. [11]
4.1 Statistické výkazy ČNB RISIFE41 - Měsíční přehled cenných papírů v držení banky, Výkaz obsahuje přehled o cenných papírech a účastech v držení banky na vlastní účet, tj. domácí i zahraniční cenné papíry, obchodovatelné i neobchodovatelné cenné papíry a účasti, které nemají podobu cenných papírů. Přehledy jsou vykazovány na tzv. "security-by-security" základě (tzn. je aplikován přístup vykazování "papír po papíru"). Tento výkaz pokrývá vyčerpávajícím způsobem držbu cenných papíru pro sektory S.121 a S.122. DOPES46 - Výkaz pojišťoven a zajišťoven o skladbě finančního umístění. Uvádí se jednotlivě veškeré finanční umístění pojišťovny podle zákona č. 277/2009 Sb., o pojišťovnictví bez ohledu na to, zda je použito ke krytí technických rezerv. U jednotlivých položek se kromě základních identifikačních informací uvádí účetní hodnota položky v členění podle použití ke krytí technických rezerv, tj. v členění na objem použitý ke krytí 32
technických rezerv v neživotním pojištění, technických rezerv v životním pojištění bez rezervy životního pojištění, je-li nositelem investičního rizika pojistník, technických rezerv životního pojištění, je-li nositelem investičního rizika pojistník, technických rezerv v neživotním pojištění týkající se aktivní zajišťovací činnosti a technických rezerv v životním pojištění týkající se aktivní zajišťovací činnosti. Výkaz pokrývá vyčerpávajícím způsobem držbu cenných papíru pro sektor S.128. DOPOS34 - Výkaz o skladbě portfolia obhospodařovaného fondu. Výkaz obsahuje základní informace o cenných papírech, vkladech u bank a derivátech v portfoliu fondu obhospodařovaného penzijní společností podle zákonů č. 426/2011 Sb. o důchodovém spoření a č. 427/2011 Sb. o doplňkovém penzijním spoření. Provozuje-li penzijní společnost penzijní připojištění
prostřednictvím
transformovaného
fondu,
řídí
se
skladba
portfolia
transformovaného fondu ustanovením § 33 a § 34 zákona č. 42/1994 Sb. o penzijním připojištění se státním příspěvkem. . Výkaz pokrývá vyčerpávajícím způsobem držbu cenných papíru pro sektor S.129. JISIFE51 - Přehled o cenných papírech v majetku zákazníků. Výkaz obsahuje informace o jednotlivých cenných papírech, které jsou majetkem zákazníka ve smyslu § 2 písm. h, zákona č. 256/2004 Sb., o podnikání na kapitálovém trhu, tj. všechny domácí i zahraniční cenné papíry podle jednotlivých zákazníků, rezidentů i nerezidentů. Vykazují se zejména identifikační a klasifikační údaje týkající se cenného papíru, emitenta a zákazníka, hodnotové údaje o cenném papíru, údaje o splatnosti apod. Přehled obsahuje cenné papíry klientů banky, jimž banka poskytuje tzv. "custody služby", tj. provádí pro ně úschovu, správu, uložení nebo obhospodařování cenných papírů. Zahrnuje i cenné papíry držené jinými osobami, o nichž banka vede evidenci na základě smlouvy s Centrálním depozitářem (CDCP) nebo je eviduje z jiných důvodů ve vlastním (sekundárním) registru cenných papírů bez poskytování dalších služeb jejich držitelům. Tento výkaz pokrývá vyčerpávajícím způsobem držbu cenných papírů sektory S.123, S.124 , S.126,S.127 a S.15. Většinově pokrývá držbu cenných papírů pro sektory S.11 a S.14.
4.2 Centrální databáze cenných papírů ECB Centrální databáze cenných papírů (dále jen CSDB) je provozována Evropskou centrální bankou. Přispívají do ní členové Evropského systému centrálních bank (ESCB), včetně národních centrálních bank členských států mimo eurozónu, přičemž tyto národní centrální banky se podílejí na provozování centralizované databáze cenných papírů. Hlavním účelem
33
databáze je především zajištění konzistence statistik mezi jednotlivými zeměmi eurozóny zpřístupněním údajů o emisích CP. Výkaz se pravidelně aktualizuje každý měsíc.
34
5 Zpracování dat Pro zpracování dat použijeme program MS ACCESS 2010. I když se nejedná o plnohodnotný databázový nástroj a z hlediska výkonu patří mezi ty nejslabší, lze s ním pracovat pomocí SQL jazyka, i když obsahuje jistý specifický dialekt. MS ACCESS dokonce podporuje i víceuživatelský přístup a transakční zpracování. Výhodou může být grafické uživatelské rozhraní, které umožňuje provádět některé SQL operace intuitivně bez psaní příkazů. To se může hodit především v případě propojování více tabulek, kdy je psaní několika JOIN příkazů zdlouhavé a nepřehledné. Pro potřeby diplomové práce budeme grafické rozhraní používat téměř výlučně pouze pro přidávání sloupců, které je pomocí intuitivního ovládání jednodušší a pro mě i výrazně rychlejší. Rád bych ještě zdůraznil, že data použitá pro kompilaci byla kvůli ochraně důvěrnosti dat změněna a mají pouze demonstrativní charakter. Jakákoliv shoda se skutečnými daty je čistě náhodná.
5.1 Příprava dat pro kontrolu Nejdříve vytvoříme novou prázdnou databázi, do které napojíme datové zdroje potřebné pro kompilaci. Veškeré datové zdroje jsou přístupné z datového skladu. Propojené tabulky kvůli velkému objemu nebudeme importovat, pouze na ně vytvoříme odkaz. Externí tabulky mají také velmi rozsáhle struktury, proto si z nich vybereme jen data potřebná pro kompilaci. Označíme záložku externí data, vybereme zdroj databáze ODBC a potvrdíme možnost importovat zdrojová data do nové tabulky v aktuální databázi.
35
Obrázek 4: Načtení externích dat
Pro sestavení kompilace je nutné získat kompletní informace o držbě a emisích cenných papírů. Vytvoříme si pomocí SELECT a UNION ALL sjednocovací dotaz, který spojí všechna data o držbě CP z reportovaných výkazů dohromady. Aktuální výkaz pro současné období má vždy v datovém skladu jméno bez čísla. Předchozí výkazy jsou číslovány dle prodlevy v měsících od aktuálního výkazu a přidáním slova MIN. Takže výkaz pro aktuální měsíc by se mohl jmenovat RIS41 a výkaz z předchozího měsíce RIS41_MIN1 atd. Výkazy jsou velkého rozsahu i struktury, proto si napojíme jen data, která nezbytně potřebujeme. Konkrétně tedy období, subjekt, isin, sektor držitele, jmenovitou a účetní hodnotu transakce. Pro zadávání SQL příkazů v MS ACCESS vybereme kartu vytvoření, návrh dotazu, pravým tlačítkem klikneme na název dotazu a vybereme zobrazení SQL.
36
Obrázek 5: Zadávání SQL dotazů
Poté již můžeme přímo psát SQL dotazy.
SELECT OBDOBI,SUBJEKT, ISIN, SEKTOR_D, JMH, UCH FROM DOPOS_34 UNION ALL SELECT OBDOBI,SUBJEKT, ISIN, SEKTOR_D, JMH, UCH FROM DOPES_46 UNION ALL SELECT OBDOBI,SUBJEKT, ISIN, SEKTOR_D, JMH, UCH FROM JISIFE_51 UNION ALL SELECT OBDOBI,SUBJEKT, ISIN, SEKTOR_D, JMH, UCH FROM RISIFE_41;
37
Dotaz si uložíme pod názvem view_aktiva. Poté vytvoříme tabulku s názvem DATA, která vznikne propojením sjednocovacího dotazu view_aktiva s informacemi z CSDB přes kód ISIN. Jedná se o LEFT JOIN, takže výsledný dotaz bude zahrnovat všechny záznamy z levé tabulky, které se doplní o průnik z pravé tabulky. V této tabulce budou spojeny informace z aktivní i pasivní strany ve vhodné struktuře pro kompilaci. Z CSDB do sjednocovacího dotazu přidáváme informaci o emitentovi CP a tržním koeficientu pro CP.
SELECT A.*, B.SEKTOR_E, B.TRH_KOEF INTO DATA FROM VIEW_AKTIVA AS A LEFT JOIN CSDB AS B ON A.ISIN=B.ISIN;
Obrázek 6:Tabulka DATA
Vytvořením tabulky DATA máme již údaje ze statistických výkazů v struktuře vhodné pro kompilaci a můžeme začít data upravovat.
5.2 Kontrola údajů Nejprve provedeme kontrolu chybných údajů. Kdybychom začali s kontrolou chybějících údajů a používali bychom nějakou metodu imputace, mohla by být zvolená metoda těmito chybnými údaji ovlivněna a tím pádem by byla ovlivněna i přesnost odhadu nahrazované hodnoty. Při kontrole chybných údajů nás zajímá především údaj o JMH, který je pro 38
sestavení kompilace nejdůležitější. V případě, že údaj při reportingu nebyl vyplněn, dosadí za něj automatická kontrola metasystému hodnotu 0. Nejedná se tedy o prázdnou buňku. Chybný údaj se muže vyskytovat jen v poli UCH nebo JMH.
5.2.1 Chybné údaje Abychom mohli objevit špatně zadanou JMH nebo UCH, zkontrolujeme všechny záznamy v tabulce data, kde jsou oba údaje vyplněny. Kontrola bude vycházet z principu metody Groups means imputation. Uvažujeme předpoklad, že hodnoty UCH a JMH by si měli být poměrně blízké. Pokud například objevíme záznam, kde bude JMH 100 a UCH 1000, je pravděpodobné, že respondent vynechal nebo naopak přidal při vyplňování jednu 0. Pro každý záznam v databázi zjistíme poměrové číslo mezi UCH a JMH, které následně porovnáme s modem každého CP. Pokud se poměrové číslo záznamu bude od modu pro daný CP odlišovat více než o 50%, lze předpokládat, že došlo k překlepu. Nejdříve do tabulky data přidáme sloupec POMER_UJ. V Accessu je nejrychlejší kliknout na tabulku pravým tlačítkem a vybrat volbu návrhové zobrazení.
Obrázek 7:Návrhové zobrazení tabulky
Následně jen dopíšeme do názvu pole název našeho sloupce, vybereme datový typ číslo, velikost pole dvojitou přesnost a nastavíme počet desetinných míst na 2. Tabulku zavřeme a uložíme změny. Alternativou pro přidání sloupce do tabulky by bylo napsání SQL příkazu ALTER, ale přidání sloupce přes grafické rozhraní je rychlejší. V dalším průběhu textu si už 39
přidání sloupce ukazovat nebudeme a pokud bude potřeba sloupec přidat, jen se o tom slovně zmíníme. Obrázek 8:Přidání sloupce
Následně pomocí příkazu UPDATE naplníme hodnoty sloupce poměrovým číslem mezi účetní a jmenovitou hodnotou transakce. Tento poměr zaokrouhlíme na 2 desetinná místa a jelikož kontrolujeme pouze kompletní záznamy, přidáme ještě podmínku, že se UCH ani JMH nesmí rovnat 0.
UPDATE DATA SET POMER_UJ=ROUND(UCH/JMH,2) WHERE UCH <>0 AND JMH <>0 ;
40
Vytvoříme si tabulku Priprava_MODUS, kde budou pro každý ISIN a variantu koeficientu spočítaný četnosti.
SELECT DATA.ISIN, DATA.POMER_UJ, COUNT(DATA.ISIN) AS POCET_Z INTO PRIPRAVA_MODUS FROM DATA GROUP BY DATA.ISIN, DATA.POMER_UJ ORDER BY ISIN,COUNT (ISIN) DESC ; Obrázek 9:Tabulka četností
Poté si vybereme počet záznamu pro každý CP, abychom věděli, kolikrát se vybraná hodnota modů v datech objevuje SELECT PRIPRAVA_MODUS.ISIN, MAX(PRIPRAVA_MODUS.POCET_Z) AS POČET_TOP_Z INTO POCET_MODUS FROM PRIPRAVA_MODUS GROUP BY PRIPRAVA_MODUS.ISIN ;
41
Obrázek 10: Příprava Modů
Nakonec propojením těchto tabulek vytvoříme tabulku MODUS, která obsahuje hodnotu modů pro každý CP. Vybíráme jen mody, pro které se našlo více než 10 záznamů
SELECT A.ISIN, B.POMER_UJ AS MODUS_POMER_UJ INTO MODUS FROM POCET_MODUS AS A LEFT JOIN PRIPRAVA_MODUS AS B ON A.ISIN = B.ISIN WHERE (((A.POCET_TOP_Z)=[B].[POCET_Z]) AND ((A.[POCET_TOP_Z])>9));
42
Obrázek 11:Tabulka Modus
Nyní už jen do tabulky DATA přidáme sloupec modus a aktualizujeme údaje UPDATE DATA A, MODUS B SET A.MODUS=B.MODUS_POMER_UJ WHERE A.ISIN=B.ISIN ;
Obrázek 12: Tabulka s modem
43
Poté zkontrolujeme záznamy, kde se poměr liší o více než 50% SELECT * FROM DATA WHERE POMER_UJ NOT BETWEEN MODUS*0.5 AND MODUS *1.5 AND UCH<>0 AND JMH<>0 ;
Obrázek 13:Potencionálně chybné záznamy
Všechny záznamy, které tento dotaz vybere, jsou potencionálně chybné. Abychom zjistili, zda je špatně údaj JMH nebo UCH, podíváme se hodnoty dalších nareportovaných údajů subjektu, případně jiných subjektů pro stejný CP. SELECT SUBJEKT, ISIN,UCH,JMH FROM DATA WHERE SUBJEKT LIKE "0300" AND ISIN LIKE " CZ00003003484"
44
Obrázek 14:Subjekt minulého období
Při pohledu na reportované údaje vidíme, že chyba bude nejspíš v JMH. To je i pravděpodobnější a bylo by možné tyto chyby automaticky opravovat. Ale pro jistotu je lepší vždy záznamy zkontrolovat ručně. Pokud by nastal případ, že by takovýchto údajů bylo hodně a ruční kontrola nebude možná, můžeme udělat součet sumy JMH a UCH těchto záznamů a pokud bude objem podezřelých záznamů do miliónu, můžeme rovnou všechny smazat, jelikož se jedná o zanedbatelné množství. Pokud by byl objem větší, můžeme vybrat největší hodnoty objemy a doptat se u vykazujících subjektů. Po opravě překlepů aktualizujeme údaje POMER_ UJ, aby se vypočetli znovu, tentokrát s opravenými chybami pro poměr tím, že znovu spustíme dotaz pro jeho výpočet. Tím je možnost kontroly chybných údajů vyčerpaná, jelikož ostatní kontroly za nás už udělal metasystém.
5.3 Chybějící údaje Chybějící údaj má díky kontrolám metasystému hodnotu 0. Nejedná se tedy o prázdnou buňku.
5.3.1 Chybí UCH i JMH Pokud chybí oba klíčové údaje z reportingu v záznamové větě, odstraní se celý záznam (metoda Pairwise). Bohužel v tomto případě nemáme jinou možnost. Pokud by se jednalo o významný subjekt daného sektoru, který třeba v minulém období držel velký objem CP a porovnání objemu subjektu v aktuálním období bylo výrazně odlišné, vždy je možnost
45
respondenta kontaktovat a údaje si ověřit. Realizaci odstranění provedeme příkazem DELETE. DELETE FROM DATA WHERE UCH=0 AND JMH =0 ;
5.3.2 Nahrazení UCH Pro potřeby kompilace má UCH pouze kontrolní význam pro ověření JMH. Proto chybějící hodnotu UCH můžeme bez starostí nahradit JMH. Pro budoucí účely analýzy dat víme, že pokud bude UCH i JMH stejná (POMER_UJ=1), chyběla informace o UCH. Teoreticky sice může nastat i případ, kdy je účetní i jmenovitá hodnota stejná, aniž by docházelo k nahrazování, ale takových případů bude málo a chyba bude mít minimální následky. Nahrazení provedeme příkazem UPDATE. UPDATE DATA SET UCH=JMH WHERE UCH=0 ;
5.3.3 Nahrazení JMH Vykazující subjekty často vykazují pouze účetní hodnotu, jelikož je to pro ně jednodušší. Vyplní hodnotu, kterou zanášejí do účetnictví a vzhledem k automatizaci výkaznictví ji většinou ani vyplňovat nemusí, jelikož se vyplní sama. Pro potřeby statistiky ale potřebujeme znát především jmenovitou hodnotu CP. Obecně lze tedy předpokládat, že většinou je účetní hodnota správně, na rozdíl od jmenovité, kterou často doplňují respondenti ručně. Jmenovitou hodnotu musíme mít v databázi vždy, záznam bez ní nemá téměř význam. Nejvhodnější metodou pro nahrazení chybějících údajů o JMH je Hot-Deck Imputation. Vzhledem k velkému počtu transakcí stačí jen vyhledat v DB ostatní transakce s tímto CP a chybějící hodnotu nahradit agregovaným poměrem záznamů. V našem případě to bude poměr ze sumy JMH a UCH. Tento poměr se vypočítává pouze s úplných záznamů. Další podmínkou je, že záznamů musí byt alespoň 10. To je dostatečný počet pro to, aby byl poměr reprezentativní. Dále také vynecháme záznamy, kde byla hodnota UCH dosazena, aby neovlivnili agregovaný průměr (tedy záznamy kde uch=jmh ).
46
Vytvoříme si proto z tabulky DATA kontrolní tabulku s názvem KOEF_UCH, kde bude vypočten pro každý CP poměr mezi účetní a jmenovitou hodnotou a uvedený počet záznamů v DB. SELECT DISTINCT DATA.ISIN, ROUND(SUM(UCH/JMH),2) AS KOEF_UCH, COUNT(DATA.ISIN) AS POCET_Z INTO KOEF_UCH FROM DATA WHERE (((DATA.[JMH])<>0) AND ((DATA.[UCH])<>[JMH])) GROUP BY DATA.ISIN;
Tabulka bude vypadat takto. Obrázek 15: Tabulka KOEF_UCH
Nyní už jen nahradíme chybějící hodnoty. Aby byly záznam dostatečně vypovídající, přidáme opět podmínku minima 10 záznamů pro CP. UPDATE DATA A, KOEF_UCH B SET A.JMH=A.UCH*B.KOEF_UCH WHERE B.POCET_Z >9
47
AND JMH=0 ;
Vzhledem k obrovskému počtu záznamů se málokdy stane, že by dotaz nenašel žádný výsledek.
Pokud by se tak náhodou stalo, rozhodneme o dalším postupu nahrazení
v závislosti a na objemu cenného papíru v databázi. Pokud bude suma chybějících údajů v malém objemu, použije se místo JMH hodnota účetní. Vzhledem k malému množství objemu to nějak významně neovlivní vzorek a UCH se většinou příliš neliší od JMH. Pro kontrolu můžeme provést SELECT SUM (UCH) FROM DATA WHERE JMH=0 ;
a v závislosti na objemu UCH následně UPDATE DATA SET JMH=UCH WHERE JMH=0 ;
Poté opět aktualizujeme POMERY_UJ v tabulce, jak jsme již dělali dříve. Pokud by se mezi chybějícími daty objevil cenný papír velikého objemu a nebylo by možné aplikovat ani jednu z dříve uvedených možností nahrazení, použijeme metodu Regression Imputation, tedy nahrazení hodnoty za pomoci regresní a korelační analýzy. Tu budeme provádět v programu MS EXCEL. Z databáze vybereme všechny úplné záznamy pro požadovaný CP a zkopírujeme je do excelu. Vzhledem k tomu, že se jedná o zkoumání závislosti mezi dvěma numerickými znaky, budeme provádět jednoduchou regresní analýzu.
48
V excelu vybereme kartu data, klikneme na analýzu dat a vybereme Regresi.
Obrázek 16: Analýza dat v MS EXCEL
Do vstupní oblasti Y vybereme hodnoty vysvětlované proměnné, tedy JMH. Do vstupní oblasti X vybereme hodnoty vysvětlující proměnné, tedy UCH. Také zaškrtneme volbu popisky a rezidua, hladinu spolehlivosti, kterou necháme na 95% a vybere i volby zobrazit graf regresní přímky a graf reziduí.
Obrázek 17: Výpočet regrese v MS EXCEL
49
Po potvrzení výběru tlačítkem OK se nám zobrazí výsledky.
Obrázek 18: Výsledky regrese
Z grafického znázornění na porovnání hodnot vidíme, že vhodnou analytickou funkcí, která bude nejlépe popisovat průběh závislosti je přímka. Odhad parametrů regresního modelu je uveden ve sloupci koeficienty. Rovnice po zaokrouhlení bude tedy Y=0,98x – 1887110,4. Výsledky testu hypotéz o parametrech regresní funkce jsou uvedeny u pole významnost F. Pokud je hodnota menší než 0,05, lze odhad považovat za věrohodný. Hodnota spolehlivosti R je vypočítány index determinace.Vzhledem k tomu, že má hodnotu 0,99, je mezi hodnotami velmi silná závislost a regresní funkce je dostatečně vypovídající.Tím jsme ověřili vhodnost modelu. Pro dokončení odhadu objemu dosadíme do rovnice celkový účetní objem CP na straně držitelů za X a dopočteme objem jmenovité hodnoty. [11]
5.3.4 Nahrazení TRH_KOEF Pokud chybí tržní koeficient, což se stává výjimečně a většinou jen u CP, které ještě nejsou oficiálně nabídnuty k prodeji nebo nejsou veřejně obchodovatelné. Vzhledem k tomu, že za tento údaj je zodpovědná ECB, nemůžeme toho dělat moc. Nahrazení by bylo sice možné, ale v rámci evropské statistiky je důležité, aby byl ve všech reportujících zemí zaúčtován stejný koeficient. Proto musíme být s nahrazováním opatrní. I pokud by byl v databázi CSDB chybný údaj, pokud by ho použili všichni účastnící, bude pořád chyba z hlediska funkčnosti a 50
smyslu kompilace statistiky výrazně menší, než kdyby tento chybějící údaj každý odhadoval sám. Pokud se nakonec rozhodneme údaj nahradit, vzhledem k tomu, že údaje jsou pravidelně aktualizovány, máme možnost nahrazení hodnotou z minulého období. Jedná se o metodu Last Value Carried Forward, tedy nahrazení poslední známou hodnotou. V takovém případě už jen zařídíme, aby byl na straně aktiv i závazků použit stejný koeficient tržní ceny. UPDATE DATA A, CSDB_MIN B SET A.TRH_KOEF=B.TRH_KOEF WHERE A.ISIN=B.ISIN AND A.TRH_KOEF IS NULL ;
Pokud se nám hodnotu tržního koeficientu z minulého období nepodaří získat, nahradíme tržní cenu jmenovitou tím, že za koeficientem dosadíme číslo 1. UPDATE DATA SET TRH_KOEF=1 WHERE TRH_KOEF =0 ;
Případně provedeme odhad trendu na základě časové řady a hodnotu tržního koeficientu se pokusíme předpovědět. Nejprve vytvoříme okamžikovou časovou řadu pro daný koeficient. Toho dosáhneme propojením tabulek CSDB za různá období. V tomto případě je opět jednodušší použít grafické rozhraní MS ACCESS. Na kartě vytvoření vybereme návrh dotazu, označíme všechny potřebné zdroje a klikneme na přidat.
51
Obrázek 19: Napojení zdrojů
Tabulky propojíme přes ISIN od aktuální až po minulou a v dolní části. Toho docílíme tak, že metodou klikni a táhni přetáhneme ISIN z první tabulky do druhé, poté z druhé do třetí a tak dále, dokud nepropojíme všechny tabulky. Takto se dělá INNER JOIN přes grafické rozhraní. Na dolní části obrazovky pro filtrování vybereme pole TRH_KOEF (v angličtině PRICE_VALUE) pro každou tabulku, které chceme zobrazit a přidáme filtr na pole ISIN, aby se nám vybrala data jen pro námi požadovaný CP.
Obrázek 20:Propojení v access
52
Výsledek vypadá takto. Obrázek 21:Výsledek propojení
Data si exportujeme do MS EXCEL a začneme s dekompozicí časové řady. Do příkladu jsem doplnil další údaje ze starších zpracování, aby byla časová řada delší. Vidíme, že se jedná o okamžikovou časovou řadu, hodnoty nemá smysl sčítat. Pro vyrovnání časové řady doplníme pomocí geometrických průměrů klouzavé průměry. Jelikož máme časovou řadu měsíčních údajů, délka klouzavé části bude 12.
Obrázek 22:Chronologické průměry
53
Protože nemáme záporné ani nulové hodnoty,vybereme si pro časovou řadu multiplikativní rovnici. Nyní si spočítáme poměr mezi zjištěnou hodnotou a váženým chronologickým průměrem. Tímto zjistíme sezóní složku, respektive vypočítáme sezónní indexy.
Obrázek 23:Sezónní indexy
Z kterých následně pomocí aritmetického průměru spočítáme průměrné sezónní indexy.
54
Nyní z vyrovnaných hodnot vytvoříme bodový graf.
Obrázek 24:Graf vyrovnaných hodnot
Označíme body grafu, klikneme pravým tlačítkem a zvolíme možnost přidat spojnici trendu, kde si vybereme lineární přímku a zaškrtneme možnost zobrazit rovnici grafu a zobrazit hodnotu spolehlivosti R.
55
Obrázek 25:Spojnice trendu
Podobně jako u regresní analýzy vidíme, že index determinace má vysokou hodnotu a přímku trendu můžeme považovat za vhodně zvolenou.
Obrázek 26:Index determinace
Stejným způsobem přidáme i graf sezónních vlivů, tak že vyrovnané hodnoty vynásobíme sezónními indexy.
56
Obrázek 27:Graf sezónních vlivů
Nyní už můžeme udělat budoucí odhad. Do tabulky v excelu si doplníme rovnice získané z grafu pro trend a sezónní vlivy. Hodnotu předpovězeného trendu vynásobíme sezónním indexem (procenta) a získáme předpovídané hodnoty.
Obrázek 28: Předpověď trendu
57
5.4 Nahrazení údaje o jmenovité hodnotě emise Postup bude totožný jako v případě TRH_KOEF. Použije se opět metoda Last Value Carried Forward. Vzhledem k tomu, že znát hodnotu emise CP potřebujeme jen u tuzemských subjektů, kde emise podléhají evidenci, je možnost chybějícího údaje téměř nereálná, případně snadno dohledatelná. Pokud by to přeci jen nebylo možné můžeme opět analyzovat časovou řadu.
5.5 Příprava dat pro kompilaci Do tabulky DATA přidáme sloupec TRH, kde bude vyjádřena tržní hodnota a naplníme o daty. UPDATE DATA SET TRH=JMH*TRH_KOEF ;
Vytvoříme si tabulku kontrola objemu, kde bude pro každý tuzemský CP sečten objem ve výkazech na straně aktiv
porovnaný s objemem emise uvedené v CSDB. Nejdříve si
vytvoříme tabulku emisí tak, že z CSDB vybereme všechny CP s údaji o objemu emise v tržní hodnotě, vynásobením jmenovité hodnoty emise tržním koeficientem.
SELECT ISIN, SEKTOR_E, JMH_E*TRH_KOEF AS TRH_E INTO EMISE FROM CSDB GROUP BY ISIN, SEKTOR_E;
58
Obrázek 29:Tržní objemy emisí
A nyní již porovnáme aktivní stranu s pasivní a vyhledáme záznamy, kde hodnota držby převyšuje hodnotu emise.
SELECT * FROM ( SELECT DISTINCT A.ISIN, SUM(A.TRH) AS SUMOFTRH, B.TRZNI_E FROM DATA AS A LEFT JOIN EMISE AS B ON A.ISIN = B.ISIN GROUP BY A.ISIN, B.TRZNI_E ) WHERE SUMOFTRH > B.TRZNI_E ;
59
Obrázek 30:Porovnání držby a emisí
Pokud je objem držby větší než emise, může to být z více důvodů. Pokud to není výrazný rozdíl, je nejběžnějším důvodem pro tento druh chyby časový posun reportingu. Tyto rozdíly odstraníme tak, že zmenšíme hodnotu tržního koeficientu pro všechny CP na aktivní straně, aby se rovnali objemu emisí. Pro provedení nám stačí znát jen poměr mezi emisí a držbou a tímto poměrem vynásobit všechny CP v tabulce DATA. Výsledkem bude, že se levá strana bilance se bude rovnat pravé, tedy aktiva se budou rovnat závazkům. Jen pro úplnost uvedu, že pokud ve zjištěném objemu chybí část závazků, nejedná se o chybu, jelikož pokrytí výkaznictví není kompletní a platí předpoklad, že co systém výkaznictví nepokryje, drží zahraniční držitelé. Úpravou přechozího dotazu vytvoříme tabulku UPRAV_TRH, která bude obsahovat záznamy o emisích, kde je větší objem aktiv než pasiv. SELECT A.ISIN,ROUND (B.TRZNI_E /SUMOFTRH,2) AS POMER_TRHEM INTO UPRAV_TRH FROM ( SELECT DISTINCT A.ISIN, SUM(A.TRH) AS SUMOFTRH, B.TRZNI_E FROM DATA AS A LEFT JOIN EMISE AS B ON A.ISIN = B.ISIN GROUP BY A.ISIN, B.TRZNI_E ) WHERE SUMOFTRH > B.TRZNI_E ;
60
Obrázek 31: úprava aktivní strany
Následně upravíme tržní hodnoty v tabulce data. UPDATE DATA A, UPRAV_TRH B SET A.TRH=A.TRH*B.POMER_TRHEM WHERE A.ISIN=B.ISIN ;
Nyní pro ověření můžeme znovu spustit původní dotaz, kterým jsme vyhledávali větší objemy. Nenalezne již žádné emise. Data jsou nyní zkontrolována a můžeme začít sestavovat kompilaci.
61
6 Sestavování kompilace Cílem kompilace je zachycení vztahů ekonomických subjektů pro finanční instrument dlouhodobých cenných papírů dle standardu ESA. Jinými slovy porovnání získaných informací o objemu emitovaných tuzemských cenných papírů s informacemi od tuzemských držitelů cenných papírů. Jako forma prezentace sestavené statistiky nám poslouží jednoduchá kompilační tabulka, která byla uvedena na konci první kapitoly. Pro sestavení nám tedy teoreticky stačí znát jen informace o sektoru držitele, sektoru emitenta a tržní hodnotu drženého objemu CP. Tržní hodnotu držených cenných papíru ale subjekty většinou nezasílají a i kdyby jí zasílali, byla by nejspíše zbytečná. Tržní hodnota se může měnit každým okamžikem a vzhledem k různému datu reportování a faktu, že se tržní cena pro každý subjekt většinou liší, způsobila by taková informace spíše více škody než užitku a to oběma stranám. Místo toho subjekty reportují většinou jmenovitou a účetní hodnotu. Jednotnou tržní cenu pro CP stanovuje ECB a tím zajištuje konzistenci národních statistik v ohodnocení napříč státy eurozóny. Tržní cena je vyjádřena poměrným číslem tržní a jmenovité hodnoty pro každý CP. V rámci zjednodušení budu kompilovat jen statistiku stavových veličin. Běžně se jinak kompilují i tokové veličiny, objem přecenění a ostatních změn. Pro úplnost dodám, že sektor S.1312 se v České republice nevyskytuje a proto není do kompilace zahrnut. Kompilaci zahájíme doplněním zpracovaných dat ze statistických výkazů. Z námi vytvořené tabulky DATA v databázi sumarizujeme aktivní stranu bilance. Sumu rovnou zaokrouhlíme na řád miliónů.
SELECT SEKTOR_D,SEKTOR_E, ROUND(SUM(TRH)*0.000001,0) AS SUMA FROM DATA GROUP BY SEKTOR_D, SEKTOR_E ;
62
Vyjde nám.
Obrázek 32: Suma aktiv
Data doplníme do tabulky na aktivní straně.
Obrázek 33: Aktiva kompilace
63
A transponovaně na pasivní straně. Obrázek 34:Transponování aktiv
Podobným způsobem zjistíme objem emisí. SELECT SEKTOR_E,ROUND (SUM (TRZNI_E)*0.000001,0) AS OBJEM_E FROM EMISE GROUP BY SEKTOR_E ; Obrázek 35: Objem emisí
64
Objem emisí pro jednotlivé sektory doplníme do tabulky. V tomto případě bohužel neznáme protistranu. Obrázek 36: Emise v kompilaci
Pokud jsme odhadovali pomocí regresní analýzy nějaké objemy CP, doplníme je nyní do kompilační tabulky. Toho docílíme tak, že od odhadnutého množství JMH z rovnice regresní přímky odečteme sumu JMH, která se nachází v datech. Zjistíme to tak, že agregujeme UCH záznamy, které nemají 0 hodnotu JMH. SELECT ROUND (SUM (JMH * 0.000001),0) FROM DATA WHERE JMH <>0 AND ISIN LIKE "CZ0001003438"
Zbylou hodnotu JMH získanou z odhadu poté vynásobíme tržním koeficientem pro daný CP a následně tento objem rozdělíme poměrově do sektorů dle podle objemu držby UCH. Poměr rozdělení získáme tak, že spočteme celkový objem UCH pro daný CP v databázi, kde je JMH 0 a následně data agregujeme do sektorů. Sumu pro jednotlivé sektory zaokrouhlíme poměrem na dvě desetinná místa. SELECT SEKTOR_D, ROUND (SUM (UCH)/ (SELECT SUM (UCH) FROM DATA WHERE JMH <>0 AND ISIN LIKE "CZ0001003438" ),2)
65
FROM DATA WHERE JMH <>0 AND ISIN LIKE "CZ0001003438" GROUP BY SEKTOR_D
Obrázek 37:Poměr rozdělení
Následně rozdíl mezi objemem emise a nalezenou držbou zařadíme do aktiv sektoru S.2, jelikož platí předpoklad, že objem, který nebyl zaznamenám pomocí systému výkaznictví, je v držen v zahraničí. Proto jednotlivé hodnoty pro rozdíly na straně pasiv vyplníme do posledního řádku jako pasiva vůči sektoru S.2 a na aktivní straně tabulky transponovaně do sloupce aktiv S.2
66
Obrázek 38: Doplnění S.2 do kompilace
Pro pořádek doplníme jen bilanční sumu a kompilace je hotová.
Obrázek 39: Sestavení kompilace
V této demonstraci jsme zjednodušeně ukázali metodiku sestavování jedné položky. Pro potřeby statistiky čtvrtletních finančních účtů se sestavůjí všechny finanční instrumenty dle klasifikace ESA, každý se svými specifickými zdroji a technikou kompilace. Následně se musí všechny tyto instrumenty vzájemně vybilancovat, neboli upravit tak , aby spolu 67
navzájem souhlasili. Po kompletním sestavení statistky pro všechny instrumenty se zpracovaná data nahrávají do centrální databáze ČNB, kde jsou přístůpná pro zaměstannce a prostřednictvím webových stránek i pro veřejnost.
68
Závěr Hlavním cílem diplomové práce bylo sestavení statistické kompilace z dat získaných pomocí statistického šetření. K tomu, aby se dala data publikovat a mohli se použít pro účely kompilace, je nejprve nutné je řádně zpracovat. Prvotní zpracování pro naše šetření zahrnuje především kontrolu chybějících a chybných údajů. Zpracování bylo provedeno pomocí SQL příkazů v MS Access a pomocí regresní analýzy v MS Excel. Sestavení kompilace se podařilo a můžeme tedy cíl diplomové práce považovat za splněný.
69
Seznam použité literatury Tištěné zdroje [1]ARLT, Josef. Moderní metody modelování ekonomických časových řad. Vyd. 1. Praha: Grada, 1999, 307 s. ISBN 80-7169-539-4. [2]BEDÁŇOVÁ, Iveta a Vladimír VEČEREK. Základy statistiky pro studující veterinární medicíny a farmacie. Vyd. 1. Brno: Veterinární a farmaceutická univerzita Brno, 2007, 130 s. ISBN 978-80-7305-026-9. [3]BLATNÁ, Dagmar. Metody statistické analýzy. Vyd. 3. Praha: Bankovní institut vysoká škola, 2008, 92 s. ISBN 978-80-7265-129-0. [4]BLATNÁ, Dagmar. Pravděpodobnost a statistika. 1. vyd. Praha: Bankovní institut vysoká škola, 2010, 140 s. ISBN 978-80-7265-057-6. [5]Evropský systém účtů ESA 1995. Praha: Český statistický úřad, 2000, 457 s. Metodika. ISBN 80-7223-266-5. [6]HINDLS, Richard. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007, 415 s. ISBN 978-80-86946-43-6. [7]KÁBA, Bohumil a Libuše SVATOŠOVÁ. Statistické nástroje ekonomického výzkumu. Plzeň: Vydavatelství a nakladatelství Aleš Čeněk, 2012, 176 s. ISBN 978-80-7380-359-9. [8]LACKO, Ľuboslav. SQL: hotová řešení. Vyd. 1. Brno: Computer Press, 2003, 298 s. K okamžitému použití (Computer Press). ISBN 80-7226-975-5. [9]ŘEZANKOVÁ, Hana a Stanislava HRONOVÁ. Statistická data a databázový systém MS Access. Vyd. 2. Praha: Oeconomica, 2006, 80 s. ISBN 80-245-1025-1. [10]SHELDON, Robert. SQL: začínáme programovat. 1. vyd. Praha: Grada, 2005, 499 s. Průvodce (Grada). ISBN 80-247-0999-6.
70
Elektronické zdroje [11]ČNB. Manuál
čtvrtletních
finančních
účtů [online].
[cit.
2015-05-25].
Dostupné
z:
https://www.cnb.cz/miranda2/export/sites/www.cnb.cz/cs/statistika/stat_fin_uctu/download/QFA_meto dika_esa2010_cz.pdf
[12]Česká národní banka: Statistika finančních účtů. ČESKÁ NÁRODNÍ BANKA. Česká národní banka [online]. [cit. 2015-03-07].
[12]Excel Easy: #1 Excel tutorial on the net [online]. [cit. 2015-05-21]. Dostupné z: http://www.exceleasy.com/examples/regression.html
[13]Management
Mania [online].
[cit.
2015-03-29].
Dostupné
z:
https://managementmania.com/cs/ucetni-hodnota
[14]SEARCH LABORATORY. TIME SERIES DECOMPOSITION USING EXCEL [online]. 2013 [cit. 2015-06-25].
Dostupné
z:
https://www.searchlaboratory.com/2013/09/time-series-decomposition-
using-excel
[15]SQL. Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001[cit. 2015-06-18]. Dostupné z: https://cs.wikipedia.org/wiki/SQL
[16]Statistický rozbor dat z dotazníkových šetření [online]. [cit. 2015-05-25]. Dostupné z: http://multiedu.tul.cz/~vladimira.valentova/multiedu/Statisticky_rozbor_dat_z_dotaznikovych _setreni/E_ucebnice.pdf [17]W3SCHOOLS.COM. W3School Online Web Tutorials [online]. [cit. 2015-05-30]. Dostupné z: http://www.w3schools.com/
71
Seznam zkratek CP
cenný papír
CSDB
evropská databáze cenných papírů
ČNB
Česká národní banka
ECB
Evropská centrální banka
ISIN
identifikační kód cenného papíru
JMH
jmenovitá hodnota
TRH_KOEF
tržní koeficient
UCH
účetní hodnota
72
Seznam obrázků Obrázek 1:Klasifikace ekonomických sektorů .................................................................... 10 Obrázek 2:Klasifikace finančních instrumentů ........................................................................ 11 Obrázek 3:Kompilační tabulka AF.332 .................................................................................... 13 Obrázek 4: Načtení externích dat ............................................................................................. 36 Obrázek 5: Zadávání SQL dotazů ............................................................................................ 37 Obrázek 6:Tabulka DATA ....................................................................................................... 38 Obrázek 7:Návrhové zobrazení tabulky ................................................................................... 39 Obrázek 8:Přidání sloupce ........................................................................................................ 40 Obrázek 9:Tabulka četností ...................................................................................................... 41 Obrázek 10: Příprava Modů ..................................................................................................... 42 Obrázek 11:Tabulka Modus ..................................................................................................... 43 Obrázek 12: Tabulka s modem ................................................................................................. 43 Obrázek 13:Potencionálně chybné záznamy ............................................................................ 44 Obrázek 14:Subjekt minulého období ...................................................................................... 45 Obrázek 15: Tabulka KOEF_UCH .......................................................................................... 47 Obrázek 16: Analýza dat v MS EXCEL................................................................................... 49 Obrázek 17: Výpočet regrese v MS EXCEL ............................................................................ 49 Obrázek 18: Výsledky regrese.................................................................................................. 50 Obrázek 19: Napojení zdrojů.................................................................................................... 52 Obrázek 20:Propojení v access ................................................................................................. 52 Obrázek 21:Výsledek propojení ............................................................................................... 53 Obrázek 22:Chronologické průměry ........................................................................................ 53 Obrázek 23:Sezónní indexy ...................................................................................................... 54 Obrázek 24:Graf vyrovnaných hodnot ..................................................................................... 55 Obrázek 25:Spojnice trendu ..................................................................................................... 56 Obrázek 26:Index determinace ................................................................................................. 56 Obrázek 27:Graf sezónních vlivů ............................................................................................. 57 Obrázek 28: Předpověď trendu................................................................................................. 57 Obrázek 29:Tržní objemy emisí ............................................................................................... 59 Obrázek 30:Porovnání držby a emisí........................................................................................ 60 Obrázek 31: úprava aktivní strany ............................................................................................ 61 Obrázek 32: Suma aktiv ........................................................................................................... 63 73
Obrázek 33: Aktiva kompilace ................................................................................................. 63 Obrázek 34:Transponování aktiv.............................................................................................. 64 Obrázek 35: Objem emisí ......................................................................................................... 64 Obrázek 36: Emise v kompilaci ............................................................................................... 65 Obrázek 37:Poměr rozdělení .................................................................................................... 66 Obrázek 38: Doplnění S.2 do kompilace .................................................................................. 67 Obrázek 39: Sestavení kompilace............................................................................................. 67
74