Univerzita Palackého v Olomouci Přírodovědecká fakulta Katedra geoinformatiky
Bc. Erik TYL
NEURONOVÉ SÍTĚ PŘI ANALÝZE VÝSLEDKŮ VOLEB
Magisterská práce
Vedoucí práce: Doc. Mgr. Jiří Dvorský, Ph.D.
Olomouc 2013
Čestné prohlášení Prohlašuji, že jsem tuto magisterskou práci studia oboru Geoinformatiky vypracoval samostatně pod vedením Doc. Mgr. Jiřího Dvorského, Ph.D. Všechny použité materiály a zdroje jsou citovány s ohledem na vědeckou etiku, autorská práva a zákony na ochranu duševního vlastnictví. Všechna poskytnutá i vytvořená digitální data nebudu bez souhlasu školy poskytovat. V Olomouci 23. dubna 2013 podpis______________
Zde bych chtěl poděkovat panu Doc. Mgr. Jiřímu Dvorskému, Ph.D. za vedení práce, ochotu, pomoc, trpělivost, a hlavně za cenné rady, které mi byly při vypracovávání této práce poskytnuty.
sdddddddddddddd
SADSDSADSADSADASDSA
OBSAH SEZNAM POUŽITÝCH ZKRATEK........................................................................................... 8 ÚVOD................................................................................................................................... 9 1 CÍLE PRÁCE................................................................................................................... 10 2 METODY A POSTUP ZPRACOVÁNÍ.............................................................................. 11 2.1 Použitá data ........................................................................................................ 11 2.2 Použité programy ............................................................................................... 11 2.3 Postup zpracování .............................................................................................. 12 3 SOUČASNÝ STAV ŘEŠENÉ PROBLEMATIKY................................................................. 15 3.1 Biologický neuron.............................................................................................. 15 3.2 Umělé neuronové sítě......................................................................................... 16 3.2.1 Umělý, formální neuron.......................................................................... 16 3.2.2 Dělení neuronových sítí.......................................................................... 17 3.3 Neuronové sítě používající shlukovací algoritmy.............................................. 19 3.3.1 Kohonenovy mapy (SOM) ..................................................................... 19 3.3.2 Algoritmus Neuronový plyn ................................................................... 23 3.4 Neuronové sítě v oblasti geografie a GIS .......................................................... 24 4 PŘEDZPRACOVÁNÍ VOLEBNÍCH VÝSLEDKŮ................................................................ 26 4.1 Analýza a výběr dat............................................................................................ 26 4.2 Normalizace dat ................................................................................................. 28 4.2.1 Lineární transformace ............................................................................. 29 4.2.2 Transformace vycházející z poměru hodnot........................................... 30 4.3 Příprava dat pro SOM_AV................................................................................. 31 4.3.1 Převodový soubor Form.xlsx.................................................................. 32 5 ANALÝZA VOLEBNÍCH VÝSLEDKŮ ............................................................................... 35 5.1 Software pro analýzu.......................................................................................... 35 5.2 Test nastavení SOM ........................................................................................... 39 5.3 Analýza neuronovou síti SOM........................................................................... 50 6 INTERPRETACE SOM A VIZUALIZACE V MAPÁCH ...................................................... 54 6.1 DBF tabulky a přehledové tabulky k interpretaci dat ........................................ 54 6.2 Vizualizace v mapě ............................................................................................ 55 6.3 Interpretace výsledků ze SOM ........................................................................... 56 6.3.1 Interpretace výsledků voleb do Evropského parlamentu........................ 56 6.3.2 Interpretace výsledků voleb do Poslanecké sněmovny .......................... 58 6.3.3 Interpretace výsledků voleb do krajských zastupitelstev........................ 61
6
7 VÝSLEDKY .................................................................................................................... 63 7.1 Zkoumané metody normalizace a interpretace................................................... 63 7.2 Výstupy .............................................................................................................. 63 8 DISKUZE ....................................................................................................................... 65 9 ZÁVĚR .......................................................................................................................... 67 POUŽITÁ LITERATURA A INFORMAČNÍ ZDROJE .............................................................. 68 SUMMARY......................................................................................................................... 71 PŘÍLOHY ............................................................................................................................ 72
7
SEZNAM POUŽITÝCH ZKRATEK Zkratka
Význam
AN
normalizace vycházející z poměrů maximální hodnoty
ASCII
American Standard Code for Information Interchange
ČSSD
Česká strana sociálně demokratická
DBF
DataBase File
DPZ
dálkový průzkum Země
EP
volby do Evropského parlamentu
ESRI
Environmental System Research Institute
GIS
geografický informační systém
JPEG
Joint Picture Experts Group
KDU‐ČSL
Křesťanská a demokratická unie‐Československá strana lidová
KSČM
Komunistická strana Čech a Moravy
KZ
volby do krajského zastupitelstva
LVQ
Learning Vector Quantization
MS
Microsoft
NN
lineární transformace
ODS
Občanská demokratická strana
PNG
Portable Network Graphics
PS
volby do Poslanecké sněmovny
SHP
Shapefile
SOM
Self‐Organizing Map
TXT
formát textového souboru
XLS
formát souboru pro tabulkový procesor Microsoft Excel
XLSX
formát souboru pro tabulkový procesor Microsoft Excel, jedná se o formát specifikace Office Open XML
XML
Extensible Markup Langure
8
ÚVOD Umělé neuronové sítě jsou inspirovány biologickým neuronem, stavebním kamenem centrální nervové soustavy, tedy lidského mozku. Prvně se jím inspiroval už v roce 1943 McCulloch
a
Pitts,
kteří
představili první
umělý
tj.
formální
neuron.
Po období postupného rozvoje dosahují největšího vrcholu neuronové sítě s rozmachem počítačové technologie v 80. letech 20. století. Prudký nárůst nejrůznějších typů neuronových sítí způsobil také zvýšení jejich užívání v nejrůznějších oborech lidské činnosti. Jednou z vědních disciplín, kde lze neuronové sítě využít, je také geografie a geoinformatika. Neuronové sítě se například využívají při zkoumání vývoje cen pozemků, udržitelného rozvoje území, dálkového průzkumu země a v expertních systémech. Práce se zaměřuje na problematiku využití shlukovacích neuronových sítí při analýze volebních výsledků do zastupitelských orgánů a samospráv obcí. Zkoumány budou volby do Evropského parlamentu, do krajských zastupitelstev a do Poslanecké sněmovny České republiky. Výsledky práce budou interpretovány na základě analýzy neuronové sítě s ohledem na srozumitelnost budoucích uživatelů a zájemců o tuto práci. Snaha vizualizovat výsledky neuronové sítě v mapě je dalším důležitým bodem, který spolu s výsledky neuronové sítě může zachytit prostorové souvislosti ve volebních výsledcích takto analyzovaných. Struktura této práce vychází z logického uvedení do problematiky, v tomto případě tedy popsání backgroundu neuronových sítí, kterým se konkrétně zabývá teoretická část. Před teoretickou částí je ovšem ještě část metodologická, která detailně popisuje metodiku užitou pro optimální dosažení vytyčených cílů. Po teoretické části následuje samotná část analyzační a sumarizační, která ilustruje nejenom konkrétní zkoumání dat metodou SOM, ale také jejich předzpracování, vizualizaci a interpretaci. Možný přínos této práce je nový pohled na problematiku voleb a volebních výsledků, který by mohla odborníkům, jako jsou politologové či sociologové, ukázat nové cesty interpretace a náhledu na chování voličů v České republice. Samotná vizualizace v mapách není obvyklá při analýzách neuronovou sítí a není vždy možná. Proto samotná vizualizace analýzy v mapě může být přínosná pro budoucí zájemce o problematiku shlukovacích neuronových sítí.
9
1 CÍLE PRÁCE Cílem diplomové práce je použití neuronových sítí k analýze volebních výsledků do zastupitelských orgánů a samospráv obcí v časovém období od roku 2002 až 2009. Budou analyzovány výsledky krajských voleb (2000, 2004, 2008), volby do Evropského parlamentu (2004, 2009) a volby do Poslanecké sněmovny České republiky (2004, 2008). Volební
výsledky
budou
analyzovány
na
úrovni
obcí
České
republiky.
Volby do Evropského parlamentu a Poslanecké sněmovny budou analyzovány pro celé území České republiky. Krajské volby budou zkoumány jednotlivě pro každý kraj, a to z důvodu lišících se politických stran. Dalším cílem je vhodný výběr typu neuronové sítě, která bude schopna popsat volební výsledky. Součástí práce je předzpracování a příprava volebních výsledků do podoby, jež by neuronové sítě byly schopny zpracovat, a nadto aby byla zachována informační hodnota těchto dat. Analýzy vytvořené pomocí neuronové sítě budou interpretovány a náležitě popsány. Bude zhodnocen jejich význam a užití v rozsahu zadané problematiky volebních výsledků do zastupitelských orgánů a samospráv obcí. Po interpretaci neuronových sítí bude následovat vizualizace těchto sítí do map v souladu s kartografickými pravidly vizualizace.
10
2 METODY A POSTUP ZPRACOVÁNÍ 2.1 Použitá data V této práci jsou použita data pocházející primárně z Českého statistického úřadu, tato data však byla dále zpracována v magisterské práci Jakuba Vlosinského – Prostorové analýzy časových řad volebních výsledků (2011). Data obsahují absolutní hodnoty počtů hlasů jednotlivých volebních stran napříč volbami do Evropského parlamentu, Poslanecké sněmovny, krajských zastupitelstev, přičemž se budou zkoumat období 2000–2009. Dále obsahují počty občanů na volebních seznamech jednotlivých obcí, počet vydaných obálek, počty odevzdaných a platných hlasů. Všechna výše zmíněná data byla zhodnocena dle vhodnosti využití pro neuronové sítě a byla z nich vybrána jen potřebná část k uskutečnění cílů práce. Všechna data byla obdržena ve formátu XLS1.
2.2 Použité programy Pro práci s daty byl použit tabulkový procesor Microsoft (MS) Excel od firmy Microsoft, který umožňuje jednoduchou práci s daty, jejich editaci, správu, implementaci vzorců a převod do textových formátů. Pro celou práci byly použity dvě verze MS Excel – 2003 a 2007. Verze MS Excel 2007 podporuje převod dat do textových souborů TXT2 v kódování ASCII3. Na tvorbu neuronových sítí typu SOM (Self‐Organizing Map) byl použit program vytvořený na Vysoké škole Báňské v Ostravě na fakultě elektrotechniky a informatiky Ing. Lukášem Vojáčkem. Tento program nese název SOM_AV, jako doplňkový program pro převod binárních souborů vytvořených SOM_AV byl použit program SOMConvert od stejného autora. Druhý jmenovaný program je prostředníkem mezi binárními výstupy SOM_AV a volně dostupným programem Java SOMToolbox. Programy lze spustit pouze z příkazového řádku Windows. Další podmínkou je 64 bitový systém Windows pro SOM_AV a SOMConverter.
1
Formát souboru pro tabulkový procesor Microsoft Excel.
2
Formát poznámkového bloku Windows.
3
American Standard Code for Information Interchange – americký standardní kód pro výměnu informací.
11
Dle internetových stránek Vienna University of Technology (2011) je Java SOMToolbox opensource implementovaný v Java, umožňující snadno trénovat SOM, analyzovat je a implementovat širokou škálu různých vizualizací, umožňujících vyhodnocení vyškolených map a vlastností údajů. Je tudíž výkonným nástrojem pro dolování dat. Java SOMToolbox je vyvíjen Ústavem softwarových technologií a interaktivních systémů na Technické Univerzitě ve Vídni a licencován na základě licence Apache, verze 2.0. Dalším použitým programem je Console2, který umožňuje nahradit příkazový řádek Windows. Tato nahrazující konzole dovoluje kopírování cest, tvorbu záložek a mnoho dalších uživatelských úprav, jako je mimo jiné například změna vzhledu. Console2 je vhodná pro práci s velkým počtem souborů spouštěných z příkazového řádku. Console2 je licencována pod GNU General Public License (GPL). Na pozdější tvorbu mapových výstupů byl použit program od společnosti ESRI ArcMap verze 10.0., který umožňuje vstup tabulek formátu DBF4 a jejich následné spojení s geografickými daty formátu SHP5. Tabulky formátu DBF byly vytvořeny převodem z XLS souborů v programu MS Excel 2003.
2.3 Postup zpracování Neuronové sítě se obecně dělí do několika skupin a nabízejí širokou škálu použití. Avšak některé typy neuronových sítí a jejich modifikací nejsou použitelné a celkově vhodné pro zkoumanou problematiku. Z tohoto důvodu bylo první fází magisterské práce vybrat na základě dostupné literatury vhodný typ neuronové sítě pro analýzu volebních výsledků. Dle Koděrové (2010) je každá neuronová síť vhodná pro jinak definovanou úlohu, nastavení modelu je individuální a liší se v závislosti na typu zkoumaného problému. Teorií řešení úloh umělé inteligence se zabýval mimo jiné i Mařík (2001), který při rozhodování zdůrazňuje správnou argumentaci a matematickou logiku.
4
DataBase File.
5
Shapefile.
12
Po výběru typu neuronové sítě, která byla aplikována na celý soubor dat, bylo nutné tato data filtrovat a provést integraci dat. Dále provést výběr atributů vhodných k analýze, ošetřit a vyloučit chybná data a data redundantní a irelevantní. „Dolováním znalostí nazýváme proces netriviálního získávání implicitní, dříve neznámé a potencionálně užitečné informace z dat.“ (Šarmanová, 2002) Následuje seskupování dat do takové podoby, aby datový soubor po analýze neuronové sítě mohl být dále použit a zpracován právě pro zobrazení výsledků do map. V této části musely být vyřešeny problémy s proměnlivostí hranic obcí, jelikož hranice správních celků se postupně měnily mezi lety 2000–2009, kdy největší změny uspořádání zaznamenaly obce moravských krajů a velká města s několika volebními obvody jako Praha, Brno a Plzeň. Po provedení standardizace atributů, neboli odstranění závislosti reálných atributů na jednotkách měření, následuje normalizace celého souboru dat, která odstraní závislost těchto atributů na velikosti objektu, tedy odstranění závislosti počtu hlasů na počtu obyvatel. Metodami normalizace se zabýval Meško (2008), podle kterého byla zvolena lineární transformace, což je transformace dat do intervalu 0,1 tato transformace je v práci označována zkratkou NN. Druhá zvolená transformace je podobná, neobsahuje ovšem nulu pro minimální hodnotu 0,1 . V práci je tato transformace označována zkratkou AN. Byly zvoleny dva typy normalizace z důvodů porovnání výsledků neuronové sítě. Na základě těchto předpokladů bylo zkoumáno jak velký vliv má tato normalizace na výsledek a zda je některá z metod účinnější. Metodami normalizace se zabývá podrobně kapitola 4 Předzpracování volebních výsledků. Dalším krokem bylo převedení normalizovaných dat z MS Excel do formátu TXT6 a do formátování podporovaného programem SOM_AV. Naformátování textového souboru vyžadovalo prvně převod do TXT odděleného tabulátory. Textové soubory byly následně kopírovány zpět do předchystané šablony programu MS Excel, která obsahuje několik vzorců zajišťujících automatický převod hodnot na požadované formátování. Touto problematikou se zabývá kapitola 4.3 Příprava dat pro SOM_AV.
6
Formát textového dokumentu
13
Předzpracováváním dat se zabývá první polovina práce. Druhá polovina pojednává o vytvoření neuronových sítí typu SOM a testování nastavení neuronových sítí. Společně s vizualizací neuronových sítí a převodu sítí do map. Testování proběhlo nad testovacími daty pro několik rozměrů neuronové sítě a po několik počtů opakování. Testování proběhlo dvakrát, jelikož se počet záznamů dle charakteru voleb lišil. Neuronová síť pro volby do Evropského parlamentu a Poslanecké sněmovny zkoumá celou Českou republiku, je zde tedy mnoho záznamů, které vyžadují větší síť, než volby krajské, které byly řešeny pro každý kraj zvlášť. Poslední částí práce je interpretace neuronových sítí a jejich převod do map, doplněný několika pomocnými statistickými metodami, které pomáhají a dokreslují interpretaci výsledků neuronových sítí v mapě.
14
3 SOUČASNÝ STAV ŘEŠENÉ PROBLEMATIKY Neuronové sítě jsou inspirovány biologickým neuronem, který je tedy stavebním prvkem nervové soustavy. „Neurony jsou živé buňky, které byly dlouhým vývojem donuceny se specializovat na co nejúčelnější zpracování, uchování a přenos informací.“ (Novák, 1992) V lidském mozku je 20 až 100 milionů neuronů. Jednotlivé biologické neurony jsou mezi sebou vzájemně propojeny, vzniká tak tzv. neuronová síť. Biologickým neuronem se jako první inspirovali v roce 1943 McCulloch a Pitts, kteří představili první umělý, formální neuron. Umělé neuronové sítě zaznamenávají největší rozmach v 80. letech 20. století společně s rozvojem počítačové techniky. V současnosti existuje mnoho modelů neuronových sítí, které zvládnou i rychlou adaptaci, neboli naučit se danou situaci. Účelem těchto sítí je klasifikovat, zobecňovat, optimalizovat a predikovat chování různých jevů.
3.1 Biologický neuron Původním záměrem pro výzkum neuronových sítí byla snaha pochopit a modelovat, jakým způsobem člověk myslí a jak funguje lidský mozek. Neuronová soustava člověka zprostředkuje vztahy mezi vnějším prostředím a organismem, mezi jeho částmi čímž zajišťuje příslušnou reakci na vnější podměty stejně tak jako na vnitřní stavy organismu. Proces probíhá šířením vzruchů z jednotlivých čidel, které přijímají chemické, tepelné a mechanické podměty, směrem k jiným nervovým buňkám, které zpracovávají signály a posílají je k příslušným výkonným orgánům. Neurony jako specializované samostatné buňky jsou určeny k přenosu, zpracování a uchovávání informací, které jsou nutné pro realizaci životních funkcí lidského organismu. Neuron má tří hlavní části: tělo neuronu (sóma), vstupy (dendrity), výstupy (axony) (viz například Novák, 1992). Vstupů neuronu může být několik, výstup však pouze jeden. Na místě styku axonu s částmi jiných neuronů působí tzv. synapse, které slouží jako informační rozhraní (interface) mezi neurony. Soubory neuronů a vzájemné propojení elektrochemických vazeb tvoří složité sítě, které slouží jako vzory pro matematické modely neuronových sítí v počítačovém prostředí při výzkumu umělé inteligence. 15
Obrázek 1: Schéma biologického neuronu (Vondrák, 2005)
Umělá inteligence je věda o vytváření strojů nebo systémů, které budou při řešení určitého úkolu užívat takového postupu, který – pokud by jej vykonal člověk – bychom považovali za projev jeho inteligence (Minsky, 1967). Cílem systémů umělé inteligence je vypracování algoritmů nebo paradigmat, které požadují od stroje řešit úlohy, které by vyřešil jenom člověk se znalostmi. Prozatím nebyla položena jednoznačná definice přirozené lidské inteligence, nicméně už jsou definovány požadavky na inteligenci umělou tedy mimo jiné například schopnost uložit znalosti, jejich aplikování na řešení konkrétního systému, a v průběhu tohoto procesu generovat poznatky nové. Umělá neuronová síť by měla za těchto předpokladů zvládnout simulaci vědomostí, uvažování a učení. Umělé neuronové sítě nejsou jediné, které spadají pod problematiku umělé inteligence. Dalšími oblastmi jsou: expertní systémy, fuzzy systémy a genetické algoritmy.
3.2 Umělé neuronové sítě
3.2.1
Umělý, formální neuron
Předchozí podkapitola předznamenala, že neuron načítá vstupy pomocí synapsí a
propojením
neuronů
vzniká
síťová
struktura
schopná
dosáhnout
výpočetních úspěchů. Základem matematického modelu neuronové sítě je formální neuron, jehož struktura je názorně zachycena viz Obrázek 2. Formální neuron Yj má n obecně reálných vstupů x1 , ... , xn, jež modelují dendrity. 16
Vstupy jsou ohodnoceny reálnými synaptickými váhami w1j,…,wnj, které určují jejich propustnost (Volná, 2002). Ve shodě s neurofyziologickou motivací mohou být synaptické váhy i záporné, což vyjadřuje jejich inhibiční charakter. Formální neuron ještě obsahuje přenosovou funkci tzv. bias bj, neboli fixní práh θ pro aktivační funkci. Přenosových funkcí je mnoho, mezi nejpoužívanější patří: lineární, binární, logistická (sigmoida) a hyperbolický tangens. „U metody založené na porovnání vzdáleností mezi daty (vzory) je přenosová funkce nahrazena metrikou.“ (Koděrová, 2010) Mezi tyto metody patří algoritmy SOM a algoritmus Neuronový plyn.
Obrázek 2: Schéma formálního neuronu (Volná, 2002)
3.2.2
Dělení neuronových sítí
Dle Volné (2002) se neuronová síť v čase vyvíjí, mění se stav jejích neuronů a adaptují se váhy. V souvislosti se změnou těchto charakteristik v čase je účelné rozdělit celkovou dynamiku na tři režimy práce sítě: organizační (změna topologie), aktivní (změna stavu) a adaptivní (změna konfigurace). První, organizační dynamika specifikuje tzv. architekturu neuronové sítě. Architekturu je možno chápat jako uspořádání uzlů sítě a propojením hran. Na základě této charakteristiky se neuronové sítě dělí dle počtu vrstev, a to: jednovrstvé (Kohonenova síť též SOM) a vícevrstvé (perceptronová síť, dopředné neuronové sítě). Existují dva typy architektur: acyklická (všechny cesty od neuronu k neuronu vedou jedním směrem) a cyklická (výstup prvního neuronu je vstupem druhého neuronu atd. až výstup posledního neuronu je opět vstupem prvního neuronu, můžeme ji tedy označit za síť se zpětnou vazbou). 17
Neurony acyklické sítě lze vždy rozdělit do vrstev, které jsou uspořádány nad sebou, z čehož vyplývá, že spoje mezi neurony vedou vždy jen z nižší vrstvy do vyšší. Příkladem jsou tedy vícevrstvé neuronové sítě. Aktivní dynamika specifikuje stav sítě a její změnu v čase, podmínkou je pevná topologie a konfigurace sítě. Adaptivní dynamika se zabývá změnou způsobu, jakým se mění váhové hodnoty na spojích neuronů v čase. Na počátku jsou tyto váhy nastaveny většinou náhodně. Dle Zelinky (1998) je neuronová síť charakterizována: architekturou, algoritmem učení a aktivační funkcí. Algoritmus učení určuje postup, jakým se mění váhy v jednotlivých synapsích. Učení je proces, kdy se síť přizpůsobuje vnějšímu prostředí, které na ní působí prostřednictvím dat – vzorů získaných měřením (pozorováním) na objektu, jehož vlastnosti má v konečné fázi reprezentovat. Základními typy učení jsou: učení s učitelem a učení bez učitele. Při učení s učitelem je v biologických sítích využita zpětná vazba. Neuronové síti jsou předkládány příslušné vzory. Na základě aktuálního nastavení je zjištěn aktuální výsledek. Ten je následně porovnán s vyžadovaným výsledkem a je určena chyba. Poté je spočítána nutná korekce (dle typu neuronové sítě) a upraveny hodnoty vah, prahů, případně strmostí aktivačních funkcí, aby se snížila hodnota této chyby. Tento postup se opakuje až do dosažení stanovené minimální chyby. Při učení bez učitele není vyhodnocován výstup. Při tomto učení je výstup neznámý. Síti se předkládá do vstupu sadu vzorů, které si sama následně třídí. Buď tyto vzory člení do skupin a reaguje na typického zástupce, nebo si přizpůsobí topologii vlastnostem vstupu. Neuronových sítí je výrazné množství, z toho důvodu je důležité vybrat takovou síť, která nejlépe popisuje daný problém. Obrázek 3 popisuje jednoduché dělení sítí a několik typů neuronových sítí ve spodní části.
18
Obrázek 3: Dělení neuronových sítí
3.3 Neuronové sítě používající shlukovací algoritmy Neuronové sítě umí rozpoznávat a třídit neznámé číselné signály a data, pracovat s nimi a odhalit souvislosti nebo naopak rozdíly v datových signálech (Vojáček, 2006). Mezi základní algoritmy na bázi shlukování patří: Neuronový plyn a Kohonenovy mapy, kterým se říká též samo‐organizující se sítě nebo mapy, zkráceně SOM.
3.3.1
Kohonenovy mapy (SOM)
Základ této neuronové sítě vytvořil finský profesor Tuovo Kohonenen v roce 1982. Samo‐organizující síť, dále jen SOM, patří do skupiny sítí používající učení bez učitele. Existuje i aproximace sítě pro učení s učitelem, ty nesou název LVQ7. SOM se používá především pro shlukování objektů a zjednodušování vícerozměrné struktury. Schopnost shlukování a samo‐organizace objektů s podobnými vlastnostmi do skupin předurčuje tento algoritmus pro použití v aplikacích pro rozhodování, rozlišování a třídění signálů, objektů, značek apod. Další vlastností, kterou se vyznačují SOM je zachování topologie sítě a adaptivnost.
7
Z anglického Learning Vector Quantization.
19
SOM má několik typů struktury. Nejčastější formou jsou dvourozměrné (k=2) čtvercové
nebo
obdélníkové
matice,
hexagonálního
útvaru
nebo
někdy
i jednorozměrného vektoru (k=1). Rozměr struktury (k) nijak nesouvisí s počtem vah každého neuronu (n). Obvykle platí, že k < n, naopak tvar struktury uspořádání neuronů má vliv na učení mapy a počet vah (Volná, 2002). Obrázek 4: Struktury uspořádání neuronu (*) s definicí okolí R vítězného neuronu (#) (Volná, 2002)
Dle Kohonena (1992) jsou data reprezentována vektory, které tvoří řadu transformovaných dat utvářející n‐dimenzionální vektor. SOM tyto n‐dimenzionální vektory převede do prostoru s malým počtem dimenzí, nejčastěji do roviny, tedy do 2D prostoru. Po volbě struktury a přichystání dat následuje vytvoření mřížky neuronů. Každému neuronu c je přiřazen p‐rozměrný vektor vah w.
wc wc1 , wc 2 ,..., wcp
(1)
Matici neboli mřížce neuronů se postupně předkládají vektory vstupního signálu (n dimenzionální vektor) tím způsobem, že se odděleně porovnávají rozdíly příslušných hodnot vektorů vah (w) každého neuronu s hodnotami vektoru vstupního signálu. K vyjádření rozdílu se používá několik metod výpočtu. Nejčastější a nejznámější je výpočet euklidovské vzdálenosti D, tj. součet rozdílů příslušných hodnot. D x1 w1 x2 w2 xn wn 2
2
20
2
(2)
Těchto výpočtů se uskuteční tolik, kolik je neuronů, tudíž například v matici 5x5 je to 25 neuronů, 25 hodnot. Z těchto 25 hodnot se vybere vítěz. Váhy tohoto vítězného neuronu ze všech nejvíce odpovídají hodnotám předloženého signálu. Při předkládání první učícího vstupního vektoru se jeho hodnoty porovnávají s náhodně vygenerovanými hodnotami vah (koeficientů) jednotlivých neuronů. Váhy (w) vítězného neuronu se pak upravují, aby se co nejvíce přiblížily hodnotám právě předloženého vstupního vektoru (x). wi ,nové wi ,staré x wi ,staré
(3)
Vzorec č. 3 popisující úpravu vah znamená následující: α je učící koeficient vyjadřující rychlost učení (může nabývat hodnot 0 až 1, např. α = 0,5), wi je vektor vah (koeficientů) i‐tého neuronu a x je vstupní vektor. Při každém opakování (iteraci) se koeficient α zmenšuje od 1 k 0 v závislosti na tom, jaká je zvolená funkce pro zmenšení tohoto koeficientu.
Obrázek 5: Struktura neuronů Kohonenovy mapy s vítězným neuronem BMU, x je vstupní vektor, neuron s váhami mi(w) (Vojáček, 2006)
Obrázek 6: Struktura neuronů Kohonenovy mapy jiným pohledem (http://www.lohninger.com)
21
Výše byl zmíněn termín iterace, tedy počet opakování pro neuronovou síť, to znamená počet opakování, kdy probíhá učení neuronové sítě. Tento faktor může mít vliv na výsledek a na jeho přesnost. Vývoj prostorového uspořádání váhových vektorů lze vidět na Obrázku 7. Obrázek 7: Rozložení neuronů ve vstupním datovém prostoru pro různý počet iterací (Volná, 2002)
Dle Hebáka (2007) lze stručně algoritmus shrnout do následujících šesti kroků: 1. Vytvoření sítě a přiřazení vah jednotlivým neuronům. 2. Náhodné vybrání objektu z datové matice a nalezení vítězného neuronu. 3. Aktualizace vah vítězného neuronu. 4. Aktualizace vah okolních neuronů. 5. Nepovinný krok – Aktivace nečinných neuronů, které dlouho nezvítězili, pomocí nového přiřazení náhodného vektoru vah. 6. Provádění kroků 2 až 5, dokud zobrazení na mapě nekonverguje, nebo neproběhne předem stanovený počet iterací algoritmu.
22
SOM je nástrojem pro úspěšnou identifikaci signálů neznámých vlastností a parametrů. Aplikační možnosti algoritmu SOM jsou mimo jiné možné ve zpracování řeči obrazu, k úpravě zvuku, hledání a detekce osob podle fotografií8, bezpečnostní aplikace, hledání podobných znaků v neznámém signálu nebo také v automatickém třídění. V těchto disciplínách je použití obvyklé, avšak v geografických studiích různých typů se používá méně často. Učení a přizpůsobení změně signálu je podobné funkci lidského mozku, který se též dokáže přizpůsobovat dlouhotrvajícím změnám.
3.3.2
Algoritmus Neuronový plyn
Algoritmem Neuronový plyn se zabývá například i Řezánková (2007). Model neuronového plynu postrádá pevně určenou topologii. Síť algoritmu se skládá z množin N uzlů (neuronů). Každý uzel má přiřazený referenční vektor. Každému ci je přiřazen vektor wi є Rm. A c1 , c2 ,..., cn
(4)
Předpokladem je, že vstupní m‐rozměrný signál je generován rozdělením se spojitou hustotou
pravděpodobnosti
(viz
vzorec
5)
nebo
množiny (viz vzorec 4). p , R m (5) D 1 , 2 ,..., n (6)
8
Tato funkce je využívána bezpečnostními systémy na letištích aj.
23
z konečné
trénovací
Pro daný vstupní signál je vítězný neuron s( ) z uzlů množiny A ten, který má nejblíže referenční vektor. Pokud existuje více uzlů se stejným vítězným referenčním vektorem, je jeden z nich vybrán náhodně. Neuronový plyn třídí vstupní signál uzly sítě podle vzdálenosti jejich referenčních vektorů w. Změny uzlů a adaptace se zmenšují podle předem zadaného schématu. Pro práci s tímto algoritmem je potřeba vybrat vhodné počáteční hodnoty a vhodné konečné hodnoty (Koděrová, 2010). s ( ) arg min ca wc (7)
Algoritmus je velmi účinný pro simulaci a výpočty, v nichž je k dispozici velké množství vstupních dat. Hlavní rozdíl mezi klasickými SOM a Neuronovým plynem spočívá v tom, že Neuronový plyn nemá pevně nastavenou topologii. Přínosem algoritmu je jeho schopnost nalézt ve velkém množství dat ta, která vyhovují předem stanoveným podmínkám.
3.4 Neuronové sítě v oblasti geografie a GIS Neuronové sítě při analýze volebních výsledků doposud nebyly použity, proto není možné vycházet z žádné studie. Neuronovými sítěmi SOM a její aplikací v geografii se ovšem zabývá například kniha Self‐Organising Maps: Applications in Geographic Information Science(2008), Kohonen Map – GIS and the Analysis of Real Estate Sales (2002), které se zaměřují na obecné znalosti o SOM a možné aplikace v geografii. Velký rozmach SOM probíhá v severských zemích, kde odborníci zkoumaní nejrůznější problémy urbánního rozvoje měst, udržitelný rozvoj aj., jako například Kauko (2013), který zkoumá udržitelný rozvoj částí města Szeged a trh s bydlením v období mezi lety 2000 a 2009. Neuronové sítě mohou být použity i v DPZ9 ke klasifikaci multispektrálních snímků.
9
Dálková průzkum Země
24
V expertních systémech slouží neuronové sítě například při rozpoznávání obrazu. Expertní systémy jsou programové prostředky určené k řešení takových úloh, které jsou považovány za obtížné a jejichž uspokojivé řešení může provést pouze specialista v daném oboru – expert (Vondrák, 1995). Díky možnostem shlukování lze použít síť na jakákoliv vícerozměrná data, jejich následná interpretace záleží na metodách dolování dat a informací ze SOM. Přednosti predikce lze využít v plánování a studiích rozvoje a průběhu jevu v čase. Využití sítí SOM a neuronových sítí je široké, avšak v České republice málo používané, a to i přes velký počet publikací zabývajících se touto problematikou.
25
4 PŘEDZPRACOVÁNÍ VOLEBNÍCH VÝSLEDKŮ 4.1 Analýza a výběr dat Výsledky voleb obsahují několik souborů tabulek10 pro volby do Evropského parlamentu (dále jen EP), Poslanecké sněmovny (dále jen PS) a pro volby do krajských zastupitelstev (dále jen KZ)11. Každý soubor tabulek voleb obsahuje dvě tabulky formátu DBF a dvě formátu XLS. První XLS tabulka (př. EP2009.xls) obsahuje samotné výsledky voleb každé politické strany v počtu platných hlasů, název strany je zakódován čísly. Kromě absolutních volebních čísel je tabulka doplněna o kód okresu, kód obce popřípadě městské části, počet zapsaných voličů na seznamu, počet vydaných úředních obálek, počet odevzdaných úředních obálek a celkový počet platných hlasů. Dalším XLS tabulka (př. EPobce.xls) je stejná jako jedna z DBF tabulek (př. EPobce.dbf), obsahují kód obce, název obce, kód okresu, minimum a maximum platných hlasů pro danou obec. Poslední DBF (př. EPstrany) tabulka slouží jako identifikační číselník první XLS tabulky, tedy slouží jako seznam volebních stran spojený s první XLS tabulkou (př. EP2004.xls). V této práci jsou použity informace z většiny vyjmenovaných tabulek. Počáteční fází bylo provedení filtrace použitelných atributů tabulek, zhodnocení výsledků voleb s ohledem na velký počet stran a ustanovení rozsahu a důležitosti těchto dat. Pro následnou analýzu neuronovou sítí byly zvoleny za směrodatné pouze výsledky jednotlivých stran. Ostatní data jako například: minimum a maximum platných hlasů, počet zapsaných voličů na seznamu, počet vydaných úředních obálek, počet odevzdaných úředních obálek a celkový počet platných hlasů, nebyly pro výzkum využity. Na všech zkoumaných volbách se účastní na 25 až 45 politických stran. Z tohoto důvodu byly hlasy všech stran sečteny a zkoumány procentuální hodnoty jednotlivých politických stran.
10
Tyto tabulky jsou převzaty z diplomové práce Jakuba Vlosinského (2011), viz výše.
11
Tyto zkratky jednotlivých typů voleb složí zvláště k ozřejmění názvu pracovních souborů, například EP2004.xls, který obsahuje data vztahující se k volbám do Evropského parlamentu 2004.
26
Na základě procentuálních hodnot byly vybrány ty politické strany, které překonaly hranici 5 % hlasů, jak je ve volebních zákonech č. 247/1995 Sb., č. 130/2000 Sb., č. 62/2003 Sb. Mezi strany s vyšší než pětiprocentní většinou hlasů byl jako další přiřazen také součet všech hlasů ostatních politických stran (malých stran), které této hranice nedosáhly. Pomocí těchto atributů lze popsat celé volby a všechny platné hlasy. Dále k analýze voleb do EP a do PS neuronovou sítí byly zařazeny strany, které zákonných 5 % nepřekonaly. Volební výsledky KZ byly rozděleny pro každý kraj zvlášť. Důvodem je proměnlivost volebních stran pro každý kraj. Do analýzy zde byly zahrnuty pouze strany s nad 5% většinou hlasů a výše zmíněný součet politických stran se zastoupením nižším než pětiprocentním. Praha do voleb KZ není zahrnuta. Výběr výše zmíněných atributů, spolu s kódem obce a okresu byl proveden v programu MS Excel, kde probíhaly veškeré úpravy volebních výsledků. Nezbytnou a poslední úpravou bylo vhodně upravit počet obcí. To znamená přiblížit se stejnému počtu obcí v každém volebním období s návazností na budoucí vizualizaci dat z analýz neuronovou sítí. Pro zobrazení byl vybrán shapefile z roku 2008, který obsahuje 6249 obcí. Výběr shapefilu byl vybrán na základě zvoleného období mezi lety 2000–2009. Pozitivem bylo, že od roku 2008 změn správních hranic obcí neproběhlo výrazné množství. Velkým problémem byly městské části velkých měst, jako jsou Praha, Ostrava, Brno, Plzeň. Výsledky v městských částech velkých měst byly sečteny dle správních hranic celků z roku 2008. Sečtení hodnot se dotýká přibližně 60 pražských městských částí, 11 plzeňských, 29 brněnských a 23 ostravských městských částí. Při porovnávání seznamů obcí z roku 2002, 2004 a 2008 se objevily obce, které v posledním období, tj. rok 2008, již jako samostatný obvod neexistovaly. Z tohoto důvody byly přiřazeny i v dřívějších obdobích k tomu obvodu, ke kterému v roce 2008 náležely. Úprava se nevztahuje na obce, které neexistovaly před rokem 2008, jelikož nelze určit počet hlasů v takovéto obci. Pro krajské volby byly vyřešeny pouze úpravy městských částí, protože pokud obec byla součástí jiného kraje než v roce 2008, její výsledky jsou spojeny s krajem, ke kterému patří a ne ke kraji, ve kterém se nachází v roce 2008. Konečný počet tabulek o výše zmíněných parametrech byl celkem 47: 4 za období 2004 a 2009 pro volby do EP, 4 za období 2002 a 2006 do PS a 39 pro volby do KZ za období 2000, 2004 a 2008. Přehled řešených stran pro EP a PS v Příloze č. 1 a Příloze č. 2.
27
Pro vyhodnocení volebních preferencí malých, ostatních politických stran byly vytvořeny DBF tabulky identifikující stranu podle čísla, aby se předešlo zbytečnému přepisování těchto stran. Na každou obec a její výsledky rozdělené dle výše popsaných kritérií, bylo nahlíženo jako na ucelený volební výsledek, tvořící vícerozměrný vektor, viz výše teorie o Kohonenových mapách 3.3.1. Kohenovy mapy (SOM). Na vektor s volebními výsledky je možno nahlížet jako na ucelený politický názor dané obce. Například město Olomouc za volby do EP 2004 jsou jednotlivé počty hlasů tvořící vektor následující – 3001, 2399, 6834, 3384, 4253, 1830, 2838 (pořadí hodnot je stejné, jako pořadní stran ve výčtu v Příloze č. 1 pro volby do EP 2004).
4.2 Normalizace dat Absolutní počty hlasů jednotlivých obcí je nutné dát na společný základ, tedy zbavit tato data závislosti na počtu hlasů, jinak řečeno na velikosti obce, která ovlivňuje počet odevzdaných hlasů. Normalizace dat nebo objektů je dle Šarmanové (2002) odstranění závislosti na velikosti objektu. Existuje i velmi podobná úloha a to je standardizace atributů, která odstraňuje závislost na jednotkách měření. V případě volebních dat je vhodnější přiklonit se k termínu normalizace. K normalizaci slouží několik typů transformací. Mezi nejpoužívanější patří lineární transformace (min – max normalizace), z‐score normalizace (normalizace na základě odchylky od průměrných hodnot), dekadická normalizace (posun desetinné čárky hodnot tak, aby po úpravě spadaly do daného intervalu), nelineární transformace logistickou funkcí (soft – max normalizace) nebo také lze hodnoty transformovat klasickým způsobem výpočtu poměrů z maximální hodnoty (max=1, zbytek je poměrem této hodnoty). Pro výběr transformace je nutné zvážit, jaká data jsou používána, k čemu slouží a co popisují. Volební výsledky jsou velmi specifické. Mohou vznikat případy, kdy v jedné obci je více stran se stejným počtem hlasů, ale také strany, které nezískaly ani jeden hlas. Dále je několik možností jak rámec dat normalizovat. První možností je vektor jedné obce normalizovat zvlášť a samostatně. Druhou možností je normalizovat data v rámci politické strany pro všechny obce. Tyto dvě možnosti normalizace mohou být označeny za normalizaci po řádcích v případě prvním, a po sloupcích v případě druhém.
28
Pro volební výsledky (data) byla v této práci zvolena normalizace v rámci každé obce (řádku) zvlášť tedy první typ normalizace viz výše. Jelikož taková data mají výpovědní hodnotu o volebních preferencích každé obce zvlášť, ale zároveň existuje možnost tato data porovnávat i mezi sebou, protože volené politické strany jsou v každé obci stejné. Pro samotnou normalizaci jednotlivých obcí, byly vybrány dvě transformace, za účelem vyhodnocení, která z těchto transformací má lepších výsledky a kterou je tudíž vhodné použít pro normalizaci dat typu volebních výsledků. Po normalizaci následoval převod normalizovaných dat do textových souborů oddělených tabulátory. Před samotným převodem byly normalizace otestovány neuronovou sítí SOM, touto problematikou se zabývá kapitola 5.2 Test nastavení SOM. Všechna normalizovaná data byla zaokrouhlena na 9 desetinných míst. Pomocí dvou metod normalizace se zvýšil počet datových sad.
4.2.1
Lineární transformace
Obecný tvar této transformace zobrazuje rovnice 8, kde a je koeficientem zmenšení (zvětšení), x je transformovaná hodnota a b je velikost posuvu nové hodnoty (Meško, 2008). ´
xi axi b
(8)
Při úpravě rovnice do intervalu 0,1 vznikne rovnice 9, kdy max=1 a min=0. Z tohoto důvodu se tento typ normalizace někdy označuje jako min – max normalizace. ´
xi
xi min x1 ...xi (9) max x1 ...xi min x1 ...xi
V rovnici 9 funkce min() a max () vracejí nejmenší a největší hodnotu prvku množiny, v této práci je touto množinou výsledek voleb jednotlivých obcí. Tato jednoduchá rovnice byla implementována do prostředí MS Excel, tak aby byl možný plošný převod všech dat touto transformací. Nevýhodou metody je, že minimální hodnota množiny má přiřazenou hodnotu 0, stejně tak jako hodnotu 0 dostává množina, ve které jedna ze stran nedostala ani jeden hlas. V porovnání mezi sebou si nejsou obce zcela rovny.
29
Důvodem pro volbu tohoto typu metody je její vysoká frekventovanost při zpracovávání dat, které vstupují do analýzy neuronovou sítí. V celé práci je označována tato normalizace zkratkou NN12.
Obrázek 8: Příklad převedených dat lineární transformací, vpravo reálné výsledky voleb
4.2.2
Transformace vycházející z poměru hodnot
Další zvolenou transformací byla taková, která vychází pouze z poměrů hodnot. Hodnoty této transformace patří do intervalu 0,1 . Tedy max=1 a zbylá čísla jsou dopočtena na základě podílu s touto hodnotou. Rovnice 10 popisuje tuto metodu. ´
xi
xi max x1 ...xn
(10)
Rovnice je podobná lineární transformaci, nicméně hlavní rozdíl je min≠0. Tato metoda popisuje lépe volební výsledky, jelikož hodnotu 0 mají pouze ty strany, které skutečně získaly nulový počet hlasů. Opět byl proveden převod v programu MS Excel za pomoci implementace jednoduché rovnice přímo do programu. Následný převod dat do textového souboru odděleného tabulátory. Testování výsledků této metody bylo provedeno, jako v předchozím případě u NN. Pro práci s daty této transformace bylo zvoleno označení AN13. Testováním metody se zabývá kapitola 5.2 Test nastavení SOM.
12
Zkratka NN je zjednodušené označení pro práci s daty a v tabulkách, tedy pro lineární transformaci. Tato zkratka byla odvozena od slov nula a normalizace, jelikož podstatou rovnice je převedení min=0 a v této normalizaci vždy 0 figuruje. 13
Zkratka AN je zjednodušené označení pro práci s daty a v tabulkách, tedy pro transformaci vycházející z poměru hodnot. Tato zkratka byla odvozena od slov absolutní a normalizace, jelikož slovo absolutní odkazuje k absolutním hodnotám ve volebních výsledcích.
30
Obrázek 9: Příklad převedených dat transformací vycházející z poměrů hodnot, vpravo reálné výsledky voleb
4.3 Příprava dat pro SOM_AV Pro realizaci neuronové sítě SOM byl použit program SOM_AV, který jako vstup hodnot používá textový soubor, který obsahuje data formátovaná specifickým způsobem. Každý řádek značí jeden samostatný vstupní vektor. SOM_AV čísluje jednotlivé řádky (vektory) od nuly. Zde vznikl problém, jelikož tato automatizovaná funkce programu SOM_AV číslující vektory neumožňuje vyplnit pole s identifikací vektoru, tudíž není možné zaznamenat jedinečný kód obce. Tento problém byl vyřešen, seřazením obcí dle okresu, k nim byla přiřazena normalizovaná data, která byla samostatně exportována v naprosto přesném pořadí jako v tabulkách MS Excel, aby bylo možné zpětně výsledky neuronové sítě spojit s kódem obce a danou obec takto identifikovat. Pokud by nebyl zachován popsaný postup, výsledky by nebylo možné spojit s reálnými volebními výsledky a nebylo by možné je interpretovat ani vizualizovat. Program SOM_AV vyžaduje naformátovat data tak, aby pozice v každém vektoru byla zaznamenána a očíslována. Formát začíná nulou, následuje dvojtečka, normalizovaná hodnota, mezera, za kterou následuje další stopa – jedna, dvojtečka, normalizovaná hodnota mezera. Celý postup se opakuje, než se pokryjí všechny rozměry jednoho vektoru viz Obrázek 10.
Obrázek 10: Příklad šesti formátovaných vektorů pro SOM_AV
31
Aby normalizovaná data mohla být takto naformátována v textovém souboru, byl vytvořen speciální soubor v programu MS Excel s názvem Form.xlsx14. Soubor obsahuje několik nativních funkci MS Excel, které popisuje následující kapitola 4.3.1 Převodový soubor Form.xlsx. Funguje na principu zkopírování normalizovaných hodnot z vytvořeného textového souboru odděleného tabulátory do Form.xlsx, který vrátí formátované hodnoty, jež se následně zkopírují do nového textového souboru a uloží. Nový textový soubor má všechny náležitosti a je připraven pro program SOM_AV.
4.3.1
Převodový soubor Form.xlsx
Soubor obsahuje šest listů (Popis, Vstup, List4, List5, Výsledek). List Popis slouží jako instruktáž k postupu při tvorbě přesně formátovaných dat potřebných pro SOM_AV. List4 obsahuje číslo označující pořadí instance ve vektoru, v tolika polích, aby byla pokryta všechna vstupní data. List5 je obdobný jako List4, ale obsahuje pouze dvojtečky, též v potřebném rozsahu. List Vstup, slouží ke zkopírování vstupních hodnot. Zde se kopírují data z textových souborů, kde jsou normalizovaná data oddělená tabulátory. Zde je potřebné nakopírovat data do pole ´A1´ a ´K1´. V tomto listu je na pozici ´AO´ vložena první funkce s podmínkou: KDYŽ(DÉLKA(CONCATENATE(List4!A1;List5!A1;K1))= 13;CONCATENATE(List4!A1;List5!A1;K1);"")
´KDYŽ´ je označení podmiňující funkce za kterou musí následovat rovnítko značící čemu se tato funkce rovná. ´DÉLKA´ je funkcí označující délku a ´CONCATENATE´ slouží ke spojení několika textových řetězců. Za funkcemi následuje výčet listů a polí. Dohromady funkce popisuje podmínku pří níž délka spojených polí z List4, List5 a pole ´K´ musí být rovna 13, potom jsou spojeny data z polí jednotlivých listů a na konci přičtena mezera.
14
XLSX je formát souboru pro tabulkový procesor Microsoft Excel, jedná se o formát specifikace Office Open XML
32
Vznikají již formátovaná data v jednotlivých polích, avšak převedení do textového souboru v tomto bodě stále není možné. Z tohoto důvodu byl vytvořen list Výsledek. V tomto listu jsou všechna data pospojována do jednoho pole v programu MS Excel, z kterého je možné již nakopírovat plnohodnotná formátovaná data pro SOM_AV do textového souboru typu TXT. List Výsledek automaticky generuje od pole ´A1´ formátovaná data po vložení dat do listu Vstup. V tomto poli je funkce: PROČISTIT(CONCATENATE(vstup!AO1;" ";vstup!AP1;" ";vstup!AQ1;"";vstup!AR1;" ";vstup!AS1;" ";vstup!AT1;" ";….
Funkce ´PROČISTIT´ zabezpečuje, aby data byla bez mezer. ´CONCATENATE´ funguje obdobně jako na listu Vstup. V této části však spojuje pole z listu Vstup, mezi každým vstupem je vložena ještě mezera. Data z toho listu jsou zkopírována pomocí označení sloupce do nového textového souboru. Celý soubor je přizpůsoben na maximálně osmi‐rozměrný vektor. V této práci se pracuje i s delšími vektory a to u analýzy výsledků voleb stran, které nedosáhly pětiprocentní zákonné hranice. Z toho důvodu byl vytvořen ještě soubor Form_d.xlsx, který je schopen pracovat až s dvaceti‐rozměrným vektorem. Případné úpravy na delší formát jsou možné kdykoliv.
Obrázek 11: Soubor Form.xlsx, prví list popis
33
Obrázek 12: Formátovaná data v novém textovém souboru
34
5 ANALÝZA VOLEBNÍCH VÝSLEDKŮ Dle cílů práce měl být použit typ shlukovací neuronové sítě. Na základě kapitoly 3 Současný stav řešené problematiky byla vybrána neuronová síť SOM též Kohonenova mapa. Byla vybrána na základě nastudované literatury a zkušeností odborníků, kteří s tou sítí pracovali. V úvahu bylo bráno i velmi rozšířené používání této sítě v praxi. Dalším faktor ovlivňující výběr byla dostupnost programu, který má v sobě implementován algoritmus na výpočet a tvorbu sítě SOM.
5.1 Software pro analýzu Programem na tvorbu neuronové sítě je SOM_AV, který vznikl na Fakultě elektrotechniky a informatiky a vysoké školy Báňské v Ostravě. Program má v sobě implementován algoritmus SOM, jeho nastavení se provádí v konfiguračním textovém souboru. Vstup hodnot je řešen též textovým souborem, formátování dat v takovémto souboru popisuje kapitola 4.3 Příprava dat pro SOM_AV. Program napsaný v programovém jazyce C++ je určen pro 64 bitovou platformu operačního systému Windows. Program se spouští z příkazového řádku Windows. Prvně se spustí program SOM_AV, dále se vyplní název konfiguračního souboru, za kterým následuje název souboru se vstupními daty. Příklad na obrázku 13. Obrázek 13: Spuštění SOM_AV v příkazovém řádku
35
Pro lepší práci s velkým množstvím neuronových sítí byl příkazový řádek nahrazen opensource programem Console2. Program usnadňuje práci s textem v příkazovém řádku díky možnosti kopírování cest, tedy zrychlit práci. Výstupem SOM_AV je celkem 7 souborů: 3 textové, 3 binární (VRBIN, 2xBBIN) a 1 soubor zaznamenávající počáteční konfiguraci (CONF). Název je určen pomocí konfiguračního souboru (config.txt). První textový soubor ukazuje rozprostření neuronů a počet obcí shluklých u tohoto neuronu. Druhý textový soubor jednotlivým obcím přiřazuje pozici dle souřadnic x a y. Binární soubory jsou nositeli informací o vítězných neuronech, vzdálenostech a všech výpočtech SOM_AV pro danou síť. Konfiguračním souborem (config.txt) může být pojmenován i jinak, ale důležité je aby obsahoval tyto informace: rozměr sítě SOM, počet iterací (opakování), počet sloupců (počet rozměrů vektoru), název vstupního souboru a hodnotu konstanty. Obrázek 14: Ukázka vyplnění souboru config.txt
K vizualizaci neuronové sítě SOM byl použit program Java SOMToolbox opensource implementovaný v Java. Program je určen pro neuronovou síť SOM a k dolování a vizualizaci dat mnoha různými metodami. Java SOMToolbox je vyvíjen Ústavem softwarových technologií a interaktivních systémů na Technické Univerzitě ve Vídni a licencován na základě licence Apache, verze 2.0. Program pracuje se svými vlastními souborovými formáty, proto je nutné vstupní data upravit, aby mohla být zobrazena. K této činnosti byl použit další program, který vznikl
na
vysoké
škole
Báňské
36
v Ostravě
SOMConvert.
SOMConvert se spouští v příkazovém řádku Windows, zadání je obdobné jako u SOM_AV pouze se zde už nevyplňuje konfigurační soubor. Vzniknou 3 základní soubory, s kterými je schopen SOMToolbox pracovat. Soubory jsou UNIT, WGT, DWM popisující výsledky sítě SOM. Soubor WGT15 popisuje váhy vektorů a skládá se ze 2 bloků. První je o obecné struktuře souboru a druhý blok se týká samotných vah vektorů. DWM16 obsahuje informaci o vítězných neuronech při učení sítě SOM. UNIT17 popisuje samotná data, informace o umístění jednotlivých vektorů (obcí) v síti, informaci o kvantizační chybě a pozici neuronu v síti. Obrázek 15: Soubor DWM, ukázka výsledku z voleb do Evropského parlamentu v roce 2004
15 16 17
Z anglického Weight Vector File. Z anglického Data Winner Mapping. Z anglického Unit Description File.
37
Obrázek 16: Soubor WGT, ukázka výsledku z voleb do Evropského parlamentu v roce 2004
Obrázek 17: Soubor UNIT, ukázka výsledku z voleb do Evropského parlamentu v roce 2004
38
Pro spuštění souborů v prostředí SOMToolbox je třeba mít aktualizované běhové prostředí Java (Java Runtime Enviroment) ve vyšší verzi než 5.0. Data a celý program se spouští opět z příkazového řádku pomocí startovacího souboru typu BAT18. Startovací soubor byl vytvořen pro všechny zkoumané volby a jejich období. Soubor má následující tvar: somtoolbox.bat SOMViewer -u ./cesta_k/soubor.unit -w ./ cesta_k /souboru.wgt -dw ./ cesta_k /souboru.dwm
Soubor musí být umístěn v adresáři s nainstalovaným programem SOMToolbox. Program nabízí několik způsobů vizualizace SOM, některé vyžadují doplňující soubory v přesném formátu a struktuře, jak je tomu v návodu pro SOMToolbox na webových stránkách nebo adresáři přímo v nainstalovaném programu. Vizualizovat jde topografická a kvantizační chyba, mezi základní metody zobrazení samotné SOM patří například P‐Matrix, U‐Matrix, D‐Matrix, Gap‐Matrix a mnoho dalších, které ovšem nejsou pro zkoumaný typ dat a problém použitelné.
5.2 Test nastavení SOM Hledání optimálního nastavení neuronové sítě SOM je složité a optimálních řešení může být mnoho. Z toho důvodu bylo nutné vycházet z charakteru dat, z počtu sledovaných vektorů a jejich rozměrů. Nelze stejnou sítí sledovat volební výsledky z voleb do EP a KZ. Důvodem je proměnlivý počet vektorů, navíc u KZ, kde se zkoumají kraje zvlášť, je navíc i proměnlivý počet obcí v každém kraji. Pro volby do EP a PS vstupuje do analýzy vždy 6249 obcí, stejně velký soubor byl testován i pro několik rozměrů sítí a několik počtů opakování. Výše byla zmíněna i role rozměru vektoru, zde byl vybrán vektor o rozměru 6. Určen byl na základě průměrné délky vektoru všech voleb, kterých se testování týká. Kromě samotného nastavení SOM byly též otestovány 2 metody normalizace, které byly popsány v kapitole 4 Předzpracování volebních výsledků, a to AN a NN.
18
Spustitelný dávkový soubor, který bývá složen se série příkazů, které po spuštění souboru zpracovává
příkazový interpret.
39
Testovací data byla testována na 3 různé rozměry neuronové sítě SOM. První rozměr byl 10x10 (100 neuronů), druhý 15x15 (225 neuronů) a poslední 20x20 (400 neuronů). Pro každou síť byl testován kromě dvou metod a rozměrů sítě i počet opakování v následujících počtech: 10, 100, 200, 500, 1000. Výsledkem testování je dohromady 30 sítí výsledků, které byly vizualizovaný na základě kvantizační chyby. Dle Čepka (2011) kvantizační chyba vyjadřuje průměrnou vzdálenost mezi daty a jim odpovídajícími reprezentanty, což znamená průměrnou chybu mezi instancemi a nejbližšími neurony. Program SOM_AV je také schopen počítat kvantizační chybu, která je zjišťována v rámci jednoho neuronu. SOM_AV vypisuje celkovou chybu neuronu a průměrnou chybu neuronu. Celková chyba neuronu je součet kvantizační chyby všech shluklých dat v rámci neuronu, průměrná chyba neuronu je podílem tohoto součtu v jednom neuronu. Pro volby KZ byl vybrán počet testovaných vektorů 481, který je roven průměrnému počtu obcí v jednom kraji. Pro testování byl zvolen rozměr vektoru o pěti polích. Velikost sítě byla v tomto případě určena pevně na rozměr 5x5, tj. 25 neuronů. Pokud se bere zřetel, že největší kraj má 1123 obcí a nejmenší 131, je nutné rozměr sítě zvolit tak, aby u nejmenšího kraje nevznikala hluchá místa bez shluklých dat. Průměr v takovém kraji je zaokrouhleně 5 obcí (vektorů) na jeden neuron, což není mnoho, ale u menší sítě by byl problém
s početnějšími
kraji,
kde
by
shlukování
nebylo
příliš
přesné.
Nepřesnost při analýze volebních výsledků krajských voleb se z těchto důvodů dá předpokládat. Obrázek 18, 19, 20 reprezentuje tabulku s výsledky testování kvantizační chyby, pro všechny výše zmíněné rozměry sítě s počtem opakování 10, 100, 200, 500, 1000 a pro obě metody normalizace NN a AN. Jedná se o síť SOM testovanou pro volby do PS a EP. Tabulka obsahuje jak součet průměrné chyby, tak celkové chyby za celou sít. Následuje celková chyba na 1 obec (vektor) a průměrná chyba za 1 neuron. Pro lepší představu a vyvození závěrů o průběhu průměrné a celkové chyby byly vytvořeny grafy průběhů chyb.
40
10x10 Celková kvantizační chyba Opakování
NN
AN
Průměrná kvantizační chyba NN
AN
Kvantizační chyba na jednu obec NN
AN
Průměrná chyba jednoho neuronu NN
AN
10 1064,9523 1044,5405
17,7035
17,3699
0,1704
0,1672 0,1770 0,1737
100 1047,0471 1030,3265
17,4585
17,0163
0,1676
0,1649 0,1746 0,1702
200 1037,4847 1037,4847
17,3151
17,3151
0,1660
0,1660 0,1732 0,1732
500 1042,8030 1032,8030
17,3434
17,3434
0,1669
0,1653 0,1734 0,1734
1000 1044,5300 1044,5300
17,4124
17,4124
0,1672
0,1672 0,1741 0,1741
Obrázek 18: Tabulka s výsledky testování kvantizační chyby pro síť 10x10 (100 neuronů) 15x15 Celková kvantizační chyba Opakování
NN
AN
Průměrná kvantizační chyba NN
AN
Kvantizační chyba na jednu obec NN
AN
Průměrná chyba jednoho neuronu NN
AN
10
851,4937
851,4937
32,0216
32,0216
0,1363
0,1363 0,1423 0,1423
100
827,7736
827,7736
31,2400
31,2400
0,1325
0,1325 0,1388 0,1388
200
827,8723
827,8723
31,2465
31,2465
0,1325
0,1325 0,1389 0,1389
500
814,7502
827,1638
31,1141
31,0391
0,1304
0,1324 0,1383 0,1380
1000
819,2436
825,8528
31,0733
31,1068
0,1311
0,1322 0,1381 0,1383
Obrázek 19: Tabulka s výsledky testování kvantizační chyby pro síť 15x15 (225 neuronů)
20x20 Celková kvantizační chyba Opakování
NN
AN
Průměrná kvantizační chyba NN
AN
Kvantizační chyba na jednu obec NN
AN
Průměrná chyba jednoho neuronu NN
AN
10
733,4605
745,2544
48,9475
50,5194
0,1174
0,1193 0,1224 0,1263
100
709,8526
726,9753
47,8629
48,1884
0,1136
0,1163 0,1197 0,1205
200
702,8135
721,1408
47,4956
48,2667
0,1125
0,1154 0,1187 0,1207
500
705,2598
721,5257
47,5840
48,4045
0,1129
0,1155 0,1190 0,1210
1000
701,2713
721,8220
47,9554
48,1673
0,1122
0,1155 0,1199 0,1204
Obrázek 20: Tabulka s výsledky testování kvantizační chyby pro síť 20x20 (400 neuronů)
41
Rozměr sítě 10 x 10 17,80
Průměrná kvantizační chyba
17,60 17,40 17,20
NN AN
17,00 16,80 16,60 10
100
200
500
1000
Obrázek 21: Graf součtů průměrné kvantizační chyby pro rozměr sítě 10x10.
Rozměr sítě 10x10
Celková kvantizační chyba
1070,00 1060,00 1050,00 NN
1040,00
AN 1030,00 1020,00 1010,00 10
100
200
500
1000
Obrázek 22: Graf součtů průměrné kvantizační chyby pro rozměr sítě 10x10.
Z Obrázku 21 a 22 je patrné, že síť 10x10 vykazuje velmi nestabilní průběh průměrné chyby, který se pro jednotlivá opakování mění. Normalizační metoda NN vykazuje ideální průběh pro hranici 200 opakování, pak ovšem chyba opět narůstá. Předpokladem je, že průběh chyby by měl být postupně klesající, směřující k oscilaci, kde již velká změna chyby nenastává. Průměrná kvantizační chyba, vykazuje též postupný pokles chyby, který narůstá opět po 200 opakováních. Dalším kriteriem rozhodování byla úvaha, jak velký počet obcí připadá na jeden neuron, v tomto případě zaokrouhleně 62,5 obcí. Pomocí chyby a těchto poznatků lze usoudit, že síť je příliš malá a nehodící se pro analýzu volebních výsledků.
42
Obrázek 23: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda AN
Obrázek 24: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda NN
Rozměr sítě 15x15
Průměrná kvantizační chyba
32,20 32,00 31,80 31,60 31,40
NN
31,20
AN
31,00 30,80 30,60 30,40
10
100
200
500
1000
Obrázek 25: Graf součtů průměrné kvantizační chyby pro rozměr sítě 15x15.
43
Rozměr sítě 15x15
Celková kvantizační chyba
860,00 850,00 840,00 830,00 NN 820,00
AN
810,00 800,00 790,00
10
100
200
500
1000
Obrázek 26: Graf součtů celkové kvantizační chyby pro rozměr sítě 20x20.
Testování sítě o rozměru 15x15 (225 neuronů) dosahuje lepších výsledků než síť 10x10, jak je patrné na grafech Obrázků 25 a 26. Tvar křivek kvantizační chyby průměrné a celkové klesá pro daný počet opakování, u hodnoty 500 opakování začíná chyba oscilovat, dle srovnání dvou křivek pro normalizaci AN a NN. Průměrný počet obcí na jeden neuron je v tomto případě zaokrouhleně 26 obcí.
Obrázek 27: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda AN
Obrázek 28: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda NN
44
Rozměr sítě 20x20
Průměrná kvantizační chyba
51,00 50,50 50,00 49,50 49,00 48,50 48,00 47,50 47,00 46,50 46,00 45,50
NN AN
10
100
200
500
1000
Obrázek 29: Graf součtů průměrné kvantizační chyby pro rozměr sítě 20x20.
Rozměr sítě 20x20
Celková kvantizační chyba
750,00 740,00 730,00 720,00 710,00
NN
700,00
AN
690,00 680,00 670,00
10
100
200
500
1000
Obrázek 30: Graf součtů celkové kvantizační chyby pro rozměr sítě 20x20.
Rozměr sítě 20x20 dosahuje velmi dobrých výsledků a stejně jako u předchozího rozměru chyba se s počtem opakování snižuje a v závěru osciluje. NN normalizace vykazuje nižší chybu, ale u průměrné kvantizační chyby na Obrázku 29 se metodě AN pro 1000 opakování přibližuje. Průměrný počet obcí na jeden neuron je zaokrouhleně 17, což je nízké číslo a je možné, že při shlukování by vznikaly neurony s jedním nebo žádným vektorem (obcí).
45
Obrázek 31: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda AN
Obrázek 32: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda NN
Pro výběr sítě a počtu opakování je nutné zhodnotit všechny zmíněné faktory a porovnat také metody na základě průměrné kvantizační chyby jednoho neuronu. Dle Obrázku 33 a 34 je patrné, že největší skok mezi chybou je u sítí 10x10 a 15x15. Mezi sítí 15x15 a 20x20 tento rozdíl není tak markantní. S ohledem podílu celkového počtu obcí a počtu neuronů je vhodnější síť 15x15, proto tato síť byla vybrána. Počet opakování byl nastaven na 500 opakování dle zhodnocení grafů na Obrázku 25 a 26 a předpokladu, že chyba míří k oscilaci. Dle grafů a tabulek nelze určit, která metoda normalizace je vhodnější pro zkoumání a analýzu voleb do EP a PS. NN
AN 0,2000
0,2000
0,1800
0,1800
0,1600 0,1400 0,1200
10x10
0,1000
0,0800
15x15 20x20
0,0600
0,0400
Průměrná chyba jednoho neuronu
Q Error AVG Průměrná chyba jednoho neuron
0,1600 0,1400 0,1200
10x10
0,1000
15x15
0,0800
20x20
0,0600 0,0400 0,0200
0,0200
0,0000
0,0000 10
100
200
500
10
1000
100
200
500
1000
Obrázek 33: Průměrná chyba jednoho neuronu pro jednotlivé metody a počty opakování
46
Pro krajské volby byla testována pouze síť o rozměru 5x5, testován byl stejný počet opakování jako u předešlého testování, stejné metody a kvantizační chyba. Tabulky na Obrázku 34 a 35 číselně vyjadřují kvantizační chybu zaokrouhlenou na 2 desetinná místa.
Opakování
Celková kvantizační chyba
5x5 NN Průměrná kvantizační chyba
Kvantizační chyba na jednu obec
Průměrná chyba jednoho neuronu
10
192,69
9,79
0,40
0,39
100
182,06
9,71
0,38
0,39
200
193,35
10,33
0,40
0,41
500
195,35
10,06
0,41
0,40
188,23 9,90 0,39 0,40 Obrázek 34: Tabulka s výsledky testování kvantizační chyby pro síť 5x5 (25 neuronů), metoda NN 1000
Opakování
Celková kvantizační chyba
5x5 AN Průměrná kvantizační chyba
Kvantizační chyba na jednu obec
Průměrná chyba jednoho neuronu
10
135,38
7,10
0,28
0,28
100
129,93
6,95
0,27
0,28
200
129,99
7,02
0,27
0,28
500
128,04
6,88
0,27
0,28
1000
122,03
6,82
0,25
0,27
Obrázek 35: Tabulka s výsledky testování kvantizační chyby pro síť 5x5 (25 neuronů), metoda AN
5x5 NN
Průměrná kvantizační chyba
10,40 10,30 10,20 10,10 10,00 9,90 9,80 9,70 9,60 9,50 9,40 9,30
NN
10
100
200
500
1000
Obrázek 36: Graf součtů průměrné kvantizační chyby pro rozměr sítě 5x5, metodu NN
47
5x5 NN
200,00
Celková kvantizační chyba
195,00 190,00 NN
185,00 180,00 175,00
10
100
200
500
1000
Obrázek 37: Graf součtů celkové kvantizační chyby pro rozměr sítě 5x5, metodu NN
5x5 AN
7,15
Průměrná kvantizační chyba
7,10 7,05 7,00 6,95 6,90
AN
6,85 6,80 6,75 6,70 6,65
10
100
200
500
1000
Obrázek 38: Graf součtů průměrné kvantizační chyby pro rozměr sítě 5x5, metodu AN
5x5 AN
Celková kvantizační chyba
140,00
135,00 130,00 AN
125,00 120,00 115,00 10
100
200
500
1000
Obrázek 39: Graf součtů celkové kvantizační chyby pro rozměr sítě 5x5, metodu AN
48
Dle grafů na Obrázku 36, 38, 38, 39 popisující kvantizační chybu metod normalizace AN a NN je patrné, že normalizace NN má nestálé, kolísající výsledky. Křivka nemá ideální průběh ani v jednom případě jako je tomu u metody AN. Po srovnání průměrné chyby jednoho neuronu na Obrázku 40, je patrné, že metoda AN dosáhla v testování mnohem lepších výsledků, proto byla k analýzám KZ pouze normalizační metoda AN, nejnižší chyby tato metoda dosáhla pro 1000 opakování, které bylo zvoleno jako výchozí pro analýzu.
5x5
Průměrná chyba jednoho neuronu
0,45 0,40 0,35 0,30 0,25
AN
0,20
NN
0,15 0,10 0,05 0,00
10
100
200
500
1000
Obrázek 40: Srovnání průměrné chyby jednoho neuronu pro metody normalizace AN a NN
Obrázek 41: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda AN Obrázek 42: Vykreslená průměrná kvantizační chyba na testovacích datech, metoda NN
49
5.3 Analýza neuronovou síti SOM Pro shrnutí, k analýze v programu SOM_AV byly použity předzpracované výsledky voleb do EP 2004 a 2009 ve 2 normalizacích a 2 rozděleních dat (8 souborů). Stejný počet sad pro volby do PS 2002 a 2006 (8 souborů). Volby do KZ, které jsou děleny pro každý kraj zvlášť, normalizovány pouze 1 metodou (39 souborů). Pro volby do EP a PS byla zvolena síť o rozměrech 15x15 (225 neuronů) s 500 opakováními. Pro volby do KZ byla zvolena síť 5x5 (25 neuronů) pro 1000 opakování. Při analýze programem SOM_AV byla data hned převedena pro program SOMToolbox pomocí SOMConverter. Čas každého testování spuštěného v konzoly Console2 by zaznamenán na obrázku a přidán do složky s výsledky analýzy algoritmem SOM, spolu se startovacím souborem formátu BAT, aby bylo možné si zpětně výsledky jednoduše spustit v SOMToolbox. Spolu se soubory byl přidán obrázek výsledné sítě SOM (vizualizován dle D‐matrix), vše v Příloze č. 3 (DVD). Všechny soubory, které používá SOMToolbox (UNIT, DWM, DGT) byly do programu připojeny a bylo rozhodnuto, která vizualizační metoda je vhodná pro další zpracování výsledků voleb tak, aby dávala smysl a odhalila zajímavosti a souvislosti ve volebních výsledcích analyzovaných sítí SOM. V úvahu přicházely 2 vizualizační metody: D‐matrix19 a U‐matrix20. První vizualizační metoda U‐matrix počítá Euklidovskou vzdálenost mezi sousedními neurony (Ultsch, 1990). Matice D‐matrix je příbuzná U‐matrix, na rozdíl od U‐matrix není jejím fokusem definování vzdálenosti mezi sousedními uzly, ale tyto distance jsou průměrovány (Harrison, 2008). Síť je při dodržení rozměru relativně stejná, jen je její průběh zaokrouhlen na přesné okolí neuronu, jak je patrné z Obrázku 43. Metoda D‐matrix Sítě SOM lze v programu SOMToolbox nejen vizualizovat podle různých přednastavených palet, ale též interpolovat. Interpolace sítě je ve zkoumaném problému nepotřebná, jelikož zájmem jsou samotné shluky a to co znamenají. Pro vizualizaci byla vybrána metoda D‐matrix. Pro budoucí vizualizaci bylo nutné zvolit úměrný počet kategorií pro D‐matrix a vybrat vhodné barvy.
19
Distance Matrix.
20
Unified Distance Matrix.
50
Obrázek 43: Ukázky SOM, vlevo U‐matrix, vpravo D‐matrix
Celá síť SOM D‐matrix byla rozdělena do 6 stejných kategorií, každé byla přiřazena konkrétní barva. Pro tento účel bylo nutné napsat XML21. Samotné rozdělení kategorií v programu SOMToolbox je obtížné, jelikož stupnice se zde neskládají ze skutečných hodnot ale z poměrů, kdy se hodnotě 0 a 1 přiřazuje pevně pouze jediný barevný odstín, stejně jako při psaní XML souboru. SOMToolbox pracuje s označením gradientpoint (jak je tomu i v XML) pro každou barevnou kategorii. Pro šest stejných kategorií tedy platí, že gradientpointy jsou 0; 0,2; 0,4; 0,6; 0,8; 1. Skutečná hodnota je však jiná, jak lze vidět na Obrázku 44. Nejvzdálenější hodnota je označena 100 % a nejbližší 0 %, jak z Obrázku 43 vyplývá, první barevný odstín není vzdálenost 0, ale interval 0–17 % největší vzdálenosti celé sítě. V tomto ohledu je značení kategorií v programu SOMToolbox zavádějící. Program předpokládá, že síť bude zbarvena větším počtem barev, směřujících k hraničním gradientním barvám.
21
Extensible Markup Language.
51
Obrázek 44: Stupnice v programu SOMToolbox
Další nevýhodou programu SOMToolbox je export dat, který není umožněn, pouze převedení SOM do obrázku formátu PNG22, a proto všechny vytvořené neuronové sítě SOM byly nejprve vyexportovány do obrázku a následně byly kategorie jednotlivých neuronů ručně přepsány. Program ve svém prostředí zobrazuje počty vektorů a konkrétní čísla vektorů pro každý neuron. Přepis výsledků byl proveden ze souboru formátu UNIT, který vytvořil SOMConverter. Celý soubor byl zkopírován do prostředí programu MS Excel. Následovalo přepisování jednotlivých kategorií SOM D‐matrix z vytvořených obrázků formátu PNG do programu MS Excel. Kromě kategorií bylo doplněno číslo neuronu, číslované vždy z levé strany a po řádcích. Kategoriím bylo přiřazeno číslo dle gradientpoint. Bylo tak rozhodnuto na základě zrychlení přepisování dat a jednoduší orientaci pro budoucí uživatele dat, kterého bude směrodatnější spíše kategorie než samotná hodnota poměrů vzdáleností. Tabulka kategorií a skutečných poměrových hodnot je vyobrazena na Obrázku 45. Po přepsání výsledků, byly údaje vyfiltrovány a seřazeny tak, aby zůstalo pouze číslo vektoru, jeho kategorie a číslo neuronu.
22
Portable Network Graphics.
52
Přepisovací kategorie
Skutečný interval vzdálenosti
0
0–0,17
0,2
0,17–0,33
0,4
0,34–0,50
0,6
0,51–0,67
0,8
0,68–0,84
1
0,85–1
Obrázek 45: Tabulka přepisovaných kategorií a k nim patřícího skutečného intervalu
Funkcí matice D‐matrix je popis vzdálenosti mezi neurony. Pokud je předpokladem, že první kategorie obsahuje data, která mají nejmenší vzdálenost od svého okolí, pak je tento shluk je všech nejpřesnější. Čím jsou další kategorie vzdálenější od sebe, tím více se liší a liší se i shluklá data, jak je patrné z výsledků neuronové sítě pro přepsání do tabulek a z vektorů obcí. V rámci volebních výsledků lze interpretovat shluk jako stejné volební smýšlení a na základě vzdálenostních kategorií lze odhalit, jak je toho tvrzení přesné. Vytvořené palety XML jsou součástí Přílohy č. 3 (DVD), stejně jako všechny PNG obrázky sítí a vytvořených dat míněnými programy SOM_AV a SOMConvert.
Obrázek 46: Schéma postupu přepisování hodnot ze SOM (D‐matrix) do MS Excel
53
6 INTERPRETACE SOM A VIZUALIZACE V MAPÁCH Základní předpoklady pro interpretaci výsledků neuronových sítí SOM, které vznikly v této práci, byly zmíněny v předchozí kapitole. Pro samotnou interpretaci výsledků voleb je nutné neuronovou síť spojit s geografickou polohou tak, aby mohly být odhaleny souvislosti mezi výsledky neuronové sítě SOM a samotnými volebními preferencemi.
6.1 DBF tabulky a přehledové tabulky k interpretaci dat Po přepsání výsledků neuronových sítí do tabulek, byly tyto tabulky dále upravovány tak, aby obsahovaly informace: kód obce a kód okresu, reálné absolutní čísla z výsledků voleb a výsledky voleb normalizované. Výsledky neuronové sítě SOM byly propojeny na základě předem zapamatované pozice vstupních obcí. Tabulky byly následně z nativního formátu programu Excel převedeny do DBF, za účelem propojení s geografickou polohou obcí v programu ArcGIS 10.0. Následně byly vytvořeny mapy z přepsaných výsledků neuronových sítí. Tabulky DBF slouží jako rychlý náhled pro seřazení výsledků dle jednotlivých kategorií shluků, a také umožňují vyfiltrování jednotlivých neuronů podle čísla. Tabulky také ilustrují, které obce spadají do jednotlivých neuronů a jak zde proběhlo shlukování. DBF tabulky je možno připojit ke geografické poloze obcí, například k formátu shapefile, v mnoha GIS software, kde lze s daty dále pracovat. Pro analýzu volebních výsledků byly vytvořeny přehledové tabulky, které průměrují jednotlivé volební výsledky politických stran všech šesti kategorií neuronové sítě SOM metody D‐matrix. Pro doplnění jsou v těchto tabulkách počty obcí jednotlivých kategorií a procentuální poměry těchto obcí na celkovém počtu.
Obrázek 47: Ukázka přehledové tabulky dle jednotlivých kategorií shlukování
54
Přehledové tabulky popisují souvislosti nebo naopak rozdíly ve volebních výsledcích dle jednotlivých kategorií shlukování. A slouží k přímé interpretaci zákonitostí a předpokladů jednotlivých voleb. DBF tabulky a přehledové tabulky ve formátu obrázku JPEG23 jsou součástí Přílohy č. 3 (DVD).
6.2 Vizualizace v mapě Připojení DBF tabulek k shapefile obcí České republiky bylo na základě kódu obce. Samotná mapa byla vykreslena metodou kartogramu dle jednotlivých kategorií shluků a je zobrazením výsledků neuronové sítě SOM metody D‐matrix. Tyto informace uživateli neumožňují získat veškeré informace z mapy. Z těchto důvodů je mapa doplněna o slovní popis, obrázek neuronové sítě, přehledovou tabulku, a také povinnými mapovými prvky jako je legenda mapy, měřítko mapy a tiráž. Přehledová tabulka je hlavním interpretačním prvkem celé analýzy spolu s kategoriemi shlukování. K samotné interpretaci výsledků slouží jak přehledová tabulka, tak geografická poloha jednotlivých obcí. Celkově vznikly 2 mapy výsledků voleb do EP a 2 mapy výsledků do PS. Jednalo se pouze o vizualizaci výsledků stran, které získaly nad 5% většinu hlasů, a také stran ostatních (součet). Neuronové sítě stran, které nezískaly 5% zákonnou hranici, jsou pouze v obrázcích PNG a přepsaných DBF tabulkách. Přehledové tabulky nebyly vytvořeny, jelikož by nebyly praktické a ani přínosné pro podrobnou interpretaci z důvodu vysokého počtu politických stran. Vizualizace do map proběhla pouze u neuronových sítí SOM, které byly normalizovány pomocí metody AN, jelikož porovnání shluků a jejich dat prokázalo, že normalizace AN dosahuje lepších výsledků než NN. Přihlédnuto bylo i k faktu, že pro volby do KZ byla normalizace NN zcela nevhodná k aplikaci sítě SOM. Výsledky KZ byly vizualizovány pro každý kraj odděleně a obsahují stejné mapové prvky jako mapy pro EP a PS. Vzniklo 39 map pro 3 zkoumaná volební období. Vizualizovány byly všechny kraje bez ohledu, jak byla analýza neuronovou sítí přesná a vypovídající o skutečnostech.
23
Joint Photographic Experts Group
55
6.3 Interpretace výsledků ze SOM Tato kapitola se zabývá rozborem jednotlivých voleb užitím neuronových sítí za pomoci přehledových tabulek a vizualizované neuronové sítě v mapě. Z voleb do EP a KZ je parné, že ideální shlukování lze popsat následovně: více než 70 % obcí spadá do prvních tří kategorií metody D‐matrix a v přehledové tabulce jsou evidentní rozdíly mezi první a poslední kategorií D‐matrix. Na základě kategorií D‐matrix byla legenda mapy interpretována jako přesnost shlukovací analýzy, což vyplývá ze vzdáleností mezi neurony. Vzdálenější neurony jsou více odlišné a obsahují data rozdílnější od svého okolí. D‐matrix tedy odhaluje chování voličů v jednotlivých obcích přiřazených k neuronu, kdy na základě kategorií odhalíme rozdílnost v chování voličů. O obcích v jednotlivých neuronech lze tvrdit, že tyto obce mají velmi podobný politický názor, což vyplývá ze samotných dat v DBF tabulkách. Přesnost tohoto tvrzení určují právě kategorie metody D‐matrix.
6.3.1
Interpretace výsledků voleb do Evropského parlamentu
Výsledky voleb do EP v roce 2004 analyzované neuronovou sítí vykazují, že 80 % obcí patří do prvních tří kategorií D‐matrix. Tyto kategorie můžeme označit za ideální chování voličů. Tyto ideální výsledky jsou patrny z Obrázku 48. Poslední tři kategorie obsahují výkyvy ve volebních výsledcích, tedy obce, které se chovaly velmi odlišně. Dle tabulky na Obrázku 46 lze vidět, že v obcích těchto kategorií převažují preference malých stran (například Nezávislí), které v celkovém počtu neměly vliv na volební výsledky. Také se v těchto obcích voliči často uchylují k volbě strany, jež nepřesáhla 5% zákonnou hranici, čímž následně klesají volební preference největších politických stran. Z mapy na Obrázku 49 je patrné, že v posledních trojici kategorií jsou převážně malé obce s malým počtem obyvatel. Velká města se chovají konzistentně a patří častěji do prvních třech kategorií.
56
Obrázek 48: Přehledová tabulka výsledků voleb do EP v roce 2004
Obrázek 49: Mapa výsledků voleb do Evropského parlamentu v roce 2004 dle D‐matrix
Výsledky voleb do EP v roce 2009 jsou v některých aspektech rozdílné. První diferencí je menší počet stran, které analyzovala neuronová síť SOM. Dle Obrázku 50, první tři kategorie obsahují 91 % obcí, což je příliš velké číslo. S ohledem na kategorii mezní (0,34–0,50), která obsahuje 35 % obcí, lze nicméně i o této kategorii tvrdit že je výrazně nepřesná. Výsledky politických stran jsou ve všech kategoriích velmi podobné, tedy shlukovaní neproběhlo zcela ideálně. Přesto je patrné, že poslední kategorie, viz Obrázek 51, jsou odlišné a patří zde opět malé obce, často pohraniční. Kolem hlavního města Prahy je velké množství obcí, které mají politické názory velmi podobné a je pro ně charakteristické velké procento voličů ODS24 a stran ostatních. Pro malé obce v poslední kategorii je charakteristické vysoké procento hlasů pro KSČM25 a KDU‐ČSL26. Většina těchto obcí se nachází na jižní Moravě.
24
Občanská demokratická Strana
25
Komunistická strana Čech a Moravy
26
Křesťanská a demokratická unie‐Československá strana lidová
57
Obrázek 50: Přehledová tabulka výsledků voleb do EP v roce 2009 dle D‐matrix
Obrázek 51: Mapa výsledků voleb do Evropského parlamentu v roce 2004 dle D‐matrix
Obě volební období do EP mají několik společných rysů. Do posledních třech kategorií shlukování zobrazené pomocí D‐matrix patří velmi malé obce, především obce jižní Moravy, dále také Vysočiny a pohraniční oblasti. Velká města představují kategorie, kde je chování voličů vzorové, tedy velmi podobné pro velké procento obcí České republiky.
6.3.2
Interpretace výsledků voleb do Poslanecké sněmovny
Volby do PS v roce 2002 dle členění metody D‐matrix ukázaly, že první tři kategorie obsahují 92 % obcí, zbylých 8 % patří do kategorií s výkyvy. Stejně jako ve volbách do EP vysoké procento hlasů získaly strany ostatní a Čtyřkoalice27, jak je patrné z tabulky na Obrázku 52.
27
Koalice stran: KDU‐ČSL, Unie svobody, Demokratická unie a Občanská demokratická aliance
58
První kategorie shluků s podílem hlasů 34 % pro ČSSD28; 23,7 % ODS; 18,1 % KSČM; 12,8 % Čtyřkoalice se velmi podobá skutečnému procentuálnímu výsledku do PS v roce 2002, viz Obrázek 53. Výsledky druhé kategorie jsou obdobné, z čehož vyplývá, že tyto kategorie věrně popisují většinové chování voličů s ohledem na celkové výsledky voleb, a tudíž neuronová síť zachycuje volební smýšlení obyvatelstva tak, jak je popsáno na začátku této kapitoly.
Obrázek 52: Přehledová tabulka výsledků voleb do PS v roce 2002 dle D‐matrix
Obrázek 53: Výsledky voleb do PS 2002 (zdroj: Český statistický úřad)
Z mapy na Obrázku 54 je parné, že do posledních třech kategorií patří opět obce menší, často z pohraničí, přesto výsledek není tak markantní jako u voleb do EP v roce 2004. Velmi zajímavé jsou oblasti Prahy a pomezí Libereckého a Královéhradeckého kraje. Praha patří do třetí kategorie z důvodu vysokého procenta voličů ODS, které v této kategorií mají velmi podobný procentuální počet hlasů jako vítězná ČSSD. Stejně je tomu u Libereckého kraje. Právě v těchto krajích jako jediných zvítězila v roce 2002 ODS. I tuto skutečnost zachytila neuronová síť s kombinací interpretace přehledové tabulky.
28
Česká strana sociálně demokraticka
59
Obrázek 54: Mapa výsledků voleb do Poslanecké sněmovny v roce 2002 dle D‐matrix
Volební výsledky do PS v roce 2006 jsou odlišné od roku 2002 optikou vítězných stran a počtu stran, které získaly více jak 5 % hlasů. Mezi první tři kategorie bylo shluknuto 81 % obcí. V těchto kategoriích mají největší procentuální zastoupení dvě nejsilnější strany ODS a ČSSD, jejichž preference od třetí kategorie klesají, tudíž poslední tři kategorie vykazují obce s velmi odlišným politickým názorem. Zde byly shluknuty obce, které hlasovaly hlavně pro KDU‐ČSL a KSČM. V poslední, nejodlišnější kategorii převažovaly hlavně hlasy pro KDU‐ČSL. Z Obrázku 56 je patrné, že poslední tři kategorie se týkají jižní Moravy a kraje Vysočina spolu s pohraničními oblastmi. Hlavní město Praha patří opět do kategorie s největším podílem ODS.
Obrázek 55: Přehledová tabulka výsledků voleb do PS v roce 2006 dle D‐matrix
60
Obrázek 56: Mapa výsledků voleb do Poslanecké sněmovny v roce 2006 dle D‐matrix
6.3.3
Interpretace výsledků voleb do krajských zastupitelstev
Volby do KZ pro jednotlivé kraje byly ve většině případů velmi nepřesné. Důvodem je velké množství stran tvořící vstupní vektor pro analýzu neuronové sítě a proměnlivý počet obcí jednotlivých krajů. Interpretace obecných rysů a charakteristik není možná jako u EP a PS. Samotné tvrzení o ideálním shluku je závislé na první kategorií D‐matrix, která je dle EP a KZ velmi podobná ve všech normalizovaných vektorech. U KZ tato situace však nenastala. Ideálními shluky vždy nejsou zcela totožné normalizované volební výsledky. Rozvrstvení mezi jednotlivými kategoriemi je výrazně odlišné až chaotické a přehledová tabulky často vykazují, že průměrné výsledky jednotlivých kategorií jsou stejné. Na základě těchto rysů byly kraje analyzovány za všechny tři volební období (2000, 2004, 2008). Nejlépe se analýza osvědčila při zkoumání voleb do KZ Libereckého kraje. Velmi dobrých výsledků dále dosáhly kraje: Královéhradecký, Moravskoslezský, Ústecký a Středočeský. Naopak výsledků nejhorších dosáhly kraje: Jihočeský a Jihomoravský. Výsledky zbylých 6 krajů nelze považovat za optimální. Na základě předchozí interpretace a nespolehlivých výsledků nejsou volby do KZ podrobně rozebrány.
61
Obrázek 57: Mapa výsledků voleb Jihomoravského kraje v roce 2008 dle D‐matrix, příklad nepřesného chaotického shlukování
Obrázek 58: Mapa výsledků voleb Středočeského kraje v roce 2004 dle D‐matrix, příklad přesného shlukování. Obrázek 59: Přehledová tabulka výsledků voleb do zastupitelstva Středočeského kraje v roce 2006 dle D‐matrix
62
7 VÝSLEDKY Tato kapitola se zaměřuje na konkrétní popisování dosažených výsledků analýzy volebních preferencí pomocí neuronových sítí typu SOM. Tyto výsledky byly vizualizovány použitím metody D‐matrix.
7.1 Zkoumané metody normalizace a interpretace Normalizace dat může mít vliv na zkoumání výsledků voleb neuronovou sítí SOM. Testování nastavení odhalilo, že normalizaci označovanou zkratkou NN není vhodné použít pro zkoumání voleb do KZ, jelikož malý rozměr sítě SOM není dostatečně variabilní pro realizování normalizace NN, jak vyplývá z kapitoly 5.2 Test nastavení SOM. Pro výsledky voleb do EP a PS se chování normalizace NN neprojevilo v testování, ale při zkoumání výsledků neuronové sítě, kdy tato normalizace zkreslovala shluky dle první kategorie D‐matrix a tato nepřesnost se projevila i v dalších kategoriích. Normalizace AN se osvědčila lépe, tudíž je základem pro převedení sítě SOM D‐matrix do map. Vizualizační metoda D‐matrix popisuje vzdálenosti mezi neurony, tedy odlišnost mezi shluky. Čím dál od sebe shluky jsou, tím jsou rozdílnější. Na tomto teoreticky‐logickém základu byla vytvořena interpretace neuronové sítě v mapě. Podrobněji se touto tématikou zabývá kapitola 6. Interpretace SOM a vizualizace v mapách. Stejná kapitola nastiňuje také interpretaci jednotlivých výsledků neuronových sítí.
7.2 Výstupy Výsledkem práce jsou mapy, tabulky a obrázky neuronových sítí. Obrázky neuronových sítí byly exportovány z programu SOMToolbox, pro všechny zkoumané volby a jejich volební období. Obrázky ve formátu PNG jsou ztvárněním neuronové sítě typu SOM vizualizační metody D‐matrix v barvách odpovídajícím jednotlivým kategoriím se zachováním souvislosti pro vytvořené mapy. Síť obsahuje číselné vyjádření počtu obcí shluklých v jednom neuronu. Pro barevnou vizualizaci jednotlivých kategorií D‐matrix a kvantizační chyby v programu SOMToolbox, vznikly XML soubory: Map.xml a Error.xml.
63
Pro konkrétní určení pozice obce (vektoru) v síti a k označení kategorie, kam daná obec spadá, slouží DBF tabulky, které obsahují reálné volební výsledky a normalizovaná data jednotlivých obcí. Formát DBF tabulky je možno připojit k jakémukoliv GIS software a porovnat obce v jednotlivých kategoriích, popřípadě vyhledat podrobné souvislosti ve výsledcích analyzovanými sítí SOM. Analyzované strany, které nezískaly zákonných 5 % hlasů, jsou pouze v podobě DBF tabulek, jelikož jejich výsledky lze jen velmi těžko zkoumat a vyvodit z nich validní a relevantní závěry. Celkové množství DBF tabulek je 51, z čehož 4 jsou pro volby do EP obsahujíc přepis neuronové sítě jak normalizace AN, tak NN. Dále 4 DBF tabulky pro volby do PS obsahující stejně jako u EP normalizaci AN i NN. Poté 39 DBF tabulek z voleb do KZ (3x13), 4 tabulky voleb do EP a PS normalizované dle AN, které nezískaly 5% zákonnou hranici hlasů. Mimo DBF tabulky vnikly 2 soubory formátu MS Excel Form.xlsx a Form_d.xlsx sloužící k naformátování dat do podoby, se kterou pracuje program SOM_AV. Pro identifikaci politických stran a jejich celých názvů má každé volební období vytvořenou DBF tabulku se seznamem stran. Aby bylo možné interpretovat neuronovou síť, vznikla ke každé mapě přehledová tabulka s průměrnými výsledky voleb v jednotlivých kategoriích SOM D‐matrix. Na základě této tabulky byly v této práci zachyceny základní charakteristiky volebních výsledků analyzovaných neuronovou sítí SOM. Přehledové tabulky jsou součástí map a také Přílohy č. 3 (DVD) ve formátu JPEG. Posledním výstupem práce jsou 4 mapy zobrazující volební výsledky analyzované sítí SOM pro celou Českou republiku. Zobrazují volby do EP 2004 a 2009, PS 2002 a 2006. 39 map voleb do KZ skládajících se z období 2000, 2004 a 2008 pro jednotlivé kraje. Mapy obsahují informační texty pro uživatele a již zmíněné přehledové tabulky a obrázky neuronových sítí z programu SOMToolbox.
64
8 DISKUZE Analýza volebních výsledků neuronovou sítí je proveditelná, ale interpretace výsledku může být zavádějící a zkreslená v závislosti na přesnosti shlukování. U analýzy volebních výsledků lze pouze vycházet z volebních hlasů, které tvoří n‐rozměrné vektory obcí. Tedy za předpokladu shlukovaní neuronové sítě se tvoří shluky obcí kolem určeného počtu neuronů. Prvním problémem je velikost sítě a počet opakování učícího mechanismu sítě, aby byla zajištěna dostatečná variabilita. Z tohoto důvodu bylo třeba síť otestovat. Ideálním řešením je nastavit síť a její velikost s počtem opakování unikátně pro každý kraj a jednotlivé volby. Literatura neuvádí, jak pracovat s nastavením sítě, ale pouze nutnost přihlížet k charakteru práce. Proto byl zvolen způsob, který se nejvíce podobá charakteru volebních výsledků dat. Největším problémem byly krajské volby, kde každý zkoumaný kraj má jiný počet obcí a jiný počet zkoumaných politických stran. Z tohoto důvodu nelze ani obecným testem definovat zcela správné nastavení. Výsledky jsou převedeny do map, ale před jejich podrobným zkoumáním je nutné nahlédnout do DBF tabulek, a zjistit přesnost shluků v první kategorii, kde by měla být normalizovaná data vektorů (obcí). V rámci takovéto kategorie jsou normalizovaná data velmi podobná tj. s rozdílem jedné až dvou desetin mezi jednotlivými vektory. Z toho vyplývá, že analýza KZ je závislá na nastavení sítě SOM, z čehož vyplývá nutnost zvolit individuálně nastavenou síť pro každý kraj a pro každé volební období. Toto by ovšem vyžadovalo až 39 různých sítí, což z hlediska rozsahu práce není možné. Výsledky voleb do EP a PS jsou velmi přesné. Z přehledových tabulek lze zachytit charakteristiky voličů i souvislosti mezi volebními výsledky. Práce se zabývá obecnou charakteristikou těchto voleb ve všech obdobích a tato charakteristika má sloužit jako ukázka interpretace takovýchto výsledků. Podrobné charakteristiky i s náhledem do DBF tabulek přinášejí více informací a jsou určeny zájemcům o volební výsledky a politologům. Ideálním zkoumáním není zkoumání celku tj. celé neuronové sítě, ale jednotlivých neuronů a obcí v něm shluklých.
65
Neuronová síť má několik metod vizualizací. Pro tuto práci byla vybrána metoda D‐matrix, protože může zachytit rozdíly mezi jednotlivými shluky na základě vzdálenosti shluklých dat. Na tomto předpokladu mohla být odvozena myšlenka o politickém názoru jednotlivých neuronů a podobnostmi těchto názorů na základě vzdálenosti. Pro analýzu sítě jako celku bylo nutné jednotlivé kategorie dle D‐matrix popsat, k tomu slouží přehledová tabulka obsahující součty volebních výsledků za každou kategorii. Existují ovšem i jiné vizualizační metody jak výsledky voleb popsat, jelikož variabilita neuronových síť či samotných sítí SOM je široká. Normalizací je několik typů, v této práci jsou ale použita pouze nejpoužívanější lineární transformace (zkratka NN) a pak vlastní normalizace, kdy max=1 a zbylé hodnoty jsou poměr maxima (zkratka AN). Volební výsledky není vhodné normalizovat na záporné hodnoty nebo prokládat matematickými křivkami. Při zkoumání voleb do EP a do PS se v testování osvědčily oba typy normalizace. Další podrobné zkoumání shluklých dat kolem neuronu nicméně prokázalo, že normalizace AN je přesnější. Použití shlukovací neuronové sítě SOM na volební výsledky je možné, stejně jako převedení do mapy a zobrazení analýzy. Interpretování sítě je závislé na metodě vizualizace, na datech, které vstupují do analýzy a na nastavení sítě SOM. Tuto magisterskou diplomovou práci lze i více rozšířit. Jedním ze způsobů je například podrobné zkoumání krajských voleb nebo samotných neuronových shluků. Lze též zkoumat jiné typy neuronových sítí a jiné vizualizační metody pro volební výsledky. Efektivnější je ovšem použít neuronovou síť SOM pro zkoumání jiných než politických dat, kde mohou být využity charakteristické vlastnosti SOM jako je predikce a hledání optmalit, tedy v případech, kdy je třeba si jednotlivá data normalizovat podle důležitosti, což u volebních výsledků nefunguje, protože je to typ dat, který vykazuje určitý fakt, počet, a proto nemůže být zkreslen.
66
9 ZÁVĚR Cílem práce bylo analyzovat výsledky voleb do Evropského parlamentu, Poslanecké sněmovny a do krajských zastupitelstev v období mezi roky 2000 až 2009. Vybrána byla shlukovací neuronová síť SOM, ke které bylo provedeno testování nastavení pro určení rozměru a počtu opakování sítě SOM. Pro volby do Evropského parlamentu a Poslanecké sněmovny byla použita sítě o rozměru 15x15 neuronů a s 500 opakováními, pro volby do krajských zastupitelstev byla zvolena síť o rozměru 5x5 neuronů s 1000 opakování. Data před samotným vstupem byla předzpracována. Byla normalizována dvěmi metodami: lineární transformace a transformace vycházející z maximální hodnoty a jejích poměrů. Za vhodnější byla označena druhá metoda, která dosahovala lepších výsledků. Neuronové sítě vytvořené z dat této normalizace byly vizualizovány v mapách. Pro interpretaci neuronové sítě SOM byla zvolena vizualizační metoda D‐matrix, na jejímž základě byla vytvořena logická interpretace neuronové sítě. Výsledky sítí SOM D‐matrix, byly přepsány do DBF tabulek spolu s nezbytnými údaji pro identifikaci jednotlivých obcí, volebními výsledky, normalizovanými daty a v neposlední řadě i s kategorií vzdálenosti, číslem obce v neuronové síti a číslem neuronu. Sítě byly exportovány do obrázků formátu PNG a jsou součástí Přílohy č. 3 (DVD) spolu se soubory UNIT, WGT, DWM, BAT pro každou síť volebních výsledků, aby bylo možné zpětně zobrazit sítě a případně s nimi pracovat v programu SOMToolbox. Posledním výstupem neuronové sítě SOM jsou mapy doplněné o přehledové tabulky a texty, které slouží k interpretaci mapy. Vznikly 4 mapy České republiky a 39 map výsledků krajských voleb, které však nejsou tak přesné jako je tomu u map celé České republiky voleb do Evropského parlamentu a Poslanecké sněmovny. Výsledky neuronových sítí a map byly stručně popsány (interpretovány) a slouží jako indicie pro podrobné hledání zájemcům o volební výsledky, zejména politologům. K magisterské práci byly vytvořeny webové stránky umístěné na serveru katedry geoinformatiky. Textová část, spolu s mapami, DBF tabulkami, obrázky neuronových sítí a přehledovými tabulkami, je v digitální podobě na DVD.
67
POUŽITÁ LITERATURA A INFORMAČNÍ ZDROJE AGARWAL, P. a SKUPIN, A. Self‐organising maps: applications in geographic information science. Hoboken, NJ: Wiley, 2008. ISBN 04‐700‐2167‐5. HEBÁK, P. a kol. Vícerozměrné statistické metody (3). Praha: Informatorium, 2005. ISBN: 80‐7333‐039‐3. KODĚROVÁ, L. Biologicky inspirované algoritmy. Olomouc, 2010. Magisterská práce. UP Olomouc. KOHONEN, T. Self‐Organizing Maps. Berlin: Springer‐Verlag, 2001. ISBN 3‐540‐58600‐8. MAŘÍK V., ŠTĚPÁNKOVÁ O., LAŽANSKÝ J. a kol. Umělá inteligence III. Praha: Academia. 2001. ISBN 80‐200‐0472‐6. MEŠKO, D. Normalizace dat pro neuronovou síť GAME. Praha, 2008. Bakalářská práce. ČVUT Praha. MINSKY, M. Computation: Finite and Infinite Machines by Marvin Minsky. USA: Hardcover, 1967. ISBN 10‐0131655639. NOVÁK, M., FABER J., KUFUDAKI O. Neuronové sítě a informační systémy živých organismů. Praha: Grada, 1993. ISBN 8085424959. ŘEZANKOVÁ, H., HÚSEK, D. a SNÁŠEL, V. Shluková analýza dat: applications in geographic information science. 2., rozš. vyd. Praha: Professional Publishing, 2009. ISBN 978‐80‐86946‐81‐8. ŠARMANOVÁ, J. Metody dolování znalostí z dat. In Datakon 2002. Ed. Chlápek, D. 2002. s. 165‐184. ISBN 80‐210‐2958‐7.
ULTSCH, A., Siemon H. P. Kohonen's Self Organizing Feature Maps for Exploratory Data Analysis. Berlin: Springer‐Verlag, 1993. ISBN 978‐3‐540‐56736‐3. VOLNÁ, E. Neuronové sítě 1. Ostrava: Ostravská univerzita, 2002. ISBN neuvedeno. VONDRÁK, I. Umělá inteligence a Neuronové sítě. Ostrava: Editační středisko VŠB, 1995. ISBN 80‐7078‐259‐5. VOŽENÍLEK, V. Diplomové práce z geoinformatiky. Olomouc: Vydavatelství UP, 2002. ISBN 80‐244‐0469‐9. ZELINKA, I., HÚSEK, D. a SNÁŠEL, V. Umělá inteligence I: Neuronové sítě a genetické algoritmy. 1. vyd. Brno: VUT v Brně, 1998. ISBN 80‐214‐1163‐5. CARLSON, E. Kohonen Map, GIS and the Analysis of Real Estate Sales. [online]. 2002 [cit. 2013‐01‐15]. Dostupné z: http://www.fig.net/pub/fig_2002/Js26/JS26_carlson.pdf ČEPEK, M. Vytěžování dat, SOM. In: [online]. [cit. 2013‐03‐14]. Dostupné z: http://cw.felk.cvut.cz/lib/exe/fetch.php/courses/a7b36vyd/prednasky/05_‐_som.pdf Data Mining with the Java SOMToolbox [online]. 2011 [cit. 2013‐02‐12]. Dostupné z: http://www.ifs.tuwien.ac.at/dm/somtoolbox/ HARRISON, D. Self Organising Maps. In: Faculty of Engineering Leeds [online]. 2008
[cit.
2013‐03‐26].
Dostupné
http://www.comp.leeds.ac.uk/pab2dgh/ai33_SOM_lab/index.html
z:
KAUKO.
SELF‐ORGANIZING
MAP
ALGORITHMS
TO
IDENTIFY
SUSTAINABLE
NEIGHBOURHOODS WITH AN EXAMPLE OF SZEGED (HUNGARY). In: GIS Ostrava 2013 ‐ Geoinformatics for City Transformation [online]. 2013 [cit. 2013‐01‐15]. Dostupné z: http://gis.vsb.cz/GIS_Ostrava/GIS_Ova_2013/proceedings/papers/gis201350720f768f0d a.pdf VOJÁČEK, A. Samoučící se neuronová síť ‐ SOM, Kohonenovy mapy. In: Department of Computer Science and Engineering (FAV UWB) [online]. 2006 [cit. 2013‐02‐20]. Dostupné z: http://www.kiv.zcu.cz/studies/predmety/uir/NS/Samouc_NN2.pdf
SUMMARY Main aim of this work was analyzing of the municipality election results and election results of the local self‐government bodies. First phase of the work was pre‐processing election results for input. The next phase was using of clustering neural network SOM for subsequent processing. And the last and final phase was the interpretation and visualization of the results. Firstly, data were modified to have the same quantity (6249 villages). The elections which were analyzed were those to European Parliament (2004, 2009), to the lower House of Parliament (2002, 2006) and local elections (2000, 2004, 2008). These elections are analyzed separately for each region (13). There were two methods of data normalization used in this master’s thesis. The first one is linear transformation 0,1 . The second one, which achieved better results for the purpose of this thesis, is transformation when max 1 and another is quotient of max
0,1 . For analysis was used program SOM_AV made in VŠB FEI. For visualization of SOM was used program Java SOMToolbox. The most important aim of the work was the interpretation of the results. Last step was to visualize neural network into the maps. There were created DBF tables for searching and displaying of the results. There were also created maps which are supplemented with summary tables. Summary tables include the information about results in categories of SOM D‐matrix. The analysis of SOM is one of the possibilities for studying election results. For the local elections are the results inaccurate, that is why the interpretation is rather difficult. The results of this master’s thesis can be useful for political scientists, sociologists and those interested in election results.
PŘÍLOHY
SEZNAM PŘÍLOH Vázané přílohy: Příloha č. 1: Přehled řešených stran pro volby do Evropského parlamentu
Příloha č. 2: Přehled řešených stran pro volby do Poslanecké sněmovny
Volné přílohy:
Příloha č. 3: DVD
Popis struktury DVD Adresáře:
Text_prace
Vstupni_data
Vystupni_data
WEB
Příloha č. 1: Přehled řešených stran pro volby do Evropského parlamentu
Příloha č. 2: Přehled řešených stran pro volby do Poslanecké sněmovny