Synchronizace a replikace geodat v prostředí Esri platformy

Synchronizace a replikace geodat v prostˇ red´ı Esri platformy Markéta Solanská Katedra geoinformatiky, Pˇr´ırodovˇedeck´ a fakulta, Univerzita Palackého v Olomouci, ˇ 17. listopadu 50, 779 00 Olomouc, Cesk´ a republika, [email protected]

Abstrakt Tato pr´ ace hodnot´ı moˇznosti dostupn´ ych replikaˇcn´ıch ˇreˇsen´ı a na z´ akladˇe toho navrhuje datab´ azové ˇreˇsen´ı s ohledem na moˇznosti a poˇzadavky katedry. V reˇserˇs´ı ˇc´ asti byly vymezeny pojmy synchronizace, replikace a souvisej´ıc´ı pojem verzov´ an´ı a pops´ ana replikace vˇcetnˇe variant synchronn´ı, asynchronn´ı, jednosmˇerné, obousmˇerné, kask´ adové, logické i fyzické. Byly rozebr´ any poˇzadavky na datab´ azové ukl´ ad´ an´ı dat jednotliv´ ych produkt˚ u ArcGIS a byla podrobnˇe pops´ ana technologie ArcSDE, kter´ a se v ArcGIS produktech pouˇz´ıv´ a pro pˇripojen´ı k datab´ azi. Na z´ akladˇe reˇserˇse byl vybr´ an datab´ azov´ y systém PostgreSQL, kter´ y je moˇzno pouˇz´ıt v kombinaci s produkty ArcGIS, coˇz bylo jedn´ım z hlavn´ıch poˇzadavk˚ u pro v´ ybˇer datab´ azového systému. Byl sestaven n´ avrh datab´ azového ˇreˇsen´ı, kter´ y zohledˇ nuje vˇsechny poˇzadavky katedry a moˇznosti dan´ ych technologi´ı. Bylo vytvoˇreno testovac´ı prostˇred´ı na serveru poskytnutém katedrou, na nˇemˇz byly dané procesy otestov´ any. Na z´ akladˇe toho byl pak seps´ an podrobn´ y popis toho, jak nastavit replikaci ve variantˇe streaming a Slony-I. N´ avrh zahrnuje také moˇznost pouˇzit´ı n´ astroje pgpool pro rozloˇzen´ı z´ atˇeˇze mezi servery v datab´ azovém clusteru.

Klov slova: replikace, synchronizace, verzov´ an´ı, datab´ azov´ y systém, PostgreSQL, ArcSDE, ArcGIS

Abstract. The main goal of this thesis is to evaluate options of replication solutions which are available and based on this research design a database solution which considers possibilities and requirements of the Department of Geoinformatics. In the theoretical part terms replication, synchronization and versioning are defined including description of synchronous, asynchronous, master-slave, multimaster, cascade, logical and physical replication. The requirements of ArcGIS products for storage of data in database were considered and ArcSDE Technology which is used by ArcGIS products for database storage of spatial data was described. Based on the research database management system PostgreSQL was chosen because it is supported by ArcGIS products. The design of the database solution was created based on all requirements and the main processes were tested. Based on that a manual of the proposed replication solution setup was written. Two replication options were tested

- PostgreSQL native streaming replication and replication using PostgreSQL extension Slony-I. The design includes a description of usage of pgpool utility used for load-balancing. Keywords: replication, synchronization, versioning, database management system, PostgreSQL, ArcSDE, ArcGIS

1

´ Uvod

Dneˇsn´ı trend je ukl´ adat a ponechávat stále v´ıce dat pouze v digitáln´ı podobˇe. Mnoho dokument˚ u uˇz se v˚ ubec netiskne do pap´ırové podoby, coˇz podporuje i trend elektronick´ ych schr´ anek a podpis˚ u. S pˇrib´ yvaj´ıc´ım mnoˇzstv´ım dat je vˇsak tˇreba ˇreˇsit komplikace, které informace uloˇzené pouze v elektronické podobˇe pˇrin´ aˇsej´ı. Poˇc´ıtaˇcov´ı experti ˇreˇs´ı napˇr´ıklad otázky, kam ukládat tak velké mnoˇzstv´ı dat, jak data efektivnˇe aktualizovat, jak zabránit poˇskozen´ı dat at’ uˇz zp˚ usoben´ ych lidsk´ ym faktorem ˇci chybou hardware. V pˇr´ıpadˇe, ˇze se poˇskod´ı disk, m˚ uˇzeme ˇcasto bˇehem okamˇziku pˇrij´ıt o vˇsechna data, nˇekdy vˇsak pro ztrátu dat staˇc´ı pouze stisknout tlaˇc´ıtko na klávesnici. Vhodn´ ym zp˚ usobem uchováván´ı dat je ukládan´ı do databáze s následnou replikac´ı. Replikac´ı je myˇslena pokroˇcilá funkcionalita, která zajiˇst’uje kopii dat na v´ıce server˚ u. Nab´ız´ı ji vˇetˇsina dneˇsn´ıch databázov´ ych server˚ u, zajiˇst’uje vˇetˇs´ı robustnost datab´ aze a vysokou dostupnost dat. Replikaci lze vyuˇz´ıt ve vˇsech odvˇetv´ıch, kter´ a pracuj´ı s daty. V´ yjimkou nen´ı ani geoinformatika, která ˇcasto pracuje s velk´ ymi objemy dat, které nesou informaci o geografické poloze. Právˇe reprezentace geografické polohy, skrze textov´ y zápis souˇradnic dan´ ych bod˚ u, m˚ uˇze zp˚ usobit razantn´ı zv´ yˇsen´ı objemu dat. U webov´ ych map se mus´ı ˇreˇsit velk´ y poˇcet dotaz˚ u do databáze, protoˇze napˇr´ıklad kaˇzdé posunut´ı v´ yˇrezu ˇci pˇribl´ıˇzen´ı, resp. oddálen´ı v´ yˇrezu mapy, je samostatn´ ym dotazem, kter´ y mus´ı kapacita serveru zvládat. Napˇr´ıklad pokud bude uˇzivatel proch´ azet pl´ anovanou 100km trasu posouván´ım v´ yˇrezu mapy po 10 km, m˚ uˇze to serveru zp˚ usobit velkou zátˇeˇz. Replikaci ocen´ı uˇzivatelé pracuj´ıc´ı na spoleˇcném projektu, distribuovaná pracoviˇstˇe i spoleˇcnosti s velk´ ym mnoˇzstv´ım d˚ uleˇzit´ ych dat, jejichˇz dostupnost je rozhoduj´ıc´ı pro jejich fungován´ı.

2

Pouˇ zit´ e metody a programov´ e komponenty

Konfigurace replikace zahrnovala studium návod˚ u jednotliv´ ych nástroj˚ u pro replikaci, v´ ybˇer vhodn´ ych programov´ ych komponent a jejich následné praktické nastaven´ı. To bylo testov´ ano pr˚ ubˇeˇznˇe na nˇekolika poˇc´ıtaˇc´ıch. Jako datab´ azov´ y server byl zvolen PostgreSQL s plnou podporou pro správu prostorov´ ych dat, kter´ a je zajiˇstˇena nádstavbou PostGIS. Pro replikaci byla zvolena nativn´ı PostgreSQL streaming replikace a extern´ı nástroj Slony-I. Pro efektivn´ı vyuˇz´ıv´ an´ı datab´ aze byl dále vybrán extern´ı nástroj pgpool, kter´ y zajiˇst’uje sn´ıˇzen´ı z´ atˇeˇze jednotliv´ ych server˚ u rovnomˇern´ ym rozkládán´ım dotaz˚ u od klient˚ u mezi jednotlivé datab´ aze.

N´ astroj pro replikaci Slony-I byl testován na operaˇcn´ım systému Ubuntu GNU/Linux 12.4 a z´ aroveˇ n na operaˇcn´ım systému Windows XP. Nativn´ı PostgreSQL streaming replikace byla testována pouze na operaˇcn´ım systému Linux. Server geohydro.upol.cz byl poskytnut jako testovan´ı server pro tuto pr´ aci. Na server byl nainstalován 32bitov´ y operaˇcn´ı systém Debian GNU/Linux 7.3, kter´ y byl vybr´ an kv˚ uli jeho stabilitˇe a jevil se tedy pro server jako vhodn´ y. Tato verze ovˇsem umoˇznila instalaci pouze program˚ u verz´ı PostgreSQL 9.1, PostGIS 1.5 a pgpool 3.1. Vzhledem k tomu, ˇze se nejedná o nejnovˇejˇs´ı verze zm´ınˇen´ ych produkt˚ u, byla replikace testována také na osobn´ım poˇc´ıtaˇci ve verz´ıch PostgreSQL 9.3, PostGIS 2.1 a pgpool 3.3. To umoˇznilo nastudován´ı dalˇs´ıch moˇznost´ı, které nové verze pˇrináˇs´ı a které byly zohlednˇeny v návrhu replikaˇcn´ıho ˇreˇsen´ı. Pro testov´ an´ı byla pouˇz´ıvána ukázková prostorová data vytvoˇrená pro u ´ˇcel ˇ ve verzi 3.0. této pr´ ace a d´ ale byla na server uloˇzena datová sada ArcCR

3

Vymezen´ı pojm˚ u

Datab´ aze je strukturovan´ a kolekce dat, která slouˇz´ı pro efektivn´ı ukládán´ı dat a jejich zpˇetnˇe ˇcten´ı [1]. V relaˇcn´ı databázi jsou data ukládána ve formˇe tabulek, tedy entit a atribut˚ u, které jsou vzájemnˇe propojeny vazbami mezi entitami [2]. Toto logické uloˇzen´ı vazeb mezi tabulkami umoˇzn ˇuje efektivn´ı manipulaci s daty, rychlé vyhled´ av´ an´ı i komplexn´ı anal´ yzu [3]. Obvykle se rozliˇsuj´ı pojem databáze, kter´ y odkazuje na obecn´ y koncept, a pojem datab´ azov´ y systém nebo pˇresnˇeji systém ˇr´ızen´ı b´ aze dat 1 , coˇz je konkrétn´ım ˇ poˇc´ıtaˇcov´ ym program, kter´ y zajiˇst’uje fyzické uloˇzen´ı dat. Modern´ı SRBD jsou navrˇzeny na principu klient/server, kdy databáze bˇeˇz´ı jako sluˇzba na pozad´ı a ˇcek´ a na dotazy od klient˚ u. Server uˇzivatel˚ um umoˇzn ˇuje skrze jazyk SQL pˇr´ıstupovat k datab´ azi, vytváˇret a aktualizovat data, stejnˇe jak jako vyhledávat ˇci analyzovat [2]. Prostorov´ a datab´ aze, nˇekdy také zvaná geodatab´ aze, nen´ı nic jiného neˇz datab´ aze obohacen´ a o datov´ y typ urˇcen´ y pro ukládán´ı prostorové informace o prvku, prostorové indexy a sadu funkc´ı vhodn´ ych pro správu prostorov´ ych dat. Dnes umoˇzn ˇuj´ı ukl´ adat prostorová data napˇr´ıklad databázové systémy PostgreSQL 9.x, Microsoft SQL Server, Oracle Database, MySQL nebo SQLite. Pojmy replikace a synchronizace nˇekteré zdroje rozliˇsuj´ı, jiné je naopak povaˇzuj´ı za synonyma. Vˇsechny zm´ınˇené pojmy souvis´ı se zálohován´ım dat, tedy kop´ırovan´ım dat mezi dvˇemi a v´ıce uloˇziˇsti, a se liˇs´ı konkrétn´ım d˚ uvodem pro pouˇzit´ı daného procesu. O synchronizaci soubor˚ u ˇci datov´ ych sloˇzek je moˇzno mluvit v pˇr´ıpadˇe, ˇze existuj´ı dva datové zdroje, které je potˇreba v dan´ y okamˇzik sjednotit. Jde tedy o proces, kter´ y prob´ıh´ a jednorázovˇe a to vˇetˇsinou z d˚ uvod˚ u potˇreby porovnán´ı dvou a v´ıce datov´ ych uloˇziˇst’, které je potˇreba dostat do totoˇzného stavu. To m˚ uˇze napˇr´ıklad pˇrispˇet snazˇs´ı spolupráci v´ıce uˇzivatel˚ u nad stejn´ ymi daty nebo pomoct 1

angl. Database Management System (DBMS)

uˇzivateli, kter´ y pracuje na v´ıce poˇc´ıtaˇc´ıch. Proces m˚ uˇze probˇehnout jednou nebo opakovanˇe, at’ uˇz pravidelnˇe ˇci nepravidelnˇe. U soubor˚ u se shodn´ ym názvem se porovn´ av´ a ˇcas posledn´ıho z´ apisu, velikost nebo obsah souboru, naopak soubory, u kter´ ych nen´ı nalezena shoda, jsou jednoduˇse zkop´ırovány. Replikace je proces pr˚ ubˇeˇzn´ y, kter´ y soustavnˇe hl´ıdá, zda ve zdrojov´ ych datech nedoˇslo ke zmˇenˇe, a pokud ano, dané zmˇeny zkop´ıruje na jiné datové uloˇziˇstˇe. ˇ Casto je tento proces pouˇz´ıván právˇe ve spojitosti s databázemi, kdy jsou data kop´ırov´ ana z d˚ uvodu sn´ıˇzen´ı zátˇeˇze serveru, ˇci zv´ yˇsen´ı ochrany dat. Replikace je tedy ˇcasto vyˇzadov´ ana z jin´ ych d˚ uvod˚ u neˇz synchronizace, zaˇc´ıná s daty existuj´ıc´ımi pouze na jednom uloˇziˇsti a pro zajiˇstˇen´ı konzistence dat pouˇz´ıvá jin´ ych technologi´ı. V´ıce se replikac´ı zab´ yvá kapitola 3.1. Oba procesy je moˇzno pouˇz´ıt jednostrannˇe, tedy kop´ırovat data pouze z jednoho uloˇziˇstˇe na druhé a nikoliv opaˇcnˇe, nebo oboustranˇe, kdy se data kop´ıruj´ı navz´ ajem mezi sebou. 3.1

Replikace

Replikace je proces, u kterého jsou data a databázové objekty kop´ırovány z jednoho datab´ azového serveru na druh´ y a poté synchronizovány pro zachován´ı identity obou datab´ az´ı. Synchronizac´ı je v tomto pˇr´ıpadˇe myˇsleno kop´ırován´ı vˇsech zmˇen, které v datab´ azi nastanou. Pouˇzit´ım replikace je moˇzno data distribuovat na r˚ uznˇe vzd´ alen´ a m´ısta nebo mezi mobiln´ı uˇzivatele v rámci poˇc´ıtaˇcové s´ıtˇe a internetu [4]. V´ yvoj´ aˇri mnoh´ ych modern´ıch aplikac´ı se mus´ı zab´ yvat pˇret´ıˇzen´ım serveru zp˚ usoben´ ych velk´ ym poˇctem souˇcasn´ ych pˇr´ıstup˚ u do databáze. V pˇr´ıpadˇe pˇret´ıˇzen´ı se prodlouˇz´ı odezva serveru, data tedy pˇricházej´ı k uˇzivateli pomalu, nebo server dokonce u ´plnˇe spadne. Mezi ˇcasté d˚ uvody pouˇzit´ı databázové replikace tedy patˇr´ı zajiˇstˇen´ı dostupnosti dat2 , resp. sn´ıˇzen´ı pravdˇepodobnosti, ˇze data nebudou dostupná [5]. Dalˇs´ı d˚ uvodem je rozloˇzen´ı pˇr´ıstup˚ u do databáze mezi v´ıce server˚ u, takˇze nebude doch´ azet ke zpomalen´ı v´ ykonu hlavn´ıho serveru [6]. Ke zpomalen´ı serveru docház´ı také pˇri z´ alohov´ an´ı, coˇz lze ˇreˇsit replikac´ı dat na jin´ y server, na kterém je pak proces z´ alohov´ an´ı spuˇstˇen. Vˇsechny datab´ azové servery zapojené do procesu replikace jsou v odborné literatuˇre naz´ yv´ any uzly, angl. node. Tyto uzly dohromady tvoˇr´ı replikaˇcn´ı cluster 3 . Pˇri spr´ avnˇe nastavené replikaci, jej´ımˇz c´ılem je zajiˇstˇen´ı vysoké dostupnosti dat (HA), by v clusteru nikdy nemˇely b´ yt ménˇe neˇz tˇri uzly. M˚ uˇze se totiˇz stát, ˇze vypadne jeden ze dvou uzl˚ u, ˇc´ımˇz dojde k situaci, ˇze data v dan´ y okamˇzik nebudou z´ alohovan´ a. Uzly v replikaˇcn´ım clusteru mohou m´ıt jednu ze dvou základn´ıch rol´ı, nejˇcastˇeji naz´ yvan´ ych master a slave. Master server nebo pouze master je server, kter´ y poskytuje data k replikaci, má práva na ˇcten´ı i zápis a prob´ıhaj´ı tedy na nˇem veˇskeré aktualizace. Je moˇzno se setkat také s pojmenován´ım primary server, 2 3

angl. High Availability volnˇe pˇreloˇzeno jako skupina server˚ u zapojen´ ych do replikace

provider, sender, parent nebo source server. Naprosto jin´ y pojem zavád´ı MS SQL Server, kter´ y tento zdrojov´ y server naz´ yvá publisher (ˇcesky vydavatel). Druh´ y datab´ azov´ y server je nejˇcastˇeji naz´ yván slave, standby, reciever, child nebo subsciber (ˇcesky odbˇeratel). Posledn´ı pojem je také pouˇz´ıván MS SQL Serverem. Na tento server, kter´ y je dostupn´ y vˇzdy jen pro ˇcten´ı dat, se data kop´ıruj´ı, nen´ı vˇsak moˇzné na nˇej zmˇeny zapisovat pˇr´ımo [7]. Podle poˇctu master a slave server˚ u v replikaˇcn´ım clusteru se rozliˇsuje, zda se jedn´ a o jednosmˇernou nebo obousmˇernou replikaci. U tzv. multimaster replikace existuje v replikaˇcn´ım clusteru nˇekolik master server˚ u, tedy tˇech na které se zmˇeny zapisuj´ı pˇr´ımo. To je praktické napˇr´ıklad ve chv´ıli, kdy je i samotn´ ych z´ apis˚ u tolik, ˇze jeden server tuto zátˇeˇz neunese. Zápisy z jednotliv´ ych master server˚ u se tedy nereplikuj´ı pouze na slave servery, ale také na vˇsechny ostatn´ı mastery. Tento zp˚ usob s sebou vˇsak nese znaˇcné komplikace, je potˇreba ˇreˇsit konflikty zmˇen v r´ amci stejn´ ych záznam˚ u, a je tud´ıˇz relativnˇe nároˇcn´ y na u ´drˇzbu. Tato pr´ ace se zab´ yv´ a pouˇzit´ım druhé zp˚ usobu, tzv. master-slave replikace. Tato replikace pouˇz´ıv´ a vˇzdy jen jeden master server v clusteru a dva a v´ıce slave servery. Kopie dat tedy prob´ıh´ a jednosmˇernˇe, vˇzdy z master na slave servery. Podle Bella a kol. (2010) maj´ı modern´ı aplikace ˇcasto v´ıce ˇctenáˇr˚ u neˇz zapisovatel˚ u, proto je zbyteˇcné, aby se vˇsichni ˇctenáˇri pˇripojovali na stejnou databázi jako zapisovatelé a zpomalovali t´ım jejich práci [6].

Srovn´ an´ı multimaster a master-slave replikace Pˇri n´ avrhu replikace je potˇreba se zamyslet také nad t´ım, zda bude synchronn´ı ˇci asynchronn´ı. Synchronn´ı replikace neumoˇzn´ı potvrzen´ı transakce modifikuj´ıc´ı data, dokud vˇsechny zmˇeny nejsou pˇreneseny alespoˇ n na jeden slave server [8]. Tento pˇr´ıstup zajist´ı, ˇze ˇzádná data nebudou v pr˚ ubˇehu zápisu ztracena. V nˇekter´ ych pˇr´ıpadech tento zp˚ usob m˚ uˇze zbyteˇcnˇe zpomalit rychlost zápisu do datab´ aze, protoˇze je nutno ˇcekat na dokonˇcen´ı zápisu na slave server. Zároveˇ n m˚ uˇze zp˚ usobit nemoˇznost z´ apisu do databáze v pˇr´ıpadˇe, ˇze se pˇreruˇs´ı spojen´ı se slave serverem nastaven´ ym pro synchronn´ı replikaci. Tento zp˚ usob je vyuˇz´ıván napˇr´ıklad pˇri bankovn´ıch transakc´ıch, kde je potˇreba zajistit, aby vˇsechny operace probˇehly na obou stranách. V tomto pˇr´ıpadˇe je uˇzit´ı tohoto zp˚ usobu zcela nezbytné.

Druh´ ym zp˚ usobem je asynchronn´ı replikace, pˇri které se nová data mohou zapisovat na master server, pˇrestoˇze jeˇstˇe nedoˇslo k replikaci stávaj´ıc´ıch dat na slave server [5]. To je sice za bˇeˇzného provozu rychlejˇs´ı, v nˇekter´ y pˇr´ıpadech vˇsak m˚ uˇze zp˚ usobit nekonzistenci dat, napˇr´ıklad kdyˇz probˇehne transakce na master serveru, kter´ y vˇsak spadne dˇr´ıv, neˇz se zmˇena zap´ıˇse na slave. V takovém pˇr´ıpadˇe se slave zmˇen´ı na master server, ale zároveˇ n se nikdy nedozv´ı o transakci, o které m´ a uˇzivatel informace, ˇze probˇehla v poˇrádku.

Rozd´ıl mezi synchronn´ı a asynchronn´ı replikac´ı D´ ale je moˇzno rozliˇsovat replikaci pole toho, zda je logick´ a nebo fyzick´ a. Pˇri fyzické replikaci se kop´ıruj´ı na druh´ y server bloky binárn´ıch datov´ ych soubor˚ u bez znalosti jejich struktury (sloupce, ˇrádky, . . . ). Pro tento zp˚ usob kop´ırován´ı dat je potˇreba m´ıt na obou serverech stejnou platformu a architekturu. Tento zp˚ usob je velice efektivn´ı a ˇcasto snazˇs´ı na konfiguraci. Naopak pˇri logické replikaci se v pˇrenáˇsen´ ych datech pˇrenáˇs´ı samotn´ y SQL pˇr´ıkaz, kter´ y se na slave serveru provede stejnˇe jako na master serveru, nebo informace o tom, na kter´ ych ˇrádc´ıch zmˇeny probˇehly a jaké. Tento zp˚ usob je v´ıce flexibiln´ı, umoˇzn ˇuje v´ ybˇer jen nˇekolika databáz´ı nebo tabulek a nen´ı závisl´ y na architektuˇre ani operaˇcn´ım systému [8].

Ukázka kaskádové replikace

Posledn´ım diskutovan´ ym pojmem je kask´ adov´ a replikace, která umoˇzn ˇuje pˇripojit dalˇs´ı slave k jinému slave serveru m´ısto k hlavn´ımu master serveru. Kaskádovou replikaci lze vyuˇz´ıt v pˇr´ıpadˇe, ˇze je tˇreba replikovat data na vˇetˇs´ı poˇcet slave server˚ u v clusteru. V pˇr´ıpadˇe, ˇze by se vˇsechny slave servery pˇripojovaly k hlavn´ımu serveru, doˇslo by u nˇej k razantn´ımu sn´ıˇzen´ı jeho v´ ykonu. Kaskádová replikace m˚ uˇze b´ yt praktick´ a také v okamˇziku, kdy se data pˇrenáˇs´ı na velkou vzdálenost. V pˇr´ıpadˇe, kdy je tˇreba m´ıt nˇekolik replik ve velké vzdálenosti od master serveru, je zbyteˇcné, aby se obˇe kopie pˇrenáˇsely na tak velkou vzdálenost, kdyˇz druh´ y slave server lze pˇripoji k prvn´ımu. Kaskádovou replikace lze vyuˇz´ıt také pˇri pádu master serveru, kdy jeden slave pov´ yˇs´ı na master a druh´ y je na nˇej jiˇz pˇripojen, aby pˇrij´ımal repliky. ˇ Kaˇzd´ y datab´ azov´ y systém (myˇsleno SRDB) si vol´ı terminologii a konkrétn´ı nastaven´ı m´ırnˇe odliˇsnˇe. Tato kapitola se snaˇz´ı popsat chápán´ı replikace v co nejvˇetˇs´ı m´ıˇre obecnˇe s ohledem na pouˇzit´ı tohoto pojmu v PostgreSQL. Zcela jinou terminologii, i kdyˇz zaloˇzenou na stejn´ ych principech, zavád´ı MS SQL Server, kter´ y pro export databáze do souboru pouˇz´ıvá pojem sn´ımková replikace, pro master-slave replikaci pojem transakˇcn´ı replikace a pro multimaster replikaci sluˇcovac´ı replikace.

4

Aktu´ aln´ı stav a poˇ zadavky

Katedra geoinformatiky (UPOL) aktuálnˇe provozuje servery virtus.upol.cz, atlas.upol.cz a geohydro.upol.cz. Posledn´ı z jmenovan´ ych byl poskytnut jako testovac´ı server pro tuto práci a v budoucnu se s n´ım poˇc´ıtá jako s master serverem pro zde popisované databázové ˇreˇsen´ı. Prvn´ı dva zm´ınˇené servery jsou aktivnˇe pouˇz´ıv´ any, hostuj´ı napˇr´ıklad geoportál publikovan´ y skrze ArcGIS Server, kter´ y je d˚ uleˇzit´ ym prostˇredkem pro prezentaci projekt˚ u a dat, která na katedˇre vznikaj´ı. Data ke geoport´ alu i dalˇs´ım aplikac´ım bˇeˇz´ıc´ım na tˇechto serverech jsou ukl´ ad´ ana do MS SQL Serveru, pˇriˇcemˇz kaˇzd´ y ze server˚ u obsahuje jiné datové sady, které nejsou pravidelnˇe zálohovány, protoˇze jejich aktualizace nen´ı pˇr´ıliˇs ˇcast´ a. Aktu´ aln´ı ˇreˇsen´ı nepouˇz´ıvá replikaci dat, data tedy mohou b´ yt nedostupná z d˚ uvodu v´ ypadku serveru. Datab´ aze aktu´ alnˇe obsahuj´ı data napˇr´ıklad z projekt˚ u BotanGIS4 , Virtuáln´ı 5 studovna CHKO Litovelské Pomorav´ı , dále data metadatového systému Micka6 , data ze senzorové s´ıtˇe KGI, data ke studentsk´ ym prac´ım a také ukázková data urˇcen´ a pro v´ yuku. Je zaloˇzeno pˇribliˇznˇe 10 u ´ˇct˚ u, které maj´ı pˇr´ıstup pro zápis, a ˇr´ adovˇe v des´ıtk´ ach u ´ˇct˚ u s právem ˇcten´ı, do databáz´ı aktuálnˇe nen´ı pˇr´ıliˇs ˇcasto zapisov´ ano. Velké mnoˇzstv´ı dat, které má katedra k dispozici, je vˇsak stále uloˇzeno ve form´ atech Shapefile nebo File Geodatabase. Kaˇzd´ y kdo má zájem tato data pouˇz´ıt, mus´ı je pˇrenést pˇres r˚ uzná hardwarová zaˇr´ızen´ı nebo je zkop´ırovat po s´ıti. Studenti si musej´ı dˇelat kopie dat pˇri kaˇzdém cviˇcen´ı, coˇz velice zdrˇzuje 4 5 6

http://botangis.upol.cz/botangis/mapa http://virtus.upol.cz/ gislib.upol.cz/metadata

ˇ v´ yuku. Casto se totiˇz jedn´ a o velké objemy dat, jejichˇz kopie m˚ uˇze trvat ˇrádovˇe v jednotk´ ach aˇz des´ıtk´ ach minut. Data jsou poté fyzicky uloˇzena na poˇc´ıtaˇc´ıch v uˇcebn´ ach, coˇz mimo jiné dovoluje, aby se k dat˚ um dostal kdokoliv, kdo má na uˇcebnu pˇr´ıstup. Nen´ı tedy pˇrehled o tom, kdo data vyuˇz´ıvá. Studenti nav´ıc netuˇs´ı, s jak´ ymi daty pracuj´ı a nab´ yvaj´ı nesprávn´ ych pˇredstav o tom, ˇze vˇsechna data jsou vˇzdy uloˇzen´ a ve formátu Shapefile. Zároveˇ n se ˇspatnˇe zajiˇst’uje aktualizace dat, pˇri které, nen´ı-li spravována centralizovanˇe, m˚ uˇze docházet k nekonzistenci dat. Pˇri kop´ırov´ an´ım dat na r˚ uzná datová uloˇziˇstˇe je nav´ıc tˇeˇzké dodrˇzet licenˇcn´ı podm´ınky, se kter´ ymi jsou data poˇrizována. Z´ akladn´ım poˇzadavkem byl v´ ybˇer takového databázového systému, kter´ y je ˇsiroce pouˇz´ıv´ an v oblasti geoinformatiky a zároveˇ n je podporován produkty ArcGIS. Poˇzadavem bylo také zhodnocen´ı finanˇcn´ı stránky, replikace je totiˇz v mnoh´ ych komerˇcn´ıch systémech zaˇrazena aˇz mezi nejpokroˇcilejˇs´ı funkcionalitu a tedy je dostupn´ a aˇz s draˇzˇs´ımi licencemi. Katedra m´ a v z´ ajmu ukládat do databáze mnohem v´ıce datov´ ych sad, které m´ a k dispozici a které jsou momentálnˇe dostupné pouze ve formátech Shapefile ˇ nebo File Geodatabase. Jedná se napˇr´ıklad o datové sady ArcCR500 verze 2.0 ˇ ˇ a 3.0, Data200 (CUZK), CEDA CR 150, data, která byla uvolnˇena jako podpora ˇ nebo data dostupná k produkt˚ pro Krajinotvorn´ y program MZP, um ArcGIS a Idrisi. Datab´ azové ˇreˇsen´ı by tedy mˇelo b´ yt navrˇzeno tak, aby uneslo mnohem vˇetˇs´ı poˇcet pˇripojen´ı a dotaz˚ u neˇz v souˇcasné dobˇe, protoˇze datového sady, které budou novˇe dostupné skrze databázi, budou pouˇz´ıvány v ˇradˇe cviˇcen´ı. Plánem je v r´ amci cviˇcen´ı student˚ um umoˇzn ˇit plnohodnotnou práci s daty, tedy povolit jim jak ˇcten´ı dat, tak z´ apis do databáze.

5

N´ avrh replikaˇ cn´ıho ˇ reˇ sen´ı

Po proveden´ı reˇserˇse a zohlednˇen´ı vˇsech podm´ınek, poˇzadavk˚ u a moˇznost´ı katedry, byl sestaven n´ avrh kompletn´ıho databázového ˇreˇsen´ı zaloˇzeného na procesu replikace. Z datab´ azov´ ych server˚ u byl vybrán server PostgreSQL hned z nˇekolika d˚ uvod˚ u. Jedn´ a se o plnohodnotn´ y databázov´ y systém dostupn´ y zdarma se vˇsemi n´ astroji, je ˇsiroce pouˇz´ıvan´ y v oblasti geoinformaˇcn´ıch technologi´ı, je multiplatfomn´ı a od verze ArcGIS 9.3 plnˇe podporován´ y produkty ArcGIS. N´ avrh poˇc´ıt´ a s pouˇzit´ım ArcSDE pro propojen´ı databáze s ArcGIS produkty. Pˇri v´ ybˇeru verz´ı je nutné zajistit kompatibilitu verz´ı jednotliv´ ych software, a poté ArcSDE nainstalovat spoleˇcnˇe s PostrgreSQL. Byl navrˇzen replikaˇcn´ı cluster s nejménˇe tˇremi servery z d˚ uvod˚ u, které jiˇz byly diskutov´ any v kapitole 3.1. Cel´ y cluster pobˇeˇz´ı na stejné platformˇe a proto bude moˇzno pouˇz´ıt streaming replikaci se vˇsemi v´ yhodami zm´ınˇen´ ymi v kapitole 3.1. Byla zvolena jednosmˇerná master-slave replikace, cluster tedy bude obsahovat jeden master a dva (popˇr. v´ıce) slave server˚ u. Aby nedoˇslo ke ztrátˇe dat v pˇr´ıpadˇe, ˇze by master server spadl dˇr´ıv, neˇz se data zkop´ıruj´ı na slave server, pro prvn´ı slave (slave1) byla zvolena varianta synchronn´ı replikace. Je vhodné, aby servery bˇeˇzely v lok´ aln´ı s´ıti z d˚ uvodu rychlosti a spolehlivosti spojen´ı mezi master a slave serverem.

Druh´ y server (slave2) bude replikovat asynchronnˇe a zároveˇ n, aby nedocházelo k pˇret´ıˇzen´ı master serveru, bude replikace prob´ıhat ze slave1 na slave2, tedy kask´ adovˇe. T´ım bude ˇreˇsen´ı zároveˇ n pˇr´ıpraveno na v´ ypadek master serveru, protoˇze v pˇr´ıpadˇe, ˇze master vypadne, slave1 bude pov´ yˇsen na master a slave2 bude ihned moci replikovat. Ze slave2 lze dále tvoˇrit pravidelnou, napˇr´ıklad denn´ı nebo t´ ydenn´ı, z´ alohu pomoc´ı ulitily pg dump. Záloha pomoc´ı pg dump tak nebude zatˇeˇzovat master server a sama o sobˇe bude prob´ıhat rychleji, neˇz by tomu bylo na master serveru, kter´ y je jiˇz tak velmi vyt´ıˇzen dalˇs´ımi procesy.

Srovn´ an´ı multimaster a master-slave replikace Uˇzivatelé se budou pˇripojovat skrze nástroj pgpool, kter´ y se bude tváˇrit jako jedin´ y datab´ azov´ y server, ke kterému se klienti pˇrihlás´ı bez ohledu na typ jejich dotazu a on s´ am pak rozhodne, ke kterému ze server˚ u klienta pˇrihlás´ı. T´ım bude m´ıt z´ aroveˇ n moˇznost rozloˇzit zátˇeˇz na dostupné uzly v clusteru. Pro jeˇstˇe vˇetˇs´ı efektivitu provozu datab´ aze bude pgpool uchovávat databázová spojen´ı a pˇri novém dotazu vyuˇzije st´ avaj´ıc´ıho spojen´ı, m´ısto aby vytváˇrel spojen´ı nové.

Vzhledem k tomu, ˇze klienti budou k databázovému serveru pˇristupovat skrze pgpool, nen´ı potˇreba aby jednotlivé uzly v clusteru mˇely veˇrejnou IP adresu. Plnˇe dostaˇcuje, ˇze servery pobˇeˇz´ı na lokáln´ı s´ıti a pouze pgpool bude na serveru s veˇrejnou IP, ˇc´ımˇz se zajist´ı, ˇze data budou pˇr´ıstupná z internetu. N´ avrh poˇc´ıt´ a také s extern´ımi pracoviˇsti, která budou ˇcasto ˇc´ıst z databáze a budou m´ıt z´ ajem o zrychlen´ı pˇr´ıstupu k dat˚ um t´ım, ˇze se slave server pˇresune na jejich pracoviˇstˇe. Typ replikace se zvol´ı podle jejich operaˇcn´ıho systému a jeho architektury. Pokud se bude jednat o shodn´ y systém, jak´ y bude pouˇzit ve v´ yˇse popsaném clusteru, pak bude moˇzno pouˇz´ıt asynchronn´ı streaming replikaci, naopak pokud se bude jednat o systém jin´ y, bude pouˇzita Slony-I replikace.

Reference 1. OPPEL, A. J. Databases: A Beginner’s Guide. New York: McGraw-Hill, 2009, 164 s. ISBN 00-716-0846-X. 2. CONNOLLY, T. Database Systems: A Practical Approach to Design, Implementation, and Management. Vyd. 4. Harlow: Addison-Wesley, 2005, 1374 s. ISBN 03-212-1025-5. 3. MOMJIAN, B. PostgreSQL: Introduction and Concepts. Boston, MA: AddisonWesley, 2001, xxviii, 461 s. ISBN 02-017-0331-9. 4. MICROSOFT. SQL Server - Replication. Microsoft [online], 2013 [cit. 2013-08-27]. Dostupné z: http://technet.microsoft.com/enus/library/ms151198(v=sql.100).aspx. 5. OBE, R., HSU, L. Postgresql: Up and Running. Sebastopol, CA: O’Reilly, 2012, 164 s. ISBN 978-144-9326-333. 6. BELL, C., KINDAHL, M., THALMANN, L. MySQL High Availability. Vyd. 1. Sebastopol, CA: O’Reilly Media, Inc, 2010. ISBN 978-059-6807-306. 7. RIGGS, S., KROSING, H. PostgreSQL 9 Administration Cookbook: Solve realworld PostgreSQL problems with over 100 simple, yet incredibly effective recipes. Birmingham: Packt Publishing, 2010, 345 s. ISBN 978-1-849510-28-8. ¨ ORMENYI, ¨ ¨ 8. BOSZ Z., SCHONIG, H.-J. PostgreSQL Replication: Understand basic replication concepts and efficiently replicate PostgreSQL using high-end techniques to protect your data and run your server without interruptions. Vyd. 1. Birmingham: Packt Publishing, 2013, vii, 230 s. ISBN 978-1-84951-672-3.

Synchronizace a replikace geodat v prostředí Esri platformy

Recommend Documents