Metody udržování stavových informací v protokolu HTTP

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE Fakulta informatiky a statistiky Katedra informačního a znalostního inženýrství

Metody udržování stavových informací v protokolu HTTP Bakalářská práce

David Novák

Vedoucí práce: PhDr. Otakar Pinkas Srpen 2006

Poděkování Rád bych tímto poděkoval vedoucímu své práce PhDr. Otakaru Pinkasovi za podporu při její tvorbě a mnohé cenné podněty.

Prohlášení Prohlašuji, že jsem bakalářskou práci vypracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze které jsem čerpal. V Praze dne 11. srpna 2006 David Novák

Abstrakt Posláním této bakalářské práce je sestavení uceleného pohledu na problematiku spojenou s využíváním interaktivních služeb WWW v rámci internetu. V tomto prostředí probíhá komunikace prostřednictvím protokolu HTTP, ten však ve své podstatě je bezestavový. Znamená to, že neukládá žádné informace mezi jednotlivými spojeními. Dnešní interaktivní webové aplikace ovšem takové prostředky nutně potřebují k zajištění svých funkcí. Proto se tato práce zabývá metodami udržování a přenášení stavových informací. V první části je popsán samotný protokol HTTP s přihlédnutím k historickému vývoji, hlavní zaměření je na jeho aktuální verzi HTTP 1.1. Dále je text věnovaný stavovým informacím, vysvětlení tohoto pojmu, členění a metodám uchovávání a přenosu těchto informací. Následuje oddíl věnovaný prostředníkům v komunikaci protokolem HTTP. Jedná se o proxy a cache servery, jež ukládají záložní kopie dat pro rychlejší opětovné použití a ušetření přenosových kapacit sítě. Tento systém s sebou v praxi přináší také řadu problémů, jež jsou popsány v souvislosti s provozem na internetu. Vyzdviženy jsou také poznatky týkající se rozšíření protokolu HTTP o možnost uchování stavových informací, jímž jsou cookies. Diskutována jsou bezpečnostní rizika s nimi spojená a zhodnocena je též implementace ve vztahu k jiným metodám. V souvislosti s cookies je zde popsána platforma P3P zabývající se ochranou soukromí uživatelů. Praktickou část tvoří jednoduchá aplikace implementující to nejlepší z popsaných metod z hlediska bezpečnosti a ochrany soukromí. Celá práce tedy může posloužit tvůrci webové aplikace k ujasnění zákonitostí a odhalení případných bezpečnostních rizik.

Abstract The mission of this batchelor thesis is to give complete view to the problems concerning usage of interactive WWW services in the internet, where the communication is runned by HTTP protocol. This protocol is stateless. It means, that no information is stored between each connection. Nowday’s interactive web applications needs state informations for their proper functionality. That’s why this thesis considers methods of storing and transmission of state informations. In the first part is HTTP protocol described with mentions to the historical development. Actual version HTTP 1.1 is mainly focused. Next part is addicted to state informations, to the definition explanation, classification and methods of storing and transmitting theese informations. Following section is concerned with communication intermediaries in HTTP protocol. It means proxy and cache servers, which saves backup coppies of data for faster reusing and transmission capacities saving. This system brings along many problems, which are discussed in context of internet activity. References to extension of HTTP protocol for carrying state informations are highlighted. This is cookies. Their security risks are being discussed and also implementation in the relation to other methods is evaluated. In context of cookies is described P3P platform concerning protection of users privacy. Practical part consists of trivial application implementing the best of methods described here from the view of security and protection of privacy. Whole work might serve to the web application builder, it helps to understand patterns and to detect appropriate security risks.

Obsah

Obsah Úvod ........................................................................................................................................... 8 1

Protokol HTTP ................................................................................................................... 9 1.1 1.1.1

Komunikace........................................................................................................ 9

1.1.2

URL .................................................................................................................. 10

1.1.3

Hlavičky ........................................................................................................... 11

1.1.4

Stavové kódy .................................................................................................... 12

1.1.5

Metody požadavku ........................................................................................... 12

1.1.6

Tvorba požadavku ............................................................................................ 14

1.1.7

Tvorba odpovědi............................................................................................... 14

1.2

Bezestavovost HTTP ................................................................................................ 15

1.3

HTTP 1.1 .................................................................................................................. 15

1.3.1

Perzistentní spojení........................................................................................... 15

1.3.2

Podpora virtuálních serverů.............................................................................. 16

1.3.3

Vyjednávání o obsahu ...................................................................................... 17

1.3.4

Určení délky ..................................................................................................... 18

1.3.5

Spolupráce s proxy a cache .............................................................................. 19

1.3.6

Další změny ...................................................................................................... 19

1.4 2

Obecně ........................................................................................................................ 9

Cookies ..................................................................................................................... 19

Stavové informace ............................................................................................................ 20 2.1

Metody uchovávání stavových informací ................................................................ 20

2.1.1

Na straně klienta ............................................................................................... 20

2.1.2

Na straně serveru .............................................................................................. 20

2.2

Členění z hlediska významu ..................................................................................... 21

2.2.1

Identifikační informace .................................................................................... 21

2.2.2

Transakční informace .......................................................................................21

2.3

Metody přenosu stavových informací ...................................................................... 21

2.3.1

URL požadavku................................................................................................ 22

2.3.2

Skrytá formulářová pole ................................................................................... 24

2.3.3

HTTP autentizace ............................................................................................. 24

2.3.4

Ostatní............................................................................................................... 26 Strana 6

Obsah 3

Proxy a cache.................................................................................................................... 27 3.1

Principy kešování ..................................................................................................... 27

3.1.1

Expirační mechanismus.................................................................................... 28

3.1.2

Validační mechanismus.................................................................................... 28

3.2

Kešování statických dokumentů............................................................................... 29

3.2.1 3.3

Kešování dynamicky generovaných dokumentů...................................................... 32

3.3.1 4

4.1

Funkce a typy ........................................................................................................... 34

4.2

Bezpečnostní rizika .................................................................................................. 35 Cookies třetích stran ......................................................................................... 36

4.3

Velikost cookie ......................................................................................................... 37

4.4

Cookies a SID........................................................................................................... 37

P3P – Platform for Privacy Preference Project ................................................................ 38 5.1

Bezpečnostní politika ............................................................................................... 38

5.1.1

Výroky .............................................................................................................. 39

5.2 6

Stavové informace a cache ............................................................................... 33

Cookies ............................................................................................................................. 34

4.2.1

5

Funkce proxy serverů ....................................................................................... 30

Implementace ........................................................................................................... 40

Aplikace............................................................................................................................ 44 6.1

Model navigace......................................................................................................... 44

6.2

Konfigurace .............................................................................................................. 44

6.3

Zabezpečení .............................................................................................................. 44

6.3.1

Challenge-response........................................................................................... 45

6.3.2

Kontrola IP adresy ............................................................................................ 46

6.3.3

Transformace vstupu ........................................................................................ 46

6.3.4

Další funkce...................................................................................................... 46

Závěr......................................................................................................................................... 47 Rejstřík vložených obrázků a tabulek....................................................................................... 48 Seznam použité literatury ......................................................................................................... 49 Seznam použitých zkratek a termínů........................................................................................ 51

Strana 7

Úvod

Úvod Internet pronikl snad do všech sfér lidské společnosti a spojuje miliony uživatelů na celém světě. Během poměrně krátkého časového období došlo k velkému vývoji a nejvíce se rozšířila služba WWW. Nejprve šlo o zprostředkování statických dokumentů, zanedlouho se však začalo také s provozováním interaktivních aplikací, vyžadujících přenos a uchovávání stavových informací. Protože se již několik let osobně věnuji tvorbě takovýchto webových aplikací a tato problematika mne zajímá, vybral jsem si toto téma této pro svou bakalářskou práci. Cílem práce je vysvětlit principy fungování služeb v prostředí internetu, popsat základy jako samotný protokol HTTP používaný při komunikaci a další související pojmy. V souvislosti se zmíněnými interaktivními aplikacemi se práce zabývá používáním stavových informací včetně metod jejich uchovávání. Architektura klient-server umožňuje ukládání jak na straně serveru, tak na straně klienta. Vždy je ale nutné přenášet alespoň část dat sloužících jako identifikátory (uživatelů, relací). Má tedy smysl se zabývat také metodami přenosu stavových informací. Možností je několik a jsou popsány v této práci. Jak je známo, prostředí internetu skýtá široké spektrum možností a aktivit, ať již běžných legálních (nikoho neomezujících), či škodlivých a potenciálně nebezpečných (útoky třetích osob na soukromí a data uživatelů). Otázka bezpečnosti internetu je tedy aktuálním tématem. S rozvojem a příchodem nových technologií přicházejí vždy také nová bezpečnostní rizika, proto je nutné neustále pracovat na ochraně webových aplikací a příslušných dat, tak aby se případnému útočníkovi pokud možno zamezil nebo alespoň ztížil přístup k zmíněným chráněným informacím. V této práci jsem při rozboru jednotlivých témat naznačil možná související bezpečnostní rizika a protiopatření. Je zde také popsán mezinárodní standard W3C zabývající se ochranou soukromí, a sice platforma P3P. Při ochraně informací na webu i samotné komunikace je vhodné držet se známých zásad, z nichž mnohé zde popisované, jsou implementovány v ukázkové aplikaci tvořící praktickou část této práce.

Strana 8

Kapitola 1: Protokol HTTP

1 Protokol HTTP Tato kapitola je věnována vysvětlení pojmu HTTP, popisu vývoje tohoto protokolu se zaměřením na jeho poslední verzi 1.1 popsanou dokumentem RFC 2616 [27]. Zabývat se bude též problematikou bezestavovosti protokolu HTTP (s naznačením různých technik umožňujících toto omezení překonat, o nichž bude psáno v kapitole následující).

1.1 Obecně Protokol HTTP (HyperText Transfer Protocol) je základem nejpoužívanější služby internetu WWW (World Wide Web), zde jsou data zakódována v jazyce HTML1 a přistupuje se k nim pomocí schematu URI2, komunikace a přenos dat je zajištěna právě protokolem HTTP. Protokol HTTP je používaný při komunikaci mezi prohlížečem a webovým serverem. Je to tzv. aplikační protokol, který pro přenos po síti využívá protokoly nižších vrstev síťového modelu. Jedná se o protokoly TCP/IP3. Standardně se pro HTTP používá TCP port 80. Pro přenos dat lze použít i jiný protokol zajišťující spolehlivý přenos dat. Příkladem je protokol SSL, jenž je mezičlánkem mezi HTTP a TCP/IP zajišťujícím šifrování komunikace. 1.1.1 Komunikace HTTP vychází z architektury klient-server a komunikace je založena na požadavek-odpověď (anglicky request-response). Klient, v tomto případě internetový prohlížeč (browser), vytvoří spojení se serverem a pošle mu požadavek. Server reaguje na klientův požadavek a zasílá odpověď. Přesný formát požadavku a odpovědi lze najít ve specifikaci [27] a mechanismus jejich tvorby je popsán dále. Komunikace neprobíhá vždy přímo mezi koncovým klientem a cílovým serverem (obsahujícím požadovaný dokument). Mezi nimi se mohou vyskytovat prostředníci (zprostředkovatelé), které pak v rámci komunikace vystupují jako server ve vztahu ke klientovi, či klient ve vztahu k cílovému serveru. Jedná se o cache a proxy servery. Jednou z jejich funkcí je uchovávání dokumentů, které již byly různými klienty prostřednictvím cache serveru požadovány. Výsledkem je zrychlení komunikace a ušetření přenosové kapacity v případě, že klient požaduje znovu stejný dokument – prostředník ho klientovi odešle přímo bez nutnosti stažení z cílového serveru4.

1

HyperText Markup Language – značkovací jazyk sloužící pro formátování dokumentů v prostředí internetu. Internetové prohlížeče tento jazyk interpretují a požadovaný dokument zobrazí uživateli. 2

Uniform Resource Identifier – univerzální schema užívané k adresování zdrojů. V prostředí WWW se používá jeho podmnožina – URL (Uniform Resource Locator) schema umožňující každému dokumentu přiřadit přesnou adresu (místo uložení). Bližší informace viz [23]. 3

Transmission Control Protocol over Internet Protocol - nejrozšířenější transportní protokol používaný pro přenos dat mezi počítači v síti internet, využívající síťového protokolu IP. 4

Toto je hodně zjednodušené, tento proces se řídí přesnými pravidly. Prostředník ověřuje, jestli má uloženou aktuální verzi dokumentu atd.

Strana 9

Kapitola 1: Protokol HTTP Jednotlivé možnosti komunikace znázorňují následující obrázky. Nejprve se podíváme na komunikaci přímo mezi klientem a cílovým serverem, kdy je pro každý požadavek navázáno nové spojení.

Obrázek 1: Komunikace klient-server v HTTP - opakované požadavky a nová spojení

Při použití proxy serveru jsou požadavky různých koncových klientů dále vůči cílovému serveru reprezentovány jako požadavky jednoho klienta, a sice prostředníka (proxy serveru).

Obrázek 2: Komunikace klient-proxy-server v HTTP

Následující obrázek znázorňuje zrychlení přístupu k požadovanému dokumentu s využitím uložené kopie na cache serveru.

Obrázek 3: Komunikace v HTTP za použití cache

1.1.2 URL URL vyjadřuje umístění dokumentu na serveru a každý dokument je jím jednoznačně určen. Existují dva druhy URL – absolutní a relativní. Absolutní URL v sobě obsahuje označení metody (protokolu), jméno serveru (příp. použitý port) a cestu k dokumentu nacházejícího se v adresářové struktuře serveru a jeho název. Dokument může být rozdělen na více částí, v tom případě se mnohou použít tzv. kotvy k upřesnění polohy uvnitř dokumentu. Absolutní URL má takovýto tvar: protokol://server [:port]/cesta/soubor [#kotva] Relativní URL se používá ke směrování v rámci jedné webové aplikace na daném serveru. Neobsahuje označení protokolu ani název serveru a tyto parametry se při použití relativní URL určují vzhledem k dokumentu, ve kterém je obsaženo. Pro názornost uvádím příklad absolutní URL při použití protokolu HTTP. Implicitní port 80 se v tomto případě uvádět nemusí, příklad odkazuje na třetí kapitolu dokumentu: http://www.server.net:80/adresar/doc.html#kapitola3 Strana 10

Kapitola 1: Protokol HTTP 1.1.3 Hlavičky Hlavičky v HTTP mají podobný koncept jako hlavičky elektronické pošty, odesílají se před samotným dokumentem každá na jednom řádku. Hlavička má svůj název a hodnotu, jež odděluje dvojtečka a je zakončena řetězcem CR LF5 označujícím konec řádku. Od těla požadavku/odpovědi se oddělují prázdným řádkem. Specifikace HTTP 1.1 [27] definuje 47 různých hlaviček (oproti 17 v předchozí verzi), některé z nich jsou povinné (Host, Content-Length), většina jich je však nepovinných. Hlavičky obsahují dodatečné upřesňující informace k požadavku, respektive k odpovědi, tedy také k přenášenému dokumentu. Dělí se do čtyř skupin podle toho, čeho se týkají: − Obecné hlavičky (anglicky General-Header) se týkají daného spojení. Jedná se o hlavičku Date, jež obsahuje datum uskutečnění spojení a Pragma, určená pro případné prostředníky v komunikaci (cache servery). V souvislosti s proxy byla zavedena také hlavička Via, která v sobě nese záznam o všech prostřednících během komunikace a slouží tak jako prevence zacyklení. − Hlavičky požadavku (Request-Header) zasílá klient, týkají se konkrétního požadavku a obsahují zejména autentizační údaje, identifikační údaje aplikace klienta či hlavičky pro podmíněný požadavek. Z hlediska zaměření této práce jsou z této skupiny zajímavé hlavičky Referer, From či If-Modified-Since. Hlavička Referer obsahuje jako hodnotu URL dokumentu, z něhož byl uživatel na požadovaný dokument odkázán. V praxi se dá využít k monitorování pohybu uživatelů v prostředí internetu, což s sebou nese také určitá bezpečnostní rizika6. Rozporuplná je i hlavička From, neboť dle původního záměru má obsahovat adresu elektronické pošty uživatele zodpovědného za odeslaný požadavek. Toho mělo být využíváno k případnému upozornění uživatelů zasílajících nesprávné požadavky. V praxi se ovšem již skoro nepoužívá, neboť její obsah by vedl spíše ke zneužívání – zasílání spamu7 a identifikaci uživatele na základě jeho e-mailové adresy. Z hlediska dále popsaného kešování je důležitá hlavička If-Modified-Since, pomocí které se zjišťují změny dokumentu od poslední návštěvy. − Hlavičky odpovědi (Response-Header) umožňují serveru přesměrovat klienta na jinou adresu, vyzvat ho k zadání autentizačních údajů či identifikovat svůj software. − Hlavičky týkající se těla požadavku/odpovědi (Entity-Header) popisují typ přenášeného dokumentu (Content-Type), datum poslední úpravy (Last-Modified), dále případné transformace (Content-Encoding) či délku v bytech (Content-Length).

5

Carriage Return, Line Feed – instrukce pocházející z dob psacích strojů. Návrat vozíku a posun papíru.

6

Zejména se jedná o únik identifikátoru session-id. Tento problém a další bezpečnostní rizika jsou předmětem následujících kapitol. 7

Nevyžádaná reklamní pošta rozesílaná na tisíce e-mailových adres. Je to problém celosvětového měřítka zabírající významné procento přenosové kapacity počítačové sítě.

Strana 11

Kapitola 1: Protokol HTTP 1.1.4 Stavové kódy Nedílnou součástí odpovědi serveru jsou trojciferné stavové kódy udávající výsledek provedené operace. Klient díky nim zjistí, jaký byl výsledek jeho požadavku. Na základě kódu může prohlížeč zobrazit uživateli slovní popis8 (stavové hlášení). Dělení stavových kódů do pěti kategorií ukazuje následující tabulka: Kategorie Informační Úspěch Přesměrování Chyba klienta Chyba serveru

Rozsah kódů 100 - 199 200 - 299 300 - 399 400 - 499 500 - 599

Popis Informativní zprávy. Požadavek byl úspěšně zpracován. Přesměrování na jinou adresu. Problémy na straně klienta. Problémy na straně serveru.

Tabulka 1: Kategorie stavových kódů v odpovědi protokolu HTTP

Stavové kódy dělitelné stem jsou brány jako obecné. Uvozují a reprezentují celou třídu. Pokud klient nezná konkrétní kód, může jej interpretovat právě jako by to byl kód obecný. Ve druhé tabulce jsou vypsány nejfrekventovanější stavové kódy a jejich popis: Stavový kód 100 Continue 200 OK 300 Multiple choices 301 Moved Permanently 302 Moved Temporarily 400 Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 500 Internal Server Error

Popis Klient může pokračovat v zasílání požadavku. Operace proběhla bez chyby, požadavek je úspěšně splněn. Požadovaný zdroj se dá získat z několika různých míst. Požadovaný dokument se trvale přesunul na novou adresu URL. Požadovaný dokument se dočasně přesunul na jinou adresu URL. Server nerozumí požadavku klienta. Požadavek klienta má být autentizován nebo byl odepřen přístup. Server nemůže požadavku vyhovět, autorizace nebyla úspěšná. Server nenašel zadanou adresu URL. Došlo k vnitřní chybě serveru.

Tabulka 2: Výběr často používaných stavových kódů v odpovědi protokolu HTTP

1.1.5 Metody požadavku V současném HTTP 1.1 (touto verzí se zabývá subkapitola 1.3) existuje osm základních metod požadavků protokolu HTTP: − GET vracející jako odpověď požadovaný dokument včetně hlaviček. Je to základní nejčastěji používaná metoda. Jsou-li touto metodou odesílána data z formuláře, najdeme je zakódované do URL. − POST odesílající formulářová data v těle požadavku za hlavičkami. Data mají být zakódována do URL v těle požadavku, lze je ale odeslat i nezakódovaná. Výhodou oproti

8

Případně může zobrazit vysvětlující text v jazyce uživatele.

Strana 12

Kapitola 1: Protokol HTTP metodě GET je možnost odeslat větší objem dat, než jaký se vejde do URL. Co se týče možností zobrazení (zachycení) zasílaných dat a logování, je o něco bezpečnější než metoda GET. Pokud se ale žádná data v těle neodesílají, je prakticky s metodou GET shodná. − HEAD vracející pouze hlavičky. Je možné ji využít při zjišťování změn dokumentu od posledního požadavku. − PUT fungující jako metoda GET, uchovává tělo požadavku na místě daném v URL. − DELETE odstraňující dokument ze serveru. Cesta k dokumentu určenému k odstranění je v URL požadavku. − OPTIONS umožňující zjistit vlastnosti určitého dokumentu (aniž by byl zdroj znovu načten) či možnosti serveru a nastavení komunikace, odpovědi na tuto metodu nelze kešovat. − TRACE vracející v odpovědi požadavek ve stejném formátu, jak přišel na server. Používá se pro sledování požadavku přes všechny proxy servery a firewally, přes které probíhá komunikace. − CONNECT je ve specifikaci pouze rezervované jméno metody určené pro spolupráci s proxy servery, které umí dynamicky vytvořit komunikační „tunel“ např. při SSL tunellingu. Používá se při průchodu skrze proxy pro ustanovení kanálu SSL. Za každým požadavkem ještě mohou následovat jednotlivé hlavičky, po nich musí následovat prázdný řádek. Známe již princip fungování komunikace pomocí protokolu HTTP, používané stavové kódy, metody a hlavičky. Následuje tedy příklad požadavku a odpovědi: GET / HTTP/1.1 Host: www.server.net User-Agent: Mozilla/5.0 Accept: text/xml,application/xhtml+xml,text/html;q=0.9 Accept-Language: cs,en-us;q=0.7,en;q=0.3 Accept-Encoding: gzip,deflate Accept-Charset: windows-1250,utf-8;q=0.7,*;q=0.7 Keep-Alive: 300 Connection: keep-alive HTTP/1.1 200 OK Date: Sun, 6 Aug 2006 11:15:47 GMT Server: Apache Last-Modified: Wed, 19 Jul 2006 06:27:30 GMT Etag: "f7c136-2c6e-5b985880" Accept-Ranges: bytes Content-Length: 11374 Keep-Alive: timeout=15, max=100 Connection: Keep-Alive Content-Type: text/html V tomto příkladu je vidět několik zajímavých hlaviček a parametrů, kterými se bude zabývat text následujících kapitol. Zvýraznil jsem parametr q využívaný při vyjednávání o obsahu a také Etag sloužící při validačním mechanismu kešování. Strana 13

Kapitola 1: Protokol HTTP 1.1.6 Tvorba požadavku Požadavek generuje klient na základě akce klienta (zadání adresy URL do prohlížeče, kliknutí na odkaz či odeslání formuláře). Bez zásahu uživatele se požadavek generuje např. jako reakce na odpověď serveru s kódem pro přesměrování. V tomto případě je URL dokumentu obsaženo v HTTP hlavičce Location. Zjednodušený proces tvorby požadavku v prohlížeči: − Rozbor URL požadovaného dokumentu – zjištění jména serveru, nastavení do hlavičky Host a vyhledání jeho IP adresy pomocí DNS9, následné použití této adresy pro vytvoření spojení. − Přechází-li uživatel z jiné webové stránky, např. kliknutím na odkaz, je do požadavku přidána hlavička Referer obsahující URL předešlé stránky. Díky tomu lze na straně serveru zjistit, odkud uživatel přišel. − Existují-li v počítači klienta cookies10 platné pro cílový server, prohlížeč je přidá k požadavku v hlavičce Cookies. − Pokud uživatel odesílá data z formuláře, prohlížeč v případě použití metody GET přidá formulářová data do URL požadavku za otazník jako názvy a hodnoty. Při použití metody POST se tato data předávají v těle požadavku. − Veškerá odesílaná data jsou „URL encoded“, tzn. zakódovaná podle specifikace RFC 1738 [23]. Z každého znaku (kromě alfanumerických) vznikne dvouciferný kód uvozený znakem „%“. Parametry se od sebe oddělují znakem „&“ a názvy od hodnot znakem „=“. − Po přidání všech potřebných hlaviček je takto sestavený požadavek zaslán serveru. Pokud je dokument tvořen z více objektů, musí prohlížeč pro každý tento objekt vytvořit vlastní požadavek. Jde např. o dokumenty obsahující obrázky, animace, aplety atd. 1.1.7 Tvorba odpovědi Zjednodušený proces přijetí požadavku serverem, jeho rozboru a následné reakce – odpovědi: − Z adresy URL požadovaného dokumentu zjistí jeho umístění ve své adresářové struktuře. − Podle přípony zjistí o jaký typ dokumentu se jedná, zdali jde spustitelný skript či statickou HTML stránku, obrázek atd. − V případě statického dokumentu je proces jednoduchý, server takovýto soubor pouze načte a odešle ho v těle odpovědi klientovi spolu s příslušnými HTTP hlavičkami. − Jedná-li se ale o spustitelný soubor (např. PHP, JSP či ASP11 skript), pak server spustí odpovídající interpret a předá mu parametry z klientova požadavku. Jako odpověď je potom

9

Domain Name System – server obsahující doménová jména a k nim náležící IP adresy.

10

Systém souborů uchovávajících stavové informace na straně klienta, podrobněji viz kap. 1.4 a 5.

11

PHP a ASP jsou jedny z nejrozšířenějších programovacích jazyků v prostředí internetu. PHP je na unixové platformě nejčastěji implementován na serveru Apache ve spojení s databází MySQL (tuto kombinaci osobně již několik let využívám), naproti tomu ASP bylo vytvořeno pro platformu Windows, bývá provozováno na serveru Microsoft IIS (Internet Information Server) ve spojení s databází MSSQL.

Strana 14

Kapitola 1: Protokol HTTP zaslán klientovi výstup z tohoto programu včetně HTTP hlaviček. Tento postup je popsán v specifikaci CGI12.

1.2 Bezestavovost HTTP Protokol HTTP je bezestavový. Funguje na principu požadavek-odpověď. Klient ani server nezná a nezaznamenává žádné souvislosti mezi jednotlivými požadavky. Takováto koncepce je výhodná z hlediska snadné implementace klientů i serverů. Dále tak nemohou vznikat problémy v důsledku softwarových chyb či neočekávaných ukončení spojení. Tyto výhody zřejmě převažují omezení plynoucí z bezestavovosti HTTP. Protože je ale velká potřeba uchovávat stavové informace v prostředí internetu, musí tvůrci www stránek toto omezení překonat. Existují proto různé metody, jimiž se zabývá druhá kapitola.

1.3 HTTP 1.1 Za aktuální verzí protokolu HTTP 1.1 stojí dlouhý vývoj. Od vzniku v roce 1990 prošel mnoha úpravami, postupně byly začleňovány nové prvky v souladu s potřebami rychle rostoucího počtu WWW stránek a vylepšováním jazyka HTML. Co se týká samotných internetových prezentací, došlo k posunu od jednoduchých statických stránek k daleko složitějším dynamickým aplikacím. Princip fungování protokolu HTTP však zůstal stejný. Ve verzi HTTP 1.1 byly přidány potřebné funkce, jež překonávaly mnohá omezení předchozích verzí (HTTP 0.9 a 1.0) tak, aby bylo dosaženo optimálnějšího využití přenosových kapacit síťových prvků a komunikace v síti internet se zrychlila. Na mysli mám hlavně zavedení perzistentního spojení, díky kterému již server nemusí otevírat nová spojení pro všechny části složeného dokumentu (např. HTML galerie obrázků) a postačí mu jedno, jež po skončení přenosu zavře. Druhým citelným omezením historických verzí HTTP byla možnost pouze jednoho doménového jména pro jednu IP adresu, což se v praxi ukázalo být nedostačující, a tak se tento problém vyřešil zavedením povinné hlavičky požadavku Host, díky níž může být pod jednou IP adresou provozováno více virtuálních serverů s odlišnými doménovými jmény. Jako další vylepšení zmíním podporu pro vyjednávání o obsahu, částečné přenosy a zpřesnění specifikace týkající se spolupráce i chování proxy a cache serverů. Platným standardem IETF v posledním znění je dokument RFC 2616 [27] uveřejněný v červnu 1999. 1.3.1 Perzistentní spojení Při tomto spojení nechá server po odeslání odpovědi klientovi po krátký časový interval otevřený přenosový kanál. Klient tedy nemusí v případě navazujících požadavků navazovat nová spojení a může tento kanál opětovně využívat pro veškeré části složeného dokumentu, jež je požadován, dokud některá ze stran neodešle hlavičku Connection: close. Tento model významně urychluje komunikaci mezi klientem a serverem, jsou-li stahované

12

Common Gateway Interface – definuje názvy proměnných, kterými server předává programu data. Dále jednoznačně označuje proměnné, které v CGI programu odpovídají HTTP hlavičkám. Např. pro hlavičku User-agent je v CGI proměnná HTTP_USER_AGENT.

Strana 15

Kapitola 1: Protokol HTTP dokumenty složeny z více dílů. Např. HTML stránky obsahující grafiku, obrázky a kaskádové styly v připojených souborech.

Obrázek 4: Perzistentní spojení v HTTP – zasílání opakovaného požadavku

Tzv. pipelining slouží k ještě mocnějšímu urychlení komunikace, ovšem ne všechny HTTP servery ho podporují a správně implementují. Spočívá v tom, že klient v rámci daného spojení nečeká na odpověď serveru, ale odesílá více požadavků najednou.

Obrázek 5: Pipelining – zasílání více požadavků najednou při perzistentním spojení v HTTP

1.3.2 Podpora virtuálních serverů Pomocí přidané hlavičky Host lze na jedné IP adrese provozovat množství různých virtuálních serverů. Tato hlavička je v HTTP 1.1 povinná, proto pokud ji požadavek neobsahuje, server odpoví chybovým hlášením (kód 400 – chybný požadavek). V hlavičce Host je uveden název serveru (příp. číslo portu) z URL požadovaného dokumentu. Pro ilustraci uvádím část požadavku klienta pro stahování dokumentu z adresy na virtuálním serveru http://virtual.server.net/doc.html: GET /doc.html HTTP/1.1 Host: virtual.server.net ... Nastavení DNS Pro nastavení virtuálních serverů v DNS se používají tzv. „A“ a „CNAME“ záznamy. A záznam určuje, na jakou IP adresu bude doména nasměrována. Jeho pomocí lze také vytvořit doménu III. řádu k již existující doméně II. řádu. Takto nově vytvořená doména III. řádu poté samostatně odkazuje na jiný www server (jinou IP adresu), nezávisle na nadřazené doméně II. řádu. Následuje příklad možné změny DNS pomocí zákaznického centra hostingu www.active24.cz. Obrázek 6 zachycuje formulář grafického rozhraní, v poli Jméno se určuje název virtuálního serveru, TTL (Time to Live) je volitelný parametr udávaný v sekundách, určující jak dlouho se mají data uchovávat v databázi. V tomto případě dochází k přesměrování domény www.novanet.cz na novou IP13 adresu:

13

Takovéto nastavení DNS má přímí vliv na funkčnost domény, v případě zadání špatné IP adresy nebude směrování správně fungovat.

Strana 16

Kapitola 1: Protokol HTTP

Obrázek 6: Nastavení A záznamu v konfiguraci DNS

CNAME (Canonical Name) slouží k vytvoření aliasů k doménovému jménu, nebo pro vytvoření domén III. řádu. Nepracuje se tedy přímo s IP adresami ale s doménovými jmény. Obrázek 7 ukazuje vytvoření domény III. řádu eshop.novanet.cz a její nasměrování na doménu onlineshop.unas.cz. V tomto případě musí být pro správnou funkci v poli Alias k na konci URL tečka.

Obrázek 7: Nastavení CNAME záznamu v konfiguraci DNS

1.3.3 Vyjednávání o obsahu Toto rozšíření se hodí, když je dokument dostupný ve více verzích (jazykových, kódování) nebo formátech pro různé klienty14 (prohlížeče rozličných zařízení). Vyjednávání o obsahu má podle RFC 2616 tři typy umožňující vybrat pro uživatelské zařízení nejvhodnější formu požadovaného dokumentu: − Vyjednávání řídí server – na základě přijatých hlaviček z požadavku klienta vybere vhodnou formu dokumentu, jež následně odešle v odpovědi. Zmiňované hlavičky požadavku určené k tomuto typu vyjednávání o obsahu mívají zpravidla názvy začínající na „Accept“. K nabídnutí dostupných variant klientovi slouží serveru hlavička Vary. Pro příklad následuje ukázka použití metody OPTIONS ke zjištění, jaké dotazy (metody) může klient pro vybraný kontext serveru zaslat a výňatek z odpovědi serveru:

14

Kromě počítačů se jedná především o různá mobilní zařízení s přístupem na internet, WAPové prohlížeče mobilních telefonů či kapesních počítačů. Ty většinou nejsou na rozdíl od stolních PC schopny zobrazit stránky v HTML, proto jsou dnes pro takováto zařízení k dispozici dokumenty v jazyce WML.

Strana 17

Kapitola 1: Protokol HTTP OPTIONS * HTTP/1.1 Host: www.server.net HTTP/1.1 200 OK Date: Sun, 6 Aug 2006 11:15:47 GMT Server: Apache Vary: Accept-Charset,Accept-Language,Accept-Encoding Allow: GET, HEAD, OPTIONS, TRACE Transfer-Encoding: chunked Content-Type: text/plain − Vyjednávání řídí klient – po obdržení informací od serveru o dostupných verzích dokumentu klient sám, nebo po interakci uživatele, vybere vhodnou variantu a následným požadavkem dokument získá. Ukážeme si zde několik hlaviček a hlavně parametr q určující klientovy preference jednotlivých variant požadovaného dokumentu: Accept: text/html,text/plain;q=0.8,image/png,*/*;q=0.5 Accept-Language: cs,en-us;q=0.7,en;q=0.3 Accept-Encoding: gzip,deflate Accept-Charset: windows-1250,utf-8;q=0.7,*;q=0.7 Klient takto dá serveru jasně najevo, jaké typy informací přijme a příslušné preference mezi nimi. Implicitní hodnota q=1 se neuvádí, značí objekt s nejvyšší preferencí. Pokud se dle příkladu na serveru nevyskytuje cs varianta a en-us i en ano, bude vybrána en-us díky vyšší hodnotě q. − Transparentní vyjednávání – tento typ komunikace je kombinací obou předchozích a lze ho využít za předpokladu použití proxy cache serveru. Nastavení Apache S předchozím textem také souvisí nastavení na straně serveru, v případě Apache se v konfiguračním souboru conf\httpd.conf pomocí direktivy Options MultiViews povolí výše zmíněné vyjednávání o obsahu (Content Negotiation). Tento kód se nachází uvnitř tagu určujícího adresář, jehož se nastavení týká: Options Indexes FollowSymLinks MultiViews AllowOverride None Order allow,deny Allow from all 1.3.4 Určení délky S rozvojem dynamicky generovaných dokumentů prezentovaných na internetu nastal problém s určením velikosti zasílaného souboru. Dříve používaná hlavička Content-Length se stala nevyhovující, neboť při odesílání před samotným dokumentem je v případě generovaného obsahu problém zjistit jeho budoucí velikost. Server by tak musel čekat, než se celý dokument vygeneruje a to by způsobilo časové prodlevy. Proto byl vynalezen způsob zakódování přenášených dat tak, aby mohla být odesílána po částech, přičemž každá část je uvozena svou délkou. Tento způsob se značí hlavičkou Transfer-Encoding:chunked. Strana 18

Kapitola 1: Protokol HTTP 1.3.5 Spolupráce s proxy a cache Ve specifikaci HTTP 1.1 je velmi podrobně řešena spolupráce klientů a serverů s cache a proxy servery. S dokumenty uloženými v cache se pracuje na základě jejich expirace (vypršení platnosti), data pořízení kopie a validace (ověření). Jsou uvedena standardní pravidla chování cache a proxy serverů, včetně hlaviček umožňujících měnit tato pravidla pro konkrétní požadavky, resp. dokumenty. Funkci cache v sobě mají zabudovanou také prohlížeče klienta, princip je stejný. Prohlížeč si dočasně ukládá do paměti navštívené stránky, aby je následně mohl rychle načíst při opětovném požadavku. Podrobněji se tomuto tématu bude věnovat třetí kapitola. 1.3.6 Další změny Výčtem změn by se dalo pokračovat ještě dlouho, ovšem pro potřeby této práce to není nutné a postačí zmínit podstatné novinky. Zavedena byla podpora vyžádání a přenosu neúplných dokumentů v určitém rozmezí bytů, což v praxi umožňuje přerušení a následné navázání stahování dokumentů. Přidány byly nové metody (OPTIONS a TRACE). Celkový počet stavových kódů je 37 a specifikace HTTP 1.1 byla obohacena o 30 nových hlaviček.

1.4 Cookies Cookies jsou rozšířením protokolu HTTP umožňujícím uchovávání stavových informací na straně klienta, překonávají tak omezení bezestavovosti, o kterém je psáno výše. Cookies je věnována pátá kapitola, nicméně považuji za vhodné je zde zmínit. Nejrozsáhlejší specifikace cookies se nachází v dokumentu RFC 2965 [30] pocházející z roku 2000, blíže k tomuto dokumentu a ostatním historickým verzím je psáno v subkapitole 4.1. Jedná se o soubory s časově omezenou platností uložené v počítači klienta. Obsahují názvy a hodnoty proměnných, jež mohou být opakovaně užívány při přístupu k serveru, z něhož pocházejí. Cookie je u klienta uložena (na pevný disk či do operační paměti) po zaslání odpovědi serverem obsahující hlavičku Set-Cookie. Podle místa uložení rozlišujeme tzv. „session cookies“ uložené v operační paměti (vymazané po ukončení prohlížeče) a „trvalé cookies“ uložené na disku do okamžiku vypršení jejich platnosti. Pokud klient obsahuje cookie platnou pro daný server15, odesílá jí tomuto serveru s každým svým požadavkem.

15

Cookie platí pouze pro server, ze kterého byla klientovi odeslána, a to po dobu platnosti určenou při jejím vytvoření.

Strana 19

Kapitola 2: Stavové informace

2 Stavové informace S rozvojem interaktivity webových aplikací16 vzrostla také potřeba přenášet a uchovávat stavové informace. Na to ovšem protokol HTTP není uzpůsobený, neboť s každým přijatým požadavkem klienta je na straně serveru zacházeno jako s prvním. Proto je nutné mít takové informace obsaženy přímo v požadavku, aby je server mohl postoupit na něm implementovanému CGI skriptu nebo jiné aplikaci, která je dále zpracovává. Tyto nároky více či méně efektivně splňuje několik různých metod, jejichž popisem a diskuzí jejich výhod a nevýhod se budu zabývat v následujícím textu.

2.1 Metody uchovávání stavových informací Metod pro uchovávání stavových informací je celá řada. Hlavním kritériem jejich rozlišení je hledisko uložení stavových informací. Mohou být uloženy buďto na straně klienta, nebo na straně serveru. Vždy je ovšem nutností alespoň část informací posílat. Pokud jsou uloženy na straně klienta, musí se serveru poslat všechny, se kterými je potřeba dále pracovat. V případě uložení na straně serveru je nezbytné při komunikaci s klientem si vzájemně odesílat jednoznačné identifikátory umožňující přístup k odpovídajícím stavovým informacím. V obou situacích je tedy legitimní hovořit o metodách přenosu stavových informací (viz kap. 2.3). 2.1.1 Na straně klienta Jedná se o udržení přijatých stavových informací od serveru po dobu přerušení spojení a jejich následné odeslání zpět s dalším požadavkem. K tomuto účelu slouží již zmíněný mechanismus cookies17, který je pro server jedinou cestou, jak do počítače klienta uložit soubor s daty a následně ho získat zpět18. Používání cookies může uživatel zamezit, proto je nutné umět uchovat stavové informace i jinak. Takto uchovávané informace jsou dynamicky vygenerovány a skryty v pozadí dokumentu načteného v prohlížeči19. Nejčastěji jsou zakódovány v URL všech vnitřních odkazů stránky, nebo jako hodnoty skrytých formulářových polí. 2.1.2 Na straně serveru Pokud má webová aplikace práva pro práci se systémem souborů na serveru (většinou pouze v adresáři, kde je aplikace umístěna), může stavové informace dané relace uchovávat tak, že pro ně vytvoří zvláštní soubory. Druhou možností je využití databáze (většinou relační), ve které mohou být data relace uloženy. V každém případě je ale nutné mezi klientem a serverem přenášet identifikátor relace.

16

Online nakupování, práce s e-maily, vyhledávání v databázích, ověřování uživatelů při vstupu do systému, různá uživatelská nastavení atd.

17

Ten je samozřejmě schopen stavové informace udržet i déle, než jen po dobu zobrazení stránky v prohlížeči.

18

Server samozřejmě nemá právo manipulovat se systémem souborů u klienta. Do dočasné paměti se sice ukládají soubory z internetu, využívají se ale pouze k rychlejšímu znovunačítání dokumentů a nejsou odesílány zpět serveru. 19

Skryty oku běžného uživatele, jsou totiž obsaženy ve zdrojovém kódu, nemají však grafickou reprezentaci.

Strana 20

Kapitola 2: Stavové informace

2.2 Členění z hlediska významu Z významového hlediska dělíme stavové informace na identifikační a transakční. Pro práci uživatele s webovou aplikací se vžil termín „relace“ neboli „sezení“ (z anglického session). Takto bývá označován časový úsek od přihlášení uživatele (či první návštěvy stránky20) po odhlášení z aplikace, přechod na jiný server nebo ukončení prohlížeče21. 2.2.1 Identifikační informace Slouží k udržování spojitosti mezi aktuální relací a jejím vlastníkem. Pro identifikátor relace se vžil anglický termín „session-id“. Je důležité, aby v rámci jedné webové aplikace existovaly pouze unikátní identifikátory, jinak by takovýto systém nemohl správně fungovat. V případě přenosu identifikátoru je též relevantní mluvit o bezpečnostních aspektech, neboť by mohl útočník při úspěšném zcizení takovéto informace získat přístup do zabezpečené zóny s chráněnými informacemi a vydávat se tak za legitimního uživatele. Není vhodné identifikátory ukládat ani přenášet v tzv. „otevřené“ formě. Pro ochranu se používají různé šifrovací algoritmy. 2.2.2 Transakční informace Většinou představují data zadaná uživatelem během určité transakce (konečné posloupnosti kroků vedoucí k reakci systému). Jako příklad uvedu vyplnění formuláře a jeho odeslání s následnou zprávou serveru o provedené akci. Nebo práci v administrátorském rozhraní – mazání položek stiskem tlačítka (systému je odeslán identifikátor položky a následně po smazání je poslán identifikátor výsledku akce, na jehož základě je pak uživateli generována zpráva o úspěšnosti úkonu). V tomto případě jsou identifikátory transakčními informacemi a po provedení akce ztrácejí svůj význam a jsou vyřazeny.

2.3 Metody přenosu stavových informací Z předchozího textu je zřejmé, že k přenosu stavových informací22 musí docházet vždy, a to bez ohledu na to, kde jsou uloženy, jestli na straně klienta nebo serveru. Metody přenosu pomocí HTTP lze rozdělit do dvou kategorií. Největší skupinou jsou metody využívající přímo vlastnosti protokolu HTTP. Druhou kategorii tvoří Cookies – jedná se o rozšíření protokolu HTTP (viz pátá kapitola).

20

Ne všechny webové aplikace pracující se stavovými informacemi vyžadují přihlášení uživatele. Relace tak vzniká v pozadí, leckdy aniž by to uživatel věděl. Na druhou stranu je zřejmé, že uživatele nezajímá systém stavových informací zajišťující funkčnost jím navštíveného systému – to je věc programátora. 21

Pokud ani jedna z těchto událostí nenastane, je vhodné mít relace omezené dobou platnosti pro větší zabezpečení dat. Toto omezení spočívá v tom, že pokud po určitý časový interval není zaznamenána žádná interakce od uživatele (zpravidla to bývá půl hodiny, podle úrovně zabezpečení – např. elektronické bankovnictví má kratší dobu expirace), relace vyprší a uživatel se musí přihlásit znovu. Zamezuje se tak zneužívání relací třetími osobami. 22

Alespoň jejich části – identifikátoru relace.

Strana 21

Kapitola 2: Stavové informace 2.3.1 URL požadavku Přenášet stavové informace v URL lze třemi různými způsoby. Výhodou této metody je, že ji uživatel nemůže blokovat, na rozdíl například od Cookies. První dva způsoby mají sice poměrně jednoduchou implementaci, ale jejich velkou nevýhodou je nutnost dynamicky generovat veškeré odkazy zpět na daný server tak, aby v sobě předávané informace udržovaly: − Za otazníkem po názvu dokumentu – takto se předávají skriptu parametry. Většinou bývají od sebe odděleny znakem „&“ a název od hodnoty parametru znakem „=“. Je to zřejmě nejčastěji používaný způsob, neboť nevyžaduje žádné náročné nastavení webového serveru a je podporován mnoha implementačními prostředími pro webové aplikace, zejména extrakcí dat z této části URL do proměnných. Tento způsob je vhodný pro přenášení transakčních i identifikačních informací. Při použití automatického přepisování odkazů v PHP se tato metoda také využívá, slouží k zajištění funkčnosti aplikace uchovávající identifikátory pomocí cookies (viz kap. 4.4), pokud jsou klientem odmítnuty. Spočívá v přidání konstanty SID do parametru URL, ta je prázdná dokud funguje mechanismus cookies. V opačném případě obsahuje identifikátor relace, jenž se následně objeví v URL (což s sebou přináší bezpečnostní rizika). Takto mohou vypadat absolutní URL včetně dat za otazníkem: http://www.server.net/urlrequest1.php?user=ota&lang=cs http://www.server.net/urlrequest2.php?logout&sid=c95c766e8b0 − Za jménem dokumentu jako virtuální adresář – je vlastně obdobou metody první. Přenášená data se za jménem souboru oddělují lomítkem, jako by šlo o adresářovou strukturu. Může se kombinovat s metodou první a za tuto strukturu oddělenou lomítky lze ještě přidat otazník s dalšími parametry. Tato metoda vyžaduje odpovídající nastavení serveru, který předá parametry CGI skriptu v proměnné PATH_INFO. Tento způsob nepatří mezi příliš rozšířené, např. v PHP není přímo podporován a je nutné pro práci s PATH_INFO napsat vlastní skript. Nehodí se díky obtížnějšímu převodu na proměnné k přenosu transakčních informací, bývá používán k přenosu identifikátorů: http://www.server.net/urlrequest3.php/c95c766e8b0/ota http://www.server.net/urlrequest4.php/c95c766e8b0/ota/?lang=cs − Před názvem dokumentu jako součást cesty – výhodou tohoto způsobu je skutečnost, že se nemusí dynamicky generovat odkazy uvnitř dokumentu, jako tomu bylo v případě metod předchozích. Takto předávané informace jsou totiž automaticky součástí cesty ke každému relativně odkazovanému dokumentu. Obtížnější je ale implementace, na serveru je nutný zásah do konfigurace, aby virtuální adresáře nebyly považovány za součást cesty k dokumentu. Proměnná REQUEST_URI obsahuje celou adresu požadavku a z ní je možné přenášené informace extrahovat. Tato metoda je vhodná pro přenos identifikátorů neměnných v průběhu relace. Následující příklady obsahují stavové informace (jméno uživatele „ota“ a identifikátor relace „c95c766e8b0“), aniž by to bylo navenek zřejmé: http://www.server.net/ota/urlrequest5.php http://www.server.net/ota/c95c766e8b0/urlrequest6.php

Strana 22

Kapitola 2: Stavové informace Nastavení Apache Server Apache již od verze 1.2 obsahuje modul s názvem mod_rewrite, umožňující různé změny URL23, jako např. změnu přípony souboru či vložení virtuálních adresářů do cesty. Jde vlastně o přesměrování virtuálních adres na existující soubory (fyzická cesta se v URL nahrazuje virtuální – většinou jednodušší, čitelnější a lépe zapamatovatelnou). Tento modul tedy umožňuje také vložení stavových informací do URL jako součást cesty, před názvem dokumentu. Zajímavý je ale také z hlediska dnes aktuálního tématu optimalizace stránek, tzv. SEO (Search Engine Optimization). Lze tak totiž vkládat klíčová slova do URL. Pro zavedení modulu mod_rewrite je nutný zásah do konfiguračního souboru serveru Apache conf/httpd.conf. V tom může být u některých komerčních webhostingů problém, pokud modul není zaveden. Uživatel totiž většinou nemá přístup ke konfiguračnímu souboru a právo jej měnit. Syntaxe vypadá takto: LoadModule rewrite_module modules/mod_rewrite.so AddModule mod_rewrite.c Jednotlivá pravidla pro přesměrování se pak uvádí v souboru .htaccess přímo v adresáři s obsahem webu. K editaci těchto souborů už většinou uživatel právo má, např. pomocí FTP či administrátorského rozhraní zákaznického centra. K správnému nastavení je potřeba znát syntaxi regulárních výrazů, blíže viz [3]. Na příkladu si ukážeme vložení identifikátoru relace do URL, jejíž výsledná podoba má být: www.server.net/pc/eshop/c95c766e8b0/cart.php Soubor .htaccess v kořenovém adresáři pc/ bude obsahovat tento kód: RewriteEngine On RewriteBase /pc RewriteCond %{REQUEST_URI} /eshop/ RewriteRule eshop/[^/]+/(.*)$ eshop/$1 [L] Tento kód zajišťuje nalezení souboru cart.php v adresářové struktuře webu i přesto, že URL obsahuje identifikátor (virtuální adresář), který by byl jinak brán jako podadresář fyzické struktury. Dojde vlastně k přepsání správnou adresou, přičemž identifikátor z původní URL bude k dispozici v proměnné REQUEST_URI. Hybnou částí kódu je řádek s příkazem RewriteRule, více napoví jeho formalizovaný zápis: RewriteRule <čím přepsat> [příznaky] $1 značí první regulární výraz v závorkách (v tomto případě jakýkoliv soubor, protože „.*“ značí libovolný počet libovolných znaků), řetězec mezi eshop/ a jménem souboru se tedy z URL vypouští. Příznak [L] značí poslední pravidlo (může jich být více). Podrobné informace o mod_rewrite jsou v dokumentaci Apache [1], v češtině napsal o tomto tématu řadu článků Vojtěch Schlesinger ve svém seriálu [35].

23

Server Apache má k dispozici ještě další dva moduly s podobnými funkcemi. Jsou to mod_alias a mod_redirect. Ovšem mod_rewrite skýtá nejvíce možností (funkcí).

Strana 23

Kapitola 2: Stavové informace 2.3.2 Skrytá formulářová pole Tento způsob lze uvádět jako odlišný pouze v případě použití metody POST pro odeslání dat z formuláře. Při použití metody GET se totiž formulářová data posílají zakódovaná v URL, což z hlediska zařazení patří do předešlé kategorie. Při použití metody POST jsou data odesílána v zakódované formě v těle požadavku, což má jisté výhody. Hlavní je fakt, že ve většině případů tělo požadavku nebývá zaznamenáváno do logu serverů a také se data odeslaná touto metodou neobjeví v hlavičce Referer ani v historii prohlížeče. Ovšem tato data jsou po síti standardně přenášena v otevřené formě a lze je zachytit, čili tato metoda není zcela bezpečná pro přenos citlivých dat. Nazývat tato formulářová pole „skrytá“ je poněkud zavádějící. Jak již bylo psáno, nemají sice v prohlížeči žádnou grafickou reprezentaci, ale jsou vcelku snadno přístupná komukoliv, stačí si jen zobrazit zdrojový kód stránky, kde již tato pole nijak maskována nejsou. Formulář může obsahovat jak běžná, tak skrytá pole (hidden), které odesílá v požadavku současně. O tom, že tato metoda není příliš výhodná svědčí také fakt, že implementace je v porovnání s ostatními metodami obtížnější. Pro celou oblast webu, kde se má tato metoda použít, je potřeba vytvořit přechody mezi jednotlivými dokumenty pomocí formulářů a jejich odesílacích tlačítek (případně obrázků). Čili je opět nutné dynamicky generovat veškeré odkazy, resp. hodnoty skrytých formulářových polí. Navíc pokud uživatel v prohlížeči zvolí krok „Zpět“, vždy se zobrazí informační dialog o opětovném odesílání formulářových dat24. Teoreticky lze tuto metodu použít pro libovolný typ informací, lze pomocí ní posílat větší objem dat, než se vejde do URL (včetně souborů). V praxi se však díky náročné implementaci a nepříliš uspokojivé bezpečnosti používá jen zřídka, a to v případech jednorázového přenosu transakčních informací získaných od uživatele25. Následuje příklad (úryvek HTML):
2.3.3 HTTP autentizace Jde o jednoduchý mechanismus zabudovaný přímo v HTTP, umožňující s požadavkem odeslat také informace sloužící pro ověření přístupových práv uživatele k dokumentu. Pokud je autorizace k zpřístupnění dokumentu serverem vyžadována, zašle v odpovědi stavový kód 401 Authorization Required a hlavičku WWW-Authenticate (obsahující mimo jiné typ použité autentizace). HTTP autentizace má dva typy: „Basic“ a „Digest“, oba jsou popsány ve specifikaci RFC 2617 [28]. Rozdíl mezi nimi spočívá v tom, jestli je jméno (user) a heslo (passw) přenášeno

24

Této nepříjemnosti by se dalo předejít případným přesměrováním po každém požadavku na další stránku, což by bylo jistě velmi komplikované a řekl bych až „krkolomné“ řešení. 25

Po vyplnění formuláře, například při odesílání příspěvku do diskuze.

Strana 24

Kapitola 2: Stavové informace v nezašifrovaném26 (Basic), či zašifrovaném tvaru (Digest). Paradoxně se více používá typ „Basic“, díky jednoduché implementaci a podpoře, přestože je z hlediska bezpečnosti slabší27. Tato metoda má hned několik nevýhod. Neexistuje jednoduchý způsob, kterým by bylo možno ukončit relaci (odhlásit se). Nelze totiž donutit prohlížeč, aby přestal v požadavcích odesílat autentizační informace28. Vzniká tak například problém s přihlášením jiného uživatele na stejném prohlížeči. Další komplikací je nutnost mít přidělen identifikátor předem. Tato metoda tedy neumožňuje rozlišení jednotlivých uživatelů ještě před přihlášením29. Jiným faktem odrazujícím tvůrce webové aplikace od použití této metody může být samotné dialogové okno, jež zobrazuje prohlížeč a není možné ho upravit (graficky sladit s aplikací, jazykově přiblížit uživateli). Z předchozího textu je zřejmé, že tuto metodu je vhodné použít jen pro identifikátory, tj. uživatelské jméno a heslo, a to pouze v případech, kdy jsou tyto údaje uživateli vydány předem. Jedná se o účinný a jednoduchý způsob zamezení přístupu neautorizovaných uživatelů k chráněným dokumentům. Jiné použití této metody naráží na mnoho problémů a je proto nevhodné. HTTP autentizace typu „Basic“ používá například systém pro přístup k síťovým diskům počítačové sítě Vysoké školy ekonomické v Praze, nazvaný „NetStorage“ a přístupný na URL adrese http://netstorage.vse.cz. Pro příklad uvádím části požadavků a odpovědí z tohoto serveru při procesu autorizace. Nejprve požadavek s následným vyžádáním autorizace: -------------------------------------GET /oneNet/NetStorage HTTP/1.1 Host: silo.vse.cz ... HTTP/1.x 401 Authorization Required Date: Wed, 09 Aug 2006 14:42:07 GMT Server: Apache/2.0.54 WWW-Authenticate: Basic realm="CZ-VSE" ... Dále pak úspěšný požadavek po vyplnění jména a hesla: -------------------------------------GET /oneNet/NetStorage HTTP/1.1 Host: silo.vse.cz

26

Data nejsou šifrována, pouze je použito kódování Base64.

27

Zvláště když otevřené heslo posílá danému serveru s každým požadavkem a tyto údaje se z prohlížeče mažou až po jeho ukončení. 28

Pokud samozřejmě nedojde k ukončení prohlížeče.

29

Tato funkce je potřeba například v systému elektronického obchodu, kde zákazník vybírá zboží a teprve před uskutečněním objednávky použije své identifikační údaje, respektive vyplní jednorázově údaje potřebné pro účel dané transakce.

Strana 25

Kapitola 2: Stavové informace Authorization: Basic G5vMTWc23NGFiI= HTTP/1.x 200 OK Date: Fri, 11 Aug 2006 08:25:44 GMT Server: Apache/2.0.54 Cache-Control: no-store ... Z příkladu je zřejmé také použití kódování Base64 pro identifikátory. Nastavení Apache Opět se jedná o konfiguraci pomocí souboru .htaccess. Nastavuje se typ autentizace, název chráněné oblasti a odkaz na seznam oprávněných uživatelů a jejich kódovaná hesla: AuthType Basic AuthName "private" AuthUserFile /pc/eshop/.htpasswd Require valid-user Ukázka souboru .htpasswd obsahujícího jména a hesla: ota:PUKmf7awBcXyY pavel:BI.xSuTrbEYDo ... 2.3.4 Ostatní Mezi další teoreticky použitelné metody patří využití IP adresy a hlavičky From. Obě tato teoretická řešení mají mnoho nevýhod a v praxi se k přenášení stavových informací nepoužívají. IP adresa sice není součástí protokolu HTTP, ale funguje na nižší (síťové) vrstvě pod protokolem HTTP, proto ji zde zmiňuji. Hlavička From je sice uvedena ve specifikaci, ovšem prohlížeče ji s požadavkem neodesílají. Jak již bylo zmíněno, tato hlavička by měla obsahovat e-mailovou adresu uživatele posílajícího požadavek. Adresy elektronické pošty by se tedy dalo využít jako jednoznačného identifikátoru, ale také zneužít k rozesílání nevyžádané pošty či monitorování pohybu uživatele a tvorbě jeho profilu30. Zároveň by s sebou tato metoda nesla stejné neduhy, jako HTTP autentizace – nešlo by totiž ukončit relaci. Využití IP adresy by bylo jistě zajímavou formou identifikace uživatele – pokud by splňovala vlastnosti jednoznačného identifikátoru, což není. IP adresa je v případě připojení klienta k internetu pomocí modemu předmětem dynamického přidělování a má omezenou platnost, takže se často mění. V opačném případě mohou být například všechny počítače z podnikové sítě přistupující k internetu prostřednictvím proxy serveru na straně cílového serveru uvedeny pod stejnou IP adresou (proxy serveru31).

30

Obsahujícím údaje o tom, jaké stránky uživatel navštěvuje, odkud přichází atd. Což by bylo zneužitelné například pro cílení reklamy. 31

Poznatkům, týkajícím se fungování proxy serverů, je věnována následující kapitola.

Strana 26

Kapitola3: Proxy a cache

3 Proxy a cache V této kapitole následuje podrobnější popis fungování a chování proxy, resp. cache serverů, jakožto již zmíněných zprostředkovatelů při komunikaci mezi klientem a cílových serverem. Jednou z hlavních funkcí těchto serverů je automatické ukládání získaných odpovědí serveru pro možnost dalšího použití – tzv. „kešování“32. Zde je vhodné zmínit, že proxy server, alias zprostředkovatel spojení klienta a cílového serveru, může a nemusí fungovat také jako cache server (ukládat získané odpovědi), dále že funkci cache v sobě mají zabudovanou také samotní klienti. Jde o tzv. lokální cache v prohlížeči klienta. Může se tedy stát, že mezi klientem a cílovým serverem se při komunikaci prochází několika cache servery.

3.1 Principy kešování Mechanismus kešování byl vyvinut ve snaze přispět ke zvýšení výkonnosti distribuovaných informačních systémů založených na využití protokolu HTTP, jenž obsahuje řadu prvků umožňujících co možná nejlepší funkci cache. Posláním kešování je dosáhnout co možná největší sémantické transparence33 mezi odpovědí získanou z cache a odpovědí, která by byla získána z cílového serveru. Zajistit úplnou sémantickou transparentnost by bylo velmi náročné, a tak se při kešování takovéto požadavky částečně uvolňují. Protokol HTTP 1.1 poskytuje prostředky pro uvolnění, ale i posílení sémantické transparence. Umožňuje vyžádání kontroly a připojení varování k takové odpovědi, u níž sémantická transparence nedosáhla požadované úrovně. HTTP klienti mají možnost detekce jakékoli možnosti snížení sémantické transparence. Určení okamžiku expirace odpovědi a použití validátorů jsou základní, na sobě nezávislé, vzájemně se doplňující mechanismy, zajišťující dostatečnou sémantickou transparenci. Cílový server při odesílání originální odpovědi určuje okamžik její expirace. Ten je určen dobou, po kterou cílový server na tentýž příchozí požadavek zřejmě odpovídá stejnou odpovědí. Po vypršení tohoto okamžiku již odpověď uložená v cache není „čerstvá“ a nelze ji použít. Jinak tomu je v případě existence „čerstvé“ odpovědi v cache, ta je použita rovnou jako odpověď na klientův požadavek bez nutnosti přenosu daného dokumentu z cílového serveru. Validátory jsou hodnoty identifikující odpovědi serveru. Změní-li se odpověď, změní se také její validátor (specifická hodnota, kontrolní součet). Stačí tedy při zjišťování změn porovnávat validátory, tento proces se nazývá „validace“. Ta umožňuje použít nezměněnou odpověď k uspokojení příchozích požadavků i v případě, že již není „čerstvá“ (nastal okamžik expirace). Direktivy hlavičky Cache-Control se používají k zpřesnění a upravení pravidel kešování daných standardními kešovacími mechanismy. Tyto příkazy mají zpravidla přednost před základními mechanismy34. Pokud jsou hlavičky v rozporu, platí nejvíce omezující pravidlo (pro zachování co největší sémantické transparence).

32

Zřejmě nejlépe použitelný počeštěný výraz pocházející z anglického „caching“, odvozeného od termínu pro vyrovnávací paměť „cache“. Tento termín také použil ve své práci kolega Dlabač [5]. 33

Po sémantické (významové) stránce zcela shodné odpovědi.

34

Serverem určená doba expirace a validační mechanismus.

Strana 27

Kapitola3: Proxy a cache 3.1.1 Expirační mechanismus Největší výhody přináší kešování v případech, kdy se cache server může zcela vyhnout posílání požadavků na cílový server. K tomuto účelu je primárně serverem určen okamžik expirace (okamžik vypršení platnosti odpovědi). Než nastane, je možné vracet odpověď uloženou v cache k uspokojování opakovaných požadavků bez kontaktování cílového serveru. Princip je založen na schopnosti serveru přidělit odpovědi takovou dobou expirace, během níž by nemělo dojít k významné změně odpovědi, tudíž by zůstala zachována sémantická transparence. Okamžik expirace je určen hodnotou hlavičky Expires nebo Cache-Control direktivou "max-age". Po tom, co minul okamžik expirace, stává se kešovaná odpověď „nečerstvou“ a před případným použitím k uspokojení klientova požadavku je nutná její validace35 na cílovém serveru. V případě potřeby může cílový server validaci každého požadavku vynutit nastavením okamžiku expirace v minulosti, čímž dosáhne vždy „nečerstvé“ odpovědi v cache a tedy také její revalidace. V HTTP 1.1 lze pro stejný účel použít Cache-Control direktivu „must-revalidate“. Pokud cílový server neurčí okamžik expirace, HTTP cache pak tento okamžik odhadne sama s využitím heuristikého algoritmu pracujícího s hodnotami ostatních hlaviček (např. hodnota Last-Modified). Použití těchto algoritmů může narušit sémantickou transparenci a proto by bylo lepší, kdyby cílový server pokud možno vždy sám určil okamžik expirace odpovědi. 3.1.2 Validační mechanismus Pokud cache server obdrží požadavek, jehož odpověď v cache není „čerstvá“, musí být kontaktován cílový server, aby se zjistilo, zda je tento záznam stále použitelný a může být cache serverem vrácen klientovi jako odpověď. Tento proces se nazývá „validace“, při níž je cílovému serveru zasílán podmíněný požadavek. V rámci ušetření přenosových kapacit sítě podporuje protokol HTTP 1.1 užití podmíněných metod týkajících se „cache validátorů“. Při vytváření odpovědi na cílovém serveru se k ní připojí také validátor, který je pak uchován v záznamu cache36. Pokud klient37 tvoří podmíněný požadavek na již u sebe uloženou odpověď, připojí k němu také zmíněný validátor. Cílový server poté přijatý validátor porovnává s aktuálním validátorem dané odpovědi. Pokud jsou shodné, znamená to, že požadovaná odpověď se nezměnila a server odpoví speciálním stavovým kódem (obvykle 304 – Not Modified). Tím se ušetří přenosová kapacita sítě, místo aby se přenášela celá odpověď, stačí přenést jen tento stavový kód. Pokud se validátory neshodují, došlo ke změně odpovědi a server tuto aktuální odpověď zašle klientovi. Při tomto procesu je ušetřen přenos neaktuální odpovědi cílovému serveru a místo ní se přenáší jen validátor v podmíněném požadavku.

35

Zjištění, zdali je stále platná, nebo na cílovém serveru došlo ke změně a je nutno „nečerstvou“ odpověď v cache nahradit „čerstvou“ odpovědí cílového serveru.

36

Kešována může být také odpověď bez validátoru, a to do vypršení její platnosti (pokud tomu není zamezeno).

37

V tomto případě proxy-cache server, ale také prohlížeč klienta, který také ukládá navštívené stránky do cache (např. u prohlížeče Microsoft Explorer se jedná o složku „Temporary Internet Files“).

Strana 28


3.2 Kešování statických dokumentů Při rozvoji kešování měla podstatný vliv hlavička Last-Modified. Server do této hlavičky zapisuje datum poslední změny daného dokumentu (souboru), který je obsažen v odpovědi serveru na příchozí požadavek. Klient, respektive cache server, si tak pomocí této hlavičky může ověřit, zdali byl soubor od doby posledního požadavku změněn. Hlavička LastModified a mechanismus podmíněného požadavku (umožňující využití této hlavičky při kešování) byly uvedeny již v protokolu HTTP verze 1.0. Klient (cache) tedy při ověřování uložené dřívější odpovědi podmíněným požadavkem přidává do svého požadavku hlavičku If-Modified-Since, v níž uvádí čas poslední aktualizace uložené odpovědi z hlavičky Last-Modified. Pokud se soubor změnil, server ho pošle v odpovědi, pokud je stejný, odpoví pouze stavovým kódem 304 (Not Modified) a nic jiného nepřenáší. Posuzování aktuálnosti souboru založené na datu uvedeném v systému souborů na daném cílovém serveru může být problematické. Příklad uvedl kolega Dlabač [5]: Při přechodu z letního na zimní čas by za jisté situace mohl mít právě aktualizovaný soubor starší čas poslední modifikace než jeho předchozí verze38. Problémy podobného rázu by nastaly také při datování místním časem, ovšem tomu se předešlo používáním GMT (Greenwich Mean Time). Jiným příkladem dosažení nežádoucího stavu je situace, kdy je třeba nějaký dokument dočasně změnit. Po navrácení originálního dokumentu s původním datem bude cílový server na požadavky cache serverů, majících uložený dočasný dokument odpovídat kódem 304. Klient v iluzi, že se soubor nezměnil, bude dále používat k odpovědím dočasný (na cílovém serveru již odstraněný) soubor uložený v cache. Řešením výše popsaných problémů může být použití speciální hlavičky Etag. Jedná se o silný kešový validátor, fungující i v případech selhání mechanismu založeného na datu poslední změny. Hodnota hlavičky Etag se mění s každou změnou dokumentu, jedná se o unikátní řetězec, jako např. kontrolní součet nebo číslo. Pokud se dokument změní několikrát během jedné sekundy, pomocí hlavičky Last-Modified takovou změnu není možné zjistit, ale hlavička Etag změny odhalí. Validátory Last-Modified a Etag mohou být v odpovědích posílány současně. Ukážeme si to na podmíněném požadavku, jemuž předchází tato odpověď: HTTP/1.1 200 OK Date: Sun, 6 Aug 2006 11:15:47 GMT Server: Apache Last-Modified: Wed, 19 Jul 2006 06:27:30 GMT Etag: "f7c136-2c6e-5b985880" Accept-Ranges: bytes Content-Length: 11374 ... Při obnovení stránky v prohlížeči se klient podívá do své lokální cache. Zjistí, že požadovaný dokument má u sebe uložený a vyšle tedy cílovému serveru podmíněný požadavek, obsahující

38

Taková situace nastane, pokud je soubor vytvořen těšně před změnou letního času a záhy po přechodu na zimní čas modifikován.

Strana 29

Kapitola3: Proxy a cache hlavičky If-Modified-Since a If-None-Match s hodnotami validátorů z dokumentu v cache: GET / HTTP/1.1 Host: www.server.cz If-Modified-Since: Wed, 19 Jul 2006 06:27:30 GMT If-None-Match: "f7c136-2c6e-5b985880" Cache-Control: max-age=0 Pokud se požadovaný dokument od poslední návštěvy nezměnil, hodnoty obou validátorů se shodují a server odpoví stavovým kódem 304 Not Modified: HTTP/1.1 304 Not Modified Date: Sun, 6 Aug 2006 15:24:09 GMT Etag: "f7c136-2c6e-5b985880" Prohlížeč klienta tak může k uspokojení požadavku použít kopii z cache, aniž by znovu stahoval dokument z cílového serveru. Tímto se komunikace stává efektivnější a rychlejší. 3.2.1 Funkce proxy serverů Proxy server je systém, který umí na jednu stranu komunikovat jako klient (vůči cílovému serveru – zasílá mu požadavky a kešuje jeho odpovědi), na stranu druhou jako server (ve vztahu ke klientovi – na jeho požadavky posílá odpovědi z cache). Aby mohl být využit, musí se stát součástí komunikační cesty mezi klientem a cílovým serverem. Toho je možné dosáhnout konfigurací klienta (nastavení proxy v prohlížeči), nebo nastavením síťových routerů. Při nastavení konfigurace v prohlížeči klienta se požadavky odesílají na adresu proxy serveru a používají se specifické porty 8080 a 312839. Jistou výhodou pro uživatele je možnost změny konfigurace v případě potřeby. Nastavení proxy v Internet Exploreru V nejrozšířenějším prohlížeči od firmy Microsoft se nachází konfigurace proxy serveru v menu „Možnosti Internetu“ na kartičce „Připojení“. Stiskem tlačítka „Nastavení místní sítě...“ se otevře dialog, jehož část týkající se nastavení proxy ukazuje následující obrázek:

Obrázek 8: Konfigurace proxy v MSIE 6

39

Prohlížeč v požadavcích posílá absolutní URL včetně těchto portů.

Strana 30

Kapitola3: Proxy a cache Směrování routeru na proxy Jinak tomu je v případě směrování na proxy server pomocí konfigurace routeru. V takovém případě běží proxy server na typickém www portu 80 a klient, respektive uživatel, možná vůbec neví, že se se svými požadavky obrací na proxy server namísto cílového serveru. Aby takovýto proxy server správně fungoval, je nezbytné, aby klienti posílali své požadavky odpovídající protokolu HTTP 1.1. Jedině tak je možné při zpracování požadavku obsahujícího relativní URL odvodit absolutní URL pomocí hlavičky Host. Toto nastavení je typické pro lokální sítě, kde bývá proxy server jediným počítačem připojeným k internetu a veškerá vnější komunikace ze sítě probíhá přes něj. Takto dochází ke snižování nároků na přenosové kapacity bez ohledu na vůli uživatelů, což je zřejmě dost nepopulární funkce. Další takovou „oblíbenou“ funkcí může být filtrování dostupného obsahu z internetu40. K tomuto účelu na routeru slouží tzv. access-listy, přiřazené vždy určitému rozhraní a směru komunikace. Jedná se vždy o posloupnost omezení komunikace, s možností rozlišení jednotlivých síťových služeb, klientských stanic, portů atd. Konfiguraci routerů jsem se věnoval v minulém semestru při studiu Cisco Networking Academy při VŠE. Jako příklad tedy uvádím část příkazů používaných pro konfiguraci routerů Cisco: access-list 101 permit tcp any host 192.168.1.1 eq www access-list 101 deny tcp host 192.168.1.2 any eq telnet ... int fa 0/1 ip access-group 101 IN Vytvořený access-list s pravidly je nutné přiřadit rozhraní, v našem případě se omezení týkají rozhraní routeru FastEthernet 0/1 a komunikace směrem dovnitř. Problémy s proxy Použití proxy serveru s sebou může přinést také určité problémy. Cílový server, z něhož původně pocházejí kešované odpovědi, nemá nad těmito jím poskytnutými kopiemi jeho dokumentů žádnou kontrolu. Toho by bylo možné zneužít a změnou uložených dat v cache vydávat jiný obsah za obsah cílového serveru, aniž by se o tom dozvěděl. Další problém při použití cache nastává při počítání přístupů na určité www stránky. Počet přístupů je důležitý pro fungování internetové reklamy, která je založena na principu přidělování odměn za určitý počet návštěv stránky s reklamním obsahem. Když je reklama zobrazena pomocí odpovědi z cache, cílový server se o tom vůbec nedozví a nevykazuje tedy ani přístup k dané stránce, což provozovateli snižuje zisk. Tento problém vede často tvůrce internetových prezentací k zamezení kešování41, což je mnohdy zbytečné a omezuje to přínos kešování – ušetření síťových kapacit internetu.

40

Zřejmě ještě více neoblíbená funkce např. v řadách zaměstnanců. Pro management je výborným nástrojem umožňujícím blokovat ve firemní síti nežádoucí obsah či služby z internetu. 41

K řešení tohoto problému však existují jistě lepší a elegantnější řešení. Jedním z nich může být nepatrný generovaný obsah uvnitř stránky, který by díky nutnosti být generován zabezpečil pokaždé kontakt s cílovým serverem a možnost započítat přístup. Tento způsob navrhuje Pavel Satrapa ve svém článku [33]. Stačilo by ve snaze o co nejmenší velikost přenášených dat použít miniaturní průhledný obrázek generovaný skriptem serveru. Obsah stránky s reklamou by mohl být normálně kešován, až na tento obrázek (Pragma: no-cache).

Strana 31


3.3 Kešování dynamicky generovaných dokumentů Dynamicky generované dokumenty ve své podstatě kešovány být nemohou. Generování předpokládá časté změny výsledku při opětovném požadavku. Je tedy nutné vždy kontaktovat cílový server, který na základě požadavku spustí CGI skript či jiný modul serveru schopný vygenerovat HTML stránku použitou následně v odpovědi. Kešování by mělo smysl pouze tehdy, když by na stejný požadavek byla opakovaně generována stejná stránka42. Pokud je nežádoucí dané dynamicky generované dokumenty kešovat, je potřeba tomu zamezit. Pro tento účel je od protokolu HTTP 1.0 zavedena hlavička Pragma s hodnotou „no-cache“ a od verze 1.1 také několik direktiv cache-control. I bez použití těchto hlaviček většinou generovaný obsah není kešován, vytvořené dynamické stránky jsou totiž typicky vytvářeny v podadresáři /cgi-bin/ a cache servery takovéto odpovědi většinou neukládají. V některých případech však generované stránky být kešovány mohou. Příkladem mohou být stránky dostupné v několika jazykových verzích. Server se po přijetí požadavku rozhoduje, jakou verzi dokumentu poslat, např. na základě hlavičky Accept-Language. Klientovi může dát na výběr pomocí hlavičky Vary v odpovědi. Pro cache je obsah této hlavičky důležitý, poněvadž určuje jaké hlavičky musí být stejné v příchozím požadavku, aby mohl být pro odpověď použit uložený záznam. Cache (pracující podle HTTP 1.1) si tedy ukládá spolu s odpovědí také obsahy určených hlaviček z původního požadavku. Co se týče dříve zmiňovaných validátorů, skripty na serveru generující dynamické webové stránky je většinou v odpovědi nezahrnují, neboť není žádoucí kešovat tyto stránky. U generovaného obsahu většinou nebývá uvedena hlavička Content-Length, neboť hlavičky jsou odesílány v době, kdy se ještě požadovaný dokument generuje a nečeká se, až bude tento proces dokončen a bude možné zjistit velikost vygenerovaného souboru. Řešením by bylo počkat na vygenerování stránky a pak ji teprve posílat včetně hlavičky Content-Length. Interprety skriptovacích jazyků ovšem nečekají na dokončení akce a posílají serveru soubor sekvenčně po částech. Aby při absenci hlavičky ContentLength klient při otevřeném přenosovém kanálu poznal, že přenos stránky je ukončen, řeší se to buď uzavřením přenosového kanálu43 či použitím hlavičky Transfer-Encoding: chunked. U dynamicky generovaných stránek tedy v současnosti ke kešování převážně nedochází. Pokud se ale stránky neukládají, kešování ztrácí svůj smysl a pouze brzdí proces komunikace. Faktem také je, že mnohé skripty generované stránky jsou stále stejné, ale cache je považuje za dynamické a tudíž je neukládá. Tyto příklady nám poukazují na neefektivitu takovýchto síťových přenosů a potřebu dále mechanismy kešování vyvíjet44.

42

Ovšem v takovémto případě zřejmě nemá smysl obsah generovat, ale rovnou dokument na webu zpřístupnit jako statickou HTML stránku (a tím také umožnit jeji kešování). 43

Tím je ovšem přerušeno perzistentní spojení a tudíž eliminován jeden z hlavních přínosů protokolu HTTP 1.1.

44

Krokem vpřed by jistě bylo zavedení tzv. delta-algoritmů popsaných v RFC 3229. Aby je bylo možno používat, musely by být nejdříve provedeny změny v samotném protokolu HTTP. Více viz [5].

Strana 32

Kapitola3: Proxy a cache 3.3.1 Stavové informace a cache Stavové informace souvisí s dynamicky generovanými dokumenty. Tyto informace se často mění, ať již jde o identifikátory jednotlivých relací (při každé návštěvě systému jsou jiné), či transakční informace (liší se u jednotlivých transakcí). Je tedy zřejmé, že se kešovat nedají, navíc je zde kešování nežádoucí, neboť s sebou nepřináší žádnou funkčnost, ale jen chyby a bezpečnostní rizika. Pokud by se například cache obsahovala identifikátor relace, mohl by jej v době platnosti útočník zneužít k průniku do systému.

Strana 33

Kapitola 4: Cookies

4 Cookies V této kapitole se zaměřím na již zmíněné cookies, jež jsou nadstavbou protokolu HTTP umožňující uchovávat a přenášet stavové informace. Nebudu dopodrobna rozvádět, co to vlastně cookies jsou a jejich jednotlivé verze v historickém vývoji, těchto podrobností se lze dočíst v bakalářské práci kolegy Hauzírka [9]. Připomenu tedy jejich základní funkce, důležité pro základní pochopení mechanismu. Dále se zaměřím na velmi často diskutovanou otázku bezpečnosti cookies. Zajímavé také bude se na cookies podívat z hlediska jejich výkonu a velikosti.

4.1 Funkce a typy Mechanismus cookies je založen na principu ukládání informací na straně klienta (soubory s daty uložené v počítači uživatele). Již samotný tento fakt může budit v řadách lidí neznalých podrobnosti o fungování cookies jisté obavy z toho, že do jejich počítače může někdo neznámý z internetu ukládat soubory a nahrávat tak do počítače různá data včetně virů atd. Takováto nedůvěra však není oprávněná, neboť cookies jsou jen jednoduché textové soubory obsahující názvy proměnných a jejich hodnoty. Tím netvrdím, že s používáním cookies nejsou spojena žádná rizika, ale o tom až dále. Pomocí cookies si server může dočasně uložit potřebné stavové informace v počítači klienta. Při přijetí prvního požadavku server klientovi s odpovědí pošle také cookie. K tomu slouží hlavička Set-Cookie. Klient ji potom danému serveru posílá s každým dalším požadavkem zpět pomocí hlavičky Cookie. Velmi často se takto přenáší různé identifikátory, ovšem je zde i možnost serveru zasílat další hlavičky Set-Cookie a tím data přidávat, nebo měnit stávající. Toho lze tedy využít a uchovávat tak i transakční informace45. Na základě historického vývoje vznikly tři specifikace cookies. Mechanismus cookies byl vyvinut firmou Netscape Corporation46, která jej údajně implementovala již do své první veřejné verze Navigatoru v září 1994. Postupem času byly upravovány nedostatky prvotních specifikací a vznikly RFC dokumenty standardizované v rámci IETF. Dnes rozdělujeme cookies právě podle těchto specifikací, jimž odpovídají. Základní verze cookies jsou tedy označovány jako specifikace Netscape. V roce 1997 vznikl nový standard cookies popsaný v dokumentu RFC 2109 [25], kompatibilita s verzí Netscape byla zachována. Ani tato nová specifikace ovšem nesplňovala veškeré požadavky funkčnosti, a tak nedlouho po jejím vydání se začalo pracovat na ještě přesnějším standardu. Výsledek přišel až po třech a půl letech v podobě dvou dokumentů, RFC 2965 [30], respektive RFC 2964 [29]. Cookies nám jsou bohužel příkladem, že i přes veškerou snahu konsorcií o vývoj precizních specifikací uživatelé nakonec v praxi nemusí mít možnost tyto doposud nejlepší technologie a metody využít. V rozšíření cookies měla zásadní význam jejich podpora a implementace v majoritních prohlížečích. Jednalo se z počátku o Netscape Navigator, později také o Mozillu či Operu a hlavně dodnes nejrozšířenější Microsoft Internet Explorer. Bohužel, ne vždy tyto

45

Asi nejznámějším příkladem je virtuální nákupní košík v elektronickém obchodě.

46

Tvůrce dříve velmi úspěšného webového prohlížeče Netscape Navigator.

Strana 34

Kapitola 4: Cookies prohlížeče (ani v jejich nejnovějších verzích47) implementují zcela správně standardy v podobě RFC dokumentů a není tomu jinak ani v případě cookies a RFC 296548. Každý prohlížeč implementuje standardy takříkajíc „po svém“ a tak se většinou liší i různá nastavení. Z toho plyne, že při zachování požadavku na vysokou míru kompatibility je nutné se spolehnout na původní typ cookies podle specifikace Netscape, jenž je tedy masově rozšířen (včetně svojí nedokonalosti a z ní plynoucích rizik).

4.2 Bezpečnostní rizika Cookie vždy patří serveru (doméně), který ji uložil. Tzn. že klient ji má posílat pouze serveru, ze kterého pochází. Ale u cookies podle specifikace Netscape se však může stát, že cookie pocházející ze serveru na jedné doméně je odeslána na jiný server s jinou doménou, pokud jsou oba pod stejnou doménou vyšší úrovně. V případě shodujících se jmen takových cookies server nemůže rozeznat, která z nich mu patří. Takovéto situace by mohl využít útočník k podstrčení cizích dat. Takovéto jednání je označeno jako „cookie spoofing“. V následujícím příkladu je takováto situace popsána a vysvětlena, s drobnými změnami byl převzat z dokumentace RFC 2965 [30]: − Klient na svůj požadavek zaslaný serveru victim.server.net obdrží s odpovědí také hlavičku Set-Cookie: session_id=1111 a pro tuto cookie jako výchozí doménu nastaví victim.server.net. − Stejný klient poté odešle požadavek na server spoof.server.net a následně obdrží cookie session_id=2222 s explicitně nastavenou doménou na .server.net. − Tento klient znovu odešle požadavek na původní server victim.server.net obsahující Cookie: session_id=1111; session_id=2222; Takto přijdou serveru dva stejné identifikátory s různými hodnotami. V tomto případě byla serveru victim.server.net podstrčena hodnota cizího identifikátoru, tento server nemůže poznat, která hodnota „platí“, což může vyvolat nečekané důsledky. Co vlastně taková cookie může obsahovat za data? V podstatě cokoli, ovšem obavy z toho, že útočník pomocí cookie zjistí nějaká citlivá data z počítače klienta jsou nemístné, takové možnosti samozřejmě textový soubor nemá. Citlivá osobní data49 se však do cookie mohou dostat jinou cestou, pokud je například uživatel zadá do formuláře na webu. V tom případě, by mohla být zneužita, protože možnost spojení profilu50 uživatele s jeho identitou je pro cílení internetové reklamy jistě velkým lákadlem.

47

Píše se rok 2006, uběhlo již přes pět let od vydání standardu RFC 2965! Současné verze prohlížečů: Microsoft Internet Explorer 6.0 SP2, Mozilla Firefox 1.5 (Mozilla/5.0), Opera 9.0. 48

Důkazem tohoto tvrzení jsou například testy implementace jednotlivých typů cookies v několika majoritních prohlížečích [9].

49

Mezi takové údaje patří data, pomocí nichž lze určit totožnost uživatele. Jedná se tedy o jméno, adresu, rodné číslo, do jisté míry také zdánlivě anonymní kontakty jako je telefon či e-mailová adresa. 50

O tzv. profilování uživatelů se zmiňuji v dalším textu.

Strana 35

Kapitola 4: Cookies Riziko cookies vidím v momentě, kdy se podaří odeslat klientovi větší objem dat, než jaký je schopen najednou zpracovat a dojde k přetečení. Přijatá data se tak dostanou do zásobníku (bufferu), v této dočasné paměti je však prakticky možné spustit libovolný kód. Tato cesta možného zneužití cookies stojí jistě za zamyšlení. 4.2.1 Cookies třetích stran Zřejmě největší hrozbu narušení soukromí ze strany cookies představují tzv. cookies třetích stran (tento problém je nazýván též „neověřitelné transakce“). Potíže mohou nastat v situaci, kdy se požadovaný dokument skládá z více částí, z nichž některé nejsou uloženy na cílovém serveru, ale na serveru jiném a do dokumentu jsou vloženy. Vše vysvětlím na světoznámém příkladu využívání cookies americkou reklamní firmou DoubleClick Corporation k vytváření profilů uživatelů internetu, jak je uveden v [36]. V tomto případě je zmíněným vloženým cizím objektem do dokumentu (modifikované reklamní HTML stránky) reklamní banner. DoubleClick Network je velmi rozsáhlou síťí partnerských webů, do nichž takto vkládá svůj reklamní obsah. Pokud tedy uživatel nějakou stránku obsahující reklamní banner DoubleClick navštíví, komunikuje nejen s cílovým serverem, ale také stahuje reklamní proužek ze serveru DoubleClick. Ten s touto odpovědí pošle klientovi také cookie, která obsahuje jednoznačný identifikátor. Vzhledem k tomu, že je reklamní síť DoubleClick velmi rozsáhlá, je možné, že ten samý uživatel následně vstoupí i na další weby obsahující tuto reklamu. Když k tomu dojde, klient bez vědomí uživatele vyšle serveru DoubleClick cookie zpět s požadavkem na další reklamní banner. Tak je možno ukládat a spravovat data o tom, jaké servery uživatel s přiděleným id navštívil a sledovat tak do jisté míry jeho pohyb v síti. Takovému počínání se říká „vytváření profilů“, či „profilování uživatelů“. Takto vytvořený profil lze za jistých okolností spojit s identitou uživatele, což už je podle mého velké narušení soukromí. Jak jsem již zmínil, může se tak stát, pokud uživatel vyplní data schopná jej identifikovat v nějakém formuláři na webu. Společnost DoubleClick se dokonce snažila v roce 1999 spojit se společností Abacus vlastnící velkou databázi obyvatel obsahující jména a adresy. Spojením těchto databází by firma získala profily konkrétních lidí a jejich internetových zájmů. Díky okamžitým protestům však bylo zahájeno vyšetřování americkou Federal Trade Commission. Z uvedeného příkladu je zřejmé, že takovýto způsob použití cookies má velký přínos pro reklamu na internetu s možností cílení reklamy „na míru“ uživatele (díky jeho profilu). Není se tedy čemu divit, když se proti ustanovení v RFC 2109 týkajícím se výchozího nastavení prohlížečů a blokování cookies třetích stran zvedla obrovská vlna nevole, a to hlavně z řad reklamních společností. Paradoxně se přitom jedná o možnost ochrany soukromí uživatele. Cookie třetí strany není vždy spojena pouze s reklamou, může sloužit například auditu webových stránek. Z českého prostředí je známý server navrcholu.cz, jež poskytuje svá počítadla přístupů jiným serverům a umožňuje tak mapovat návštěvnost daných webových stránek.

Strana 36

Kapitola 4: Cookies

4.3 Velikost cookie Dle specifikace [30] soubor cookie nesmí přesáhnout 4 KB a klient má být schopen uložit alespoň 300 cookies, přičemž nejméně 20 cookies pro jeden server (případně doménu). Velikost souboru cookies.txt či všech jednotlivých souborů cookies dohromady se tedy obvykle bude pohybovat kolem 1 MB. Cookies tedy nevytváří žádnou zátěž systému (počítače) klienta a zabírají zanedbatelnou část kapacity paměti. Podle mého názoru jsou dnes již schopny s takovýmto objemem dat bez problému pracovat i mobilní telefony a další podobná zařízení.

4.4 Cookies a SID Cookie je leckdy vhodným nositelem identifikační informace. Speciální skupinou těchto informací jsou identifikátory relací (session). V různých vývojových prostředích bývají označeny podobně. Nejčastěji je to session_id v různých obměnách či zkratkách. V prostředí PHP má tento identifikátor defaultní název PHPSESSID. PHP má v sobě zabudovaný mechanismus umožňující spravovat relace. Pro účel předávání session_id podporuje dvě metody. Uložení a předávání pomocí cookie nebo URL požadavku. Navíc je definována konstanta SID, která v sobě nese název a identifikátor relace51. Princip fungování celého mechanismu přenosu session_id je následující: PHP se snaží identifikátor uložit pomocí cookie. V případě, že klient cookie nepřijme, je skript nucen použít konstantu SID a identifikátor předávat pomocí URL. Odkazy v celém dokumentu jsou generovány včetně SID. V lepším případě ale cookies fungují, konstanta SID je prázdná a nikam se nepřidává. Tato metoda je o něco bezpečnější, než předávání v URL, již z toho důvodu, že zde není session_id tak „na očích“. V ostatních vývojových prostředích je situace obdobná. Podle mého názoru je tedy vhodné, pokud možno používat k přenosu identifikátoru cookies a mít v záloze alternativní možnost předávat session_id pomocí URL – pro případ, aby nějaký „nedůvěřivý“ klient blokující cookie nepřišel o možnost práce se systémem.

51

Případně obsahuje prázdný řetězec, záleží na situaci popsané dále.

Strana 37

Kapitola 5: P3P

5 P3P – Platform for Privacy Preference Project V této kapitole se dočtete o mezinárodním standardu P3P vyvinutém odborníky z mnoha různých oborů, pojednávajícím o bezpečnosti a soukromí v prostředí internetu. Tato platforma se tedy netýká pouze cookies, ale komplexně se zabývá ochranou soukromí v rámci služby WWW. Pod hlavičkou konsorcia W3C tak vznikla rozsáhlá dokumentace týkající se P3P. Aktuální verzí je specifikace P3P 1.1 [38] z února 2006. Do povědomí se tato platforma dostala hlavně díky implementaci v Internet Exploreru 6.0, jenž ve výchozím nastavení odmítal cookies třetích stran ze serverů, které neměly definovánu bezpečnostní politiku v souladu s P3P. Paradoxně byl standard P3P do Internet Exploreru implementován dříve, než byl dokončen. Specifikace verze P3P 1.0 totiž pochází až z dubna 2002, ovšem k implementaci do prohlížeče MSIE 6 došlo již v roce 2001. Také tento fakt, implementace nedokončeného standardu s možností brzké změny, vyvolal jisté rozpaky při přijetí této nové bezpečnostní platformy. Myšlenkově se jistě jedná o krok kupředu, snaha byla o větší soukromí a informovanost uživatelů, ovšem problém spočívá v kontrole. Není totiž možné ověřit, zdali příslušný server bezpečnostní politiku dodržuje přesně tak, jak uvádí, či nikoliv.

5.1 Bezpečnostní politika Základem celého mechanismu P3P je vytvoření bezpečnostní politiky. K tomuto účelu slouží formalizovaně zapsaný XML dokument, uložený na serveru, jež danou politiku uplatňuje, cesta k souboru obsahujícímu reference P3P pravidel musí být /w3c/p3p.xml. Ještě než si upřesníme formát tohoto XML souboru, je dobré zmínit možnost zasílání zjednodušené verze této politiky pomocí HTTP hlavičky P3P v odpovědi klientovi. Komunikace v prostředí WWW se účastní tři strany. První stranou je cílový server (doména) obsahující požadovaný dokument a vše, co k němu patří (vlastní cookies). Stranou druhou je klient. Třetí stranou jsou všechny objekty, související s požadovaným dokumentem nebo přenosem, které se nenacházejí na cílovém serveru (doméně) ale někde mimo, na serveru jiném. Uvádím příklad z prostředí českého internetu52. Pokud si tedy například prohlížíme stránky www.server.cz, cookie poslaná tímto serverem bude brána jako kontext první strany. Naproti tomu grafika externího počítadla přístupů vložená do námi prohlížené stránky ze serveru www.navrcholu.cz bude objektem strany třetí. Pokud se používá SSL, jsou všechna data přenášená mimo zabezpečený kanál brána také jako obsah třetí strany. Zaveden byl také pojem „minimální doména“, což je část URL vymezující daný server (neobsahuje doménu třetího stupně ani adresáře). Když tedy klient se svým požadavkem odešle cookie pocházející ze serveru blog.server.cz na adresu www.server.cz, bude tato cookie brána jako obsah první strany, oba servery mají totiž stejnou minimální doménu. Stručně řečeno, P3P definuje pravidla pro popis politiky zacházení s osobními údaji uživatelů webových serverů. Základem jsou informace o provozovateli příslušného serveru – jeho

52

Podobný příklad uvádí Michal Till ve svém článku [37].

Strana 38

Kapitola 5: P3P totožnost a případný kontakt. Dále je nutno uvést, jaké informace server od uživatelů získává a podle jakých zásad s nimi pracuje (jsou rozděleny do tříd jako anonymní statistiky či osobní údaje). Popisuje se také, jakým způsobem jsou tato data získávána, jestli je k uložení vyžadován souhlas uživatele, na jak dlouho se uchovávají a za jakým účelem, případně komu mohou být dále poskytovány. Důležitým aspektem také je, jestli má uživatel, jenž se stal subjektem uchovávaných informací, možnost zjistit jaké informace jsou v souvislosti s ním uchovávány a zdali má právo požadovat jejich vymazání. Pokud je uživatel takto informován53, může se sám rozhodnout zda daný server navštíví a jaké informace mu o sobě poskytne. Otázkou je, zdali důvěřuje autorovi bezpečnostní politiky či nikoli, ten ji totiž nemusí dodržet. Všechna výše popsaná pravidla se v souboru obsahujícím bezpečnostní politiku zapisují pomocí výroků. 5.1.1 Výroky Bezpečnostní politika je v souboru XML popsána tzv. „výroky P3P“, což je vlastně soustava tagů54 jazyka XML. Nejvyšší úroveň představuje tag , jenž definuje použitý standard a obslužné adresy. Pro ukázky jsem zvolil části souboru55 obsahujícího bezpečnostní politiku serveru www.navrcholu.cz: Následují informace o serveru a jeho provozovateli uzavřené do tagu <ENTITY> a obsažená v tagu . Zde je další příklad syntaxe takovéto struktury tagů: <ENTITY> Internet Info s.r.o. Pha Tag informuje o možnosti přístupu uživatele k uchovávaným datům. Následující příklad neumožňuje žádný přístup k uchovávaným informacím: <none/>

53

Předpokladem je užívání softwaru s implementovaným P3P a alespoň základní znalost problematiky.

54

Párové formátovací značky, na jejichž základě fungují formátovací jazyky jako HTML a XML.

55

Zdrojový XML soubor je dostupný na adrese http://www.navrcholu.cz/w3c/policy.xml. Tento soubor je také dobrým příkladem toho, že servery (hlavně reklamní společnosti) využívající cookies třetích stran, byly implementací P3P do Internet Exploreru nuceny stanovit své bezpečnostní politiky a vyhovět tak pravidlům P3P, aby jejich systém mohl fungovat a jejich cookies (či jiný obsah) nebyly majoritními prohlížeči blokovány.

Strana 39

Kapitola 5: P3P Následuje příklad celého sestaveného výroku, popis jednotlivých partií je uveden dále: <STATEMENT> <develop /> <preference /> Takto zapsaná bezpečnostní politika je přehledná a hlavně se dá strojově zpracovat. Z uvedeného příkladu se dozvíme, že na serveru www.navrcholu.cz sbírají informace pro účely administrace a vývoje. Tato data jsou používána pouze pro interní účely a s nikým nejsou sdílena. Uchovávána jsou natrvalo a obsahují údaje jako je používaný prohlížeč, či cookies obsahující preference. Z uvedeného příkladu je zřejmé, že standard P3P definuje klíčová slova, která jednoznačně určují, proč a jaké informace vlastně daný server sbírá, jak s nimi posléze nakládá či komu mohou být dále poskytovány atd. Pokud se někdo necítí na sestavení vlastního XML souboru s pravidly, může využít například generátor P3P pravidel podle standardu W3C nazvaný P3P4U. Vytvořil jej v roce 2002 Michal Till – jeden z redaktorů internetového magazínu Krypta.cz. Tento generátor je dostupný na adrese http://atiks.krypta.cz/p3p/. Jedná se o sérii formulářů, které lze snadno vyplnit a výsledkem procesu je pak vygenerovaný XML soubor obsahující politiku bezpečnosti. Tento soubor lze následně otestovat validátorem na stránkách W3C a zajistit tak jeho správnou syntaxi.

5.2 Implementace Jak již bylo zmíněno, o první implementaci a zavedení P3P do širšího povědomí se zasloužil Microsoft díky jeho Internet Exploreru 6.0. Výchozí úroveň zabezpečení je nastavena na hodnotu „Střední“ a zřejmě nejdůležitější pravidlo při tomto nastavení se týká cookies. Povoleny jsou cookies třetích stran pouze u serverů, které mají nastavenou P3P politiku a které nesbírají osobní údaje identifikující totožnost uživatele bez jeho výslovného souhlasu. Všechny ostatní cookies třetích stran jsou blokovány. Díky tomuto pravidlu při uvážení rozšíření Internet Exploreru musel nutně nastat zásadní zlom. Servery využívající pro svou činnost cookies třetích stran byly nuceny definovat svoji P3P politiku. Ovšem zde je třeba podotknout, že se tato politika nemusí přesně shodovat se zájmy provozovatele serveru, hlavním jejím úkolem je totiž vyhovět požadavkům MSIE 6 tak, aby cookies „prošly“ a nebyly dále blokovány. Je tedy zřejmé, že pouhým definováním P3P politiky se nedá zamezit zneužívání cookies a neexistuje ani žádný systém kontroly. Vše tedy závisí na důvěře uživatele ve slušnost a pravdomluvnost provozovatele daného webu. Výhoda uživatele spočívá v tom, že díky platformě P3P by měl být lépe informován o tom, jaká data o něm server ukládá a jak s nimi Strana 40

Kapitola 5: P3P pracuje. Jedná se ale spíše o zkušenější uživatele, znající principy P3P, kteří jsou schopni měnit bezpečnostní nastavení v prohlížeči a chránit tak své soukromí podle individuálních preferencí a potřeb. Internet Explorer zavedl několik pravidel pro práci s cookies, což bylo podstatnou změnou oproti předchozím verzím, kdy byla cookie přijata bez jakékoli kontroly. Zásady pro zpracování cookies jsou čtyři. Rozhoduje se o tom, jestli bude cookie přijata nebo odmítnuta, může ale být také „snížena“ (downgrade) či „zkrocena“ (leash). Snížit lze perzistentní cookie, která je smazána při ukončení instance prohlížeče, případně v okamžiku expirace (pokud nastal dříve). Zkrocená cookie je posílána pouze s požadavky týkající se obsahu první strany, při odesílání požadavku na kontext třetí strany je potlačena a neodešle se. Navíc má uživatel možnost ovlivnit přijímání cookies56. V neposlední řadě jsou definovány tzv. „neuspokojivé cookies“, které přímo umožňují přístup k osobním údajům a není při sběru těchto dat dosud dle dané bezpečnostní politiky jasné, k jakém účelu se tyto údaje použijí. Nastavení Internet Exploreru Nyní se podrobněji podíváme na možnosti nastavení bezpečnosti a cookies v již zmíněném prohlížeči Microsoft Internet Explorer 6.0. Jedná se o nejrozšířenější prohlížeč, čemuž jistě tomu napomohl fakt, že byl integrován do operačních systémů Windows. Pro nemalou část uživatelů však může být problém vůbec odhalit, kde se ona nastavení týkající se cookies a ochrany soukromí nachází. Vše je rozptýleno na různých kartičkách, obsažených v menu „Možnosti Internetu“. Nejprve tedy nalevo kartička „Zabezpečení“ a napravo dialog po stisku tlačítka „Vlastní úroveň“.

Obrázek 9: Konfigurace zabezpečení v MSIE 6

56

Pomocí speciálního tlačítka na liště.

Strana 41

Kapitola 5: P3P V těchto dvou oknech se nastavuje úroveň zabezpečení pro zónu internetu a intranetu. Dále je zde možné specifikovat tzv. „Důvěryhodné servery“ a „Servery s omezeným přístupem“. Toto se týká např. přijímání certifikátů, spouštění ActiveX komponent atd. „Vlastní úroveň zabezpečení“ obsahuje rozsáhlý seznam pravidel pro práci s různými typy dokumentů, funkcí, událostí a komponent. Na obrázku 9 vlevo je vidět již zmíněná výchozí „Střední“ úroveň zabezpečení a vpravo pak zákaz obsahu třetích stran. Co se týká nastavení souborů cookies, pro ně je určena záložka „Osobní údaje“ a zde tlačítko „Upřesnit“ s možnostmi vlastního nastavení. Výchozí úroveň je opět „Střední“ jak ukazuje následující obrázek 10:

Obrázek 10: Správa cookies v MSIE 6

Vlevo můžeme vidět, že jsou při této úrovni blokovány cookies třetích stran serverů, jež nemají zveřejněnu vyhovující P3P politiku. Zajímavé je také omezování vlastních cookie, zpracovávajících osobní údaje bez „tichého“ souhlasu uživatele (tedy pokud server není uveden mezi důvěryhodnými). MSIE tedy sám omezuje platnost takové cookie na dobu trvání instance prohlížeče, nehledě na dobu jejich expirace určenou zdrojovým serverem. Napravo jsou pak možnosti vlastního nastavení práce s cookies, zda se mají automaticky přijímat, blokovat, či zda se má pokaždé prohlížeč dotázat uživatele. Jak je vidět, pravidla P3P, bezpečnostní nastavení a správa cookies není v Internet Exploreru nijak zvlášť integrovaná, ba naopak se nachází v několika různých dialogových oknech, což přehlednosti moc nepřidává. Tento prohlížeč navíc neobsahuje žádnou utilitu pro práci s přijatými soubory cookies, jak je tomu u jiných prohlížečů popsaných níže, majících speciálního „Správce cookies“.

Strana 42

Kapitola 5: P3P Ostatní prohlížeče Podobně jako Internet Explorer již mají implementovánu podporu P3P také ostatní prohlížeče. Jedná se většinou o pokročilé nastavení týkající se bezpečnosti, kde má uživatel možnost nastavit jakým způsobem se bude nakládat s cookies, kam se mohou ukládat důvěrná data, jestli se po ukončení prohlížeče tyto informace mažou atd. Pro představu zde předvádím grafické prostředí nastavení bezpečnosti v prohlížečích Mozilla Firefox 1.5 a Opera 9.0:

Obrázek 11: Nastavení práce s cookies v prohlížečích Firefox a Opera

Oba tyto prohlížeče také mají „Správce cookies“, díky kterému si může uživatel jednoduše zobrazit soubory cookies uložené v jeho počítači a tyto dále spravovat (editovat, mazat). Jak je vidět, i přes odlišnost jednotlivých grafických rozhraní prohlížečů jsou volby de facto stejné a poskytují odpovídající možnosti nastavení.

Strana 43

Kapitola 6: Aplikace

6 Aplikace Pro účely této práce jsem použil upravenou část již provozované aplikace Discovery Information System. Program je v jazyce PHP, data jsou v databázi MySQL. URL adresa pro přístup k této testovací verzi je http://www.discovery.cz/work. Pro přístup do aplikace je nutné se přihlásit pomocí jména a hesla. Vytvořil jsem proto uživatele „tester“ s heslem „vsepraha“. Přihlášení do systému je zabezpečeno metodou challenge-response, zadané heslo se tedy ještě na straně klienta zašifruje a přes internet je odeslána šifra místo otevřeného hesla. V databázi jsou hesla uživatelů také šifrována, porovnávají se tedy mezi sebou šifry, případný útočník při zcizení šifry nikdy nezjistí původní heslo. Při přihlášení vzniká relace, jejíž obsluha je zajištěna pomocí funkce session v PHP. Doba trvání relace je omezena na jednu hodinu, při delší neaktivitě dojde k ukončení relace a odhlášení uživatele ze systému. Ponechaná aktivní funkční část aplikace slouží k zadávání a editaci termínů možné práce pro průvodce. Je to část administrátorského rozhraní, pomocí něhož se zadávají nová data do databáze. Nabídka termínů je poté distribuována v uživatelském rozhraní (to už tato ukázka nezahrnuje).

6.1 Model navigace Tento zjednodušený typ modelu se mi zdál zajímavý a přehledný. Znázorňuje navigaci mezi jednotlivými stránkami aplikace s návazností na databázi: [vložení týdne]

Admin_Prog_Add_Form

[Neúspěšná]

[Uložení záznamu]

[Smazat týden] Admin_LogForm

Autorizace

Admin_Prog [Úspěšná]

DB_discovery [nač tení záznamu]

[Odhlášení] [Zobrazení]

Admin_Prog_Edit

[Změna záznamu]

Obrázek 12: Model navigace mezi stránkami aplikace

6.2 Konfigurace Konfigurační soubor se jmenuje settings.php. Jsou v něm uvedeny nastavení týkající se relace, přístupu k databázi, cesta k aplikaci v adresářové struktuře serveru, doba platnosti relace atd.

6.3 Zabezpečení Aplikace implementuje metodu challenge-response pro přenos hesla. Dále automatické ukončení relace, kontrolu IP adresy uživatele, či kontrolu a transformaci vstupu. Na části kódu vždy ukážu implementaci jednotlivých funkcí.

Strana 44

Kapitola 6: Aplikace 6.3.1 Challenge-response Princip spočívá v tom, že ještě před odesláním dat z formuláře se pomocí Javascriptu původní heslo zašifruje funkcí MD5, vzniklý hash se spojí s unikátním číslem přijatým od serveru a celý řetězec se opět zašifruje pomocí MD5. Výsledný hash je tedy pokaždé jiný. Přes internet se tedy neposílá „otevřené“ heslo. Server z databáze načte hash hesla uživatele, spojí ho se zmíněným unikátním číslem a zašifruje MD5. Výsledné řetězec porovná s příchozím od klienta, pokud se shodují, autorizace proběhne a uživatel je přihlášen. Nejdříve tedy část kódu ze souboru admin_logform.php obsahující unikátní číslo a použitý Javascript: <script language="JavaScript" type="text/javascript"> function transformPasswdIncUn(passwdField) { if (!passwdField.value) { passwdField.value = ""; } else passwdField.value = hex_md5(hex_md5(passwdField.value) + ""); } Javascript funkci MD5 neobsahuje, k tomuto účelu je použita knihovna od Paula Johnstona md5.js. Následuje část kódu ukazující práci serveru při procesu autentizace, spočívajícího v porovnávání zmíněných hashů. Úryvek ze souboru admin_login.php: $_SESSION["uniqueNumber"] = ""; $f_nick = formSecure($f_nick); connectDB(); if (!($logrslt = mysql_db_query($DB, "SELECT gid, md5pw FROM guides WHERE nick='$f_nick'"))){ DisplayErrMsg(sprintf("1st internal error %d: %s\n", mysql_errno(), mysql_error())); exit(); } $user = mysql_fetch_array($logrslt); if (!$user || (md5($user["md5pw"].$un) != $f_pw)) { header("Location:http://$HTTP_host$dcroot/a_logform.php"); exit(); } Nejdříve se vymaže unikátní číslo ze session proměnné, poté se ošetří vstup. Funkce formSecure() odstraňuje z vložených dat nebezpečné kusy kódu. Připojení k databázi zajišťuje funkce connectDB(), soubor obsahující všechny funkce je functions.php. PHP funkci MD5 obsahuje, je velmi jednoduché její použití. Syntaxi jsem zvýraznil, šifruje se hash hesla uživatele z databáze s unikátním číslem a výsledky se porovnávájí.

Strana 45

Kapitola 6: Aplikace 6.3.2 Kontrola IP adresy Funkce verify() ze souboru functions.php kontroluje stálost IP adresy během relace, mimo jiné také zdali je stejný klient (prohlížeč): function verify() { seshStart(); if (!isset($_SESSION["user"])) return 0; // user's IP address cannot change during one session if ($_SESSION["IP"] != $_SERVER["REMOTE_ADDR"]) return 0; // user's Client cannot change during one session if ($_SESSION["CLNT"] != $_SERVER["HTTP_USER_AGENT"])rtrn 0; return 1; } Takovéto zabezpečení pomáhá chránit aplikaci proti cizímu vniknutí při zneužití zcizeného identifikátoru. Minimálně to útočníkovi ztíží přístup do aplikace, když musí dokázat podvrhnout IP adresu i klienta. 6.3.3 Transformace vstupu Ke kontrole a případné transformaci vstupu uživatele (dat vyplněných do formulářů) slouží funkce formSecure(). Používá funkce pro práci s řetězci integrované v PHP: function formSecure($userInput) { if (!get_magic_quotes_gpc()) $Input = addslashes($Input); //$userInput = stripslashes($userInput); //$userInput = htmlspecialchars($userInput); $userInput = strip_tags($userInput); return $userInput; } Tyto funkce umí v textu hledat speciální znaky (např. tagy HTML), či automaticky vkládat, resp. odebírat escape znaky (zpětná lomítka). 6.3.4 Další funkce Celá řada funkcí a skriptů se týká obsluhy databáze a administrace volných pracovních termínů. Soubory se jmenují admin_prog*.php. Zde se hodně pracuje s transakčními stavovými informacemi, přenášené jsou většinou pomocí formulářových polí, dále pak jako součást URL za otazníkem v části query. Kompletní zdrojové kódy jsou k dispozici na přiloženém CD, aplikace je (jak již jsem uvedl) přístupná na adrese http://www.discovery.cz/work pod uživatelským jménem „tester“ a heslem „vsepraha“.

Strana 46

Závěr

Závěr V této bakalářské práci se objevila různá témata, jež všechna nějakým způsobem souvisí s protokolem HTTP. Základem je popis protokolu samotného, dále jsou popsány stavové informace. Hlavním tématem práce je jejich udržování a přenášení mezi klienty a servery. K tomu slouží relativně mnoho různých metod, které jsou zde přiblíženy. Diskutovány jsou mnohé otázky zabezpečení webových aplikací. Tato práce v sobě zahrnuje také problematiku kešování s popisem funkcí proxy a cache. Následuje díl věnovaný cookies, neboli rozšíření protokolu HTTP o možnost uchovávání stavových informací u klienta. Přínosný pro čtenáře je jistě také popis platformy P3P, týkající se zásad nakládání s informacemi z hlediska bezpečnosti a ochrany soukromí. V textu jednotlivých kapitol se často vyskytují krátké ilustrativní příklady z praxe. Mnoho příkladů ukazuje konfiguraci serveru Apache, ukázal jsem také jak nastavovat DNS záznamy, či jak vytvořit vlastní P3P politiku v XML. Praktickou část také tvoří aplikace pracující se stavovými informacemi a implementující zásady ochrany před možnými útoky. Aplikaci je věnována poslední kapitola, popis jednotlivých metod může posloužit jako návod k naprogramování vlastní zabezpečené aplikace. Dobrým námětem případné navazující práce by podle mého mohl být větší důraz na zde zmiňovanou problematiku bezpečnosti webových aplikací, dále pak podrobnější zpracování všech možných útoků na bezpečnost a soukromí uživatelů.

Strana 47

Rejstřík vložených obrázků a tabulek

Rejstřík vložených obrázků a tabulek Obrázky Obrázek 1: Komunikace klient-server v HTTP - opakované požadavky a nová spojení........ 10 Obrázek 2: Komunikace klient-proxy-server v HTTP ............................................................. 10 Obrázek 3: Komunikace v HTTP za použítí cache .................................................................. 10 Obrázek 4: Perzistentní spojení v HTTP – zasílání opakovaného požadavku ......................... 16 Obrázek 5: Pipelining – zasílání více požadavků najednou při perzistentním spojení ............16 Obrázek 6: Nastavení a záznamu v konfiguraci DNS .............................................................. 17 Obrázek 7: Nastavení CNAME záznamu v konfiguraci DNS ................................................. 17 Obrázek 8: Konfigurace proxy v MSIE 6................................................................................. 30 Obrázek 9: Konfigurace zabezpečení v MSIE 6 ...................................................................... 41 Obrázek 10: Správa cookies v MSIE 6..................................................................................... 42 Obrázek 11: Nastavení práce s cookies v prohlížečích Firefox a Opera .................................. 43 Obrázek 12: Model navigace mezi stránkami aplikace ............................................................ 44

Tabulky Tabulka 1: Kategorie stavových kódů v odpovědi protokolu HTTP .......................................12 Tabulka 2: Výběr často používaných stavových kódů v odpovědi protokolu HTTP...............12

Strana 48

Seznam použité literatury

Seznam použité literatury [1]

The Apache Software Foundation: Apache HTTP Server Ver. 2.2 Documentation [online] [4.7.2006]

[2]

BODNÁR, P.: Metody udržování stavových informací v protokolu HTTP. Bakalářská práce, Vysoká škola ekonomická v Praze, květen 2005.

[3]

CASTAGNETTO, J. a kol.: Programujeme PHP profesionálně. 2.vyd. Praha, Computer Press 2002. 656 s. ISBN 80-7226-310-2

[4]

CGI Environment Variables. [online] [4.7.2006]

[5]

DLABAČ, M.: Automatické ukládání získaných www-stránek. Bakalářská práce, Vysoká škola ekonomická v Praze, srpen 2004.

[6]

EICHELBERGER, L.: The Cookie Controversy. [online] April 1998 [4.7.2006]

[7]

EPIC: Cookies. [online] November 2002 [4.7.2006]

[8]

FEHLBERG, N.: P3P, Cookies and IE6.0: a Case Study. [online] March 2004 [4.7.2006]

[9]

HAUZÍREK, M.: Metody udržování stavových informací v protokolu HTTP. Bakalářská práce, Vysoká škola ekonomická v Praze, září 2004.

[10] KASTL, J.: Informační a komunikační systémy. 1. vyd. Praha, Vysoká škola ekonomická v Praze 1999. 123 s. ISBN 80-245-0001-9. [11] KOLŠEK, M.: Session Fixation Vulnerability in Web-based Applications. [online] Dec 2002 [4.7.2006] [12] KOSEK, J.: PHP - Tvorba interaktivních internetových aplikací. 1. vyd. Praha, Grada Publishing 1998. 492 s. ISBN 80-7169-373-1 [13] LORENZ, J.: Internetová anonymita, část 5. [online] leden 2001 [4.7.2006] [14] MACEK, P.: Sessions v PHP. [online] březen 2003 [4.7.2006] [15] MAYER-SCHÖNBERGER, V.: Cookies. [online] [4.7.2006] [16] MORKES, D.: JavaScript – praktické příklady. 1. vyd. Praha, Grada Publishing 2002. 196 s. ISBN 80-247-0258-4 [17] MySQL AB: MySQL 3.23, 4.0, 4.1 Reference Manual [online] [4.7.2006] [18] Netscape Communications Corp.: Persistent Client State HTTP Cookies. [online] 1999 [4.7.2006] [19] OLLMANN, G.: Paper: Web Based Session Management [online] [4.7.2006] Strana 49

Seznam použité literatury [20] PHP Documentation Group: PHP Manual [online] [4.7.2006] [21] PÍSEK, S.: JavaScript, efektní nástroj oživení www stránek. 1. vyd. Praha, Grada Publishing 2001. 232 s. ISBN 80-247-0014-x [22] REAGLE, J. — WENNING, R.: P3P and Privacy on the Web FAQ (Version 2.1.0). [online] April 2000 [4.7.2006] [23] RFC 1738 Uniform Resource Locators (URL). December 1994. [24] RFC 2068 Hypertext Transfer Protocol - HTTP/1.1. January 1997. [25] RFC 2109 HTTP State Management Mechanism. February 1997. [26] RFC 2557 MIME Encapsulation of Aggregate Documents, such as HTML. March 1999 [27] RFC 2616 Hypertext Transfer Protocol - HTTP/1.1. June 1999. [28] RFC 2617 HTTP Authentication: Basic and Digest Access Authentication. June 1999. [29] RFC 2964 HTTP Use of State Management Mechanism. October 2000. [30] RFC 2965 HTTP State Management Mechanism. October 2000. [31] RŮŽIČKA, P.: Bezpečnost především - bezpečnější příkazy SQL. [online] srpen 2002 [4.7.2006] [32] RŮŽIČKA, P.: Bezpečnost především - cross-site skripting a session-stealing. [online] 8/2002 [4.7.2006] ISSN 1212-8651 [33] SATRAPA, P.: Proxy cache z pohledu druhé strany. [online] červen 1998 [4.7.06] ISSN 1213-0702 [34] SEMECKÝ, J.: Autorizace uživatelů v PHP. [online] září 2001 [4.7.2006] ISSN 1212-8651 [35] SCHLESINGER, V.: Seriál: Mod_rewrite pro hezká URL. [online] 7/2005 – 4/2006 [4.7.2006] [36] STEIN, L. — STEWART, J.: The World Wide Web Security FAQ (Version 3.1.2). [online] February 2002 [4.7.2006] [37] TILL, M.: Standart ochrany soukromí P3P. [online] prosinec 2001 [4.7.2006] [38] W3C: The Platform for Privacy Preferences 1.1 (P3P1.1) Specification. [online] Feb 2006 [4.7.2006]

Strana 50

Seznam použitých zkratek a termínů

Seznam použitých zkratek a termínů ASP

Active Server Pages skriptovací jazyk pro dynamické generování hypertextových dokumentů

CGI

Common Gateway Interface standard pro komunikaci HTTP serverů s externími programy

DNS

Domain Name System služba používaná pro překlad jmen počítačů na jejich IP adresy

HTML

HyperText Markup Language značkovací jazyk pro zápis WWW dokumentů

HTTP

HyperText Transfer Protocol protokol pro přenos hypertextových dokumentů

IETF

The Internet Engineering Task Force mezinárodní komunita zabývající se technologickými standardy internetu

PHP

Hypertext Preprocessor (dříve Personal Home Pages) skriptovací jazyk používaný pro dynamické generování hypertextových dokumentů na straně serveru (multiplatformní open source software)

query

dotaz zde součást URI (za otazníkem) obsahující dodatečné informace

RFC

Request For Comments typ dokumentu vydávaný IETF; některé RFC specifikují standardy internetu

session_id identifikátor relace termín užívaný pro jedinečnou identifikační informaci odlišující uživatele tag

obecný název pro značku v jazyce HTML; každá značka má konkrétní význam

TCP/IP

Transmission Control Protocol over Internet Protocol transportní protokol používaný pro přenos dat mezi počítači v síti internet

URI

Uniform Resource Identifier jednotný identifikátor zdroje – univerzální schema užívané pro adresování zdrojů

URL

Uniform Resource Locator jednotný ukazatel zdroje – podmnožina URI identifikuje dokument místem uložení

WWW

World Wide Web celosvětová pavučina – služba internetu pro přenos hypertextu přes HTTP

XHTML eXtensible HyperText Markup Language „nástupce“ značkovacího jazyka HTML založený na jazyce XML XML

eXtensible Markup Language obecný značkovací jazyk vhodný především pro výměnu dokumentů na internetu

Strana 51

Metody udržování stavových informací v protokolu HTTP

Recommend Documents