Tvorba jednoduchých WWW stránek
RNDr. Daniela Ďuráková
VŠB - Technická univerzita Ostrava Katedra informatiky
Vznik WWW technologie • Vznik - CERN 1989-90, vedoucí projektu Tim Berners-Lee • cíl - infrastruktura pro sdílení výsledků vědeckých výzkumů • Vyvinutá technologie – protokol HTTP – adresování objektů pomocí URL adres – jazyk HTML
HTTP - Hypertext Transfer Protocol • protokol pro přenos stránek mezi webovým serverem a prohlížečem • jednoduchý aplikační protokol vystavený nad protokolem TCP • několik verzí - HTTP 0.9, HTTP 1.0, HTTP 1.1 Průběh vyřízení požadavku obrázek 1. navázání spojení 2. zaslání požadavku klientem 3. zaslání odpovědi serverem 4. uzavření spojení Pomalé v případě stránek s mnoha vloženými objekty (obrázky apod.). Novější verze HTTP umožňují během jednoho spojení vyřídit několik požadavků/odpovědí.
URL - Uniform Resource Locator • URL je adresa, jednoznačně identifikuje zdroj v rámci Internetu • URL používá se ve službách WWW, FTP, e-mail, telnet, . . . HTML - Hypertext Markup Language • značkovací jazyk založený na SGML pro popis struktury webových stránek • nezávislý na platformě
Princip WWW stránek World Wide Web (WWW) — služba počítačové sítě Internet • prezentace informací pomocí grafického rozhraní, • informace jsou uloženy ve formátu textových dokumentů, • obsahují ”čistý” text a příkazy, • odkazy na části dokumentů, jiné dokumenty, obrázky, zvukové sekvence, videosekvence ap. • nezávislost na platformě při zobrazování (Windows, UNIX, případně Linux)
• Tvorba pomocí speciálního jazyka — HyperText Markup Language (HTML), který umožňuje používání odkazů, značkovací jazyk založený na SGML pro popis struktury webových stránek • Pro prezentaci dokumentů se používají prohlížeče, které umožňují zobrazit WWW stránku v grafické podobě. • Vytvořené dokumenty jsou přístupné „celému světuÿ (na Internetu). • Anglické označení „webÿ charakterizuje právě propojení dokumentů pomocí odkazů. • Soubory vytvořené pomocí jazyka HTML mají typicky příponu .html, případně .htm.
Historie a vývoj HTML • HTML 0.9 - 1991 Tim Berners-Lee - členění textu do několika logických úrovní, použití několika druhů zvýraznění textu, lze zařadit odkazy a obrázky • HTML 2.0 – první formální specifikace - IETF (Internet Engineering Task Force) návrh standardu - označován HTML 2.0, – základní formátování a strukturování dokumentu, obrázky, formuláře, – plně vyhovuje normě SGML (ISO 8879 z roku 1986). • HTML 3.0 - 1995 návrh standardu Dave Raggett z laboratoří Hawlett-Packard formalizoval HTML+, vytvořil jeho deklaraci DTD (Document Type Declaration) v jazyku SGML (Standard Generalized Markup Language)
• HTML 3.2 - 1996 – výrobci prohlížečů přidávají nestandardní rozšíření HTML, – konsorcium W3C proto vybírá společnou podmnožinu rozšíření a schvaluje HTML 3.2 – lepší možnosti formátování dokumentu • HTML 4.0 - 1997 – podpora kaskádových stylů, rámy – skripty vložené do stránky, multimediální objekty – rozšířené možnosti tabulek, formulářů – i18n (podpora více jazyků, tok textu zleva doprava) – podporu HTML 4.0 mají prohlížeče (IE6, NN7, O7, M1.6). • HTML 4.01 - 1999 opravy drobných chyb ve specifikaci HTML 4.0
Požadavky pro tvorbu a zpřístupnění WWW stránek Vytvoření vlastních WWW dokumentů znamená zvládnout techniku tvorby a rozumět jednotlivým aspektům, nutných k prezentaci WWW stránek. 1. Editor, který umí pracovat s čistým ASCII textem, (HTML dokumenty jsou textové soubory). V prostředí operačního systému Windows postačí notepad. 2. Znalost jazyka HTML - schopnost vytvořit zdrojový kód ve formátu HTML. 3. Prohlížeč pro kontrolu a zobrazení vytvořených WWW stránek (nejpoužívanější Microsoft Internet Explorer, Netscape Navigator, Opera, Mozilla). 4. Připojení k síti internet pro zpřístupnění WWW stránek ostatním uživatelům internetu.
Doporučení a zásady pro tvorbu WWW stránek • kontrola zdrojového textu prohlížečem (lépe více prohlížečích), • je lépe chyby opravovat „za pochoduÿ, než po dopsání celého dokumentu, • jedna stránka by neměla obsahovat příliš souvislého textu bez nadpisu a obrázků, či jiných prvků pro členění textu, • je lépe stránku nejprve připravit a pak na ni odkazovat, než vystavovat stránky s informací, že se teprve se na ní pracuje, • stránky by měly obsahovat informace o poslední aktualizaci (některé informace ztrácejí po delším čase smysl - například konání akce před dvěmi lety), • pro jednoduchou správu stránek je lépe se vyhnout prvkům, kterým úplně nerozumíte.
Uložení WWW stránky Jak uložit vlastní WWW stránky? 1. Použijeme program winscp, kde na vyžádání zadáme přihlašovací jméno (login name) a heslo. 2. V případě, že adresář public html není na serveru vytvořen, vytvoříme jej jako nový adresář. 3. Zkopírujeme náš soubor (vytvořený WWW dokument) do tohoto adresáře a přejmenujeme jej na index.html. 4. Zkontrolujeme, zda stránka je v prohlížeči správně zobrazena — uvedeme v něm patřičnou url adresu: http://homel.vsb.cz/~loginname.
Struktura URL Jednoznačná adresa v rámci internetu identifikuje různé zdroje, ať už jdou to webovské stánky, e-mailové adresy, soubory, . . . URL má (většinou) následující tvar: http://www.vsb.cz/cz/vitejte/areal.html význam jednotlivých částí je následující: • http — znamená typ protokolu, který zajišťuje přenos stránek umístěných na webovém serveru na počítač uživatele, Dnes se používá i protokol https, což je stejný protokol jako http, pouze přenášená data jsou kryptována (zabezpečená). • www.vsb.cz — je jedinečné označení (zde jméno) serveru v rámci Internetu, které je tvořeno z částí: – www — název serveru v rámci VŠB, – vsb — v rámci české domény doména vsb (Vysoká škola báňská), – cz — označení národní či jinak světově registrované domény (v našem případě české)
• /cz/vitejte/ — další část URL je cesta k patřičným dokumentům, • areal.htm — název dokumentu. / — oddělovače jednotlivých částí adresy.
Použití odkazů Odkazy, pomocí kterých jsou propojeny různé soubory, mohou být zapsány dvěmi odlišnými způsoby. Pomocí • relativního odkazu a • absolutního odkazu. Vlastní související stránky by měly používat relativní odkazy z důvodu přenositelnosti na jiný server. Odkazy na cizí zdroje a stránky by naopak měly být absolutní, aby byla zajištěna jejich funkčnost právě v případě jejich přenesení na jiný server. Tvar relativního odkazu se od absolutního liší neuvedením jména serveru — stačí pouze jméno dokumentu, případně uvedení patřičného adresáře ze stromové struktury adresářů na disku, kde jsou dokumenty umístěny. Například: Absolutní odkaz na dokument "http://www.cs.vsb.cz/durakova/vyuka/zpp/projekt.html" a odpovídající relativní odkaz
"projekt.html" Pokud je soubor umístěn o úroveň výš, stačí do odkazu přidat znak pro cestu na vyšší úroveň adresáře. "../projekt.html"
Syntaxe HTML • elementy, tagy • atributy • znakové entity • DTD, DOCTYPE Kontrola syntaxe Kontrola správné syntaxe HTML stránky pomocí – specializovaných programů a služeb, – nebo je možné použít SGML parser. Validační služby on-line: – W3C HTML Validation Service na adrese ”http://validator.w3.org/” – Dr. Watson na adrese ”http://watson.addy.com/”
Základní struktura HTML stránky Formátovací značky označovány také tag, zajistí textu určitý význam, který je interpretován použitým prohlížečem. <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-2">
Name_of_page Nadpis první úrovně
První odstavec obsahuje ...
V druhém odstavci se popisuje ...
Používání značek Tagy ve většině případů fungují jako závorky v matematice. • použití levého (počátečního) tagu ve tvaru <xxx> vyvolá nutnost použít i pravý (koncový) tag , v případě tzv. párového tagu. Nepárový levý tag se používá například při vkládání obrázků. • Konkrétní význam elementu je dán použitým tagem — identifikátor elementu. Text mezi počátečním a koncovým tagem daného typu tvoří tělo elementu. • Identifikátory elementů mohou být psány malými i velkými písmeny. Zápisy ve tvaru <TITLE>, <TiTlE>,
i prohlížeč chápe a interpretuje stejně. POZOR! Na začátku tagu nesmí být mezera! Například < title> je špatně! • Tagy, které prohlížeč nezná, ignoruje. Nemusí hlásit žádnou chybu! Ve Windows, znak „<ÿ je možné napsat (bez přepnutí klávesnice na anglickou) stiskem kláves pravý Alt + <, znak „>ÿ stiskem kláves pravý Alt + >.
cements
Členění dokumentu HTML dokument HEAD První HTML stránka BODY H1 Nadpis první úrovně P První odstavec obsahuje . . .
P Druhý odstavec popisuje . . . .. . P Poslední odstavec . . .
Editory 1. Strukturní editor • přímá úprava výsledného kódu, • nutná znalost jazyka HTML, • užívají profesionální tvůrci dynamických a jinak specifických stránek, z důvodu kontroly nad vytvářeným kódem, • text file • Notepad, HomeSite, UltraEdit, české EasyPad a PSPad. 2. Wysiwyg editor • zobrazuje při psaní přímo vzhled stránky v prohlížeči, • automatické generování kódu, (kód při ukládání i trochu mění!!!) • pohodlné zpracování, • neukazují to, co pak prohlížeč opravdu zobrazí • Microsoft FrontPage, Dreamweaver, Adobe GoLive, Mozilla Editor.
Přehled HTML značek (tagů) • Struktura • Text • Bloky • Seznamy • Odkazy • Obrázky • Tabulky • Rámy • Objekty • Formuláře
• Hlavička • Skripty a styly (kaskádové)
Působení stránek na čtenáře • grafický design - první uživatelův dojem, ohled na široký okruh lidí • struktura stránek, navigace na stránkách • syntakticky správný HTML kód - méně práce pro prohlížeč • vhodné metainformace - méně práce pro vyhledávací roboty Jednotlivé prvky je vhodné uvážlivě vyvážit, každý dle svého citu.
Obsah versus forma Ideál – vyváženost obsahu a formy. (Internet a HTML jazyk) původně byly určeny jako médium zprostředkující obsah. • Formátování stránek - nese sebou chyby v zobrazování v prohlížečích různého typu, každý prohlížeč interpretuje jinak • Rychlost natahování pomalé je způsobeno zejména – mnoho obrázků – text s mnoha definicemi fontů, velikostí a barev písma, • Čitelnost písma – volba - individuální – patkové - písmo curier není vhodné – bezpatkové - Arial, Helvetica, Verdana – pro dlouhé texty patková písma s rozdílnou tloušťkou tahů (takzvaný serif, například Times New Roman).
– font nezadávat - prohlížeč použije defaultní font • Pozadí – zvýraznění příp. oživení - použití obrázku či barvy na pozadí je nevhodné, velký obrázek se dlouho natahuje – nečitelné písmo - dbát na kontrast barev • Jednotný vzhled stránek autor určuje styl - měl by se dodržet jednotný styl pro všechny stránky – jednotná úprava nenutí uživatele učit se na každé stránce jiné ovládání a rozmístění prvků – rychlejší natažení (sdílené soubory s formátovacími prvky) – rozlišuje daný web od ostatních stránek – pro tvůrce je i snažší práce (jednou pro všechny stránky)
Nevhodné!!! • Nadpisy z obrázků – dlouho se natahují – vyhledávací roboti nejsou schopni nadpis přečíst – při příštím natahování stránek se opakuje pomalost (není-li obr uložen) • Flashové prvky – ne všichni uživatelé mají flash – nemusí se zobrazit – psychologické bariéry
Čeština / cestina Diakritika na HTML stránkách. Každý znak (písmeno, číslice, . . .) je reprezentován jako číslo od 0 do 255 (jeden bajt), angličtina používá 128 znaků, tzv. ASCII. Od 128 do 255 jsou vyhrazeny pro diakritizované znaky jiných jazyků (např. kód Latin-1 - pro češtinu použitelné jen á a í). Kódování = přiřazení diakritizovaných znaků číslům od 128 do 255. Problém: mnoho různých kódování. • ASCII čeština bez háčků a čárek, tj. hacky a carky jsou odstraneny • ISO-8859-2 (ISO Latin 2) mezinárodní kódovací norma pro jazyky střední Evropy, standard na Unixu a na Linuxu, u Microsoftu označován ”Středoevropské jazyky (ISO)” • CP1250 (Windows-1250)
základní kódování u firmy Microsoft, platforma Windows, označován ”Středoevropské jazyky”, vzniklo z ISO-8859-2, chybí plná kompatibilita • MAC (Macintosh) standard užívaný na počítačích Apple Macintosh • CP852 (PC Latin 2) původní český a slovenský DOS • KEYBCS2 (Kamenici) kód bratří Kamenických, textový režimu MS-DOS • KOI8-CS (KOI-8 CS) kdysi standard pro státy střední a východní Evropy • Unicode, UTF-8 užití pro všechny světové jazyky, mezinárodní kódování znaků založené na tabulce 256 používaných znaků
Rozdíly kódování - nejlépe zjistit v kódovacích tabulkách š, ž, ť, Š, Ž, Ť
Jak docílit patřičný typ kódování? • automatické meta nastavení <meta http-equiv="Content-Type" charset=iso-8859-2">
content="text/html;
nebo: <meta http-equiv="Content-Type" content="text/html; charset=windows-1250"> • vytvořit stránku několikrát, pokaždé v jiném kódování, čtenář si vybere kódování • použít serverové programy na překódování (Saczech nebo ModCzech) • použít český kód, (nejčastěji windows-1250) • psát bez hacku a carek (čili v ASCII), špatně čitelné
Problémy dnešního webu • informační zahlcení • nutnost lepšího vyhledávání • nestandardní rozšíření HTML jednotlivými výrobci prohlížečů Řešení problému? XML - eXtensible Markup Language • pomocí DTD můžeme vytvářet nové jazyky založené na XML • vhodně zvolené elementy přidají dokumentu informační hodnotu a usnadní prohledávání Webu • XML má striktnější syntaxi než HTML (neukončené tagy, ohraničení atributů uvozovkami apod.) ? snazší implementace
Reference • www.jakpsatweb.cz/ • jm.vse.cz/html/hatmatilka/titul.html • www.kit.vslib.cz/ satrapa/www/ • www.kosek.cz/ • www.builder.cz • www.developer.sk • www.interval.cz • www.wdvl.com • msdn.microsoft.com/ie/ • developer.netscape.com