Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky
Název bakalářské práce:
Spam, rizika a protiopatření
Vypracoval: Tomáš Daněk Vedoucí práce: Ing. Ladislav Luc Rok vypracování: 2010
Čestné prohlášení: Prohlašuji, že jsem tuto bakalářskou práci vypracoval samostatně. Veškeré použité podklady, ze kterých jsem čerpal informace, jsou uvedeny v seznamu použité literatury a citovány v textu podle normy ČSN ISO 690.
V................. dne ....
Podpis: .................................................
2
Poděkování: Chtěl bych zde poděkovat panu Ing. Ladislavu Lucovi za cenné rady a připomínky při vypracování této bakalářské práce.
3
Abstrakt Práce se zabývá problematikou hromadné nevyžádané pošty označované jako spam. Jejím hlavním cílem je představit současné nejpoužívanější metody ochran proti nevyžádané poště a jejich praktická aplikace pro dosažení co možná nejvyšší účinnosti. Práce si klade za cíl nalézt optimální kombinaci ochran pro běžnou elektronickou poštovní schránku. V první části práce je rozebrána historie, důvody vzniku a masového rozšíření spamu. Dále jsou představeny různé druhy spamu, které se liší účelem jejich vzniku a současně svou nebezpečností. Na závěr první části jsou představeny světové statistiky za rok
2009
společně
s odhadovanými
celkovými
náklady
každoročně
vynakládanými pro boj se spamem. Zmíněny jsou i současné trendy a možný budoucí vývoj v oblasti nevyžádané pošty. V druhé části jsou podrobně představeny jednotlivé nejpoužívanější metody ochrany, které se liší principem fungování. Jejich společným cílem je ale snížení počtu doručených spamových zpráv na minimum. Jsou zde rozebrány jejich výhody, nevýhody a úskalí jejich použití. V závěru práce je představeno praktické použití uvedených ochran na konkrétním případu. Hlavním přínosem práce by mělo být omezení příjmu nevyžádané pošty na minimum a snížení rizik s ní spojených na základě znalosti technik a jednání rozesilatelů spamu.
4
Abstract The thesis deals with unsolicited mail known as spam. Its main goal is to present the most widely used current methods of protection against spam and their practical application to achieve the highest possible efficiency. This study aims to find the optimal combination of protection for regular electronic mailbox. In the first part is discussed the history, reasons for the emergence and expansion of mass spam. Furthermore are introduced different types of spam, which differ with their purpose and also their dangerousness. At the end of the first part are presented global statistics for the year 2009, along with estimated total annual cost devoted to fighting spam. Mentioned are the current trends and possible future development of spam. In the second part are presented in detail various widely used methods of protection which vary in principles of operation. Their common goal is reducing the number of spam messages received to the minimum. Also their advantages, disadvantages and pitfalls of their use are analyzed. At the end of the thesis is presented a practical application of those mentioned protections in a particular case. The main contribution of the work should be limitation of received spam to a minimum and reduction of the risks associated with it based on knowledge of techniques and practices used by spammers.
5
Obsah 1
ÚVOD ............................................................................................................ 8
2
CO JE SPAM............................................................................................... 10 2.1 DEFINICE ................................................................................................... 10 2.1.1 Etymologie názvu ................................................................................. 11 2.1.2 Spory o ochrannou známku .................................................................. 12 2.1.3 Co si představit pod pojmem spam ....................................................... 13 2.2 HISTORIE ................................................................................................... 13 2.2.1 První spam ........................................................................................... 13 2.2.2 Počátky spamu ..................................................................................... 14 2.2.3 Masové rozšíření spamu ...................................................................... 14 2.3 PŮVODCI SPAMU ........................................................................................ 15 2.4 TYPY SPAMU .............................................................................................. 15 2.4.1 Reklama ............................................................................................... 16 2.4.2 Podvodné emaily – phishing ................................................................. 16 2.4.3 Nigerijské dopisy .................................................................................. 19 2.4.4 Řetězové dopisy ................................................................................... 20 2.4.5 Hoax ..................................................................................................... 21 2.4.6 Malware................................................................................................ 21 2.5 SOUČASNÝ STAV VE SVĚTĚ ......................................................................... 23 2.5.1 Statistiky MessageLabs ........................................................................ 24 2.6 NÁKLADY SPOJENÉ SE SPAMEM................................................................... 26 2.7 TRENDY..................................................................................................... 27
3
MOŽNOSTI OCHRANY ............................................................................... 28 3.1 ANTISPAMOVÉ SEZNAMY ............................................................................. 29 3.1.1 Blacklisty .............................................................................................. 30 3.1.2 Whitelisty .............................................................................................. 31 3.1.3 Greylisty ............................................................................................... 32 3.2 PROHLEDÁVÁNÍ OBSAHU ZPRÁV .................................................................. 33 3.2.1 Primitivní a heuristické filtrování ........................................................... 33 3.2.2 Kolaborované filtrování ......................................................................... 34 3.2.3 Statistické filtrování............................................................................... 35 3.3 DALŠÍ OCHRANY ......................................................................................... 41 3.3.1 Spamová past ...................................................................................... 41 3.4 PREVENCE ................................................................................................ 42 3.4.1 Email na webových stránkách .............................................................. 42 3.4.2 Registrace na webových stránkách ...................................................... 43 3.4.3 Nevyhnutelná rizika .............................................................................. 44 3.5 KOMBINOVANÁ ŘEŠENÍ ............................................................................... 44
4
PRAKTICKÁ APLIKACE OCHRANY ......................................................... 46 4.1 EMAIL NA SERVERU .................................................................................... 46 4.1.1 Nastavení ochrany proti nevyžádané poště .......................................... 46 4.1.2 Uživatelské nastavení filtrů ................................................................... 48 4.2 EMAIL V POŠTOVNÍM KLIENTOVI ................................................................... 50 4.2.1 Bayesovské filtrování............................................................................ 50
5
ZÁVĚR......................................................................................................... 55
6
POUŽITÉ ZDROJE ...................................................................................... 56
7
TERMINOLOGICKÝ SLOVNÍK ................................................................... 60 6
8
PŘÍLOHY ..................................................................................................... 62 8.1 PRVNÍ SPAM ............................................................................................. 62 8.1.1 Reakce Richarda Stallmana na první SPAM......................................... 63 8.2 FLOODGATE ............................................................................................... 64 8.3 PODVODNÝ EMAIL – PHISHING ..................................................................... 64 8.4 HOAX ........................................................................................................ 65 8.4.1 Únos dětí v obchodním domě ............................................................... 65 8.4.2 V nouzi zadej PIN opačně .................................................................... 65 8.4.3 Pangasius – je to k jídlu? ...................................................................... 66
7
1 Úvod Spam, slovo dnes na internetu všeobecně známé, se stal nedílnou součástí elektronické komunikace a především elektronické pošty. V této práci bych se chtěl zaměřit právě na emailový spam, podrobněji rozebrat odkud se vzal a nalézt příčiny, které umožnily jeho tak masové rozšíření. Hlavním cílem práce je nalézt optimální ochranu před nevyžádanou poštou na základě pochopení praktik rozesilatelů spamu a aplikací dostupných antispamových technik. V první části práce se zabývám původem názvu a historií. Co vedlo první spammery k rozesílání hromadné pošty a jaká je motivace současných rozesilatelů. Důležitou částí je kapitola zabývající se na typy spamu, jelikož hromadnou poštou nejsou pouze reklamní sdělení, které obtěžují jen ztrátou času nad čtením nevyžádaných marketingových nabídek, ale spamem jsou také podvodné emaily a zprávy obsahující viry a jiný zákeřný software. Tyto emaily jsou mnohem nebezpečnější a znalost toho jak je rozpoznat je nejjistější ochranou před nimi, protože žádná ze současných automatizovaných antispamových ochran není stoprocentně účinná. Dále jsou představeny aktuální statistiky stavu ve světě za rok 2009 a stoupající náklady firem, které jsou každý rok vynakládány na boj proti spamu a jaké ztráty spam firmám způsobuje. V závěru kapitoly se zabývám současnými trendy a možným vývojem v budoucnosti. V další kapitole jsou představeny jednotlivé dnes nejpoužívanější metody pro boj s nevyžádanou poštou a je přiblížen princip jejich funkce. Na základě těchto poznatků je poté možné vybrat optimální ochranu, nebo kombinaci ochran, které budou mít nejvyšší účinnost ve filtrování nevyžádané pošty. Důležitou součástí ochrany je i prevence, která může významně snížit objem příchozí nevyžádané pošty. V poslední kapitole „Praktická aplikace ochrany“ se zabývám optimálním nastavením ochran k dosažení co nejvyšší účinnosti pro běžného uživatele pohybujícího se na internetu. Jelikož každý uživatel má ale jiné návyky v používání elektronické pošty a dokonce i posuzování nevyžádané pošty je individuální, měl by být každý schopen nastavit si ochranu podle svých potřeb. Antispamové filtry nastavené individuálně a přizpůsobené na míru každému uživateli mají totiž zpravidla znatelně vyšší účinnost, než globální řešení. 8
Doufám tedy, že tato práce poskytne potřebné informace o nevyžádané poště a principech
fungování
metod
antispamových
ochran,
které
se
stanou
východiskem k úspěšnému nastavení elektronické poštovní schránky, tak aby se minimalizovalo množství doručené nevyžádané posty.
9
2 Co je spam Pojem spam se bohužel již stal nedílnou součástí elektronické komunikace a v určité míře se s ním setkal každý uživatel využívající elektronickou poštovní schránku. V této kapitole bych rád přiblížil původ názvu, odkud se vzal, co lidi vede k jeho rozesílání, věcný obsah a současné trendy ve světě.
2.1 Definice Definice spamu je poměrně obtížná, protože si pod tímto pojmem každý může představit něco jiného. Je to nejspíš především kvůli rozdílné toleranci uživatelů k nevyžádané poště. Některé uživatele může obtěžovat například už jen obdržení emailu s vtipným obrázkem či „powerpointovou“ prezentací od známých či přátel, někdo naopak uvítá i nevyžádané obchodní nabídky. Spam je možné rozdělit na dva základní druhy, které spojuje to, že jsou nevyžádané. Prvním je nevyžádaný hromadný email (Unsolicited Bulk Email (UBE)) a druhým je nevyžádané komerční sdělení (Unsolicited Commercial Email (UCE)). Oba typy jsou dnes ve většině zemí právně postižitelné, pokud nesplňují náležitosti určené v zákoně. UCE se od UBE liší tím, že je komerční povahy a nemusí být hromadně rozesílán. Jedny z prvních definic se objevily ve FAQ Usenetu [14]: UBE: Nevyžádaný hromadný email E-mail s v podstatě totožným obsahem rozeslaný mnoha příjemcům, kteří si jej nevyžádali. Téměř všechny UBE jsou také UCE. V originále: UBE:
Unsolicited Bulk Email
Email with substantially identical content sent to many recipients who did not ask to receive it.
Almost all UBE is also UCE
UCE: Nevyžádaný komerční email Email obsahující komerční informace zaslané příjemci, který si je nevyžádal. V originále: UCE: Unsolicitied Commercial Email Email
containing
commercial
information
that
has
been
sent
to
a
recipient who did not ask to receive it.
10
2.1.1 Etymologie názvu Spam, dnes běžně používaný výraz pro hromadně rozesílanou nevyžádanou poštu měl původně zcela jiný význam a jeho vývoj má poměrně zajímavou historii. SPAM je výraz používaný americkou potravinářskou firmou Hormel Foods pro jejich masovou konzervu. Je zkratkou ze slovního spojení „SPiced hAM“ (ochucená šunka) [39]. Konzervy byly velmi rozšířené ve Velké Británii po druhé světové válce.
Obr. 2.1 Zdroj: http://www.crowncork.com/images/press_images
Kvůli špatné hospodářské situaci zabraly americké importované konzervy velkou část britského trhu. Levné konzervy s jednotvárnou chutí se staly v roce 1970 námětem skeče z televizní série Monty Pythonův létající cirkus (Monty Python’s Flying Circus), skeč ke zhlédnutí na Youtube - http://www.youtube. com/watch?v=anwy2MPT5RE . Děj se odehrává v kavárně, kde je číšník dotázán na denní menu, v kterém je každá položka podávána s výše zmíněným konzervovaným masem. Dialog mezi číšníkem a zákazníkem čas od času přeruší sbor Vikingů, kteří zpívají monotónní píseň „Spam, spam, spam, spam, spam… skvělý spam!“. Nadbytečné použití slova spam reflektuje zaplavení Britského trhu těmito konzervami. [31] Zpočátku se výraz začal používat v chatovacích místnostech pro činnost, kdy uživatel mnohokrát za sebou odeslal opakující se text s úmyslem vytlačit z obrazovky předchozí komunikaci. Činnost, kdy uživatel odeslal do chatu opakující se nesmyslný textem, byla nazývána zaplavováním. Později, když uživatelé často používali citaci ze skeče Monthy Pythonů - opakující se slovo spam, vžil se název spamování (spamming). Spamování bylo používáno 11
účastníky diskuze k odrazení nově příchozích a donucení k opuštění chatovací místnosti. Docházelo i k jakýmsi bojům mezi účastníky různých chatovacích místností, kdy se účastníci jedné místnosti připojili do jiné konkurenční a začali ji zaplavovat spamem, čímž se místnost stala nepoužitelnou ke konverzaci. Později byl výraz používán na Usenetu k označení opakovaně rozesílaných většinou bezcenných zpráv.[31]
Obr. 2.2 Zdroj: http://opcug.ca/public/reviews/spamkiller.htm
V roce 1998 doplnil New Oxford Dictionary of English druhou definici ke slovu spam,
které
se
původně
vztahovalo
pouze
na
ochrannou
značku
potravinářského produktu. Byla přidána definice – Irelevantní nebo nevhodné zprávy rozeslané na internetu velkému počtu diskusních skupin nebo uživatelů.[2]
2.1.2 Spory o ochrannou známku Hormel Foods nemají výhrady přímo k označování nevyžádané pošty slovem spam, na které mají registrovanou ochrannou známku. Požadují ale, aby slovo SPAM psané velkými písmeny bylo vyhrazeno k označení jejich masových konzerv. Tento požadavek je vesměs na stránkách a fórech zabývajících se touto tematikou dodržován. Nicméně již bylo zaznamenáno několik oficiálních sporů, kdy Hormel Foods protestoval proti použití výrazu spam. Byly odeslány dvě stížnosti na názvy SPAMBUSTER [5] a Spam Cube [40] které ale byly v roce 2005 zamítnuty. V roce 1999 byl odeslán dopis společnosti SpamCop kvůli nevhodnému obrázku,
na kterém je
vyfocena
konzerva
SPAM
12
v odpadkovém koši a požadovala změnu referencí na nevyžádanou poštu z výrazu spam na UCE spam. [12] Hormel Foods na svých stránkách tyto činnosti komentuje slovy: „Obecně, snažíme se zabránit dnu, kdy se veřejnost bude ptát: ‘Proč by Hormel Foods pojmenoval svůj produkt po hromadně rozesílané nevyžádané poště?‘“ [13]
2.1.3 Co si představit pod pojmem spam Výraz byl v průběhu vývoje elektronické komunikace používán v mnoha situacích, podstata významu ale zůstává stále stejná – jedná se o zaplavování různých komunikačních elektronických kanálů opakující se nevyžádanou zprávou. Spam bývá dnes spojován především s elektronickou poštou, kde nabývá největších objemů a dotýká se velké části internetových uživatelů. Vyskytuje se ale i v mnoha dalších koutech internetu, jsou to například diskuzní fóra, chatovací místnosti, diskuze pod různými články, instantní komunikace, diskuze na Facebooku. Tato práce je ale zaměřena hlavně na spam v elektronické poště.
2.2 Historie 2.2.1 První spam Historie spamu sahá více než třicet let do minulosti a spam nás provází po celou dobu od počátků elektronické komunikace až do současnosti. První zdokumentovaný spam byl rozeslán již na začátku května roku 1978 v síti ARPANET, předchůdci internetu, tak jak ho známe dnes. Byla to reklama společnosti Digital Equipment Corporation (DEC) rozeslaná na všechny emailové adresy ARPANETu. Protože v té době nebyli klienti elektronické pošty tak vyspělí jako dnes, musel rozesilatel všechny adresy zadat ručně. Pokud by tato nutnost přetrvala dodnes, spam by prakticky neexistoval. Původní spamová zpráva viz příloha 8.1. [4] Původcem prvního spamu byl zaměstnanec oddělení marketingu DEC Gary Thuerk. Zprávou byla pozvánka na představení nového počítače firmy DEC, předmět se ale stal druhotným a ohlas a následné bouřlivé diskuze příjemců se zaměřili na nový fenomén – hromadně rozeslané, nevyžádané pošty. Všechny reakce ale nebyly jen odmítavé. Jedním z těch, kteří zprávu 13
hned neodsuzovali, byl i Richard Stallman (zakladatel projektu GNU), který byl proti omezování komunikace a cenzury. Poté co ale sám obdržel kopii zmiňované zprávy s celým seznamem příjemců, změnil názor s tím, že nikdo by neměl posílat emaily s tak dlouhými hlavičkami (skutečně velké množství příjemců). [26] Stallmanovy odpovědi v příloze 8.1.1.
2.2.2 Počátky spamu V osmdesátých letech s růstem počtu uživatelů se nevyžádané zprávy začaly objevovat stále častěji. Příjemci se ale stále museli zadávat ručně, což zabraňovalo masovému šíření. Skutečná revoluce nastala v roce 1994, kdy si manželé Laurence Canter a Martha Siegelová najali programátora, který měl za úkol vytvořit software na hromadné rozesílání reklamy. Jejich reklama tehdy zaplavila mnoho emailů a zvedla vlnu nevole mezi uživateli. Laurence Canter byl v roce 1997 odsouzen, zčásti i za rozesílání spamu. Myšlenka programu na hromadné rozesílání ale již byla na světě a jeho následovníci zaplavují naše elektronické poštovní schránky dodnes. Program Floodgate (nabízený za poplatek 100 USD) byl prvním komerčně nabízeným produktem určeným k hromadnému rozesílání spamu a byl inzerován jak jinak než spamovým rozesíláním (viz příloha 8.2). V době, kdy k podobnému softwaru mělo přístup pouze pár profesionálních spammerů byla tato nabídka opravdu převratná a spammerem se nyní mohl stát opravdu kdokoli.
2.2.3 Masové rozšíření spamu S nárůstem spamu se začaly formovat první ochrany před nevyžádanou poštou. V roce 1996 byla založena společnost Spamhaus, která položila základy ochran používaných dodnes. Byl vytvořen blacklist (černá listina) adres největších spammerů. Zpočátku se dařilo růst objemu rozesílaného spamu zpomalovat a částečně blokovat, Spamhaus byl proto terčem mnoha výhružných dopisů a útoků ze strany rozesilatelů nevyžádané pošty. V letech 1998 až 2000 se díky velkému úsilí dařilo růst objemu spamu zpomalovat, bylo to ale pouze dočasné vítězství a po roce 2000 s rozšiřováním internetu a stále větším počtem uživatelů se objem spamu začal znovu zvyšovat. Jeho nárůst byl exponenciální a během několika let dosáhl 35% až 14
60% ze všech odeslaných emailů s 15% ročním nárůstem. To byl dosud nevídaný fenomén a mnoho lidí předpovídalo konec elektronické pošty. [42] Spam upoutal pozornost mnoha firem, které začaly pracovat na způsobech jak proti němu bojovat. Poměrně optimistický byl výrok Billa Gatese v roce 2004 na Světovém
ekonomickém
fóru
„…do
dvou
let
bude
problém
spamu
vyřešen…“[34]. Byla představena vize spoléhající na filtrovací techniky a ztěžování odesílání emailů odesilatelům, například formou zpoplatnění odeslání emailů určitou malou finanční částkou. Tyto ekonomické stimuly považoval Gates za správnou cestu. Souhlasím s teoretickou účinností této myšlenky, technické provedení v dnešní době, kdy jsou používány miliardy emailových adres, by však bylo velmi obtížné. Jeho předpověď se bohužel nevyplnila, možná spíše naopak, spamu je dnes mnohem více, než před šesti lety.
2.3 Původci spamu Je potřeba si uvědomit, že svou vinu na rozesílání spamu nesou dvě rozdílné skupiny. První skupinou jsou samotní spammeři, kteří zajišťují rozesílání nevyžádané pošty. Druhou skupinou, možná tou s vyšším podílem viny, jsou inzerenti, kteří inicializují rozesílání a rozesilatelům za to platí. Hlavním problémem tedy nejsou rozesilatelé spamu, proti kterým je veden boj různými filtry a blokováním, ale inzerenti. Inzerenti jsou motivováni ziskem a rostoucí tendence spamu naznačuje, že se spam stále vyplatí. Což znamená, že se stále najdou uživatelé, kteří na spam reagují a generují inzerentům zisk. Důležité je tedy nereagovat a neklikat na žádné odkazy v došlých spamových zprávách.
2.4 Typy spamu Spam se může obsahově velmi lišit. Jde o poměrně neškodné humorné dopisy, přes reklamy a komerční sdělení za účelem zisku až po skutečně nebezpečné emaily obsahující viry a jiný škodlivý kód. Všechny typy ale spojují dva společné atributy – hromadné rozesílání a nevyžádání příjemcem. K podvodným a zavirovaným emailům je potřeba přistupovat se zvýšenou obezřetností, na rozdíl od reklamních, které pouze obtěžují a zaplňují naší schránku, podvodné emaily nám mohou způsobit újmu v podobě ztráty cenných dat, či dokonce
15
odcizení citlivých údajů jako jsou přístupová hesla, čísla kreditních karet a podobně.
2.4.1 Reklama Z ekonomického hlediska je email prakticky ideální marketingový kanál. Díky téměř nulovým nákladům na odeslání jedné nabídky a ohromnému množství uživatelů využívajících elektronickou poštu je využití k propagaci nejrůznějších produktů nasnadě. Díky současným právním úpravám a nepsaným etickým kodexům v obchodě se jeho využívání omezilo pouze na určité produkty. Podle zprávy společnosti Symantec zabírají komerční nabídky přes 80% ze všech spamů. Největší zastoupení zde mají nabídky léků a vzrůstající tendenci v poslední době mají nabídky finančních služeb – výhodné půjčky, hypotéky a úvěry. [37]
2.4.2 Podvodné emaily – phishing Podle serveru Lupa.cz je název phishing odvozen od anglického výrazu pro rybaření – fishing (méně často se lze též setkat s českým výrazem „rhybaření“, dále budu ale používat anglický výraz, který se běžně používá). Toto označení vyjadřuje podstatu techniky u většiny podvodných emailů. Oběti je doručen email tvářící se jako oficiální oznámení z určité instituce, nejčastěji banky. Podvodníci jsou schopni skrýt emailovou adresu pravého odesilatele a zaměnit ji za jinou, která budí dojem, že email byl skutečně odeslán z oficiálního emailu banky. [18] Tělo zprávy je obvykle formátováno podle předlohy pravých oznámení a může po „klientovi“ požadovat zaslání svého jména a hesla jako odpověď. Jindy může zpráva obsahovat webový odkaz odkazující na danou banku, příjemce bude ale skrytě přesměrován na jiný web, vypadající jako oficiální web banky. Tam bude požádán o zadání jména a hesla, které bude zaznamenáno podvodníkem, poté může být oběť přesměrována zpět na web banky a výsledně si ani nemusí všimnout, že byly její přihlašovací údaje odcizeny. Výhodou pro uživatele v České republice je fakt, že tyto celosvětově rozesílané podvodné emaily bývají psány v angličtině, což by samo o sobě mělo varovat většinu uživatelů. Případně bývají tyto emaily překládány strojově a v tomto případě by měl uživatel zpozornět, když se v oficiálním emailu banky 16
vyskytuje množství gramatických chyb a nepřesností. V neposlední řadě také banky stále upozorňují své klienty, že po nich v žádném případě nikdy nebudou chtít klientské jméno a heslo emailem. Praktický příklad z českého prostředí byly podvodné emaily zaměřené na zákazníky České spořitelny, které vzbudily i mediální zájem. Prvně se objevily podvodné emaily upozorňující na novou službu, kterou lze aktivovat přes portál internetového bankovnictví České spořitelny (ČS). Původní podvodný email je k nahlédnutí v příloze 8.3. Email ale obsahoval odkazy, které vedly na podvodné stránky velmi se podobající webovým stránkám ČS, viz obrázek.
Obr. 2.3 Zdroj: http://blog.vyvojar.cz/photos/pbouda/default.aspx
Vynalézavost podvodníků ale nezná mezí a po medializaci a rozšíření povědomí veřejnosti o těchto phishingových zprávách přišla druhá vlna phishingových emailů, která upozorňovala na toto nebezpečí a požadovala ověření emailové adresy příjemce kliknutím na odkaz v těle zprávy. Tento odkaz ale vedl jinam, než bylo uvedeno v emailu.
17
Obr 2.4. Zdroj: http://blog.vyvojar.cz/photos/pbouda/default.aspx
Gramatická správnost zpráv se postupně zvyšovala, stále ale nebyly bezchybné a mnoho jich bylo psáno bez diakritiky. Navíc po otevření podvodného odkazu se ve webovém prohlížeči objevila skutečná adresa webových stránek, která by měla zcela jistě upozornit na fakt, že se jedná o podvod. Přesto se nechalo nachytat mnoho klientů ČS. Česká spořitelná má nyní na svých stránkách v sekci Informace o bezpečnosti přehledně popsanou podstatu phishingu a uvádí i emailový kontakt, na kterém lze nahlásit přijetí podvodného emailu -
[email protected]. Uvádím definici phishingu ze stránek České spořitelny [6]: „Phishing, tedy podvodné e-mailové zprávy, které mají vzbudit dojem, že byly odeslány z e-mailové adresy České spořitelny. Zpráva je obvykle psána špatnou češtinou nebo je v angličtině, obsahuje link na údajné stránky České spořitelny a vyzývá k potvrzení osobních bankovních údajů. Phishingová zpráva může vypadat jako informace o neprovedení platby, výzva k aktualizaci bezpečnostních údajů, či dokonce jak výzkum klientské spokojenosti. Cílem podvodného e-mailu může být získat klientské číslo a heslo adresáta
18
(identifikační a autentizační údaje), bezpečnostní kód nebo například číslo platební karty, PIN či další bezpečnostní údaje a následně je zneužit.“
2.4.3 Nigerijské dopisy Přesto, že nigerijské dopisy patří do kategorie podvodných emailů, zaslouží si vlastní kategorii kvůli své rozšířenosti a množství napodobenin. První Nigerijský podvodný email je datován na začátek roku 2000. Nigerijské dopisy se vyskytovaly už o mnoho let dříve, v osmdesátých letech dvacátého století byly šířeny klasickou poštou, nebo použitím faxu. Globální rozšíření a světovou popularitu získaly až díky rozesílání prostřednictvím elektronické pošty. Od té doby kolují tyto podvodné dopisy v emailech až do současnosti a podle posledních statistik zaujímají 8% z veškerého rozesílaného spamu.[37] Pro tento typ spamu je dnes používáno spíše označení 419 spam, pod kterým jsou zaznamenávány všechny modifikace tohoto typu. Označení „419 spam“ vychází z čísla odstavce Nigerijského trestního zákoníku, který upravuje internetové podvody [24]. Dopisy jsou psány ve většině případů anglicky, nebo jsou strojově překládány do mnoha různých jazyků. Díky tomu, že obvykle obsahují mnoho gramatických chyb (ty přeložené do češtiny obzvlášť), je lze snadno odhalit. Typický Nigerijský dopis začíná těmito slovy: It is my pleasure to contact you for an assistance and business cooperation. I know the content of this letter might be surprising to you but I assure you that every word of it is true. Even though we hardly know each other I believe you can help me ...
Strojový překlad za použití Google Translate [9] pro představu nepřesného překladu: Je
mi
potěšením
vás
kontaktovat
se
žádostí
o
pomoc
a
obchodní
spolupráce-operace. Vím, že obsahem tohoto dopisu by mohlo být překvapivé, na vás, ale ujišťuji vás, že každé slovo je pravda. I když jsme se sotva známe věřím můžete mi pomoct...
419 Coalition, která se zabývá osvětou a ochranou před Nigerijskými dopisy, na svých stránkách zveřejnila podrobný popis typického podvodného dopisu tohoto typu [23]. Oběť obdrží nevyžádaný fax, dopis či email zmiňující některý africký stát, většinou Nigerii. Dopis obsahuje žádost o pomoc, kdy je nabídnuta velká
19
finanční odměna, pokud příjemce bude souhlasit s převedením peněz na svůj účet za účelem vyvedení peněz z daného afrického státu. Důvody pro to se různí, podvodníci mohou tvrdit, že potřebují dostat finanční prostředky z nestabilních afrických bank, nebo že hrozí jejich ztráta, pokud se nepřevedou. Oběti je slíbena část peněz, pokud pomůže s převodem. V závěru je požádána, o malou finanční částku pro účely převodu. Podvodník tvrdí, že se svými penězi nemůže nakládat a potřebuje půjčit, s tím, že v budoucnu zaplatí mnohem více. Pokud oběť tuto „daň“ zaplatí, následuje často mnoho komplikací a jsou vyžadovány další malé částky. Toto pokračuje do doby, kdy je oběť stále ochotna platit, nebo dokud jí nedojdou peníze.
2.4.4 Řetězové dopisy Všechny řetězové dopisy spojuje jeden hlavní znak, tím je poznámka na konci, která vyzívá k rozeslání dopisu určitému počtu dalších lidí, případně všem kontaktům v adresáři. Obvykle je výzva podpořena výhružkou, že pokud nebude dopis rozeslán, stane se příjemci něco špatného a naopak, pokud jej odešle, něco se mu splní. Řetězové dopisy lze rozdělit na dva typy podle jejich nebezpečnosti. První typ je poměrně neškodný, sděluje pouze určitou informaci, v počátku rozesílán třeba i s dobrým úmyslem. Tyto emaily ale nemusí být aktuální, mohou být nepřesné či zkreslené. Mohou být také upravovány jednotlivými účastníky řetězu a jejich význam se může zcela změnit. Zprávy se mohou zabývat tématem, které zajímá jen určitý okruh lidí a jeho hromadné odesílání může mnoho příjemců obtěžovat. Dopisy se často snaží zapůsobit na příjemcovy emoce dojemným příběhem nebo slibují finanční odměnu za každou osobu, kterou bude email odeslán. [29] Neřízené hromadné rozesílání také často vyústí k opakovanému přijetí a email, který přijatý v první kopii nevadil, se stane při desátém přijetí obtěžujícím. Druhým nebezpečnějším typem jsou řetězové dopisy požadující hromadné rozeslání a navíc i odeslání určitého předmětu nebo finanční částky osobám na přední pozici v přiloženém seznamu s vidinou, že odesilatel se stane v budoucnosti příjemcem. Tento typ se dá klasifikovat jako pyramidová hazardní hra, která je v mnoha zemích trestným činem. Provozovatele takovéto hry lze trestně stíhat za trestný čin provozování nepoctivých her a sázek. 20
Trestného činu se dopouští ten, kdo provozuje peněžní, nebo jinou podobnou hru nebo sázku, jejíž pravidla nezaručují rovné možnosti výhry všem účastníkům. Tento typ hazardní hry se lidem na předních pozicích v pyramidě finančně slušně zhodnotit, finanční výnos dalších účastníků závisí na tom, zda se sežene dostatečný počet dalších obětí, které vytvoří nové patro pyramidy.[22]
2.4.5 Hoax Výraz hoax je z angličtiny přejaté slovo v překladu znamenající podvod, mystifikaci, žert.[7] Hoax je určitým poddruhem řetězového dopisu, vyznačuje se šířením poplašných, nebezpečných a zbytečných zpráv. Z velké části jsou informace smyšlené a jejich účelem je zmást příjemce. Jejich nebezpečnost spočívá především v obtěžování příjemců, šíření nebezpečných a nepravdivých rad, zatěžování poštovních serverů, ztráta důvěryhodnosti rozesilatele (který může hoax rozesílat ve víře, že je pravdivý). Českým webem zabývajícím se touto
tematikou
je
příznačně
nazvaný
hoax.cz.
Obsahuje
pravidelně
aktualizovanou databázi hoaxů a jiných podvodných emailů. Na tomto webu lze ověřit, zda se jedná o hoax, nebo zda jde o skutečnou zprávu. Několik ukázek aktuálních typických hoaxů ze serveru hoax.cz je k nahlédnutí v příloze 8.4.
2.4.6 Malware Malware vznikl spojením dvou anglických slov malicious (zákeřný) a software, což výstižně definuje jeho podstatu. Tento pojem je používán jako obecné označení pro jakýkoli nebezpečný, škodlivý program nebo kód, který je zpravidla spuštěn bez vědomí uživatele. Jako synonymum pro malware je často používán termín počítačový virus, ten je ale jen jedním z několika typů malwaru. Do této skupiny patří dále trojské koně, počítačoví červi, spyware, adware a další. Účely těchto programů jsou různé, nikdy z nich ale nevzejde nic dobrého pro uživatele počítače, který byl napaden tímto programem. Dříve byly tyto programy psány například pouze jako žert, nyní je škodlivý software projektován pro mnohem zákeřnější účely. Díky stále většímu používání počítačů v různých oblastech jsou jim svěřovány stále větší objemy dat, a pokud nejsou správně chráněna, stávají se terčem hackerů, kteří jsou za použití zmíněných zákeřných programů schopni tyto data ukrást a následně je mohou 21
prodat, nebo požadovat výkupné, za jejich navrácení. Počítačová bezpečnost je v současnosti velmi diskutovaným problémem a je jí věnována velká pozornost. Získávání dat o činnosti uživatele, zaznamenávání zadaných hesel a jiných údajů je schopný tzv. Spyware, který v systému běží na pozadí a zaznamenaná data jednou za čas odesílá přes internet na servery útočníka. Méně nebezpečnými, ale o to otravnějšími programy jsou Adware, ty jsou vytvořeny za účelem zobrazování reklamy uživateli, jedná se o vyskakování reklamních oken, měnění domovské stránky internetového prohlížeče a podobně. Adwaru a obecně malwaru je velmi obtížné se zbavit. Nabídka čistících a ochranných programů je dnes již ale poměrně široká, mnohé nabízejí i rezidentní ochranu, která počítač chrání nepřetržitě. Tyto programy se tak stávají druhým antivirovým programem, specializují se ale přímo na ochranu (imunizaci [25]) webového prohlížeče a emailu před těmito typy škodlivého softwaru. Z těch nejznámějších a nejspolehlivějších bych uvedl program Spybot Search & Destroy (ke stažení http://www.safer-networking.org/cz/home/index.html), který vyhledává škodlivý kód šířený emailem, nebo zneužívající dočasné soubory internetových
prohlížečů.
Spybot
také
nabízí
již
zmíněnou
imunizaci
internetového prohlížeče, která by měla snížit riziko nákazy při navštěvování méně bezpečných webových stránek. Druhým známým programem je AdAware společnosti Lavasoft (ke stažení http://www.lavasoft.com/products/ ad_aware.php ), který umožňuje kontrolu všech dat na počítači a poskytuje i rezidentní štít, který zabezpečuje počítač v reálném čase. Spybot Search & Destroy je ke stažení zdarma, ale zdrojový kód k dispozici není [35], program Ad-Aware je zdarma dostupný pro nekomerční použití, za poplatek nabízí ochranu v reálném čase, firewall, zálohovací řešení a další nadstandardní funkce. Podle serveru Hoax.cz je současným trendem v oblasti malwaru přesouvání škodlivých programů z emailů na internet a rozesílány jsou pouze webové odkazy na stažení. Dříve bylo běžné rozesílání malwaru jako emailové přílohy a v textu emailu lákající uživatele k otevření přílohy pod různými záminkami, například že se jedná o zajímavý obrázek či video. Dnes má již ale mnoho uživatelů povědomí o tom, že by neměli otevírat především spustitelné „.exe“ soubory v přílohách a mnoho antivirových programů dnes důrazně upozorňuje tyto soubory nespouštět při pokusu o jejich otevření. Proto dnes nacházíme 22
spíše emaily, které mají v těle textu webové odkazy na podvodné stránky se škodlivým kódem skrývající se za jinými názvy a obalené lákavým popisem. Tvůrci malwaru často využívají současné významné události ve světě k přesvědčení uživatelů, aby klikli na jejich odkaz. Z nedávných událostí to bylo například uvedení nového dílu filmové série Harry Potter, kdy se vyrojilo mnoho podvodných emailů slibujících exkluzivní fotografie, informace a videa z filmu ještě před uvedením. Tato malwarová kampaň byla nejspíše zaměřena na mladší
uživatele,
kteří
mohou
být
v oblasti
počítačové
bezpečnosti
nezkušenější. Vynalézavost a podlost tvůrců malwaru nezná hranic a jsou vždy o krok před antivirovými programy a antispamovými filtry. [8]
2.5 Současný stav ve světě Globální emailové statistiky za rok 2009 pracují se skutečně velkými čísly, každým rokem se počet uživatelů internetu a s tím i počet odeslaných emailů znatelně zvyšuje a počty emailů lze tedy jen odhadovat. V minulém roce bylo odesláno 90 triliónů emailů (tj. 90*1018), to je 247 miliard emailů denně. Celkový počet uživatelů emailu dosáhl minulý rok 1,4 miliardy, každý pátý člověk na Zemi má podle těchto statistik alespoň jednu emailovou schránku. Roční průměr spamu dosáhl v roce 2009 81% s maximem 92% ke konci roku.[20] To je 24 procentní nárůst oproti roku 2008, statistiky z roku 2010 ukazují ustálení poměru spamu lehce přes 90%. Statistiky škodlivého softwaru (malware zahrnující trojské koně, červy a viry) společnosti Symantec ukazují, že na začátku roku bylo evidováno 2,6 milionu hrozeb škodlivého kódu a ve čtvrtém čtvrtletí 2009 bylo společností Symantec přidáno do evidence 921 143 nových
záznamů škodlivého kódu. Je
odhadováno, že každý den bylo ovládnuto 148 000 nových „zombie“ počítačů.[38] Zombie počítače jsou počítače připojené k internetu, jejichž uživatelé se stali obětí škodlivého kódu, který počítač zpřístupnil útočníkům. Ti ho mohou začlenit do své sítě spambotů (bot – program napsaný k opakování určité
činnosti
podle
určených
parametrů,
spambot
–
bot
určený
k automatizovanému rozesílání spamu), tzv. botnets (sítě botů) a tím se napadený počítač stává sám rozesilatelem spamu, či jiné nekalé činnosti. Většina dnes aktivně šířených virů je zaměřena právě na ovládnutí napadených počítačů a začlenění je do sítí pro rozesílání spamu. Odhad z roku 2007 23
naznačuje, že by mohlo být až 25% počítačů připojených k internetu napadeno a používáno k rozesílání spamu. [3] Spamový průmysl je dnes již tak sofistikovaný, že určité skupiny lidi se již zaměřují pouze na ovládání počítačů připojených k internetu a ovládnuté výpočetní prostředky poté prodávají samotným spammerům, kteří je používají k rozesílání nevyžádaní pošty. Na následujícím obrázku jsou zobrazeny podíly zemí, z kterých je spam rozesílán. Jako původce spamu dominuje Rusko s podílem 12,2% následované Indií (11,6%) a Brazílií (5,5%), světový podíl na spamu vyšší než dvě procenta mají ještě Spojené státy a Velká Británie, Bulharsko, Rumunsko, Jižní Korea a také Česká republika. Data jsou z listopadu 2010 společnosti m86 security.[19]
Obr. 2.5 Zdroj: http://www.m86security.com/images/trace/261/261-9spam_country_map_1600.gif
2.5.1 Statistiky MessageLabs V současnosti se drží poměr spamu ke všem odeslaným emailům ve světě na hodnotě překračující 90% podle měsíčních reportů společnosti MessageLabs, která se zabývá analýzou bezpečnostních rizik elektronické komunikace, trendů a statistik MessageLabs je odnoží společnosti Symantec, lídra na poli bezpečnostních řešení pro zákazníky a organizace, nabízí například známý antivirový program Norton Antivirus. Pouze tedy jeden odeslaný email z deseti není nevyžádaný a je zaslán konkrétnímu příjemci. Uvádím zde vybrané statistiky z reportu MessageLabs za září 2010. Následující graf ukazuje globální poměr spamu ke všem odeslaným emailům, poměr za září je 91,7% a průměr za posledních šest měsíců se drží nad 90% s hodnotou 90,4%. Nejvíce „zaspamovaným“ státem za září je Maďarsko, které 24
se na předních pozicích drží dlouhodobě. Následuje Lucembursko s 95,3%, Itálií s 94,8% a Francií s 94%. Spojené státy americké s 92,1% nevybočují z průměru. Nejvíce zasaženým průmyslovým sektorem je automobilový průmysl s 94,1% následovaný strojírenským průmyslem s 93,9%.
Obr. 2.6 Zdroj: MessageLabs
V září 2010 obsahoval malware (virus) průměrně jeden email z 218,7 (0,46% ze všech emailů), procento se může zdát malé, v absolutních číslech jsou to ale desítky miliard zavirovaných emailů měsíčně. Zemí s nejvyšším poměrem virů v emailech je Jižní Afrika, kde jeden email z 99,2 obsahoval virus, druhou nejvíce postiženou zemí je Velká Británie s poměrem 1 ze 117,5 následovaná Maďarskem s poměrem 1 ze 120,4. Ve srovnání podle odvětví vybočuje veřejný sektor, kde obsahoval virus 1 z 35,8 emailů, druhým je strojírenský průmysl s poměrem 1 z 116,4. Měsíční trendy mají poměrně kolísavý průběh zapříčiněný nejspíše neustálou obměnou aktivních virů a také schopností antivirových programů detekovat nově objevené viry.
Obr. 2.7 Zdroj: MessageLabs
25
Poměr podvodných (phishingových emailů) v září dosáhl hodnoty 1 z 382 (0,26%), jedná se emaily typu výše popsaných nigerijských dopisů a jiných typů sociálního inženýrství snažících se z obětí vylákat finanční prostředky nebo citlivé informace. Stejně jako u předchozích virových statistik zde v kategorii zasažených zemí vede Jižní Afrika s poměrem 1 z 36,1 emailů, druhá je Velká Británie s poměrem 1 z 174,6. Podle odvětví je opět na prvním místě Veřejný sektor, kde téměř každý 72 email obsahoval podvodný obsah.
Obr. 2.8 Zdroj: MessageLabs
2.6 Náklady spojené se spamem Odhad celosvětových nákladu pro rok 2009 je podle Ferris Research, americké společnosti zabývající se průzkumem IT trhu, 130 miliard dolarů. Z toho 42 miliard pro samotné USA. [15] To je 30% nárůst oproti roku 2007 a odhady pro rok 2007 měly 100% nárůst oproti roku 2005. Náklady pro tento odhad byly rozděleny následovně. 85% náklady produktivity uživatelů, zde je zohledněna ztráta času potýkáním se se spamem, jeho odstraňováním a vyhledáváním oprávněných emailů, které byly špatně zařazeny mezi spam. 10% náklady spojené s pomocí IT oddělení uživatelům se spamem. 5% náklady na antispamové programy a celkově náklady na softwarové a hardwarové vybavení pro boj se spamem včetně služeb třetích stran. Jak je vidět, ztráty jsou poměrně velké a největší část je ztracena v podobě času a produktivity zaměstnanců. Je velmi důležité vyvážit ztráty mezi zahlcením emailových schránek spamem a tím i ztráty času zaměstnanců stráveného tříděním vyžádané a nevyžádané pošty a mezi ztrátou nějakého důležitého emailu, který byl špatně zařazen mezi spam. Druhý případ může být větším problémem a nákladem, kdy je díky ztracenému emailu ztracena 26
obchodní příležitost, nebo dohledání onoho emailu může zabrat mnohem více času a prostředků. Je tedy velmi důležité správně nastavit stupeň ochrany a správně nastavené antispamové filtry mohou firmě ušetřit nemalé prostředky. Nezanedbatelnou položkou jsou také náklady spojené s přenosem emailů, spammeři dnes často používají obrázky ke zmatení antispamových filtrů s tím je také spojena větší velikost emailů. Další nepřímé náklady jsou mnohem obtížněji vyčíslitelné, jedná se o čištění počítačů napadených malwarem, ztráta nebo zcizení dat způsobené škodlivým softwarem přenášeným elektronickou poštou. Dále pokud zaměstnanec uvěří podvodnému emailu a odešle citlivá data, náklady mohou být velmi vysoké. [11] Na internetu existuje řada online kalkulátorů, které mohou pomoci určit velikost ztracených prostředků kvůli spamu. Vypočtené náklady lze poté použít pro srovnání s cenami antispamových produktů a určit jaké řešení ušetří prostředky. Jeden kalkulátor je přímo na webu již zmíněné společnosti Symantec – www.symantec.com/business/theme.jsp?themeid=idc_antispam_roi Google nabízí dva typy kalkulátorů, první jednodušší se zaměřuje na velikost ztracené produktivity zaměstnanců, kteří musí trávit část pracovní doby tříděním spamu
-
www.google.com/a/help/intl/en/security/roi_calculator.html.
Druhý,
detailnější kalkulátor se umožňuje vypočítat přibližné celkové náklady na boj proti
spamu
určité
společnosti
-
www.google.com/a/help/intl/en/security/
tco_calculator.html. Je ale nutné si uvědomit, že kalkulátory nejsou zcela přesné a slouží jen k hrubému odhadu ztracených prostředků. Kalkulátory jsou nabízené firmami, které prodávají antispamová řešení a mohou tedy být nadsazené, aby se zákazník rozhodl pro jejich produkt. Vzhledem k tomu, že největší část ztrát způsobených spamem pro podnik je potýkání se samotných zaměstnanců
s nevyžádanou
poštou,
mohou
školení
a
pravidla
pro
zaměstnance jak efektivněji nakládat se spamem ušetřit více prostředků než hardwarová a softwarová řešení.
2.7 Trendy Mohlo by se zdát, že spamu dnes ubývá a proto uživatelé již nemají své schránky zaplavené nevyžádanou poštou. Ale není tomu tak, relativní i celkový počet spamových zpráv se stále zvyšuje, i když dnes již pomalejším tempem než v minulých letech. Za čistší emailové schránky vděčíme zkvalitňujícím se 27
antivirovým programům a propracovanějším antispamovým filtrům. Problém spamu se tímto ale neřeší, pouze se zmírňují jeho koncové projevy. Velkým problémem stále zůstává nadměrné zatěžování emailových serverů a přenosových sítí, kdy 90% dat je nevyžádaných a nepotřebných. Prostředky vynaložené na jejich správu, nakoupení antispamových produktů a jejich udržování se přenášejí i na uživatele a v podstatě je neseme všichni. Díky rostoucímu uvědomění uživatelů ohledně emailového spamu a zpřesňujícím se antispamovým filtrům si nevyžádaná hromadná sdělení budou hledat jiné, nové kanály. Současným trendem je zaplavování spamem například Facebook a jiné sociální komunikační služby, jako třeba Twitter. Facebook se dnes stává terčem spammerů stále častěji a tento trend bude pravděpodobně pokračovat s rostoucím počtem uživatelů této sociální sítě.[32] Jedničkou mezi zeměmi z kterých je rozesíláno nejvíce spamu jsou stále USA, rostoucí podíl mají ale Indie a Brazílie, které budou svůj podíl stále zvyšovat s rostoucí internetovou penetrací v těchto zemích. Podle serveru crn.com budou spamové zprávy cílenější a budou zneužívat aktuálních významných událostí. Stále větší podíl budou mít spamové nabídky léků a jiných farmaceutických služeb. [4]
3 Možnosti ochrany V současnosti existuje několik specifických typů ochrany, které se liší v přístupu k boji s nevyžádanou poštou. Nejrozšířenějším typem ochrany je aplikace určitých filtrů na příchozí, ale je možné aplikovat i na odchozí spam. Filtrů se dnes používá celá řada, část z nich se zabývá pouze adresou odesilatele a nezajímá je samotný obsah zprávy. Druhým typem jsou filtry, které se zabývají obsahem sdělení v emailu a za použití nastavených pravidel se snaží zjistit, jestli se jedná o spam či ne. Dále jsou používány i jiné typy ochrany, o kterých se dále zmiňuji, nejsou ale tak rozšířené jako antispamové seznamy a obsahové filtry. Ochrany se dají rozdělit i podle stupňů, kterými elektronická pošta prochází, na něž jsou aplikovány. Prvním stupněm je firewall, který zpravidla odděluje především firemní sítě od internetu. Výhodou filtrování ještě před vstupem do lokální firemní sítě je ušetření prostředků na přenos spamu a zatížení sítě nevyžádanou poštou. Druhým stupněm je aplikování filtrů na poštovním serveru, který se ve firemní síti stará o přijímání a odesílání pošty. Posledním stupněm je klientský program uživatele s jeho osobní poštovní 28
schránkou. Pokud spam projde všemi stupni a dostane se přes všechny ochrany až do poštovní schránky, uživatel se dostává do pozice konečného filtru a svým rozhodnutím co je a co není prošlý spam dává možnost, pokud je vše správně propojeno, učit se a vyvíjet antispamovým filtrům, které jsou v přední linii. Na každém stupni lze aplikovat různé typy filtrů i jejich kombinace, záleží na zvolení optimálního nastavení a zvolení mezi efektivitou a hardwarovou náročností. Mezi ochranu před spamem patří i prevence, pokud uživatel dodržuje určité zásady ochrany emailové adresy, lze omezit šance, aby se jeho emailová adresa dostala na seznamy rozesilatelů nevyžádané pošty. Ať se uživatel snaží sebevíc, nakonec se jeho adresa na některý ze spamových seznamů dostane a ne vždy to musí být jeho přičiněním, může to být díky méně zodpovědnému příteli, či kolegovi, kterému byl odcizen seznam kontaktů s emailovými adresami, nebo únik databáze adres některé webové služby, na kterou se uživatel registroval. I sebeopatrnější uživatel tedy dříve nebo později musí přistoupit k použití filtrování příchozí elektronické pošty.
3.1 Antispamové seznamy Princip seznamů pro filtry v boji proti spamu spočívá v používání seznamů adres, které jsou porovnávány s adresami přijímaných emailů. Tyto seznamové filtry neberou zřetel na samotný obsah emailu a zabývají se pouze adresami. Z toho důvodu jsou poměrně rychlé a hardwarově méně náročné, než obsahové filtry. Existují tři základní přístupy, které k problému přistupují z různých směrů. Blacklisty (černé listiny) shromažďují adresy, které byly zneužity k hromadnému rozesílání spamu. Whitelisty (bílé listiny) naopak umožňují definovat důvěryhodné adresy a emaily odeslané z jakékoli jiné adresy jsou blokovány a k uživateli se vůbec nedostanou. Třetí metodou je Greylisting (šedá listina), někdy také nazývané „throttling“ (v překladu škrcení), které je v porovnání s předchozími metodami k emailům nejšetrnější. Všechny typy seznamů mají své výhody, ale i nevýhody a zvolení vhodné varianty se řídí individuálními požadavky konkrétního subjektu, není zde žádné nejlepší univerzální řešení.
29
3.1.1 Blacklisty Jak jsem již zmínil výše, blacklistem se obecně v souvislosti s emailem myslí seznam adres, které byly z různých důvodů shledány podezřelými a nedůvěryhodnými. Dříve se používaly hlavně samotné emailové adresy, dnes se ale často zaznamenávají i IP adresy, z kterých byla zpráva odeslána. Důvodem je velmi snadná změna, či založení nové emailové schránky. Změna veřejné IP adresy již tak snadná není a je zablokována jedna fyzická stanice (server, či PC), na kterém mohlo být založeno mnoho emailových adres. Tento způsob je účinnější, zároveň ale vyvstávají některé problémy – někteří poskytovatelé internetu používají dynamické přidělování IP adres svým klientům. Dobrým příkladem je mobilní internet, kdy je IP adresa náhodně přidělena zařízení při jeho připojení. Problém nastává v případě, kdy je jedna z dynamických adres zablokována, pachatel se odpojí, znovu připojí a získá novou nezablokovanou adresu. Zablokovaná předchozí IP adresa poté může být přidělena jinému nevinnému uživateli, který poté nese následky nekalé činnosti předchozího uživatele. Dynamicky přidělované rozsahy IP adres by měly být tvůrci blacklistů zohledňovány a mělo by k nim být přistupováno odlišně, například blokováním pouze konkrétních emailových adres. Blacklisty jsou dnes běžně využívány jako první linie ochrany proti nevyžádané poště na mnoha freemailových
serverech
(poskytovatelé
bezplatných
emailových
schránek na internetu) a jsou instalované i na firewallech organizací k hrubému odfiltrování známých spamových serverů, ještě předtím než spamové zprávy vstoupí do intranetu dané organizace. Tím se významně snižuje vytížení vnitřní sítě ve společnosti s poměrně malým rizikem, že budou zahozeny legitimní emailové zprávy. Blacklisty jsou někdy nazývány také jako Blackhole lists [42], což lze přeložit jako seznamy černé díry, tento název poměrně přesně vystihuje, co se s emaily odeslanými z adres na černé listině stane, jsou blokovány a zamýšlený příjemce se ani nedozví o jejich existenci. Zpravidla ale bývá odesílateli zaslána automatická odpověď s důvodem odmítnutí jeho zprávy, takže se v případě legitimního emailu dozví alespoň jedna strana o jeho neúspěšném doručení. Blacklisty mohou být spravovány samotnou organizací, častěji jsou ale stahovány a aktualizovány od různých společností, které se zabývají 30
shromažďováním nedůvěryhodných adres. Jako příklad bych uvedl asi nejkomplexnější projekt The Spam and Open Relay Blocking System (SORBS, www.sorbs.net)
a
jeden
z nejrozšířenějších
projektů
Spamcop
(www.spamcop.net). Oba projekty nabízejí online kontrolu, zda se IP adresa nenachází v jejich blacklistu a pokud ano, postup a podmínky jejího vyjmutí. Na webových stránkách je také uveden návod, jak odeslat report o obdrženém spamu.
Výhodou
těchto
centrálních
seznamů
je
obsáhlejší
seznam
nedůvěryhodných adres, zároveň bych ale upozornil na možnost případné manipulace s adresami či možné cenzury ze strany společnosti která poskytuje blacklisty, tímto způsobem lze ovlivňovat, které zprávy nebudou doručeny společnosti, jejíž firewall využívá daný blacklist. Je tedy nutné obezřetně vybírat jen důvěryhodné poskytovatele blacklistů a s tímto možným rizikem počítat. Blacklistový filtr již z principu svého fungování používá adresy, z kterých byl spam již někdy odeslán a ty následně eviduje. Spam tedy musel být někým nejdříve přijat, zaznamenán v seznamu a až poté mohou být ostatní účastníci, kteří seznam používají, chráněni. Blacklisty jsou dnes stále poměrně významné, jejich účinnost ale není již zdaleka tak vysoká jako v období jejich vzniku v letech 1997 až 1999 [42]. Současní profesionální spammeři totiž dnes s blacklisty počítají a často mění adresy, z kterých odesílají nevyžádanou poštu. Navíc jsou dnes rozšířené botnets (zmíněné v kapitole Malware), sítě osobních počítačů běžných uživatelů, ovládnutých malwarem a používaných k rozesílání spamu. Pokud se tedy daná adresa dostane na černou listinu, následky nese pouze majitel nakaženého počítače a ne spammer.
3.1.2 Whitelisty Používaní whitelistu je poměrně radikální cestou, je dnes ale jedinou ochranu kde je zaručena prakticky 100% účinnost proti spamu. Uživatel, který se rozhodne pro používání whitelistu bude blokovat veškeré zprávy od všech emailových adres, které si sám nepřidá do výjimek. Tento způsob je ideální pro uživatele, kteří email používají pouze pro komunikaci s vybranými lidmi či skupinami a nepřejí si přijímat jakékoli zprávy z jiných adres. Toto řešení ale pravděpodobně není vhodné pro většinu dnešních uživatelů a časová náročnost přidávání mnoha výjimek do whitelistu a udržování jeho aktuálnosti je třeba porovnat časovou náročností jednoduchého smazání případného spamu a 31
v neposlední řadě je nutné vzít v potaz riziko zablokování důležité zprávy, o jejíž ztrátě se uživatel, který používá whitelist ani nedozví. Whitelist je možné rozšířit o podmínku potvrzení odesílatelem, tím je umožněno přijmutí zprávy i z emailových adres, které nejsou na bílé listině. Tato metoda je založená na odeslání automatické zprávy na adresu odesílatele, v které je požadováno potvrzení, že se jedná o legitimní zprávu. Prakticky jde o ověření, že se nejedná o spambota a odesílatel je vyzván například k napsání klíčového slova do předmětu zprávy a odeslání zpět, spamboti na toto zpravidla nejsou naprogramováni a spam se tedy k uživateli s touto ochranou nedostane. Myšlenka této metody je jistě zajímavá, v praxi ale naráží na mnoho důvodů proti. Námaha spojená s ochranou proti nevyžádané poště je přenášena z příjemce na odesilatele, který musí zprávu prakticky odeslat dvakrát, což mnoho uživatelů odradí od komunikace s člověkem, který takovouto ochranu používá. Navíc příjemce se o zprávě nedozví do té doby, než odesílatel odešle potvrzení a ten sám může být přesvědčen, že email byl doručen a žádost o potvrzení nemusí ani obdržet. Je nutné si také uvědomit, že pokud by se tato praktika rozšířila mezi uživateli emailu, potvrzovací emaily by se prakticky staly novým spamem a na každý odeslaný email by připadla jedna žádost o potvrzení a jedna odpověď na žádost. Z této představy je jasné, že tudy cesta v boji proti spamu v globálním měřítku nevede. Další nevýhodou je možné obejití této ochrany záměnou pravé adresy odesílatele za nějakou, která je uvedena na bílé listině. Praktika záměny adresy odesílatele je u spammerů velmi rozšířená a záleží zde na náhodě, zda spammer odhadne právě tu adresu, která je na bílé listině. V praxi mohou spameři zneužívat známé adresy u kterých je velká pravděpodobnost že budou povoleny (mohou to být například adresy serverů známých antivirových programů
[email protected],
[email protected] ) v těchto případech nemohou být ani vyřazeny, protože by uživatel nedostával legitimní zprávy z těchto adres a na tyto typy musí být aplikovány obsahové filtry nebo jsou filtrovány přes IP blacklisty. [1]
3.1.3 Greylisty Principem greylistingu je dočasné odmítnutí přijetí zprávy poštovním serverem, jejíž údaje z hlavičky emailu nejsou zaznamenány v databázi serveru. Serveru, 32
který se email snaží odeslat, je přes SMTP protokol odeslána chybová zpráva a je mu sděleno, ať se pokusí odeslat zprávu za nějaký čas znovu. Zpravidla se jedná o chybovou zprávu 451 protokolu SMTP, která sděluje serveru, že u příjemce se vyskytla chyba a odesílatel by se měl pokusit zprávu odeslat později. [16] Tento postup je velmi účinný proti spamovým serverům, které se zpravidla nesnaží odeslat email znovu, pokud obdrží chybovou hlášku. Výhodou této metody je malá hardwarová náročnost, snadná konfigurace a snížení zatížení přenosové sítě, protože případný spam je odmítnut ještě předtím, než je přijatá celá zpráva. Největší nevýhodou je prodlení doručení zprávy v řádu jednotek až desítek minut, což je pro mnoho uživatelů znatelné zpoždění, kdy je od emailu očekáváno prakticky okamžité doručení. Některé starší poštovní servery také mohou odesílání emailu vzdát už po první chybové hlášce a email se odesílateli vrátí s chybou o nemožnosti doručení. Některé servery také mohou používat různé IP adresy při opakovaném odeslání zprávy a to může narazit u příjemce při ověřování v greylistu, kdy hlavička nebude odpovídat a celý proces odmítnutí začne znovu. [30] I přes nesporné výhody je nutné greylisting správně nastavit, jinak bude zpomalovat poštovní komunikaci natolik, že se stane obtížně použitelnou.
3.2 Prohledávání obsahu zpráv Dalším stupněm ochrany je filtrování emailů na základě analýzy samotného obsahu zprávy. K této problematice dnes existuje řada více či méně přesných přístupů, některé rozšířenější přístupy bych v této kapitole chtěl přiblížit.
3.2.1 Primitivní a heuristické filtrování Mezi první přístupy k odhalování spamu podle obsahu emailů byly primitivní filtry, ty měly definována určitá klíčová slova, která se často objevovala ve spamových zprávách. Pokud zpráva obsahovala určitý počet „spamových“ slov, byla označena jako spam. Tento postup byl v počátcích velmi účinný, ale velkou nevýhodou bylo i množství legitimních zpráv, které byly nesprávně označeny jako pošta nevyžádaná. Tento neduh byl tak významný, že jen těžko vyvažoval snížený počet nevyžádané pošty v elektronických poštovních schránkách. V pozdních devadesátých letech dvacátého století tedy bylo vytvořeno takzvané heuristické filtrování, které mimo „spamových“ pravidel obsahovalo i pravidla, 33
které měly určovat znaky legitimních emailů. Navíc každé pravidlo, resp. klíčové slovo mělo definovánu svou váhu, která určovala pravděpodobnost, že se jedná, či nejedná o spam. Slova, která se s velkou pravděpodobností vyskytovala hlavně ve spamových zprávách měla přiřazenu vysokou hodnotu váhy, kdežto slova méně jednoznačná měla nižší váhu. Jestliže spam obsahoval „spamová“, byl by primitivním filtrem zařazen mezi spam, pokud ale zároveň obsahoval i slova, která určovala legitimní email, heuristický filtr jej pustil do doručené pošty. Tato metoda snížila možnost nesprávného zařazení pošty mezi spam, v počátcích byla ale stejně poměrně vysoká. Nesprávně byl zařazen mezi spam 1 email z 10, později bylo nesprávné určení sníženo na 1 email z 20, což je 95% přesnost.[42] Závažným problémem se ukázalo to, že filtrovací pravidla byla definována globálně a pro všechny uživatele byla stejná. Z tohoto důvodu se filtrovací přesnost velmi lišila uživatel od uživatele, podle jejich návyků a typu zpráv, které jim chodily do jejich elektronických schránek. Také fakt, že u některých programů byla pravidla veřejně dostupná, nabízel možnost spammerům do nich nahlédnout a přizpůsobit své spamové zprávy tak, aby je tyto filtry nezachytily. To se samozřejmě také stalo a úspěšnost heuristického filtrování velmi poklesla. To vedlo k definování nových pravidel a následné nové adaptaci spammerů těmto novým pravidlům. Začal tak nekonečný boj mezi spammery a antispammery, vytváření nových pravidel a následná adaptace na ně.
3.2.2 Kolaborované filtrování Kolaborované filtrování spočívá v zapojení většího počtu uživatelů k určování toho co je spamem a co ne. Jako filtrovací mechanismus tedy figurují sami uživatelé. Ti co mají tu smůlu a stanou se příjemcem spamu, jejím označením za spam pomohou ostatním, aby ho další již nedostali. Kolaborované filtrování je vhodným doplňkem jiných filtrovacích metod, kterým dává možnost velmi rychle získávat nová pravidla, která ochrání ostatní uživatele, aby tento spam nedostali. I tento přístup však trpí nevýhodou generalizací pravidel pro všechny zúčastněné uživatele, to co je někým považováno za spam, nemusí být za spam považováno jiným. Pokud je ale tato metoda správně nastavena, stane se efektivním zvýšením filtrovací přesnosti. V současnosti je využívána na mnoha serverech spravujících větší počet emailových schránek. Nejzjevnější je asi 34
použití na freemailových serverech jako je Gmail.com společnosti Google, či Email.cz společnosti Seznam.cz. Na gmail.com je například u každé doručené zprávy k dispozici tlačítko Oznámit spam, což by mělo zajistit, aby se uživateli už stejný spam znovu v doručené poště neobjevil a zároveň je akce zaznamenána s určitou vahou i v celkovém kolaborovaném filtrování. [10] Obdobná funkce pod tlačítkem „Smaž jako spam“ je dostupná i na email.cz.
3.2.3 Statistické filtrování Statistické filtrování je jednou z nejnovějších a nejvyspělejších metod boje proti spamu. Pokud je správně nastavena, vykazuje také nejvyšší přesnost. Základem je použití jazykové klasifikace na obsah emailu, kdy je obsah rozdělen na menší části (tokeny), které obvykle představují jednotlivá slova, případně sousloví. Každému tokenu je poté přiřazena pravděpodobnost, na základě předchozí zkušenosti, s kterou se daný token vyskytuje ve spamu, či legitimní poště. Pravděpodobnosti jednotlivých tokenů jsou sloučeny a výsledkem je celková pravděpodobnost zda se jedná o spam či nikoliv. Pokud výsledná pravděpodobnost překračuje zadanou kritickou hranici, je email označen za spam a je s ním dále nakládáno jako s nevyžádanou poštou. Důležitou složkou statistického filtrování je schopnost učení. Každý filtr je nutné nejprve naučit, co uživatel považuje za spam a co za legitimní poštu. Filtry někdy mívají přednastavenu základní kostru, ale k dosažení nejlepších výsledků je zpočátku nutné individuální učení konkrétním uživatelem. Statistické filtrování představuje přelom v přístupu k boji se spamem, protože místo obecných pravidel, jako dřívější ochrany, umožňuje individuální přístup a každý uživatel si tak tvoří vlastní antispamový filtr podle svých rozhodnutí co je a co není spam. Statistický filtr se skládá ze tří základních částí. Databáze tokenů, která uchovává všechny tokeny, s kterými se v minulosti filtr již setkal a jejich „spamovitost“ (výši pravděpodobnosti výskytu tokenu ve spamové zprávě) a případně významnost podílu na určování spamu. Dále se jedná o tokenizér, který se stará o „přečtení“ obsahu zprávy. Jeho úkolem je rozdělit zprávu na jednotlivé tokeny a přiřadit jim hodnoty z databáze slov, pokud v ní jsou už obsaženy. Poslední částí je analyzátor, který představuje umělou inteligenci filtru a na základě dostupných hodnot tokenů rozhoduje, zda se jedná o nevyžádanou poštu. První ucelený přístup k boji se spamem za použití 35
statistického filtrování představil Paul Graham v roce 2002 ve své práci A Plan for Spam (Plán pro spam). Pro výpočet pravděpodobností a jejich kombinací využívá koncepty definované britským matematikem Thomasem Bayesem již v polovině osmnáctého století. Základem je tzv. Bayesův teorém který umožňuje vyjádřit míru nejistoty na základě známých pravděpodobností. V Bayesovské spamové analýze je použit pro kombinaci pravděpodobností spamovitosti jednotlivých tokenů a určení výsledné pravděpodobnosti celé emailové zprávy. Statistické filtry jsou dnes velmi populární a dosahují vysoké míry úspěšnosti.[42] Statistické filtry dnes používají namísto Bayesova teorému i různé další metody pro kombinaci pravděpodobností. Běžně jsou ale všechny statistické filtry nazývány Bayesovské filtry obsahu (Bayesan content filters). Na následujícím procesním diagramu je znázorněn postup statistického filtru při zpracování příchozího emailu
36
Obr. 3.1 Zdroj: autor, diagram vytvořen v programu Aris Express (www.ariscommunity.com)
3.2.3.1 Databáze tokenů a tokenizér Databáze tokenů představuje paměť statistického filtru, obsahuje historická data z předchozích emailů a jim přiřazené pravděpodobnosti. Databáze může 37
být předvyplněná, nebo spravována centrálně pro více emailových účtů na serveru. Nejlepších výsledků ale filtr dosahuje, pokud jsou databáze tvořeny individuálně z jednotlivých emailů pro každého uživatele zvlášť. Pokud je pro každý emailový účet tvořena samostatná databáze, může se filtr přizpůsobit konkrétním návykům uživatele a jeho hodnocením zda se jedná o nevyžádanou poštu, či nikoliv. Prvním krokem při tvoření nové databáze je předložení již roztříděných nevyžádaných a vyžádaných emailů (vyžádané zprávy bývají označovány jako „ham“, anglický výraz pro šunku; v anglické literatuře zabývající se nevyžádanou poštou se tedy často můžeme setkat s výrazy „spam“ X „ham“, nevyžádaná X vyžádaná pošta). Z těchto již roztříděných zpráv se vytvoří tokeny, které jsou uloženy v databázi a na základě množství výskytu ve spamových a hamových emailem je jim přidělena pravděpodobnost. Čím větší počet takto předem rozdělených emailů filtru předložíme, tím přesnější bude jeho rozhodování. Tímto úvodním krokem je vytvořen slovní základ pro pozdější rozhodování a databáze slov se dále bude sama rozšiřovat o další tokeny, které se budou v nově příchozích emailech vyskytovat spolu s již známými tokeny. Na následujícím příkladu můžeme vidět princip tvorby databáze. Mějme dvě složky – vyžádaná a nevyžádaná pošta. V nevyžádané složce je 200 různých spamových zpráv a ve vyžádané poště máme 100 legitimních zpráv. Každá zpráva je nyní rozdělena na jednotlivé tokeny, které jsou zaznamenány v databázi. Například token „Viagra“ je přítomný v 90 spamových zprávách a pouze v jedné legitimní zprávě, v databázi tokenů mu tedy bude přiřazena pravděpodobnost blízká 100% výskytu v nevyžádané poště, token „Viagra“ se tedy stal velmi silným ukazatelem spamové zprávy. Další token může být sloveso „jsou“ je pravděpodobné, že tento token se bude vyskytovat přibližně stejně často ve spamových i legitimních zprávách a bude mu přiřazena hodnota pravděpodobnosti blízká 50%. Je zřejmé, že důležitými ukazateli budou tokeny, jejichž pravděpodobnost se blíží 0% nebo 100% a tokeny s pravděpodobností blízké 50% nebudou mít prakticky žádnou váhu v určování spamovitosti. Váha tokenů bude tím větší, čím blíže budou extrémům 0% nebo 100% a v potaz je bráno i množství zaznamenaných výskytů. Token, který se bude vyskytovat jen v několika zprávách, bude mít menší váhu než token, který se vyskytuje v desítkách zpráv. Grahamova rovnice poskytuje jednoduchý nástroj určení pravděpodobnosti tokenu, který 38
bere v potaz množství výskytu v celém souboru zpráv. NP a VP představuje počet nevyžádané a vyžádané pošty v kterých se vyskytuje analyzovaný token. CN a CV představuje celkový počet nevyžádané a vyžádané pošty v analyzovaném souboru.
P=
(NP ) / (CN ) ((NP ) / (CN )) + ((VP )(CV ))
Výsledkem
je
P,
které
představuje
pravděpodobnost
spamovitosti.
0
představuje token, který se vyskytuje jen v legitimních zprávách. Token s hodnotou blížící se 1 se s velkou pravděpodobností vykytuje jen ve spamových zprávách. Token s hodnotou blízkou 0,5 bude neutrální. Gary Robinson vytvořil rovnici, která upravuje hodnotu P na základě počtu výskytů v databázi. Účelem je snížení váhy tokenů, které mají zatím pouze několik výskytů. N je počet výskytů tokenu v databázi, X je proměnná, která je použita, pokud se token v databázi zatím nevyskytuje (N=0), nejčastěji neutrální hodnota 0,5. S je konstanta pro případnou modifikaci přesnosti se základní hodnotou 1. F je modifikovaná pravděpodobnost hodnoty P tokenu W z předchozí rovnice.[42]
F (W ) =
SX + N (P (W )) S+N
3.2.3.2 Analýza použitím Bayesova teorému Pokud již máme vytvořenu základní databázi tokenů, můžeme nechat filtr činit vlastní rozhodnutí za použití databáze a příslušných rovnic. Poté co tokenizér rozebere obsah emailu a tokenům jsou přiřazeny pravděpodobnosti, je vybrán určitý počet nejvýznamnějších tokenů (ty, jejichž pravděpodobnost se nejvíce blíží extrémním hodnotám). V praxi je nejčastěji vybráno 15 tokenů, jejichž hodnota je nejvzdálenější od neutrální hodnoty (absolutní hodnota 0,5 – P). Můžou být ale použito i více tokenů, nebo dokonce všechny tokeny v dané zprávě. V praxi je ale nejefektivnější použít jen nejvýznamnější tokeny, což snižuje výpočetní náročnost a významně nesnižuje přesnost. Například pro token „Viagra“ s P = 0,99 bude jeho významnost 0,5 − 0,99 = 0,49 . Pro slovo 39
„květina“, které bude mít pravděpodobně přiřazenu velmi nízkou spamovitost např. 0,02, bude jeho významnost také vysoká 0,5 − 0,02 = 0,48 Tímto postupem jsou vyřazena slova s neutrální spamovitostí Následně
jsou
zkombinovány,
pravděpodobnosti výstupem
bude
jednotlivých
celková
významných
pravděpodobnost
(P ≈ 0,5) . tokenů
spamovitosti
analyzovaného emailu, zde použijeme Bayesův teorém. Hodnoty p1, p2, p3,… pn představují pravděpodobnosti spamovitosti jednotlivých tokenů. P představuje celkovou pravděpodobnost zprávy, zda se jedná o spam.[41]
P=
p1 p 2 p3 ... p n p1 p 2 p3 ... p n + (1 − p1 )(1 − p 2 )(1 − p3 )...(1 − p n )
Pokud je celková pravděpodobnost P větší, než nastavená hodnota, zpráva je filtrem klasifikována jako spam a tokeny ve zprávě obsažené jsou zapsány, resp. Modifikovány v databázi tokenů. Nové tokeny jsou do databáze zaneseny s vyšší pravděpodobností spamovitosti a u tokenů, které jsou již v databázi obsaženy je pravděpodobnost spamovitosti zvýšena. Naopak pokud je zpráva vyhodnocena jako ham, pravděpodobnosti spamovitosti tokenů v databázi jsou sníženy. Výstupem jsou obvykle extrémní hodnoty blížící se buď 0, nebo 1.
3.2.3.3 Analýza použitím Robinsonova geometrického průměru Jiným přístupem k počítání celkové pravděpodobnosti přispěl americký softwarový inženýr Gary Robinson použitím geometrického průměru, který bere v úvahu jak úroveň spamovitosti, tak úroveň nespamovitosti zprávy. P je stupeň spamovitosti zprávy, Q stupeň nespamovitosti a S je kombinací P a Q. P = 1 − ((1 − P1 )(1 − P2 )...(1 − Pn ))
1/ n
Q = 1 − ((P1 )(P2 )...(Pn ))
1/ n
P−Q 1 + P + Q S= 2
40
A hlavní výhodou je rozprostření výsledné pravděpodobnosti na celý rozsah 0 až 1, což umožňuje filtru, na rozdíl od Grahamova přístupu, určit úroveň jistoty. Vzniká tak nová kategorie „nejistých“ emailů, jejichž hodnota spamovitosti se blíží nejisté hodnotě 0,5 mezi oběma extrémy. Takové emaily jsou nejvhodnější pro učení filtru a zpočátku by měly být zakládány do samostatné složky. Tyto emaily by měl uživatel projít a ručně rozhodnout zda se jedná o spam, nebo ne. Informace o tokenech z těchto nejistých emailů jsou poté použity v databázi tokenů a napříště bude filtr zase o něco přesnější. V ideálním případě by s postupem času mělo být nejistých emailů stále méně.[33]
3.2.3.4 Slabiny statistického filtrování Jako u každé antispamové ochrany i u statistického filtrování nalezli spammeři cestu, jak znesnadňovat práci filtru a metody k jeho ošálení. Jednou z metod je Bayesan poisoning (volně přeloženo jako Bayesovské otrávení), tato technika spočívá ve vkládání větších částí textu, který se spamovou zprávou nemá nic společného a hodnocení tokenů vytvořených z tohoto textu má nízkou spamovitost a ovlivňuje výsledné určení pravděpodobnosti, že se jedná o spam. Další technikou je vkládání obrázků s textem do těla zprávy. Tokenizér dokáže určit pouze text a text v obrázcích nedokáže tokenizovat, pokud nepoužívá technologii OCR (automatizované rozpoznávání textu z obrázků), ta je však výpočetně a časově poměrně náročná a běžně se v antispamových filtrech nepoužívá. Technologii OCR v boji proti spamu má nasazen například Google. [10] Používání obrázků ale často naráží na fakt, že většina emailových klientů obrázky ve zprávách automaticky blokuje ve výchozím nastavení a navíc fakt, že email obsahuje vložené obrázky, zvyšuje jeho spamový rating.[28]
3.3 Další ochrany 3.3.1 Spamová past Jednou z méně známých ochran před spamem jsou takzvané spamové pasti (anglicky spamtraps), někdy také příznačně nazývané honeypots (doslovně přeloženo jako hrnky medu). Princip spočívá v záměrném zveřejnění emailové adresy organizací na svých webových stránkách tak, aby byla viditelná pro 41
programy spammerů, které prohledávají webové stránky a zaznamenávají emailové adresy do svých spamových seznamů. Zároveň je ale adresa skryta běžnému návštěvníkovi stránek. Adresa slouží jako návnada pro spamové roboty a všechny emaily, které jsou na ní doručeny, jsou analyzovány a automaticky klasifikovány jako spam. Získaná pravidla je poté možné použít k odfiltrování stejných spamových zpráv z běžně používaných emailových schránek organizace. Tímto typem ochrany se zabývá Project Honey Pot ( projecthoneypot.org
),
který
na
svých
stránkách
používá
informace
shromážděné ze spamových pastí na mnoha webových stránkách k analýze IP adres použitých spamovými roboty k prohledávání webu. Toho je dosaženo instalací speciálního softwaru na webových stránkách a ten se už pak autonomně stará o shromažďování informací z nastražených emailových adres a jejich odesílání na stránky projektu Honey Pot. [27]
3.4 Prevence Dosud jsem se zabýval jen ochranami před spamem, které se ho snaží řešit až ve chvíli, kdy je odeslán a je na cestě internetem do uživatelovy emailové schránky. Je potřeba se ale zmínit i o prevenci, která je často podceňována. Je nutné říci, že je prakticky nemožné stoprocentně ochránit svou emailovou schránku před zraky spammerů, osvojením si určitých jednoduchých návyků je to ale možné omezit.
3.4.1 Email na webových stránkách Pokud má uživatel zveřejněnou svou emailovou adresu na webové stránce bez jakéhokoli ochranného prvku, je velmi pravděpodobné, že během krátké doby bude zaznamenána některým spamových robotem, jejich anglický název „kombajny“ je poměrně přesně vystihuje. Účelem těchto programů je automatizovaně prohledávat zdrojový kód webových stránek a zaznamenávat podle daných pravidel vše, co by mohlo být emailovou adresou. Tyto data jsou poté analyzována a transformována do spamlistů, které jsou cennou obchodovanou komoditou mezi rozesilateli spamu. Odvětví je už tak specializované, že některé skupiny se zaměřují jen na shromažďování aktivních emailových adres a následný prodej jejich seznamů a ne na rozesílání samotného spamu. Jednoduchý „kombajn“ může být například nastaven na 42
zaznamenání řetězce znaků, které následují za html příkazem mailto:, nebo zaznamenání řetězce, který obsahuje zavináč a tečku (
[email protected]). Proti těmto jednoduchým robotům se lze snadno chránit několika způsoby. Email lze jednoduše převést z textu na obrázek, text snadno čitelný pro člověka, je pro robota nečitelný, pokud nepoužívá technologii OCR (strojový převod textu z obrázků), což je nepravděpodobné kvůli výpočetní náročnosti na převod a velkého množství obrázků na internetu, z nichž velká většina emailové adresy neobsahuje. Následuje příklad emailové adresy jako obrázek, který je pro člověka prakticky nerozeznatelný od normálního textu Nevýhodou tohoto řešení je nutnost ručně
přepsat celou emailovou adresu, pokud na ni chce návštěvník webové stránky napsat.
Další
možností
je
nahrazení
zavináče
slovním
přepisem
–
email(zavináč)doména.cz. Takto jednoduché řešení ale již roboti dokáží odhalit, je tedy vhodnější nahradit „zavináč“ něčím originálním, nesmíme ale zapomenout, že cílem je oklamat pouze spamového robota a ne i návštěvníka, který by chtěl napsat email. Pro člověka by tedy mělo být zřetelné správné znění emailové adresy. Řekl bych, že nejúčinnější ochranou je zmiňovaný převod adres na obrázky, což ale může být pro větší organizace s množstvím adres časově náročné. Možností je také na webových stránkách emailovou adresu nezveřejňovat vůbec a dát k dispozici pouze formulář, kterým je možné kontaktovat provozovatele stránek. Takový formulář je vhodné vybavit kontrolou CAPTCHA, která zabraňuje automatizovanému vyplňování a odesílání formulářů robotem. [17]
3.4.2 Registrace na webových stránkách Registrování se na webových stránkách je také rizikovým faktorem, uživatel svěřuje svou emailovou adresu do databáze provozovatele webových stránek. Takovéto databáze jsou cennou kořistí spammerů, protože obsahují mnoho přehledně uspořádaných emailů. Nezřídka se také stává, že méně důvěryhodné servery mohou své emailové seznamy prodat dobrovolně, což je porušením ochrany osobních údajů, které je ale těžko dokazatelné. Uživatel by toto měl mít na paměti a registrovat se pouze na důvěryhodné servery. Pro přístup na 43
pochybné weby je dobrým zvykem založit si a používat druhou emailovou adresu, zřízenou právě k tomuto účelu. V této schránce je možné si nastavit filtry pro přeposílání na hlavní emailovou adresu jen pro zprávy z registrovaných serverů, případný spam se přeposílat nebude a hlavní emailová schránka tak bude účinně ochráněna.
3.4.3 Nevyhnutelná rizika Pro úplnost zmiňuji i rizika, kterým je prakticky nemožné zabránit. Je to uveřejnění emailové adresy bez vědomí uživatele, což se často stává přeposíláním hromadných zpráv přáteli a známými, kde je emailová adresa uvedena v hlavičce v položce Cc (Carbon copy) a hromadný email se může nakonec dostat do rukou spammera i se všemi emailovými adresami v Cc. Také je možné, že bude napaden malwarem počítač a bude zcizen obsah adresáře, v kterém byla uvedena emailová adresa uživatele. Mezi praktiky spammerů patří i odesílání spamu na náhodně generované emailové adresy, či zkoušení často používaných slov (
[email protected],
[email protected] apod.). Jak je vidět z těchto příkladů, dříve nebo později bude odhalena prakticky každá používaná emailová schránka a musí nastoupit techniky, které se vypořádají se spamem samotným.
3.5 Kombinovaná řešení Typickou ukázkou řešení, které kombinuje různé metody ochrany před nevyžádanou poštou, je program Spamassassin. Spamassassin kombinuje většinu zde výše popsaných technik, jedná se o heuristickou analýzu hlaviček a obsahu, Bayesovské filtrování, DNS blocklisty (černé listiny IP adres) a využívá databáze
kolaborovaného
filtrování.
[21]
Program
je
volně
dostupný
s otevřeným kódem pod licencí Apache License 2.0, program může být volně distribuován a modifikován při zachování podmínek licence. První verze programu byla dostupná na serveru sourceforge.net už v roce 2001 vytvořená Justinem Masonem, který vycházel z kódu napsaného v roce 1997. Od té doby je stále vyvíjen a díky otevřenosti jeho kódu je snadno modifikovatelný a rozšiřitelný. Implementace do poštovních serverů je poměrně snadná, program lze ale implementovat i do poštovního klienta. Jeho modulární architektura umožňuje snadné začlenění nových funkcí a prvků. Licence, pod kterou je 44
vyvíjen, umožňuje i komerční použití a Spamassassin tvoří dnes základ množství komerčních antispamových produktů. Každá metoda programu má přiřazenu určitou hodnotu skóre a kombinace těchto skóre přiřazuje každé zprávě určitou výslednou hodnotu, pokud hodnota překročí nastavený práh, je zpráva klasifikována jako nevyžádaná. Úplný seznam testů je dostupný na adrese http://spamassassin.apache.org/tests.html, skóre jednotlivých testů lze upravovat a je možné přidávat i nové testy. Pokud je hodnota nastavena na 0, test není brán ve výsledném skóre v potaz. Výsledné skóre je potom porovnáno s nastavením na serveru, pokud je Spamassassin instalován přímo tam a do hlavičky emailu jsou přidány položky „X-Spam-Checker-Version“ (verze programu, který zprávu kontroloval) a „X-Spam-Status“ s hodnotou výsledného skóre, takto zaznamenané skóre v hlavičce potom může být dále použito například v emailovém klientovi.
45
4 Praktická aplikace ochrany V dnešní době již existují ucelené balíky řešení, které mají i s obecným nastavením relativně vysokou úspěšnost ochrany před nevyžádanou poštou. Se současnou mírou podílu spamu na celkové odeslané poště, pohybující se kolem 90%, je důležité co nejpřesnější nastavení ochrany. Pokud by nastavená ochrana zachycovala 90% spamu a propouštěla „pouze“ 10%, objevovalo by se v doručené poště stejné množství spamu a legitimní pošty, což jistě není optimální. Běžné implementované ochrany dnes dosahují přesnosti 95%, což představuje 1 propuštěný spam z 20 došlých emailů. Optimálně nastavené filtry používající především individuální statistické filtrování (běžně, i když ne zcela správně, nazývané Bayesovské filtrování) dosahují přesnosti až 99,987%, což představuje jeden prošlý spam ze sedmi až osmi tisíc došlých emailů. Věnovat nějaký čas optimálnímu nastavení ochrany se tedy jistě vyplatí.
4.1 Email na serveru Pro ukázku optimálního nastavení antispamové ochrany jsem vybral poštovní služby společnosti Seznam.cz a.s., který dnes spravuje největší počet emailových stránek v České republice. Jedná se o 7 milionů aktivních emailových schránek a denně se registruje patnáct tisíc nových uživatelů, údaje netmonitor.cz ze září 2010. [36] Protože se poštovní služby na freemailových serverech nijak zásadně neliší, lze následující postupy s drobnými obměnami použít na většině z nich. Například tlačítko „Smaž jako spam“, které odstraní nevyžádanou
poštu
z doručené
pošty
a
zároveň
aktualizuje
váhy
antispamového filtru na serveru, lze nalézt pod jiným názvem i jinde. Poštovní služba Gmail společnosti Google má toto tlačítko nazvané „Oznámit spam“ a plní prakticky identickou funkci jako na Seznamu.
4.1.1 Nastavení ochrany proti nevyžádané poště Seznam.cz
chrání
své
poštovní
schránky
integrovaným
programem
Spamassassin, jehož funkcionalitu rozebírám v kapitole 3.5. Přestože jeho účinnost je poměrně vysoká a jeho nasazení na poštovním serveru do určité míry dokáže odfiltrovat velkou část příchozího spamu pro spravované poštovní
46
schránky, použitím dalších zmíněných metod lze dosáhnout ještě vyšší účinnosti. Na následujícím obrázku jsou vidět možnosti nastavení, které Seznam email nabízí. Je možné ochranu proti nevyžádané poště zcela vypnout (nepoužívat služeb Spamassassin), nebo zapnout a poté je pošta vyhodnocená jako nevyžádaná doručována do složky Spam a viry. Pokud je zaškrtnuta možnost Nedoručovat spam, je nevyžádaná pošta ihned mazána, což je poměrně extrémní řešení, jelikož stále existuje možnost špatného vyhodnocení vyžádané pošty a tímto nastavením bude smazána, aniž by se o ní uživatel dozvěděl. Je důležité si uvědomit, že pošta vyhodnocená jako nevyžádaná, která je přesunuta do spamové složky, není doručena uživateli, který ke své schránce přistupuje externím klientem přes protokol POP3. Pro případnou kontrolu spamové složky na serveru je nutné navštívit webové rozhraní seznam.cz účtu. Seznam dále nabízí standardní ruční nastavení vlastních whitelistů a blacklistů. Emailové adresy na whitelistu nebudou kontrolovány antispamovou ochranou a všechny budou uživateli doručeny. Tato možnost je užitečná v případě, pokud uživatel komunikuje s někým, kdo používá adresu například s exotickou doménou prvního řádu (např. doména.tk, doména.cn). Blacklist je vhodný pokud
uživatel
dostává
nevyžádané
emaily
z jednotlivých
konkrétních
emailových adres, proti běžnému spamu ale tato metoda není účinná, protože spammeři často mění své adresy, z kterých nevyžádanou poštu odesílají.
47
Obr. 4.1 Zdroj: autor, Webové rozhraní elektronické poštovní schránky na serveru seznam.cz
4.1.2 Uživatelské nastavení filtrů Zajímavější možností pro boj proti nevyžádané poště je možnost nastavení uživatelských filtrů. Tyto filtry mohou sloužit i k třídění běžné pošty, správným nastavením je ale lze využít i k nakládání s nevyžádanou poštou. Filtr se skládá ze dvou částí, v první lze nastavit podmínky a druhá část určuje akci, jak bude s emailem naloženo, pokud bude splňovat nastavené podmínky. Pro náš záměr je důležitá podmínka „Když pole“, kde lze nastavit podmínky pro jednotlivé složky emailu (pole od, předmět zprávy, tělo zprávy). V nastavení akcí jsou pro účely našeho boje s nevyžádanou poštou zajímavé dvě akce – smazat nebo přesunout do složky Spam a viry. Uveďme si příklad, nastavením podmínky Každé pole – od (from) – obsahuje – text – „.ru“; Akce: Smazat. Takto nastavený filtr bude automaticky mazat všechny emaily, které budou odeslány z emailové adresy s doménou prvního řádu - . ru. Takto jsme jednoduše a účinně ochránili svou emailovou schránku před těmito emaily. Takto nastavené filtry ale musíme mít na paměti, a pokud
48
očekáváme email z domény „.ru“, musíme tuto doménu přidat do svého whitelistu, nebo zrušit výše zmíněný filtr.
Obr. 4.2 Zdroj: autor, webové rozhraní poštovní schránky serveru seznam.cz
49
4.2 Email v poštovním klientovi Nastavení v externím poštovním klientovi jsou podobného charakteru jako nastavení dostupná ve webovém rozhraní. Mají ale několik výhod a to plnou kontrolu nad používanými metodami a možnost individuálních pravidel učení. Pro názornou ukázku nastavení ochrany v emailovém klientovi jsem zvolil program Mozilla Thunderbird, který je dostupný zdarma pod licencí Creative Commons, která umožňuje program modifikovat, doplňovat, šířit a dále distribuovat při zachování uvedené licence. Thunderbird je multiplatformní klient dostupný na mnoha různých operačních systémech, například Windows, Linux, nebo Mac OS X, nabízí tedy svobodu a přenositelnost nastavení mezi systémy. Pro Thunderbird je také dostupných mnoho rozšiřujících doplňků zdarma, které rozšiřují funkcionalitu programu podle uživatelských preferencí, uživatel tak není odkázán pouze na funkce, které jsou mu pevně dány v některých jiných komerčních produktech.
4.2.1 Bayesovské filtrování Thunderbird má ve výchozím nastavení integrován bayesovský filtr, jehož princip jsem popsal v kapitole možnosti ochrany. Pro jeho rozšíření je vhodné nainstalovat doplněk JunQuilla, který rozšiřuje možnosti nastavení a doplňuje jeho funkcionalitu o důležitou položku a tou je nová podložka doručené pošty „Uncertain“. V této složce jsou vybrány emailové zprávy, s kterými si program není jistý, zda je zařadit do vyžádané nebo nevyžádané pošty. Z principu fungování bayesovského filtru jsou tyto nejisté emaily pro antispamový filtr nejdůležitější a manuální rozhodnutí uživatele o spamovitosti těchto emailů pomáhá budoucím přesnějším rozhodnutím. Doplněk JunQuilla lze jednoduše přidat přes menu Nástroje > Správce doplňků, kde na záložce Získat nové doplňky vyhledáme JunQuilla a klikneme na „Přidat do aplikace Thunderbird“.
50
Obr. 4.3 Zdroj: autor, Screenshot obrazovky programu Thunderbird
Obr. 4.4 Zdroj: autor, Screenshot obrazovky programu Thunderbird
Po restartování programu se objeví zmíněná složka Uncertain a do ní jsou automaticky vyfiltrovány nejisté emaily. Ikona zobrazená na obrázku 4.4 nám dává najevo, že filtr odhalil emaily, s kterými si není jistý a požaduje po nás naše rozhodnutí. Po otevření složky a označení emailu je na našem rozhodnutí zda poštu označíme jako spam tlačítkem „Is Junk“, nebo zda se jedná o legitimní poštu tlačítkem „Is Good“. Naše rozhodnutí pomůže zpřesňovat rozhodování filtru a po čase už by se ve složce Uncertain neměly objevovat prakticky žádné emaily. Po analýze alespoň několika stovek vyžádané a nevyžádané pošty v naší schránce, by měl být bayesovský filtr optimálně adaptovaný na naše individuální preference a rozhodnutí o spamovitosti. Pokud nejsou ve schránce evidovány žádné nejisté emaily je ikona vedle složky Uncertain zobrazena jako zelený kroužek.
51
Základní nastavení bayesovského filtru je dostupné v menu Nástroje > Možnosti na záložce Bezpečnost. Zde lze provést základní nastavení chování programu vzhledem k nevyžádané poště. Je zde možné nastavit maximální počet uchovávaných tokenů v databázi, který je ve výchozí hodnotě nastaven na 300000 a lze ho upravit podle uvážení, jak velké místo na disku je možné uvolnit pro potřeby filtru. Ve vedlejší kolonce je informativně uveden aktuální počet uchovávaných tokenů. Velmi důležitou položkou v nastavení je „Junk treshold“, který udává procentuální prahovou hodnotu, která sděluje filtru kdy už má analyzovanou poštu považovat za spam. Ve výchozím nastavení je hodnota nastavena na 90%. To je poměrně vysoké číslo, které zaručuje vysokou pravděpodobnost, že nebude legitimní pošta filtrem označena za spam. Pouze zprávy, které budou mít kombinovanou pravděpodobnost spamovitosti vyšší než 90% budou přesunuty do spamové složky. Po určité době je možné hodnotu postupně snižovat a s dobře naučeným bayesovským filtrem je podle mých zkušeností mez 75% optimální hodnotou. Dále jsou informativně zobrazeny počty analyzovaných legitimních a nevyžádaných zpráv, které umožňují orientační odhad, do jaké míry je již filtr adaptovaný na konkrétní emailovou schránku.
52
Obr. 4.5 Zdroj: autor, Screenshot obrazovky programu Thunderbird
Nově jsou k dispozici také dvě nové položky v seznamu doručené pošty, na následujícím obrázku zcela vpravo. První určuje procentuální pravděpodobnost spamovitosti určenou filtrem a druhá udává, zda byl email filtrem vyhodnocen a v tom případě jak byl vyhodnocen. Následující obrázek ukazuje seznam emailů v doručené poště, až na dva emaily byly ostatní vyhodnoceny s nulovou pravděpodobností spamovitosti, prakticky s jistotou se tedy nejedná o spam a filtr je také tak automaticky zařadil, tuto skutečnost vyjadřuje zelený kroužek a znak ∑. Zbylé dva emaily byly vyhodnoceny s pravděpodobností spamovitosti 31% a 62%, nepřekročily tedy nastavenou hodnotu pro označení za spam, byly ale vyhodnoceny jako nejisté a zařazeny do složky Uncertain. Zde byly následně vyhodnoceny uživatelem jako legitimní pošta a automaticky přesunuty zpět do doručené pošty, což vyjadřuje zelený kroužek a znak odškrtnutí √.
53
Obr. 4.6 Zdroj: autor, Screenshot obrazovky programu Thunderbird
4.3 Shrnutí Většina serverů dnes nabízí určité standardní metody boje proti nevyžádané poště, ty ale kvůli svému obecnému nastavení, které je společné pro všechny spravované poštovní schránky, poskytují jen částečnou ochranu. Cílem této kapitoly bylo navrhnout dodatečné postupy především za použití statistického filtrování. To má oproti jiným metodám jednu nespornou výhodu, kterou je individuální přístup k filtrování pošty podle rozhodnutí uživatele. Kombinací správného nastavení na serveru a dobře naučeného filtru založeného na bayesovské analýze lze dosáhnout emailové schránky, která bude obsahovat minimum nevyžádané pošty. Podle vlastních zkušeností s antispamovou ochranou na serveru seznam.cz a po nastavení a naučení bayesovského filtru za pomoci rozšíření JunQuilla jsem za sledované 4 měsíce (srpen – listopad 2010) neobdržel jediný spamový email.
54
5 Závěr Jak vyplývá z uvedených statistik, podíl spamu v celkovém objemu odeslané elektronické pošty dosahuje vysokého podílu a tento trend je stále rostoucí. Nicméně díky neustávajícímu zlepšování ochran proti nevyžádané poště je při jejich správné implementaci množství doručeného spamu až do elektronické poštovní schránky menší než dříve, jak potvrzují i mé zkušenosti. Tento fakt je ale vykoupen zvyšujícími se náklady, které jsou každoročně vynakládány pro boj proti spamu a celosvětově dosahují miliard amerických dolarů. Jelikož v současnosti existují dostatečně účinné ochranné prostředky, důležitost přikládám hlavně jejich správné aplikaci. Základem by měla být snaha co nejvíce ztížit práci vyhledávačům emailových adres metodami, které jsem navrhl v kapitole 3.4 Prevence. Uživatel by neměl svou soukromou adresu volně zeveřejňvat na webu a používat ji k registracím na pochybné webové služby. Dalším krokem by měla být správná aplikace dostupných metod ochrany, jejichž přednosti a omezení představuji ve třetí kapitole. Základem je nastavení blacklistu, který je účinný proti opakujícím se záplavám spamu z konkrétních adres. Důležitou složkou ochrany je správné nastavení obsahového statistického filtru, jehož princip představuji v kapitole 3.2 Prohledávání obsahu zpráv. Statistické filtry dnes dosahují nejvyšší účinnosti v množství odfiltrované nevyžádané pošty při zachování velmi nízké míry špatného zařazení legitimní pošty mezi nevyžádanou, což je významným neduhem globálně definovaných heuristických pravidel. Ve čtvrté kapitole se zaměřuji na vlastní praktické použití metod popsaných ve třetí kapitole. V první části popisuji nastavení na straně serveru pro odstraněné nejzjevnějších spamových zpráv a v druhé části navrhuji optimální nastavení statistického filtru, který používá vzorce Bayesova teorému pro kombinaci pravděpodobností popsané v kapitole 3.2.3. A právě individuálně přizpůsobený statistický filtr se podle mých výsledků projevil jako nejúčinější ochrana před nevyžádanou poštou. Po úvodním „zaučení“ je filtr schopen dále se učit sám a s každou novou příchozí poštou se stále zdokonaluje a těsněji přizpůsobuje konkrétnímu uživateli. Jak vyplývá z této práce, při správném použití dostupných technik ochrany před spamem lze, i přes vysoké procento rozesílaného spamu ve světě, dosáhnout poštovní schránky s minimem nevyžádané pošty. 55
6 Použité zdroje [1] Adámek, Martin. Spam, jak nepřivolávat, nepřijímat a nerozesílat nevyžádanou poštu. Praha : Grada Publishing, a.s., 2009. 168 s. ISBN 978-80247-2638-0. [2] Aguilar, Rose. Oxford dictionary adds Net terms [online]. Cnet News : 1998 [cit. 6.11.2010]. Dostupný z WWW:
[3] Anderson, Nate. Vint Cerf: one quarter of all computers part of a botnet [online]. Ars Technica : 2007 [cit. 15.11.2010]. Dostupný z WWW: [4] Copyright Everything Channel. Top Spam Trends Of 2010 (So Far) [online]. United Business Media : 2010 [cit. 2.10.2010]. [5] Couto, Francisco Pazo. Trade marks dispute: Hornel Foods v Antilles Landscape [online]. Lawdit Reading Room : 2005 [cit. 6.11.2010]. Dostupný z WWW: [6] Česká spořitelna a.s.. Vaše dotazy – Phishing [online]. Česká spořitelna, 2010 [cit. 2.11.2010]. Dostupný z WWW: [7] Dictionary.net. What does hoax mean? [online]. [cit. 15.11.2010]. Dostupný z WWW: [8] Džubák, Josef. MALWARE [online]. Hoax.cz : 2010 [cit. 15.11.2010]. Dostupný z WWW: [9] Google překladač [online]. [cit. 25.10.2010]. Dostupný z WWW: [10] Google. Gmail Help: Removing Spam [online]. Google : 2010 [cit. 18.11.2010]. Dostupný z WWW: [11] Hildreth, Sue. The Cost Of The War On Spam [online]. Sandhills Publishing Company : 2009 [cit. 15.11.2010]. Dostupný z WWW: [12] Hormel Foods Corporation. Dopis pro Spamcop E-mail Services [online]. Spamcop.net : 1999 [cit. 6.11.2010]. Dostupný z WWW:
56
[13] Hormel Foods v SpamArrest. Motion for Summary Judgment [online]. Spamarrest : 2004 [cit. 6.11.2010]. Dostupný z WWW: [14] Internet FAQ archives. The Email Abuse FAQ, Version 2.02, Definitions. Internet FAQ Archives, 2010 [cit. 25.10.2010]. Dostupný z WWW: [15] Jennings, Richi. Cost of Spam is Flattening — Our 2009 PredictionsRSS Feed [online]. Ferris Research : 2009 [cit. 18.11.2010] Dostupný z WWW: [16] Klensin, J. Simple Mail Transfer Protocol [online]. Request for Comments : 2001 [cit. 5.11.2010]. Dostupný z WWW: [17] Kocman, Rostislav; Lohninský, Jakub. Jak se bránit virům, spamu, dialerům a spyware. Brno : CP Books a.s., 2005. 148 s. ISBN 80-251-0793-0 [18] Lupa.cz tutoriál: Spam, phishing, jejich zdroje a cíle, možnosti obrany [online]. Lupa.cz, server o českém internetu. [cit. 20.10.2010]. Dostupný z WWW: [19] M86 Security Labs. Spam Statistics [online]. [cit. 15.11.2010]. Dostupný z WWW: [20] Marcus, David; Greve Paula; Masiello, Sam; Scharoun, David. McAfee Threats Report: Third Quarter 2009 [online]. McAfee : 2009 [cit. 15.11.2010]. Dostupný z WWW: [21] Mason, Justin. Welcome to SpamAssassin [online]. Spamassassin : 2010 [cit. 20.11.2010]. Dostupný z WWW: [22] Molnárová, Gabriela. 17722: Řetězové dopisy [online]. EPRAVO.CZ – Sbírka zákonů, judikatura, právo : 2002 [cit. 5.11.2010]. Dostupný z WWW: [23] Nigeria - The 419 Coalition Website. The Nigerian Scam Defined [online]. [cit. 5.11.2010]. Dostupný z WWW: [24] Nigerijský zákoník [online], The International Centre for Nigerian Law, 2009. [cit. 25.10.2010]. Dostupný z WWW: [25] Northwestern University Information Technology. Use Spybot's Immunize Function [online]. [cit. 6.11.2010]. Dostupný z WWW: 57
[26] Peterka, Jiří. Stalo se: spamu je 30 let [online]. Lupa.cz, server o českém internetu. 2008 [cit. 20.10.2010]. Dostupný z WWW: . [27] Project Honey Pot. About Project Honey Pot [online]. Unspam Technologies, Inc [cit. 18.11.2010]. Dostupný z WWW: [28] Přispěvatelé Wikipedie. Bayesan spam filtering [online]. Wikipedia, The Free Encyclopedia : 2010 [cit. 2.10.2010]. Dostupný z WWW: [29] Přispěvatelé Wikipedie. Chain letter [online]. Wikipedia, The Free Encyclopedia : 2010 [cit. 2.11.2010]. Dostupný z WWW: [30] Přispěvatelé Wikipedie. Graylist [online]. Wikipedia, The Free Encyclopedia : 2010 [cit. 2.11.2010]. Dostupný z WWW: [31] Přispěvatelé Wikipedie. Spam (electronic) [online]. Wikipedia, The Free Encyclopedia : 2010 [cit. 2.11.2010]. Dostupný z WWW: [32] Redakce dsl.cz. Schytal to i Facebook: SPAM [online]. 2010 ASPA, a.s.: 2010 [cit. 5.10.2010]. Dostupný z WWW: [33] Robinson, Gary. A Statistical Approach to the Spam Problem [online]. Linux Journal : 2003 [cit. 15.10.2010]. Dostupný z WWW: [34] Rochili, Darrick. Bill Gates in 2004: “Two years from now, spam will be solved” [online]. Gadgetell.com : 2006 [cit. 6.11.2010]. Dostupný z WWW: [35] Safer Networking Ltd. Darovací veřejná licence. 2010 [cit. 15.11.2010]. Dostupný z WWW: [36] Seznam.cz: O nás [online]. [cit. 2.10.2010]. Dostupný z WWW: [37] Symantec monthly report. State of spam & phishing, September 2010. Symantec Corporation, 2010. Dostupný z WWW: [38] Symantec Intelligence Quarterly: October – December 2009 [online]. [cit. 15.11.2010]. Dostupný z WWW:
58
[39]Templeton, Brad. Origin of the term "spam" to mean net abuse [online]. [cit. 2.11.2010]. Dostupný z WWW: [40] United States Patent and Trademark Office. SPAM CUBE, INC Opposition [online]. Trademark Trial and Appeal Board Inquiry System :2010 [cit. 6.11.2010]. Dostupný z WWW: [41] Yudkowsky, Eliezer S. An Intuitive Explanation of Bayes' Theorem [online]. 2003 [cit. 5.9.2010]. Dostupný z WWW: [42] Zdziarski, Jonathan. Ending spam: Bayesian content filtering and the art of statistical language classification. San Francisco : No Starch Press, 2005. 287 s. ISBN 978-1-59327-052-0.
59
7 Terminologický slovník Termín
Zkratka
Advanced Research Projects Agency Network
ARPANET
Carbon copy
Cc
Completely Automated Public Turing Test to CAPTCHA tell Computers and Humans Apart
Firewall
FW
Freemail
Frequently asked question
FAQ
GNU is Not Unix
GNU
ham
Chat
Význam [zdroj] Počítačová síť zbudovaná v roce 1969 ministerstvem obrany USA ve spolupráci se čtyřmi univerzitami [arpanet. Dictionary.com. Online Etymology Dictionary. Douglas Harper, Historian. http://dictionary.reference.com/browse/arpanet (cit: Listopad 2010).] V emailu indikuje další příjemce zprávy, kterým je zaslána kopie zprávy [Wikipedia contributors, "Carbon copy," Wikipedia, The Free Encyclopedia, http://en.wikipedia.org/w/index.php?title=Carbon_co py&oldid=395646261 (cit: Listopad 2010).] Test používaný na webových stránkách k ověření, zda požadavek odesílá člověk, nebo počítačový program. Typicky požadavkem o přepsání počítačem pokřivených znaků v obrázku. [CAPTCHA. Dictionary.com. The Free On-line Dictionary of Computing. Denis Howe. http://dictionary.reference.com/browse/CAPTCHA (accessed: December 03, 2010). Integrovaná kolekce bezpečnostních opatření navrhnutá pro ochranu před neautorizovaným elektronickým vniknutím do počítačové sítě [firewall. Dictionary.com. Dictionary.com Unabridged. Random House, Inc. http://dictionary.reference.com/browse/firewall (cit: Listopad 2010).] Služba poskytující schránku elektronické pošty zdarma výměnou za vystavení se reklamě. [freemail. Dictionary.com. WordNet® 3.0. Princeton University. http://dictionary.reference.com/browse/freemail (cit: Listopad 2010).] Dokument ve formátu otázek a odpovědí, který uvádí nově příchozí do tématu, často využíváno na Internetu [faq. Dictionary.com. Dictionary.com Unabridged. Random House, Inc. http://dictionary.reference.com/browse/faq (cit: Listopad 2010).] Rekurzivní akronym pro „GNU Není Unix“; Projekt spolku Free Software Foundation pro poskytnutí volně distribuované náhrady za systém Unix. [GNU. Dictionary.com. The Free On-line Dictionary of Computing. Denis Howe. http://dictionary.reference.com/browse/GNU (cit: Listopad 2010).] Opak spamové zprávy Jakýkoli systém, který umožňuje jakémukoli počtu přihlášených uživatelů mít psanou online konverzaci v reálném čase.[ chat. Dictionary.com. The Free Online Dictionary of Computing. Denis Howe. http://dictionary.reference.com/browse/chat (cit: Listopad 2010).]
60
Termín
Zkratka
Optical character recognition
OCR
Post Office Protocol, verze 3
POP3
Users' Network
Usenet
Význam [zdroj] Elektronická identifikace a převod tištěného, nebo ručně psaného textu za pomoci scanneru a specializovaného softwaru [OCR. Dictionary.com. The American Heritage® Science Dictionary. Houghton Mifflin Company. http://dictionary.reference.com/browse/OCR (cit: Listopad 2010).] Protokol umožňuje stáhnout klientskému počítači elektronickou poštu z POP3 serveru za použití dočasného tcp/ip spojení. [pop3. Dictionary.com. The Free On-line Dictionary of Computing. Denis Howe. http://dictionary.reference.com/browse/pop3 (cit: Listopad 2010).] Provázaný systém různých diskuzních skupin na internetu. [usenet. Dictionary.com. Dictionary.com Unabridged. Random House, Inc. http://dictionary.reference.com/browse/usenet (accessed: December 07, 2010)]
61
8 Přílohy 8.1 První SPAM Mail-from: DEC-MARLBORO rcvd at 3-May-78 0955-PDT Date: 1 May 1978 1233-EDT From: THUERK at DEC-MARLBORO Subject: ADRIAN@SRI-KL DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY; THE DECSYSTEM-2020, 2020T, 2060, AND 2060T. THE DECSYSTEM-20 FAMILY OF COMPUTERS HAS EVOLVED FROM THE TENEX OPERATING SYSTEM AND THE DECSYSTEM-10 COMPUTER ARCHITECTURE. BOTH THE DECSYSTEM-2060T AND 2020T OFFER FULL ARPANET SUPPORT UNDER THE TOPS-20 OPERATING SYSTEM. THE DECSYSTEM-2060 IS AN UPWARD EXTENSION OF THE CURRENT DECSYSTEM 2040 AND 2050 FAMILY. THE DECSYSTEM-2020 IS A NEW LOW END MEMBER OF THE DECSYSTEM- 20 FAMILY AND FULLY SOFTWARE COMPATIBLE WITH ALL OF THE OTHER DECSYSTEM-20 MODELS. WE INVITE YOU TO COME SEE THE 2020 AND HEAR ABOUT THE DECSYSTEM-20 FAMILY AT THE TWO PRODUCT PRESENTATIONS WE WILL BE GIVING IN CALIFORNIA THIS MONTH. THE LOCATIONS WILL BE:
TUESDAY, MAY 9, 1978 - 2 PM HYATT HOUSE (NEAR THE L.A. AIRPORT) LOS ANGELES, CA
THURSDAY, MAY 11, 1978 - 2 PM DUNFEY'S ROYAL COACH SAN MATEO, CA (4 MILES SOUTH OF S.F. AIRPORT AT BAYSHORE, RT 101 AND RT 92)
A 2020 WILL BE THERE FOR YOU TO VIEW. ALSO TERMINALS ON-LINE TO OTHER DECSYSTEM-20 SYSTEMS THROUGH THE ARPANET. IF YOU ARE UNABLE TO ATTEND, PLEASE FEEL FREE TO CONTACT THE NEAREST DEC OFFICE FOR MORE INFORMATION ABOUT THE EXCITING DECSYSTEM-20 FAMILY
62
8.1.1 Reakce Richarda Stallmana na první SPAM 1. 0-MAY-78 23:20:30-PDT,2250;000000000001 Mail-from: MIT-AI rcvd at 7-MAY-78 2316-PDT Date: 8 MAY 1978 0213-EDT From: RMS at MIT-AI (Richard M. Stallman) Subject: MSGGROUP# 697 Some Thoughts about advertising To: stefferud at USC-ISI Redistributed-To: [ISI]<MsgGroup>Mailing.List;154: Redistributed-By: STEFFERUD (connected to MSGGROUP) Redistributed-Date: 8 MAY 1978 1) I didn't receive the DEC message, but I can't imagine I would have been bothered if I have. I get tons of uninteresting mail, and system announcements about babies born, etc. At least a demo MIGHT have been interesting. 2) The amount of harm done by any of the cited "unfair" things the net has been used for is clearly very small. And if they have found any people any jobs, clearly they have done good. If I had a job to offer, I would offer it to my friends first. Is this "evil"? Must I advertise in a paper in every city in the US with population over 50,000 and then go to all of them to interview, all in the name of fairness? Some people, I am afraid, would think so. Such a great insistence on fairness would destort everyone's lives and do much more harm than good. So I state unashamedly that I am in favor of seeing jobs offered via whatever. 3) It has just been suggested that we impose someone's standards on us because otherwise he MIGHT do so. Well, if you feel that those standards are right and necessary, go right ahead and support them. But if you disagree with them, as I do, why hand your opponents the victory on a silver platter? By the suggested reasoning, we should always follow the political views that we don't believe in, and especially those of terrorists, in anticipation of their attempts to impose them on us. If those who think that the job offers are bad are going to try to prevent them, then those of us who think they are unrepugnant should uphold our views. Besides, I doubt that anyone can successfully force a site from outside to impose censorship, if the people there don't fundamentally agree with the desirability of it. 4) Would a dating service for people on the net be "frowned upon" by DCA? I hope not. But even if it is, don't let that stop you from notifying me via net mail if you start one.
2. 10-MAY-78 23:20:30-PDT,685;000000000001 Mail-from: MIT-AI rcvd at 9-MAY-78 1528-PDT Date: 9 MAY 1978 1827-EDT From: RMS at MIT-AI (Richard M. Stallman) Subject: MSGGROUP# 698 DEC message [VERY TASTY!] To: Stefferud at USC-ISI CC: Geoff at SRI-KL Redistributed-To: [ISI]<MsgGroup>Mailing.List;154: Redistributed-By: STEFFERUD (connected to MSGGROUP) Redistributed-Date: 9 MAY 1978 Well, Geoff forwarded me a copy of the DEC message, and I eat my words. I sure would have minded it! Nobody should be allowed to send a message with a header that long, no matter what it is about. Forward this if you feel like it.
63
8.2 Floodgate MAIL THOUSANDS OF EMAIL MESSAGES PER HOUR - NO KIDDING !! SEND YOUR EMAIL MESSAGES OUT, AT 1,000's MESSAGES / HOUR (28.8K modem) YES, 1,000's Of Messages An Hour ****************************************************** MILLIONS OF EMAIL ADDRESSES ******** $100.00 ******* ****************************************************** YOU'LL RECEIVE 2 HIGH-SPEED EMAIL SOFTWARE PROGRAMS Introducing...."FLOODGATE BULK EMAIL LOADER" AND...."GOLDRUSH STEALTH MASS MAILER" This is the same software that all bulk emailing services use! ---------------------------------------------------Floodgate Bulk Email Loader Version 5.2 AND Goldrush Stealth Mass Mailer Version 3.215 for Windows 95 and Windows 3.1 now Supports 17 (Really more with the free form filter) File Formats
8.3 Podvodný email – phishing ——– Původní zpráva ——– Předmět: ***SPAM*** INFO plus s elektronickymi vypisy Datum: Wed, 19 Mar 2008 12:25:02 -0400 Od: Ceska sporitelna, a.s. Komu: undisclosed-recipients:; Ceska sporitelna, a.s. SERVIS 24 ——————————————————————— Nazev zpravy: INFO plus s elektronickymi vypisy Datum zadani: 19/03/2008 ——————————————————————— dovolujeme si Vas upozornit, ze vypisy z uctu si nyni muzete generovat elektronicky. Podoba a rozsah informaci na vypise je identicky s tistenou verzi. Vypis v elektronicke podobe Vam vsak poskytne rychlejsi pristup k informacim o realizovanych transakcich v tydennim, mesicnim nebo rocnim prehledu. Navic usetrite penize za postovne. Aktivaci elektronickych vypisu provedete sami ve sluzbe SERVIS 24 Internetbanking v zalozce Nastaveni. Novinkou je take informacni mesicnik INFO plus pro klienty Ceske sporitelny v elektronicke podobe. Aktualni tipy a novinky z nabidky produktu a sluzeb pro dany mesic si muzete stahnout na internetovych strankach Ceske sporitelny www.servis24.cz nebo pravidelne dostavat primo do sve e-mailove schranky. Staci se jen na www.servis24.cz zaregistrovat do internetoveho Informacniho servisu a budete vzdy vcas upozorneni na vse, co Vas zajima.
64
8.4 Hoax Příklady hoaxů, které aktuálně kolují v emailových schránkách (říjen 2010), zdroj hoax.cz . Prvním příkladem je typická poplašná zpráva, dále uvádím příklad nepravdivé matoucí informace. Třetím příkladem je dezinformace, která využívá část pravdivých informací, ale překrucuje je a neuvádí je v potřebných souvislostech.
8.4.1 Únos dětí v obchodním domě Přeposílám příběh z IKEA Praha!!!! Myslím, že je dobrý, aby vědělo co nejvíce lidí, co se tu děje. Kamarádka jela s asi 3-letou dcerou do Prahy, do Ikey. Procházeli ji a malou hlídali na střídačku s rodičema, najednou se sešli a zjistili, že malá tam není. Máma myslela, že ji mají rodiče a rodiče, že ji má máma....Tak ji chvíli hledali a nic, tak šli za ostrahou, která tam stála. Chlapík je okamžitě seřval a hned nařídil zavřít celou Ikeu vč.nouzáku. Bylo jim to dost divný, že takhle jedná, ale tím líp.Malou našli na záchodě nadopovanou a uspanou, měla oholené¨vlásky (měla dlouhý blonďatý) a byla převlečená za chlapečka!!! Zní to příšerně co? Ale bohužel je to tak. Měli veliký štěstí, že se vše semlelo včas. No je naprosto jasný, že už se tam něco podobného muselo stát, když okamžitě zavřeli celou Ikeu. Takže to všude rozhlaste lidem, co tam chodí i s detma, protože to asi není jen tak. Mně teda z toho běhá mráz po zádech. Tato příhoda není žádnou novinkou. Podobná situace se odehrává ve všech větších obchodních centrech. V Plzni se tato událost stala před rokem také. Maminka dávala synka do baby koutku. Malý si sundával boty a # ona vypisovala lístek k přijetí. Než se ohlédla syn tam již nebyl. Duchapřítomně vyrozuměla ostrahu a ta nechala ihned celé Tesco uzavřít. Malého našli také na dámském WC, kompletně převlečeného a ostříhaného. Omámený nebyl, ale vyděšený byl k smrti. Není to opravdu žádný výmysl a trapné přeposílání čehosi. Toto je realita a ročně se takto ztratí v nenávratnu dětí. Děti tak končí jistě v organizacích s dětskou prostitucí a v rukou pedofilů. Proto je opravdu nezbytně nutné děti střežit, obzvláště v takovýchto místech! Díky vaší nepozornosti, byť jen chvilkové, tyto organizace využívají ve svůj prospěch. Dnes je hranice otevřená a tak než dojde policií k pátrání, dítě je již dávno v zahraničí! Není to blud! Je to skutečnost! V Ostravě se stalo loni ke konci roku totéž!!!!
8.4.2 V nouzi zadej PIN opačně Oficiálně z banky: Jakmile se ocitnete v situacii a musíte pod nátlakem vybrat peníze z bankovního automatu na požádáni/přinuceni nasilnikem, zadejte svůj PIN opačně: to je od konce - např. máte-li 1234, tak zadáte 4321, automat vám peníze přesto vydá, ale též současně přivolá policií, která vám přijde na pomoc. Tato zpráva byla před nedávnem vysílaná v TV, protože málo lidí využívalo tuto skutečnost, protože o tom nevěděli. Přepošlete toto co nejvíce lidem.
65
8.4.3 Pangasius – je to k jídlu? Máte rádi ryby.............? Pangasius je chuťově velice dobrá ryba, jen je potřeba brát na zřetel v jakých podmínkách chov probíhá, jako každá sumcovitá ryba trpí tzv. kožovcem kožním parazitem, který způsobuje v prvním roce velké ztráty, proto se v odchovném prostředí přistupuje ke koupelím v malachitové zeleni, která je silně karcinogenní. Do některých evropských zemí je zákaz dovozu z těchto chovů, tak se to řeší přes třetí země. Každý by měl toto riziko zvážit, naše ryby jsou kvalitní a dobré. Pangasius je sladkovodní ryba a chová se v deltě Mekongu, což znamená: 1) Má méně jodu, protože je sladkovodní 2) Mekong stahuje všechnu špínu z Thajska, Vietnamu a Laosu. To je přesně ta řeka, která sbírá všechny humusy, které do ni amíci naházeli ve válce s Vietnamem a taky do které tečou špíny z továren co jich jenom ve # # >> Vietnamu je. 3) Nikdy není čerstvý, vždy jenom dovezený přes půl planety. NEBRAT.Lidi proboha proberte se. Ve všech článcích se tato ryba velmi oslavuje - jak nemá kosti, jak je strašně zdravá, jak je mořská. Prd a bobek. Pěstuje se ve sladkých vodách, okolo Mekongu, v teplé vodě hodně rychle dorůstá do "jateční velikosti" - rybka to je nevídaně žravá, ovšem čím je krmena je vietnamským tajemstvím. Opravdu není cítit po rybách - není protože je napraná vodou (některé super levné filety v našich obchodech mají až 50% vody). Laboratorně jsou výsledky výživových hodnot také nevalné - ryba v sobě nemá vůbec nic, totálně prázdné kalorie. A vrchol všeho je, když se někde prodává jako čerstvá fileta - neexistuje, je to vyrobeno rozmražením - čerstvý pangas se # sem vůbec nedodává. A poslední věc už jste viděli kvalitu za takový mrzký # peníz a z Vietnamu je cesta dlouhá. A proto - vezměte rozum do hrsti a kupte si # našeho kapra. Dobrou chuť. Lidi koukněte na tuto stránku: http://www.dietmindspirit.org/2008/01/30/why-you-shouldnt-eat-thisfish-pangas-pangasius-vietnamese-river-cobbler-white-catfish-graysole/
66