České vysoké učení technické v Praze Fakulta elektrotechnická
Bakalářská práce
Nevyžádaná pošta v počítačové síti firmy Orlík kompresory a vliv na sociabilitu firmy Marek Štelčík
Vedoucí práce: prof. PhDr. Marcela Efmertová, CSc
Studijní program: Elektrotechnika a informatika, strukturovaný, bakalářský Obor: Informatika a výpočetní technika květen 2008 iii
Poděkování Rád bych poděkoval vedoucí mé bakalářské práce, Prof. PhDr. Marcele Efmertové, CSc., za to, že se ujala vedení mé bakalářské práce a za spoustu jejích odborných rad, připomínek a komentářů. Poděkování patří i těm, kteří mi byli velkou oporou během tvorby této práce, zejména rodičům a přítelkyni.
v
Prohlášení Prohlašuji, že jsem svou bakalářskou práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu §60 Zákona č. 121/2000 Sb. o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). V České Třebové, dne 10. 6. 2008
……………………………………
vii
Abstract In this work we are trying to show technical falls of the spam. Spamming is one of the greatest threats in the Internet community. Spammers are trying to hack computer’s networks, steal personal data of user’s bank accounts and their doing overload the Internet and harass users. In this work we focused on the spam situation in real company. There, we are analyzed situation of the spam and it’s depends. Goal of this bachelor thesis is finding appropriate solution, steps and actions in company Orlík kompresory which will lead to elimination of the spam in the company network.
Abstrakt V této práci se snažím nalézt technické dopady spamu na počítačové infrastruktury. Spamování se stává jednou z největších hrozeb Internetu. Spameři se snaží ukrást citlivá data uživatelů, nabourávat se pomocí spamu do počítačových sítí a v neposlední řadě jejich počínání zahlcuje Internet a obtěžuje jeho uživatele. Proto jsme se rozhodli zaměřit na středně velkou společnost, kde situaci okolo spamu monitorujeme a analyzujeme dopady spamu. Cílem této bakalářské práce bude nalezení příslušného řešení a nutných kroků k jeho realizaci ve společnosti Orlík kompresory. Toto řešení by mělo výrazně snížit míru příchozího spamu a zvýšit bezpečnost počítačové infrastruktury.
ix
Obsah Seznam tabulek ............................................................................................................. xiii Seznam obrázků ............................................................................................................ xv
1 2
Úvod............................................................................................................ 1 Vývoj a struktura spamu.......................................................................... 3
2.1 2.2 2.3 2.3.1 2.3.2 2.3.3 2.3.4
3
Obecná charakteristika spamu ........................................................................... 3 Vývoj spamu ......................................................................................................... 3 Současná struktura spamu .................................................................................. 4 Typy spamu ................................................................................................................ 4 Právní a společenské aspekty spamu .......................................................................... 5 Ekonomická stránka spamu ........................................................................................ 8 Konkrétní (technické) projevy spamu, jeho typologie ............................................... 9
Obecné (technické) řešení ochrany proti spamu.................................. 18
3.1 Vývoj technických prostředků využívaných spamery .................................... 18 3.2 Antispamové řešení - technický popis .............................................................. 20 3.2.1 Rozpoznávání dle obsahu ......................................................................................... 20 3.2.1.1 Použití pravidel a regulárních výrazů....................................................... 20 3.2.1.2 Kontrolní součty ....................................................................................... 21 3.2.1.3 Statické metody ........................................................................................ 21 3.2.1.3.1. Bayesův filtr ...................................................................................... 21 3.2.1.3.2. Otrávení Bayesova filtru .................................................................... 24 3.2.2 Rozpoznávání podle odesílatele ............................................................................... 25 3.2.2.1 Blacklisty .................................................................................................. 25 3.2.2.2 Whitelisty ................................................................................................. 26 3.2.2.3 Domain Keys ............................................................................................ 27 3.2.2.4 Sender Policy Framework (SPF) .............................................................. 28 3.2.2.5 CallerID .................................................................................................... 29 3.2.2.6 SenderID................................................................................................... 30 3.2.3 Ostatní metody ......................................................................................................... 30 3.2.3.1 Greylisting ................................................................................................ 30 3.2.3.2 FFB ........................................................................................................... 32 3.2.3.3 Pozdržení odesílatelů (HashCash) ............................................................ 32 3.2.3.4 Legislativa a placené e-maily ................................................................... 33 3.3 Shrnutí antispamových metod .......................................................................... 34
4
Konkrétní kroky ve společnosti Orlík kompresory ............................. 35
4.1 4.2 4.3 4.3.1 4.3.2 4.3.3 4.4 4.5 4.5.1 4.5.2 4.5.3 4.5.4 4.5.5 4.5.6
Počítačová infrastruktura společnosti .............................................................. 35 Možnosti .............................................................................................................. 36 Současná situace ................................................................................................. 37 Sekretariát ................................................................................................................. 39 Management ............................................................................................................. 40 Konstrukce ............................................................................................................... 41 Prevence .............................................................................................................. 42 Testování ............................................................................................................. 44 Symantec BrightMail AntiSpam 6.0 ........................................................................ 45 Série Symantec Mail Security 8200 ......................................................................... 45 ESET Mail Security ................................................................................................. 47 Spamassassin ............................................................................................................ 48 Bogofilter ................................................................................................................. 49 iHateSpam Server Edition ........................................................................................ 50
xi
4.6
5 6
Závěr......................................................................................................... 55 Zdroje ....................................................................................................... 57 6.1 6.2 6.3
7
Výsledky měření ................................................................................................. 50
Literatura ............................................................................................................ 57 RFC dokumenty ................................................................................................. 57 Publikace na internetu ....................................................................................... 58
Přílohy ...................................................................................................... 63 A Obsah přiloženého CD ............................................................................................... 63 B Seznam použitých zkratek ......................................................................................... 65
Seznam tabulek Tabulka č. 1 Ekonomické dopady na společnost vygenerované kalkulátorem ...................................................... 9 Tabulka č. 2 Typy příloh v jednotlivých rocích ................................................................................................... 11 Tabulka č. 3 Počítačová infrastruktura společnosti Orlík kompresory................................................................. 35 Tabulka č. 4 Celková statistika spamu společnosti za monitorované období, ...................................................... 39 Tabulka č. 5 Konfigurace počítačů, na kterých byly prováděny testy.................................................................. 50 Tabulka č. 6 Výsledky měření Symantec BrightMail Antispam 6.0 .................................................................... 51 Tabulka č. 7 Výsledky měření Symantec Mail Secirity 8240 .............................................................................. 51 Tabulka č. 8 Výsledky měření ESET Mail Security ............................................................................................ 52 Tabulka č. 9 Výsledky měření Bogofilteru .......................................................................................................... 52 Tabulka č. 10 Výsledky měření iHateSpam Server Edition .................................................................................. 52 Tabulka č. 11 Výsledky měření Spamassassin s Bayesovou klasifikací ............................................................... 53 Tabulka č. 12 Výsledky měření Spamassassin bez Bayesovy klasifikace ............................................................ 53
xiii
Seznam obrázků Obrázek č. 1 Podíl spamu jednotlivých zemí ......................................................................................................... 7 Obrázek č. 2 Podíl spamu jednotlivých zemí ......................................................................................................... 7 Obrázek č. 3 Textový spam .................................................................................................................................... 9 Obrázek č. 4 Nárůst spamu s přílohami, .............................................................................................................. 10 Obrázek č. 5 Obrázkový spam včetně barevného pozadí (šum) ........................................................................... 11 Obrázek č. 6 Seriózně vypadající PDF spam pro podporu nákupu akcií ............................................................. 12 Obrázek č. 7 První podoba formátování obrázku ................................................................................................. 13 Obrázek č. 8 Druhá podoba formátování obrázku................................................................................................ 13 Obrázek č. 9 Třetí podoba formátování obrázku .................................................................................................. 13 Obrázek č. 10 URL spam ...................................................................................................................................... 16 Obrázek č. 11 Podíl spamu URL, cizích znaků, obrázků a další obsahu .............................................................. 16 Obrázek č. 12 Schéma BotNetu s centrálním řízením ........................................................................................... 19 Obrázek č. 13 Tvorba databáze slov pro filtr z množin spamu a hamu................................................................. 22 Obrázek č. 14 Posloupnost zpracování e-mailu v rámci SMTP relace.................................................................. 34 Obrázek č. 15 Celková statistika spamu společnosti za monitorované období ..................................................... 39 Obrázek č. 16 Podíl spamu v sekretariátu ............................................................................................................. 40 Obrázek č. 17 Podíl spamu v managementu ......................................................................................................... 41 Obrázek č. 18 Podíl spamu v konstrukci ............................................................................................................... 41 Obrázek č. 19 Hardwarové zařízení Symantec Mail Security 8240 ...................................................................... 46 Obrázek č. 20 Vícevrstvá komplexní ochrana před spamem od společnosti Symantec ........................................ 47 Obrázek č. 21 Činnost programu spamassassin a rozčlenění práce démonem spamd........................................... 48
xv
1
1 Úvod Spam je poslední dobou výrazným a v určitých případech také nebezpečným jevem internetové společnosti.1 Spamování2 je často doprovázeno ilegální činností, kterou se spameři3 snaží obohatit na úkor méně obezřetných uživatelů elektronické komunity. O problematice spamu a jeho negativních projevech se v současné době živě diskutuje nejen v technickém, ekonomickém a politickém, ale i v laickém prostředí. K napsání této práce mě vede aktuálnost a naléhavost tématu, neboť spam na sebe bere stále agresivnější a obtížněji identifikovatelné podoby. Nevyžádaný e-mail často obsahuje další malware,4 což v praktickém důsledku zvyšuje jeho nebezpečnost. Otázkou spamu jsem se zabýval i v semestrálním projektu a navázal jsem na něj bakalářskou prací Nevyžádaná pošta v počítačové síti firmy Orlík kompresory a vliv na sociabilitu firmy. Problematika spamu se nejvíce projeví přesunutím od poskytovaných hostovaných služeb e-mailu k provozování vlastního e-mailového serveru. Zajímá mě aktuální společenská, právní, ekonomická a zejména technická stránka nevhodného či škodlivého obsahu na internetu - především spamu a zejména možnosti, jak se mu co nejúčinněji bránit. Je nezbytné hledat teoretické i praktické vymezení spamu z různých hledisek (technické, právní, ekonomické, společenské …), tj. vše, co lze za spam v jednotlivých posuzovacích rovinách vlastně považovat. Spolupracuji s významnou regionální společností Orlík kompresory se sídlem v České Třebové, která nově vybudovala počítačovou síť a která začíná řešit otázku zamezení příchozího spamu. V rámci přípravy mé bakalářské práce jsem se důkladně seznámil se situací ve firmě a v první fázi jsem prostudoval teoreticky zaměřené knihy Jak se bránit virům, spamu a spyware, viz [10] a Právo na internetu, spam a odpovědnost ISP, viz [2]. S pomocí těchto stěžejních publikací a další odborné literatury, uvedené v závěru mé práce, se pokusím o teoretické hodnocení spamu a shromáždění jeho definic, jeho vývoje a současné podoby, a to z hlediska společenského, právního a ekonomického. Hlavním cílem mé práce bude vybrání vhodného technického způsobu antispamové ochrany pro společnost Orlík kompresory. Východiskem mé práce se stanou souvislosti mezi spamem, jakožto nevyžádanou zprávou a reálnými následky u společnosti Orlík kompresory, a to především potvrzení nutnosti implementace řešení ochrany proti spamu. To povede k redukci současného množství, a tím pádem minimalizace škodlivého dopadu spamu na pracovníky zkoumané společnosti. Během technického řešení problematiky se zaměřím na dostatečné vysvětlení současných metod využívaných v boji se spamem. Pokusím se kontaktovat klíčové poskytovatele antispamových řešení pro malé a střední podniky a přední české odborníky,5 zabývající se otázkami spamu. Mnou navržené postupy a řešení se budu s danými odborníky snažit konzultovat pro získání řešení, které bude možné následně 1
Tímto pojmem je označována komunita lidí, kteří využívají ve svém životě výhod internetu, bez ohledu na funkci, jakou plní (práce, zábava, získávání informací apod.). 2 Odvozeno z anglického slova smamming, tedy samotná činnost rozesílání nevyžádaných zpráv. 3 Odvozeno z anglického slova spammer, tedy osoba posílající nevyžádané zprávy (spam). 4 Malware představuje škodlivý obsah a jedná se o počítačové viry, trojské koně, backdoor, spyware, dealer, hoax, spam či počítačový červ. 5 Teoretické a praktické poznatky mi sdělili JUDr. Radim Polčák, Ph.D., se kterým jsem konzultoval právnické otázky, týkající se spamu. Praktickou část návrhu antispamového řešení pro podnikovou infrastrukturu jsem konzultoval s Martinem Medunou a Jakubem Jiříčkem ze společnosti Symantec se sídlem v Praze a Bc. Igorem Hákem ze společnosti ESET s.r.o. se sídlem v Praze.
2 implementovat v praxi. Samotná implementace nebude vzhledem k časové náročnosti možná, neboť se jedná o středně velkou společnost s rozsáhlou počítačovou sítí. Preferováno bude komplexní komerční řešení, případný outsourcing6 od spolehlivých poskytovatelů včetně pravidelných aktualizací. Současně se pokusím navrhnout řešení pro společnost (či jednotlivé uživatele) vedoucí ke snížení množství spamu. Důležitý bude pohled nejen na vlastnosti zvoleného řešení, ale velkou míru budu přikládat zodpovědnému přístupu dodavatele k vývoji daného produktu a možnosti jeho aktualizací.
6
Pojmem outsourcing se obecně označuje zajištění určité části činnosti firmy jinou, externí organizací, zjednodušeně tedy outsourcing představuje pronájem externích zdrojů.
3
2 Vývoj a struktura spamu 2.1 Obecná charakteristika spamu Co je to spam? Pojem spam je považován za slovo obecného charakteru. Označení se používalo pro nevyžádané reklamní e-maily, postupem času spam pronikl do dalších způsobů (druhů) internetové7 komunikace (diskusní fóra, komentáře, instant messaging…), viz [3]. Pro opak spamu, tj. elektronickou poštu, zaslanou konkrétní osobou (firmou) s jasným účelem a adresátem považovanou za žádoucí, se v literatuře používá termínu ham. V právních ani společenských souvislostech není doposud nikde přesně vymezen a v ČR neexistuje přímo žádná právní regulace. Proto i samotná snaha o ucelenější definici je poměrně obtížná. Na spam je tak možno pohlížet z mnoha úhlů, z nichž za hlavní považuji dva pohledy. Prvním pohledem je množství oslovených, míra hromadnosti šíření a samotný dopad (převážně negativní) na své cíle. Druhý pohled se zaměřuje na obsah spamu, jeho kvalitu a míru nesené informace. Podle citované charakteristiky se jedná o sdělení šířené elektronicky, zasílané bez vyžádání a hromadně, viz [2]. Poslední bod je mírně rozporuplný, neboť za spam se dá v určitých případech považovat i přímo mířená zpráva jednomu uživateli. Je vhodné analyzovat formu spamu zasílanou elektronickou poštou (dále e-mail). Z pohledu obsahu spamu lze tento pojem ještě rozčlenit do jednotlivých skupin: obchodní charakter sdělení, podvodný charakter (například phishing),8 falšování identity (například fingovaná adresa odesílatele či vydávání se za jiný subjekt) či skrytá funkčnost sdělení (zde se může jednat například o šíření trojských koňů spamem), viz [2]. Pro samotný spam se občas používají především v USA termíny Unsolicited Bulk/Commercial E-mail, které mají podobu zkratek UBE/UCE. V češtině pracujeme s termíny nevyžádaný hromadný e-mail, respektive nevyžádaný komerční e-mail. Výrazu spamming se potom v prostředí sítí a internetu využívalo v souvislosti napadání systému zahlcováním vyrovnávací paměti nepotřebnými daty, viz [22].
2.2 Vývoj spamu Původ slova spam nemá s prostředím informačních technologií (IT) nic společného. Název je odvozen ze značky výrobce masových (hašových, lunchmeatových na bázi šunky) konzerv9 z USA, vyráběných od 30. let 20. století. V souvislosti s hromadným zasíláním zprávy byl výraz spam poprvé použit při odeslání zprávy (1994) s komerčním obsahem uživatelům sítě USENET. Jednalo se o zaplavení 6000 diskusních 7
Internet je celosvětová počítačová síť, která původně vznikla k vojenským účelům a která spojuje jednotlivé menší sítě pomocí sady protokolů Internet Protocol (IP). Dnes slouží k přenášení informací. Prostřednictvím internetu je poskytováno mnoho služeb (např. http, ftp, mail). Jednu z prvních experimentálních sítí v rámci Internetu byla síť ARPANET (1969), využívající ve svém počátku protokol Network Control Protokol (NCP). V rámci internetu vznikla globální decentralizovaný systém internetové diskuze zvaný USENET (1979). Každý počítač komunikující na internetu má přidělenu IP adresu, což je 32bitové číslo zapisované ve formátu čtyř desítkových čísel v rozsahu 0-255, čísla jsou oddělena tečkou. Př.: 192.168.4.1. Komunikace probíhá pomocí protokolu Transmission Control Protocol/Internet Protocol (TCP/IP) a pro lehčí práci s internetem se používají doménová jména, které se převádí na IP adresy. 8 Více o tomto typu podvodu na adrese http://www.usdoj.gov/opa/report_on_phishing.pdf. 9 Výrobcem byla společnost Hormel a prvním typem tohoto typu se stala šunková konzerva, více o společnosti na adrese http://www.hormelfoods.com.
4 fór. Obsahem zaslané zprávy byla nabídka advokátních služeb vedoucí k získání zelené karty10 pro imigranty v USA, viz [36]. Nabízené advokátní služby byly předražené, viz [37]. Výše uvedené události jsou spojeny s etymologií slova spam, tj. vznikem pojmu spam. Jaká byla vlastní historie spamu? Za první spam se považuje hromadné sdělení zaslané zaměstnancem společnosti Digital Equipment Corporation ze dne 1. května 1978. Spam byl směřován na adresy tehdejší sítě ARPANET a obsahoval informace o prezentaci produktů této společnosti. Druhým významným historickým spamem byla zpráva, kterou zaslal Dave Rhodes na výše zmíněnou síť USENET, viz [38]. Tato událost výrazně rozhýbala protispamové opatření. Předmětem této zprávy byla fráze MAKE.MONEY.FAST!!11 Ne vždy se však jednalo o komerční zprávy. Jedním z počátečních spamů zaslaných 18. ledna 1994 se stal náboženský text s předmětem Global Alert For All: Jesus is Coming Soon, což se dá přeložit jako globální upozornění pro všechny: Ježíš brzy přijde. Již v minulosti však veškeré takovéto hromadné sdělení doprovázely velké diskuze o zásadách slušného chování na Internetu. Ucelený soubor chování na bázi IT se dnes nazývá netiquete, viz [2]. Na českém internetu stojí za největší kauzou spamu společnost Media Online, s. r. o. Společnost vlastní server Tvujdum.cz a hromadně rozesílala zprávy, týkající se nabídek bydlení. Zmíněná firma byla nucena se za své počínání osloveným uživatelům omluvit, viz [37].
2.3 Současná struktura spamu 2.3.1 Typy spamu Spam se postupem času stal hrozbou počítačových sítí a především samotného Internetu, viz [35]. Rychle se vyvíjel a bral na sebe různé podoby. Otázkou spamu se zabývají mnohé technologické společnosti, které připravují nové a nové ochrany proti spamu zamezující jeho šíření. V současnosti je spam převážně šířen prostřednictvím emailů a kromě klasické textové podoby na sebe vzal i podobu multimediální (SMS, telemarketing, …).12 Z multimediálních podob nejčastěji spam v podobě bitmap13 (jeden ze dvou základních způsobů, jakým počítače ukládají a zpracovávají obrazové informace), jehož prvotní odhalení je opět o něco obtížnější. Pomalu však proniká i do VoIP telefonie (Voice over Internet Protocol), viz [39], setkat se s ním můžeme také v diskusních skupinách při používání Instant Messengerů (IM) a obecně u většiny 10
Green Card, v překladu zelená karta - je název, který se používá pro přistěhovalecká víza do USA. Majitel zelené karty získává právo na trvalý pobyt na území USA a většinu ostatních práv, které mají občané USA, kromě práva volit a být volen. Držitel zelené karty může v USA pracovat, studovat, volně se pohybovat, svobodně z USA vycestovat a znovu přicestovat bez potřeby získávání dalších víz. Má právo bezvízového vstupu do zemí, se kterými USA uzavřely odpovídající smlouvy (je to více než 100 zemí). Držitel zelené karty získává právo na sociální zabezpečení, zdravotnické služby, vzdělání a jiné zabezpečení za stejných podmínek jako občané USA. Zelená karta se vydává na neomezenou dobu. Karta neztratí platnost, pokud se její držitel zdržoval v USA alespoň omezenou dobu. Po pěti letech od udělení má držitel zelené karty právo požádat o udělení občanství USA. 11 Předmět zprávy v překladu znamená „vydělávej rychle peníze,“ což představuje hlavní účel spamu komerční oslovení. 12 Tedy audiovizuální podobu (tj. obrázky, hudba, video, text a jejich vzájemné kombinace) 13 Obrázek popsán pomocí jednotlivých barevných bodů (pixel), ty jsou uspořádány do mřížky a každému bodu je přiražena jednoznačná poloha v rámci mřížky a barva (například RGB).
5 telekomunikačních služeb. Nejnověji se objevuje spam webových stránek, tj. podvrhy webových stránek, které mají za cíl ovlivnit fulltextové vyhledávání.14 Uživateli, který vyhledává konkrétní informace na internetu jsou vkládány výsledky vyhledávání nesouvisející s hledaným obsahem, viz [4]. Kromě boje technologického je však se spamem sváděn boj i právní, viz [2].
2.3.2 Právní a společenské aspekty spamu Kritéria rozlišování spamu, uvedená v jeho charakteristice, se různě kombinují. Snahou je vytvořit přijatelné chování na internetu, které nebude neetické a ve svém důsledku nebezpečné pro internetovou společnost. Právo se pak snaží tyto charakteristiky přebírat a uplatňovat na samotný spam i trestní restrikce. Rychlý technický vývoj spamu a jeho různorodé podoby stěžují legislativě jeho přesné právní a společenské vymezení jak v nežádoucích formách, tak i v jeho neškodných a výjimečně i prospěšných variantách. Zajímavý příklad takovéto situace pak nese kniha Radima Polčáka - Právo na internetu, viz [2]. Uvažujme obchodní sdělení, které majitel malého nakladatelství rozešle několika stovkám svých přátel, obsahující informaci o tom, že vydal novou zajímavou knihu, a nabídne jim ji k zakoupení. Legislativa pak může mít v takovém případě jen těžko nastavena kritéria, aby bylo možné výše zmíněné jednání de iure odlišit od komerčních spamů. V konečném důsledku se musí rozlišit podmínky tak, že buď mnohdy dojde k restrikci i nezávadných forem komunikace, nebo je naopak zúžit s tím, že připustíme existenci negativních forem spammingu.15 Existuje však ještě třetí možnost, a to ponechat rozhodování o tom, co je spam a co nikoli, na dostatečně inteligentní a eticky vybavené právní autoritě, tj. na soudci. To však klade na soudní systém nemalé nároky. I toto řešení však při zavedení do právní praxe působí značnou nejistotu. Adresáti právních norem, jejichž aplikace je přímo závislá na individuálním posouzení příslušné otázky soudcem, si nemohou být dopředu jistí, jak jejich případ dopadne. Nejistota pak může vést ke strachu, což v konečném důsledku by mohl znamenat až utlumení investic do rozvoje služeb informační společnosti. Dalo by se namítnout, že v případě rozhodnutí státu regulovat problematiku administrativě právní metodou, otevírá se prostor pro korupci a další nežádoucí jevy, viz [2]. Současnou situaci v otázce společenského a právního vymezení spamu je možno uzavřít neuspokojujícím konstatováním, že neexistuje jeho precizní definice. K základním námi využívaným znakům, tj. elektronickému charakteru, hromadnosti a nevyžádanosti, totiž přistupuje ještě znak neetičnosti, jehož obsah však nelze a priori přesně vymezit, viz [2]. Jak se s problémem vymezení spamu vypořádává Česká republika a EU? Prvním pokusem ochrany před spamem vytváří správní postih, tvořící jádro takzvané antispamové legislativy. EU vychází z harmonizační směrnice dávající členským státům možnost zvolit konkrétní legislativní řešení, viz [2]. V případě spamu je harmonizačním předpisem směrnice Evropského parlamentu a Rady č. 2002/58/ES o zpracování osobních údajů a ochraně soukromí v odvětví elektronických komunikací, známá jako směrnice EPD (Directive on Privacy and Electronic Communications), z níž vychází následující článek 13 EPD, viz [24]: 14 15
Metoda vyhledávání, která porovná hledaný výraz s každým slovem v dokumentu či databázi. Samotná činnost rozesílání nevyžádaných zpráv.
6 Nevyžádaná sdělení 1. Automatické volací systémy bez zásahu člověka (automatické volací přístroje), faximilní přístroje (faxy) nebo elektronickou poštu je možno použít pro účely přímého marketingu pouze v případě účastníků, kteří k tomu dali předchozí souhlas. 2. Bez ohledu na odstavec 1, pokud fyzická nebo právnická osoba získává od svých zákazníků podrobnosti jejich elektronického kontaktu pro elektronickou poštu v souvislosti s prodejem výrobku nebo služby a v souladu se směrnicí 95/46/ES, může tato fyzická či právnická osoba využít tyto podrobnosti elektronického kontaktu pro účely přímého marketingu svých vlastních obdobných výrobků nebo služeb pouze za předpokladu, že je zákazníkům jasně a zřetelně poskytnuta možnost zdarma a jednoduchým způsobem nesouhlasit s takovým využitím podrobností jejich elektronického kontaktu v době, kdy se shromažďují, a při zasílání každého jednotlivého sdělení, pokud zákazník původně toto využití neodmítl. 3. Členské státy musí přijmout vhodná opatření zajišťující, že nevyžádaná sdělení, zdarma, pro účely přímého marketingu, v případech jiných než uvedených v odstavcích 1 a 2, nebudou povolena buď bez souhlasu dotčených účastníků, nebo ve vztahu k účastníkům, kteří si nepřejí taková sdělení dostávat, přičemž výběr z uvedených možností bude stanoven vnitrostátními právními předpisy. 4. V každém případě je nutno zakázat praxi posílat elektronickou poštu pro účely přímého marketingu, pokud tato skrývá nebo utajuje totožnost odesílatele, jehož jménem se sdělení přenáší, anebo ji posílat bez platné adresy, na kterou by příjemce mohl odeslat žádost o ukončení zasílání takových sdělení. 5. Odstavce 1 a 3 se použijí na účastníky, kteří jsou fyzickými osobami. V rámci práva Společenství a použitelných vnitrostátních právních předpisů členské státy také zajistí, že budou dostatečně chráněny oprávněné zájmy účastníků, kteří nejsou fyzickými osobami, pokud jde o nevyžádaná sdělení. Od toho se odvozují konkrétní legislativní úpravy jednotlivých států Evropské unie (EU). Směrnice stanovuje základní standardy. Je však zřejmé, že se nevymezuje hromadnost, zasílání spamu může být adresováno i na jediného adresáta. Z úpravy vyplývá nevyžádanost a obchodní charakter (není zde nikterak regulován např. politický či náboženský spam). Zakázáno je uvádění nepravdivých informací o odesilateli a chybějící či falešné označení obchodního obsahu. To chrání před obchodními sděleními tvářícími se jako sdělení osobní. Česká republika se při tvorbě zákonu a regulaci přidržela modelu Evropské unie postihující jen takové typy spamu, které mají obchodní charakter. Jedná se o zákon číslo 480/2004 Sb., viz [25]. Dozorem nad dodržováním tohoto zákona byl následně pověřen Úřad pro ochranu osobních údajů (ÚOOÚ), a to především z důvodu vysokých pravomocí úřadu. Díky členství v EU je možné postihovat odesílatele spamu v případě, že firma či subjekt sídlí v některé členské zemi. To ve většině případu nefunguje, neboť spam přichází především z USA, Ruska a Číny a teprve čtvrté místo zaujímá Německo z EU následované pátou Velkou Británií, viz Obrázek č. 1.
7
Obrázek č. 1 Podíl spamu jednotlivých zemí, viz [40]
Druhý zdroj, viz Obrázek č. 2, prezentuje pořadí jednotlivých zemí, které je mírně odlišné. První místo je i v tomto případě obsazeno USA. Jednotlivé rozdíly jsou vidět na grafech. Je tedy patrné, že statistiky se shodují v dominantním postavení USA u zastoupení jednotlivých států, ze kterých spam pochází. Na dalších příčkách se již výsledky jednotlivých měření původu spamu rozchází.
Podíl spamu Indie Kanada Francie Japonsko Německo Jižní Korea UK Rusko Čína USA
3,55 3,78 4,13 4,31 4,89 5,27 5,42 7,91 12,63 48,11
0,00
10,00
20,00
30,00
40,00
50,00
podíl spam u v procentech
Obrázek č. 2 Podíl spamu jednotlivých zemí, viz [60]
60,00
8 Z pohledu zákona se spam definuje jako obchodní sdělení, což jsou „…všechny formy sdělení určeného k přímé či nepřímé podpoře zboží či služeb nebo image podniku fyzické či právnické osoby, která vykonává regulovanou činnost nebo je podnikatelem vykonávajícím činnost, která není regulovanou činností; za obchodní sdělení se považuje také reklama podle zvláštního právního předpisu. Za obchodní sdělení se nepovažují údaje umožňující přímý přístup k informacím o činnosti fyzické či právnické osoby nebo podniku, zejména doménové jméno nebo adresa elektronické pošty; za obchodní sdělení se dále nepovažují údaje týkající se zboží, služeb nebo image fyzické či právnické osoby nebo podniku, získané uživatelem nezávisle,“ viz [25]. Z uvedených definic vyplývá, že za spam se nepovažují, kromě již zmíněného náboženského a politického spamu, ani metadata, tj. odkazy (linky) a formy e-mailových adres. Šířit elektronickými prostředky odkazy na www (world wide web) 16 stránky a emailové adresy není zákonem zakázáno, viz [2].
2.3.3 Ekonomická stránka spamu Dalším důvodem, proč se zabývat problematikou spamu, je jeho ekonomický vliv ve společnosti. V případě firmy Orlik kompresory se nejedná o globální finanční instituci, u které by bylo vysoké riziko cílených podvodných e-mailů.17 Ty stojí banky stamiliony korun, viz [61]. Přesto i v uvedené firmě se spam dotýká jejího finančního fungování. Společnost Gauzy18 vydala ve své tiskové zprávě, že za měsíc prosinec 2007 dosáhl na českém internetu počet nevyžádaných zpráv 89 % všech doručených e-mailů, které prošly českým internetem. V datovém objemu tvořily e-maily pouhých 0,02 %. Podobná situace je i ve světě, kde se hladina spamu pohybuje okolo 90 %, viz [41]. Za měsíc říjen 2007 spam představoval 89,04 %, v listopadu téhož roku 88,17 % a v prosinci dokonce 97,02 % veškerých e-mailů, které kolovaly internetem, viz [26]. Firma Gauzy na základě kalkulátoru spamu19 vypočítala, že firmu s deseti zaměstnanci využívající e-mail, do které dorazí v průměru denně deset nevyžádaných zpráv, stojí čas na stahování a třídění těchto e-mailů 27 504 Kč ročně, viz [41]. Připravil jsem a zadal podobný průzkum. Byly zadány následující údaje. Počítal jsem se 162 počítači, které jsou využívány jako osobní počítače s přístupem k e-mailové schránce z celkového počtu 182 instalovaných počítačů ve společnosti, 25 nevyžádaných e-mailů na osobu denně a průměrnou cenou 100 Kč na hodinu práce.20 Výstup vygenerovaný kalkulátorem, viz Tabulka č. 1.
16
V češtině znamenají slova „celosvětová síť“, kde se jedná o velkou informační síť, organizovanou jako hypertextový dokument. Viz [3]. 17 Podobné situace se netýkají jen zahraničních institucí, ale na českém trhu se v roce 2007 objevil cílený hromadný podvodný e-mail (phishing) na uživatele banky Citibank, který se snažil vytáhnout citlivé údaje, které by uživatel zadal po přesměrování na falešné stránky, více o aféře na adrese http://www.antivirovecentrum.cz/clanky/phishing-zasahl-citibank.aspx. 18 Poskytovatel služeb z oblasti Informačních a telekomunikačních technologií (ICT) pro drobné podnikatele, malé a střední firmy a velké korporace. 19 Kalkulátor se snaží vypočítat ušlý zisk společnosti při zadání průměrného počtu doražených e-mailů denně, počtu zaměstnanců a ceny hodiny práce jednoho zaměstnance. Dostupné na adrese http://www.spamy.cz/spam-kalkulacka. 20 Data převzata z ankety vytvořené přímo ve společnosti Orlík kompresory, výrobní družstvo. Dostupné jako příloha BP.
9 Počet e-mailových schránek ve společnosti Počet přijatých spamů na jednu e-mailovou schránku denně Průměrný denní čas strávený tříděním a stahováním spamů na zaměstnance Průměrný měsíční čas strávený tříděním a stahováním spamů na zaměstnance Měsíční náklady na třídění a stahování nevyžádané pošty Roční náklady na třídění a stahování nevyžádané pošty
162 25 6,25 min 2,3 min 37 125 Kč 445 500 Kč
Tabulka č. 1 Ekonomické dopady na společnost vygenerované kalkulátorem
Vypočtený údaj průměrného denního času stráveného tříděním a stahováním spamů na jednoho zaměstnance společnosti neodpovídá příliš realitě. Smazání a přetřízení 25 e-mailů zvládne zaměstnanec s vysokou pravděpodobností mnohem rychleji. Potom ani uniklé částky nedosahují tak vysokých hodnot. Dopad na finanční stránku je však další důvod, proč se o danou problematiku zajímat, a proč je společnost Orlík kompresory příznivě nakloněna úzké spolupráci vedoucí k volbě antispamové ochrany.
2.3.4 Konkrétní (technické) projevy spamu, jeho typologie Pro další rozbor je nutné uvést typy spamu, s kterými se můžeme v běžném internetovém prostředí21 setkat. Výčet typů spamu a jeho podob uvádím v časové posloupnosti jeho evoluce. První a dlouhou dobu jedinou podobou, jakou na sebe spam bral, byl pouhý text. Nevyžádané obchodní sdělení vložené přímo do těla e-mailu, jehož filtrace je z dnešního pohledu nejlehčí a nejvíce efektivní. Jako vhodný a ilustrativní příklad poslouží Obrázek č. 3.22 První indicie, že se nejedná o vyžádaný a seriózní mail, poskytují údaje odesílatele maskující jeho totožnost a zahraniční doména, 23 z které byl e-mail odeslán, viz [44]. V tomto případě je i tělo mailu pro spam typické, jedná se o nabídku (s vysokou pravděpodobností dokonce podvodnou nabídku) produktů za výhodné ceny.
Obrázek č. 3 Textový spam, viz [64]24
21
Internetovým prostředím je myšlen souhrn využívaných činností, které internet v současné době nabízí. E-mail převzat přímo ze schránky jednoho ze zaměstnanců společnosti Orlík kompresory. 23 Doména je základní adresní jednotka na Internetu, která reprezentuje konkrétní IP adresu (např. 62.168.28.210). Pro uživatele je snadnější přistoupit na www stránky přes psanou slovní adresu než ruční psaní čtyř čísel. 24 E-mail převzat přímo ze schránky jednoho ze zaměstnanců společnosti Orlík kompresory. 22
10 První antispamové řešení na sebe nenechalo dlouho čekat. Pouhé použití filtrace podle obsahu25 znamenalo výrazný úbytek doručeného spamu ve formě textu. Jednoduchým zlepšením spamu podléhajícímu detekci obsahu bylo zahrnutí úmyslných překlepů v textu. Další používanou metodou pro obelstění filtrů bylo prokládání slova jinými znaky (Př. r.o.l.e.x. či Vi@graa) či příkazy HTML,26 např. použití komentáře Rolex.27 V případě prokládání slova jinými znaky je cílový efekt stejný, koncový uživatel zprávu pochopí a antispamovému filtru je ztížena práce. Z pohledu spamera je relativně snadné vytvořit textovou zprávu využívající HTML a CSS,28 viz [45] a [46]. Zpráva v HTML kódu je posloupnost příkazů, což po převodu na text pro analytické nástroje nedává žádnou souvislost se slovy typickými pro spam. Proto je nutné neustále vylepšovat algoritmy analýzy textu. Neúčinnost textového spamu při zdolávání antispamových filtrů byl důvod vzniku tzv. obrázkového spamu. Nevyžádaný e-mail byl prokládán obrázky, nebo byl tvořen žádným či neutrálním textem pro zmatení filtrů. Samotné sdělení bylo přiloženo jako příloha v e-mailu a soubor byl uložen ve formátu29 obrázku. Obrázkový spam filtry určené pro analýzu textu e-mailu nedokázaly rozpoznat, což vedlo k obrovskému rozmachu tohoto typu spamu a zahlcení elektronických schránek. Současná detekce klíčových slov spamu v obrázkových souborech využívá metodu Optical Character Recognition (ORC), viz [49].30 Spam s přílohami začal novou éru spamování, která zaznamenala vysoký meziroční růst, viz Obrázek č. 4. Zajímavé je také poukázat na jednotlivé typy příloh používané ve spamu a růst jejich počtu, viz Tabulka č. 2.
Obrázek č. 4 Nárůst spamu s přílohami, viz [62]
25
Druhým pohledem je filtrace podle způsobu dopravy e-mailu. Oběma metodami se budeme zabývat v dalších fázích BP. 26 HyperText Markup Language (HTML) je jazyk určený pro tvorbu webových stránek, slouží pro zobrazení obsahu stránek a jedná se o hypertextový dokument, který lze vytvořit libovolným textovým editorem. Soubor nese příponu *.htm či *.html. 27 Komentář vytvořený HTML příkazem ve výsledku nic nevypíše, ale dokáže separovat jedno slovo na dvě části, čímž stíží práci analytického mechanizmu textu. 28 Cascading Style Sheets, jedná se o nadstavbu HTML. CSS představuje jazyk způsobu zobrazování stránek psaných v HTML, XHTML či XML. 29 Nejčastěji s příponou *.jpg, *.bmp, *.png, *.jpeg či *.gif. 30 Metoda rozpoznávání a digitalizace znaků, která převede tištěné znaky (v obrázku) do klasického digitálního textu, který může být počítačem zpracováván.
11
Tabulka č. 2 Typy příloh v jednotlivých rocích, viz [62]
Největší rozmach zaznamenal obrázkový spam během roku 2006, kdy v polovině tohoto roku představoval více než 50 % všech doručených spamů. V současné době měsíční zastoupení kolísá mezi 10 až 25 %, což je způsobené důmyslnějšími filtry, které zamezují průchod obrázkovému spamu, viz [63]. Následující obrázek, viz Obrázek č. 5, prezentuje jednu přílohu z obdržených spamů, která byla zařazena do kategorie farmaceutických produktů. Na obrázku je názorně vidět barevné pozadí představující šum, který znesnadňuje analýzu textu.
Obrázek č. 5 Obrázkový spam včetně barevného pozadí (šum), viz [64]
Obrázkový spam zaznamenal velký úspěch spamerů, neboť a pronikl do většiny emailových schránek. Problém spočíval v neschopnosti filtru poznat text uvnitř obrázku a označit jej jako spam, neboť se jednalo poměrně o náročný technický rozpoznavší úkol. Do antispamového filtru bylo nutné dodat prvek analyzující a extrahující obsah do digitální podoby. Tento problém vyřešilo zahrnutí již zmíněné technologie OCR do antispamového filtru.
12 Antispamové filtry se neustále vyvíjí, a proto jsou i spameři nuceni se novým ochranám přizpůsobit a naučit se je obejít. Mezi novými typy spamu se začaly objevovat texty umístěné do dokumentu Word31 a Portable Document Format (PDF).32 Většina antispamových filtrů nebyla schopná číst obsah dokumentů PDF a v polovině loňského roku (2007) zaznamenal PDF spam velký nárůst, viz [52]. PDF spam lze rozdělit do dvou skupin – seriózně vypadající dokument, viz Obrázek č. 6, či běžný text vložený do dokumentu, nesnažící se maskovat svůj charakter.
Obrázek č. 6 Seriózně vypadající PDF spam pro podporu nákupu akcií, viz [62]
Největší nebezpečí PDF spamu spočívá ve velkém množství bezpečnostních chyb, které umožní ve formátu PDF šířit další malware. Po vyřešení problému s PDF spamem začali spameři metody kombinovat a jedním z obdržených e-mailů během našeho sledování je PDF spam obsahující nevyžádané sdělení ve formě obrázku. Uveďme si hlavní přednosti PDF spamu, viz [53]. První je různorodost. Spameři upravovali zasílané obrázky a nyní dělají totéž s PDF spamem. To ukazuje příklad: jeden stejný text formovaný do tří různých obrázků vložených do PDF dokumentu. Obrázky se liší svými rozměry a především barvou (různé odstíny šedé). Obrázek č. 7 , Obrázek č. 8 a Obrázek č. 9 představuje tři možné podoby zformátování jednoho textu vloženého do obrázku PDF spamu. 33
31
Aplikace Word je součástí kancelářského balíku Office společnosti Microsoft. Více viz www.microsoft.cz. 32 Portable Document Format (PDF) je univerzální formát pro přenos dokumentů. Dokumenty PDF se čtou např. v nejrozšířenějším prohlížeči Adobe Acrobat Reader. PDF dokumenty jsou univerzální, lze je prohlížet na různých platformách – počítač, PDA, kapesní počítače a na různých operačních systémech – MS Windows, Linux. Koupě viz http://www.amsoft.cz/Produkty/adobe/acrobat/readstep.html. 33 Ve velké míře způsobené nevhodným nastavením úrovně zabezpečení aplikace.
13
Obrázek č. 7 První podoba formátování obrázku, viz [54]
Obrázek č. 8 Druhá podoba formátování obrázku, viz [54]
Obrázek č. 9 Třetí podoba formátování obrázku, viz [54]
14 Při vytváření obrázků vkládaných do PDF spamu se spaměři snaží minimalizovat nesenou informaci o specifikacích obrázku a nedodržovat žádné standardy. Obrázky či obecně jakékoliv soubory pak nesou označení „corrupted.“34 „Corrupted“ soubory jsou mnohem hůře analyzovatelné používanými nástroji pro detekci spamu a mnohdy nemohou být těmito nástroji soubory ani otevřeny. Důvodem je, že antispamové společnosti jsou nuceny své analytické nástroje, snažící se rozpoznat obsah souboru, vytvářet s ohledem na rychlost. Analytické nástroje nedovedou rozpoznat úmyslně porušený soubor. Naproti tomu e-mailový klient35 je sofistikovanější program a otevře a zobrazí obsah bez problémů. Druhou výhodou PDF spamu v boji s antispamovými filtry je proměnlivá délka dokumentu. Společnosti vyvíjející ochrany proti spamu si uvědomily, že většina PDF dokumentů poslaných v nevyžádané poště jsou jednostránkové zprávy. Uvedenému faktu přizpůsobily společnosti své filtry, kde přidaným omezením36 výrazně zvýšily jejich rychlost detekce. Reakcí byla proměnlivá délka dokumentu, kdy spameři vložily do PDF dokumentu text nevyžádaného obchodního sdělení a doplnily textem označovaným jako „jed,“ 37 viz [65]. Jed pak tvořil sekvenci slov. Tyto slova ve větě nedávali žádný smysl a nenesly žádné sdělení, nebo se naopak jednalo o úryvky článků, což zvýšilo při analýze pravděpodobnost, že se jedná o vyžádaný e-mail. Náhodný počet stránek s textem označeným jako jed je určen pro obejití antispamových technik pracujících na základě statistické pravděpodobnosti znaků, viz [55]. Programově vygenerované slova tvořící jed uvnitř PDF spamu mohou vypadat následovně, viz Příklad č. 1 . But in light of enter back-stabbing, Artificial Intelligence-inspired offenses and their sinister, temptation-ridden environment this response is degenerate. Ships from and sold by Amazon. I also had my tripod and took several inteligence long exposure intelligence the interiér. Příklad č. 1 Ukázka textu „jed,“ viz [56]
Ke konstrukci PDF dokumentu využívají spameři širokou škálu nástrojů.38 Mnoho nástrojů k tvorbě PDF často vloží své jméno do dokumentu pod položkou „creator“ či „producer,“39 což opět ulehčí detekci antispamovým filtrem. Příklad je k vidění níže, viz Příklad č. 2. /Producer(GNU Ghostscript 7.07) /Creator(OpenOffice.org 1.1.4) 34
Odpovídá českým slovům neúplný, zkažený, prohnilý, zničený či porušený obrázek (soubor). Program používaný pro čtení, správu, archivaci a odesílání e-mailů, nejrozšířenější je např. Microsoft Outlook. 36 Omezení spočívalo v tom, že PDF dokumentu v příloze s jednostránkovým obsahem a malou velikostí přiřadily vyšší pravděpodobnost, že se jedná o spam. 37 Z anglického slova poison text, samotná metoda obcházení filtru tímto textem se nazývá „filter poisoning.“ 38 Kromě programů společnosti Adobe mohou být PDF dokumenty vytvořeny taktéž např. z dokumentů MS Office či OpenOffice. 39 V češtině tyto slova představují tvůrce, stvořitel a nejlépe poslouží interpretace jako vytvářecí program. 35
15
/Title (Microsoft Word - sancashtemplate.doc) /Creator(PScript5.dll Version 5.2.2) Příklad č. 2 Hlavičky při generování PDF, viz [56]
Důmyslnější spameři si vytváří své vlastní nástroje pro tvorbu PDF dokumentů. Jedná se o flexibilní nástroje umožňující změnu hlavičky PDF dokumentu40 a specifikování náhodného znění položek „creator“ či „producer“ a taktéž změnu titulu dokumentu. Dokument vytvořený vlastním nástrojem je opět složitější detekovat. Na následujících dvou příkladech je vidět vytvoření náhodných vět, které antispamové řešení obtížněji detekují, viz Příklad č. 3. Title: One of the most interesting things about the present development of the automobile is the trend to give cars a retro look. Producer: For pure and simple ugly no one has been able to beat them Title: , has a new promotion that puts its money where its mouth is. Producer: The flights will be convenient for travellers coming from the U Příklad č. 3 Náhodně vložený text do hlaviček, viz [56]
Posledním stupněm vývoje PDF spamu se stal Forms Data Format (FDF) 41 spam, viz [59]. FDF soubory lze opět otevřít programy Acrobat Reader společnosti Adobe. Jedná se o další pokus spamerů prolomit softwarové řešení detekující spam. Princip je obdobný PDF spamu, jen je použit nový formát. Setkat se lze i se spamem vloženým do RAR či ZIP archivu42 a do souboru tabulkového editoru Excel.43 Novinkou loňského roku byl i MP344 spam, tj. e-mail obsahující přílohu souboru MP3, viz [27]. Název souboru nese název známého zpěváka či hudební skupiny. Po spuštění souboru je přehráno obchodní sdělení. Velkou hrozbou současnosti je nárůst spamu primárně zaměřeného na šíření virů. Spam se pak využívá jako brána, která je navržená pro vábení uživatelů k návštěvě nebezpečných webových stránek. Spamová zpráva může obsahovat pouze několik slov a URL45 odkaz, viz Obrázek č. 10. 40
Hlavičku tvoří například již zmíněné položky „creator“ či „producer“ a titul dokumentu. Tento typ spamu byl poprvé zachycen (2007) bezpečnostní firmou F-Secure. Soubory nesou příponu *.fdf. FDF formát byl vyvinut společností Adobe (2001) a stojí na základech formátu PDF. Je určen především pro zasílání dat na server a následné obdržení pozměněných dat. 42 To jsou programy pro archivaci souborů umožňující více souborů sbalit do jediného archivu, kde lze data šifrovat a zvýšit jejich bezpečnosti a především komprimovat, tedy snížit zabíranou velikost. Více (s možností stažení programu) viz http://www.rar.cz/about.php. 43 Jeden z programů kancelářského balíku Office společnosti Microsoft. Viz www.microsoft.cz. 44 MP3 je formát zápisu zvukového signálu. Soubory MP3 jsou řádově veliké několik megabytů (MB). Jejich velikost je závislá na délce záznamu a na šíři datového toku (bitrate). Bitrate udává počet bitů, pomocí kterých je zapsána jedna vteřina záznamu. Čím větší bitrate, tím lepší kvalita, ale menší komprese a větší soubor. Dnes se nejvíce používá bitrate v rozmezí 128 až 192 kbps (kilo bit per second). Od 160 kbps je záznam téměř nerozeznatelný od originálu. 45 URL je zkratka z anglického Uniform Resource Locator. Používá se pro přesnou identifikaci dokumentů na internetu a skládá se z domén několika úrovní. 41
16
Obrázek č. 10 URL spam, viz [64] 46
Tyto spamy často pronikly tradiční antispamovou ochranou, která byla zaměřena na vyhledávání klíčových slov47 nebo obrázků u spamu lákajícího k obchodování s akciemi. Pokud by byla zpráva přijata do elektronické schránky příjemce, stala by se nejcitlivějším místem sítě ve společnosti. Stačilo by i jediné kliknutí myši na propagovaný odkaz a malware by byl stažen na počítač. Následně by poskytl spamerovi plný přístup k počítači uživatele a v případě neadekvátního zabezpečení i k vnitřní síti společnosti. Takováto situace je mnohem horší, než ztráta zaměstnavatelem placeného času při pročítání a třízení nevyžádaných e-mailů. Samostatnou kapitolou je cizojazyčný spam. Příchozí e-mail obsahující cizojazyčné znaky či text, je s vysokou pravděpodobností spam. Nejrozšířenějším jazykem použitým ve spamu je angličtina, z čehož se při používání antispamových metod vychází. Velkou nevýhodou při použití antispamových řešení je komunikace uživatelů v jazycích používající cizí znaky.48 Vyžádané zprávy jsou totiž často označeny jako spam. Současný poměr formátů spamu z přelomu roku 2007 a 2008 je přehledně znázorněn na grafu, z kterého vyplývá, že největší podíl zaujímá jednoduchá textová zpráva kombinovaná s URL odkazem. Tento typ spamu si připsal 83 % z celkového množství nevyžádané pošty, a to především díky vysoké efektivitě a průchodnosti antispamovými filtry, viz Obrázek č. 11.
Obrázek č. 11 Podíl spamu URL, cizích znaků, obrázků a další obsahu, viz [62]
Výše uvedené rozdělení spamu bylo provedeno dle podoby a formátu, ve kterém byly šířeny. Důležité je zmínit i typy spamu dle svého obsahu, abychom plně pochopili údaje v anketě zrealizované ve společnosti Orlík kompresory, viz [64]. Konec loňského roku vypadal následovně, viz [66]: 46
E-mail převzat přímo ze schránky jednoho ze zaměstnanců společnosti Orlík kompresory. Tedy slov typických pro spam. 48 Př. znaky Azbuky, španělský znak ñ, apod. 47
17 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Léčiva Repliky Kasino a hry Ostatní Ilegální nabídky Akcie a finance Software Půjčky Zaměstnání Nabídky zdarma
Především šestá položka – spam týkající se akcií a financí - zaznamenává nejvyšší nárůst. Spam nabízející akcie se nazývá „pump-and-dump,“49 viz [23]. U spamu typu „pump-and-dump“ nakoupí spameři velmi levné akcie neznámé společnosti a rozešlou stamiliony e-mailů podporující koupi této společnosti, viz [23]. Následkem je vytvoření vysoké poptávky a zvýšení ceny akcií50, které následně s vysokým ziskem prodají, viz [16]. Repliky na druhém místě představují nabídku vytvoření falešných univerzitních diplomů či dokladů. Uvedené kategorie reflektují i situaci ve společnosti Orlík kompresory, což dokládají výsledky provedené ankety (viz kapitola 4.3).
49
Prorgamátoři Sophos Labs zaznamenali koncem loňského roku více než 500 miliónů e-mailů obsahující informace pro koupi akcií společnosti Prime Times. 50 Securities and Exchange Commision, tj. společnost pro regulaci burzy odhaduje, že je měsíčně zasláno více než 100 milionů e-mailů, které mají nějakým způspobem ovlivnit burzu.
18
3 Obecné (technické) řešení ochrany proti spamu 3.1 Vývoj technických prostředků využívaných spamery Ochrana proti spamu je zajišťována souhrnem softwarových prostředků, produktů a služeb. Tento souhrn tvoří antispamové techniky, viz [67]. Techniky stejně jako samotný spam mají za sebou krátký, avšak o to pestřejší technický vývoj. E-mailový spam se internetem šíří pomocí elektronické pošty, která využívá protokolu Simple Mail Transfer Protocol (SMTP),51 viz [1]. Pokud chtěl uživatel (spamer) poslat e-mail, bylo potřeba nalézt poštovní server.52 Serveru byl sdělen obsah hlaviček zpráv, kam vracet chybové hlášky a na jakou adresu má server doručit daný e-mail. Cílových adres mohlo být už v samém počátku více. E-mail byl buď doručen uživateli v síti, pokud se v aktuální síti nenacházel, byl e-mail předán na základě směrovacích tabulek či MX záznamu53 na jiný poštovní server. Konfigurace serveru se nazývala „open relay,“ viz [58]. Příchozí nevyžádané emaily stačilo označovat jako spam a ukládat do „černých listin.“54 Spameři v této fázi nikterak nemaskovali svou identitu (tj. adresu odesílatele e-mailu). S přibývajícím počtem uživatelů e-mailu a neustále se zvětšujících černých listů byli spameři nuceni nalézt způsoby, jak tyto mechanizmy regulující spam obejít. Spameři začali rozesílat e-maily se změněnou adresou odesílatele a využívali vytáčené připojení k internetu, viz [57]. Při každém připojení byla dynamicky přidělována jiná IP adresa. Dostatečnou ochranou bylo v této chvíli pouhé zavedení limitů počtu odeslaných e-mailů během jednoho připojení a přijímání zpráv poštovním serverem pouze pro uživatele dané sítě. Poštovní server tedy nemohl posílat zprávy od cizích lidí určené pro cizí lidi (tj. uživatele jiné sítě). Největším skokem v šíření nevyžádaných e-mailů se stalo využívání cizích počítačů, tedy ne počítače spamera. Spamer mohl řídit rozesílání e-mailů a zůstat anonymní. Možností, jak se spamer může získat přístup k počítačům jiných uživatelů internetu, je mnoho. Stačí nalákat uživatele k návštěvě webové stránky obsahující malware, který se stáhne do počítače. Další možností je poslat přílohu mailu a malware se nainstaluje, pokud uživatel přílohu otevře. Nejnebezpečnější metodou je využívání tzv. exploitů.55 Konkrétní malware využívaný pro získání přístupu k cílovému počítači se nazývá bot, viz [42]. Bot je program plnící vzdáleně příkazy útočníka (spamera). Počítač, který byl infikován botem, je nazýván „zombie počítač.“56 Jedná se o počítač ovládaný
51
Internetový protokol určený pro přenos zpráv elektronické pošty (e-mailů) mezi stanicemi. Doručení zajištěno díky přímého spojení uživatele, který zprávu odesílá a příjemcem. SMTP využívá a pracuje nad protokolem TCP. Při původním návrhu nebyly použity bezpečnostní prvky, vycházelo se ze vzájemné „důvěry“ mezi klientem a serverem. 52 Stará se o příjem, odeslání či směrování e-mailů přes protokol SMTP. 53 Vychází z anglických slov Mail eXchange a představuje umístění poštovního serveru. 54 Vychází z anglických slov „black list.“ Jedná se o seznam zakázaných (blokovaných) odesílatelů (serverů reprezentovaných IP adresou apod.). Touto metodou se budeme zabývat později. 55 Definice a další materiály na webové stránce www.securiteam.com/exploits/. Jedná se o program využívající bezpečnostní chyby. Při tvorbě exploitů je důležitá rozšířenost napadené bezpečnostní chyby, takže se k napadání využívají produkty společnosti Microsoft. Důležité je proto aktualizování používaných programů, kde jsou v nových aktualizacích opravovány tyto bezpečnostní chyby. 56 Zombie znamená živá mrtvola, v internetové terminologii představuje počítač nakažený malwarem (bot), díky kterému získá útočník (hacker) přístup k počítači jiného uživatele internetu, bez jeho vědomí. Tento
19 útočníkem bez vědomí uživatele. Počítače, které napadl stejný útočník (nakažené stejným botem), jsou sdružovány do sítí nazývaných BotNet,57 viz [42]. Bot se pokusí anonymně připojit na kanál Internet Relay Chat (IRC),58 kde vyčkává na příkazy útočníka, viz [50]. Řízení botů může probíhat i přes poštovní protokol SMTP. Spamer jediným příkazem celé distribuované síti rozešle z infikovaných počítačů tisíce e-mailů, viz [42]. Botem nakažené počítače nejsou zpočátku na černých listinách a poštovní servery počítače BotNetu nepodezřívají a zaslané emaily doručí. Spamer díky BotNetu dokáže obejít blokaci svého poštovního serveru a pokračovat v rozesílání nevyžádaných e-mailů. Výhodou je také minimální náklad na konektivitu k internetu, zátěž rozesílání spadá na jednotlivé počítače BotNetu, viz Obrázek č. 12.
Obrázek č. 12 Schéma BotNetu s centrálním řízením, viz [68]
Stěžejním bodem činnosti spamera je zisk adres, na které bude nevyžádané sdělení zasílat. Tento bod je i pro naši práci klíčový, neboť poodhalí možnosti zlepšení ochrany před spamem v naší společnosti. Prvním způsobem jak vytvořit celou databázi emailových adres je použití malware. Pokud se malware určený na sběr e-mailových (email harvesting)59 dostane na cílový počítač, odešle spamerovy všechny nalezené adresy (získané např. z poštovních aplikací a kontaktů).60 Nejrozšířenějším způsobem je sběr adres z internetových stránek. K tomu slouží sofistikovaní roboti61 extrahující samotné adresy z diskusních fór (tj. z položek příspěvku Reply, From a samotného textu příspěvku), webových stránek, IRC kanálů a mailing listů, viz [69].62 Kromě sběru adres je možné adresy pseudonáhodně generovat dle dvou hlavních způsobů. První metodou je generování hrubou silou. Generovány jsou posloupnosti znaků, které se mohou vyskytovat v e-mailových adresách, viz [1]. Vedle hrubé síly je využívána slovníková počítač může vzdáleně ovládat. Více viz časopis hackin9, číslo 30. 10. 2007 pro předplatitele viz http://www.hakin9.org/prt/view/archivnicisla/issue/676.html. 57 Skládající se ze slov bot (tj. program pro získání přístupu k počítači) a network (síť počítačů). 58 Internetový protokol pro komunikaci po internetu v reálném čase. Protokol IRC používá protokol TCP. Reálný příklad IRC serveru: irc.felk.cvut.cz - 147.32.80.79 - 6660-6669. V případě botnetů je využíván pro přijímání příkazů botem a vydávání příkazů spamera, které jsou zapisovány do chatovacího kanálu. 59 Anglické synonymum k automatizovanému sběru e-mailových adres, jakožto činnosti spamera. 60 Detaily o možnostech použití malwaru získány ze stránek http://www.malware.com/. 61 Aplikace procházející webové stránky, snažící se z obsahu stránek extrahovat samotné e-mailové adresy. Více na stránkách http://en.wikipedia.org/wiki/E-mail_address_harvesting. 62 Mailing list je kolekce jmen, e-mailových adres užívaných společnostmi pro zasílání materiálů souvisejících s činností dané společnosti. Tyto adresy jsou získány s vědomím uživatele, který je dobrovolně zadal a souhlasil s příjmem pošty. Spamer se je snaží získat, neboť se většinou jedná o používané internetové adresy.
20 metoda generující adresy dle předepsaných pravidel (tj. křestní jména, příjmení a další klíčové slova). Poslední možností je nákup celé databáze e-mailových adres přímo od jiné osoby.63
3.2 Antispamové řešení - technický popis Před samotným popisem jednotlivých řešení detekce či zamezení spamu je nutné rozšířit teoretickou aparaturu. Antispamová řešení kromě správně analyzovaného vyhodnocení e-mailu a jeho označení jako spam (positive) či ham (negative) mohou email vyhodnotit chybně. Spam může být označen jako ham (false negative) či ham může být označen jako spam (false positive), viz [70]. Pomocí těchto chyb se vyhodnocuje úspěšnost antispamového řešení a umožní jednotlivé srovnávání.
3.2.1 Rozpoznávání dle obsahu 3.2.1.1 Použití pravidel a regulárních výrazů Jedná se o metodu rozpoznávání spamu využívající databázi pravidel, viz [71]. Pravidla pro posuzování obsahu zprávy se nemusí vztahovat jen k samotnému obsahu, ale i k hlavičce zprávy. Metoda nachází využití jako doplněk (součást mnohem sofistikovanějšího systému) při implementaci antispamové ochrany na poštovních serverech. Kvalita této metody závisí především na detailnosti a propracovanosti databáze pravidel. Jednou z nevýhod této metody je nízká dynamičnost. Každá nová metoda spamu přináší nutnost upravit a rozšířit databázi pravidel. Pravidla se zaměřují na klíčová slova64 či řetězce symbolů (tj. např. snaha spamera zvýraznit zprávu použitím vykřičníků, velkých písmen apod.). Metoda kontroluje i upravované hlavičky e-mailu (např. datum odeslání v budoucnosti zvýší pravděpodobnost spamu). V případě shody části obsahu emailu se znakem z databáze pravidel je e-mailu přidělena bodová hodnota značící pravděpodobnost spamu. Při překročení určité hranice je e-mail označen jako spam. Nevýhodou je relativně vysoká míra false positive chyby (cca 0,5 %) a nutnost údržby a skladování velké databáze pravidel. Při komunikaci se zahraničními institucemi je nutné pravidelně kontrolovat spamový koš.65 Regulární výrazy66 představují vylepšení klasických pravidel. Není nutné se zaměřovat na konkrétní klíčová slova, ale pomocí regulárních výrazů postihneme i řetězce znaků z těchto slov derivované. I u této metody však zůstává problém poměrně s false positive chybou a nutnost neustále udržovat a rozšiřovat regulární výrazy. Příklad blokování slova „viagra“ a jeho modifikací „viaaggggra, via gra, via.gra, \/|AGRA, \/I/\GR/\, v1aqra, vi@gr@ apod.“ představuje např. regulární výraz, viz Příklad č. 4. 63
S databázemi e-mailových adres se mezi spamery hojně obchoduje stejně tak jako s celými sítěmi BotNet. Viz stránky e-mail marketingu http://email-marketing.cyberneeds.com/. 64 V literatuře se můžeme setkat též s pojmem keyword. 65 Speciální složka v poštovní aplikaci (webovém klientu), která vznikne použitím antispamové ochrany. Do této složky jsou přesouvány e-maily vyhodnocené jako spam, a ten v důsledku uživatele již neobtěžuje. 66 Je speciální řetězec znaků, který představuje vzor (masku) pro textové řetězce. Běžně se využívají pro kontrolu dat zadaných ve webových formulářích. Pomocí regulárních výrazů je možné separovat data z textu, přetvářet je do potřebné podoby či vyhledávat a nahrazovat text. Př. Regulárního výrazu: \b[A-Z09._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b. Více informací na stránce přímo věnované regulárním výrazům http://www.regular-expressions.info/ a konkrétnímu řešení Spamihilator http://www.spamihilator.com.
21 (?i)[v\\]+/?.?[i:1!\|]+.?[a@/]+\\?.?[gq]+.?r+.?[a@/]+\\? Příklad č. 4 Příklad regulárního výrazu podchycujícího modifikace slova viagra
3.2.1.2 Kontrolní součty Metoda kontrolních součtů využívá skutečnost, že rozesílané e-maily jsou tvořeny různými částmi (tj. hlavička, tělo, přílohy atd.), viz [72]. Dalším faktem, ze kterého se při návrhu této metody vycházelo, je podobnost rozeslaných spamů (v rámci jednoho sdělení s minimální diferencí). Spamer rozesílá na stovky tisíc e-mailových adres tutéž zprávu, samotný e-maily se odlišují např. adresou příjemce. Skladování a porovnávání všech emailů by bylo technicky velice náročné. Poštovní servery a uživatelé jsou zapojeny do centrálního systému udržujícího informace o kontrolních součtech. Uživatelé využívající soukromé poštovní servery mají ve své schránce tlačítko, které označí příslušný e-mail za spam. Při označení e-mailu za spam se vytvoří kontrolní součet pro tělo zprávy. Kontrolní součet se vytváří taktéž pro těla e-mailů přijímaných na poštovní server. Důležité je zdůraznit, že kontrolní součet se vytváří pouze z těla zprávy. Hlavička e-mailu se často liší, proto není do generování kontrolního součtu použita. O vytvoření kontrolního součtu z těla zprávy se stará hašovací funkce, viz [73].67 Filtr provede porovnání pouze kontrolních součtů (tj. ne celých e-mailů) a v závislosti na výsledku označí e-mail za spam či nikoliv. Kontrolní součet má typicky délku 16 či 32 znaků. Důležité je rychle získat tělo spamu, neboť další uživatelé těží teprve z práce prvních příjemců spamu a jejich poctivého označování nevyžádaných e-mailů. Další metodou sběru spamu pro vytvoření kontrolního součtu je umístění odkazů na webové stránky s fiktivními nepoužívanými e-mailovými adresami. Tyto adresy nejsou využívány reálnými uživateli, proto je žádoucí, pokud je robot prohledávající webové stránky nalezne a přidá do databáze spamera. Adresy by běžný uživatel neměl nalézt a ani na ně nic zasílat a proto je příchozí e-mail automaticky považován za spam. Z těla se pak dle výše popsaného způsobu vytvoří kontrolní součet a přidá do databáze antispamového filtru. Někteří spameři začali tuto metodu obcházet. Princip vychází z „jedu“ u PDF dokumentu. Při tvorbě částí podléhající kontrole a tvorbě kontrolních součtů použijí nástroje generující odlišnosti. Veškeré nevyžádané e-maily nesou shodné sdělení, ale vygenerovány jsou další části textu, což způsobí odlišný kontrolní součet. Nestačí však přidat např. řádek vykřičníků, neboť nejrozšířenější metody obejití filtru jsou ošetřeny (tj. např. takováto sekvence vykřičníků je vypuštěna při výpočtu kontrolního součtu). Metoda je taktéž odolná vůči přidávání konstantního šumu v obrázku.68
3.2.1.3 Statické metody 3.2.1.3.1. Bayesův filtr Bayesův e-mailový antispamové filtr vychází z Bayesova teorému, který v kontextu spamu určuje pravděpodobnost, že e-mail je spam, viz [74] a [11]. Celková pravděpodobnost e-mailu vychází z pravděpodobností jednotlivých slov v e-mailu obsažených. Bayesův filtr funguje na statistickém přístupu. Problémem se může zdát 67
Z anglických slov hash function, což je metoda, která reprodukuje data (i velké množství dat různého druhu) na relativně malé číslo, též označované jako fingerprint (unikátní otisk). Detaily o algoritmu na stránce dostupné na Audiovizuálním centru studentů ČVUT od Vlastimila Klímy- Hašovací funkce, principy, příklady, kolize http://www.avc-cvut.cz/avc.php?id=2254 a viz [73]. 68 Obdoba zašumění obrázku, viz Obrázek č. 5.
22 skutečnost, že Bayesův filtr implicitně nezná pravděpodobnosti výskytu jednotlivého slova ve spamu (hamu). Tento zdánlivý problém řeší fáze učení Bayesova filtru. 69 Pro naučení filtru je třeba mít k dispozici dvě množiny dat, viz Obrázek č. 13. Každá ze dvou množin obsahuje výhradně data jednoho typu e-mailu (tj. ham či spam).
Obrázek č. 13 Tvorba databáze slov pro filtr z množin spamu a hamu, viz [75]
Filtrem jsou analyzována jednotlivé slova. Po fázi učení je k dispozici databáze pravděpodobností jednotlivých slov, určující zda se jedná o spam. Výpočet celkové pravděpodobnosti vychází ze vzorce Bayesova teorému:70 P(s|x) = P(x|s) × P(s) / P(x)
(1)
Vzorec (1) po přeformulování do problematiky spamu určuje s jakou pravděpodobností e-mail obsahující dané slovo je spamem a vypadá následovně: P(spam|slova) = P(slova|spam) × P(spam) / P(slova)
69
(2)
Úvod do problematiky poskytl předmět Kybernetika a umělá inteligence s kódem X33KUI, kde bylo strojové učení probráno. Použité materiály mohou studenti tohoto předmětu nalézt na stránce http://ida.felk.cvut.cz/moodle/mod/resource/view.php?id=1416. 70 P(s|x) představuje podmíněnou pravděpodobnost a P(s) a P(x) marginální pravděpodobnost. Pojmy vycházejí z probírané problematiky Kybernetiky a umělé inteligence dostupné studentům na http://ida.felk.cvut.cz/moodle/mod/resource/view.php?id=1165.
23 Pro plné pochopení je nezbytný i slovní popis výpočtu. Pravděpodobnost, že email obsahující dané slova je spam, se rovná pravděpodobnosti nalezení těchto slov v množině spamů násobeno pravděpodobností, že libovolný email je spam a děleno pravděpodobností nalezení tohoto slova v libovolném e-mailu. Výpočet pravděpodobnosti, že e-mail je spam P(spam) je následně intuitivní. Jedná se o podíl spamů vůči všem e-mailům. Pravděpodobnost P(slova) by se vypočítala: P(slova) = P(slova|spam) × P(spam) + P(slova|good) × P(ham)
(3)
Při předpokladu statistické nezávislosti71 jednotlivých slov (což je nesprávný předpoklad)72 by výpočet P(slova|spam) vypadal následovně.73 P(slova|spam) ≈ P(slovo 1|spam) × P(slovo 2|spam) ×...× P(slovo N|spam)
(4)
Výše uvedené vzorce (1), (2), (3), (4) představují teoretické řešení problému. V praxi Bayesův antispamové filtr funguje následovně. Naučení Bayesova klasifikátoru na trénovací množině dat (tj. množina pouze spamu a pouze hamu). Pro všechny slova, které se vyskytly v těchto e-mailech se spočítá pravděpodobnost, že e-mail obsahující toto slovo je spam jako: Pspam(slovo) = počet spamů s daným slovem / počet všech e-mailů s daným slovem( 5 ) Při přijetí zprávy se extrahují (zajistí parser)74 veškeré slova obsažené v e-mailu. Z databáze pravděpodobností (získané z fáze učení Bayesova filtru) se pro získaná slova vyhledají jednotlivé pravděpodobnosti. Celková pravděpodobnost e-mailu se vypočítá jako geometrický průměr75 dílčích pravděpodobností jednotlivých slov (tj. pspam(slovo)). Filtr po překročení určité hranice pravděpodobnosti klasifikuje e-mail jako spam. Praktické vylepšení zpřesňující výpočet představuje zahrnutí zmenšené množiny slov (tj. slov, kde je vysoká pravděpodobnost, že se jedná o spam, hodnota Pspam(slovo) se blíží k 0 či 1). Příklad uveďme na slově „free“, které se v běžné anglické konverzaci vyskytuje a není důvod automaticky předpokládat, že se jedná o spam (tj. pravděpodobnost bude 0,5). Na druhé straně „!!!FREE!!!“ se už v běžné elektronické korespondenci příliš nevyskytuje (tj. pravděpodobnost se bude blížit k 1). Bayesův filtr je proto taktéž citlivý na velikost písmen. Pro Bayesovské filtry je důležité mít pestrou množinu dat pro naučení filtru. Problém by mohl nastat, pokud bychom obdrželi HTML email. Pokud by byl antispamový filtr naučen na malé množině HTML hamů a velké množině HTML spamů, docházelo by převážně k nesprávné klasifikaci korektního a vyžádaného e-mailu. Jako vhodné řešení se ukázalo v případě HTML e-mailu posuzovat tento fakt jako jediný příznak. V případě HTML e-mailu nebude Bayesův filtr pracovat se sadou příkazů (tj. 71
Tedy předpoklad, že jedno slovo je statisticky nezávislé na slovech jiných. Vzhledem ke skutečnosti, že část smysluplného textu není statisticky nezávislá, v jazyce jsou často ustálené spojení. Viz http://ida.felk.cvut.cz/moodle/mod/resource/view.php?id=1267. Naštěstí nesplnění statistické nezávislosti správný chod filtru zásadně neovlivňuje. 73 Pro n-prvkovou množinu slov. 74 Parser je součástí Bayesova filtru. Činností Parseru obecně je rozčlenit text na jednotlivé části, provedení syntaktického rozboru či detekce chyb. 75 Tj. n-tá odmocnina součinu jednotlivých pravděpodobností p spam(slovo), kde číslo n představuje počet slov. 72
24 počítat, že e-mail obsahuje mnohokrát „slovo“ HTML, BODY, HREF, SPAN, apod.),76 ale do výpočtu zahrne jediný fakt – e-mail je ve formě HTML. Tento fakt má v závislosti na konkrétním řešení Bayesova filtru přiřazenou svoji vlastní pravděpodobnost, kterou přispěje do celkové klasifikace e-mailu. Bayesův filtr může taktéž pracovat s hlavičkami e-mailů, nejen se samotným textem zprávy. Velkou výhodou Bayesova filtru je vysoká míra přizpůsobivosti. Klasifikátor Bayesova filtru může reagovat na uživatelské reakce. V případě rekvalifikace e-mailu uživatelem vezme tento fakt v potaz (nové učení klasifikátoru). Při následujícím přijetí emailu již klasifikuje zprávu dle nových pravidel. Díky zpětné vazbě s uživatelem je Bayesův filtr vhodný i na nově se objevující spamy. Taktéž je možné se zaměřit na odchozí poštu. Klasifikátor množinu slov v poště zasílané uživatelem používá pro nové učení. Adaptabilita filtru v praxi nepředstavuje jen „výhodu,“ ale jedná se o zcela stěžejní vlastnost. Uveďme příklad77 na slovu „hypotéka.“ Příchozí e-mail osobní korespondence obsahující dané slovo je ve většině případů považován za spam. Proto stačí, aby se dané slovo vyskytovalo ve fázi učení převážně v množině e-mailů označené jako spam. Na druhé straně finanční instituce slovo „hypotéka“ využívají v každodenní činnosti. Proto stačí, aby byla během fáze učení filtru poskytnuta množina e-mailů firemní korespondence, obsahující dané slovo a filtr se naučí klasifikovat e-maily správně. Bayesův filtr hledí na obsah celé zprávy, ne na pouhé klíčové slovo (např. každý e-mail obsahující slovo „zdarma“ není spamem). Adaptabilita filtru umožní taktéž použít tento mechanismus ochrany proti spamu pro různé jazyky. Současné Bayesovy filtry po fázi naučení dosahují úspěšnosti detekce spamu 98-99 %.78
3.2.1.3.2. Otrávení Bayesova filtru Oklamání Bayesova filtru je pro spamery mnohem obtížnější než oklamání filtru založeného pouze na klíčových slovech. Jedna technika však existuje, alespoň v teoretické rovině. Nazývá se „otrávení Bayesova filtru“79 a definice je podobná „jedu“ probraném u PDF spamu. Přidání náhodného textu (jako tomu bylo u jedu PDF spamu) však nevede k touženému úspěchu spamera proti současným antispamovým filtrům a efekt je minimální, viz [76]. Přidání neutrálních slov, jako je např. v anglickém jazyce slovo „public“ nepomáhá. Současné filtry přikládají důraz jen na množinu slov s vysokou pravděpodobností, že se jedná o spam a neutrálním slovům nepřikládají žádnou váhu, viz [75]. Spamer musí pro otrávení filtru zvolit slova odpovídající profilu uživatele, tj. slova, které uživatel v komunikaci běžně používá. To je však téměř nemožné, neboť spamer nemá pro hromadné odesílání e-mailů možnost dané informace získat. Výše zmíněná technika rozčlenění slova pomocí jiných znaků (př. z-d-a-r-m-a) nepomůže a daná technika naopak zvýší pravděpodobnost spamu, neboť uživatelé používají dané rozdělování jen v ojedinělých případech.
76
Což představuje příkazy jazyka HTML pro zobrazení a formátování textu. Příklad převzat ze stránek http://www.gfi.cz/whitepapers/proc-bayesovo-filtrovani.pdf. 78 Číselné hodnoty úspěšnosti viz http://www.paulgraham.com/stopspam.html. 79 Z anglických slov Bayes filter poisoning. 77
25
3.2.2 Rozpoznávání podle odesílatele 3.2.2.1 Blacklisty Slovo černá listina tj. blacklist a jeho intuitivní vysvětlení představuje zakázání určitého zdroje. Přístup vychází z udržovaného seznamu IP adres e-mailových serverů, z kterých přichází spam. Dané řešení se jevilo jako jediné možné, neboť udržovat seznamy zakázaných adres lokálně (tj. uživatelem) nebylo technicky možné. Nehledě na to, že spameři v drtivé většině případů rozesílají spam ze stále nových e-mailových adres. Zjednodušeně můžeme říci, že v případě přijetí e-mailu ze zdroje obsaženého na blacklistu, je tato zpráva automaticky zahozena. Setkat se můžeme taktéž s označením Realtime Blackhole List (RBL) či DNS Blacklist (DNSBL), viz [77]. Seznamů zakázaných poštovních serverů je na Internetu mnoho,80 volba zakázané množiny poštovních serverů závisí na uživateli či administrátorovi sítě. Mechanismus ochrany proti spamu založený na blacklistech vychází ze systému Domain Name Systém (DNS).81 Blacklist seznamy zakázaných poštovních serverů jsou převážně udržovány pomocí zpětné vazby na uživatele a jejich doporučení a podměty. Prvním krokem v technickém popisu této metody je volba konkrétního blacklistu. Zvolený blacklist musí být pro uživatele (administrátora) dostatečně důvěryhodný, neboť seznam obsažených IP adres bude rozhodovat o přijetí či zamítnutí e-mailu. V krajním případě by nevhodná volba mohla vést k nepřijímání důležitých firemních e-mailů. Popsaná situace by mohla nastat v rámci konkurenčního boje a uvedení IP adresy poštovního serveru klíčového partnera na používaný blacklist. Technický popis funkce DNS blacklistu provedeme na náhodně zvoleném seznamu bl.spamcop.net,82 funkce ostatních blacklistů je totožná. V případě úspěšného spojení klienta se serverem je postup následující. Použijeme IP adresu odesílatele (tj. IP adresa získaná z hlavičky Recived odchozího poštovního serveru) poskládanou v opačném pořadí jednotlivých bytů adresy. Tím vzniká reverzní IP adresa. Za změněnou IP adresu přidáme adresu námi zvoleného DNS blacklistu, což v praxi vypadá např. následovně (viz Příklad č. 5 tvorba reverzní adresy z 193.165.222.242).83 242.222.165.193.bl.spamcop.net Příklad č. 5 Adresa blacklistu
V daném okamžiku přebírá práci systém DNS. Tomu je poslán DNS dotaz k nalezení „A záznamu.“84 Pokud je v seznamu poštovní server nalezen, je vrácena jeho adresa, v opačném případě je vrácen kód NXDOMAIN indikující, že se zde poštovní server nenachází. Absence adresy na blacklistu indikovaná kódem NXDOMAIN položky 80
Např. www.sorbs.net či spamcop.net, relays.ordb.org, či sbl.spamhaus.org jejich srovnání je k nalezení na stránce http://www.sdsc.edu/~jeff/spam/Blacklists_Compared.html. 81 Česky lze interpretovat jako systém doménových jmen. Ten je realizován servery a protokolem DNS. Činností je převod doménových jmen a IP adres. DNS si lze zjednodušeně představit jako telefonní seznam pro IP adresy a doménové jména. Tj. české doméně XY (www.XY.cz) je přiřazena konkrétní číselná IP adresa. Doménové jména se skládají z několika úrovní. Detailní a srozumitelný popis je k nalezení na stránkách http://www.nic.cz/page/312/o-domenach-a-dns/. 82 Detaily o seznamu na stránce serveru spamcop dostupné na adrese bl.spamcop.net. Na stránce lze taktéž zjistit, zda Vaše adresa je na blacklistu či nikoliv. 83 Adresa odpovídá poštovnímu serveru ktct - 193.165.222.242 – což je největší poskytovatel na českotřebovském regionu, viz www.ktct.cz, reverzní adresa se vytvoří např. unixovým příkazem dig. 84 Z anglického „A“ Record zajišťující samotné mapování doménového jména na IP adresu.
26 status je signálem bezpečnosti poštovního serveru a stažení e-mailu. Odpověď na dotaz (viz Příklad č. 6). ;; ->>HEADER<<34867
opcode:
QUERY,
status:
NXDOMAIN,
id:
Příklad č. 6 Negativní odpověď na DNS dotaz
Pokud by se naše IP adresa na blacklistu nacházela, obdrželi bychom odpověď v následujícím tvaru (viz Příklad č. 7).85 242.222.165.193.bl.spamcop.net 2100 IN A 127.0.0.2. Příklad č. 7 Pozitivní odpověď na DNS dotaz
Z výsledku dotazu je evidentní, že se adresa nachází v blacklistu, neboť existuje pro danou adresu A záznam. Ten odkazuje na adresu 127.0.0.2. Obecně je odpovědí v případě prezence poštovního serveru na blacklistu adresa ve tvaru 127.0.0.x, kde x je libovolné číslo v rozsahu 0-255. Pokud server obsahuje více RBL je pomocí čísla x odlišen konkrétní RBL. Tento případ by představoval nalezení A záznamu a tedy označení e-mailu jako spam a jeho zahození. Výhoda RBL spočívá v detekci na úrovni domén, samotný e-mail není fyzicky stahován. Pokud je adresa odesílatele obsažena na DNS blacklistu, je e-mail poštovním serverem vyloučen či označen jako spam (záleží na konkrétní implementaci). Společnost (uživatel) nevynakládá prostředky na zpracování e-mailu, pokud se jedná o spam. Odesílateli bývá často zpětně zaslán e-mail vysvětlující nedoručení e-mailu (případně je i uveden konkrétní RBL, který přijetí zamítnul). Metoda nachází uplatnění přímo na úrovni poštovních serverů, viz [77]. Nevýhodou je nízká úspěšnost, zhruba 50%86 způsobená nemožností plného pokrytí poštovních serverů sloužících pro rozesílání spamu. Problém nastane v případě, kdy se na blacklist dostane např. bezplatný poštovní server 87 (např. mailcentrum.cz).
3.2.2.2 Whitelisty Vhodným doplňkem blacklistů se staly whitelisty,viz [77]. Whitelist představuje opak blacklistu, tj. seznam IP adres povolených (důvěryhodných serverů). Výše popsané distribuované blacklisty jsou potom podřízeny lokálnímu whitelistu. Whitelist doplňuje pravidla pro filtrování pošty pomocí blacklistu, kde určuje adresy poštovních serverů, které mají být vždy doručeny. Tj. e-maily jsou doručeny i v případě, že daná adresa poštovního serveru je obsažena na RBL. Ve firemní struktuře je whitelist většinou sestavován individuálně, neboť každý komunikuje s někým jiným. Pomocí whitelistů je možné snížit riziko nepřijímání e-mailů od zahraničních osob či odběru e-mailů, které mohou ostatní uživatelé považovat za spam. Stejně jako v případě distribuovaných blacklistů existují i whitelisty distribuované. Princip je totožný, pouze se o seznam důvěryhodných adres nestará přímo uživatel (administrátor), ale samotný provozovatel whitelistu. 85
Výsledek převzat ze vzoru na serveru bl.spamcop.net. Číselné hodnoty úspěšnosti viz http://www.paulgraham.com/stopspam.html. 87 Anglicky označovaný jako freemail, obecně se jedná o poštovní server pro širokou veřejnost, který nabízí službu e-mail zdarma. 86
27 Následující skupina technik sloužící k ověření odesílatele e-mailu a používá vlastnosti protokolu SMTP. Na rozdíl od blaclistů a whitelistů je určena především pro detekci změny (falšování) odesílatele v e-mailu a skrývání jeho totožnosti. E-maily obsahující korektní a pravdivou informaci o odesílateli umožní sledování původce zprávy, stíhání konkrétní osoby a vhodnou tvorbu blacklistů. Metoda poslouží ke snížení phishingu a další podvodné činnosti.
3.2.2.3 Domain Keys Společnosti Yahoo! a Cisco88 představili v polovině roku 2005 antispamovou technologii nazvanou DomainKeys, viz [78]. Technologie taktéž označovaná jako DKIM čili DomainKeys Indetified Mail je založená na kryptografii89 veřejných klíčů.90 E-maily nesou vlastní digitální podpis. Ten je využíván pro komparaci s poštovním serverem, z kterého měly být e-maily odeslány. K tomu opět poslouží systém DNS. Veřejný klíč se ukládá do TXT záznamu91 domény ve tvaru <selektor>._domainkey.doména.cz a je distribuován pomocí DNS. Soukromé klíče jsou uloženy na jednotlivých serverech – tím je zajištěna autorizace pro odchozí e-maily z dané domény. Díky tomu můžeme mít k jedné doméně více klíčů. Selektor slouží pro výběr konkrétního autorizovaného poštovního serveru v rámci téže domény. Setkat se můžeme s parametry (g, t, n, p, k) doplněné hodnotou. Jednotlivé písmena představující parametry (vzájemné oddělení středníkem) mají následující význam, viz [79]: g – pokud je uveden, musí část adresy (zdrojové) odesílaného e-mailu být totožná s hodnotou tohoto parametru t – testování, indikuje, že doména metodu DomainKeys prozatím pouze testuje (vyjádřeno jako t=y) n – komentář (např. pro upřesnění či dovysvětlení, forma zápisu: n=domena_http://www.fel.cvut.cz) p – veřejný klíč k – druh klíče, převážně se využívá RSA Konkrétní sestavení parametrů může vypadat následovně, viz [79]: brisbane._domainkey.example.com IN TXT "t=y; g=; k=rsa; p=MHww ... IDAQAB"
Pomocí soukromého klíče je vytvořen digitální podpis pro odchozí e-mail odesílaný z autorizovaného poštovního serveru. Podpis a parametry pro ověření jsou vloženy do hlavičky DomainKey-Signature, viz [78]. Následuje připojení k e-mailu. V hlavičce se můžeme setkat s parametry, viz [79]: s – selektor pro výběr poštovního serveru 88
O společnostech http://www.yahoo.com a http://www.cisco.com. Kryptografie je metoda přeměny prostého textu na text šifrovaný, který je čitelný pouze pomocí speciálních vlastností – např. znalost šifrovacích klíčů apod. 90 Detaily o šifrování, veřejných klíčích a elektronických podpisech na stránkách http://cs.wikipedia.org/wiki/Elektronick%C3%BD_podpis. 91 TXT záznam umožní administrátorům vkládat text do DNS záznamu. 89
28 b – podpis c – popisuje, jak byl e-mail změněn q – metoda pro zisk veřejného času, zatím používaná pouze metoda dns a - použitý algoritmus pro generování podpisu (např. našívací funkce SHA1 a algoritmus RSA) d – doména (podepisující doména musí být shodná se jménem odchozí adresy) h – seznam použitých hlaviček
Pro plné pochopení je vhodné uvést podobu potvrzené hlavičky (viz Příklad č. 8 ). DomainKey-Signature: a=rsa-sha1; q=dns; c=nofws; s=beta; d=gmail.com; h=received:message-id:date:from:reply-to:to:\ subject:mime-version:content-type:contenttransfer-encoding; b=CoGMricWJPSZzJmOD4Nksa6nNOtWCfLHxEago28cJybwSNwo 4IvBvuH/MkwjI= Příklad č. 8 Potvrzená hlavička Domain Keys, viz [80]
O porovnání se stará poštovní server. Z položky From:92 je porovnána doménová část adresy s hodnotou získanou z DomainKey-Signature parametru d. V případě neshody je e-mail považován za neověřený. Veřejný klíč ověřující podpis je sestaven pomocí d a s parametrů DomainKey-Signature a následného DNS dotazu. Pomocí DNS dotazu je získán veřejný klíč, pokud není obdržena odpověď na DNS dotaz bude e-mail odmítnut. Poslední fází je ověření podpisu pomocí získaného konkrétního veřejného klíče. Pokud je ověření korektní, daný e-mail lze označit za ověřený. Konkrétní pravidla, jak zacházet s neověřenými e-maily, se mohou v rámci domén lišit. Mezi slabiny této metody patří metoda nazývaná opakované zneužití. Metoda obcházení systému DomainKeys je možná u velkých poskytovatelů e-mailových služeb (nebo tam, kde je možné z dané domény poslat libovolný obsah). Spočívá v tom, že uživatel pošle e-mail sám sobě a ten dostane korektní a ověřený podpis Nyní stačí e-mail odeslat z libovolného poštovního serveru jiným uživatelům (tj. pouhá změna adresáta). Takto odeslaný e-mail zůstane stále správně podepsaný.
3.2.2.4 Sender Policy Framework (SPF) SPF je otevřeným standardem a metodou pro preventivní kontrolu odesílaných emailů, viz [15]. Jedná se o rozšíření SMTP protokolu. Metoda zjišťuje, zda poštovní server odesílající e-mail od určitého odesílatele má potřebné oprávnění. Pro konkrétní doménu jsou definovány servery (počítače), které mohou zasílat e-maily z této domény (tj. e-maily obsahující adresu odesílatele z této domény). E-maily z jiných poštovních serverů jsou pro tuto metodu možné podvrhy. K předávání informací v rámci DNS slouží SPF záznam. Ten má shodnou strukturu, jako dříve popsaný TXT záznam DNS systému. Pro zajištění kompatibility se všemi DNS servery jsou často SPF informace přímo 92
Tato položka představuje odesílatele e-mailu.
29 vkládány do TXT záznamů, viz [34]. V rámci standardu je využíván vlastní SPF jazyk pro specifikaci e-mailových serverů, viz [15]. Definovány mohou být obecná pravidla pro zpřístupnění odesílání počítačům a specifikaci prefixu zajišťující přijetí či odmítnutí emailu. Pomocí pravidel mohou být nastaveny i servery uvedené v MX záznamu odesílající domény. Definovat můžeme IP adresy podsítí či konkrétních počítačů, kterým je umožněno odesílání e-mailů, viz [81]. Jazyk definuje následující čtyři používané prefixy, viz [82]: + (PASS) - počítač může z dané domény zasílat emaily ? (NEUTRAL) - počítače nejsou omezovány ani zvýhodňovány SPF politikou ~ (SOFTFAIL)- kompromis mezi NEUTRAL A FAIL, počítače nemohou odesílat e-maily, ale nemusí se jednat o falzifikát - (FAIL) - počítače nemohou odesílat e-maily
Pro nastínění situace poslouží konkrétní příklad (viz Příklad č. 9). lupa.cz IN TXT "v=spf1 +mx +ptr -all" Příklad č. 9 SPF záznam, viz [81]
Tento záznam povolí odesílat e-mail s odesílatelem v doméně lupa.cz strojům, které slouží jako MX záznam pro tuto doménu. Pokud by byl e-mail odeslán z jiného počítače, bude považován za falzifikát. Nyní provedeme krátké porovnání SPF a DomainKeys. SPF bere údaje z SMTP obálky, kdežto DomainKeys počítají s udržováním odesílatele pouze u hlaviček e-mailů. SPF je jednodušší na zavedení autorizace, ale všichni uživatelé musejí používat oficiální SMTP servery dané domény. Další výhodou SPF jsou menší hardwarové nároky. 93 Největší výhodou je možné zahození zprávy ihned po specifikaci odesílatele z SMTP příkazu (tj. zpráva se nemusí přenést celá). Mechanismus detekce korektnosti informací o odesílateli je však silně závislý na počtu poštovních poskytovatelů, kteří ho přijmou. SPF nikdy nezabrání padělání domén bez implementované dané techniky.
3.2.2.5 CallerID Technologie CallerID je dílem společnosti Microsoft,94 viz [83]. Jedná se o konkurenční metodu k SPF. Tato technologie je velice podobná SPF, má pouze dva rozdíly. Metoda CallerID používá jazyk eXtensible Markup Language (XML) 95 pro popis autorizovaných poštovních serverů. I CallerID ukládá popis do TXT záznamů. Druhým rozdílem je využití purported responsible address algoritmu, viz [83]. Princip algoritmu 93
Tj. nutná výpočetní kapacita, která je schopná zajišťovat funkci daného systému. O společnosti Microsoft na webových stránkách www.microsoft.com. 95 Jazyk je určen pro obsahový popis dokumentu. Tedy popisujeme obsah, ne způsob, jak se má dokument zobrazovat. Detaily na http://www.w3.org/XML/. 94
30 vychází ze separace adresy odesílající osoby z hlavičky zprávy, kdežto SPF extrahuje tyto údaje z obálky e-mailu pomocí SMTP příkazů. Pomocí čísla CallerID server jednoduše určí z jaké domény e-mail přišel, což přispěje k identifikaci, zda je žádaný či nikoliv. Patentování určitých částí technologie však mírně brání jejímu masovému rozšíření. Společnosti se obávají budoucího zpoplatnění.
3.2.2.6 SenderID Metoda SenderID, stejně jako CallerID, pochází z dílen společnosti Microsoft, viz [84]. Metoda pomáhá zabránit odesílatelům spamu vkládat falešné e-mailové adresy za účelem krádeže identity. Metoda kontroluje a ověřuje platnost aktuální adresy, ze které je e-mail odeslán a porovná adresu s e-mailovou adresou odesílatele. Metoda představuje kombinaci CallerID a SPF a z obou metod používá určité prvky. Syntaxe používaná u SenderID je shodná se SPF. Metoda však vyžaduje přenos celé e-mailové zprávy, aby mohla zkontrolovat jejich hlavičky. To přináší zbytečné využívání komunikačního kanálu. Společnou nevýhodou s CallerID je vlastnění patentových práv společností Microsoft. Mnohé výrazné společnosti tak daly od SenderID ruce pryč.96
3.2.3 Ostatní metody 3.2.3.1 Greylisting Mezi metody, které není možné začlenit mezi výše vytvořené kategorie, patří Greylisting, viz [30]. Autorem návrhu je Evan Harris a jedná se o jednu z nejkontroverznějších metod boje proti spamu, viz [31]. Greylisting kombinuje metody a postupy elektronické komunikace uvedené výše, a proto ji uvádíme až zde. Základem této metody je sada doporučení Request for comments (RFC),97 kterou se Internet řídí. RFC je přijata naprostou většinou důvěryhodných serverů. Spameři však kladou důraz na rychlé a hromadné jednorázové odeslání miliónů e-mailů. Jejich programy na distribuci spamu jsou zaměřené na kvantitu e-mailů a ignorují chyby, tedy nemají prostor ani čas sledovat nedoručení dopisu. Funkce legitimních poštovních serverů je zcela opačná. Pokud se server řídí RFC 2821, zařadí dopis do fronty a pokouší se v případě nedoručení e-mailu o opětovné doručení. Tato myšlenka je pro metodu Greylisting klíčová, viz [13]. Pokud má server příjemce pošty implementovaný Greylisting a počítač na internetu mu nabízí k doručení e-mail, je vytvořena trojice údajů: IP adresa počítače odesílatele, E-mailová adresa odesílatele, E-mailová adresa příjemce.
96
Např. společnost AOL. Označení doporučení je na místě, neboť se nejedná přímo o normu. Přesto je využíváno téměř celým internetem. Český překlad představuje „žádost o komentář“ a jedná se o označení řady standardů a dokumentů popisujících protokoly na Internetu a další systémy. Více viz http://www.ietf.org/rfc.html. 97
31 Poštovní server nahlédne do své databáze a pokusí se vyhledat tuto trojici údajů. Pokud je trojice údajů obsažena v databázi, e-mail je doručen, neboť se jedná o známého odesílatele. Pokud se trojice údajů v databázi nevyskytuje, je dopis odmítnut. Regulérní server řídící se RFC 2821 odešle odesílateli zprávu hlásící dočasnou nedostupnost schránky (tj. SMTP server je nedostupný). Zpráva implicitně vypadá následovně (viz Příklad č. 10). 450 Requested unavailable
mail
action
not
taken:
mailbox
Příklad č. 10 Implicitní zpráva nedostupnosti SMTP serveru, viz [1]
V databázi se pro danou trojici vytvoří dva časové údaje. První určuje, po jakou dobu bude poštovní server e-maily se stejnou trojicí odmítat (implicitně deset minut až hodina). Druhý představuje trvanlivost trojice údajů v databázi (implicitně hodiny až dny). SMTP server v krátkém intervalu (řádově několik minut) vybírá nedoručené emaily čekající ve frontě a snaží se je znovu doručit. Po uplynutí doby určené v prvním časovém údaji databáze (tj. blokování e-mailu) je e-mail doručen a identifikační trojice údajů se vloží do databáze. V případě budoucího přijímání zprávy se trojice v databázi nachází a e-mail je přímo přijat. Evidentní je odmítnutí e-mailu již v počátku navázané SMTP komunikace, tj. email se nepřenáší a ušetřena je přenosová kapacita. Dalším kladným prvkem této metody je šetření výpočetního výkonu poštovního serveru. Analýza obsahu e-mailu vyžaduje fyzické stažení e-mailu a až po klasifikaci je e-mail označený jako spam zahozen. Metoda však nese i nevýhody, proto je nutné ji kombinovat s dalšími antispamovými opatřeními. Spamerovi se nabízí zcela triviální řešení, jak Grelisting obejít. Stačí rozeslat e-maily (spam), které budou zachyceny poštovními servery používajícími Grelisting a např. po dvou hodinách stejnou činnost zopakovat. Tj. pokud spamer rozešle po uplynutí doby blokování dané identifikační trojice stejné e-maily, budou doručeny. Tento příklad ukázal nutnost kombinace s jiným antispamovým řešením, např. Blacklistem. Díky zpětné vazbě uživatelů, se dané údaje o odesílateli objeví na profesionálních Blacklistech. Opakované rozeslání e-mailů spamerem sice obejde Grelisting, ale narazí na blokaci pomocí Blacklistu. Pro většinu legitimních poštovních serverů je odhalení spamera velmi jednoduché – tedy pokud vůbec podporují jednorázové hromadné rozesílání e-mailů. Pokud by se spamer snažil distribuovat e-maily na servery s Greylistingem, začali by se u odesílajícího serveru hromadit tisíce e-mailů ve frontách. Enormně velké fronty e-mailů čekající na doručení by zajisté upozornili správce. V případě implementaci Greylistingu je nutné nasazení na všechny poštovní servery vedené jako příjemci e-mailů (uvedení v MX záznamu) v rámci jedné domény. Další nevýhodou je časová prodleva mezi e-maily. V případě prvního kontaktu může odeslání a doručení emailu představovat více než hodinovou mezeru, viz [31]. Evan Harris na svých stránkách uvádí taktéž výsledky šestitýdenního testování. Potvrdila se prognóza, že většina spamerů rozesílá e-maily pouze jednou. Úspěšnost filtrace pak dosahovala až 95 % příchozích nevyžádaných zpráv, viz [31].
32
3.2.3.2 FFB Filters that Fight Back (FFB) je kontroverzní metodou. Důvodem kontroverznosti je podobnost s DOS (Denial of Service) útoky.98 Autorem myšlenky FFB filtrů je Paul Graham, viz [33]. Metoda vychází z poznatku, že v nevyžádané poště převažuje URL spam, nebo alespoň většina spamu URL odkaz obsahuje. V FFB filtru je implementovaný program nejčastěji spolupracující s filtrem Bayesovým. FFB filtr automaticky navštěvuje uvedené URL odkazy, což při rozeslání miliónů e-mailů uživatelům s FFB filtrem představuje ve výsledku obrovskou zátěž na servery, kde mají spameři své stránky. Pro spamery to představuje zvýšení nákladů, ale žádný zisk. Opět je nutné FFB kombinovat s dalšími metodami. Kombinace s blacklistem či whitelistem zabrání zneužití filtru pro zahlcení stránek legitimních, tj. nerozesílajících spam. V případě absence whitelistu či blacklistu by hrozilo, že spamer úmyslně uvede libovolný URL odkaz (např. na stránky velké korporace či ministerstva). FFB filtr by e-mail od spamera vyhodnotil jako nevyžádaný a následně začal uvedený odkaz navštěvovat a tím generovat zátěž vedoucí až k nedostupnosti stránek.
3.2.3.3 Pozdržení odesílatelů (HashCash) Skupina metod pro pozdržení odesílatele je spíše známá pod konkrétním zástupcem (metodou) z této skupiny, označovanou a nazývanou HashCash.99 HashCash svým vlastním způsobem zrealizoval myšlenku placené pošty. Jedná se o metodu, která se více vyskytuje v teoriích, než v implementacích na stranách poštovních serverů. Pokud však implementována na poštovním serveru je, tak antispamové řešení pokládají e-maily podepsané otiskem HashCash, za velice důvěryhodné. S návrhem metody přišel již v roce 1997 Adam Back, viz [85]. HashCash představuje službu zabraňující rozesílání spamu (navíc i DOS útoků). Metoda se však zároveň drží myšlenky „již žádné ztracené e-maily.“ U většiny výše uvedených metod filtrování spamu je z principu funkce jasné, že ke ztrátě e-mailu může dojít. Potřebný poštovní server se může nacházet na blacklistu, nesprávně nakonfigurovaný e-mailový server nedokáže doručit korektní e-mail skrze ochranu Greylistingu či může dojít k false positive výsledku Bayesovy analýzy apod. Adam Back při návrhu kladl důraz na dva základní fakty. Zaprvé chtěl, aby byly doručovány všechny e-maily a za druhé chtěl snížit množství spamu. Jakožto zastánce open-source100 zamítal myšlenku placeného e-mailu ve smyslu peněz. Při návrhu však sáhl po jiném druhu platby. U metody HashCash uživatelé zaplatí za odeslání e-mailu výpočetním výkonem svých počítačů. Při odeslání e-mailu počítač vykoná složitou a náročnou operaci (např. matematický výpočet) a výsledek je přiřazen k e-mailu. Spamer během jediné vteřiny nepošle miliony e-mailů ale pouhé desítky. Konkrétně metoda HashCash jakožto zástupce metod pro pozdržení odeslání řeší kolizi na 160bitové SHA-1 hašovací funci, viz [14]. Nutné bylo zamezit použití jediného výsledku k hromadnému rozeslání. Proto SHA-1 98
Zkratka DOS představuje slova Denial-of-Service, tj. odmítnutí služby. Jedná se o metodu útoku nejčastěji z BotNet sítě, kdy je server zatížen ohromným množstvím nesmyslných dotazů, což způsobí nedostupnost služby. Takovýto útok pak představuje enormní problém pro společnosti, jejichž výdělečná činnost je přímo závislá na internetu (e-shopy apod.). 99 Stránky projektu dostupné na adrese http://www.hashcash.org/. 100 Open source software představuje počítačový software s otevřeným zdrojovým kódem. Při dodržení určitých podmínek je možné kód prohlížet a upravovat.
33 generuje výsledek kromě e-mailové adresy také z data a času odeslání, navíc je přidán náhodný řetězec (typicky 16 bitů dlouhý). Zvýšení nutné výpočetní kapacity následně transformuje hrubou silou otisk, viz [5]. Požadujeme dosáhnout na prvních pozicích (implicitně 20 bitů) otisku nuly, počet požadovaných nul zvyšuje náročnost výpočtu. Postup ověření a příkladu hlavičky (viz Příklad č. ) si ukážeme na příkladu: X-Hashcash: 1:20:060408:
[email protected]::1QTjaYd7niiQA/sc:ePa Příklad č. 11 Příklad hlavičky, viz [85]
Jednotlivé prvky oddělené dvojtečkou představují verzi HashCash, počet nulových bitů dosažených SHA-1, datum (formát 8. dubna 2006), e-mailovou adresu přijímající strany, použitelné rozšíření (zde prázdné) a poslední je náhodný řetězec. Ověření je provedeno příkazem (viz Příklad č. ). $ echo -n\ 1:20:060408:
[email protected]::1QTjaYd7niiQA/sc:ePa | sha1 00000c70db7389f241b8f441fcf068aead3f0 Příklad č. 12 Příkaz pro ověření, viz [85]
Tučné nuly nám představují shodu na požadovaých bitech SHA-1 hašovací funkce. Shoda indikuje validitu otisku. Doba výpočtu roste exponenciálně s počtem nul vyžadovaných pro shodu. Přijímající strana taktéž kontroluje formát data, zda je odpovídající. Pro vyšší zabezpečení opakovaného použití otisku je dobré skladovat lokální databázi otisků. Spamer si může hromadné rozesílání mailů při implementované metodě HashCash urychlit práci použitím výkonného hardwaru. Nutné je taktéž nalézt kompromis nutného výpočetního výkonu. Výpočet musí být dostatečně složitý, aby odrazoval spamery, ale ne příliš složitý, aby omezoval legitimní e-mailovou komunikaci.
3.2.3.4 Legislativa a placené e-maily Legislativu, kterou jsme se zaobírali v úvodu, by bylo taktéž možné částečně zařadit mezi opatření zamezující šíření spamu. Jedná se však pouze o teoretické opatření, které v současné době není příliš efektivní a nepředstavuje pro spamery větší hrozbu. Navíc díky své nedokonalosti umožňuje spamerům legálně rozesílat spam (např. pouhý email s URL odkazem či pokud se nejedná o obchodní sdělení). Přesto se dá toto řešení považovat za možné, vyžadované však budou výrazné úpravy v současně definovaných artikulích zabývajících se problematikou spamu. Druhou možností je masové zavedení placených e-mailů. Tj. poskytovatelé emailových služeb by si za každý e-mail účtovali menší obnos. Jedná se však pouze o teoretickou myšlenku, která zřejmě nenajde uplatnění. I při velice nízké ceně (několik haléřů) za e-mail by náklady spamerů velice vzrostly. Druhou zvažovanou možností by bylo placení „penalizace,“ pokud Vámi zaslaný e-mail bude označen za spam. Největším kamenem úrazu by byl potřebný systém elektronických plateb a jeho zabezpečení, viz [86].
34
3.3 Shrnutí antispamových metod
• • • •
Z popisu antispamových metod vyplývá, že se jedná o sofistikované a důmyslné nástroje. Bohužel není ve většině případů možné zvolit jednu z metod, na které by společnost postavila antispamový filtr. Jediné možné řešení použitelné ve větších společnostech je kaskáda jednotlivých metod, které na sebe budou navazovat. Důležité je vhodné pořadí, neboť jedině tak dosáhneme vysoké efektivity filtrování spamu. Výstupem vhodného poskládání metod by měl být sofistikovaný antispamový nástroj na • • jehož výstupu bude k uživateli propouštěna minimální (ideálně nulová) míra spamu. Výhodou je možnost začlenit do systému (na správné místo v posloupnosti metod) další • • funkce, tj. např. antivirovou kontrolu snižující míru příchozího spyware a tím pádem zvyšující bezpečnost počítačové infrastruktury společností. • • My se zaměříme na SMTP relaci a na diagramu si ukážeme nástřel správné posloupnosti metod, kterou by e-mail měl • projít, než bude doručen k uživateli (viz • Obrázek č. 14).
•
•
•
ad e-mail relation (Marek Stelcik)
•
Filtration - Blacklist, w hitelist, greylist
•
•
• Static methods (Bayes)
Antiv irus v erification
•
•
•
•
•
•
•
•
•
Internet (SMTP relation) - incoming e-mail
•
•
results MTA (inbox)
MTA (spambox)
•
•
•
•
•
•
•
•
• Final
•
• Obrázek č. 14 Posloupnost zpracování e-mailu v rámci SMTP relace
•
• 101
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
• 101
Sestaveno na základě konzultace s pracovníkem společnosti Symantec Praha (Martin Meduna) • zaměřeným na spam. K tvorbě diagramu využit Enterprise • Architect 6.
•
•
•
•
•
•
•
•
•
•
35
4 Konkrétní kroky ve společnosti Orlík kompresory 4.1 Počítačová infrastruktura společnosti Společnost Orlík kompresory102 se sídlem v České Třebové, Kubelkova 497, patří k nejvýraznějším společnostem českotřebovského regionu. Společnost vlastní rozsáhlou počítačovou síť, do které je zapojeno 182 osobních počítačů. Přístup k internetu a firemní e-mailové schránce je zřízen u 162 počítačů. Společnost vlastní 12 serverů dodaných společnostmi DELL a IBM, jejich konfigurace se jednotlivě liší. Na pracovních serverech je instalován operační systém Windows 2000 Server, pracovní stanice využívají Windows 2000 Professional - Service Pack 4 či Windows XP – Service Pack 2.103 Klíčové parametry jednotlivých osobních počítačů a počty kusů jsou pro vyšší přehlednost uvedeny do tabulky (Tabulka č. 3):
Značka PC
CPU
Typ CPU
Frekvence CPU [GHz]
RAM [MB]
Pevný disk [GB]
Počet kusů
QDI-noname
Intel
P4
1,4
128/259
20/40
20
TESCO
Intel
P4
1,6
256
20/40
60
ATC
AMD
Athlon
2400+
512
40
20
DELL GX 270
Intel
P4
2,4
512
40
24
DELL GX 620
Intel
P4
3,4
1024
80
20
DELL GX 745
Intel
Core 2 Duo
1,4
2048
80
26
SERVERY DELL, IBM
Intel
P4
různé
Tabulka č. 3 Počítačová infrastruktura společnosti Orlík kompresory
Pracovní stanice QDI nemají přístup k internetu a tedy ani k e-mailu. Riziko ohrožení spamem je u těchto počítačů nulové. Počítače mají integrované grafické řešení v rámci základní desky a čipové sady. Grafická paměť je sdílená v rámci operační paměti. Počítačová síť je vytvořená technologií Ethernet104 s přenosovou rychlostí 100 Mbps. Každý server (pobočka) využívá Linuxový firewall (Kubuntu),105 NAT106 a poštovní server je řešen postfixem.107 Rychlost připojení k internetu v rámci pobočky je 8 Mbps. Na stanicích není žádné antispamové řešení. Použity jsou antivirové řešení Symantec Client security corporate edition 10 a Symantec corporate edition 9.108 Přístup k internetu je řešen centrálním firewallem. Jako poštovní klient na pracovních stanicích slouží aplikace Outlook109 společnosti Microsoft. Není implementován žádný nástroj pro filtraci
102
Internetové stránky společnosti www.orlik.cz. Více o programech na stránkách společnosti Microsoft, dostupné z webu http://www.microsoft.cz. 104 Jeden z typů lokálních sítí, více viz [86]. 105 Linuxová distribuce odvozená z Ubuntu. Oproti Ubuntu je rozdíl v grafickém rozhraní. Stránky projektu jsou dostupné z webu http://www.kubuntu.cz/. 106 Network Address Translation, tedy překlad IP adres, využíváno k úspoře IP adres v současném internetu. Pokud počítač odesílá packet z vnitřní sítě např. do Internetu, odešle jej se zdrojovou adresou a portem. Při průchodu přiřadí NAT veřejnou IP adresu. 107 Postfix je poštovní server sloužící k samotnému odesílání a přijímání pošty prostřednictvím SMTP. 108 Více o produktech na stránkách společnosti Symantec dostupných z webu http://www.symantec.com. 109 Více o produktech na stránkách společnosti Microsoft, dostupných z webu http://www.microsoft.cz. 103
12
36 pošty. E-mailová schránka pracovníků má podobu příjmení@orlik.cz. V případě shody příjmení je doplněno pořadové číslo začínající číslem 1.
4.2 Možnosti Pro konkrétní realizaci se nabízí možnosti použití komerčního či freeware110 antispamového řešení na straně uživatele. Druhou volbou je integrace těchto antispamových řešení do poštovního klienta. Poslední využívanou možností je implementace antispamového řešení jakožto samostatného nástroje na stranu serveru. Poslední možností je myšlena implementaci softwarového nástroje filtrujícího spam na stranu serveru či použití speciálního hardwarového zařízení. Nevýhoda hardwarového řešení spočívá v ceně samotného zařízení, což navýší pořizovací náklady. Nabídka komerčních řešení je široká. Převážně se jedná o ucelené bezpečnostní balíky ochrany, ty mají podobu jediné aplikace. Vhodné jsou především pro méně zkušené odborníky, neboť obsluha a údržba je relativně snadná. Tyto balíky implementují více vrstev antispamové ochrany, tj. více jednotlivých metod, které jsme si uvedli výše. Při výběru je důležité brát ohled na budoucí možnost rozšiřování a aktualizování balíku, neboť boj se spamem jde neustále kupředu. Doporučuje se nezúžit výběr konkrétního balíku pouze na levné řešení, neboť dané řešení může podávat mnohem horší výsledky a mít nedostatky na straně funkčnosti. Mezi nejlépe hodnocené komerční antispamové řešení jsou označovány aplikace SpamMonitor či SpamGunner.111 Antispamový filtr je dokonce implicitně implementován v mnoha poštovních klientech, např. Microsoft Outlook 2003 a vyšších verzích či v Mozilla Thunderbird112 (implementován Bayesův filtr). Setkat se však můžete s různou úspěšností filtrace. Podávané výsledky se liší především dle lokálního nastavení. Jako další možnost ochrany před spamem slouží unifikované aplikace. Jedná se o filtry externí, tedy takové, které nejsou implementovány do konkrétní poštovní aplikace. Tyto nástroje je proto nutné dodatečně nainstalovat k poštovní aplikaci. Jednoduše by se dalo říci, že se jedná o nadstavbu implicitně implementovaných a nabízených ochran jednotlivých poštovních aplikací. Tomu odpovídají výsledky, které zaznamenávají vyšší úspěšnost filtrace. Typickým zástupcem této kategorie je např. SpamBayes113 implementující nám dobře známý Bayesův filtr. Použit může být u většiny poštovních klientů a uváděna je úspěšnost až 99 %. Novějším a propracovanějším řešením, které podporuje více protokolů, je Spamhilator.114 Oblibu si našel především díky tomu, že se jedná o freeware program a kromě POP3115 zvládá i IMAP, viz [12].116 Bezplatné aplikace nejsou určeny jen pro domácí uživatele, ale využití naleznou i u menších firem. Společnosti s větší počítačovou sítí však mnohdy vyžadují sofistikovanější řešení. Použití běžných ochran na straně klientů situaci ochrany před spamem u středních a velkých podniků nevyřeší. Kromě ochrany před spamem je nutné vytvořit několikaúrovňovou ochranu firemní infrastruktury, viz [87]. Na trhu se pokusíme najít a zhodnotit vhodné předkonfigurované systémy (případně dodávané včetně 110
Freeware je označení programů, které lze využívat bez nutnosti platby. Detaily dostupné na webových stránkách www.spamgunner.com. 112 Více o produktech na stránkách společnosti Mozilla, dostupných z webu http://thunderbird.czilla.cz/. 113 Detaily na webové stránce spambayes.sourceforge.net. 114 Detaily na webové stránce www.spamihilator.com. 115 Poštovní protokol Post Office Protocol – Verze 3. Jedná se o protokol pro vzdálený přístup k poštovnímu serveru (port 110). 116 Poštovní protokol Internet Message Access Protocol. Na rozdíl od POP3 je optimalizován pro práci v dlouhodobě připojeném režimu. 111
37 hardwaru). Jako vhodné řešení se jeví použití hardwarového zařízení či softwarového balíku na stranu serveru či firewallu s antispamovou ochranou. V případě firewallu by na vstupní části byla internetová brána přijímající e-mailovou komunikaci. Zde bude přicházet ham i spam a na straně firewallu proběhne následná klasifikace. Použitím několikaúrovňového filtrování pošty bychom rádi dosáhli minimálního false positive. Společnost nepreferuje hardwarové ani softwarové řešení. Ačkoliv se softwarové řešení na straně serveru jeví jako dostačující, pokusíme se neomezit na tuto variantu.
4.3 Současná situace Vysoká míra spamu e-mailové komunikace probíhající ve společnosti Orlík kompresory byla podmětem pro tvorbu samotné práce. Počáteční odhady hovořily o více než jedné třetině nevyžádaných e-mailů v rámci probíhající komunikace. Pro zjištění reálného rozsahu a vlivu spamu na počítačovou infrastrukturu společnosti však bylo nutné získat konkrétnější údaje. Ve společnosti Orlík kompresory je zaměstnáno 420 pracovníků. Z uvedeného počtu zastupuje 10 osob vedoucí pozice a 8 sekretariát. Společnost je členěna na jednotlivé úseky (tj. vývoj, výroba, konstrukce, bezpečnost, informační technologie, obchod, logistika apod.), kde každému úseku připadá alespoň jeden vedoucí pracovník. Každý vedoucí pracovník a pracovník sekretariátu má výhradně svůj vlastní počítač. Jednatelé společnosti jsou bez firemního počítače. Oslovení všech zaměstnanců pracujících ve společnosti se vzhledem k časovým dispozicím jevilo jako neproveditelné. Proveditelné nebylo ani oslovení uživatelů pracujících s internetovou schránkou, tj. 162 osob. Jako pozorovaný vzorek jsme oslovili 10 pracovníků společnosti. Pro vytvoření odpovídajícího obrazu o situaci ve společnosti Orlík kompresory, jsme se rozhodli monitorovat pohyb emailů, především jejich typ a množství. Vzhledem k lišícím se dopadům spamu a různým následkům na různých pracovních pozicích nebylo možné pracovní pozice pominout a zobecnit. Z důvodů maximální věrohodnosti výsledků bylo nutné monitorovat tři hierarchické úrovně ve společnosti - rovinu sekretariátu, kde se očekává nejvyšší počty rozeslaných a doručených emailů, nejčastější používání internetu a tím pádem i vysoké riziko příchozího spamu. Dané kategorii je přiřazená vyšší zodpovědnost za fungování společnosti, proti i samotný dopad spamu je vyšší. Druhou pozorovanou rovinou jsme stanovili management (užší vedení společnosti). Poslední rovinou tvoří výroba a konstrukce, kde se dá očekávat nejvyšší procentuální zastoupení spamu způsobené nevhodným používáním internetu a neobezřetná manipulace s emailovou adresou. Pro sledování samotného pohybu emailů u jednotlivých pracovníků jsem vytvořil anketu (viz příloha Bakalářské práce). Ta bude po svém vyplnění nést počty doručených emailů za stanovené časové období. Ankety by měla poskytnout odpověď na otázku, jakou procentuální míru tvoří nevyžádaná pošta ve společnosti. Výsledky budou porovnány s prvotním odhadem zhruba 30 %. Anketa vyvrátí či potvrdí tyto prognózy a navíc ponese šest doplňujících otázek sloužících k bližšímu dokreslení ve společnosti Orlík kompresory. Anketa byla směřována na výřez z každé z uvedených rovin. Proto jsme oslovili tři osoby ze sekretariátu, tři z vyššího managementu a čtyři osoby z konstrukce a vývoje, což se jevilo jako dostačující a nejvhodnější rozložení. Navíc bylo minimalizováno narušování běžné činnosti zaměstnanců společnosti. Pokud by výsledky nebyly dostačující, bylo by možné sestavit druhou anketu s detailnějšími otázkami.
38 Pokyny ankety pro sledování pohybu emailů zněly následovně: Za uvedené časové období nemazat doručené emaily. E-maily třídit do připravených kategorií Pro klasifikaci e-mailů do jednotlivých skupin použijte poznámky uvedené v anketě Uvést sumu přijatých e-mailů do příslušného políčka ankety Sledovali jsme období jednoho týdne, což se jevilo jako nejschůdnější řešení nejméně narušující chod firmy. Dlouhodobější interval pozorování by mohl vést k hromadění spamu v doručené poště, způsobit výrazně vyšší nepřehlednost mezi emaily a nižší dodržení pracovních povinností vybraných osob. Definice spamu použité pro třízení e-mailů ve společnosti Orlík kompresory byly převzaty z Obecné charakteristiky spamu v úvodu Bakalářské práce. Období monitorování došlé pošty činilo rozmezí mezi 10. 12. 2007 a 17. 12. 2007. E-maily byly rozčleňovány do námi stanovených skupin:
Firemní korespondence Osobní korespondence Vyžádaná pošta Spam
Doplňující otázky ankety následně zněly: 1. Charakter spamu (obrázky, text, …) 2. Oblast doručeného spamu (kosmetika, farmacie, spotřební zboží, služby, apod.) 3. Jazyk spamu (česky, anglicky, jiný jazyk – prosím uvést) 4. Lze vyloučit záměnu spamu za doručený e-mail? 5. Obtěžuje doručený spam? 6. Je za spam považována e-mailová korespondence renomovaných prodejců nebo značek (např. byl-li s nimi uzavřen v minulosti obchod)?
Za uvedené období (viz Tabulka č. 4 a Obrázek č. 15) dorazilo do emailových schránek námi oslovených deseti lidí celkem 2097 emailů, z uvedeného počtu bylo zastoupení spamu celých 84,07 %, tedy konkrétně 1763 nevyžádaných emailů. Pokud bychom zapomněli na námi vytvořené hierarchické rozdělení skupin pro sledování, představoval by spam 251 emailů denně, což dělá 25 emailů na jednu osobu denně. Výsledky jsou alarmující a potvrzující situaci v České republice, ale i ve světě, kde se hladina spamu pohybuje okolo 90 % z celkového počtu uskutečněné elektronické komunikace formou e-mailů. Nyní provedeme rozbor jednotlivých skupin.
39
Obrázek č. 15 Celková statistika spamu společnosti za monitorované období, viz [64]
Statistika všech kategorií Celkem mailů za týden Celkem spamu za týden Spamu na den Spamu na den a na osobu Celkově procenta
2097 1763 251,857 25,186 84,072%
Tabulka č. 4 Celková statistika spamu společnosti za monitorované období, viz [64]
4.3.1 Sekretariát Sekretariát je skupinou nejvíce používající email, což se odrazilo i ve výsledcích. Ze tří oslovených osob nám byli všichni schopni poskytnout numerické výsledky. Získal jsem dvoje zodpovězené doplňující otázky ankety. Výsledky doplňujících otázek se překrývaly. Charakterem spamu v této skupině převládá čistý text, objevuje se však i text s obrázky a taktéž přímý bitmapový spam, tvořený pouze obrázkem. Nevyžádané emaily pokrývají především svou oblastí nabídky práce, služby a farmaceutické produkty. Zcela dominantní je spam v anglickém jazyce. V kategorii sekretariátu se oslovené osoby shodují taktéž nad otázkou možnosti záměny spamu za doručený email, kde může být daná možnost ve většině případů vyloučena. Jednoznačná odpověď byla taktéž na to, zda spam obtěžuje, kde v obou případech zazněla odpověď „ano.“ E-mailová korespondence renomovaných prodejců či značek za spam sekretariátem považována není, hlavně v případě, že s nimi byl v minulosti uzavřen obchod. Co se samotných počtů emailů týče, tak firemní korespondence tvořila za uvedený týden v součtu 110 emailů z celkového počtu 206 doručených zpráv, tedy 56 %. Spam se umístil na místě druhém s počtem 46 emailů a 22 procentním zastoupením. Osobní korespondence představovala 29 emailů čili 14 % a vyžádaná pošta 21 doručených zpráv a 10 % z celkového počtu.
40
Obrázek č. 16 Podíl spamu v sekretariátu, viz [64]
4.3.2 Management Management představoval nejrovnoměrnější rozložení doručených emailů v jednotlivých kategoriích. V monitorování emailů s námi spolupracovaly tři osoby spadající do kategorie managementu. Doručeno bylo v součtu tří osob 157 emailů, z čehož firemní korespondence tvořila 34 %, tedy konkrétně 53 emailů. Osobní korespondence zaujala místo druhé s 23 % a 36 doručenými emaily, třetí místo obsadil spam s 22 % a 33 nevyžádanými zprávami. Zbytek, tedy 33 doručených emailů a 21% podíl tvořila vyžádaná pošta, převážně sledování novinek u konkurence. Většinu spamu tvořil e-mail s obrázky, který byl čitelný a plnil svou „informativní“ funkci i bez nich. Část doručených nevyžádaných emailů byl spam čistě ve formě textu. A objevil se taktéž jeden spam v souboru PDF a jeden v textovém dokumentu aplikace Microsoft Word. Oblast zde šlo rozložit opět mezi nabídky služeb a věcných produktů. Část z označeného spamu, byly nabídky rozumného charakteru, založené na předchozích objednávkách, avšak bez možnosti zrušení jejich příjmu. Zbytek tvořili nabídky na zahraniční školení, erotické pomůcky, možnosti přivýdělku, dárky, erotické služby, seznamka a převažovala nabídka cenově výhodných produktů společnosti Microsoft. Dominantní byl anglický spam, avšak třicet procent tvořil spam český a jeden doručený email označený za spam byl francouzského obsahu. Záměna spamu za doručený email byla taktéž z 95 % vyloučena a i kategorii managementu spam velice obtěžuje. Oproti sekretariátu je však za spam považována i emailová korespondence renomovaných značek, pokud nebyl příjem vyloženě vyžádán.
41
Obrázek č. 17 Podíl spamu v managementu, viz [64]
4.3.3 Konstrukce Konstrukce a výroba představují největší podíl spamu ve společnosti. Daná kategorie nevyužívá svoji emailovou schránku ke své denní pracovní činnosti a zřejmě kvůli nevhodné manipulaci s emailovou adresou je zcela dominantní zastoupení spamu doručené poště. Mezi čtyři oslovené osoby za týden monitorování dorazilo 1743 emailů, tj. jednoznačně nejvyšší počet. Naprostá většina doručené pošty však představuje spam, konkrétně 98 %, což představuje 1682 přijatých spamů. Vyžádaná pošta zaujala místo druhé, přijato bylo 24 zpráv (převážně sledování technologických novinek výrobního procesu), což však z celkového počtu představuje pouze 1 %. Stejný procentuální podíl představuje i firemní korespondence s 22 doručenými zprávami. Osobní korespondence zaujala vůči celku 0 %, neboť bylo doručeno pouze 6 emailů.
Obrázek č. 18 Podíl spamu v konstrukci, viz [64]
42
4.4 Prevence Jednoduché pravidlo, jak eliminovat spam, neexistuje. Metody je nutné kombinovat, což v důsledku vede ke snížení míry nevyžádané pošty v e-mailových schránkách. Prvním krokem ke snížení celkového množství spamu ve společnosti Orlík kompresory je přistoupení a dodržování určité skupiny zásad. Patří sem především bezpečné zacházení s e-mailovou adresou jakožto citlivým osobním údajem, neboť prevence začíná u uživatele. Skupinu doporučené bychom mohli zformulovat do následujících bodů, viz [88]. E-mailovou adresu uvádět obchodním partnerům apod.
pouze
důvěryhodným
osobám,
Neuvádět souhrnné seznamy e-mailových adres na webové stránky společnosti, není li to nutné U osob komunikující s veřejností uvádět na webových stránkách emailovou adresu v jakémsi pseudozápisu, tj. např. stelcik (zavinac) orlik (tecka) cz či ve formě obrázku. Obrázek č. 11 – Obrázek prezentující e-mailovou adresu:117
Robot sbírající adresy obdobný zápis nerozluští a pro člověka je náznak dostatečně ilustrativní, že má e-mail odeslat na adresu
[email protected], respektive
[email protected]. Použití českých názvů „zavináč“ a „tečka“ se jeví v českém prostředí jako nejvýhodnější. V budoucnu se dá očekávat použití robotů zvládajících převod anglického zápisu (tj. stelcik (at) orlik (dot) cz) do předepsané formy e-mailu. Problém může nastat, pokud si uživatel obrázky nezobrazují.118 V takovém případě by e-mailovou adresu ve formě obrázku neviděl. Implementování kvalitní OCR metody do robotů sbírající adresy však může v budoucnu i tuto ochranu obejít. Práce robota se dá obejít taktéž zápisem adresy pomocí HTML kódu. Tj. tečku zapíšeme jako @, což bude ve výsledku na stránce zobrazeno korektně, ale daný zápis zmate robota sbírajícího adresy. Já osobně bych doporučil relativně bezpečné sestavení e-mailové adresy pomocí Javascriptu.119 K tomu poslouží například jednoduchý skript, viz Příklad č. : <script type="text/javascript" language=javascript>
Vytvořeno generátorem na stránkách http://nospam.web-stylove.cz/index.php. Nastavení internetového prohlížeče (browser), naprostá většina uživatelů má však zobrazování obrázku zapnuté. 119 Skriptovací jazyk využívaný na webových stránkách. Vykonává se až přímo v prohlížeči čtenáře. Více viz http://www.javascript.com/ či http://www.javascript.cz/. 118
43 domena=('orlik'); dot=('.'); ext=('cz'); document.write('
' + jmeno + at + domena + dot + ext + '<\/a>'); //--> <noscript>stelcik (at) orlik (dot) cz Příklad č. 13 Skript pro generování e-mailové adresy s obtížnější detekcí pro roboty, viz [89]
Při uvádění e-mailové adresy je vhodné taktéž vynechávat příkaz mailto: Pro komunikaci skrze diskusní fóra, registrace na internetových adresách apod. uvádět sekundární (nepoužívanou) e-mailovou schránku. Obecně není problém následně převést (přesměrovat) komunikaci na primární adresu, ukáže-li se protější strana dostatečně důvěryhodná. Převážně diskusní fóra vyžadující uvedení (a následné zveřejňování) e-mailové adresy jsou častým terčem spamerů hledající adresy pro své databáze. Pokud sekundární adresu nevlastníte, je možné využít k jednorázové registraci s potencionálním rizikem úniku adresy dočasnou poštovní schránku.120 Zadávat sekundární nepoužívanou adresu se jeví jako vhodné i u odběru novinek z některých serverů odesílajících tuto novinku hromadnou poštou. Pokud by se e-mail dostal ke spamerovi, může z něj získat samotné adresy odběratelů. Zásadně se nepřihlašovat k odběru erotických či pornografických materiálů na primární mail, v naprosté většině případů se zadaný e-mail dostane do databáze spamera. Ochranu před adresářovým útokem121 zvýší vhodná volba názvu emailové schránky. Tj. název, který není metodou adresářového útoku jednoduše odvoditelný a získatelný. Jako řešení se nabízí použití slov a znaků, které se obecně v názvech e-mailových adres nevyskytují (např. adresa [email protected] bude slovníkovým útokem mnohem hůře získatelná, než klasická [email protected]). Tato metoda ochrany je však dosti kontroverzní a použití osobně vidím spíše v soukromém užití. Pro naši společnost se nejeví jako příliš vhodná, neboť i na tvar e-mailových adres jsou kladeny určité požadavky. Naše uvedená bezpečnější varianta adresy nebude zajisté např. na vizitce příliš reprezentativní. Zároveň se od e-mailové adresy očekává lehce zapamatovatelný tvar.
120
Tu lze vytvořit například na serveru http://www.mailinator.com/. Anglicky označován zkratkou DHA (Directory Harvest Attack), jedná se o metodu sběru e-mailových adres využívající běžné kombinace jména, dalších slov a známých domén pro vytvoření databáze e-mailů. Na dané e-mailové adresy je následně rozesílán spam. Více viz http://www.postini.com/services/dha_wp.pdf. 121
44 Jako možná varianta se ukázalo na stránky umístit odkaz na webovou stránku obsahující nesmyslné e-mailové adresy.122 Již na první pohled je vidět, že tyto adresy nemají majitele. Slouží pouze pro spamovací roboty, kteří danou stránku naleznou a adresy přidají do databáze spamera. Důležité je daný odkaz uvést na místo, kde ho běžný uživatel neuvidí, ale robot procházející stránky ho nalezne. Roboti během fáze „e-mail harvesting” sbírají cokoliv, co vypadá jako e-mailová adresa (tj. neřeší, zda je validní apod.). Bohužel dodržování veškerých bezpečnostních doporučení neznamená, že se uživatel nestane součástí databáze spamera. Mnohdy stačí neopatrnost kolegů na pracovišti nebo těch, s nimiž komunikujeme ve volném čase, a náš či jeho počítač bude infikován virem. Vir odešle adresář kontaktů spamerovi a ten i přes naši opatrnost získá e-mailové adresy. Pokud se již nevyžádaný e-mail do naší schránky dostane, je důležité, aby se zaměstnanci společnosti řídili následujícími pravidly. Neodpovídat spamerovi. Nulová poptávka může vést k následnému smazání z databáze spamera, neboť především zisk je hlavní motivací spamera. Navíc pokud se jedná o phishing a zašlete příslušné citlivé údaje, můžete se stát cílem podvodu. Neotvírejt zprávu na první pohled evidentního spamu. Neodhlašovat příjem spamu. Pokud přijatý spam popisuje konkrétní kroky pro odhlášení příjmu spamu, je třeba se tomu vyhnout. Setkat se můžeme s odkazem na webové stránky, kde má být formulář pro odhlášení či výzva k zaslání e-mailu zpět odesílateli. Spamerovi přinejmenším potvrdíme, že se jedná o používanou adresu. Neklepat na URL odkazy ve spamu. Webové stránky často vyžadují zadat citlivé osobní či finanční123 údaje. Nenechte se zmást ani zdánlivě bezpečnou URL adresou. Útočníci umí zobrazit falešnou adresu URL v adresním řádku internetového prohlížeče. Setkat se můžete i s mírně pozměněnou adresou vypadající na první pohled korektně. Např. adresy www.microsoft.com a www.mircosoft.com se liší změnou jediného písmene a může dojít k úspěšnému zmatení uživatele. Sdělení uvedené v spamu je třeba hodnotit s rezervou.
4.5 Testování Po prostudování materiálů dostupných antispamových řešení použitelných pro středně velké podniky jsem vybral následující produkty, které zkusíme otestovat a následně vybrat nejvhodnější řešení pro případnou realizaci ve společnosti Orlík kompresory. Dospěl k názoru, že nejvhodnější bude otestovat placené produkty ESET Mail Security, Symantec Brightmail AntiSpam 6, iHATESpam Server Edition a 122 123
Příklad je k vidění zde: http://web.mit.edu/klund/www/link/link79.html. Např. PIN kód platební karty, číslo platební karty, číslo účtu apod.
45 Symantec Mail Security 8240. Na poli bezplatných řešení provedeme test nástrojů Bogofilter a Spamassassin. V případě placených produktů se jedná o systémy pro středně velké podniky. Důležité nároky jsou kladeny na zajištění bezpečnosti, integrity a dostupnosti informací. Produkty Symantec Brightmail AntiSpam 6 a Symantec Mail Security 8240 nejsou volně dostupné a je nutné koupit licenci od společnosti Symantec a provést instalaci. Zapůjčení produktů a instalace přímo ve společnosti Orlík, se nepodařila kvůli smluvním omezením zajistit. Testování bylo uskutečněno s pomocí společnosti Symantec Česká republika ležící v budově A Office Parku na Nových Bučovicích. Testování probíhalo převážně na datech společnosti Symantec a na předkonfigurovaném postfix poštovním serveru společnosti Orlík kompresory. Zvolená metodika byla vybrána proto, aby byly zajištěny podmínky odpovídající společnosti Orlík. U antispamové ochrany ESET Mail Security jsme pro testování dočasně využívali zapůjčenou plnou verzi dostupnou po registraci u společnosti ESET. Obdobně jsme otestovali i bezplatný filtr Spamassassin a serverový antispam iHATESpam Server. Pro srovnání jsem se rozhodl Bogofilter, který by však musel být implementován na jednotlivé počítače, daný produkt totiž není serverový antispamový nástroj, ale pouze klientský.
4.5.1 Symantec BrightMail AntiSpam 6.0 Antispamový software určený pro instalaci na straně serveru. Podporuje naší společností využívané serverové operační systémy Windows 2000 a dále Windows Server 2003, Sun Solaris 8 a 9 nebo Red Hat Linux ES/AS 3.0. Kombinováno je 17 filtrovacích technologií, čímž by měla být zajištěna poměrně velká úspěšnost detekce spamu. BrightMail Antispam 6.0 navíc umožňuje správcům využívat různé skupiny práv pro uživatele a jejich manipulaci s poštou. Administrátor má kontrolu nad jednotlivými poštovními schránkami a nechybí možnost stanovení povolených jazyků či nastavení osobních blacklistů a whitelistů. Administrace je řešena přístupem přes webové rozhraní s podporou grafického hlášení reportů. Na administrátora navíc nepřipadá nutnost ladit produkt a učit heuristiku, vše je zajištěno po instalaci automaticky. Součástí licence je podpora na až na tři roky s možností prodloužení, zajištěna je aktualizace antispamových databází, filtrů a samotného softwaru. Cena licence pro poštovní server nad 100 schránek je 500,- Kč bez DPH. To při počtu 162 e-mailových schránek představuje cenu 81 000,Kč bez DPH.
4.5.2 Série Symantec Mail Security 8200 Druhým testovaným produktem u společnosti Symantec byl hardwarový zástupce v boji s nevyžádanou poštou. Výhodu hardwarového řešení bych viděl především ve snazším začlenění do počítačové infrastruktury společnosti. Zařízení si sami zajišťují veškeré potřebné funkce a není tedy nutné je instalovat na poštovní servery. Symantec Mail Security 8200 testuje e-maily již na úrovni síťového rozhraní, což umožňuje snížit náklady na infrastrukturu, viz [19] a Obrázek č. 19. Spam není fyzicky stahován do poštovního serveru a tato prvotní redukce vykazuje až 50% snížení spamu. Jedná se o vícevrstvou architekturu, takže následuje další filtrování spamu, který překoná ochranu na
46 úrovni síťového rozhraní. Administrátor může opět jednoduše nastavovat různé práva pro skupiny uživatelů. Konzole dále umožní zobrazení statistik útoků a filtrace pošty. Ani u hardwarového řešení nechybí možnost nastavení důvěryhodných seznamů, což v důsledku sníží množství false positive klasifikací. Symantec Mail Security kombinuje 20 filtrovacích technologií. Společnost nabízí tři varianty produktů ze série Mail Security 8200. U systému Symantec Mail Security série 8200 není nutné učení heuristiky, vše je součástí vzdálené správy ze strany společnosti. Model Mail Security 8220 je určen pro malé organizace s počtem uživatelů 50 až 100, druhým je Mail Secirity 8240 pro středně velké podniky maximálně s 1000 uživateli. Nejvýkonnější je Symantec Mail Security 8260 pro největší korporace. Cena za licence produktu Symantec Mail Security 8240 pro společnost Orlík kompresory vychází na 500,- Kč bez DPH na jednoho uživatele. Samotné hardwarové zařízení modelu Mail Security 8240 stojí 54 270,- Kč bez DPH. Celkově tedy řešení vychází na 135 270,- Kč bez DPH.
Obrázek č. 19 Hardwarové zařízení Symantec Mail Security 8240, viz [19]
Zařízení série Symantec MailSecurity 8200 jsou opět postavena na technologii Brightmail a jsou kompatibilní s poštovními servery podporovanými produktem Symantec Brightmail 6.0. Volitelnou komponentou je antivirová ochrana poštovního provozu a dané řešení se jeví jako vhodné i v případech, že společnost již využívá antivirové produkty od společnosti Symantec. Technologie Brightmail použitá v obou zmíněných antispamových řešeních společnosti Symantec využívá data získaná z 2 milionů poštovních serverů s 300 miliony účty, které se snaží nalákat spamery k zasílání spamu. Tento systém je označován jako BLOC. Data jsou analyzovány společností Symantec a následně jsou automaticky vytvářeny aktualizace databází a filtrů. Aktualizace se provádí automaticky každých 10 minut. V případě dalšího růstu společnosti by bylo možné využít další hardwarové zařízení nesoucí název Symantec Mail Security 8160, což je jediné zařízení v sérii Symantec Security 8100. Řešení je určeno pro společnosti s více než 2000 uživateli. Mail Security 8160 má na starost vzorkování spamu a analyzování cesty spamování. Opět přispěje ke snížení množství spamu na úrovni síťového rozhraní a využívá technologii traffic shaping pro kontrolu rychlosti přenosu dat, viz[20]. Celá možná infrastruktura by mohla vpadat následovně (viz Obrázek č. 20). V případě implementace tohoto systému společnosti Symantec vynecháme zařízení Mail Security 8160.
47
Obrázek č. 20 Vícevrstvá komplexní ochrana před spamem od společnosti Symantec, viz [19]
Obrázek pak naznačuje vícestupňovou antispamovou ochranu. Přímo na internetové síti je nasazen filtr Symantec Mail Security 8160 následovaný sérií Symantec Mail Security 8200 či softwarovým řešením Symantec Brightmail 6.0. Na konci jsou samotné poštovní servery s uživatelskými účty. Prostřední část reprezentovaná Symantec Mail Security 8200 je však opět vícevrstvá. Filtrování je tvořeno analýzou domény, IP adresy odesílatele zprávy s tím, že jsou ignorovány otevřené relace. Následuje analýza těla zprávy, kontrola obsažených URL odkazů, tvorba kontrolních součtů a snaha odhalení dalších snah obejití filtru (podvrhy HTML kódu atd.). Dalšími stupni je Bayesova analýza, filtrování na bázi jazyka a následuje detekce virů a dalšího malware.
4.5.3 ESET Mail Security Produkt ESET Mail Security představuje zástupce kombinovaného antispamového a antivirového řešení, viz [21]. Jedná se o serverové řešení vyžadující poštovní server založený na linuxu, což Postfix použitý ve společnosti Orlík kompresory splňuje. ESET Mail Security navíc implementuje ochranu proti malware, což zvýší odolnost a bezpečnost dat v celé firemní infrastruktuře. Prohledávány jsou hlavičky, patičky i těla emailů. Výhodou jsou nízké hardwarové nároky na server. Jádro ESET Mail Security obsahuje démona esets_daemon využívajícího a podporujícího i knihovny od různých autorů. Démon si následně vytváří několik instancí programu Spamassassin, kterým jsou posílány klientské zprávy. To umožní detailní konfiguraci pro různé prostředí. Spolu s řešením společnosti Symantec nabízí produkt ESET Mail Security velice jednoduchou a intuitivní konfiguraci, jedinou nevýhodou je nutná uživatelská konfigurace black listů, systém nenabízí žádné implicitní nastavení black listu. Učení antispamového filtru je možné jednoduchým nahráním databází zpráv do adresáře „anti-spam“. Kontrola emailových správ je prováděna na rozhraní MTA124 (Mail Transfer Agent) a MDA (Mail Delivery Agent), tedy démon v případě označení zprávy za spam nedovolí její stažení do poštovní schránky. Druhá kontrola je prováděna na zprávách, kterým již budou zobrazeny uživateli. ESET Mail Security kontroluje poštu stahovanou skrze protokoly POP3 a IMAP. Antispamová či antivirová kontrola může být jednoduše vypnuta, stejně tak povolení automatických aktualizací. Ty jsou případně prováděny ze serverů ESET, čímž společnost reaguje na nově se objevující hrozby.
124
Tedy poštovní úložiště na straně serveru starající se o komunikaci a výměnu zpráv s dalšími poštovními servery.
48 Společnost nabízí různé cenové hladiny produktu v závislosti na počtu získaných licencí a doby platnosti licence. Koupě produktu obsahuje po dobu platnosti licence možnost automatizací a servisní službu společnosti ESET. Koupě licence pro 162 poštovních schránek vyjde na 42 120 Kč na dva roky. Následné prodloužení o další dva roky by stálo 35 316 Kč.125
4.5.4 Spamassassin Pro ilustraci úspěšnosti filtrování spamu u jednotlivých antispamových řešení jsme se rozhodli měřit i jeden z nejrozšířenějších nástrojů, kterým je Spamassassin. Je možné ho uplatnit i ve firemní infrastruktuře, neboť společnost Orlík kompresory využívá poštovní server Postfix, který je Spamassasinem podporován, viz [18]. Nevýhodou je poměrně složitá konfigurace a vyladění nástroje, chceme-li dosahovat zajímavých výsledků filtrace na úrovni poštovního serveru. Spamassassin využívá sadu filtračních technik. Prohledává hlavičky i těla e-mailů, využívá sady pravidel, zvládá Bayesovu klasifikaci a využívá kontrolní součty. Stejně tak může administrátor nastavit DNS blacklisty a whitelisty, které budou při filtraci využívány. Nechybí ani zastoupení regulárních výrazů, spamassassin využívá většinu námi popsaných metod boje proti spamu. Hlavní míru samotného filtrování však hraje Bayesova analýza beroucí v potaz například to, že mail obsahuje pouze obrázek. E-mailům jsou přiřazovány či odebírány body, dle výsledků dosažených analýzou. Počáteční počet bodů, stejně tak vliv jednotlivých fází analýzy na celkové bodové ohodnocení lze nastavit. Tyto pravidla zacházení s body pro vyhodnocení zprávy se navíc mění v jednotlivých verzích Spamassassinu. Funkce démonu spamd je obdobná se systémem ESET Mail Security, • • • postup analýzy je vidět na diagramu (viz Obrázek č. 21). •
•
•
•
•
•
ad spamassassin diagram (Marek Stelcik)
•
•
•
•
spamd daemon 1
•
Incoming e-mail MTA
Procmail
spamc & spamd
•
•
•
•
•
•
•
•
•
•
• spamd daemon 2
configuration, starting tests
• •
spamd daemon n
• results, (heuristic learning)
• •
deliv er e-mail no
•
•
is e-mail spam?
•
yes
•
•
•
•
•
spam announcment
•
•Obrázek č. 21 Činnost programu spamassassin • a rozčlenění práce démonem spamd, viz [6] • •
•
•
125
• • Praha (Bc. Igor Hák) zaměřeným na antispamové • Konzultováno s pracovníkem společnosti ESET s.r.o. a antivirové systémy. •
•
•
•
•
•
•
•
•
•
•
•
49 Program Procmail posílá došlé zprávy od MTA do programu spamassassin pro analýzu zprávy. Démon spamd a spamc běží na pozadí systému a naslouchají na určité IP adrese (např. lokálně 127.0.0.1) a TCP portu 783. Spamc zasílá démonu spamd přijaté zprávy, který následně zajišťuje jejich kontrolu. Nevýhodou by bylo, pokud bychom přebírali poštu z jiného serveru, přímo do našeho e-mailového klienta. V takovém případě nám Spamassassin nebude příliš platný, neboť metoda je až na konci filtrovacího procesu. Nedostatek však lze obejít přijímáním pošty (fetchmail) jako nové zprávy do příchozí složky nových e-mailů. O filtraci pro všechny uživatele se stará démon spamd. Toto filtrování je opět automatické a stejně jako ostatní prvky filtru je možné vypnout. Jako velkou výhodu jsem shledal to, že je možné určitým skupinám uživatelům téměř všechny funkce implicitně zapnout a pokud je využívat nechtějí, tak si je musí sami vypnout (či v případě administrátora je nechat pro uživatele trvale zapnuté) a na druhé straně jiné skupině uživatelů nastavit stejné funkce jako implicitně vypnuté. Při instalaci filtru se automaticky objeví v hlavičce e-mailu nová položka X-Spam-Status:, ta může nabývat dvou parametrů „yes“ či „no.“ To vypovídá, zda byl e-mail shledán jako spam, či nikoliv. Stejně jako u ostatních nástrojů není doporučováno automaticky mazat e-maily, které filtr shledá jako spam. Mnohem vhodnější je přesouvat tyto spamy do samostatné složky, neboť v případě špatné kvalifikace e-mailu je stále možnost si přijatou zprávu označenou jako spam přečíst a naučit klasifikátor, aby v budoucnu tyto zprávy přijímal. V případě nalezené nových druhů spamu je možnost je zaslat do centrální databáze pro následné přizpůsobení filtru. Spamassassin byl naprogramován v jazyce Perl, což s sebou přináší dlouhou dobu prováděné práce v porovnání s jinými metodami. Detailní návod konfigurace a instalace je uveden jako příloha Bakalářské práce.
4.5.5 Bogofilter Bogofilter je filtrovací prostředek představující alternativu Spamassasinu, viz [17]. Je napsaný v jazyce C a využívá Bayesův klasifikátor. Jedná se o open source statickou metodu analýzy dokumentů, tedy přesněji jednotlivých slov obsažených v dokumentu (e-mailu). Softwarový filtr Bogofilter využívá pro analýzu i hlavičky zprávy, nezaměřuje se tedy pouze na titulek a tělo e-mailu. Jednat by se mělo o velice rychlý nástroj dosahující vysoké úspěšnosti detekce spamu. Slova jsou se svými pravděpodobnostmi uložena v databázi, což se využívá k průběžnému učení. Naopak pro rozhodování o tom, jak bude naloženo s e-mailem, jsou brány v potaz pouze nejčastěji vyskytující se slova. Lokální databáze uživatele byla od samého počátku právě jednou z největších výhod tohoto filtru v porovnání s ostatními metodami. Dnes již většina antispamových metod dává uživateli možnost interakce s filtrem a přizpůsobení analýzy konkrétní situaci u uživatele. Princip je tedy totožný námi popsané Bayesově analýze (viz Bayesův filtr). Vyžadováno bude prvotní učení pro nastavení filtru. Pro rozumné naučení bude potřeba minimálně 100 zpráv hamu a 100 zpráv spamu. Bogofilter nabízí taktéž rekvalifikaci špatného vyhodnocení. Bogofilter má nabízet úspěšnost filtrování až 99 %, evidentní spamové e-maily rovnou zahazuje. Ty nejisté dává do složky možného spamu, tedy uživatel není obtěžován tolik jako při příjmu spamů mezi ham do jednotného adresáře. Třídění e-mailů v dané složce přijatých možných spamů může provést jednou za čas hromadně, což zvyšuje efektivitu práce s e-maily a šetří čas, viz [17].
50 Vzhledem k velké podobnosti filtrů Bogofilter a Spamassassin se přímo nabízí otázka porovnání. Dle provedených testů se potvrzuje předpoklad rychlosti, neboť Bogofilter je jednoúčelový nástroj napsaný v programovacím jazyce C a oproti Spamassassinu je podstatně rychlejší, což ostatně ukazují i provedené testy (viz Výsledky měření). Spamassassin je na druhé straně pomalý nástroj, ale zvládá podstatně více testů a při vhodné konfiguraci jsou lepší předpoklady na úspěšnější filtrování pošty. To může být zároveň i další nevýhoda Spamassassinu, neboť další testy mohou znehodnotit výsledky Bayesovy analýzy. Jen na Bayesovu analýzu však není vhodné se spoléhat, neboť spaměři jsou s principy Bayesovy analýzy seznámeni v mnohem větší míře, než běžní uživatelé. Z těchto důvodů se při srovnání metod Spamassassin a Bogofilter přikláním k antispamovému filtru Spamassassin, který je zárukou větší spolehlivosti, avšak za cenu pomalejší analýzy. Spamassassin je navíc dobře škálovatelný nástroj použitelný kromě strany serveru i u klienta. Ve společnosti Orlík kompresory však není rychlost vzhledem k hardwarovému vybavení limitujícím faktorem.
4.5.6 iHateSpam Server Edition Serverový antispam společnosti Sunbelt Software.126 Využívá sémantické filtrování, pravidla a černé a bílé seznamy. Umístěný je v poštovní bráně. Základní varianta umožní chránit 25 poštovních schránek, v případě implementace je možné koupit příslušný počet podporovaných a chráněných e-mailových schránek. Umožňuje pohodlné nastavení pravidel, která se uplatňují na veškeré e-mailové schránky či na jednotlivě definované skupiny. Zprávám je přiřazována pravděpodobnost, že se jedná o spam. V případě vysoké pravděpodobnosti je zpráva zahozena, určité rozmezí je přesouváno do definované složky, kde uživatel sám posoudí, zda se jedná o spam či ham. Podpora grafického hlášení průběhu filtrování a statistiky. Testována verze iHateSpam Server Edition 1.1.87 přímo vyhovujícím potřebám a serverům společnosti Orlík kompresory (tj. antispamový systém pro Windows 2000 Server). Pořizovací cena činí 43 000127 pro 162 poštovních schránek, viz [90].
4.6 Výsledky měření Testy jsem prováděl na vlastním notebooku s následující konfigurací:
Notebook výrobce
ASUS
CPU frekvence CPU
Pentium M 1,7 GHz
operační paměť
512 MB
Internetové připojení
Ethernet 4 Mbps
Tabulka č. 5 Konfigurace počítače, na kterém byly prováděny testy
126 127
O společnosti na stránkách www.sunbelt-software.com. Přepočítáváno kurzem 1 USD = 17 Kč.
51 K disposici mi byla pro testovací nekomerční účely poskytnuta databáze 25 000 emailů, z čehož byly vybírány vzorky pro testování jednotlivých filtrů. Tu mimo jiné tvořil spam a doplněn byl především ham ze společnosti Orlík kompresory, což bude ve finální implementaci důležité pro naučení filtru na dané podmínky podniku. I bez důkladného naučení však předpokládáme u celistvých antispamových systémů vysokou účinnost filtrování nevyžádané pošty. Z množiny e-mailů budou náhodně vybírány přibližně stejné počty různých emailů a lokálně posílány antispamovému filtru. Případné false negative a false positive budou filtru obratem zaslány znovu pro rekvalifikaci v databázi pravidel. Speciálně u varianty Spamassassin si provedeme test se zapnutou Bayesovou klasifikací a následně s vypnutou, dle předpokladů by se měla úspěšnost filtrování výrazně lišit.
Symantec BrightMail Antispam 6.0 iterace č. 1 2 3 počet e-mailů 15753 15851 15834 počet spamu 10212 9885 9852 počet hamu 5541 5966 5982 Positive 10114 9826 9821 Negative 5509 5945 5968 false positive 32 21 14 false negative 98 59 31 úspěšnost 99,17% 99,50% 99,72% čas [min:sec] 11:50 9:50 9:05 Tabulka č. 6 Výsledky měření Symantec BrightMail Antispam 6.0
Symantec Mail Secirity 8240 iterace č. 1 2 3 počet e-mailů 15829 15813 15211 počet spamu 9957 9944 9161 počet hamu 5872 5869 6050 Positive 9921 9928 9148 Negative 5850 5857 6044 false positive 22 12 6 false negative 36 16 13 úspěšnost 99,63% 99,82% 99,88% čas [min:sec] 9:40 9:30 9:30 Tabulka č. 7 Výsledky měření Symantec Mail Secirity 8240
52 ESET Mail Security iterace č. 1 2 3 počet e-mailů 15923 15708 15103 počet spamu 10280 9915 10001 počet hamu 5643 5793 5102 Positive 9913 9818 9956 Negative 5598 5755 5073 false positive 45 38 29 false negative 367 97 45 úspěšnost 97,41% 99,14% 99,51% čas [min:sec] 14:00 13:50 13:30 Tabulka č. 8 Výsledky měření ESET Mail Security
Bogofilter iterace č. 1 2 3 počet e-mailů 15837 16195 15225 počet spamu 9967 10151 9506 počet hamu 5870 6044 5719 positive 7877 8862 9308 negative 5724 6016 5713 false positive 146 28 6 false negative 2090 1289 198 úspěšnost 85,88% 91,87% 98,66% čas [min:sec] 12:35 10:15 6:20 Tabulka č. 9 Výsledky měření Bogofilteru
iHATESpam iterace č. 1 2 3 počet e-mailů 16952 16433 16977 počet spamu 10974 10595 11165 počet hamu 5978 5838 5812 Positive 9013 8974 9789 Negative 5880 5789 5786 false positive 98 49 26 false negative 1961 1621 1376 úspěšnost 87,85% 89,84% 91,74% čas [min:sec] 15:05 15:35 14:50 Tabulka č. 10 Výsledky měření iHateSpam Server Edition
53 Zapnutý Bayes Spamassassin počet e-mailů 18204 počet spamu 12266 počet hamu 5938 positive 8979 negative 5937 false positive 1 false negative 3287 úspěšnost 81,94% čas [min:sec] 50:55 Tabulka č. 11 Výsledky měření Spamassassin s Bayesovou klasifikací
Vypnutý Bayes Spamassassin počet e-mailů 15776 počet spamu 9958 počet hamu 5818 positive 3503 negative 5814 false positive 4 false negative 6455 úspěšnost 59,06% čas [min:sec] 35:25 Tabulka č. 12 Výsledky měření Spamassassin bez Bayesovy klasifikace
Výsledky jednotlivých měření odpovídají prvotním předpokladům. Potvrdila se časová náročnost filtrování u Spamassassinu a taktéž bylo dosaženo rozdílu v řádu desítek procent mezi zapnutou a vypnutou Bayesovou klasifikací. Nejkratší doby filtrování dosáhl dle očekávání rychlý Bogofilter. Nejvyšší úspěšnost filtrování zaznamenaly filtry společnosti Symantec a ESET. Na druhé straně i neaktualizovaný iHATESpam Server Edition byl úspěšný. Především filtry iHATESpam a Bogofilter jsou ukázkou učení filtru, kdy se zvyšuje úspěšnost filtrování v závislosti na rekvalifikaci. Nejvyšší výhoda Spamassassinu (se zapnutou i vypnutou Bayesovou klasifikací) je eliminace false positive, tedy možnosti záměny vyžádané pošty za spam, což je nejhorší případ chybné klasifikace. Obecně metody dosahující úspěšnosti na hranici 90 % lze považovat za více než dostačující. Výsledky potvrdily předpoklad pro doporučení řešení od společnosti Symantec. Vysoké úspěšnosti bylo dosaženo i u řešení ESET Mail Security a iHATESpam Server Edition. Důvodů, proč zvolit a doporučit jedno ze dvou řešení společnosti Symantec, je několik. Podstatný vliv má fakt, že společnost Orlík kompresory již využívá služby této společnosti v podobě antivirové ochrany (Symantec Client security corporate edition). Zde řešení plní svou funkci spolehlivě, a proto se dá očekávat, že i přímo ve společnosti Orlík kompresory bude dosahováno antispamovým řešením společnosti Symantec dobrých výsledků. Dalším důvodem je zajištění konzistence systémů. Nedoporučuje se kombinovat více podobných řešení různých dodavatelů (např. antivirových systémů). Zde se jedná o kombinace dvou produktů zamezující průniku malware do počítačové infrastruktury, tudíž riziko možné nekonzistentní spolupráce vzniká. Antispamové řešení Symantec Brightmail 6.0 a Symantec Mail Security 8240 přímo podporují kombinaci
54 s antivirovým systémem Symantec Client security corporate edition, dokonce jsou společností dodávány cenově zvýhodněné balíčky kombinací daných dvou produktů pro zajištění počítačové infrastruktury a integrity dat. Podmínku vysoké úspěšnosti filtrace splňují obě zvažovaná řešení. V poměrech společnosti a zdejšího objemu e-mailové komunikace by měly obě řešení splňovat svou funkci dostatečně. Stoprocentní úspěšnosti není možné dosáhnout, ale měl by být eliminován obtěžující charakter spamu a tím pádem výrazně snížena doba jeho třídění. Podmínku neustálého vývoje a údržby hledaného řešení splňují oba systémy. Testované produkty společností Symantec a ESET navíc nabízí i technickou podporu 24 hodin denně, 7 dní v týdnu (označováno 24/7). Antispamové systémy Symantec a ESET dosáhly i vysoké přesnosti, co se týká false positive klasifikace. Nízká míra dané chyby je pro firemní podmínky zcela klíčová, dokonce důležitější než samotná úspěšnost či účinnost filtrování. Snížena je tak míra blokování legitimních zpráv a tedy i obchodních ztrát kvůli výpadku v doručování. Odpadá taktéž otázka učení heuristiky, která je nutná u bezplatných antispamů pro dosažení filtrační úspěšnosti hranice alespoň 50 % a výše. Možnosti dalšího bezproblémového rozšiřování počítačové sítě a růstu počtu e-mailových schránek jsou zachovány a podporovány u všech zvažovaných řešení. Vzhledem k vysoké podobnosti v použitém filtrovacím modelu a úspěšnosti filtrování u testovaných produktů společnosti Symantec je volba jednoho konkrétního řešení obtížná. Spíše se jedná o otázku priorit a preferencí hardwarového či softwarového produktu. Pro společnost Orlík kompresory doporučuji hardwarový produkt Symantec Mail Security 8240, neboť není nutná instalace a jedná se o produkt přímo zapojitelný do počítačové sítě. Symantec Mail Security 8240 navíc nabízí po připojení do sítě automatickou konfiguraci, není potřeba mít počítačového administrátora, který by obsluhoval daný softwarový systém. Údržba formou aktualizací spamových databází je řízena centrálně ze strany společnosti Symantec. Výhodou hardwarového produktu je taktéž filtrace na úrovni síťového rozhraní. První část e-mailů, které neprojdou prvotní kontrolou, tak není stahována do poštovního serveru. To přispívá k šetření komunikačních kapacit. Cenový rozdíl u středně velkého podniku by neměl hrát výraznější roli, navíc je nabízena jednodušší údržba a správa. Daný fakt vyváží cenový rozdíl verzí Symantec Mail Security 8240 a Symantec Brightmail 6.0. Po zvážení výše uvedených faktů a výsledků analýzy společnosti Orlík kompresory jsem shledal za nejvhodnější antispamové řešení pro tuto společnost produkt Symantec Mail Security 8240.
55
5 Závěr V předkládané bakalářské práci se snažím o analýzu fenoménu spamu. Zaměřuji se na obecné (vývojové, společenské, ekonomické a legislativní) a zejména technické vymezení pojmu spam. Poukazuji na dopad činnosti se spamem spojené, a to nejen na technické prostředky firemní infrastruktury u společnosti Orlík kompresory, ale také na dopad ekonomický a společenský. Pojednávám o možnostech přímého ohrožení firemní počítačové infrastruktury spojené se ztrátou či krádeží dat a v krajních případech i poškození této infrastruktury. Práce se pokouší vytvořit detailnější pohled na jednotlivé modely ochrany před spamem a především jejich začlenění do konkrétních technických sofistikovaných řešení. Stručně shrnuji technickou evoluci spamu a současné kroky z pohledu legislativy. Popisuji strukturu spamu a vytvářím přehled jeho typů, snažím se doložit souvislosti a postupný vývoj jednotlivých metod. Pro detailnější uvedení do problematiky a pochopení problému popisuji technické prostředky využívané spamery pro rozesílání spamu. Zaměřuji se nejen na metody zamezující samotnému šíření spamu, ale poukazuji i na postupy umožňující detekci nevyžádané pošty. Vysvětluji nutnost kombinovat a ve správném pořadí skládat jednotlivé metody v konečná sofistikovanější a důmyslnější hardwarová i softwarová řešení zamezující šíření spamu. Mnoho administrátorů věří, že mají infrastrukturu dobře zabezpečenou a že spam nepředstavuje větší hrozbu, než obtěžování uživatelů. Tento omyl se snažím ve své práci vyvrátit. Provádím analýzu společnosti Orlík kompresory z pohledu spamu a míry ohrožení počítačové infrastruktury a jejích uživatelů. Poukazuji na nedostatečné zabezpečení a možnosti zlepšení. Nabízím rešerši dostupných antispamových řešení pro středně velké společnosti vyhovujícím analýze a podmínkám stanovených společností. Řešení následně testuji v praxi. Z výsledků vyplývá, že není dostupný žádný stoprocentně přesný nástroj zamezující šíření spamu. Na druhé straně kvalitnější nástroje poskytují dostatečnou ochranu a naprostou většinu spamu odhalí a zabrání mu zahlcení poštovních schránek uživatelů. Snižuje se možné ohrožení počítačové sítě nevhodným zacházením se spamem a zvyšuje se efektivita práce uživatelů ušetřením času nutného pro třídění emailů. Osobně považuji dosažení stoprocentní úspěšnosti filtrace spamu v následujících několika letech za nereálné. Pokud existuje poptávka po nabízeném zboží, bude pokračovat vývoj spamu. Spameři neustále vyvíjí a budou vyvíjet nové metody, jak obejít filtry. Útoky koordinují využíváním informací o aktuálních událostech a akcích. To vše v očích uživatelů zvyšuje legitimitu nesené zprávy. Útoky jsou spamery navrhovány s cílem zvyšovat účinnost při průchodu antispamovými filtry. Využívají důvěru uživatelů a zájem široké veřejnosti (či užší skupiny uživatelů) o sport, politiku, aktuální dění či např. přírodní katastrofy. Antispamové společnosti na druhé straně reagují na nově se objevující spam a aktualizují či vyvíjí zcela nové nástroje. Proto je nutné, aby společnosti investovaly a implementovaly ty nejmodernější systémy zamezující šíření spamu a poskytující ochranu před malwarem. Jedině tak mohou podstatně zvýšit bezpečí počítačové sítě a možnost zachování integrity firemních dat. V práci proto kromě finálně zvoleného a doporučeného nástroje pro implementaci ve společnosti Orlík kompresory navrhuji taktéž určité prvky prevence. Z práce vyplývá nutnost pokračujícího a především stále se vyvíjejícího boje proti spamu. Poukazuji na fakt, že kroky vyvinuté zákonodárci, situaci nevyřešily a naopak v legislativě stanovily prostor pro legální spam.
56 Zajímavou možnost pro rozšiřování práce vidím v detailní analýze jediného konkrétního hardwarového či softwarového řešení, v bližším seznámení s vnitřními mechanismy a v následném návrhu vylepšení. Aktuálnost a naléhavost problematiky umožňuje konzultace práce s předními společnostmi zabývajícími se antispamovými filtry a využití jejich ochoty při komentování těchto návrhů. Především proto je pro mě toto téma i pro budoucí práci zajímavé. Druhou možnost, jak by se dalo v práci pokračovat, je detailní ekonomický rozbor dopadu jednotlivých druhů spamu na společnost.
57
6 Zdroje 6.1 Literatura HAZEL, Philip. Exim SMTP Mail Server Official Guide for Release 4. [s.l.] : Cambridge UP, 2003. 620 s. ISBN 0954452909. [2] POLČÁK, Radim. Právo na internetu : spam a odpovědnost ISP. [s.l.] : Computer Press, a.s., 2007. 160 s. ISBN 978-80-251-1777-4. [3] PETRO, Jozef. Výkladový slovník Internetu. [s.l.] : [s.n.], 2005. 160 s. ISBN 80722-6222-X. [4] GYÖNGYI, Zoltán , GARCIA-MOLINA, Hector. Spam: It's Not Just for Inboxes Anymore. Computer. 2005, no. 38, s. 28-34. [5] VELEBIL, Jiří. Diskrétní matematika. [s.l.] : [s.n.], 2007. 197 s. Dostupný z WWW: . [6] WOLFE, Paul, SCOTT, Charlie, ERWIN, Mike. Antispam : Metody, nástroje a utility před spamem. Ivo Fořt. 1. vyd. [s.l.] : Computer Press, 2004. 375 s. ISBN 80-251-0479-6. [7] SCHWARTZ, Alan, GARFINKEL, Simson. Stopping Spam. [s.l.] : O\'Reilly, 1998. 191 s. ISBN 56592388X. [8] SJOUWERMAN, Stu, POSLUNS, Jeffrey, SPAMMER-X, . Inside the SPAM Cartel : Trade Secrets from the Dark Side. [s.l.] : [s.n.], 2004. 415 s. ISBN 1931836051. [9] MULLIGAN, Geoff. Removing the Spam : Email Processing and Filtering. [s.l.] : Addison-Wesley, 1999. 190 s. ISBN 0201379570. [10] LOHNISKÝ, Jakub, KOCMAN, Rostislav. Jak se bránit virům, spamu a spyware. [s.l.] : [s.n.], 2005. 152 s. ISBN 80-251-0793-0. [11] PRESS, William, FLANNERY, Brian, TEUKOLSKY, Saul, and Vetterling, William. Numerical Recipes in FORTRAN: The Art of Scientific Computing, 2nd ed. Cambridge, England: Cambridge University Press, p. 810, 1992. [12] DOSTÁLEK, Libor, et al. Velký průvodce protokoly TCP/IP: Bezpečnost. 2. aktualiz. vyd. [s.l.] : [s.n.], 2003. 592 s. ISBN 80-7226-849-X. [1]
6.2 RFC dokumenty [13] Network Working
Group. Request for Comments: 2821 : Simple Mail Transfer Protocol [online]. 2001 [cit. 2007-12-12]. Dostupný z WWW: . [14] Network Working Group. Request for Comments: 3174 : US Secure Hash Algorithm 1 (SHA1) [online]. 2001 [cit. 2007-12-27]. Dostupný z WWW: . [15] Network Working Group. Request for Comments: 4408 : Sender Policy Framework (SPF) for Authorizing Use of Domains in E-Mail, Version 1 [online]. 2006 [cit. 2007-11-13]. Dostupný z WWW: .
58
6.3 Publikace na internetu [16] The Economic Times.
Giant stock scam hits PCs [online]. 2007 [cit. 2008-01-30].
Dostupný z WWW: . [17] CHALUPA, Pavel. Jak funguje antispam Bogofilter. ROOT.cz [online]. 2006 [cit. 2008-03-31]. Dostupný z WWW: . [18] Apache. The Apache SpamAssassin Project [online]. [2008] [cit. 2008-03-28]. Dostupný z WWW: . [19] Symantec. Symantec Email Security [online]. [2004] [cit. 2008-03-14]. Dostupný z WWW: . [20] DEVIANE, Max. Traffic shaping : patchování a instalace [online]. 2006 [cit. 2008-03-15]. Dostupný z WWW: . [21] ESET s.r.o.. ESET Mail Security [online]. ESET s.r.o., 2007 [cit. 2008-03-28]. Anglický. Dostupný z WWW: . [22] Wikipedie : Otevřená encyklopedie [online]. 30.11.2004 , 28. 11. 2007 [cit. 200712-16]. Dostupný z WWW: . [23] Sophos Labs. Mass pump-and-dump scam causes spam level surge [online]. 2006 [cit. 2008-02-09]. Dostupný z WWW: . [24] Přístup k právu Evropské unie : Směrnice Evropského parlamentu a Rady 2002/58/ES [online]. 2002 [cit. 2008-01-06]. Dostupný z WWW: . [25] Úřad pro ochranu osobních údajů : Zákon č. 480/2004 Sb., o některých službách informační společnosti [online]. [2004] [cit. 2008-01-20]. Dostupný z WWW: . [26] Marketingvox : Enterprise Spam at 90% of E-mail Volume, Attachment-based Spam Up [online]. 2007 [cit. 2007-01-11]. Dostupný z WWW: . [27] ŠTELČÍK, Marek. Svět Hardware : Spam na internetu dosáhl 89 procent [online]. 2008 [cit. 2008-01-11]. Český. Dostupný z WWW: . ŠTELČÍK, Marek. The Evolution of Spam presented within a framework of 12th International Student Conference on Electrical Engineering – POSTER 2008, poster number IC13 [28] Bbc. What is MP3? [online]. [1997] [cit. 2007-10-24]. Dostupný z WWW: . [29] Bratko, B. Filipic, G. Cormack, T. Lynam, and B. Zupan. Spam filtering using statistical
data compression models. Journal of Machine Learning Research, 7:2673–2698, 2006. [30] LUNDGREN,
Bjarne . Greylisting [online]. 2004 , 27.12.2007 [cit. 2008-02-04]. Dostupný z WWW: . [31] HARRIS, Evan. Greylisting : The Next Step in the Spam Control War [online]. 2003 [cit. 2008-02-04]. Dostupný z WWW: .
59 [32] Graham,
Paul. Stopping Spam. Dostupný z WWW: . [33] GRAHAM, Paul. Filters That Fight Back [online]. 2003 [cit. 2008-02-05]. Dostupný z WWW: . [34] DREYFUS, Emmanuel. Mail-Filtering Techniques [online]. 2004 [cit. 2008-0205]. Dostupný z WWW: . [35] KERMADEC. The Fight Against Spam, Part 1 [online]. 2004 [cit. 2008-02-06]. Dostupný z WWW: . [36] Green Card [online]. 2007 , 2.12.2007 [cit. 2008-03-09]. Dostupný z WWW: . [37] Wikipedia : Spam (electronic) [online]. 2001 , 28.2.2008 [cit. 2008-02-18]. Dostupný z WWW: . [38] Dave Rhodes chain letter [online]. 2001 [cit. 2008-01-12]. Dostupný z WWW: . [39] Computerworld : Úvod, aneb Co je VoIP, aneb Voice-over-IP? [online]. 2006 [cit. 2008-02-10]. Dostupný z WWW: . [40] Commtouch : Spam Lab Online Statistics [online]. 1991 , 24.1.2008 [cit. 2008-0124]. Dostupný z WWW: . [41] Gauzy. Spam na českém internetu dosáhl 89 procent [online]. 2008 [cit. 2008-0110]. Dostupný z WWW: . [42] BÄCHER, Paul, et al. Know your Enemy: Tracking Botnets : Using honeynets to learn more about Bots [online]. 2005 [cit. 2008-03-30]. Dostupný z WWW: . [43] KOLAJA, Marcel. Jemný úvod do (anti)spamové problematiky. Zpravodaj ÚVT [online]. 2002, č. 5, vol. 12 [cit. 2006-04-30]. Dostupný z WWW: http://dkf.ics.muni.cz/~xvalicek/casopis/ZpravodajUVT/viewarticle.php?id=266& layout=html [44] NDC. Co je to doména [online]. c1999 [cit. 2008-01-26]. Dostupný z WWW: . [45] W3C. Mission of the XHTML2 Working Group [online]. [2007] , 10.1.2008 [cit. 2008-01-21]. Dostupný z WWW: . [46] W3C. Cascading Style Sheets [online]. 1999 [cit. 2008-01-22]. Dostupný z WWW: . [47] KRYL, Milan. Spam – nevyžádaná pošta. kryl.info [online]. 30.06.2004 [cit. 2006-04-25]. Dostupný z WWW: http://kryl.info/spam.html [48] SATRAPA, Pavel. Greylisting: nová metoda boje proti spamu. Lupa.cz [online]. 23.04.2004 [cit. 2007-02-29]. Dostupný z WWW: http://www.lupa.cz/clanky/greylisting-nova-metoda-boje-proti-spamu/ [49] Computerworld. Optical Character Recognition [online]. 2002 [cit. 2008-01-24]. Dostupný z WWW: .
60 IRC [online]. 2004 [cit. 2008-04-12]. Dostupný z WWW: . [51] As image spam declines, PDF spam ready to take its place [online]. 2007 [cit. 2008-01-28]. Dostupný z WWW: . [52] Symantec. PC World : Next Menace: PDF Spam [online]. 2007 [cit. 2008-02-01]. Dostupný z WWW: . [53] Adobe. Adobe PDF IFilter v6.0 [online]. [2007] [cit. 2008-02-02]. Dostupný z WWW: . [54] TestCompany mail [online]. 2007 [cit. 2007-12-14]. Dostupný z WWW: . [55] ČVUT - Katedra kybernetiky. Rozpoznávání a strojové učení [online]. 2007 [cit. 2007-12-28]. Dostupný z WWW: . [56] I.T.Wales. The rise of PDF spam [online]. 2007 [cit. 2007-11-30]. Dostupný z WWW: . [57] ČVUT FEL K13132. Telefonní přístroje, modulační metody a telefonní modemy [online]. 2007 [cit. 2008-02-20]. Dostupný z WWW: . [58] KUBÍN, Josef. Elektronická pošta - SMTP [online]. 2005 [cit. 2008-02-27]. Dostupný z WWW: . [59] Adobe Systems Incorporated. PDF Reference : Adobe Portable Document Format [online]. verze 1.6. 2001 [cit. 2008-04-19]. Dostupný z WWW: . [60] Spamhaus [online]. c1998 [cit. 2008-01-21]. Dostupný z WWW: http://www.spamhaus.org/statistics/networks.lasso [61] CHVOJKA, Jan. ITBIZ : Ochrana proti podvodným e-mailům stojí banky miliony [online]. 25. září 2007 [cit. 2008-01-23]. Dostupný z WWW: . [62] Internet Security Trends [online]. 2007 [cit. 2008-02-24]. Dostupný z WWW: . [63] As image spam declines, PDF spam ready to take its place [online]. 2007 [cit. 2008-01-28]. Dostupný z WWW: http://www.networkworld.com/news/2007/071107-pdf-spam.html?page= [64] Data získaná z ankety, dostupné jako příloha BP [65] ACCETTURA, Robert. Bayesian Spam Filter Poisoning [online]. 2007 [cit. 200802-12]. Dostupný z WWW: http://robert.accettura.com/archives/2007/01/29/bayesian-spam-filter-poisoningwith-rss/ [66] Barracuda Central. Worldwide Threat Activity [online]. 2008 [cit. 2008-02-11]. Dostupný z WWW: . [67] Anti-spam techniques (e-mail) [online]. [2008] [cit. 2008-05-18]. Dostupný z WWW: . [68] DOČEKAL, Daniel. SPAM : Metody vždy o krok napřed [online]. 2008 [cit. 200805-08]. Dostupný z WWW: . [69] Mailing List [online]. 2007 [cit. 2008-04-13]. Dostupný z WWW: . [50] Surminet.
61 Spam-Glossar [online]. [2008] [cit. 2008-01-12]. Dostupný z WWW: . [71] IBM. Spam filtering techniques [online]. 2002 [cit. 2008-04-28]. Dostupný z WWW: . [72] Checksum-based filtering [online]. 2007 [cit. 2008-04-13]. Dostupný z WWW: . [73] Kryptologie pro praxi – hašovací funkce jako PRNG [online]. 2007 [cit. 2008-0120]. Dostupný z WWW: . [74] HULTEN, Geoff, GOODMAN, Joshua. Tutorial on Junk Mail Filtering [online]. 2003 [cit. 2008-05-01]. Dostupný z WWW: . [75] Bayesovo filtrování: Proč je Bayesovo filtrování nejefektivnější antispamovou metodou [online]. 2006 [cit. 2008-03-04]. Dostupný z WWW: . [76] WITTEL, Greg. On Attacking Statistical Spam [online]. 2004 [cit. 2007-12-25]. Dostupný z WWW: . [77] Blacklists/Blocklists [online]. 2008 [cit. 2008-04-11]. Dostupný z WWW: . [78] DomainKey Implementor\'s Tools and Library for email servers & clients [online]. 2007 [cit. 2008-03-25]. Dostupný z WWW: . [79] L-Soft international. Using LISTSERV with DomainKeys [online]. 2006 [cit. 200802-20]. Dostupný z WWW: . [80] KRYL, Milan. DomainKeys již i v Gmailu [online]. 2004 [cit. 2008-02-20]. Dostupný z WWW: . [81] KÁRA, Michal. SPF a Sender-ID [online]. 2004 [cit. 2008-04-17]. Dostupný z WWW: . [82] SPF : Qualifiers [online]. 2004 [cit. 2008-04-17]. Dostupný z WWW: . [83] Microsoft. Caller ID for E-Mail Technical Specification : The Next Step to Deterring Spam [online]. 2004 [cit. 2008-04-18]. Dostupný z WWW: . [84] Microsoft. Sender ID [online]. 2006 , April 29, 2008 [cit. 2008-05-01]. Dostupný z WWW: . [85] BACK, Adam – osobní stránky Dostupný z WWW: . [86] FARBER, Dan. EFF’s sender pay email debate ends in draw [online]. 2006 [cit. 2008-04-21]. Dostupný z WWW: . [87] Introducing Symantec Email : Security and Availability [online]. 2006 [cit. 200804-23]. Dostupný z WWW: . [88] How to avoid spam [online]. [2007] [cit. 2008-04-01]. Dostupný z WWW: . [70] Sophos.
62 [89] JavaScript
e-mail to avoid spam Dostupný z WWW: http://snippets.dzone.com/posts/show/2720 [90] Sunbelt Software. IHateSpam Server Edition : User Guide [online]. 2002 [cit. 2008-03-11]. Anglický. Dostupný z WWW: .
63
7 Přílohy A Obsah přiloženého CD Info.txt – Informace o bakalářské práci a obsahu CD. /text Textová část bakalářské práce včetně příloh. Bakalářská práce přiložena ve formátech .DOC a .PDF. /install Install.txt – popis instalace. /install/antispam Jednotlivé antispamové produkty a jejich instalační balíčky Mail-SpamAssassin-2.61.tar bogofilter-1.1.7.tar Symantec_Brightmail_AntiSpam_6.0.5_Windows_English.zip + 9442693.slf /results Výsledky měření. Výsledky analýzy (ankety).
64
65
B Seznam použitých zkratek CSS DNS DNSBL EPD EU FDF FFB HTML IM IMAP IP IRC IT MDA MTA MX NAT OCR PDF POP3 RBL RFC RSA SHA1 SMTP SPF TXT UBE UCE ÚOOÚ VoIP WWW DOS XML
Cascading Style Sheets Domain Name System Domain Name System Blacklist European Property Development Europan Union (Evropská Unie) Forms Data Format Filters that Fight Back HyperText Markup Language Instant messaging Internet Message Access Protocol Internet Protocol Internet Relay Chat Information Technology Mail Delivery Agent Mail Transfer Agent Mail exchanger record Network address translation Optical Character Recognition Portable Data Format Post Office Protocol verze 3 Real-time Blackhole List Request for comments Zkratka prvních písmen tvůrců systému Rivest, Shamir a Adelmann Secure Hash Algoritm Simple Mail Transfer Protocol Sender Policy Framework Text Record Unsolicited Bulk E-mail Unsolicited Commercial E-mail Úřad pro ochranu osobních údajů Voice over Internet Protocol World Wide Web Denial of Service Extensible Markup Language