MASARYKOVA UNIVERZITA V BRNĚ FAKULTA INFORMATIKY
•P
Moderní techniky v boji proti spamu DIPLOMOVÁ PRÁCE
Martin Procházka
Brno, 2005
Prohlášení Prohlašuji, že tato diplomová práce je mým původním autorským dílem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.
11
Poděkování Děkuji Mgr. Martinu Povolnému za odborné vedení diplomové práce, za spoustu užitečných rad a připomínek a za velkou trpělivost, kterou se mnou měl při jejím vypracování. Poděkování patří také kolegům z Laboratoře zpracování přirozeného jazyka a mým spolupracovníkům za pochopení a technickou podporu a dále všem, kteří mi byli velkou oporou během tvorby této práce, zejména rodičům a Lence.
m
Shrnutí Tato diplomová práce popisuje problematiku nevyžádané pošty Zabývá se historií a příčinami jejího vzniku a dále se zaměřuje na osvědčené i moderní techniky rozpoznávání nevyžádané pošty a postupy, jak efektivně bránit jejímu šíření.
IV
Klíčová slova e-mail, nevyžádaná pošta, spam, filtrování, RBL, DomainKeys, SPF, bayesovská klasifikace, greylisting
Obsah 1 Úvod 2 Problematika spamu 2.1 UBE,UCE 2.2 Vymezení pojmu spam 2.3 Viry 2.4 Phishing 2.5 Historie 2.5.1 RFC 706 2.5.2 První spam 2.5.3 Green Card incident 2.5.4 Spam King 2.5.5 Původ pojmu „spam" 2.6 Negativní dopady spamu 2.7 Podmínky existence spamu 2.8 Techniky používané při rozesílání spamu 2.8.1 Odesílání 2.8.2 Databáze adres 2.8.3 Modifikace obsahu zpráv 3 Techniky pro rozpoznávání spamu 3.1 False positives, false negatives 3.2 Rozpoznávání podle odesílatele 3.2.1 Černé listiny RBL 3.2.2 Techniky umožňující ověření odesílatele DomainKeys SPF CallerID SenderID 3.2.3 Sociologický přístup 3.3 Rozpoznávání podle obsahu 3.3.1 Rozpoznávání na základě pravidel 3.3.2 Kontrolní součty
3 4 4 4 5 6 6 6 7 8 10 12 12 13 15 15 17 18 20 20 20 20 20 23 24 26 28 29 29 30 30 30 1
3.3.3
Statistické metody Bayesovská klasifikace Markovovy modely 4 Metody omezující šíření spamu 4.1 Greylisting 4.2 FFB 4.3 Pozdržení odesílatele 4.4 Placená elektronická pošta 4.5 Legislativa 4.5.1 Spojené státy americké 4.5.2 Česká republika 5 Závěr
31 31 34 35 35 36 37 37 38 38 39 40
2
Kapitola 1
Úvod V dnešní době se stále více dostává do popředí komunikace pomocí elek tronické pošty S trochou nadsázky je možné říci, že kdo nemá e-mail, ten jako by neexistoval. Současně s růstem objemu elektronické komunikace bohužel roste také množství nevyžádané pošty neboli spamu. Odhadování množství nevyžádané pošty, která se po Internetu pohy buje, je předmětem práce mnoha profesionálních týmů bezpečnostních od borníků. Nikomu se však na tuto otázku nedaří odpovědět přesně, jed notlivé společnosti používají odlišné metodiky a tak se různí i výsledné odhady. Nevyžádaná pošta je obecně problematicky vymezitelná a podoba spamu se liší podle prostředí, ve kterém se uživatel pohybuje. Aktivní fil try pro zachycování nechtěné korespondence fungují velmi často na bázi učení podle reakcí uživatele na konkrétní zprávy. V důsledku toho se pro tyto filtry odlišuje podoba spamu i mezi jejich jednotlivými instancemi. U mnoha reklamních zpráv jsme jednoznačně schopni poznat, zda se jedná o nevyžádanou poštou, ale u mnoha jiných je toto určení subjektivně pod míněno. Různé způsoby měření množství spamu jako jsou statistiky filtrů na e-mailových serverech, v klientských poštovních programech, popřípadě manuální reakce uživatelů mohou dávat odlišné výsledky. Jakýkoliv pokus o určení skutečného množství nevyžádané pošty na Internetu je vždy zatím jen odhadem. Stranou dohadů o číslech tvrdících, že sedmdesát až osmdesát procent celkového objemu elektronické pošty tvoří právě spam, je možné se shod nout na tom, že objem nevyžádané pošty každoročně stoupá, a to velmi strmě. Vzhledem k tomuto nepříjemnému trendu je nutné proti spamu dů razně bojovat. E-mailový server bez antispamové ochrany si lze dnes už jen těžko před stavit. Masové používání antispamových technik sice krátkodobě zvyšuje náklady na rozesílání spamu, ale jeho původci stále nacházejí nové mož nosti pro rozesílání spamů, které tyto techniky obcházejí. Z toho důvodu je nutné v boji proti spamu využívat stále sofistikovanější techniky a nástroje. Ve své práci se věnuji právě těmto moderním technikám. 3
Kapitola 2
Problematika spamu 2.1
UBE, UCE
UBE je zkratka pro anglický výraz Unsolicited Bulk Email, volně přeloženo nevyžádaný e-mail posílaný ve velkém množství, tedy e-mailová zpráva, která 1.
nebyla příjemcem explicitně vyžádána,
2.
byla masově rozeslána na velké množství různých adres.
UCE (Unsolicited Commercial Email) je nevyžádaný komerční e-mail, tedy zpráva, o kterou opět nebylo výslovně požádáno a která byla rozeslána za účelem reklamy na nějaký produkt nebo službu. UCE sama o sobě nemusí být nebezpečná, pokud není rozesílána hro madně — tedy jako UBE. Faktem však je, že téměř každá UCE je poslána jako UBE. Obrácený vztah již není tak zřejmý — kromě zpráv komerčního charakteru se můžeme setkat s velkým množstvím UBE zpráv s politickým, náboženským či pornografickým obsahem. Oba dva tyto typy nevyžádané pošty jsou zneužitím e-mailového sys tému jako celku. Liší se od jednorázových zneužití e-mailu (například sle dování nebo odposlech) a ohrožují funkčnost elektronické pošty jako ko munikačního média. 2.2
Vymezení pojmu spam
Neformálně je možné říci, že termín spam označuje zneužití digitální komu nikace, kdy je na obrovské množství adres rozeslána stejná příjemcem ne vyžádaná zpráva. Tyto zprávy mají většinou charakter reklamy, ve které se rozesílatel snaží upozornit na nový produkt nebo službu, časově omezenou „výhodnou koupi" atd. Typickým příkladem jsou také nabídky různých, ve velkém množství případů nelegálních služeb, návody na rychlé zbohatnutí 4
2. PROBLEMATIKA SPAMU
(Make Money Fast, MMF), pornografie, řetězové dopisy (chain letters) nebo poplašné zprávy (hoax). Přesná formální definice spamu je ale předmětem celosvětové diskuze a názory různých komunit se zde mírně odlišují. Například [4] považuje zprávu za spam právě tehdy, když zároveň splňuje obě následující pod mínky: •
identita příjemce a doprovodné informace jsou irelevantní, protože zpráva je bez jakýchkoliv změn určena velkému množství příjemců,
•
příjemce prokazatelně neudělil explicitní a dobrovolný souhlas k po slání této zprávy,
Podle [5] je spam synonymum pro UBE a UCE. V červnu roku 1999 vyšlo RFC 26351 s názvem Don't spew, které vy světluje proč je nevyžádaná korespondence velkého objemu pro Internet škodlivá a navrhuje uživatelům, správcům e-mailových serverů a poskyto vatelům internetových služeb, jak by měli zacházet s nevyžádanou poštou popřípadě jejími rozesílateli. Toto RFC jednoduše říká, že spam je masově rozeslaná nevyžádaná e-mailová zpráva nebo příspěvek do diskuzních sku pin, tzv. usenet news. V dnešní době spam zasahuje mnoho různých forem digitální komuni kace, aťuž se jedná o rozesílání spamu faxem, pomocí SMS zpráv nebo do konce přes služby typu instant messaging (služby poskytující bezprostřední interaktivní textovou komunikaci). Nejvíce jsou však sparném zatíženy tra diční a nejvíce využívané komunikační služby Internetu — e-mail a usenet news. 2.3
Viry
Specifickým druhem nevyžádané pošty, kterým se ve své práci nebudu zabývat, jsou e-mailové viry. Stejně jako spam, e-mailové viry obtěžují a zahlcují. V ostatních ohledech se však viry od spamu podstatně odlišují. Jedním z hlavních rozdílů je, že zatímco spam vzniká a je rozesílán za účelem dosažení pozornosti a zisku, e-mailové viry žádné zisky nepřináší. Jejich účelem je napadat cílové počítače, škodit a rozšiřovat se na co nejvíce počítačů. K tomu využívají většinou chyb v software hostitelských počítačů. Virům se tak příliš nedaří v různorodém prostředí a používání odlišných 1.
http://www.ietf.org/rfc/rfc0706.txt
5
2. PROBLEMATIKA SPAMU
operačních systémů a software pro implementaci e-mailových serverů spo lečně s velkým množstvím klientských e-mailových programů šíření virů značně stěžuje. Ve své podstatě jsou viry menším problémem než spam a je možné proti nim úspěšně bojovat pomocí antivirů nebo včasnými bezpečnostními upgrady postiženého software.
2.4
Phishing
Dalším pojmem, který je často spojován se sparném je phishing. Jedná se o rozesílání podvodných e-mailů, pomocí kterých se jejich autoři pokouší od příjemců získat důležité osobní informace. Většinou se jedná o čísla kreditních karet, přístupové údaje k bankovním účtům, čísla pojištění atd. Opět se jedná o specifický druh nevyžádané pošty, na rozdíl od běžného spamu se však tyto e-maily snaží vydávat za legitimní zprávy od důvěry hodné instituce, která příjemce žádá o sdělení potřebných informací. I proti phishingu je tedy potřeba bojovat jinými prostředky než proti spamu. 2.5
Historie
Počátky spamu v elektronické komunikaci spadají až do dob vzniku celo světové sítě Internet. Spameři 2 se nejprve orientovali především na diskuzní skupiny, které jsou pro tyto účely snadno zneužitelné. Jejich seznamy jsou volně dostupné a není tak problém sehnat databázi adres pro rozesílání spamu. Navíc každá taková skupina má velké množství čtenářů, což pro spamera znamená vynaložení mnohem menšího úsilí, než kdyby při oslo vování stejného počtu lidí použil elektronickou poštu. S postupným rozši řováním a vývojem Internetu začal spam zasahovat i další síťové služby, zejména e-mail. První ojedinělé pokusy o rozesílání nevyžádaných zpráv byly však po zorovány už v dobách předchůdce Internetu, sítě ARPANET. 2.5.1 RFC 706 Přenos zpráv v ARPANETu zajišťovaly IMP servery (Interface Message Pro cessor), které s tehdejšími počítači komunikovaly pomocí Host/IMP proto kolu. V listopadu roku 1975 upozornil jeden z tvůrců ARPANETu John Po stel na nedostatek v systému pro přenos elektronických zpráv: v Host/IMP 2. rozesílatelé spamu
6
2. PROBLEMATIKA SPAMU
protokolu neexistuje mechanismus, pomocí kterého by mohl počítač odmí tat některé příchozí zprávy V RFC 7063 s názvem On the Junk Mail Problem se potom zmínil, že v ta kovém případě je možné poslat na adresu jednoho počítače takové množství zpráv, které způsobí jeho zahlcení. Takto napadený počítač potom nebude schopen poskytovat své služby běžným uživatelům. Postel navrhl takové rozšíření IMP protokolu, které by počítači umožnilo předat svému IMP serveru informaci o tom, ze kterých zdrojů nechce přijímat žádné zprávy. K odmítnutí zprávy pro daný počítač by potom docházelo už na IMP ser veru, tedy ještě dříve, než by se zpráva dostala k cílovému počítači, a to dvěma možnými způsoby: •
Pro každý lokální počítač by cílový IMP server udržoval seznam zdrojů, ze kterých daný počítač odmítá zprávy.
•
V případě, že by IMP server obdržel informaci o odmítnutí zprávy odeslané z počítače x, předal by ji odesílajícímu IMP serveru (IMP ser veru počítače x). Pro každý lokální počítač by tak IMP servery udržo valy seznam cílů, které odmítají přijímat zprávy pocházející z daného počítače.
2.5.2 První spam V době postupného rozšiřování sítě ARPANET způsobovala nemožnost odmítnout příchozí zprávu jen občasné větší či menší problémy. V té době byly k ARPANETu připojeny pouze některé vládní a vědecké organizace a páteř celé sítě byla pod kontrolou vlády Spojených států amerických, která zakazovala provozovat na síti většinu komerčních aktivit. Občasné porušení tohoto pravidla se rychle a tvrdě trestalo. Příkladem je asi první evidovaný spam, kdy společnost Digital Equi pment Corporation 3. května roku 1978 poslala šesti stům uživatelů AR PANETu pozvánku na prezentaci svých nových produktů. Celý obsah této zprávy je na obrázku 2.1. Zpráva byla okamžitě označena jako zjevné porušení vládní politiky s ujištěním, že „budou provedena příslušná opatření tak, aby se podobné události neopakovaly".
3.
http://www.ietf.org/rfc/rfc0706.txt
7
2. PROBLEMATIKA SPAMU DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY; THE DECSYSTEM-2020, 2020T, 2060, AND 2060T. THE DECSYSTEM-20 FAMILY OF COMPUTERS HAS EVOLVED FROM THE TENEX OPERATING SYSTEM AND THE DECSYSTEM-10
COMPUTER ARCHITECTURE. BOTH THE DECSYSTEM-2060T AND 2020T OFFER FULL ARPANET SUPPORT UNDER THE TOPS-20 OPERATING SYSTEM. THE DECSYSTEM-2060 IS AN UPWARD EXTENSION OF THE CURRENT DECSYSTEM 2040 AND 2050 FAMILY. THE DECSYSTEM-2020 IS A NEW LOW END MEMBER OF THE DECSYSTEM-20 FAMILY AND FULLY SOFTWARE COMPATIBLE WITH ALL OF THE OTHER DECSYSTEM-2 0 MODELS. WE INVITE YOU TO COME SEE THE 2 02 0 AND HEAR ABOUT THE DECSYSTEM-2 0 FAMILY AT THE TWO PRODUCT PRESENTATIONS WE WILL BE GIVING IN CALIFORNIA THIS MONTH. THE LOCATIONS WILL BE: TUESDAY, MAY 9, 1978 - 2 PM HYATT HOUSE (NEAR THE L.A. AIRPORT) LOS ANGELES, CA THURSDAY, MAY 11, 1978 - 2 PM DUNFEY'S ROYAL COACH SAN MATEO, CA (4 MILES SOUTH OF S.F. AIRPORT AT BAYSHORE, RT 101 AND RT 92) A 2020 WILL BE THERE FOR YOU TO VIEW. ALSO TERMINALS ON-LINE TO OTHER DECSYSTEM-2 0 SYSTEMS THROUGH THE ARPANET. IF YOU ARE UNABLE TO ATTEND, PLEASE FEEL FREE TO CONTACT THE NEAREST DEC OFFICE FOR MORE INFORMATION ABOUT THE EXCITING DECSYSTEM-20 FAMILY.
Obrázek 2.1: zpráva společnosti Digital Equipment Corporation 2.5.3 Green Card incident V roce 1993 byla síť ARPANET zprivatizována a postupně se začalo rozši řovat označení Internet. Změnila se sice pravidla používání sítě, ale i přesto se proti spamu nepřestalo bojovat. Legendou se stala zpráva s předmětem Green Card Lottery - Final One?, která byla v dubnu roku 1994 doručena najednou do všech tehdy existujících usenet news skupin, kterých bylo asi šest tisíc. Paradoxem je, že to byla právnická firma Canter & Siegel z Phoenixu, která touto cestou nabízela služby pro přistěhovalce do Spojených států amerických, viz obrázek 2.2. Tisíce běžných čtenářů těchto usenet news skupin potom zahltilo spo lečnost Canter & Siegel odmítavými e-maily, faxy i telefonáty. Zahlcen stíž nostmi byl také poskytovatel připojení k Internetu (ISP, Internet Service Pro8
2. PROBLEMATIKA SPAMU Green Card Lottery 1994 May Be The Last One! THE DEADLINE HAS BEEN ANNOUNCED. The Green Card Lottery is a completely legal program giving away a certain annual allotment of Green Cards to persons born in certain countries. The lottery program was scheduled to continue on a permanent basis. However, recently, Senator Alan J Simpson introduced a bill into the U. S. Congress which could end any future lotteries. THE 1994 LOTTERY IS SCHEDULED TO TAKE PLACE SOON, BUT IT MAY BE THE VERY LAST ONE. PERSONS BORN IN MOST COUNTRIES QUALIFY, MANY FOR FIRST TIME. The only countries NOT qualifying are: Mexico; India; P.R. China; Taiwan, Philippines, North Korea, Canada, United Kingdom (except Northern Ireland), Jamaica, Domican Republic, El Salvador and Vietnam. Lottery registration will take place soon. 55,000 Green Cards will be given to those who register correctly. NO JOB IS REQUIRED. THERE IS A STRICT JUNE DEADLINE. THE TIME TO START IS NOW! ! For FREE information via Email, send request to cslawoindirect.com
***************************************************************** Canter & Siegel, Immigration Attorneys 3333 E Camelback Road, Ste 250, Phoenix AZ 85018 USA [email protected] telephone (602)661-3911 Fax (602) 451-7617
Obrázek 2.2: Green Card Lottery - Final One? vider) firmy Canter & Siegel, v důsledku toho ISP zrušil připojení této firmy k Internetu, Canter byl vyloučen z advokátní komory a společnost se ocitla na pokraji krachu. Po několika dalších pokusech o rozeslání spamu, připojeni jinými ISP, napsali Canter a Siegel knihu Now to Make a Fortune on the Information Su perhighway, ve které popisují základní principy spamování 4 .
4. rozesílání spamu
9
2. PROBLEMATIKA SPAMU
2.5.4 Spam King Jedním z těch, kteří se po přečtení knihy Cantera a Siegela rozhodli vyzkou šet, zda e-mailové obchodování opravdu funguje, byl Jeff Slaton. Na jaře roku 1995 začat podle návodu v knize sbírat e-mailové adresy, názvy mailinglistů a diskusních skupin a v červnu téhož roku poslal svůj první spam, který obsahoval nabídku na plány prvních atomových bomb testovaných ve Spojených státech amerických. Její text je na obrázku 2.3. Slaton prodával plány za osmnáct amerických dolarů plus poštovné a sám Fifty Years ago the first atomic test blast took place at the Trinity test sit e in New Mexico. I thought you would would have an interest in this . I have a friend who just retired as the Associate Director of Los Alamos Natl Labs in New Mexico. We worked together to obt ain the plans to the FAT MAN & LITTLE BOY Atomic Bombs . (Unique commemorative, declassified and "just" released!) This is a "must have" for anyone interested in Science or History. There is a limi ted amount of Museum quality reproductions (1 st Draft) of these documents. Please let me know if you want a set of these blueprints. I will e-mail you with more details. Please forward t o anyone i/fho might be interested or benefn t. Sincerely, Jeff Slaton 6808 Truchas Dr. NE Albq., NM 87109
Obrázek 2.3: první spam Jeffa Slatona přiznal, že se jich prodalo tisíce po celém světě. Jako bývalý obchodník si Slaton uvědomil, že výrazně větší možnosti a zisk, než obchodování se samostatnými výrobky, přináší reklamní služby. Nabídku na své reklamní služby opět rozeslal jako spam, ve kterém sám sebe označil titulem „Spam King", tedy „Král spamu". Obsah této nabídky je na obrázku 2.4. 10
2. PROBLEMATIKA SPAMU From: [email protected]!! (YOU TO CAN SAVE$>>>) Subject: Let Us Help You Spam the Net! Organization: SpAmKiNg 505-821-1945 Spam King on the World! Aproved: spam-King SPAM KING HAS NEW LOW RATES! POST TO LIST SERVE MAILING LISTS. DIRECT E-MAIL. AND NEWSGROUPS! REACH 6 MILLION+ INTERNET SUBSCRIBERS! CALL 505-821-1945!! MASSIVE SPAMS! WE CAN SPAM AS MANY AS 7000 NEWSGROUPS AND MAILING LISTS AT ONE TIME, SO THAT ALL SEE YOUR MESSAGE AT ONCE. CALL US TODAY AT 505-821-1945. WE WILL SEND YOUR FIRST SPAM OUT FOR FREE TO SHOW YOU HOW WELL WE CAN DO THE JOB. ADDITIONAL SPAMS AT OUR LOW, LOW RATES. CALL US COLLECT FOR DETAILS AT 505-821-1945. SPAM KING! YOUR SOURCE FOR SPAM NETWIDE.
Obrázek 2.4: nabídka reklamních služeb Jeffa Slatona Slaton tak položil základy spamu v takové podobě, v jaké jej známe dnes. V druhé polovině roku 1995 rozesílal pro různé zákazníky až patnáct spamů týdně, cena jedné „inzerce" byla $495. Slayton je také autorem některých dodnes spamery používaných tech nik: •
Aby se vyhnul stížnostem a odmítavým e-mailům, začal rozesílat spam z fiktivních adres a domén.
•
Ve spamu nikdy neuváděl skutečná telefonní čísla, vždy jen čísla na hlasové schránky.
•
Protože poskytovatelé internetových služeb vždy rychle zablokovali jeho připojení k Internetu, používal k rozesílání spamu dočasná při pojení, která zakládali sami zákazníci. Ti mu po telefonu jen sdělili jméno, heslo a případně telefonní číslo, které má použít.
•
K rozesílání spamu používal vzdálené e-mailové servery. Ze svého počítače odeslal pouze jednu zprávu, kterou potom server rozesílal na jednotlivé adresy. 11
2. PROBLEMATIKA SPAMU
2.5.5 Původ pojmu „spam" SPAM je registrovaná obchodní značka americké potravinářské společnosti Hormel Foods označující část jejích masných produktů. Jedná se o konzer vované vepřové maso se šunkou s původním názvem Shoulder pork and ham nebo Spiced ham. S nevyžádanými zprávami byl pojem spam spojen díky jednomu z dílů britské televizní show Monty Python's Flying Circus. Krátký skeč se ode hrává v restauraci, kde všechno jídlo na jídelníčku obsahuje SPAM. Při popi sování jednotlivých jídel zákazníkům číšnice opakuje vícekrát slovo spam, podle toho, kolik SPAMu se v daném jídle nachází. Během jejich rozho voru začnou v rohu stojící Vikingové zpívat oslavnou píseň na SPAM, jejíž text obsahuje pouze „Spam, spam, spam! Lovely spam! Wonderful spam!". Číšnice je několikrát okřikne, aby přestali. Vikingové však začnou pokaždé zpívat znova až úplně přehluší ostatní komunikaci. Jako označení nevyžádaných příspěvků byl tento termín poprvé pou žit komunitou hráčů víceuživatelských her typu „dungeon" nazývaných MUD, multi-user dungeon. Během hraní spolu v reálném čase komunikují hráči připojení z různých počítačů. Někteří hráči vícekrát opakovali svoji zprávu, čímž znesnadňovali čtení ostatní komunikace. Podle výše popiso vaného skeče byly tyto opakující se zprávy označovány jako „spam". Podle Brada Templetona, jednoho z průkopníků usenet news, bylo ozna čení „spam" potom používáno i pro nevyžádané příspěvky do diskuzních skupin. Ke všeobecnému rozšíření termínu „spam" jako označení pro ne vyžádané zprávy však došlo až po Green Card incidentu. 2.6
Negativní dopady spamu
Je zřejmé, že každý spam, který uvízne v e-mailové schránce, nějakým způ sobem obtěžuje uživatele. Důvodů, proč je spamování špatné však existuje více a je možné je shrnout do čtyř hlavních bodů: •
Cena — rozesílání spamu je pro spamera finančně velmi nenáročné, neboťpřenáší náklady své činnosti na příjemce, případně poskytova tele internetových služeb. Síťový provoz, procesorový čas nebo dis ková kapacita, kterou spotřebuje rozesílání, přeposílání či přijímání spamu, stojí poskytovatele internetových služeb nemalé finanční pro středky. Velké množství uživatelů platí své připojení k Internetu podle množství přenesených dat nebo délky připojení. Už samotné přijetí spamu tedy uživatele něco stojí. K těmto nákladům je ještě potřeba 12
2. PROBLEMATIKA SPAMU
připočítat čas a prostředky, které musí uživatel vynaložit při třídění e-mailů, mazání spamů atd. •
Objem — množství spamu na Internetu stále roste, čímž se snižuje po užitelnost elektronické pošty jako komunikačního média. Velké množ ství nevyžádané pošty může způsobit kolaps takto zahlcených sítí nebo serverů. Schránka, do které začnou přicházet stovky spamových denně, se stává prakticky nepoužitelnou. V takovém množství spamu je normální e-mail snadno přehlédnutelný.
•
Zátěž — většina spamů je reklamou na pochybné produkty nebo služby, které není možné inzerovat jiným způsobem. Pro mnohé uži vatele Internetu jsou tyto zprávy pouze zbytečnou přítěží s naprosto bezcenným obsahem. Spam však využívá stavu, že na Internetu jsou nezkušení nebo naivní uživatelé, které tato reklama osloví.
•
Nelegálnost obsahu — obsah spamu může být v některých zemích nelegální (například sexuální obtěžování nebo dětská pornografie). O legálnosti vlastního spamování se zmíním později.
Každý z těchto bodů je sám o sobě dostatečným důvodem k tomu, aby bylo spamování považováno za velmi nežádoucí aktivitu, proti které je potřeba se bránit a bojovat s ní. 2.7
Podmínky existence spamu
Přes všechny negativní dopady spamu a intenzivní boj proti němu však spam stále existuje, navíc se velmi rychle rozvíjí a jeho objem roste. To je možné z následujících důvodů: •
Poptávka po reklamních službách — jak již bylo uvedeno, spam je jedna z mnoha forem reklamy, především na pochybné produkty nebo služby, pro které není možné použít jinou formu inzerce. Poptávka po reklamních službách tohoto typu je však stále velká.
•
Existence profesionálních spamerů — tito spameři se živí rozesíláním nevyžádané komerční reklamy, kterou si u nich objedná třetí strana. Spamerovi jde tedy o finanční zisk, který se většinou odvíjí od počtu e-mailových adres, na které se spam podaří doručit. Cílem spamera je doručit reklamu na co nejvíce e-mailových adres, bez ohledu na to, jaké škody touto činností způsobí. 13
2. PROBLEMATIKA SPAMU
•
Těžká právní postižitelnost — boj proti spamu v oblasti legislativy je poměrně problematický a podrobněji se mu věnuji ve třetí kapitole.
•
Nízké náklady — náklady na rozeslání inzerce pomocí spamu jsou vý razně nižší než u jakýchkoliv jiných běžných způsobů inzerce. Parado xem je také již zmíněný přenos nákladů na příjemce, kdy oslovovaný zákazník za příjem nevyžádané reklamy platí.
•
Nedostatečná obrana — žádné z doposud implementovaných a široce používaných technik nevykazují stoprocentní účinnost. Jisté množství spamu se tedy stále dostává do cílových e-mailových schránek.
•
Zákaznická odezva — podle výsledků průzkumu společnosti Radicati Group [6] zveřejněných v březnu roku 2005 je chování uživatelů jedním z největších důvodů neustále se zvětšujících problémů se spa rném. Překvapivě velké množství uživatelů stále čte nevyžádanou poštu a dokonce na tyto zprávy i odpovídá. Podle průzkumu na vštívilo 31 procent uživatelů minimálně jednu ve spamu uvedenou internetovou stránku. Odpovědí na spam nebo návštěvou zmíněných stránek potvrzují uživatelé spamerům, že tento způsob reklamy stále funguje. Přirozenou reakcí spamerů je potom zvýšení frekvence zpráv posílaných na danou adresu.
Nejvíce znepokojující je však statistika, z níž plyne, že více než deset procent uživatelů někdy zakoupilo produkt inzerovaný pomocí spamu. Vzhledem k velmi malým nákladům na rozeslání spamu je toto číslo jistě zajímavým výsledkem, který dokáže udržet celou ekonomiku spamu, a to i přes jeho nízkou efektivitu. Podle [3] je míra odezvy na reklamní nabídky rozesílané formou spamu jen 0,0015 %, což znamená, že z jednoho miliónu rozeslaných spamů je pouze patnáct úspěšných. I takto nízká efektivita je však dostačující, neboťpodle [7] je pro zachování ziskovosti spamu potřebná míra odezvy asi 0,001 %. V dnešní době, kdy se proti spamu bráníme především pomocí filtrování zpráv, se tedy nabízí otázka, zda by velmi dobře fungující filtry dokázaly spam potlačit nebo dokonce úplně vymýtit. Dlouhodobě propagovaná strategie pro filtrování nevyžádané pošty do poručuje zprávy pouze označovat. Ty, které jsou označené jako spam potom nemazat, ale ukládat je do speciálně zřízené složky. Navrhovaný postup se uplatňuje zejména ze dvou následujících důvodů: •
Při označování zpráv může docházet k takzvaným false-positives, tedy případům, kdy je jako spam označena pro daného uživatele regulérní 14
2. PROBLEMATIKA SPAMU
zpráva. Při automatickém mazání by tak mohlo docházet ke ztrátě e-mailů. •
Většina moderních antispamových filtrů hodnotících zprávy podle jejich obsahu pracuje na principu učení. Zde je vyžadována inter akce s uživatelem, který musí předávat učícímu filtru vstupní data v podobě legitimních e-mailů, ale i spamů. V případě automatického mazání spamů by tak chybělo dostatečné množství dat pro učení.
Podle výsledků průzkumu prováděného v šesti zemích světa (Brazí lie, Francie, Kanada, Německo, Spojené státy americké a Velká británie) společnostmi Forrester Data a Bussines Software Alliance 5 , čtou uživatelé průměrně více než 25 % zpráv označených jako spam. Je tedy zřejmé, že pouhé oddělení od normálních e-mailových zpráv nezabrání uživatelům, aby četli spam a reagovali na něj. V případě, že by se pro zvyšování přesnosti antispamových filtrů i nadále využívalo principů učení se, je tedy složka pro nevyžádanou poštu společně s chováním internetových uživatelů důvodem, proč by ani stoprocentně fungující masově používané filtry nedokázaly spam zastavit. 2.8
Techniky používané při rozesílání spamu
K rozesílání spamu je potřeba pouze počítač, připojení k internetu, databázi cílových e-mailových adres a propagovaný produkt. 2.8.1 Odesílání Ve většině případů nepoužívají spameři k rozesílání spamu svůj vlastní e-mailový server nebo server svého poskytovatele připojení k Internetu. V takovém případě by byli snadno vystopovatelní. Místo toho se snaží využívat e-mailové servery jiných ISP, popřípadě společností, které nejsou dostatečně chráněny a umožňují tak zneužití jedním z následujících způ sobů: •
5.
Využití open relay serverů. Jedná se o e-mailové servery, které umož ňují jakémukoliv uživateli odesílat e-maily kamkoliv do Internetu. E-mailový server sloužící pro danou doménu by měl zajišťovat pouze doručování pošty přicházející do této domény nebo z ní odcházející. V případě, že e-mailový server poskytuje open relaying, jedná se o bez pečnostní chybu. http://blog.cauce.ca/blog/archives/BSAConsumerAttitudes.pdf
15
2. PROBLEMATIKA SPAMU
•
Využití open proxy serverů. Jedná se o podobný problém jako u open relay, zde je však bezpečnostní chyba na e-mailovém proxy serveru, který umožňuje spamerům volný přístup k e-mailovým serverům, které jinak open relaying nedovolují.
•
Získání přístupu do vnitřní sítě cizích organizací pomocí nechráně ných přístupových bodů pro bezdrátovou síť. Pro rozeslání spamu je potom možné zneužít e-mailový server dané organizace.
•
Napadení nedostatečně zabezpečeného počítače dostupného z Inter netu. Na napadeném počítači je nainstalován a spuštěn e-mailový ser ver, který rozesílá spam v omezeném a pro uživatele tohoto počítače nepozorovatelném množství.
Kromě zneužívání cizích serverů maskují spameří dále svoji identitu pomocí podvržení údajů v hlavičkách e-mailových zpráv. Nejčastěji podvrhované hlavičky lze nalézt v tabulce 2.1 Hlavička Date: From: To:
Received:
Content-type:
Popis Datum a čas odeslání zprávy. E-mailová adresa případně jméno odesílatele zprávy. E-mailová adresa případně jméno příjemce. Zprávy se nedoručují podle obsahu této hlavičky, ale podle cí lové adresy uvedené v jejich obálce. Skutečná adresa příjemce se v doručeném e-mailu nachází v hlavičce Envelope-to:. Může se opakovat vícekrát v jedné zprávě. Každý e-mailový server, přes který daná zpráva prochází, přidává jednu tuto hlavičku. Obsahuje jména pří padně IP adresy serveru, který zprávu přijal a ser veru, ze kterého byla odeslána, čas přijetí a některé nepovinné položky, například with, která udává způ sob, jakým byl mezi servery e-mail předán. Typ přenášených dat a příloh.
Tabulka 2.1: nejčastěji podvrhované hlavičky e-mailových zpráv
16
2. PROBLEMATIKA SPAMU
2.8.2 Databáze adres Pro rozeslání spamu potřebuje spamer velkou databázi cílových e-mailových adres. Nejjednodušším způsobem je získat databázi od jiného spamera nebo ji koupit. Ve většině případů však spameři nedávají své databáze adres k dispozici a koupě znamená zbytečné náklady navíc. Pro získávání adres tedy spameři používají jiné dva způsoby: 1.
Prohledávání Internetu — tento způsob je možné dále rozdělit, podle zdrojů, ze kterých jsou adresy získávány: •
Příspěvky do diskusních skupin — pomocí speciálních progra mů spameři pravidelně prohledávají diskuzní skupiny. Tyto pro gramy získávají adresy přímo z hlaviček (From:, Reply-To: atd.), ale i z obsahu jednotlivých příspěvků.
•
Mailing listy — některé servery umožňují získat seznamy adres uživatelů zapsaných do jednotlivých mailing listů. Tyto seznamy většinou obsahují korektní živé adresy, což je pro spamera velmi hodnotná informace. Druhou možností je získat ze serveru seznam adres všech mai ling listů a rozesílat spam pouze na tyto adresy. Rozeslání obrov ského množství kopií na adresy uživatelů zapsaných v jednotli vých mailing listech už potom zajistí server, na kterém jsou tyto mailing listy provozovány.
•
Webové stránky — podobně jako pro získávání adres z diskus ních skupin, používají spameři speciální programy, které prochá zejí webové stránky a vyhledávají v nich e-mailové adresy.
•
Interaktivní komunikační služby typu IRC — některé klientské programy pro IRC umožňují získat e-mailovou adresu přihláše ného uživatele. Peer-to-peer sítě — na sítích používaných pro výměnu a sdí lení dat mezi uživateli se záměrně nebo nedopatřením objevují soubory s adresáři některých e-mailových aplikací. Podle jmen typických pro jednotlivé aplikace lze tyto soubory velmi snadno nalézt.
•
Z výše uvedených zdrojů získávají spameři největší množství e-mailo vých adres. Výrazně menší měrou jsou potom zastoupeny některé další techniky, jako například získávání adres z formulářů na webových stránkách či pomocí služeb ident nebo finger UNIXových operač ních systémů. 17
2. PROBLEMATIKA SPAMU
Generování — tímto způsobem mohou spameři získat i takové ad resy, se kterými jejich majitelé zachází velmi obezřetně a není možné je získat výše uvedenými postupy Generování je možné provádět následujícími způsoby:
3.
•
Hrubou silou — postupně jsou vytvářeny předem stanovenou délkou omezené řetězce obsahující všechny kombinace písmen nebo jiných znaků, které se mohou vyskytovat v e-mailových ad resách. Tyto řetězce jsou používány jako lokální části e-mailových adres, tedy jako jména jednotlivých e-mailových účtů v různých doménách.
•
Slovníkovou metodou — adresy jsou vytvářeny pomocí slov ze slovníku. Jedná se o velmi často používané lokální části e-mailo vých adres, jako například info, sales, admin, webmaster, křestní jména a příjmení popřípadě jejich kombinace. Touto metodou lze vytvářet i doménové části adres.
•
Kombinací obou předchozích metod — na konec lokálních částí adres, které byly vytvořeny slovníkovou metodou jsou přidá vány kombinace dalších znaků, většinou písmen nebo číslic, s pří padným použitím některých oddělovacích znaků jako například tečka nebo spojovník.
Viry — spameři používají viry vytvořené speciálně za účelem sbírání e-mailových adres. Tyto viry vyhledávají na napadeném počítači ad resáře a seznamy kontaktů e-mailových aplikací a údaje z nich získané odesílají spamerovi.
2.8.3 Modifikace obsahu zpráv Ve většině případů obsahuje spam na první pohled zkomolený text, popří padě více čí méně smysluplný text navíc. Spameři se pomocí záměrného vnášení jistého množství zmatečnosti do textu snaží obcházet antispamové filtry pracující na základě analýzy obsahu zpráv. Nejčastěji používané tech niky pro modifikaci obsahu zpráv jsou: •
Skrývání textu — vkládání mezer popřípadě jiných znaků mezi jed notlivá písmena slov, popřípadě nahrazování některých písmen jimi podobnými znaky, například písmeno 1 bývá nahrazováno číslicí 1 nebo znakem |, písmeno O číslicí 0, atp. 18
2. PROBLEMATIKA SPAMU
•
Neviditelný text — vkládání slov popřípadě větších částí textu, který se může vyskytovat v normálních e-mailech. Tento text je přikládán na konec zprávy, v případě, že tělo spamu není jen obyčejný text, ale je formátováno pomocí jazyka HTML, bývá pro jeho zobrazení použita stejná barva jako pro pozadí.
•
Rozdělování slov — rozdělování ve spamu se často vyskytujících slov pomocí vkládání falešných značek jazyka HTML, které nejsou inter pretovány
•
Náhodný text — vkládání dlouhých řetězců náhodně vygenerova ného nesmyslného textu.
19
Kapitola 3
Techniky pro rozpoznávání spamu 3.1
False positives, false negatives
Pro účely této práce budu normální e-mailové zprávy dále nazývat „ham". Jedná se o termín převzatý z anglického jazyka, kde je používán jako anto nymum pro slovo spam. Cílem technik pro rozpoznávání spamu je určovat, zda e-mailová zpráva je či není spam. Při ohodnocování zpráv může dochá zet k následujícím chybám: •
false positive — ham, který je ohodnocen jako spam
•
false negative — spam, který je ohodnocen jako ham
Počet false positive chyb udává celkovou chybovost, zatímco podle počtu false negative se určuje celková úspěšnost. 3.2
Rozpoznávání podle odesílatele
3.2.1 Černé listiny Základem této techniky jsou seznamy častých zdrojů spamu, tzv. černé lis tiny (přeloženo z původního anglického názvu black lists). Při ohodnocování e-mailové zprávy se porovnávají zdroje, ze kterých zpráva pochází se zá znamy v černých listinách. V případě, že jsou zdroje hodnocené zprávy nalezeny v některé z černých listin, je zpráva označena jako spam. Opakem černých listin jsou seznamy důvěryhodných zdrojů, tzv. bílé listiny {white lists). E-mailové zprávy pocházející ze zdrojů uvedených na bílé listině mohou být přijímány bez ohledu na další hodnocení nebo pro ně mohou být při hodnocení uplatňována odlišná pravidla. RBL RBL je zkratka anglického výrazu Realtime Blackhole List. Jedná se černou listinu obsahující aktuální seznam IP adres e-mailových serverů, ze kterých 20
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
je nebo v nedávné době byl rozesílán spam. Protože spameři běžně falšují hlavičky rozesílaných zpráv za účelem zamaskování své vlastní identity, je právě e-mailový server jediným s jistotou označitelným zdrojem spamu, pro který má smysl vytvářet a udržovat černé listiny. Aktuálnost jednotlivých RBL zajišťují jejich provozovatelé většinou na základě návrhů a požadavků, které přicházejí od uživatelů těchto seznamů. Existuje poměrně velké množství společností, které provozují na Inter netu volně dostupné RBL (např. b l . spamcop. n e t , r e l a y s . o r d b . o r g nebo s b l . spamhaus . org). Tyto společnosti spolu však nespolupracují a tak se obsahy jednotlivých RBL od sebe různou měrou liší. RBL funguje na principu DNS, tedy na bázi překladu doménových jmen na IP adresy. Popis principu a protokolu DNS lze najít v RFC 10351. Každý RBL je reprezentován jemu odpovídajícím RBL serverem. Hodnocení zprávy pomocí RBL probíhá následujícím způsobem: 1.
Z korektních e-mailových hlaviček R e c e i v e d : se zjistí IP adresa poš tovního serveru, ze kterého byla zpráva odeslána.
2.
Na vybraný RBL server se pošle dotaz, zda je zjištěná IP adresa za psána na černé listině.
3.
Podle obdržené odpovědi se zpráva ohodnotí: v případě, že se daná IP adresa nachází ve zvoleném RBL, je zpráva považována za spam, v opačném případě je považována za ham.
Dotaz na RBL server má podobu DNS dotazu. Jako doménové jméno se použije doménová báze vybraného RBL, před kterou se vloží tečkou oddě lená IP adresa ověřovaného poštovního serveru. Jednotlivá pole IP adresy se uvádí v opačném pořadí. V případě, že je testovaná IP adresa zapsána na vybraném RBL, odpovědí serveru je A záznam s IP adresou 127 . 0 . 0 . 2 . Jestliže se na jednom serveru nachází více různých RBL, může být odpo vědí jiná IP adresa v rozmezí 127 . 0 . 0 . 2 až 127 . 0 . 0 . 254 podle toho, ve kterém RBL byla testovaná adresa nalezena. IP adresy v odpovědích se pro jednotlivé RBL servery liší a jejich význam bývá popsán v dokumentaci. Po drobnější informace o blokování IP adresy je možné zjistit z TXT záznamu daného doménového jména. Na obrázku 3.1 je příklad dotazu, zda je IP adresa 8 2 . 2 2 6 . 1 6 3 . 3 8 zapsána na RBL b l . spamcop. n e t . Odpovědí RBL serveru je A záznam s IP adresou 1 2 7 . 0 . 0 . 2 . Následuje dotaz na TXT záznam daného doménového jména. 1.
http://www.faqs.org/rfcs/rfcl035.html
21
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
kybela:~/> host 38.163.226.82.bl.spamcop.net 38.163.226.82.bl.spamcop.net A~127.0.0.2 kybela:~/> host -t TXT 38.163.226.82.bl.spamcop.net 38.163.226.82.bl.spamcop.net TXT "Blocked - see http://www.spamcop.net/bl.shtml?82.226.163.38" kybela:~/>
Obrázek 3.1: dotaz na RBL s pozitivní odpovědí Jestliže testovaná IP adresa není zapsána na vybraném RBL, server od poví, že dané doménové jméno neexistuje. Příklad dotazu s negativní od povědí RBL serveru je na obrázku 3.2. kybela:~/> host 200.50.251.147.bl.spamcop.net 200.50.251.147.bl.spamcop.net does not exist (Authoritative answer) kybela:~/>
Obrázek 3.2: dotaz na RBL s negativní odpovědí RBL mají dvě hlavní nevýhody: •
Nízká úspěšnost — podle [2] nemohou černé listiny pokrýt více než 50 % poštovních serverů, ze kterých je rozesílán spam.
•
Kvalita jednotlivých RBL — na černou listinu se mohou dostat ne vinné servery nebo servery, které používá velké množství regulérních uživatelů a které byly ojediněle využity k rozeslání spamu, typicky servery poskytující e-mailové služby zdarma (například yahoo . com, h o t m a i l . comnebo český e m a i l . c z). Nevinné poštovní servery mo hou být do RBL přidány nedopatřením. Pomocí masky podsítě je možné do RBL vkládat celé rozsahy IP adres a z vlastní zkušenosti znám případy, kdy zadáním špatné masky podsítě byly do RBL při dány také IP adresy nevinných serverů. Kvalita jednotlivých RBL se odvíjí od kvality jejich provozovatelů. Na konkrétním poštovním ser veru je možné se proti těmto chybám bránit použitím bílé listiny ob sahující IP adresy důvěryhodných e-mailových serverů, pro které se nekontroluje, zda jsou zapsány na RBL.
Velkou výhodou této metody je fakt, že zprávu označenou pomocí RBL jako spam může cílový poštovní server odmítnout už při jejím přijímání. 22
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
V takovém případě už není potřeba vynakládat žádné další prostředky na zpracování odhaleného spamu. Původnímu odesílateli může být poslána zpět informace o odmítnutí dané zprávy spolu s odůvodněním a uvedením konkrétního RBL, který obsahuje adresu odesílajícího poštovního serveru. V případě, že by se jednalo o false positive, je tímto způsobem odesílatel informován o tom, že se jeho poštovní server nachází na černé listině. RBL je tedy technika využitelná především na úrovni e-mailových ser verů. Zejména kvůli nízké úspěšnosti by však měla být jen prvním článkem z řady antispamových opatření. Důležitým faktorem je také výběr vhod ných RBL serverů. 3.2.2 Techniky umožňující ověření odesílatele Níže popsané technologie umožňují různými způsoby ověřit doménu, ze které pochází e-mailová zpráva. Všechny popisované technologie využívají standardního protokolu SMTP používaného pro přenos e-mailových zpráv na Internetu a systému DNS. Popis protokolu SMTP lze najít v RFC 2821 2 . Cílem těchto technik je zamezit podvrhování odesílatele e-mailových zpráv, což znamená velký přínos v boji proti spamu. V případě, že spameři nebudou moci falšovat odchozí domény zpráv, bude možné snadno iden tifikovat časté zdroje spamu případně i konkrétní spamery Možnost jed noznačného určení domény, ze které pochází e-mailová zpráva také velmi usnadňuje vytváření a udržování bílých listin důvěryhodných domén nebo černých listin domén, ze kterých je rozesílán spam. Ve spojení s černými po případě bílými listinami domén tak tyto techniky umožňují velmi snadné rozpoznávání spamu. Spamer si samozřejmě může zaregistrovat vlastní doménu a tu použít pro rozeslání několika sérií spamu. Takto využívaná doména se však může velmi brzy dostat na černou listinu, což způsobí odmítání e-mailových zpráv z ní pocházejících. Spamerovi tak nezbyde jiná možnost, než se přesunout na jinou tímto způsobem dosud nevyužitou doménu. Pořizování stále nových domén a IP adres však znamená pro spamery podstatné zvýšení nákladů. Přestože pro některé techniky existují funkční volně dostupné imple mentace, nejsou zatím široce používány a to se dvou hlavních důvodů: •
2.
Po masovém nasazení těchto technik by nastaly problémy s identifi kací u zpráv odeslaných z mobilních zařízení, mailing-listů, přeposílanými zprávami nebo u e-mailových zpráv, generovaných webovými službami. Tyto problémy by bylo potřeba vyřešit pomocí změn http://www.faqs.org/rfcs/rfc2821.html
23
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
e-mailového systému, respektive pomocí úprav SMTP protokolu. Jde zejména o přidání polí S e n d e r : , From: nebo R e s e n t - F r o m : do hlaviček e-mailových zpráv tak, aby vždy bylo možné jednoznačně identifikovat doménu odpovědnou za odeslání zprávy •
Druhým důvodem je skepse, neochota a nízká flexibilita organizací, případně i některých odborníků. Smysluplnost a efektivita popisova ných technik se projeví až v případě jejich masového rozšíření. Zde se však dostáváme do začarovaného kruhu, kdy jednotlivé organi zace tvrdí, že nemá smysl nové technologie používat v případě, že je nepoužívají ani ostatní.
DomainKeys Společnost Yahoo! je autorem technologie, která kromě ověření domény umožňuje navíc ověřit také integritu zprávy. Ověřování funguje na principu asymetrické kryptografie, respektive digitálního podpisu. Prvním krokem je vytvoření páru klíčů pro asymetrickou kryptografii. V případě, že pro jednu doménu bude možné odesílat zprávy z více různých poštovních serverů, je nutné pro každý takový server vygenerovat jeden pár klíčů. Soukromé klíče se bezpečně uloží na jednotlivé servery, které jsou tímto autorizovány pro rozesílání e-mailů z dané domény. Veřejné klíče jsou distribuovány pomocí DNS. K tomu se využívá TXT záznamu, ne však vlastní domény, nýbrž její speciální subdomény s e l e k t o r . _domainkey, kde selektor označuje konkrétní autorizovaný e-mailový server pro danou doménu. V případě, že by doména p ř i k l a d . cz měla dva autorizované e-mailové servery s označením „praha" a „brno", byly by jejich veřejné klíče uloženy v TXT záznamech doménových jmen praha._domainkey.přiklad.cz brno._domainkey.přiklad.cz. Všechny potřebné informace jsou v TXT záznamu uloženy v podobě dvo jic x = h o d n o t a oddělených středníky, kde x zastupuje jeden z možných parametrů: •
g — granularita klíče, nepovinný parametr. V případě, že je uveden s nenulovou délkou, musí lokální část zdrojové adresy odchozího e-mailu přesně odpovídat jeho hodnotě.
•
k — typ klíče, nepovinný parametr. Implicitním typem klíče je RSA.
•
n — nepovinný parametr, který se neinterpretuje. Slouží pro vložení komentáře nebo poznámky. 24
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
•
p — jediný povinný parametr, který obsahuje samotný veřejný klíč.
•
t — může mít pouze jedinou hodnotu y, která říká, že daná doména technologii DomainKeys zatím jen testuje.
TXT záznam může mít například následující podobu: praha._domainkey
IN
TXT
"g=;
k = r s a ; p=MHww...IDAQAB"
Každý e-mail odesílaný z dané domény autorizovaným poštovním ser verem je na tomto serveru automaticky digitálně podepsán pomocí ulože ného soukromého klíče. Vytvořený podpis je spolu s parametry potřebnými pro jeho ověření vložen do hlavičky D o m a i n K e y - S i g n a t u r e : , která se připojí k podepisovanému e-mailu. Uvedená hlavička musí být vložena před všechny hlavičky, jejichž obsah byl použit při podepisování. Její tvar je stejný jako výše popisovaný tvar TXT záznamu, liší se však jednotlivými parametry: •
a — algoritmus použitý pro vytvoření podpisu. Implicitní hodnota r s a - s h a l znamená, že byla použita hašovací funkce SHA1 a RSA algoritmus pro podpis.
•
b — vlastní podpis, povinný parametr.
•
c — kanonický algoritmus, povinný parametr. Udává způsob, jakým byl e-mail upraven před předáním podepisovacímu algoritmu.
•
d — jméno podepisující domény, povinný parametr. Hodnota tohoto parametru musí odpovídat doménovému jménu odchozí adresy.
•
h—seznam hlaviček, jejichž obsah byl použit při podepisování zprávy. Jedná se o nepovinný parametr, pokud je uveden, musí obsahovat hlavičku jednoznačně identifikující doménu, ze které byla zpráva ode slána (From: nebo S e n d e r : ) . Jestliže není uveden, byly pro podpis použity všechny hlavičky následující za D o m a i n K e y - S i g n a t u r e :.
•
q — povinný parametr udávající metodu, pomocí které lze získat veřejný klíč. Jediná zatím možná hodnota je dns.
•
s — selektor, povinný parametr. Udává, který z poštovních serverů autorizovaných pro danou doménu podepsal zprávu. Společně s pa rametrem d slouží pro vytvoření doménového jména potřebného pro sestavení DNS dotazu na příslušný veřejný klíč. 25
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
Poštovní server na straně příjemce potom automaticky ověřuje podpis obsažený v přijímané zprávě ve třech základních krocích: 1.
Porovná doménovou část adresy údajného odesílatele, kterou získá z hlaviček S e n d e r : popřípadě From:, s hodnotou parametru d v hla vičce D o m a i n K e y - S i g n a t u r e :. V případě, že si tyto údaje neodpo vídají, je e-mail označen jako neověřený
2.
Z hodnot parametrů d a s v hlavičce D o m a i n K e y - S i g n a t u r e : se staví DNS dotaz, pomocí kterého získá veřejný klíč potřebný k ověření podpisu. V případě, že se klíč nepodaří získat nebo obdržená data neodpovídají specifikovanému formátu ani hodnotám některých pa rametrů z hlavičky podpisu, je e-mail označen jako neověřený Jestliže poštovní server neobdrží odpověď na odeslaný DNS dotaz, měl by přijímaný e-mail odmítnout.
3.
Po obdržení korektního veřejného klíče odpovídajícího příslušným parametrům provede samotné ověření podpisu. V případě úspěchu je e-mail označen jako ověřený.
Technologie DomainKeys je zranitelná pomocí takzvaného replay útoku. V případě, kdy je možné odeslat e-mail libovolného obsahu z dané do mény (což je možné například ze serverů, které poskytují e-mailové služby zdarma), může uživatel takový mail poslat sám sobě. Příchozí e-mail bude samozřejmě mít správnou korektně ověřitelný podpis. Potom je možné tento e-mail odeslat z libovolného serveru různým uživatelům pouze pomocí změny cílové adresy v jeho obálce, přičemž bude stále korektně podepsaný. Ověřování podpisu může skončit neúspěchem z poměrně velkého množ ství důvodů. Pro účely diagnostiky by měl ověřující poštovní server kon krétní chyby ukládat. Pro případnou aplikaci dalších lokálních politik pro doručování e-mailových zpráv by však měl celý proces ověřování skončit jednoduchým binárním výsledkem, zda se daný e-mail podařilo ověřit, či ne. SPF SPF je zkratka pro anglický název Sender Polky Framework. Je možné se setkat i se starším označením Sender Permitted From. SPF umožňuje pro danou doménu jednoduchým způsobem definovat servery nebo jednotlivé počítače, ze kterých je možné odesílat e-mailové zprávy s odchozí adresou pocházející z této domény. 26
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
Autorizované stroje pro danou doménu se definují v takzvaném SPF záznamu, který je zapsán v DNS. Na rozdíl od DomainKeys se pro uložení SPF záznamu nepoužívají žádná speciální doménová jména, ale přímo TXT záznam dané domény Pro SPF záznamy je definován jednoduchý jazyk podrobně popsaný v [11] v sekci 3 a 4. Pomocí něj je možné uvádět přímo doménová jména, popřípadě IP adresy počítačů nebo celých sítí. Jazyk však obsahuje i obecná pravidla, pomocí nichž lze povolit odesílání e-mailových zpráv například ze všech serverů, které jsou uvedeny v MX záznamu odesílající domény nebo počítačům, jejichž IP adresa se překládá na jméno v dané doméně. U každého pravidla je možné specifikovat prefix udávající, jakým způsobem bude hodnocena zpráva pocházející z počítače, který splňuje dané pravidlo. Možné prefixy jsou popsány v tabulce 3.1. Prefix +
Název pass
fail
7
neutral
softfail
Popis počítače odpovídající následujícímu pravidlu jsou oprávněny odesílat e-mailové zprávy z dané domény následující pravidlo specifikuje počítače, které nejsou oprávněny odesílat e-mailové zprávy z dané domény počítače specifikované následujícím pravidlem nejsou pomocí SPF pro danou doménu nijak ome zovány ani zvýhodňovány počítače, které odpovídají následujícímu pravi dlu nejsou oprávněny odesílat e-mailové zprávy z dané domény, je však možné, že zprávy odchá zející z těchto počítačů nejsou podvrženy
Tabulka 3.1: prefixy pravidel SPF jazyka
Například záznam: priklad.cz
IN
TXT
" v = s p f l +mx + p t r
-all"
povoluje odesílání e-mailových zpráv z domény p r i k l a d . c z všem ser verům, které jsou v uvedeny v MX záznamech této domény (jsou jejími poštovními servery) a dále všem počítačům, které mají v této doméně re verzní DNS záznam. V případě, že je e-mail odeslán z jiného stroje, má se brát jako podvrh. Jazyk pro SPF záznamy rovněž obsahuje direktivy umožňující přesmě27
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
rování nebo vložení pravidel z jiné domény Tímto způsobem je možné jednoduše spravovat SPF pro více domén, které používají pro odesílání e-mailových zpráv stejné poštovní servery (například více domén jedné organizace). Veškerá další činnost potřebná pro ověření odesílající domény probíhá pouze na přijímajícím poštovním serveru. Na rozdíl od DomainKeys nepo užívá SPF pro určování odesílající domény údaje z hlaviček e-mailu, ale ze SMTP příkazů HELO (EHLO) nebo MAIL FROM:, tedy z obálky zprávy. Po zjištění odesílající domény provede server DNS dotaz na TXT záznam této domény a podle obdržených dat ohodnotí příchozí zprávu sedmi možnými způsoby: •
None — bez výsledku. Odesílající doména nemá SPF záznam.
•
Neutral — neutrální výsledek. SPF politika odesílající domény danou zprávu nijak neomezuje ani nezvýhodňuje.
•
Pass — pozitivní výsledek. Příchozí zpráva splňuje SPF politiku ode sílající domény.
•
Fail — negativní výsledek. Hodnocená zpráva nesplňuje SPF politiku odesílající domény.
•
Soflfail — částečně negativní výsledek. Daná zpráva nesplňuje SPF po litiku odesílající domény, nelze však s jistotou říci, že se jedná o podvrh.
•
Error — chyba. Výsledek indikuje chybu při DNS dotazu.
•
Unknown — neznámá chyba. Došlo k chybě při zpracování SPF zá znamu.
Podle výsledku SPF hodnocení je potom možné uplatňovat další politiky pro doručování zpráv. CallerID Paralelně k SPF publikovala společnost Microsoft vlastní technologii nazva nou CallerID, která fungovala stejném principu jako SPF se dvěma násle dujícími rozdíly: •
V TXT záznamech používá CallerID pro definici autorizovaných ser verů jazyk XML. Na jednu stranu jde o pěkné a čisté řešení, které navíc 28
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
usnadňuje parsing 3 dané specifikace, neboťjej lze svěřit již existujícím knihovnám. •
Místo použití SMTP příkazů a dat z obálky e-mailu zjišťuje CallerID adresu odesílatele z hlaviček zprávy pomocí takzvaného Purported Responsible Address (PRA) algoritmu, který je popsán v [12].
SenderID V rámci standardizační organizace IETF vznikla skupina MARID, která měla zajistit definici společného standardu. Výsledkem její práce byl návrh, který kombinuje výše popisované techniky SPF a CallerID, označovaný jako SenderID. Tímto návrhem bohužel veškeré další standardizační snahy zatím skončily. Problémovým faktorem je patentování některých klíčových částí technologie CallerID/SenderID společností Microsoft a potom licence, která do budoucna nevylučuje zpoplatnění používání tohoto standardu. Jelikož Microsoft odmítl v tomto ohledu udělat jakékoli změny, ukončila skupina MARID v září roku 2004 svoji činnost. Dnes už je technologie SenderID pouze samostatnou iniciativou společnosti Microsoft. 3.2.3 Sociologický přístup V [13] je představena zajímavá zatím obecně nepoužívaná technika založená na sociálních sítích a teorii grafů. V konceptu sociálních sítí je klíčové posouzení vlivu cizinců. Autoři se podobným způsobem snaží zachytit vazby uživatele elektronické pošty, je hož virtuální sociální síťbudují výhradně z informací o odesílateli a příjemci získaných z hlaviček e-mailových zpráv. Tuto síťpoužívají k rozlišení zpráv pocházejících z uživatelova okruhu přátel a známých a spamu, tedy zpráv pocházejících od neznámých uživatelů. S využitím znalosti fungování sociálních sítí vytvořili autoři automatický antispamový filtr, který je schopen pomocí analýzy elektronické korespon dence uživatele rozpoznat a oddělit od sebe síť známých uživatelů a pod sítě generované sparném. Při empirických pokusech bylo na jednotlivých schránkách dosaženo 53 % pokrytí při 100 % přesnosti. Zbývající zprávy algoritmus nedokázal klasifikovat. Nicméně i tak má tento přístup dvě výhody. Nevyžaduje žádné zásahy ze strany uživatele ani asistované učení a současně vykazuje nulovou míru chybovosti. Tyto vlastnosti jsou natolik silné, že podle autorů by mohli být 3. procházení a rozbor
29
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
základem pro komplexní systém boje proti nevyžádané poště v součinnosti se sofistikovanějšími technikami, které analyzují obsah zpráv. 3.3
Rozpoznávání podle obsahu
3.3.1 Rozpoznávání na základě pravidel Tato technika funguje na základě vyhledávání vzorů, které se často vyskytují ve spamu. V obsahu e-mailové zprávy se vyhledávají vzory, které naznačují, že by zpráva mohla být spam: klíčová slova popřípadě shluky slov nebo celé fráze, časté výskyty velkých písmen, dlouhé řetězce vykřičníků, syntakticky nekorektní hlavičky atp. Základem této techniky je databáze pravidel, která popisují vyhledá vané vzory. Její úspěšnost závisí právě na kvalitě těchto pravidel a jednot livé implementace se v tomto směru velmi liší. Například dříve používané antispamové filtry označovaly jako spam i zprávy, které obsahovaly pouze klíčová slova. Takový postup vykazuje poměrně velkou chybovost a díky technikám, které používají spameři pro modifikaci obsahu zpráv, také ma lou úspěšnost. Postupem času se však pravidla pro rozpoznávání častých vzorů zdokonalovala a v dnešní době je možné setkat se s implementacemi, které dosahují úspěšnosti 90-95 %. Dosažení lepších výsledků pomocí speci fikace přísnějších pravidel není možné, neboťby se zvýšila už tak poměrně velká míra chybovosti (téměř 0,5 %). Další nevýhodou této techniky je statičnost pravidel. Pokaždé, když spameři použijí nové triky nebo techniky, je nutné přidat nová pravidla nebo upravit stávající. Spameři běžně testují své zprávy pomocí nejrozšířenějších antispamových filtrů, na Internetu dokonce existují volně dostupné webové stránky, které tyto testy provádí 4 . Velkou výhodou techniky rozpoznávání e-mailových zpráv na základě pravidel je její snadná použitelnost na úrovni poštovního serveru. 3.3.2 Kontrolní součty Jedná se o techniku pracující na základě porovnávání příchozí e-mailové zprávy se zprávami v databázi známých spamů. Při porovnávání se však nepoužívají celé zprávy, ale jen jejich kontrolní součty vytvořené pomocí hašovacích funkcí. Jedinečnost kontrolních součtů je zaručena vlastnostmi hašovacích funkcí. 4. http://spamcheck.sitesell.com/
30
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
Spamy ukládané do databáze jsou získávány pomocí nastražených ad res, takzvaných honey pots. Tyto e-mailové adresy nepatří žádnému skuteč nému koncovému uživateli a jsou uveřejněny na Internetu takovým způso bem, že běžný uživatel je nemůže jednoduchým způsobem získat. K adre sám se tedy dostanou jen spameři, respektive jejich programy, které získávají e-mailové adresy z Internetu. Každá zpráva, která přijde na takovou adresu je s velkou pravděpodobností spam. Pro zajištění větší důvěryhodnosti se příchozí zpráva kontroluje a v případě, že se opravdu jedná o spam, spočítá se její kontrolní součet, který se potom uloží do databáze. Výhodou kontrolních součtů je nulová chybovost. Na druhou stranu se však jedná o techniku, kterou lze velmi snadno oklamat přidáním ná hodného textu do každé kopie spamu. Z tohoto důvodu bývají konkrétní implementace doplněny o techniky rozpoznávání náhodného šumu přida ného do zprávy. I zde jsou bohužel spameři ve výhodě, neboťv případě, že antispamový filtr rozpozná a odstraní jeden druh přidávaného šumu, mo hou operativně použít některý jiný způsob přidávání náhodných informací. Stále však existuje jisté množství spamerů, kteří rozesílají stejné kopie jedné zprávy. Úspěšnost techniky kontrolních součtů je asi 65 % [14]. Opět se jedná o techniku, která je velmi snadno použitelná na úrovni e-mailového serveru.
3.3.3 Statistické metody Bayesovská klasifikace Bayesovská klasifikace je nejmodernější široce používanou technikou pro rozpoznávání spamu fungující na základě asistovaného učení. Ze všech do stupných technik vykazuje nejvyšší úspěšnost, která běžně dosahuje 99 %, při zachování velmi nízké míry chybovosti. Konkrétní implementace mo hou v případě kvalitního učení dosahovat ještě vyšší úspěšnosti, která se pohybuje kolem hodnoty 99,9 %. Bayesovský klasifikátor funguje na velmi jednoduchém statistickém principu. Pro každé známé slovo si pamatuje pravděpodobnost, že e-mail, ve kterém se slovo vyskytuje, je spam. Celková pravděpodobnost, že pří chozí e-mailová zpráva je spam se počítá z pravděpodobností jednotlivých slov obsažených v dané zprávě. Před prvním použitím bayesovského klasifikátoru je nutné provést jeho iniciální naučení. K tomu potřebujeme dvě množiny e-mailových zpráv, z nichž jedna obsahuje pouze spam a druhá pouze ham. Pro každé slovo w obsažené v těchto zprávách se spočítá pravděpodobnost, že e-mail obsahu31
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
jící toto slovo je spam (pspam(w)) jako podíl: P spamyLU )
s(w) a(w)
kde s(w) je počet spamů, ve kterých se slovo vyskytuje slovo w a a(w) je počet všech e-mailových zpráv obsahujících slovo w. Dále se spočítá prav děpodobnost, že e-mail obsahující slovo w je ham (pham{w)) jako podíl počtu hamů, obsahujících toto slovo h(w) a hodnoty a(w) nebo také jednodušeji: Vham{w)
= 1
-Vspam{w)
Pro jednotlivá slova se obě dvě hodnoty se uloží do databáze. Při hodnocení příchozí e-mailové zprávy se pro všechna známá slova v ní obsažená slova vyhledají příslušné hodnoty pspam(w) a Pham{w). Další postup je čistě statistický. Celková pravděpodobnost, že e-mail je spam se spočítá vynásobením hodnot pspam{w) pro všechna slova w: ispam
— J_ J_ P spam Wi \ í=l
kde n je počet známých slov ve zprávě a w\, ..,wn jsou jednotlivá slova. Stejným způsobem se z hodnot Pham{w) pro všechna slova w spočítá celková pravděpodobnost, že e-mail je ham: n iham
— J_ J_ PhamyWi) í=l
Podle vypočítaných celkových pravděpodobností Pspam a Pham mohou na daný e-mail aplikovány další lokální politiky pro doručování zpráv. V předcházejícím odstavci je popsán základní pro statistické určování pravděpodobnosti, že daný e-mail je spam nebo ham. V praxi se většinou používají algoritmy mírně modifikované: •
Nepočítá se celková pravděpodobnost Pham- Pro určení, zda je zpráva spam, postačuje hodnota Pspam
•
Při výpočtu celkové pravděpodobnosti se nepočítají váhy všech slov, ale jen přibližně dvaceti nejzajímavějších, tj. takových, jejichž hodnoty Pspam{w) se nejvíce blíží nule nebo jedničce. 32
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
Pro určení celkové pravděpodobnosti se nepoužívá součin pravděpo dobností pro jednotlivá slova, ale jejich geometrický průměr, tedy n-tá odmocnina jejich součinu: P<spam
\ í í P sparnými \í=l
kde n je počet vybraných slov a w\,.., wn jsou jednotlivá slova. Geome trický průměr zajistí rovnoměrnější rozprostření výsledných hodnot v intervalu jO,l^. Jako „slova" je možné brát například i údaje z hlaviček zprávy, různé shluky znaků vzniklé po rozdělení slov falešným značkami jazyka HTML, samotné značky jazyka HTML, slova prokládaná různými znaky nebo bezprostředně následovaná řetězcem vykřičníků, stejná slova odlišující se různou skladbou velkých a malých písmen, URL adresy atp. Pro ilustraci jsou v tabulce 3.2 uvedeny pravděpodobnosti Vspam{w) různých variant slova free5. Varianta free free! FREE FREE! FREE!!! free!!!
Pravděpodobnost 50% 59% 66% 82% 93% 100%
Tabulka 3.2: pravděpodobnostní hodnoty pspam(w) různých variant slova free Největší výhodou bayesovské klasifikace je však její adaptabilita. Kon krétní bayesovský klasifikátor je možné učit pomocí elektronické korespon dence jednotlivých uživatelů. Předem definovaným způsobem se klasifikátoru předávají spamy i hamy, podle kterých jsou přepočítávány prav děpodobnostní hodnoty pspam(w) a Pham{w) jednotlivých slov obsažených v předávaných e-mailech. Bayesovský klasifikátor se tak velmi snadno do káže přizpůsobit novým druhům spamu i charakteru elektronické kore spondence konkrétního uživatele popřípadě skupiny uživatelů. Z těchto 5. převzato z http://www.lupa.cz/clanek.php37show=3995
33
3. TECHNIKY P R O ROZPOZNÁVÁNÍ SPAMU
důvodů je technika bayesovské klasifikace velmi dobře využitelná přede vším na uživatelské úrovni. Spameři se samozřejmě snaží bayesovské klasifikátory obcházet. U této techniky už to však není tak snadné, jako u některých předchozích. Jed nou z používaných metod je přidávání normálního textu k obsahu spamu. Pokusy o oklamání bayesovské klasifikace tímto způsobem nejsou příliš účinné a závisí na náhodě a kvalitě konkrétní bayesovské databáze. Pro to, aby normální text dokázal snížit celkovou pravděpodobnost, že e-mail je spam, musel by obsahovat slova vyskytující se v běžné korespondenci konkrétního uživatele, který používá danou databázi. Markovovy modely Další statistickou metodou, která může být velmi dobře využitelná pro kla sifikaci e-mailových zpráv jsou Markovovy modely [17]. Jedná se o poměrně složitou techniku, která zatím nebyla žádným způsobem implementována. Podle teoretických úvah by však mohla dosahovat ještě lepších výsledků než bayesovská klasifikace. V případě, že by pro implementaci byly použity Markovovy modely druhého řádu, bylo by možné při výpočtech pravděpo dobností vycházet z dvojic slov na rozdíl od samostatných slov použitých v bayesovské klasifikaci.
34
Kapitola 4
Metody omezující šíření spamu 4.1
Greylisting
Greylisting je poměrně nová metoda omezující šíření spamu velmi triviál ním způsobem: odkládá přijetí dopisu. Základem greylistingu je jednodu chá myšlenka vycházející z pravidla ve specifikaci SMTP protokolu, které říká, že v případě neúspěchu při pokusu o doručení e-mailu si odesílající poštovní server uloží tento e-mail do fronty a po uplynutí jisté doby se jej pokusí doručit znovu. Naproti tomu stojí spameři jejichž cílem je rychlé doručení zprávy na co největší množství adres. V drtivé většině případů, kdy se nepodaří dopis doručit na některou z obrovského množství cílových adres, se už spameři nepokouší doručit dopis znova. Při přijímání každého e-mailu vytvoří poštovní server, na kterém je na sazen greylisting, identifikátor tohoto e-mailu v podobě trojice •
IP adresa odesílajícího serveru,
•
odesílatel podle hlaviček e-mailu,
•
příjemce podle hlaviček e-mailu.
V případě, že se vytvořený identifikátor nachází v databázi známých komunikačních partnerů, poštovní server e-mail přijme a doručí podle dal ších lokálních politik. Jestliže se jedná o dosud neznámý identifikátor, poš tovní server odmítne dopis přijmout a ohlásí odesílajícímu stroji dočasnou nedostupnost služby. Zároveň si tento identifikátor zavede do databáze za kázaných komunikačních partnerů společně s časovým razítkem, předem určenou dobu (většinou desítky minut až jedna hodina), po kterou bude dopisy se stejným identifikátorem dále odmítat, a opět předem určenou dobou životnosti tohoto záznamu (většinou jednotky hodin). Podle pravi del SMTP protokolu má odesílající server v takovém případě s určitými přestávkami opakovat pokusy o doručení. Pokud se tak stane po uplynutí výše zmíněné doby určené pro blokování zpráv s daným identifikátorem, 35
4. METODY OMEZUJÍCÍ ŠÍŘENÍ SPAMU
přijímající poštovní server přijme daný e-mail, přesune jeho identifikátor z databáze zakázaných komunikačních partnerů do databáze známých ko munikačních partnerů a nastaví u něj velkou životnost (například jednotky měsíců), která se navíc při každém úspěšně doručeném dopisu prodlužuje. Tímto je zajištěno, že dopisy od obvyklých komunikačních partnerů budou při doručování zpožděny jen jednou — při doručení prvního s daným iden tifikátorem. V případě, že se odesílající poštovní server nepokusí znova doručit daný e-mail, je odpovídající identifikátor po uplynutí doby jeho životnosti vymazán z databáze zakázaných komunikačních partnerů. Z výše uvedené charakteristiky je zřejmé, že greylisting je možné po měrně snadno obejít. Například tak, že spamer rozešle stejné zprávy dva krát, přičemž druhou sérii zpráv odešle například dvě hodiny po té první. Další možností je nalezení a použití vhodného zprostředkovatele, například open-relay poštovního serveru, který je ochotný zprávy od spamera převzít a zajistit jejich další rozeslání. Drtivá většina spamerů však tyto postupy nepoužívá, neboť podle výsledků šestitýdenního pozorování greylistingu jeho autory [16] se na běžném poštovním serveru za tuto dobu objevilo ne uvěřitelných 97 % identifikátorů pouze jednou, aniž by se odesílatel pokusil doručit zprávu podruhé. Výraznou výhodou greylistingu je to, že dopis je odmítnut už při při jímání, což znamená, že se nepřenáší jeho obsah. To šetří jak přenosovou kapacitu sítě, tak výpočetní výkon přijímajícího poštovního serveru. Greylisting samozřejmě není dokonalý. V současné době ovšem dokáže velmi výrazně redukovat objem spamu, čímž značně ulehčuje ostatním spolu s ním použitým antispamovým technikám.
4.2
FFB
FFB je zkratka anglického termínu Filters that Fight Back. Jedná se o myšlenku založenou na reakci na příchozí spam. Téměř 95% spamu obsahuje odkaz na internetové stránky. V případě, že by antispamové filtry automaticky přistupovaly na odkazy uvedené v rozpoznaném spamu, znamenalo by to enormní zátěž pro servery provozující spamerské internetové stránky a linku, kterou jsou tyto servery připojeny k Internetu. V obou případech to pro spamery znamená zvýšení nákladů. Problémem FFB je, že mohou být rozesláním falešného spamu zneužity k útoku na nevinné internetové stránky. Tomu je možné zabránit přidáním černé listiny odkazů vyskytujících se pouze ve spamech. FFB by tak mohly přistupovat pouze na odkazy nalezené ve spamech a zároveň uvedené 36
4. METODY OMEZUJÍCÍ ŠÍŘENÍ SPAMU
na černé listině. Důvěryhodnost samotných černých listin však může být slabým místem. Další nevýhodou této techniky je její podobnost s takzvanými denial of service, DoS útoky. Podle většiny definicí se však o DoS útoky nejedná, ale i přesto se najde jisté množství organizací, administrátorů, popřípadě koncových uživatelů, kteří zaujmou k této technice odmítavý postoj. 4.3
Pozdržení odesílatele
Pozdržení odesílatele je spekulativní myšlenka založená na faktu, že zisk spamerů se odvíjí od množství odeslaných zpráv. Důvodem tohoto faktu je nízká míra odezvy na spamové zprávy. Spameři tak musí pro oslovení potřebného počtu uživatelů rozesílat obrovské množství zpráv. V případě, že bychom dokázali snížit rychlost rozesílání zpráv, spameři by nemohli rozesílat potřebné množství zpráv a jejich zisk by tak podstatně klesl. Jednou z možností, jak dosáhnout zpomalení odesílání zprávy je tak zvaná platba procesorovým časem. Odesílající poštovní server by musel před odesláním zprávy provést jistý přiměřeně časově náročný výpočet. Právě určení náročnosti výpočtu je jedním z problémů této myšlenky. Vý počet by musel být tak náročný, aby dokázal účinně pozdržet rozesílání spamu, na druhou stranu by však neměl omezovat běžný e-mailový provoz poštovních serverů s velkým množstvím regulérních uživatelů. Dalším faktorem, který hraje významnou roli, je také výkonnost hard ware. Velmi výkonný hardware, který by dokázal značně urychlit vykoná vání potřebných výpočtů, by opět mohl znamenat výhodu pro spamery Řešení tohoto problému spočívá v návrhu takového výpočtu, který by ne bylo možné jednoduše urychlit použitím speciálního hardware. Další nevýhodou platby procesorovým časem je nutnost zavedení no vých standardů a protokolů. Na druhou stranu, pokud by se podařilo najít vyhovující druh výpočtu a prosadit tuto myšlenku, mohl by se vynucený procesorový čas věnovat užitečným účelům, jako jsou například distribuo vané vědecké výpočty. 4.4
Placená elektronická pošta
Placená elektronická pošta je další spekulativní myšlenkou, která zvyšuje náklady na rozesílání spamu. Jejím základem je placení malého obnosu za každou odeslanou elektronickou zprávu. I v případě, že by cena odeslání jedné zprávy byla jen několik haléřů, znamenalo by to pro spamery neú37
4. METODY OMEZUJÍCÍ ŠÍŘENÍ SPAMU
měrné zvýšení nákladů. Navrhované platební schéma by mělo co nejméně zvyšovat náklady na běžnou elektronickou korespondenci. V případě, že by tomu tak nebylo, po važoval bych možnost zavedení placené elektronické pošty za nereálnou. Dále tato myšlenka opět naráží na problém zavádění nových protokolů a standardů a v tomto případě navíc i byrokracie. Nové protokoly by byly po měrně složité a protože by obsahovaly platební schémata a postupy, musel by být kladen velký důraz na jejich bezpečnost. Ani placená elektronická pošta by však nemusela zastavit nejhorší spamery, kteří by napadali sítě a servery cizích organizací a využívali by k ode sílání spamu jejich zdroje. Dalším velkým problémem by tak bylo zajištění potřebné bezpečnosti sítí a serverů jednotlivých organizací. 4.5
Legislativa
Paralelně s bojem proti spamu na poli informatiky a informačních technolo gií se problému nevyžádané pošty začaly věnovat i zákonodárné instituce. V řadě zemí se diskutuje a přijímá nová legislativa upravující možnosti šíření informací prostřednictvím Internetu, která zahruje mimo jiné i pro blematiku spamu. V principu lze rozlišit dva základní principy poskytování informací: •
opt-out — předpokládá se, že uživatel souhlasí s přijímáním poskyto vaných informací a v případě, že si nepřeje některé informace dostá vat, musí svůj nesouhlas explicitně uvést.
•
opt-in — předpokládá se, že uživatel s přijímáním poskytovaných informací nesouhlasí a může tedy dostávat pouze takové informace, o které předem explicitně požádá.
4.5.1 Spojené státy americké Velmi kontroverzní zákon platí od 1. ledna 2004 ve Spojených státech ame rických. Zákon je znám pod označením CAN-SPAM1. Podle tohoto zákona je v USA povolena distribuce informací pomocí opt-out principu, což vlastně povoluje rozesílání spamu. Na druhé straně však zákon zakazuje spamerům podvrhovat hlavičky e-mailových zpráv, zneužívat open-relay nebo open-proxy servery k rozesílání hromadných zpráv či jiným způsobem zne1.
http://www.ftc.gov/bcp/conline/pubs/buspubs/canspam.htm
38
4. METODY OMEZUJÍCÍ ŠÍŘENÍ SPAMU
užívat cizí zdroje. To, že i takto kontroverzní zákon funguje, dokázaly první žaloby, které se na základě tohoto zákona objevili už v březnu roku 20042. 4.5.2 Česká republika I v naší legislativě se objevují již platné zákony, které mohou postihovat spamery Už 1. června 2002 nabyl účinnosti zákon č. 138/2002 Sb. obsahující pasáž, která zakazuje šíření nevyžádané reklamy, pokud vede k výdajům adresáta nebo pokud adresáta obtěžuje. 7. září 2004 nabyl účinnosti nový zákon č. 480/2004 Sb., který upravuje mimo jiné znění zákona č. 138/2002 Sb. v souladu se Směrnicí Evropského parlamentu a Rady 2002/58/ES, ze dne 12. července 2002. Zákon umožňuje postihy za šíření nevyžádaných obchodních sdělení, bohužel vůbec nepo užívá termín „spam". Termín „nevyžádaná obchodní sdělení" však odpo vídá alespoň jisté podmnožině spamu. Kompetentním úřadem je v tomto případě Úřad pro ochranu osobních údajů (ÚOOÚ). Dalším problémem je, že definované postihy se přirozeně vztahují pouze na nevyžádaná obchodní sdělení pocházející z České republiky, které tvoří asi jen 2 % z celkového množství spamu, který postihuje české poštovní servery 3
2. 3.
http://www.theregister.co.uk/2004/03/10/big_usJsps_setJegal/ http://www.lupa.cz/tzprava.php3?show=1332
39
Kapitola 5
Závěr Ve své práci poskytuji úvod do problematiky spojené s nevyžádanou poštou. Jako motivaci pro boj proti spamu rozebírám charakteristiku nevyžádané pošty, zejména její negativní dopady, důvody její existence a různé metody používané spamery při rozesílání nevyžádaných zpráv. Dále podrobně rozebírám vybrané techniky pro rozpoznávání spamu. Ukázalo se, že samostatné použití pouze jedné jakkoliv sofistikované tech niky je pro úspěšné rozpoznávání a následné filtrování spamu nedostačující. Je tedy nutné zvolit vhodnou kombinaci několika různých technik. V práci popisuji některé osvědčené i moderní techniky pro rozpoznávání spamu. Jejich kombinace by při praktickém použití mohla poskytovat velmi úspěš nou komplexní antispamovou metodu. Zde je třeba poznamenat, že žádná z dosud známých technik pro rozpoznávání spamu nevykazuje stoprocentní účinnost. Techniky pro rozpoznávání spamu a jeho následné filtrování řeší pouze následky šíření nevyžádané pošty a jak vyplývá z kapitoly 2.7, ani sto procentně přesné antispamové filtry by nedokázaly problém nevyžádané pošty vyřešit. Protože množství spamu na Internetu stále roste, je potřeba hledat řešení, která by omezovala jeho další šíření. Z tohoto důvodu jsou v práci diskutovány možnosti rozšíření stávajícího protokolu SMTP a také možnosti návrhu nových protokolů. Práce se pokouší poskytnout pohled na problematiku spamu se zamě řením na možnosti ochrany a prevence. Díky tomu poskytuje základ pro další práci zejména praktického charakteru, která by se zabývala touto pro blematikou. Zajímavým tématem navazující práce by mohlo být podrobné zmapování volně dostupných antispamových systémů, zjištění možností jejich nasazení na středně velkých poštovních serverech, jejich otestování a vyhodnocení úspěšnosti. Další možností by mohlo být vytvoření návrhu vlastního antispamového systému používajícího kombinaci popisovaných metod.
40
Seznam obrázků 2.1 2.2 2.3 2.4
zpráva společnosti Digital Equipment Corporation Green Card Lottery - Final One? 9 první spam Jeffa Slatona 10 nabídka reklamních služeb Jeffa Slatona 11
3.1 3.2
dotaz na RBL s pozitivní odpovědí 22 dotaz na RBL s negativní odpovědí 22
Seznam tabulek 2.1
nejčastěji podvrhované hlavičky e-mailových zpráv
16
3.1 3.2
prefixy pravidel SPF jazyka 27 pravděpodobnostní hodnoty pspam(w) různých variant slova free 33
Literatura [1] Schwartz, Alan, Garfinkel, Simson. Stopping Spam. O'Reilly & Associa tes Inc., 1998. [2] Graham, Paul. Stopping Spam. Dokument dostupný na URL h t t p : / / w w w . p a u l g r a h a m . c o m / s t o p s p a m . h t m l , říjen 2003. [3] Graham, Paul. A Plan for Spam. Dokument dostupný na URL h t t p : / / w w w . p a u l g r a h a m . c o m / s p a m . h t m l , říjen 2002. [4] The Definition of Spam. The Spamhaus Project. Dokument dostupný na URL h t t p : / / w w w . s p a m h a u s . o r g / d e f i n i t i o n . h t m l . [5] Farmer, James. The Evils of Spam. Dokument dostupný na URL h t t p : //www. s p a m f a q . n e t / s p a m - e v i l s . s h t m l , prosinec 2003. [6] Keizer, Gregg. Users To Blame For Spam. TechWeb, The Business Tech nology Network. Zpráva dostupná na URL h t t p : / / w w w . t e c h w e b . c o m / w i r e / s e c u r i t y / 1 5 9 9 04 882, březen 2005. [7] Westley, Christopher. The Economics of Spam. The Freeman: Ideas on Liberty. Dokument dostupný na URL h t t p : //www. f e e . o r g / v n e w s . p h p ? n i d = 5 6 6 2 , listopad 2003. [8] McWilliams, Brian. A Plan for Spam Folders. O'Reilly Network. Doku ment dostupný na URL h t t p : / / w w w . o r e i l l y n e t . c o m / p u b / a / n e t w o r k / 2 0 0 5 / 0 1 / 2 0/spamf o l d e r , h t m l , leden 2005. [9] Chenault, Daniel. Content Security in the Enterprise — Spam and Beyond. Windows IT Pro Magazine. [10] Domain-based Email Authentication Using Public-Keys Adverti sed in the DNS (DomainKeys). Dokument dostupný na URL
http://www.ietf.org/internet-drafts/draft-delany-do mainkeys-base-02.txt. 43
LITERATURA
[11] Sender Policy Framework (SPF), A Convention to Describe Hosts Authorized to Send SMTP Traffic. Dokument dostupný na URL h t t p : / / s p f . p o b o x . c o m / s p f - d r a f t - 2 004 0 6 . t x t . [12] Purported Responsible Address in E-Mail Messages. Dokument dostupný na URL h t t p : / / w w w . i e t f . o r g / i n t e r n e t - d r a f t s / d r a f t - l y o n-sender id-pra-00. [13] Boykin, R Oscar, Roychowdhury, Vwani. Personal Email Networks: An Effective Anti-Spam Tool. Dokument dostupný na URL h t t p : / / a r x i v . o r g / p d f / c o n d - m a t / 0 4 0 2 1 4 3 , ú n o r 2004. [14] Signature Based Spam Filters. Dokument dostupný na URL http://www.emailcash.com/signature-based-spam-filte r s .html. [15] Graham, Paul. Filters that Fight Back. Dokument dostupný na URL h t t p : / / p a u l g r a h a m . com/f f b . h t m l , říjen 2003. [16] Harris, Evan. The Next Step in the Spam Control War: Greylisting. Dokument dostupný na URL http://projects.puremagic.com/greylisting/whitepaper .html. [17] Rabiner, L. R., Juang, B. H. An introduction to hidden Markov models IEEE ASSP Magazine, strana 4-15, leden 1986.
44