1 SPAM Studie omtrent de problematiek, gevolgen en juridisch/technische maatregelen ter bestrijding of voorkoming Studiegebied Industriële Wetenschapp...
SPAM Studie omtrent de problematiek, gevolgen en juridisch/technische maatregelen ter bestrijding of voorkoming
Studiegebied Industriële Wetenschappen en Technologie Opleiding Elektronica Optie Multimedia en Informatietechnologie Academiejaar 2005-2006
Jeroen Callens
Voorwoord
Voorwoord Dat het Internet veel voordelen heeft, is stilaan wel duidelijk: het is hét multimediaal communicatiemiddel bij uitstek, en sinds de opkomst van breedbandinternet hebben steeds meer mensen een aansluiting op het werledwijde web. Communicatie is nog nooit zo snel en eenvoudig geweest, maar helaas heeft ook deze medaille een keerzijde. Iedereen die een e-mail adres heeft wordt, er vroeg of laat mee geconfronteerd: ongewenste e-mail. Vaak is er geen ontsnappen aan en krijg je iedere dag weer je lading spam in je mailbox. In dit eindwerk gaan we verder in op deze problematiek, en bekijken we mogelijke oplossingen om de ongewenste e-mail aan banden te leggen. Deze thesis kon niet tot stand kunnen komen zonder de hulp die mij aangereikt werd. In eerste instantie wil ik hiervoor mijn promotor, Filip de Pauw, danken voor zijn suggesties en raadgevingen doorheen mijn eindwerk. Anderzijds wil ik van de gelegenheid gebruik maken om het voltallige PIH-korps te danken voor de interessante lessen die ik er heb mogen bijwonen gedurende de voorbije jaren. Dit alles was uiteraard nooit gelukt zonder de hulp en motivatie van mijn ouders, vrienden en iedereen die ik mogelijks vergeten ben: van harte bedankt en veel leesplezier.
2
Inhoudstafel
Inhoudstafel Voorwoord.................................................................................................................. 2 Inhoudstafel ............................................................................................................... 3 Gebruikte symbolen en afkortingen .............................................................................. 8 Lijst van tabellen, figuren en kaarten............................................................................ 9 Hoofdstuk 1:
5.1 Vervelendheidsfactor .........................................................................................44 5.2 Kosten..............................................................................................................45 5.2.1 Kosten voor de gebruiker ............................................................................45 5.2.2 Kosten voor de ISP .....................................................................................46 5.2.3 Kosten voor de bedrijven.............................................................................46 5.2.4 Kosten voor Internet backbones ..................................................................47 5.3 Spam en legaliteit .............................................................................................47 5.4 Privacy .............................................................................................................48 Hoofdstuk 6:
Methodologie van een spammer ........................................................49
6.1 Het verkrijgen van e-mail adressen ....................................................................49 6.1.1 Social engineering.......................................................................................49 6.1.2 E-mail harvesting ........................................................................................49 6.1.3 Dictionary attacks .......................................................................................52 6.1.4 Opt-out en webbugs ...................................................................................52 6.1.5 Lijsten kopen of huren.................................................................................52 6.2 Honeypots ........................................................................................................53 6.3 Spam tools .......................................................................................................53 6.4 Technieken om spam-filters te omzeilen .............................................................56 6.4.1 Contextuele technieken (obfuscation)...........................................................56 6.4.2 Verzend technieken.....................................................................................62 6.5 Effectiviteit van spammen..................................................................................73 Hoofdstuk 7:
Opzetten van een legale e-marketing strategie ...................................75
Hoofdstuk 8:
Spam en Wetgeving..........................................................................77
8.1 Opt-in versus opt-out ........................................................................................77 8.2 Europa .............................................................................................................77 8.2.1 België.........................................................................................................78 8.2.2 Andere Europese lidstaten ...........................................................................80 8.3 Verenigde Staten ..............................................................................................85 8.3.1 Staat niveau ...............................................................................................85 8.3.2 Federaal niveau ..........................................................................................85 8.4 Andere .............................................................................................................87 4
Inhoudstafel 8.5 Problematiek van de spam wetgeving.................................................................87 8.5.1 Europese richtlijnen.....................................................................................87 8.5.2 CAN SPAM act.............................................................................................88 8.5.3 De wet en ISPs ...........................................................................................88 8.5.4 Algemeen ...................................................................................................89 8.6 Opmerkelijke cases ...........................................................................................90 8.6.1 Microsoft versus Scott Richter ......................................................................90 8.6.2 Computer misuse act...................................................................................90 8.6.3 Jeremy Janes..............................................................................................90 8.6.4 E-mail blokkeren verboden ..........................................................................91 Hoofdstuk 9:
Literatuurlijst ...........................................................................................................174 Bijlagen ...................................................................................................................180 Bijlage I: Eerste spam mail van DEC ......................................................................180 Bijlage II: Canter & Siegel E-mail ...........................................................................181 Bijlage III: Uittreksel uit de Europese richtlijnen omtrent ongewenste communicatie.182 Bijlage IV: Sparse Binary Polynomal Hashing: Z-polynoom en zijn coëfficënten.........183 Bijlage V: Categorisatie van een e-mail door middel van neurale netwerken .............184 Bijlage VI: Stappenplan van een phishing aanval ....................................................185 Bijlage VII: JavaScript DOM attack .........................................................................186
7
Gebruikte symbolen en afkortingen
Gebruikte symbolen en afkortingen ISP:
Internet Service Provider
IP:
Internet Protocol
RFC:
Request for Comments
SMTP: Simple Mail Transfer Protocol HTML: Hypertext Markup Language URL:
Universal Resource Locator
DNS: Domain Naming System MX:
Mail eXchange
HTTP: HyperText Transfer Protocol UBE:
Unsolicited Bulk E-mail
UCE:
Unsolicited Commercial E-mail
IRC:
Internet Relay Chat
CSS:
Cascading Style Sheet
XSS:
Cross Site Scripting
DOM: Document Object Model
8
Lijst van tabellen, figuren en kaarten
Lijst van tabellen, figuren en kaarten Fig. 1.1: OSI versus TCP/IP (Bron: Cisco) ....................................................................13 Fig. 1.2: Structuur van een IP-Packet (Bron: Cisco) ......................................................14 Fig. 1.3: TCP sequentie .............................................................................................15 Fig. 1.4: De DNS hiërarchie (Bron: Microsoft)...............................................................19 Fig. 1.5: De DNS rootservers (Bron: Linux-France) .......................................................20 Fig. 1.6: De e-mail infrastructuur ................................................................................21 Fig. 2.1: Laurence Canter en Martha Siegel..................................................................28 Fig. 2.2: E-mail classificatie (Bron: Proofpoint) .............................................................29 Fig. 2.3: Evolutie van spam doorheen de jaren (Bron: MessageLabs) ............................30 Fig. 3.1: Type spam indeling per ontvanger (Bron: Mirrapoint)......................................32 Fig. 3.2: Messenger service spam................................................................................34 Fig. 3.3: Wiki spam ....................................................................................................35 Fig. 3.4: Ping flood naar 192.168.123.1 .......................................................................37 Fig. 4.1: Spam e-mail categoriën (bron: Clearswift, Augustus 2005) ..............................42 Fig. 5.1: Vervelendheidsfactor van spam per categorie (Bron: Gartner) .........................44 Fig. 6.1: Architectuur van een spider ...........................................................................50 Fig. 6.2: Usenet e-mail harvesting ...............................................................................51 Fig. 6.3: Bronnen van adressen (Bron: CDT)................................................................53 Fig. 6.4: Advanced Mass Sender, KBB software LLC......................................................54 Fig. 6.5: AMS connectie mogelijkheden........................................................................55 Fig. 6.6: onzichtbare tekst in e-mail header .................................................................57 Fig. 6.7: Netwerk met een proxy server .......................................................................66 Fig. 6.8: WMF exploit (bron: cert.org) .........................................................................68 Fig. 6.9: Structuur van een zombie netwerk (Bron: windowssecurity.com) .....................70 Fig. 6.10: Zombie netwerk met dynamic DNS (Bron: windowssecurity.com)...................71 Fig. 6.11: Zombie netwerken in de loop van 2001-2006 (Bron: ordb.org) ......................73 Fig. 9.1: Het netstat commando ..................................................................................94 Fig. 10.1: Anti-spam technieken ..................................................................................95 Fig. 10.2: Plaatsing anti-spam filter .............................................................................96 Fig. 10.3: Performantie anti-spam filters (Bron: Tumbleweed) ......................................97 Fig. 10.4: Het greylisting principe ................................................................................99 Fig. 10.5: Digital Signature .......................................................................................104
9
Hoofdstuk 1: Inleidende begrippen
Fig. 10.6: DomainKeys structuur ...............................................................................108 Fig. 10.7: Invloed van delay op e-mail doorvoer.........................................................113 Fig. 10.8: Invloed van spam window op e-mail doorvoer ............................................114 Fig. 10.9: DMTP afzender classificatie........................................................................116 Fig. 10.10: DMTP structuur .......................................................................................117 Fig. 10.11: Verwachte opbrengst per tijdseenheid ......................................................119 Fig. 10.12: Impact spam ontvangst op opbrengst.......................................................119 Fig. 10.13: Heuristieken regels..................................................................................120 Fig. 10.14: Flowchart van een taalfilter......................................................................121 Fig. 10.15: Leercurves voor k=3,7 en 21 ...................................................................130 Fig. 10.16: K-NN hyperspace weging met d=1,2,3 .....................................................131 Fig. 10.17: Bouwstenen van een neuraal netwerk ......................................................132 Fig. 10.18: Het ARTMAP-systeem ..............................................................................133 Fig. 10.19: Detectieratio bij gebruik van neurale netwerken........................................133 Fig. 10.20: simulatieopstelling voor filteranalyse.........................................................137 Fig. 10.21: Resultaten analyse anti-spam filters .........................................................137 Fig. 10.22: Flowchart van gecombineerde spamfiltering..............................................139 Fig. 11.1: Phishing sites Dec '04 - Dec '05 (Bron: APWG)............................................140 Fig. 11.2: SSL transactiefases (Bron: SSi) ..................................................................142 Fig. 11.3: Twee factoren authenticatie.......................................................................144 Fig. 11.4: Trojan/Worm aanval (Bron: McAfee Research)............................................146 Fig. 11.5: Phishing via misleidende e-mail (Bron: McAfee Research) ............................147 Fig. 11.6: Spyware phishing aanval (Bron: McAfee Research) .....................................148 Fig. 11.7: Phishing technieken ..................................................................................149 Fig. 11.8: Andere link dan weergegeven ....................................................................150 Fig. 11.9: SQL-injectie ..............................................................................................153 Fig. 11.10: XSS type 0 aanval ...................................................................................154 Fig. 11.11: XSS Type 1 phishing aanval .....................................................................154 Fig. 11.12: Bank of America phishing e-mail ..............................................................155 Fig. 11.13: Session attack phishing (Bron: NGSSoftware Insight Security Research) .....158 Fig. 11.14: Spear phishing voorbeeld (Bron: antiphishing.org) ....................................160 Fig. 11.15: Model van een phishing aanval op een E-bay gebruiker .............................160 Fig. 11.16: Classificatie van vertrouwde en onvertrouwde zenders ..............................167 Fig. 11.17: Resultatentabel van de antiphishing filter..................................................170
10
Hoofdstuk 1: Inleidende begrippen
Tabel 5.1: Base64 encodering .....................................................................................24 Tabel 7.1: Top 10 Huidige virusaanvallen (Bron: Postini, Augustus 2005) ......................32 Tabel 10.1: Lijst van frequent uitgebuite Windows services...........................................68 Tabel 12.1: Spam wetgeving in Europa (bron: EuroCAUCE ) .........................................84 Tabel 14.1: DMTP performantie factoren ...................................................................117
11
Hoofdstuk 1: Inleidende begrippen
Hoofdstuk 1: Inleidende begrippen In dit eindwerk trachten we de problematiek die er heerst rondom spam te verduidelijken. Naarmate we dieper ingaan op de problematiek zal ook de technologie en de daarbij gaande terminologie complexer worden. Daarom bekijken we eerst enkele basisconcepten die de kijk op het spamprobleem zullen verduidelijken.
1.1 OSI en TCP/IP 1.1.1 OSI OSI (Open System InterCommunications) is een netwerkstandaard voorgesteld in 1982 door ISO (International Organization for Standardization). Dit model geeft een gelaagde structuur die van onder naar boven wordt doorlopen. Iedere laag gebruikt de data van de onderliggende laag en heeft zijn eigen verantwoordelijkheden. Fysieke laag:
Deze staat in voor de verwerking van de bitstroom die via de netwerk interface wordt aangeleverd.
Data link laag:
Zorgt voor de betrouwbaarheid van de communicatie. Er wordt error control en flow control toegepast om de integriteit te verzekeren.
Netwerk laag:
Is verantwoordelijk voor de adressering, routing en het onderhouden van de communicatie.
Transport laag:
Zal de transparante communicatie verzorgen tussen twee eindpunten. Doet aan error correctie en er is mogelijkheid tot QoS 1.
Sessie laag:
Zal de dialoog tussen twee communicerende applicaties onderhouden. Bij fouten in data kan er aan herstel worden gedaan.
Presentatie laag:
Is verantwoordelijk voor de presentatie van de data op gebied van: formaat, codering, compressie en encryptie.
Applicatie laag:
Is de front-end waarmee de gebruiker de communicatie zal opzetten
1
QoS: Quality of Service: een maatstaf waarmee de kwaliteit van de communicatie kan worden
berekend. Deze is afhankelijk van packet loss, error rate en delay.
12
Hoofdstuk 1: Inleidende begrippen
1.1.2 TCP/IP TCP/IP is omstreeks 1970 ontwikkeld door DARPA (US Defense Advanced Research Project Agency), voor hun eigen packet switched militair netwerk: ARPANET. Het protocol werd later geadopteerd tot de facto standaard als protocol stack voor het Internet. TCP/IP is net zoals het OSI-model voorzien van een gelaagde structuur, maar er wordt gebruik gemaakt van slecht 5 lagen in plaats van 7.
Fig. 1.1: OSI versus TCP/IP (Bron: Cisco)
Fysieke laag:
Is verantwoordelijk voor het omzetten van de elektrische stroompulsen aan de netwerk interface in de corresponderende bits.
Netwerk toegang laag:
Zorgt voor het uitwisselen van data tussen het computersysteem en het netwerk.
Internet laag:
Zorgt voor de routering van de datapackets over het netwerk. In TCP/IP communicatie zullen IP packets die taak op zich nemen
Transport laag:
Is verantwoordelijk voor de betrouwbaarheid van de communicatie. Vaak wordt gebruik gemaakt van TCP of UDP.
Applicatie laag:
Is de front-end waarmee gebruikers een TCP/IP communicatie kunnen initiëren of ontvangen
13
Hoofdstuk 1: Inleidende begrippen
IP (Internet Protocol) is een protocol dat op de derde laag van het TCP/IP-model werkt (zie Fig. 1.1). Het zorgt ervoor dat de data, verstuurd in “packets” (ook: datagrammen), bij de juiste afzender terecht komt. Ieder packet bevat 32 bits aan informatie, waarvan de belangrijkste: het adres van afzender en begunstigde, headers die informatie over het packet geven en de uiteindelijke data.
Fig. 1.2: Structuur van een IP-Packet (Bron: Cisco)
De adressen van afzender en begunstigde noemt men IP-adressen. In IPv4 kunnen deze 32 bits bevatten. Deze worden meestal weergegeven als 4 8-bits octetten, gescheiden door een punt. Ieder getal kan een decimale waarde aannemen van 0 tot 255. Iedere systeem aangesloten op het Internet heeft een uniek IP-adres. Voor privé-netwerken, afgescheiden van het Internet bestaat ook zoiets als een “private range”. Dit is een reeks IP-adressen die niet voorkomen op het Internet, maar enkel gebruikt worden in LAN’s 2. Afhankelijk van de grote van je netwerk zijn er drie klasses private IP-adressen beschikbaar. Klasse A:
10.0.0.0 tot 10.255.255.255 (voor grote netwerken, circa 16 miljoen IPadressen beschikbaar)
Klasse B:
172.16.0.0 tot 172.31.255.255 (65000 private adressen mogelijk)
Klasse C:
192.168.0.0 tot 193.168.255.255 (254 mogelijke adressen mogelijk)
2
LAN: Local Area Network. Een groep computersystemen verbonden met elkaar via een netwerk
interface en een transportmedium.
14
Hoofdstuk 1: Inleidende begrippen
Sinds 20 juli 2004 is er ook een IPv6 in gebruik. Door het groeiend aantal gebruikers op het Internet, werd de limiet van 32-bits adressen al gauw duidelijk (2564 mogelijke adressen). Een nieuw adresseringssysteem werd in leven geroepen: IPv6. Deze biedt adressen aan met een lengte van16 bytes. De IP-packets staan niet zelf in voor het transport van het ene systeem naar het andere: daarvoor zorgt de link-laag in het TCP/IP model. Twee mogelijke protocollen die zorgen voor de connectie tussen twee systemen zijn TCP (Transmission Control Protocol) en UDP (User Datagram Protocol). Het Internet maakt voornamelijk gebruik van TCP connecties, vandaar de benaming TCP/IP. TCP communicatie bestaat uit het gebruik van 4 primitieven.
Fig. 1.3: TCP sequentie
Request (REQ):
Een zender zal een REQ sturen om een bepaalde TCP service te starten
Indication (IND):
De ontvanger heeft notie genomen van de REQ van de zender
Response (RESP):
De ontvanger stuurt op zij beurt een signaal naar de zender, om te confirmeren dat hij de request goed ontvangen heeft
Confirm (ACK):
De zender ontvangt de confirmatie van de ontvanger.
Indien de ontvanger na een bepaalde tijd (RTT, Round Trip Time) geen confirmatie geeft (ACK), zal er een time-out gegenereerd worden door de zender. Deze kan op zijn beurt een zogenaamd “SYN”-packet sturen naar de ontvanger. De ontvanger is nu verplicht om zijn status bekend te maken. Indien blijkt dat het packet verloren is gegaan (packet loss), dan zal er een hertransmissie gebeuren. 15
Hoofdstuk 1: Inleidende begrippen
1.2 E-mail E-mail of Electronic Mail is naast het World Wide Web de meest gebruikte applicatie van het Internet. Met de mogelijkheid om elektronisch te reageren, de berichten door te sturen, berichten te ontvangen ook al ben je niet online, bijlagen toevoegen aan je email…is het een zeer populair medium geworden. E-mail is initieel ontwikkeld volgens de RFC 3 822 standaard (1982), maar is later verwerkt en geoptimaliseerd tot RFC 2822. Samen met nog enkele andere RFC’s (RFC 2045 tot 2049) worden ze collectief MIME genoemd: Multipurpose Internet Mail Extensions. Iedere e-mail bestaat uit een header en een body, beide zijn gescheiden van elkaar door een lege lijn. De body bevat het bericht die men wilt versturen. De headers kan men vergelijken met de adresgegevens op een brief: zij zorgen ervoor dat de e-mail bij de afzender(s) komt.
1.2.1 Header Iedere header heeft een naam en een waarde. Volgens de RFC 2822 specificaties zijn er maar 2 header velden verplicht: het datum veld en het adres van de afzender. De 4 belangrijkste header velden die vrijwel altijd terug te vinden zijn in een e-mail zijn: From:
Het e-mail adres met optioneel de naam van de zender
To:
Het e-mail adres en eventueel naam van de ontvanger
Date:
De lokale tijd en datum toen het bericht werd verstuurd
Subject:
Een korte omschrijving van de inhoud van de e-mail. Dit veld is echter optioneel
Daarnaast worden nog andere header velden frequent gebruikt: Cc:
Carbon Copy, wordt gebruikt om een kopie van de e-mail naar andere personen te sturen.
Bcc:
Blind Carbon Copy. De namen van de ontvangers van de kopie worden niet weergegeven in het “To:” veld van de ontvanger
Received:
Informatie over de reisweg van de e-mail, gegenereerd door de e-mail server(s) of relays.
Content-type:
3
Informatie over hoe de inhoud van de e-mail moet worden
RFC: Request For Comments, de facto standaarden op gebied van het Internet worden hierin
geformuleerd. Beheerd door het IETF, Internet Engineering Task Force (http://www.ietf.org).
16
Hoofdstuk 1: Inleidende begrippen
weergegeven Reply-to:
Is een specificatie naar welk adres de replies (antwoorden) van de verstuurde e-mail moeten gestuurd worden. Dit adres hoeft niet het adres van de afzender te zijn.
Message-id:
Message-id is een uniek nummer dat wordt toegewezen aan de e-mail door de eerste mailserver dat de e-mail verwerkt. De Message-id bestaat uit twee delen: een willekeurig cijfer/letter combinatie en de naam van de mailserver die het nummer toegewezen heeft gescheiden door het “@” teken.
Er zijn ook nog een aantal frequent gebruikte X-headers, deze zijn louter informatief en behoren niet tot de RFC standaard: X-mailer:
Hier komt de naam van de gebruikte e-mail software van de afzender te staan. Deze header kan worden gebruikt om zogenaamde bulk email software te detecteren, en bijgevolg de e-mail te filteren.
X-Priority:
Een header die gebruikt wordt om de al dan niet belangrijkheid van de e-mail te onderstrepen
X-Distribution:
Deze header werd in het leven geroepen door de Pegasus email software als een antwoord op het spamprobleem. Een e-mail verstuurd met de Pegasus e-mail software zal bij een voldoende groot aantal ontvangers een header: “X-Distribution: bulk” toegewezen krijgen. Deze kan worden gebruikt om inkomende e-mails te filteren.
1.2.2 Body De opmaak van tekst wordt beschreven in RFC 2822. Deze (de facto) standaard omvatte in origine enkel puur tekstuele e-mails: geen cursieve tekst, figuren of andere opmaak. Toen HTML 4 aan populariteit won, ontwikkelde men een e-mail body die HTML-opmaak alsook figuren kon weergeven (het zogenaamde RTF - Rich Text Format). Ook de beschikbare tekenset werd van ASCII 5 uitgebreid naar Unicode 6 zodat speciale Europese karakters kunnen weergegeven worden.
4
HTML of HyperText Markup Language, ontwikkeld door Tim Berners-Lee in 1991 met als
bedoeling webpagina’s te voorzien van structuur en opmaak. 5
ASCII: American Standard Code for Information Interchange, Amerikaans karakterset dat wordt
gebruikt voor intercommunicatie.
17
Hoofdstuk 1: Inleidende begrippen
1.3 DNS DNS of Domain Name System zal de moeilijk te onthouden IP-adressen van servers vertalen naar een veel makkelijker tekstuele naam (hostname). Zo is bijvoorbeeld het adres http://66.249.93.104 ook bereikbaar als http://www.google.com. Vroeger was er nog geen gecentraliseerd systeem die vertalingen deed van IP-adressen naar hostnames. Toen was er op ieder werkstation een bestand te vinden waarin alle IP-adressen met hun bijhorende hostname vertaling te vinden waren. Dit is het zogenaamde HOSTS-bestand, dat trouwens nog steeds te vinden is in hedendaagse besturingssystemen. Tegenwoordig worden de DNS gegevens opgeslagen in DNS servers. DNS heeft een hiërarchische structuuropbouw (Zie Fig. 1.4). Helemaal bovenaan de top van de structuur staan de root-DNS servers. Er zijn in totaal 13 root servers beschikbaar, deze zijn redundant. De gedistribueerde redundante opzet werd vooral gekozen omwille van veiligheidsoverwegingen. Een ISP kan trouwens de DNS-database lokaal kopiëren op een eigen server, om zo het upstream verkeer van zijn klanten te beperken. Daaronder bevinden zich de TLDs (Top Level Domain). De TLDs kunnen grofweg worden ingedeeld in 2 klasses: •
Generische TLDs: .com, .net, .biz, .mil, .aero,…
•
Land specifieke TLDs: .be,.nl, .fr, …
Het beheer van deze TLDs is in handen van het ICANN 7. Het aanvragen van een generische TLD kan bij een door ICANN gelicensieerde registrar (VeriSign,…). Landspecifieke TLDs worden geregeld per land, deze kunnen worden aangevraagd bij een country manager. Voor België is dit DNS.be. Een DNS vertaling is niet zomaar een naam, deze is immers gestructureerd opgebouwd uit DNS-records, gescheiden door punten. Iedere DNS record wordt verwerkt door de daarvoor voorziene DNS-server. Bekijken we
6
Unicode: Internationale standaard voor het coderen van alle mogelijke karakters die kunnen
worden gevormd in een mensentaal. Als coderingsschema wordt het Unicode Transformation Formats aangenomen als zijnde standaard, momenteel versie UTF-8. 7
ICANN: Internet Corporation for Assigned Names and Numbers, een non-profit organisatie
opgericht op 18 september 1998. ICANN houdt er een publiek/private samenwerking op na met de Amerikaanse overheid. Het beheer van TLDs gebeurde voordien door het IANA (nternet Assigned Numbers Authority)
18
Hoofdstuk 1: Inleidende begrippen de structuur van een FQDN 8 (Fully Qualified Domain Name): www.microsoft.com. Een DNS-server zal FQDNs van rechts naar links verwerken. Er zijn 4 specifieke DNS records te onderscheiden: .
basis van de hiërarchie (root DNS)
com
het .com top level domain
microsoft
het sub level domain “microsoft”, binnen het .com domein
www
de host www binnen het microsoft.com domein
Fig. 1.4: De DNS hiërarchie (Bron: Microsoft)
Een DNS-vertaling wordt gestructureerd verwerkt: iedere DNS-record wordt opgelost door de daarvoor bevoegde name server (authoritative server) . Iedere name server heeft de bevoegdheid over een bepaalde zone. Welke name server welke zone afhandelt, wordt bijgehouden in een zone file. De root servers bevatten de informatie over welke name server de .com, .edu,... adressen afhandelt. Deze name servers bevatten op hun beurt informatie over de specifieke domeinen in dat top level domain. De cumulatie van al deze opzoekingen zal de uiteindelijke conversie opleveren van de FQDN naar zijn equivalente IP-adressering.
8
FQDN: Fully Qualified Domain Name. Praktisch gezien is dit niks meer dan een DNS-record met
een “.”-suffix, duidende op de hiërarchische structuur van het DNS.
19
Hoofdstuk 1: Inleidende begrippen
Fig. 1.5: De DNS rootservers (Bron: Linux-France)
1.4 SMTP SMTP of Simple Mail Transfer Protocol is de RFC 2821 standaard die de levering van emails verzorgt. De e-mails worden verstuurd door middel van mailservers. Deze term is echter iets te generaliserend. We kunnen namelijk vijf zogenaamde message agents onderscheiden (zie Fig. 1.6): •
MUA: Mail User Agent. Dit is de front-end van de e-mail infrastructuur, gericht aan de gebruiker. Voorbeelden zijn clients als Eudora, Thunderbird, Outlook.
•
MTA: Mail Transport Agent. Deze zorgt voor het transport van de e-mail(s) over het Internet.
•
MDA: Mail Delivery Agent. Deze levert de e-mail af in de mailbox van de bestemmeling.
•
MSA: Mail Submission Agent. Deze brengt de e-mail in de e-mail infrastructuur.
•
MAA: Mail Access Agent. Zal de e-mail ophalen uit de messagestore (MS).
De mail user agent van de zender connecteert met de mail transport agent van zijn/haar Internet Service Provider (ISP) op poort 25. Via het SMTP protocol zal de server van de zender de mailserver van de ontvanger opzoeken. Dit doet hij door het MX (Mail eXchange) veld op te vragen bij een DNS. Het MX-veld houdt immers bij welke server een bepaald e-mail adres verwerkt.
De “IN” in het eerste veld van de DNS-query staat voor Internet. Het tweede veld van de query zal het type DNS-record omschrijven. MX:
Mail eXchange. Geeft aan welk systeem mail kan ontvangen/verzenden in een netwerk
A:
Address. Zal een host name vertalen naar het equivalente IP-adres
PTR:
Pointer. Geeft aan welke host (systeem) geassocieerd is met een bepaald adres
SOA:
Start Of Authority, betekent zoveel als: “dit record bestaat niet”
NS:
Name Server, praktisch gezien is dit: “probeer hier je adres op te zoeken”
TXT:
Bevat extra informatie over het DNS-record
De decimale getallen (10 en 20 in dit voorbeeld) duiden een preferentie aan het gebruik van het ene MX record boven het andere. Hoe lager het getal, hoe hoger hun prioriteit is. Het laatste record bevat tenslotte de naam van de Mail Transfer Agent die verantwoordelijk is voor het afhandelen van de e-mail voor het (in dit voorbeeld) howest.be domein. De server zal vervolgens de mail doorsturen naar de mail transport agent van de desbetreffende ontvanger(s), met eventuele tussenstations (de relay servers). De server bewaart de e-mail in de message storage (MS) tot de begunstigde connecteert met de mail access agent (MAA) en zijn e-mails download van de server naar zijn mailbox (MB).
Fig. 1.6: De e-mail infrastructuur
21
Hoofdstuk 1: Inleidende begrippen
Er zijn 2 standaarden om e-mail te ontvangen: POP (Post Office Protocol) en IMAP (Internet Message Access Protocol) . IMAP bevat meer voorzieningen, maar gaandeweg wordt POP3 toch meer frequent gebruikt door zijn simpliciteit. Een typische SMTP sessie
AUTHENTICATIE
zou er als volgt kunnen uitzien (S: server, C: client): S:
220 mail.telenet.be ready
Wanneer de TCP connectie op poort 25 is geopend, geeft de server aan dat hij actief is
C:
HELO 195.249.93.104
Zender vraagt of hij mag zenden, hij geeft ook zijn eigen identiteit.
S:
250 Hello 195.249.93.104
Server geeft aan dat hij klaar is om te ontvangen. Einde van het handshaking.
From: “user” <[email protected]> Message-id: Subject: Info request Date: Mon, Nov 14 2005 12:00:00 -0100 (EST) Hello, This is…
TERMINATIE
. S:
250 OK
Bericht aanvaard
C:
QUIT
De e-mail is ten einde, de SMTP sessie wordt onderbroken door de client
S:
221 BYE
De server beïndigt nu ook de connectie met de client
22
Hoofdstuk 1: Inleidende begrippen
1.5 URL Een URL of Universal Resource Locator geeft aan waar een bepaalde bron te vinden is. Het is ontwikkeld door Tim Berners-Lee 9 voor gebruik op het World Wide Web. De syntax van een URL volgens RFC 1738 is als volgt vastgelegd: <protocol>://<user>:<password>@:<port>//?<parameter>=
Het protocol duidt aan hoe de communicatie moet gebeuren om het aangegeven bestand in de URL te bereiken. Enkele verschillende protocollen zijn: •
http
Het klassieke HyperText Protocol
•
https
http over een beveiligde SSL verbinding
•
ftp
File Transfer Protocol, uitwisseling van bestanden
•
news
De Usenet nieuwsgroepen, een online Internet discussiebord
•
telnet
Het telnet protocol (connecteren naar andere pc’s)
•
gopher
Voorloper van het http protocol. Tegenwoordig in onbruik geraakt
De user en password combinatie laten je vervolgens toe om in te loggen op een server. Men kan een poortnummer specifiëren waarop de bron te bereiken valt. Ieder systeem kan meerdere applicaties draaien die beschikbaar zijn via het Internet, vandaar de nood aan poorten om te kunnen communiceren met deze applicaties. Standaard draait http op poort 80 en ftp op poort 21. Het “?”-teken in de URL geeft aan dat er parameters worden meegegeven aan een bestand, deze worden vaak verwerkt in een database. Voorbeelden van semantisch correcte URLs zijn: http://www.domein.com/members/login.asp?name=user1 ftp://user:[email protected]:21/download
9
Sir Tim Berners-Lee, geboren in London in 1955, word aanzien als grondlegger van het huidige
World Wide Web. Tegenwoordig is hij directeur van het World Wide Web Consortium (W3C) dat toezicht houdt op webtalen en protocollen gebruikt op het Internet.
23
Hoofdstuk 1: Inleidende begrippen
1.6 Base64 encodering Men maakt gebruik van encodering om data efficiënter te kunnen transporteren. Door leesbare karakters voor te stellen als een set van andere karakters (met een zekere logica) tracht men de datahoeveelheid te verminderen (compressie). Op het Internet of in applicaties als e-mail wordt heel vaak gebruik gemaakt van de base64 encodering. Base64 (RFC 2045) was origineel bedoeld om binaire data zoals muziek en afbeeldingen in bijlages te encoderen. Deze encoderingsschema bestaat uit een alfabet van 64 karakters: Tabel 1.1: Base64 encodering
Sequentie
Karakters
0…25
“A”…”Z”
26…51
“a”…”z”
52…61
“0”…”9”
62
“+”
63
“/”
Een binair bestand bestaat uit een opeenvolging van 0 en 1, deze worden per 3 bytes gegroepeerd in segmenten van 6 karakters vandaar base64: 26=64). Deze 6 bits kunnen tenslotte worden gerepresenteerd als 1 karakter, een compressie-factor 6. Stel: we willen “001100110011” encoderen met het Base64 schema. We splitsen deze eerst op in twee 6-bit segmenten: 001100 & 110011. In Base10 notatie zou de waarde van deze segmenten als volgt berekend kunnen worden: 0 * 32 = 0 0 * 16 = 0 1*8=8 1*4=4
Waarde segment 1 = 12
0*2=0 0*1=0
1 * 32 = 32 1 * 16 = 16 0*8=0 0*4=0
Waarde segment 2 = 51
1*2=2 1*1=1
24
Hoofdstuk 1: Inleidende begrippen
We zoeken nu de waarde 12 en 51 op in het Base64 alfabet en we krijgen respectievelijk de waarde “M” en “z”. Naast base64 zijn er nog andere encoderingsschema’s beschikbaar: • 7 bit encodering • 8 bit encodering • Binaire encodering • Quoted printable encodering • Custom encodering
25
Hoofdstuk 2: Wat is spam?
Hoofdstuk 2: Wat is spam? 2.1 Definitie Spam kan men vrijelijk omschrijven als ongewenste e-mail - meestal met promotionele doeleinden - verstuurd naar verschillende ontvangers. Maar als we meer in detail treden, merken we dat er wel degelijk een classificatie te onderscheiden is tussen de soorten ongewenste e-mail: eerst en vooral is er de zogenaamde UBE of ”Unsollicited Bulk E-mail” en anderzijds is er ook nog UCE of “Unsollicited Commercial E-mail”. Dit impliceert twee verschillende denkwijzen over wanneer e-mail nu als spam kan beschouwd worden. Enerzijds alle in bulk verstuurde e-mail of anderzijds de ongewenste - niet noodzakelijk in bulk - verstuurde commerciële e-mails. Volgens SpamHaus (www.spamhaus.org) is een e-mail louter spam als ze: • ongewenst is • in bulk verstuurd is geweest Het weze duidelijk dat zij UBE als spam kwalificeren, dus spam is volgens hun niet louter commerciële e-mail. Een andere grote anti-spam organisatie, CAUCE (Coalition Against Unsolicited Comercial E-mail), houdt er een lichtjes andere opinie op na: spam hoeft niet noodzakelijk in bulk verstuurd te worden, maar ze is wel ongevraagd en heeft commerciële doeleinden. In de realiteit is spam meestal een mix van beide. Vrijwel altijd zijn ze commercieel ingesteld en worden ze in bulk verstuurd teneinde een groter publiek te bereiken. In dit eindwerk gaan we er van uit dat een typische spam e-mail: - ongevraagd verstuurd wordt (“unsolicited”) - een commercieel karakter heeft - massaal -in bulk- verstuurd wordt
26
Wat is spam?
2.2 Historiek De etymologie van het woord “spam” is tot op heden nog altijd betwistbaar, een wijdverspreide theorie - en tevens de algemeen aangenomen theorie - is dat het woord spam afkomstig is van de beruchte Monthy Python “Viking Spam” sketch uit 1970.Het woord “SPAM” is een acroniem voor “SPiced hAM”, ontwikkeld door Hormel Foods. Het product werd op de markt gebracht in 1937 en was heel populaire kost gedurende de 2e wereldoorlog daar het verpakt was in blik en er geen nood was aan een koelkast om het product te conserveren. Een paar jaar geleden nam Hormel Foods legale stappen om hun producten te disassociëren met het synoniem voor “unsolicited bulk e-mail”. Om te verwijzen naar hun product moet je vanaf heden officieel de productnaam in hoofdletters schrijven: “SPAM”. Anderen geloven echter dat de origine van het woord afkomstig is van een MUD-spel uit rond 1980. Een MUD is een virtueel “MultiUser Dungeon”-spelomgeving waar de gameplay gebeurt aan de hand van tekstcommunicatie met andere spelers. MUD’s gebruikten de term spamming als aanduiding voor het overstelpen van een andere speler met berichten. De term spam werd initieel gebruikt in de Usenet-wereld, waarmee wordt gerefereerd naar misbruikers van nieuwsgroepen. Al snel werd deze term overgenomen als benaming voor ongewenste e-mails.
1978 De eerste spam e-mail dateert terug van 1978, waar een reclameboodschap van Digital Equipment Corporation werd verzonden door een zekere Gary Thuerk over het toenmalige ARPANET 10 netwerk. De Arpanet infrastructuur beschikte over een geprinte lijst van alle adressen. Toenmalige e-mail clients waren nog niet zo geavanceerd en de spammer moest bijgevolg alle adressen manueel invoeren in het adresveld. Nog meer ongeluk voor de spammer, want door restricties in de buffer van zijn e-mail client kregen slechts de eerste 320 ontvangers zijn reclameboodschap (Zie Bijlage I:: Eerste spam mail van DEC)
10
ARPANET of Advanced Research Projects Agency Network, werd ontwikkeld door ARPA, een
militaire organisatie van de Verenigde Staten verantwoordelijk voor defensie. Dit netwerk was werelds eerste zogenaamde packet switching netwerk, en voorloper van het hedendaagse Internet.
27
Wat is spam? Gary hoopte dat de ontvangers zouden reageren op zijn invitatie om te leren over DEC’s Arpanet ondersteuning. En dat gebeurde ook, vele mensen traden in (verhitte) discussie over de relatief zware belasting van de massamailing de 56Kbps communicatie infrastructuur. Na hevige discussies besloot DEC echter om geen massamailings meer te verzenden.
1994 In de jaren 80-90 is de spam ontwikkeling op een laag pitje gebleven. De eerstvolgende mijlpaal in de geschiedenis van het spammen is de zogenaamde “Canter & Siegel”-spam (zie bijlage 2). Laurence Canter en Martha Siegel waren beide advocaten die beslisten een programmeur in te schakelen om voor hen een software programma te schrijven dat ze zou toelaten berichten te posten in iedere nieuwsgroep ter wereld. Zo ontstond de eerste “bulk mailer” of massmailer software. Vele mensen waren furieus omtrent deze vervuiling van de Usenet wereld, maar wat nog erger was: Canter & Siegel werden er alleen maar populairder door. Het duo verscheen in de krant, gaven interviews weg,…In korte tijd wist iedereen wie Canter & Siegel waren. Detail: op 5 juni 1997 werd Laurence Canter door de staat Tennessee veroordeeld tot een jaar gevangenisstraf voor spammen.
Fig. 2.1: Laurence Canter en Martha Siegel
Na het Canter & Siegel incident werd deze vorm van reclame pas echt populair. In 1994 begon de groei van spam exponentieel toe te nemen. Begin 1995 begon Jeff Slaton - die zichzelf de “Spam King” kroonde - met zijn bedrijf indirect.com reclame advertenties voor zowel kleine bedrijven als politieke organisaties in bulk te e-mailen. Deze lucratieve handel werd al snel populair en het duurde niet lang (augustus 1995) vooraleer de eerste lijst met e-mail adressen verkocht werd.
28
Wat is spam?
1996 In juli 1996 werd Spamhaus opgericht. Een organisatie die als eerste trachtte een zogenaamde “blacklist”op te stellen. De bedoeling was om een doorzoekbare database op te zetten met IP-adressen, whois 11 gegevens, namen en telefoonnummers van bekende spammers. Heel vaak zijn de servers die deze lijsten bijhouden het slachtoffer van een gerichte aanval, maar tot op de dag van vandaag is Spamhaus nog steeds in omloop met 2 blacklist lijsten: SBL (Spamhaus Black-hole List) en XBL (Exploits Blackhole List).
1997 In 1997 steeg het volume aan spam met een factor 10: vele nieuwe spammers doken op, alsook werden de oudere spammer inventiever: nieuwe types e-mail werden opgesteld, om zo de toen nog primitieve spam filters om de tuin te leiden. Voor het eerst werd ook gebruik gemaakt van de zogenaamde “open relays”. Een open relay is een SMTP-server waarmee derden e-mails kunnen mee verzenden. Vaak is de beheerder van de server onwetend dat hun server gebruikt wordt om massa’s e-mail door te sluizen. Een overzicht met de belangrijkste spam gebeurtenissen kan men vinden op: http://keithlynch.net/spamline.html [1] Sindsdien is spam niet meer weg te denken uit de elektronische wereld, en worden er alsmaar andere inventieve manieren gezocht om ongewenste advertenties te publiceren. Statistieken wijzen uit dat tot op de dag van vandaag ongeveer 60% van het totale e-mail verkeer gegenereerd wordt door spam.
62% Spam 31% Valid Mail 7% Viruses Fig. 2.2: E-mail classificatie (Bron: Proofpoint)
11
WHOIS: een protocol om gegevens van een IP-adres op te vragen uit een database. Whois
gegevens bevatten meestal de naam en contactgegevens van de eigenaar en de DNS server.
29
Wat is spam? Spijtig genoeg merkt men op dat spam steeds meer in criminele handen valt. Doordat spamfilters steeds efficiënter werken zal de spammer trachten andere bronnen van inkomsten te genereren met e-mail: steeds meer en meer worden spam e-mails voorzien van een virus (trojaans paard,…) of tracht men confidentiële gegevens van de gebruiker afhandig te maken (zie hoofdstuk Hoofdstuk 11:, Phishing). Onervaren gebruikers op het Internet kunnen tegenwoordig maar beter op hun hoede zijn. Gelukkig zijn er tegenwoordig al velerlei oplossingen die het Internet een stuk veiliger maken voor de modale gebruiker. Het weze duidelijk dat spam nog steeds een heel relevant probleem is en dat er moet blijven gezocht worden naar oplossingen om het spamverschijnsel de kop in te drukken.
Fig. 2.3: Evolutie van spam doorheen de jaren (Bron: MessageLabs)
30
Spam classificatie
Hoofdstuk 3: Spam classificatie Spam is niet alleen de klassieke ongewenste e-mail die iedere dag onze mailbox teistert. Telemarketing of zelfs de reclamefolders in je brievenbus kunnen worden bestempeld als spam. Tegenwoordig kunnen deze echter niet meer opboksen tegen de elektronische spam: deze is immers vele malen sneller, heeft een veel groter doelpubliek én is vele malen goedkoper. Spammers worden steeds inventiever om hun producten aan de man te brengen. Verschillende elektronische kanalen worden ingezet om hun advertenties kwijt te kunnen. Typerend aan de hedendaagse elektronische technologie is dat ze heel lowcost is: Een e-mail versturen kost -naast de gebruikte bandbreedte - vrijwel niets. Een overzicht van actuele spam-methodes zal je meer inzicht verwerven in de omvang van de spam-problematiek.
3.1 Commerciële e-mail Wellicht de meest bekende spam, zijn de e-mails die de e-mail adressen teisteren. Identieke - of nagenoeg identieke - berichten worden naar een massa bestemmelingen tegelijk verstuurd. Het verschil met de gewone legitieme commerciële e-mail is dat de afzender geen permissie gegeven heeft om die e-mail te versturen. In deze categorie kunnen we het onderscheid maken tussen zogenaamde UBE en UCE email, respectievelijk Unsolicited Bulk E-mail en Unsolicited Commercial E-mail. Onder de categorie UBE verstaan we niet-commerciële bulk e-mail zoals mailinglists, kettingbrieven, hoaxes,… UCE daarentegen heeft wel de bedoeling om winst te genereren voor de zender. Door in te spelen op interesses van hun publiek tracht men iemand te overhalen tot aankoop van hun aangeboden producten of diensten. Er zijn duidelijke trends waarneembaar in het gedrag van de spammer.
31
Hoofdstuk 3: Spam classificatie
Fig. 3.1: Type spam indeling per ontvanger (Bron: Mirrapoint)
In 2005 is er een onderzoek gedaan door Microsoft’s Safety Technology and Strategy Group [2] waaruit duidelijk blijkt dat de niet-grafische seksuele spammails en de verkoop van “natuurlijke geneesmiddelen” in 2004 verdubbeld zijn ten opzichte van 2003. Een andere vaststelling is dat de spammer steeds meer werk moet besteden aan het versturen van hun e-mails. Door gebruik te maken van diverse technieken reageren ze op de steeds beter wordende anti-spam filters. Gevolg van de betere filters die op de markt zijn is dat de spammer steeds meer agressief wordt: er wordt gebruik gemaakt van virussen/spyware of zelfs phishing om zo meer inkomsten te kunnen genereren. Naar schatting 7% van alle e-mail verkeer (zie Fig. 2.2) zou bestaan uit het verzenden van virussen. Tabel 3.1: Top 10 Huidige virusaanvallen (Bron: Postini, Augustus 2005)
1) w32/netsky.d@mm
6) w32/netsky.p@mm!
2) w32/netsky.p@mm
7) w32/netsky.c@mm
3) w32/bagle.gen!pwd
8) w32/netsky.b@mm!
4) w32/netsky.b@mm
9) w32/netsky.c@mm!
5) w32/netsky.j@mm
10) w32/mydoom.a@mm
32
Hoofdstuk 3: Spam classificatie
3.2 Usenet spam Wellicht de oudste vorm van elektronische spam. Hier werd de term “spamming” of excessive multiple posting (EMP, herhaaldelijk posten van hetzelfde bericht in één of meerdere nieuwsgroepen) ook van ontleend. Daar de eenvoud van een bericht te posten op een/meerdere nieuwsgroepen heel eenvoudig is, is de Usenet wereld een populair doelwit voor spammers. Seth Breidbart ontwierp de Breidbart Index: deze wordt gebruikt als objectief maatgetal om de hoeveelheid spam-vervuiling over het Usenet netwerk weer te geven. De Breidbart Index (BI) wordt gemeten over 45 dagen en houdt rekening met het aantal nieuwsgroepen waarin een bericht is gepost. De index wordt als volgt gedefinieerd: BI =
∑
# newsgroups , per spambericht
Stel dus dat een spambericht naar 9 nieuwsgroepen gestuurd wordt, en dan nog eens naar 36 andere, dan krijgen we: BI = 9 + 36 = 9 . In de Usenet wereld wordt er gewerkt met een zogenaamde Usenet Death Penalty (UDP). Deze bestraffing bestaat er in dat je verstuurde berichten naar een nieuwsgroep worden verwijderd van de server. Er wordt algemeen aangenomen dat een spambericht kan worden verwijderd als de BI groter is dan 20. Deze regel geldt echter alleen voor de zogenaamde big 8 hiërarchieën: •
comp.*
- Discussies over computer gerelateerde topics
•
news.*
- Discussies over Usenet zelf
•
sci.*
- Discussies over wetenschappelijke onderwerpen
•
rec.*
- Discussies over recreationele onderwerpen, hobby’s
•
soc.*
- Alles over sociaal/maatschappelijke onderwerpen
•
talk.*
- Discussies over religie en politiek.
•
humanities.* - Discussies over literatuur en filosofie
•
misc.*
- Alles wat niet in vorige onderverdelingen past
33
Hoofdstuk 3: Spam classificatie
3.3 Spim Instant Messaging spam -kortweg spim - maakt gebruik van de instant messaging kanalen om zijn ding te doen. Chat netwerken zoals die van AOL en ICQ hebben vaak een adresbibliotheek van al hun gebruikers. Een zeer waardevolle bron van informatie voor spammers, aangezien deze ook demografische gegevens bevat zoals leeftijd,geslacht, woonplaats, interesses,… Ook het IRC protocol word geteisterd door spam: zogenaamde IRC bots maken de chatkanalen onveilig met hun spam floods, het liefst in velerlei kleurtinten zodat hun boodschap opvalt. Ook het Windows OS (NT/2000/XP) werd nog niet zo lang geleden slachtoffer van massale spam-aanvallen. Bij een slecht geconfigureerde firewall was het mogelijk om via de messenger service vervelende pop-ups teweeg te brengen bij gebruikers. De messenger service (niet te verwarren met het IM-programma windows messenger of MSN messenger) wordt gebruikt om korte berichten/pop-ups te sturen naar een workstation in het lokale netwerk.
Fig. 3.2: Messenger service spam
3.4 Blog, wiki en gastenboek spam Tegenwoordig ontsnappen ook blogs (weblogs ofte online logboek), gastenboeken en wiki’s (WikiWiki, een online encyclopedie waar gebruikers artikels kunnen aanvullen met informatie) ook niet meer aan het oog van de spammers. Sinds de invoering van zoekmachine Google’s pagerank-systeem proberen spammers deze webpagina’s te overstelpen met hun commerciële links. Het pagerank systeem klasseert immers
34
Hoofdstuk 3: Spam classificatie belangrijkere sites naarmate er meer naar gerefereerd wordt door andere pagina’s. Adverteerders die via comments of gastboek entries proberen hun links op te dringen, trachten zo hun Google waardering wat op te krikken. Op 18 januari 2005 stelde Google een nieuw html attribuut voor: de “rel=nofollow”. Bijvoorbeeld: website Dit attribuut dat wordt geplaatst in een link, zal ervoor zorgen dat de meeste zoekmachines de link negeren en dus niet opnemen in het pagerank-systeem. Dit voorstel heeft tot nu toe gemiddeld succes, maar is nog verre van universeel verspreid.
Fig. 3.3: Wiki spam
3.5 Spamdexing Spamdexing of spam indexing is het manipuleren van zoekmachines om bepaalde webpagina’s artificieel hoger geklasseerd te krijgen in de index van een zoekmachine. Via een resem aan technieken probeert de “search engine spammer” het bezoekersaantal op zijn advertentiepagina’s te verhogen. Dit wordt bekomen door gebruik te maken van verborgen tekst en hyperlinks, gebruik van meta-tags, overdadig gebruik maken van zoekwoorden… Spam indexing wordt vaak verward met Search Engine Optimalisation (SEO). Dit is een reeks legale technieken die webdesigners gebruiken om hun webpagina’s hoger geïndexeerd te krijgen in zoekmachines. 35
Hoofdstuk 3: Spam classificatie
3.6 Mobile phone spam Mobile phone spam is een nieuwe opkomende trend van ongewenste elektronische advertenties. Mobile phone spam - kortweg m-spam - wordt verzonden door middel van SMS. Vaak wordt in het bericht gevraagd om een bepaald nummer te bellen. Onwetende gebruikers kunnen zo aangezet worden om een (duur) telefoongesprek aan te gaan. Soms draait de gebruiker zelfs op voor de kosten van het gestuurde spam-berichtje. Een minder gebruikte techniek bestaat er in om een gebruiker op te bellen, en de GSM slechts één maal te doen rinkelen. De gebruiker die het nummer niet herkent, repliceert terug naar het betaalnummer. Dan is het aan de spammer om zijn slachtoffer zo lang mogelijk aan de lijn te houden om zo zijn opbrengsten te vergroten.
3.7 SPIT SPIT staat voor SPam over Internet Telephony. Dit is het equivalent van spam voorkomend bij de VOIP 12-technologie: ongewenste berichten die je elektronische voicemail volstouwen. Hoewel er nog geen meldingen zijn van dergelijke praktijken tot nu toe, is het zeker een toekomstige bron van spam.
3.8 Virussen Spijtig genoeg zijn nog altijd zo’n naar schatting 7% van alle e-mails voorzien van een virus. Waar vroeger virussen werden geschreven uit vandalisme of politieke overwegingen of zelfs als “kunstwerk” zien we dat de klemtoon van hedendaagse virussen zich enigszins verlegd heeft. Omstreeks 2003 gebeurde er een omschakeling in de spamwereld: spammers zochten niet zelf meer naar uitbuitbare services zoals open relays en open proxies (zie 6.4.2.4), maar gingen zichzelf voorzien van zo’n diensten. Virussen werden ingeschakeld om onzichtbaar smtp-software te installeren op de geïnfecteerde pc’s. Zo kunnen spammers duizenden mails versturen via deze pc én dit via de bandbreedte van het onwetend slachtoffer. Dit zijn de zogenaamde trojaanse paarden. Typische voorbeelden zijn de W32.Sobig.A@mm en W32.Mimail.A@mm die omstreeks 2003 vele computers voorzagen van “spammer tools”. Deze virussen kunnen ook nog een ander
12
VOIP: Voice Over IP, een techniek die toelaat om telefoonconversaties te plegen over het
Internet, in plaats van het klassieke telefoonnetwerk.
36
Hoofdstuk 3: Spam classificatie doel voor ogen hebben: ze kunnen worden gebruikt om een georganiseerde DDoS aanval uit te voeren op een server.
3.8.1 (D)DoS DDoS (Distributed Denial of Service) aanvallen trachten een bepaalde server of netwerk te doen disfunctioneren. Enkele typische DoS aanvallen zijn ping of death, ping flood, SYN attack,… Het komt er op neer dat het doelwit wordt overstelpt met - al dan niet corrupte data. Het doelwit kan de data niet meer verwerken en zal uiteindelijk zijn netwerkconnectie verliezen of niet meer reageren omdat het beschikbare geheugen volgelopen is.
Fig. 3.4: Ping flood naar 192.168.123.1
Bij een DDoS aanval zullen alle geïnfecteerde computers op een bepaald tijdstip een gekozen doelwit overstelpen met data. Geliefkoosde doelwitten onder de spammers zijn servers met blacklist (zie 10.3.1 ) informatie en andere anti-spam informatiediensten.
3.9 (419) scam 419 scam, verwijzend naar artikel 419 van het Nigeriaanse strafwetboek, is een oplichternetwerk dat tracht geld te verkrijgen van hun slachtoffers. Deze soort oplichterij bestaat al veel langer onder niet elektronische vorm. Eerste verschijnselen dateren van rond de 16e eeuw met de “Spaanse gevangene” briefwisseling. Deze brief werd gestuurd naar slachtoffers met de boodschap dat de afzender contacten had met een gevangengenomen rijk persoon, onder een schuilnaam. Door een som geld af te staan aan de verzender kan de verzender de gedetineerde vrijkopen. De belofte werd gedaan dat de gulle investeerder rijkelijk zal beloond worden eens de gevangene
37
Hoofdstuk 3: Spam classificatie wordt vrijgelaten. Na een eerste donatie treden echter onverwachte moeilijkheden op, die logischerwijs weer een nieuwe investering van het slachtoffer impliceren… Moderne varianten zijn onder andere de Nigeriaanse gelddoorsluizing fraude: een zogezegde afstammeling van een Afrikaanse dictator belooft een rijkelijke vergoeding aan alle investeerders die helpen zijn vergeten miljoenen door te sluizen naar diverse bankrekeningen. De initiële gelden die worden gevraagd dienen de “omkopingen en andere kosten” te dekken.
3.10 Spyware en malware Spyware is een titel die een hele lading verdachte software dekt. Ze verschilt van virussen, omdat ze zichzelf niet reproduceert. Het doel van spyware is eenvoudig: de geïnfecteerde pc’s misbruiken voor commerciële doeleinden. Vaak uit zich dit in pop-up advertenties, het loggen van het surfgedrag van de gebruiker, installeren van dialers of toolbars, redirecting van webpagina’s tot het stelen van confidentiële informatie toe. Spyware kan op verschillende manieren worden geïnstalleerd op een computer: Vaak wordt het meegeleverd met populaire software (denk maar aan Kazaa, BearShare, enz…), of de gebruiker wordt misleid in het downloaden van bepaalde software. Grofweg kan men deze kwalijke software opdelen in 4 categorieën:
•
Reclameboodschappen. De bedoeling van deze software is eenvoudig: om de zoveel tijd laat het een popup zien met een reclameboodschap. Vaak worden ook startpagina’s van browsers aangepast. Daar ze vaak in talrijke getale voorkomen, worden ze ervaren door gebruikers als sterk irritant.
•
Stealware. Als een bedrijf een reclamebanner plaatst op zijn website, krijgt hij van het adverterend bedrijf een commissie per keer een bezoeker op zijn banner klikt. Stealware zal de referentie naar de website verwijderen en deze vervangen door zijn eigen bedrijf - om zo zelf inkomsten te verkrijgen van de adverteerder.
•
Indentiteitsdiefstal en fraude
38
Hoofdstuk 3: Spam classificatie Sommige programma’s (CoolWebSearch,…) loggen onwetend de handelingen van gebruikers (denk maar aan e-mail verkeer, chatsessies, bankgegevens,…) om deze later te verkopen aan bijvoorbeeld spammers. Ook de installatie van “dialers” vallen onder deze noemer. Dialers vervangen de inbelverbindingen van gebruikers, zodat ze inbellen op een duur nummer in plaats van een plaatselijk nummer. •
Spyware en cookies Een laatste categorie tracht de surfgewoonten van een gebruiker op te slaan in cookies. Cookies zijn niets anders dan tekstbestandjes die worden gebruikt door websites om persoonlijke preferenties van de bezoeker in op te slaan. Aan de hand van de opgeslagen cookies tracht de spyware een heus marketingprofiel van je op te stellen.
3.11 Phishing Phishing is een begrip ontstaan uit de crackers wereld: het duidt op het “vissen” naar account gegevens (“password fishing”). Concreet is dit het oplichten van mensen door een vertrouwde website te kopiëren en de nietsvermoedende personen al hun gegevens te laten ingeven zoals hun kredietkaartnummer en hun geheime code. De slachtoffers kunnen naar de valse website gelokt worden door een e-mail met een link naar de website. Bij phishing wordt dikwijls gebruik gemaakt van URL-spoofing, dit is het nabootsen van de URL van bijvoorbeeld een bank, zodat de gebruiker denkt de echte site te bezoeken, terwijl de URL die van de bedrieger is. Phishing is jammer genoeg een steeds meer opkomende trend, en er is in deze studie dan ook een apart hoofdstuk aan gewijd (zie Hoofdstuk 11: Phishing)
39
Hoofdstuk 4: Origine van spam
Hoofdstuk 4: Origine van spam Spammers zijn individuen of kleine bedrijven (“spam gangs”) die winst trachten te halen uit het aanbieden van commerciële producten en diensten via e-mail. Hoewel vele mensen spam irritant vinden, blijkt het toch nog steeds een lucratieve handel te zijn. Uit cijfers blijkt dat zo’n 14% van de ontvangers zijn spam mail leest [3], waarvan 8% al eens een product heeft aangekocht naar aanleiding van een spam e-mail. Gemiddeld gezien is de respons op spam e-mail echter zo’n 1 op 15 miljoen, zo’n 0,001%. Volgens onderzoeksbureau Ferris Research leverde die aankopen van producten in 2003 een totaal winstcijfer op van 20 à 30 miljoen dollar. Zelfs met de huidige graad van spam-bestrijding blijkt dat spammer zijn nog steeds een lonend beroep is. Zolang er dergelijke profijten haalbaar zijn, zullen er altijd spammers bereid zijn het kat-en-muis spel te spelen met anti-spam bestrijders en filters. Vaak verschuilen spammers zich achter dubieuze argumenten om hun e-mail praktijken te rechtvaardigen. Enkele veelgebruikte dooddoeners zijn:
•
“Spam is niet milieubelastend”. Hoewel er enige waarheid in dit argument zit, is de realiteit anders: papieren reclamefolders blijven bestaan naast elektronische spam. Er is momenteel nog geen sprake van een verschuiving van papierreclame naar elektronische equivalenten.
•
“Indien je niet geïnteresseerd ben, wis je de e-mail toch gewoon”. Dit wordt ook wel eens “Just Hit Delete” genoemd. Ook dit argument is te weerleggen doordat het altijd heel wat tijd kost om legitieme mails te onderscheiden van de ongewenste spam e-mails.
•
“Vrijheid van meningsuiting mag je niet afnemen”. Iedereen heeft recht op een eigen opinie en mag daarvoor uitkomen. Commerciële boodschappen vertegenwoordigen echter geen opinie en vallen dan ook niet onder het principe van vrije meningsuiting.
•
“Je kan je altijd uitschrijven”, ook wel het “opt-out” principe genoemd. Hoewel dit een eerlijk argument blijkt, is het in realiteit niet haalbaar. Uitschrijfpogingen leiden immers vaak tot nog meer spam in je mailbox. In Europa hanteert men trouwens het “opt-in” principe (zie hoofdstuk Hoofdstuk 8:, Spam en Wetgeving).
40
Origine van spam Daar tegenover staat dat het wel perfect mogelijk is om legale commerciële e-mails te versturen. Het is een ideaal kanaal om bepaalde producten of bedrijven te promoten, klantenbinding te realiseren of als ondersteuning van je bedrijf. Gezien de lage kosten en de eenvoud is het een niet te onderschatten marketingkanaal. Helaas bestaat illegale email marketing langer dan zijn legale variant, zodat de potentiële klant vaak de onderscheiding niet kan maken tussen legale marketing e-mail en de talrijk aanwezige spam e-mail in zijn inbox. In de veel commerciëler ingestelde Verenigde Staten is de Direct Marketing Association een heel machtige partij, die de wetgever onder druk kan zetten om bepaalde activiteiten te legaliseren die veel gebruikers als spam beschouwen. Precies daarom wordt in de V.S. het opt-out principe gehanteerd. In de realiteit is gebleken dat steeds meer en meer ISPs logischerwijs weigerachtig staan ten opzichte van commerciële e-mails, dus je loopt de kans dat je e-mail onterecht wordt bestempeld als spam.
4.1 Interview with a spammer Uit een interview [4] met 3 spammers blijkt dat een van de doorslaggevende redenen om te beginnen spammen de heel lage start-up kosten zijn. Enkel het vinden van een geschikte ISP, het aankopen van hardware en een groot adressenbestand is voldoende om je spamactiviteiten te kunnen beginnen. Deze kosten bedragen circa $1500 à $2000 dollar en kunnen binnen enkele dagen al teruggewonnen worden. Er zijn een drietal verschillende manieren hoe spammers geld kunnen verdienen aan hun activiteiten: •
Eerst en vooral het versturen van spam, met het oog op het verkopen van producten.
•
Het aanmaken van een klantenbestand met zoveel mogelijk gegevens en valide e-mail adressen. Deze worden doorverkocht aan spam-collega’s. Hoe accurater en vollediger de lijst, hoe meer de database opbrengt. Uit de interviews blijkt dat een “standaard” lijst van 4 miljoen adressen zo’n $100 kost, maar deze kunnen gemakkelijk oplopen tot $900 en meer voor een gevalideerde lijst van adressen.
•
Een spammer kan ingehuurd worden door een bedrijf en wordt betaald in functie van het aantal bezoekers dat ze genereren op de website (“click through rate”), of ze krijgen een commissie op de verkopen die ze genereren via spam e-mails.
41
Origine van spam
De inkomsten van spammers variëren van dag tot dag, over het algemeen blijkt dat een gemiddelde campagne tussen de $1000 en $2000 opbrengt, afhankelijk van de accuraatheid van hun database, het soort product en hoe goed de e-mail kan opboksen tegen de spamfilters. Daar de meeste inkomsten voor spammers voortvloeien uit de verkoop van hun producten, zijn ze verplicht om de populaire trends te volgen. Waar seksueel getinte e-mails vroeger schering en inslag waren, speelt men vandaag de dag meer en meer in op de interesses van hun potentiële klanten.
Health care Finance Direct products Pornography Gambling Scams (phishing) Spam-related Other
Fig. 4.1: Spam e-mail categoriën (bron: Clearswift, Augustus 2005)
Spammers titelen zichzelf dan ook graag als “e-marketeers”: door de tendensen op de markt op te volgen, en hun producten in functie daarvan te verkopen trachten ze hun winst te maximaliseren. De grootste bekommernis van een spammer is het onderhouden van zijn klantenbestand. Hij tracht deze database zo accuraat mogelijk te houden, gezien dit zijn bron van inkomsten is. Op de tweede plaats staat het opstellen van de e-mail. Die moet zodanig worden opgesteld dat deze aantrekkelijk lijkt voor potentiële kopers, maar ze moet ook nog eens doorheen de vele spam-filters zien te komen. Op de derde plaats komt het testen van de e-mail. Vele spammer proberen de nieuwste filtertechnieken uit op hun e-mail en kijken hoe goed hun e-mail deze doorstaat. Daar iedere spam-filter anders werkt, is er voor de spammer nog altijd geen garantie dat zijn e-mail daadwerkelijk wordt afgeleverd bij de bestemmeling. Uit het interview blijkt dat het daadwerkelijk versturen van hun e-mails gedistribueerd gebeurt: er wordt gebruik gemaakt van verschillende pc’s, elk aangesloten op een verschillende ISP. In korte “bursts” versturen ze zo’n 100 berichten per 20 seconden, om 42
Origine van spam zo geen argwaan te wekken bij hun ISP. Omgerekend is dit circa 2 miljoen e-mails per dag per pc. Bij de vraag of de CAN-SPAM wetgeving (zie Hoofdstuk 8: Spam en Wetgeving) hun werk bemoeilijkt is er een consensus: geen van de spammers blijkt problemen te voorzien. “De kost van het opsporen en vervolgen van een spammer is immers groter dan de kosten die de spammer veroorzaakt”.
43
Hoofdstuk 5: Spam problematiek
Hoofdstuk 5: Spam problematiek Nu we een idee hebben over wat spam precies is en hoe het zich kan verspreiden, bekijken we ook de implicaties die spam teweeg brengen. Naast het feit dat het duidelijk “vervelend” is, zijn er toch nog andere - niet onbelangrijke - factoren die een rol spelen. We bekijken even de voornaamste argumenten tegen spam.
5.1 Vervelendheidsfactor Spam wordt door velen als vervelend ervaren. Het vult je mailbox met ongewenste emails. Het verwijderen van de ongewenste e-mails vraagt onnodig veel tijd, het is gewoon omslachtig om die paar belangrijke e-mails te gaan zoeken tussen de ongewenste spam. Veel hangt ook af van het soort ongewenste e-mail: het is niet wenselijk om je professioneel e-mail adres of dat van je jonge kinderen gevuld te zien met ongewenste pornografische of racistische verwijzingen. Deze staat met stip op nummer één van de meest ongewenste spam.
Spam annoyance
Other Spiritual Leisure Internet Softw are Real Estate Investments Mortgage and Loans Pornography
0%
20%
40%
60%
80%
100%
Fig. 5.1: Vervelendheidsfactor van spam per categorie (Bron: Gartner)
Studies wijzen uit dat spam wel meer getolereerd wordt in de persoonlijke mailbox, het is er immers “altijd al geweest”. Velen gebruikers hanteren dan ook vaak het “Just Hit
44
Spam problematiek Delete”-principe: van zodra ze vermoeden dat de bewuste e-mail(s) spam zijn, verwijderen ze deze uit hun inbox. Vaak wordt deze stap zelfs al genomen door de ISP (Internet Service Provider) die de e-mails zal filteren en doorverwijzen naar de “junk mail”-map.
5.2 Kosten De kost van spam is moeilijk te berekenen. Enerzijds is er de vervuiling van het gebruikte netwerk en bandbreedte, maar anderzijds is er ook een factor tijdsverlies mee gemoeid. Het zenden van een e-mail kost gemiddeld gezien zo’n 0.025 dollarcent. Ook het behandelen van een e-mail voor de ISP of de ontvanger vraagt slechts een kleine moeite. Maar gezien spam steeds in grote volumes voorkomt, lopen die kosten vlug hoog op. De cijfers die onderzoeksbureaus publiceren zijn uiteenlopend te noemen: Ferris Research schat de kosten van spam in Amerika op zo’n 10 miljard dollar (2003), waar de Radicati groep spreekt van een totale kost van meer dan 20 miljard dollar. Maar er is meer dan alleen maar de technische kost: er is immers ook sprake van productiviteitsverlies, wat veel moeilijker berekenbaar is.
5.2.1 Kosten voor de gebruiker E-mail ontvangen kost geld. Waar reclamefolders gratis te ontvangen zijn, kost een email ontvangen een zekere hoeveelheid geld. Vele gebruikers in België/Nederland zijn tegenwoordig aangesloten op een breedband Internet aansluiting, maar voor gebruikers die nog steeds inbellen via de klassieke 56K modem is de kost van spam heel reëel: de tijd die nodig is om alle berichten van de e-mail server te downloaden zal significant groter zijn. E-mail kost ook geld voor ISPs. Vele ISPs verliezen nodeloze bandbreedte aan e-mails die hun gebruikers toch niet willen ontvangen. Bandbreedte is voor ISPs nog steeds een van de grootste kosten. Houden we ermee rekening dat spam nog steeds ca. 60% van het email verkeer in beslag neemt, dan is dit wel een heel reëel kostenplaatje. E-mail is immers naast het gebruik van het WWW de meest gebruikte internetapplicatie. Doordat er significante volumes aan bandbreedte verspild worden door spam heeft een ISP drie mogelijke opties: •
Hun gebruikers een tragere internetaansluiting aanbieden als gevolg van de vele spam.
45
Spam problematiek •
De kosten van spam op hun nemen en de benodigde extra bandbreedte aankopen om hun klanten dezelfde dienstverlening te kunnen aanbieden.
•
De kosten van extra bandbreedte doorrekenen naar hun klanten.
Gezien dat een ISP een bedrijf met winstoogmerk is, zal er resoluut voor de derde optie gekozen worden. Daarnaast voorzien vele ISPs ook een spam-filtering service voor hun klanten. Al deze kosten worden uiteindelijk verhaald op de eindgebruikers, de ontvangers van spam. Naast de bandbreedte die spam verbruikt, is er ook de “tijdskost”: het behandelen van emails vraagt nu eenmaal een bepaalde processor verwerkingstijd. Deze processortijd is voor ISPs wel heel kritisch: wanneer hun servers teveel tijd moeten steken in het verwerken van nodeloze e-mails, zal zowel de levering van spam alsook die van legitieme e-mail vertraging oplopen.
5.2.2 Kosten voor de ISP Naast de klassieke kost van bandbreedtevervuiling en het installeren van spamfilters zijn er nog andere kosten die spammers met zich teweegbrengen. Als een ISP een spammer als klant heeft kan het goed zijn dat deze hun eerste rekeningen niet zullen betalen: ze weten toch dat ze waarschijnlijk vroeg of laat zullen worden afgesloten van de internettoeggang. Een extra kost voor de ISP is het opstarten van procedures om de wanbetalers op te sporen. Ook het filteren van e-mails kan problemen teweegbrengen: klanten kunnen klacht indienen omdat hun e-mail onrechtmatig wordt geblokkeerd. Daarnaast zijn spamfilters ook niet feilloos: wat gebeurt er met “false positives” (legitieme e-mail die geblokkeerd wordt door de filter)? Bedrijven zoals E-bay claimen veel last te ondervinden van false positives [5]: gebruikers communiceren vóór de uiteindelijke verkoop nog vaak met elkaar via e-mail. Het gebeurt dat koper en verkoper niks van elkaar horen omdat hun e-mail geblokkeerd werd door de spamfilter.
5.2.3 Kosten voor de bedrijven E-mail sorteren kost tijd. Als je als gebruiker je gewenste mail moet zoeken tussen de vele spam e-mails, is dit niet alleen vervelend, maar ook erg tijdrovend. Voor de particuliere gebruiker hoeft dit nog niet zo’n probleem te zijn, maar bedrijven hebben er wel onder te lijden. Bekijken we enkele cijfers [6]:
46
Spam problematiek - Kosten van e-mail systemen in bedrijven < 2500 werknemers:
$117,34 per werknemer per jaar
> 2500 werknemers:
$ 62.67 per werknemer per jaar
- Tijd gespendeerd aan e-mail security: Kleinere bedrijven
29,5 uur/week per 1000 gebruikers
Grotere bedrijven
15,2 uur/week per 1000 gebruikers
- Tijd gespendeerd aan spam e-mail filtering: Kleinere bedrijven
gemiddeld 9,1 uur/week
Grotere bedrijven
gemiddeld 4,1 uur/week
Mensen reageren ook verschillend op offensieve e-mails. Waar sommige ze wegklikken, kunnen anderen er door geïntimideerd zijn. Die laatste categorie mensen kunnen besluiten hun werkgever aan te klagen. Zij zijn immers verantwoordelijk voor de goede werksfeer in het bedrijf. Zo’n schadeclaims kunnen vrij hoog oplopen voor de werkgever. Het filteren van de e-mails is dus een must en tegelijk ook weer een extra kost voor het bedrijf. Bedrijven zijn daarnaast ook verplicht hun elektronisch verkeer op te slaan. Ook hier worden onnodige kosten gemaakt door het opslaan van overbodige e-mails.
5.2.4 Kosten voor Internet backbones Daar spam vaak in bulk verstuurd wordt, brengt dit ook gevolgen mee voor de transmissielijnen. Door gigantische hoeveelheden e-mails te versturen in een kort tijdsbestek zal er een zekere vertraging zijn voor het internetverkeer van alle gebruikers op die lijn. Vaak is het ook zo dat een e-mail adres niet meer geldig is. In het geval van zo’n “bounced” e-mail wordt een bericht teruggestuurd naar de zender, met de melding dat het e-mail adres niet geldig is. Dit zorgt al snel voor extra bandbreedte-overlast als de mailing in kwestie veel foutieve e-mail adressen bevat.
5.3 Spam en legaliteit Naast het feit dat spam vervelend is en geld kost, is het vaak ook illegaal. Ook spammers weten dat zowat 95% van de ontvangers hun e-mails als ongewenst bestempelen. Daarom worden vaak frauduleuze technieken gebruikt, in de hoop dat hun berichten gelezen worden.
47
Spam problematiek Daarnaast zijn vele landen tegenwoordig voorzien van een wetgeving omtrent elektronische communicatie, deze bevat vaak strikte regels omtrent commerciële e-mail. Ook de inhoud van spam kan ronduit frauduleus zijn: wondermiddelen die mirakels beloven, piramidespelen,… Deze kunnen worden geklasseerd onder oplichting, en zijn dus illegaal.
5.4 Privacy Spam kan ervaren worden als een inbreuk van de privacy. E-mail adressen worden door spammers van het Internet geplukt zonder dat je daar weet van hebt - laat staan toestemming hebt voor gegeven. Eens je e-mail adres bekend is bij spammers is er geen ontkomen meer aan. Gebruikers kunnen zich door deze praktijken geïntimideerd voelen en het kan een terughoudende attitude kweken tegenover verdere participatie aan Internet gerelateerde zaken.
48
Hoofdstuk 6: Methodologie van een spammer
Hoofdstuk 6: Methodologie van een spammer 6.1 Het verkrijgen van e-mail adressen E-mail adressen zijn voor spammers hun bron van inkomsten. Het zo accuraat mogelijk verkrijgen en bijwerken van gegevens over klanten is van prioritair belang. Naast het valideren van de adressen is ook de kwantiteit belangrijk, gezien de respons ratio op ongewenste commerciële e-mails bijzonder laag is.
6.1.1 Social engineering Veel applicaties op het Internet houden publieke lijsten bij van klantengegevens, die het voor spammers relatief eenvoudig maakt om e-mail adressen en andere gegevens te verzamelen. Een ander probleem is dat veel mensen zich niet bewust zijn van de privacygevoeligheid van hun gegevens. Een recentelijk experiment [7] probeert gevoelige marketinggegevens zoals e-mail adres, geboortejaar, adres,… te ontfutselen. Deze techniek wordt ook wel eens social engineering genoemd. In ruil voor bijvoorbeeld een “tegoedbon” gaf zowat 85% van de ondervraagden hun correct e-mail adres, leeftijd en woonplaats op. Deze informatie is marketingtechnisch gezien al waardevol maar kan ook gemakkelijk misbruikt worden door mensen met minder goede bedoelingen.
6.1.2 E-mail harvesting Het Internet bevat vele waardevolle informatie voor spammers, denken we maar aan nieuwsgroepen, online gastenboeken, profielpagina’s, mailing lists, WHOIS-databases,… Deze gegevens worden van het Internet geplukt en na verificatie op duplicaten opgeslagen in een database. Hiervoor bestaat een handige tool die dit alles automatiseert: spiders. Spiders of webcrawlers zijn software-agents die autonoom het Internet kunnen doorzoeken naar gewenste informatie. De spider zoekt in real-time naar de gewenste informatie en begint te zoeken vanaf enkele startpagina's (seeds of zaden), die de gebruiker opgeeft als referentiepagina's voor het gewenste onderwerp. De architectuur van een intelligente spider bestaat uit 4 functionele onderdelen [8]:
49
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Fig. 6.1: Architectuur van een spider
1. Via de gebruikersinterface kan de gebruiker de startpagina's en de zoektermen specificeren en kan de intelligent spider deze gebruiken om de zoekresultaten weer te geven. 2. De intelligente spider maakt gebruik van een heuristisch zoekalgoritme zoals 'best first search', een genetisch algoritme of een neuraal netwerk om het Internet te doorzoeken naar relevante webpagina's. 3. Het heuristisch algoritme heeft een functie nodig die de relevantie van een bepaalde webpagina kan inschatten. Dit kan worden afgehandeld door een zogenaamde Jaccardfunctie. 4. De page fetcher is de interface naar het Internet, die wordt gebruikt door de andere componenten om informatie uit een bepaalde webpagina te halen zoals hyperlinks en inhoud. De geschiktheid van een webpagina kan bepaald worden aan de hand van de start-URLs en de zoektermen die de gebruiker gedefinieerd heeft. Bij het zoeken naar e-mail adressen zijn de zoektermen typisch “@”-karakters en “<mailto:>” HTML tags. De Jaccardscore is bruikbaar voor het bepalen van de geschiktheid. Deze vergelijkt de mate van overeenkomst tussen twee verschillende webpagina's op basis van de gemeenschappelijke hyperlinks en de zoektermen. De mate van overeenkomst op basis van hyperlinks is hieronder gedefinieerd. Hierbij zijn A (a1, a2, a3,… am) en B (b1, b2, b3,… bn) de set van hyperlinks van de respectievelijke webpagina's x en y. Hieruit is af te leiden dat een webpagina die veel dezelfde hyperlinks heeft als één van de startpagina's veelbelovend is.
JSlinks ( x, y ) =
#( A ∩ B) #( A ∪ B)
Nadat een geschikte webpagina werd gevonden aan de hand van een Jaccardscore, wordt de inhoud van de pagina overlopen op overeenkomsten met de opgegeven zoektermen. 50
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
De mate van overeenkomst op basis van de zoektermen (indexen) wordt bepaald op basis van de zoektermfrequentie tfxj (het aantal keer dat term j voorkomt op webpagina x), de documentfrequentie dfj (stelt het aantal keer voor dat de term j voorkomt in een collectie van N webpagina’s), het aantal woorden in de zoekterm wj, het aantal zoektermen L en het aantal webpagina’s N. Dit leidt tot de onderstaande formules:
L
JSindexing ( x, y ) =
∑d j =1 L
L
∑d j =1
2 xj
xj
d yj L
+ ∑ d yj2 + ∑ d xj d yj j =1
met
d xj = tf xj .log(
N .w j ) df j
j =1
Dit is een formule die de mate van overeenkomst berekent op basis van zoektermen en gewicht. Een gecombineerde Jaccardscore tussen twee webpagina’s x en y kan worden voorgesteld als een gewogen sommatie van de bovenstaande Jaccardscore’s:
JS ( x, y ) = 0,5 × ⎡⎣ JSindexing ( x, y ) + JSlinks ( x, y ) ⎤⎦
Fig. 6.2: Usenet e-mail harvesting
51
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.1.3 Dictionary attacks Deze brute force techniek is het overlopen van alle mogelijke combinaties van kernwoorden, vaak populaire loginnamen en paswoorden. Deze combinaties zijn dan mogelijk correcte e-mail adressen die worden verzonden naar duizenden domeinen.
6.1.4 Opt-out en webbugs Heel vaak wordt een spam e-mail voorzien van een “klik hier om je uit deze lijst te verwijderen”-referentie. Legaal gezien moet er een uitschrijfmogelijkheid zijn voor commerciële e-mails volgens Amerikaanse wetgeving. Deze optie wordt echter vaak door spammers misbruikt. In combinatie met dictionary attacks kan het volgen van de zogenaamde “opt-out”-link een verificatie zijn voor de spammer dat het gegenereerde adres wel degelijk bestaat. Een andere mogelijkheid tot verificatie van het adres is het invoegen van een (vaak onzichtbare) afbeelding in de e-mail. De afbeelding in kwestie staat op een server van de spammer. Van zodra de afbeelding geladen wordt in de e-mail, weet de spammer dat je zijn e-mail geopend hebt, en is je adres geverifieerd. Deze webbugs kunnen allerhande informatie verzamelen, te denken aan: IP adres, tijdstip waarop de afbeelding geladen werd, een waarde uit een cookie,… Bekijken we een typisch voorbeeld van een webbug:
Merk op dat de afbeelding een grootte heeft van 1 op 1 pixel. Deze maakt de figuur onzichtbaar in de e-mail. Van zodra de afbeelding wordt geladen van de server zal deze het e-mail adres van de ontvanger opslaan.
6.1.5 Lijsten kopen of huren De beginnende spammer kan zijn e-mail adressen huren. Het huren van een lijst impliceert dat de spammer zijn e-mails uitbesteed aan een bedrijf die voor hem de spam zal verspreiden voor een klein bedrag per e-mail. Naarmate de spammer echter meer productief wordt, is het verstandiger om over te schakelen op de aankoop van een lijst. Deze prijzen variëren naargelang de accuraatheid van de adressen: •
www.e-mail2success.com belooft een lijst van 500.000 gecontroleerde adressen voor $29,95
52
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
•
Een lijst van 50 miljoen adressen kan al oplopen tot $1999.99 (www.horizonplace.com)
De kosten van een lijst zien er ogenschijnlijk hoog uit, maar de praktijk wijst uit dat zo’n lijst makkelijk terug te winnen is na een aantal succesvolle spam-campagnes.
6.2 Honeypots Het Center for Democracy & Technology 13 deed in maart 2003 een onderzoek naar de werkwijze van spammers. In een tijdspanne van 6 maanden werden een aantal dummy email adressen aangemaakt en gecontroleerd op spam (ook wel honeypots genoemd). Deze adressen werden vervolgens op verschillende plaatsen gepubliceerd als prooi voor spammers. Op die manier kan men te weten komen wat de origine is van de adressen die de spammer verzamelt.
Bron van adressen 1% 6%
Usenet
11% Opt-out 48%
Adres gebruikt door derden Discussie groep
35% WHOIS
Fig. 6.3: Bronnen van adressen (Bron: CDT)
6.3 Spam tools Spammers gebruiken tegenwoordig vrij gesofisticeerde applicaties om hun e-mail op te stellen. Deze “tools” stellen de spammer in staat een e-mail campagne op te stellen die gangbare anti-spam filters kan omzeilen. We bekijken een de mogelijkheden van een
13
Centrum for Democracy and Technology: http://www.cdt.org
53
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
populaire spam tool: Advanced Mass Sender (KBB Software LLC). Een vergelijkende lijst van diverse spam tools is te vinden op http://www.gammadyne.com/gm-comparison.htm.
Fig. 6.4: Advanced Mass Sender, KBB software LLC
* Advanced Mass Sender (AMS) laat toe de uitgaande e-mails te versturen via te kiezen SMTP-server of via de ingebouwde SMTP server. De ingebouwde SMTP server laat toe om de spam filters van de Internet Service Provider te ontlopen. Nadeel is wel dat de spammer zelf moet opdraaien voor de belasting van zijn internetconnectie. Een andere mogelijkheid is het gebruik van open relays (zie 6.4.2.4, Open relays en open proxies) als SMTP server, deze manier is veel minder legaal, maar wel zeer goedkoop en effectief. * De bulk e-mail software voorziet mogelijkheden om de e-mails te personaliseren (%RCPT_NAME%, %SENDER_NAME%). Deze namen komen typisch van het veld voor het “@”-teken. Deze kunnen nog verder geoptimaliseerd worden door ze te splitsen op basis van scheidingskarakters als een punt of een underscore. Zo kan de spammer de indruk wekken dat zijn e-mails specifiek gericht is aan zijn ontvanger, wat een meer vertrouwenswaardige indruk geeft. * De software laat opmaak toe in zowel plain text als HTML. Zo kan de e-mail gelezen worden op zowat ieder systeem, zowel reguliere pc’s alsook PDA's of GSM’s. Het gebruik
54
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
van HTML betekent meer mogelijkheden voor de spammer om zijn werkelijke intenties te verdoezelen. * Vaak bezit een goede spam tool ook een e-mail verificatie systeem. Deze zal een lijst van e-mail adressen overlopen. De software zal kijken of een e-mail adres wel een MXrecord heeft bij de Mail Transfer Agent van het desbetreffende domein. Dit kan de software opvragen door een e-mail transactie te initiëren, zonder dat er effectief een e-mail verstuurd wordt. Daarna wordt de “RCPT TO:” respons van de mail transfer agent van dat domein geanalyseerd. Hiermee kan zo’n 90% van de adressen worden geverifieerd. * Veel voorkomend bij spam tools is de mogelijkheid tot het aanpassen van de e-mail headers. Waar deze mogelijkheden niet aanwezig zijn in “normale” e-mail software, zal de spammer deze optie maar al te graag aanwenden om het traceren van zijn adres te bemoeilijken. Andere mogelijkheden zijn willekeurige waarden toevoegen aan iedere email, zodat deze altijd uniek is, en bijgevolg ook moeilijker te filteren is.
Fig. 6.5: AMS connectie mogelijkheden
55
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4 Technieken om spam-filters te omzeilen Het is voor spammers van vitaal belang dat hun e-mails niet gefilterd worden door de verschillende spam-filters. Vaak testen ze dan ook hun e-mails uit op de courante antispam filters, zodat ze eventueel aanpassingen kunnen aanbrengen aan hun opgestelde emails. Er zijn grosso modo twee technieken om filters te omzeilen: vooreerst door aanpassen van de inhoud van de e-mail, anderzijds kan men ook op allerhande manieren de relay (het versturen) van de e-mail aanpassen.
6.4.1 Contextuele technieken (obfuscation) Het creëren van een geschikte e-mail is van kapitaal belang voor een spammer. Enerzijds moet de e-mail aanlokkelijk genoeg zijn en uitnodigen tot de aankoop van het product, anderzijds moet er ook rekening gehouden worden met spam filters. Filters worden steeds “slimmer”, dus moeten er voortdurend nieuwe technieken aangewend worden om deze filters te ontlopen. Het onderwerp van de e-mail (subject) moet zorgvuldig gekozen worden: deze wordt immers als eerste geanalyseerd door spam-filters, maar anderzijds moet deze ook de aandacht van de ontvanger trekken. Een tweede zorg bij spammers is de uiteindelijke inhoud van de e-mail. Gezien de commerciële aard van spam is deze vrij makkelijk door anti-spam filters te herkennen. De spammers maken daarom gebruik van misleidende technieken die de filters om de tuin moeten leiden: obfuscation (letterlijk: verduistering). Vele spamfilters maken gebruik van lijsten met “spamwords”. Dit zijn typische woorden die voorkomen in een spam e-mail. De frequentie waarmee deze woorden voorkomen zal de kans op spammail doen stijgen. Door gebruik te maken van obfuscation zal de spammer trachten deze spamwords onherkenbaar te maken.
6.4.1.1
Gebruik van HTML
Het gebruik van plain text in een e-mail zorgt ervoor dat de e-mail overal kan gelezen worden. Iedere e-mail client kan deze verwerken. Keerzijde van de medaille is dat plain text heel gemakkelijk kan geanalyseerd worden door filters, wat voor de spammer niet echt opportuun is. Daarom zal vaak gebruik gemaakt worden van HTML. Een mogelijkheid is om helemaal geen tekst in de e-mail te laten voorkomen: de boodschap wordt weergegeven als figuur. Het herkennen van een spam-afbeelding zou immers heel wat artificiële intelligentie van de filter vergen.
56
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4.1.2
Onzichtbare tekst
Met deze techniek tracht de spammer een grote hoeveelheid “normale”, legitieme tekst te verbergen in zijn e-mail. Vele anti-spam filters vergelijken immers het aantal “spamwoorden” ten opzichte van het aantal worden reguliere tekst. Zo tracht men het spam percentage te reduceren, zodat de filter de e-mail alsnog doorlaat. Een manier om dit te realiseren is het plaatsen van random gekozen woorden en nummers vóór en na de eigenlijke HTML code. Deze tekst wordt niet weergegeven door browsers en e-mail clients omdat ze niet in de HTML code genest is. De spam filter maakt echter geen onderscheid tussen tekst voor of na HTML codes, en zo zal het spamwoord percentage laag blijven.
Fig. 6.6: onzichtbare tekst in e-mail header
Een andere soortgelijke manier om dit effect te bereiken is de legitieme tekst in de headers verbergen. Sommige headers hebben immers geen vaste structuur (de zogenaamde free form headers), de inhoud van deze headers is dus vrij te bepalen. Deze headers worden immers ook verwerkt door anti-spam filters. X-Mime-Key: search words: telephone modem computer 0094853 test Internet e-mail fax work percentage compression bits time second hour…
57
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Analoog is het gebruik van tekst die dezelfde achtergrondkleur heeft als de e-mail. Deze drie technieken hebben allemaal tot het doel om de verhouding spamwoorden ten opzichte van legitieme tekst zo laag mogelijk te houden. telephone modem computer 0094853 test Internet e-mail fax work percentage compression bits time second hour Spam message
6.4.1.3
Invalide HTML tags
Het idee achter het gebruik van invalide HTML tags is hetzelfde als dat van onzichtbare tekst: probeer de spamfilter te misleiden door verhoudingsgewijs veel legitieme tekst te gebruiken ten opzichte van het aandeel aan spamwoorden. Het doel is echter ervoor zorgen dat de anti-spam filter de tekst niet kan verwerken doordat hij de HTML tags niet herkent. Kan hij de e-mail toch verwerken, dan zal het percentage spamwoorden te klein zijn om de e-mail tegen te houden. < This is an example of an invalid HTML tag. Point is to have as much legimate text in here as possible, so the e-mail won’t be marked as spam … > spam message
6.4.1.4
Blanco HTML tags
Vele filters werken met een lijst van spamwoorden. Worden deze kernwoorden herkend in de e-mail, dan zal de spam-classificatie stijgen. Door middel van HTML tags kunnen deze kernwoorden echter onherkenbaar gemaakt worden zonder de leesbaarheid voor de ontvanger te reduceren. HTML tags zoals en kunnen zo’n effect teweegbrengen: spamword enlarge viagra
58
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4.1.5
Gebruik van tabellen
HTML tabellen zijn een uitstekend middel om tekst onherkenbaar te maken. De tekst wordt opgedeeld in verticale snedes en daarna in een HTML tabel geplaatst. In dit voorbeeld bestaat de eerste snede dus uit de letters S en M, de tweede zal vervolgens de letters P en E omvatten, enz… S
P
A
M
M
E
S
S
A
G
E
Voor de duidelijkheid is hier de omlijning nog aanwezig. De tekst is duidelijk leesbaar voor de ontvanger, maar de anti-spam filters hebben het al een stuk moeilijker. Als de spam filter de HTML al kan ontleden, is het nog een andere zaak of hij ook effectief de spamwoorden kan herkennen.
S M
P E
A S
6.4.1.6
Gebruik van spaties en andere karakters
Deze techniek berust op het feit dat de mens tekst kan lezen, ook al is ze min of meer gemutileerd. Extra karakters toevoegen zoals spaties zal de leesbaarheid weinig doen dalen. Vaak gebruikt men meerdere karakters om de tekst onherkenbaar te maken voor
59
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
anti-spam filters. Het gebruik van meerdere karakters zorgt er immers voor dat de filters niet zomaar de repeterende karakters verwijderen. Bij gebruik van genoeg verschillende “tussenkarakters” zal de anti-spam filter de tekst niet kunnen herkennen en bijgevolg de e-mail moeten doorsturen. Vaak worden ook letters vervangen door daarop gelijkende symbolen (homomorfie). Zo zou de uiteindelijke tekst niet interpreteerbaar zijn door anti-spam filters. FREE CASH
LOANS
T H I S I*S A S-P-A-M M_E_S_S_A_G_E wõrk fr[]m h0me v1@grá
Keerzijde van de medaille voor spammers is dat hierdoor hun e-mail vlug als spam gemarkeerd wordt: niemand schrijft “viagra” immers als “v1@grá”, dus dit is een indicator dat desbetreffende e-mail en spam e-mail is.
6.4.1.7
Encoding
URL encoding Volgens HTTP/1.1 specificaties (RFC 2068) kan een URL op verschillende manieren geëncodeerd worden. Deze kan weergegeven worden als alfakarakters (http://www.google.com) of als een set van vier 8-bit getallen (http://192.168.0.1). Naast deze bekende URL schrijfwijzen zijn er echter nog drie andere mogelijk: •
Spammers gebruiken deze alternatieve URL notaties om de hyperlinks in hun e-mail te maskeren. Door regelmatig een andere URL notatie te hanteren in de e-mail, zullen veel anti-spam filters niet in staat zijn om deze te herkennen.
Body encoding Naast alternatieve URL schrijfwijzen kan de spammer ook het gehele bericht encoderen. Door gebruik te maken van base64-encodering kan hij de e-mail onleesbaar maken voor anti-spam filters.
60
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Reply-To: From: Subject: Penile enlargement method - guaranteed ! Date: Thu, 22 Aug 0102 12:07:35 +0800 MIME-Version: 1.0 X-Priority: 3 (Normal) X-Msmail-Priority: Normal X-Mailer: Microsoft Outlook Express 6.00.2600.0000 Importance: Normal Content-Type: text/html; charset="iso-8859-1" Content-Transfer-Encoding: base64 PGh0bWw+PGJvZHk+PGRpdiBpZD0ibWVzc2FnZUJvZHkiPjxkaXY+PGZvbnQg ZmFjZT0iQXJpYWwiIHNpemU9IjIiPlRoaXMgbWVzc2FnZSBpcyBzZW50IHRv IG91ciBzdWJzY3JpYmVycyBvbmx5LiBGdXJ0aGVyIGVtYWlscyB0byB5b3Ug YnkgdGhlIHNlbmRlciB0aGlzIG9uZSB3aWxsIGJlIHN1c3BlbmRlZCBhdCBu byBjb3N0IHRvIHlvdS4gU2NyZWVuaW5nIG9mIGFkZHJlc3NlcyBoYXMgYmVl biBkb25lIHRvIHRoZSBiZXN0IG9mIG91ciBhYmlsaXR5LCB1bmZvcnR1bmF0 ZWx5IGl0IGlzIGltcG9zc2libGUgdG8gYmUgMTAwJSBhY2N1cmF0ZSwgc28g aWYgeW91IGRpZCBub3QgYXNrIGZvciB0aGlzLCBvciB3aXNoIHRvIGJlIGV4 Y2x1ZGVkIG9mIHRoaXMgbGlzdCwgcGxlYXNlIGNsaWNrIDxhIGhyZWY9Im1h aWx0bzpoZWFsdGgxMDVAbWFpbC5ydT9zdWJqZWN0PXJlbW92ZSIgdGFyZ2V0 PSJuZXdfd2luIj5oZXJlPC9hPjwvZm9udD48L2Rpdj4gIDxwPjxiPjxmb250
Door de inhoud van de e-mail te encoderen met een van deze technieken zal deze onleesbaar worden voor filters. Anderzijds zijn e-mails met een geëncrypteerde inhoud heel verdacht en zullen ze door filters vlug als spam beschouwd worden.
Header encoding Een laatste vorm van encodering is het encoderen van de e-mail headers. De headers van een e-mail ondersteunen immers het gebruik van meerdere karaktersets (RFC 2047). De twee toegestane encoderingsalgoritmes zijn base64 en quoted printable. Zo kan een onderwerp-header er als volgt uit zien: Subject: =?iso-8859-1?b?SW1tZWRpYXRlIERlbGl2ZXJ5IG9mIFZpYWdyL2E=?= In plaats van: Subject: Immediate Delivery of Viagr/a
Bij het openen van de e-mail zal de ontvanger de gedecodeerde tekst te lezen krijgen, anti-spam filters daarentegen zullen deze eerst zelf manueel moeten decoderen.
61
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4.1.8
Gebruik van javascript
Javascript is een scripting taal ontwikkeld omstreeks 1995 voor gebruik in Netscape Navigator. Deze taal laat toe allerlei client-side aanpassingen uit te voeren op webpagina’s. Eén van de mogelijkheden die door spammers gebruikt wordt is de mogelijkheid om tekst pas weer te geven eens de e-mail wordt geladen. <script language=”javascript”> function setText(){ var text = “http%3A//www.spam.com%20dit%20is%20spam”; document.write(unescape(text)); }
In dit voorbeeld zal de variabele “text” weggeschreven worden naar de e-mail van zodra deze geladen wordt. Merk op dat de tekst in deze variabele bestaat uit zogenaamde “escape characters”. Deze zullen alle karakers die niet tot de ASCII karakterset behoren vertalen door een hexadecimaal equivalent. De escape karakters hebben als bijgevolg dat de tekst moeilijk herkenbaar is voor anti-spam filters. Met de functie “unescape” in javascript zal de tekst echter in vlot leesbaar worden weergegeven in de e-mail. Deze techniek wordt tegenwoordig maar zelden meer toegepast, veel e-mail programma’s zijn immers afgestapt van javascript ondersteuning in e-mails. Dit impliceert dat de ontvanger een blanco e-mail zou te zien krijgen.
6.4.2 Verzend technieken Een goede attractieve e-mail opstellen is één ding, maar om hem daadwerkelijk in de mailbox van de ontvangers te deponeren is een ander paar mouwen. Vele Internet Service Providers hanteren immers een aantal anti-spam maatregelen. Daarnaast leidt het gebruik van eigen e-mail servers tot gemakkelijke traceerbaarheid van hun berichten. Spammers dienen daarom alternatieve manieren te vinden om hun e-mails te kunnen versturen. 62
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4.2.1
Black hat, gray hat en white hat14 ISP
Voor de spammer kan de keuze van een geschikte ISP heel hulpvol zijn. Bepaalde ISPs laten immers spammers toe als klanten en kunnen gebruik maken van hun infrastructuur om zorgeloos hun e-mail campagnes de wereld in te sturen. Deze zogenaamde black hat ISPs treden niet op tegen hun spammend cliënteel. Daar lijnrecht tegenover staan de zogenaamde white hat ISPs. Deze zullen spammende klanten opsporen en hun Internet connectie beëindigen. Gray hat ISPs zullen veel toleranter en trager optreden tegen spammers, vaak uit vrees dat ze hierdoor klanten verliezen.
6.4.2.2
Tijdelijke Internet accounts
Vroeger gebruikten spammers vaak vele tijdelijke (dial-up) Internet accounts. Ze registreerden bijvoorbeeld een internetlijn op vrijdag en sturen vanaf die connectie hun spam de wijde wereld in. Wanneer de eerste klachten op maandagochtend de Internet Service Provider bereikten, had de spammer de internetconnectie al opgezegd. Het registreren van dial-up connecties vereiste echter wel een betaling met een kredietkaart. Na een reeks spam pogingen ondervond de spammer dat zijn kredietkaart bij vele ISPs niet meer aanvaard werd.
6.4.2.3
Spoofing
Spoofing is het vervalsen van adressen en andere header-informatie, zodat de e-mail niet of moeilijk getraceerd kan worden. Jammer genoeg is dit heel eenvoudig realiseerbaar doordat de infrastructuur van het Internet nooit in de eerste plaats ontworpen is geweest met het oog op veiligheid. Een telnet sessie bijvoorbeeld met een (onbeveiligde) SMTP server geeft je totale controle over de inhoud van de e-mail (zie ook: Inleidende begrippen, SMTP). Je kan de headers naar eigen smaak aanpassen. Iedere relay server die de e-mail doorstuurt zal een “received header” toevoegen (boven de reeds bestaande
14
Deze termen komen oorspronkelijk uit de hackerswereld. Een black hat hacker – ook wel een
cracker genoemd – is een criminele hacker die inbreekt in systemen voor commercieel eigenbelang. Een white hat hacker zal trachten in te breken in systemen om zo de security van deze systemen te onderzoeken. Een gray hat tenslotte is een mix van beide: hij zal bijvoorbeeld illegaal indringen in een beveiligd netwerk en hiervan notie maken, maar zal geen verdere schade berokkenen of gegevens stelen.
63
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
headers). Het herkennen van een gespoofte e-mail vergt ervaring, en het gebruik van de juiste tools. Bekijken we vooreerst de semantiek van de “received” header: Received: from (<evt echte naam zender> []) by () with (E)SMTP code [for: ]; ()
Deze headers kunnen echter variëren in vorm, dus een goede portie ervaring is nodig om een vervalste header te identificeren. We kunnen wel de route van de e-mail trachten te achterhalen, wetende dat de oudste “received”-header (= het adres van de verzender) onderaan staat. We kunnen de IP-gegevens in de headers controleren, om zo de route die de e-mail heeft afgelegd te bepalen. Indien de identificatie van de relay niet strookt met de gegevens die gekoppeld zijn aan het IP-adres, kunnen we er van uit gaan dat de headers vervalst zijn geweest.
6.4.2.4
Open relays en open proxies
Open relays zijn e-mail servers die geen authenticatie uitvoeren. Een goed geconfigureerde e-mail server zal enkel e-mail accepteren van systemen binnen zijn eigen domein of gericht enkel naar leden binnen zijn domein. Open relays zijn in wezen (met opzet) slecht geconfigureerde servers, die e-mails accepteren van ieder systeem en deze verzendt. Je kan gemakkelijk testen of je e-mail server een open relay is aan de hand van een telnet 15 programma (S: SMTP server, C: client). C:
telnet 192.168.123.2 25
Inloggen op de vermoedelijke open relay op poort 25
S:
connected to 192.168.123.2 220 welcome to QK SMTP server 3
“Mail from:” header beschrijven “Rcpt to:” header kenbaar maken
Telnet is een terminal emulator die communicatie ondersteund tussen twee TCP/IP systemen.
De commando’s die je via telnet ingeeft worden over het netwerk verstuurd en verwerkt alsof je fysiek op het ander systeem aan het werken bent.
64
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
C:
Data
S:
354 Start mail input; end with .CRLF>
C:
This is a relay test
De effectieve data wordt nu weggeschreven. Merk op dat de data
.
wordt afgesloten door een
S:
250 OK
C:
QUIT
S:
221 Signing off
Communicatie verbreken
In bovenstaand voorbeeld is duidelijk dat de server de e-mail zal versturen naar de ontvanger. Een goed geconfigureerde server zal je beletten e-mail te versturen, dit kan op verschillende manieren: • Het is niet mogelijk te connecteren naar de SMTP server met een onbekend IP-adres. (“Connection failed”) • Een 4xx of 5xx foutmelding bij het “RCPT TO:” commando. Dit is de eerste indicatie voor SMTP-servers dat de e-mail niet moet afgeleverd worden binnen het eigen domein – en dus wordt ze geweigerd. De 4xx en 5xx foutcodes wijzen op het feit dat de e-mail niet verstuurd kon worden, dit kan doordat het domein niet beschikbaar is, de mailbox is bezet,…of de e-mail werd geweigerd. • De e-mail wordt teruggestuurd naar de zender met de melding dat de e-mail niet kan afgeleverd worden (dit is een zogenaamde bounce e-mail). Een open proxy is een slecht geconfigureerde proxy server. Een proxy server is een service die geconnecteerde cliënten indirect toegang zal verlenen tot systemen in een netwerk. De proxy server staat in voor de communicatie tussen een privaat netwerk en het Internet. Aangezien geen enkele pc in het lokaal netwerk rechtstreekse verbinding heeft met het Internet, kan de netwerkbeheerder zich minder zorgen maken over de beveiliging van die systemen. Aangezien alle communicatie verloopt via de proxy server, hoeft enkel deze voorzien te worden van aangepaste beveiliging. Alle aanvragen die de proxy server krijgt, zal hij eerst zelf trachten te verwerken. Kan hij dit niet, dan stuurt de service je door naar het gewenste systeem op het Internet.
65
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Fig. 6.7: Netwerk met een proxy server
Een open proxy zal aanvragen van ieder IP-adres accepteren als gevold van een slechte configuratie. Daar de proxy server service vaak op typische poorten draait (poorten 1080, 3128, 8080) is het voor de spammer makkelijk te testen of er al dan niet een onbeschermde SMTP server beschikbaar is (zie ook: 6.4.2.4: Open relays en open proxies) die kan worden misbruikt voor het zenden van spam. Gelukkig controleren vele e-mail servers echter de machine waar de e-mail vandaan komt. Als de server ontdekt dat de e-mail afkomstig is van zo’n typische proxy server poortadres, zal hij de mail blokkeren. Al vlug werd een lijst aangelegd van bekende spammende open proxies: de zogenaamde blackhole lists.
6.4.2.5
Drive-by sending (wardriving)
Drive-by sending is een techniek die nog maar vrij recentelijk wordt toegepast. De spammer gaat op zoek naar onbeveiligde draadloze netwerken waar hij kan op connecteren. Eens zo’n netwerk gevonden is, wordt er gezocht naar een SMTP-server die hij kan misbruiken. Op juridisch vlak is wardriving op zich trouwens niet illegaal: identificatie vaststellen van een onbeveiligd netwerk is volstrekt wettelijk toegelaten. Het gebruik van systemen of services zonder permissie van de eigenaar daarentegen is wel illegaal. Als beheerder van een draadloos netwerk implementeer je dus best zelf de nodige veiligheidsmaatregelen, alvorens je netwerk gecompromitteerd wordt. In New York is er trouwens een voorstel [9] in de maak dat bedrijven en particulieren verplicht hun draadloos netwerk te voorzien van beveiliging. Daarnaast moet een opzettelijk publiek draadloos accesspoint voorzien zijn van een netwerkgateway met firewall.
66
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
6.4.2.6
Zombie netwerken (botnets, drones)
Als een gebruiker besmet is door een virus, kan deze een zombie worden. Sommige types virussen - de beruchte trojans of trojaanse paarden - nestelen zich gecamoufleerd in het computersysteem en hebben vaak spionage en/of backdoor functionaliteiten. Een backdoor zal ervoor zorgen dat een kwaadwillende zich ongemerkt en zonder authenticatie toegang krijgt tot je computersysteem. In januari 2003 kwam de eerste Sobig trojan (W32.Sobig.A) op de proppen. Bij het openen van de e-mail bijlage download het virus ongemerkt een gemodificeerde SOCKS 4/5 16 proxy server naar het computersysteem van het slachtoffer. Deze proxy servers werkten op niet-standaard poorten en hielden geen logbestanden bij van wie er connecteerde op de server. De spammer kon zo ten alle tijde connecteren op de geïnfecteerde pc en zijn e-mail anoniem via deze pc versturen. Andere bekende spam
trojans zijn: Backdoor.Hogle (2003), W32.Beagle.AU (2004), Backdoor.Ranky.R (2005),… Andere manieren die aanvallers gebruiken om hun “bot” te verspreiden is het gebruik maken van exploits. Exploits zijn gekende lekken in software applicaties, deze worden vervolgens misbruikt door aanvallers om het systeem te voorzien van trojans, bots of andere ambigue software. Recentelijk (januari 2006) werd trouwens nog melding gemaakt van een WMF exploit in de verschillende Windows versies. Windows Meta Files zijn scripts die grafische commando’s kunnen interpreteren aan de hand van GDI (Graphic Device Interface) functies. Deze functies maken het mogelijk om de afbeelding te personaliseren, naargelang het apparaat waarmee men de afbeelding bekijkt. Wil men een WMFafbeelding uitprinten, dan zal deze bijvoorbeeld een hogere resolutie hebben dan als men ze op een scherm bekijkt. In een van die GDI-functies bleek een fout te zitten: de SETABORT Escape functie. Deze wordt gebruikt om printtaken te annuleren. Het probleem met deze functie is dat ze kan worden uitgevoerd nog voor de afbeelding gerenderd is. Een speciaal ontworpen WMF-bestand kan bijgevolg kwaadaardige code uitvoeren, ook al is de WMF-afbeelding invalide. De viewer (standaard de “Picture & Fax
16
SOCKS: Staat voor SOCKetS. Dit type Proxy server werkt op de sessie laag van het OSI-model
(zie Fig. 1.1). Dit zorgt ervoor dat er gemakkelijk kan gecommuniceerd worden met een SOCKS server door een firewall heen. Een SOCKS server is populair bij spammers omdat het geen sporen nalaat van de origine in de e-mail headers. Populaire SOCKS proxies zijn AnalogX en Proxy+.
67
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
viewer” in Windows XP) zal vervolgens de code uitvoeren terwijl de gebruiker louter en alleen kijkt naar een afbeelding.
Fig. 6.8: WMF exploit (bron: cert.org)
De aanvaller zal netwerken scannen op infecteerbare systemen. Een systeem is kwetsbaar wanneer hun besturingssysteem niet voorzien is van besturingssysteemupdates en als de nodige poorten onbeveiligd openstaan. Populaire doelwitten zijn bijvoorbeeld ongepatchte Windows 2000 en XP systemen die geen firewall-software bezitten. Het belang van een virusscanner en een firewall wordt –naast het bijwerken van je besturingssysteemhiermee nog eens geïllustreerd. Tabel 6.1: Lijst van frequent uitgebuite Windows services Poortnr Service 42
WINS (Host Name Server)
80
HTTP (IIS or Apache vulnerability)
135
RPC (Remote Procedure Call)
137
NetBIOS Name Service
139
NetBIOS Session Service
445
Microsoft–DS–Service
1025
Windows Messenger
1433
Microsoft–SQL–Server
2745
Bagle worm backdoor
3127
MyDoom worm backdoor
3306
MySQL UDF (User Definable Functions)
5000
UPnP (Universal Plug and Play)
68
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Bij het vinden van een onbeveiligd systeem, wordt er een IRC 17 bot of drone op geïnstalleerd. Deze bot zal connectie maken met een IRC server op het Internet. De IRCserver kan eigendom zijn van een publiek netwerk, of een speciaal daartoe opgezette server door de aanvaller. Via die IRC server luisteren de zombie-computers geïnfecteerd met bots naar commando’s van de aanvaller. De impact van zo’n bot netwerk (botnet) is niet te onderschatten: zelfs een relatief klein netwerk van 1000 computers beschikt al gauw over een upload van meer dan 1000Mbit (gemiddeld 128kb bij een breedbandverbinding). Het succes van de aanval hangt grotendeels af van de vaardigheden van de aanvaller: er is toch een zekere portie technische kennis nodig om een zombie netwerk op te zetten. Maar het Internet zou het Internet niet zijn als er ook kant-en-klare bots bestaan, die zo te downloaden zijn:
•
GT-bot: staat voor Global Threat-bot. Deze bot bestaat grotendeels uit mIRC scripts die toelaat de bot vanop afstand te besturen. mIRC is een populaire IRCclient voor het windows-platform.
•
Agobot/Phatbot/Forbot/XtremBot: Agobot is een van de meest populaire bots. Deze is geschreven in C++ onder een GPL 18 licentie, wat betekent dat de code van deze bot vrij aanpasbaar is. Dit impliceert dat het vrij gemakkelijk is om nieuwe functies te implementeren. Deze bot schermt zich af van de gebruiker aan de hand van rootkit functionaliteiten en ondersteunt naast IRC ook andere communicatiemedia.
•
DSNX: DataSpy Network X is een bot die eveneens uitgebracht is onder GPL. Deze is extreem gemakkelijk aan te passen gezien deze opgebouwd is rond een plug-in architectuur.
17
IRC: Internet Relay Chat. Is een protocol ontwikkeld door Jarkko Oikarinen in 1988 waarmee
gebruikers met elkaar kunnen communiceren over het Internet. IRC ondersteund 2 communicatiemethodes: many-to-many en one-on-one. 18
GPL: General Public License. GPL is een type software licentie geschreven door Richard Stallman
die vele gratis software applicaties gebruiken. De licentie bevat een viertal basisprincipes: het recht om de software te gebruiken, ze te bestuderen en aan te passen, er kopieën van te maken en deze te distribueren en tenslotte mag je ook verbeteringen van de software publiek verspreiden
69
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
•
SDbot: Ook deze bot is onder GPL beschikbaar. In tegenstelling tot Agobot of DSNX is deze niet zo gemakkelijk uitbreidbaar, de code is niet zo logisch opgebouwd en komt warrig over.
Fig. 6.9: Structuur van een zombie netwerk (Bron: windowssecurity.com)
Eens de installatie voltooid is, zullen de bots zoals eerder aangehaald connecteren met een IRC server. Met een voorgedefinieerd paswoord kunnen ze inloggen op het kanaal waar ze hun commando’s vandaan krijgen. De netwerktrafiek die de bots genereren is echter nogal herkenbaar, goede netwerkbeheerders kunnen deze identificeren en zo het bewuste controlekanaal van de IRC server verwijderen. Een tegenoplossing die aanvallers hanteren, is het gebruik maken van dynamische DNS 19. De aanvaller maakt zijn bots bereikbaar door middel van dynamische DNS en laat ze connecteren naar meerdere IRCservers.
19
Dynamische DNS koppelt een bepaald IP-adres aan een domeinnaam. Veel gebruikers hebben
immers een internetconnectie via modem of ADSL, en krijgen op reguliere tijdstippen een nieuw IP-adres toegewezen van hun Internet Service Provider. Opdat hun systeem altijd bereikbaar zou zijn op hetzelfde adres werd dynamische DNS in het leven geroepen (RFC 2136), die zal er voor zorgen dat het computersysteem altijd bereikbaar is via www..com, ook als het IPadres van dat systeem veranderd is. Om dit te realiseren zal het de DNS-database raadplegen van zodra het IP-adres van het syteem verandert, en het nieuwe adres opvragen. Leveranciers van dynamische DNS oplossingen zijn ondermeer no-ip.com en dyndns.com
70
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Fig. 6.10: Zombie netwerk met dynamic DNS (Bron: windowssecurity.com)
Ook het kanaal waarop de bots connecteren wordt beter beveiligd: zo zal het kanaal niet worden opgenomen in de lijst van publiek toegankelijke kanalen die een IRC-server bijhoudt. Ook zullen enkel de operators (beheerder van een kanaal) opgenomen worden in de gebruikerslijst om geen argwaan te wekken, en tenslotte wordt het kanaal afgeschermd van nieuwsgierigen door het kanaal te beveiligen met een paswoord. Mocht het kanaal dan toch ontdekt en vervolgens verwijderd worden, kan de aanvaller zijn bots nog altijd bereiken en gemakkelijk verplaatsen naar een andere server. Ervaren aanvallers zullen echter hun eigen IRC-server opzetten. Deze is vaak voorzien van een gemodificeerd IRC-protocol en draaiend op een niet-standaard poort (niet 6666 of 6667) zodat een gewone client er niet kan op inloggen. Verder is het op deze manier mogelijk alle communicatie tussen bots en aanvaller te encrypteren. Eens een netwerk van bots (zombie netwerk) is opgesteld, kan dit worden “verhuurd” aan geïnteresseerden. Onder andere spammers maken gretig gebruik van dit soort netwerken. Naar schatting wordt zowat 50 tot 80% van alle spam e-mails verstuurd vanaf een zombie netwerk. Het is voor spammers een ideale situatie: hun bandbreedte blijft gespaard - ze gebruiken immers die van de geïnfecteerde pc’s, en het traceren van de e-mails wordt sterk bemoeilijkt.
71
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Stel dat een PC wordt geïnfecteerd met een bot door gebruik te maken van een exploit [10]. De nickname van de bot is [urX]-700159 en deze tracht te connecteren met zijn master via een IRC kanaal (channel #foobar op de irc1.xxxxxx.xxx server): <- :irc1.XXXXXX.XXX NOTICE AUTH :*** Looking up your hostname... <- :irc1.XXXXXX.XXX NOTICE AUTH :*** Found your hostname -> /PASS secretserverpass -> /NICK [urX]-700159 <- :irc1.XXXXXX.XXX NOTICE [urX]-700159 :*** If you are having problems connecting due to ping timeouts, please type /quote pong ED322722 -> /JOIN #foobar channelpassword -> /MODE [urX]-700159 +x
Na het inloggen op het master kanaal #foobar, krijgt de bot het topic van het kanaal te zien. Deze wordt door de bot geïnterpreteerd als een commando. <- :irc1.XXXXXX.XXX 332 [urX]-700159 #foobar :.advscan lsass 200 5 0 -r -s <- :[urX]-700159!mltfvt@nicetry JOIN :#foobar <- :irc1.XXXXXX.XXX MODE #foobar +smntuk channelpassword
Meestal krijgen de bots topic commando’s als: 1. ".advscan lsass 200 5 0 -r -s" 2. ".http.update http://<server>/~mugenxu/rBot.exe c:\msy32awds.exe 1" Het eerste commando vertelt de bot dat er moet gezocht worden naar andere systemen die kwetsbaar zijn voor het LSASS-lek (dit lek in het Windows besturingssysteem laat toe om via een buffer overrun code van buitenaf uit te voeren op een systeem). De parameters “200 5 0 –r –s” geven aan dat er 200 parallelle zoekthreads moeten gestart worden met een vertraging van 5 seconden, en dit voor een ongedefinieerd tijdsbestek (parameter “0”). De scans gebeuren willekeurig (“-r”: random) en dit onzichtbaar voor de computergebruiker (“-s”: silent). Het tweede commando zal de bot een binaire applicatie doen downloaden van een server, en zal deze uitvoeren na download (parameter “1”). Bij het succesvol uitvoeren van een commando zal de bot dit kenbaar maken aan de master. -> /PRIVMSG #foobar :[lsass]: Exploiting IP: 200.124.175.XXX -> /PRIVMSG #foobar :[TFTP]: File transfer started to IP: 200.124.175.XXX (C:\WINDOWS\System32\NAV.exe).
72
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Indien er geen commando’s gegeven worden aan de bot, zal die in standby mode wachten in het kanaal op verdere instructies. Naast het verspreiden van spam, hebben zombie netwerken ook andere toepassingsgebieden. Denken we maar aan: • Sniffing en keylogging • Identiteitsdiefstal • Illegale softyware opslag • (D)DOS
Fig. 6.11: Zombie netwerken in de loop van 2001-2006 (Bron: ordb.org)
6.5 Effectiviteit van spammen Spammers zijn afhankelijk van hoe goed hun aangeboden product worden ontvangen bij “klanten”. Vooreer een ontvanger van een spam e-mail effectief overgaat tot de aankoop van het aangeboden product, moeten de e-mail daadwerkelijk de spamfilters omzeilen én moet de e-mail ook nog gelezen worden. We kunnen de effectiviteit van een spammailing mathematisch uitdrukken als [11]:
Pf = percentage van de e-mails die wordt geïntercepteerd door de spamfilters
Pr = percentage van de ontvangen spam die gelezen wordt Pct = percentage van de ontvanger die de ingesloten URL of bijlage opent 73
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Bovenstaande formule is logisch opdeelbaar in 2 delen: pre-levering [ sent × (1- Pf ) ] en post-levering [ (Pr × Pct ) ]. Deze formule verklaart enerzijds het bulk karakter van spam: de effectiviteit wordt geprobeerd te verhogen door het aantal verzonden spam te maximaliseren. Het post-levering gedeelte werd reeds uitvoerig besproken in dit hoofdstuk: door gebruik te maken van inventieve technieken – vaak inspelend op social engineering of technische (bizarre) truuken.
74
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
Hoofdstuk 7: Opzetten van een legale emarketing strategie We hebben in voorgaande hoofdstukken velerlei technieken gezien hoe spammers te werk gaan om hun e-mail in je mailbox e krijgen. We zouden haast vergeten dat het als bedrijf perfect mogelijk is om een succesvolle legale e-mail marketing te voeren. Er zijn enkele kernpunten waaraan een e-mail campagne moet voldoen, anders kunnen er nefaste consequenties optreden:
•
Je e-mail campagne wordt als spam beschouwd, wat in veel landen tegenwoordig illegaal is. Zodoende kunnen er financiële maatregelen genomen worden tegen je bedrijf bij klachten.
•
De naam van het bedrijf staat op het spel. Een bedrijf dat roekeloos spamt krijgt al gauw een slechte reputatie en zal leiden tot verlies van vertrouwen bij de klanten.
•
Als je Internet Service Provider ontdekt dat je spam verstuurt, loop je het risico dat je uitgesloten wordt van hun service en/of je bedrijfswebsite wordt uit de lucht gehaald.
Dit zijn enkele gegronde redenen waarom het als bedrijf opportuun is om er een goede email marketing op na te houden. E-mail is een fantastisch hulpmiddel voor klantenbinding en promotionele acties maar men dient zich aan enkele regels te houden:
•
Vervals geen e-mail headers en maak geen gebruik van ambigue onderwerpregels in je e-mail. Stel een duidelijke, professionele e-mail op en omschrijf de inhoud ervan zo accuraat mogelijk in de onderwerpregel.
•
Stuur geen e-mails meer naar afzenders die geopteerd hebben om zich uit te schrijven uit je lijst.
•
Stuur alleen e-mails naar mensen die hiermee akkoord zijn: dit kan je klantenbestand zijn of andere personen die zich expliciet hebben ingeschreven op je nieuwsbrief. Lijsten van e-mail adressen aangekocht op een cd zijn uit den
75
Hoofdstuk 7: Opzetten van een legale e-marketing strategie
boze. Omgekeerd geldt ook: leen je e-mail adressen van klanten niet uit aan derden, tenzij hiervoor expliciete toestemming werd gegeven. •
Verzamel geen e-mail adressen van het Internet of andere nieuwsbrieven. Gebruik louter en alleen adressen van klanten die daarvoor hun toestemming hebben gegeven.
•
Het personaliseren van e-mail is een goed idee, dit geeft een vertrouwdere indruk weer bij de klant.
•
Voorzie je e-mails van je fysieke adresgegevens, alsook een eenvoudige methode om zicht uit te schijven op verdere nieuwsbrieven.
•
Zorg dat je website een policy bevat over hoe er wordt omgesprongen met de gegevens van de klanten. Indien er een functionaliteit aanwezig is voor de klanten om hun e-mail adres op te geven, refereer je best naar diezelfde privacy policy. Beschrijf eveneens de doeleinden waarvoor het adres zal gebruikt worden.
•
Informeer je goed over de wetten omtrent spam in het land waar je je campagne wil opzetten. Deze willen vaak nog eens verschillen van elkaar, zeker in continenten als Europa en Amerika.
76
Hoofdstuk 8: Spam en wetgeving
Hoofdstuk 8: Spam en Wetgeving Het spam-fenomeen is moeilijk bestrijdbaar met louter en alleen technische maatregelen. Daarom voorzien vele landen een regulering omtrent elektronische e-mail. Er zijn twee grote tendensen onderscheidbaar in deze wetten: enerzijds zijn er de Verenigde Staten die het opt-out principe hanteren, en anderzijds Europa die het opt-in principe prefereert.
8.1 Opt-in versus opt-out Opt-in betekent praktisch gezien dat een persoon of bedrijf geen elektronische communicatie mag initiëren naar een ontvanger, zonder dat die daarvoor zijn expliciete toestemming voor gegeven heeft. Opt-out daarentegen houdt in dat men elektronische communicatie mag initiëren en blijven onderhouden, net zolang tot de ontvanger aangeeft dat hij zich wenst uit te schrijven uit de communicatie. Het begrip “elektronische communicatie” dient hier in een ruimere context geïnterpreteerd te worden en omvat: “tekst-, spraak, geluids- of beeldbericht dat over een openbaar communicatienetwerk wordt verzonden en in het netwerk of in de eindapparatuur van de ontvanger kan worden opgeslagen tot het door de afnemer wordt opgehaald” [12]
8.2 Europa De lidstaten van Europa hanteren enkele internationale Europese richtlijnen omtrent de privacy in elektronische communicatie [13]. Deze zijn een herziening van de richtlijnen opgesteld op 8 juni 2000, dewelke alleen sloegen op communicatie van fax en geautomatiseerde telefoonmachines. De nieuwe richtlijnen streven drie basisprincipes na omtrent niet verzochte communicatie (zie Bijlage III: Uittreksel uit de Europese richtlijnen omtrent ongewenste communicatie): •
Systemen zonder menselijke interventie mogen alleen communicatie met commercieel oogmerk aangaan indien de ontvanger hiervoor permissie heeft gegeven (EC 2002/58/EC, artikel 13(1))
•
Artikel 13(2) laat echter een uitzondering toe op bovenstaande richtlijn: er mag elektronische communicatie met commerciële doeleinden opgezet worden naar een bestaand klantenbestand, indien de aangeboden producten of diensten gelijkaardig zijn en de initiator van de communicatie dezelfde natuurlijke persoon 77
Hoofdstuk 8: Spam en wetgeving
is. Er dient bij ieder bericht ook een methodiek aanwezig te zijn om zich kosteloos uit te schrijven van toekomstige aanbiedingen. •
Het verbergen of vervalsen van de identiteit van de afzender is verboden. De ontvanger moet ten alle tijde de zender kunnen bereiken om een verzoek van uitschrijven over te kunnen maken. (EC 2002/58/EC, artikel 13(4))
De landen die lid zijn van de Europese commissie dienden vanaf 31 oktober 2003 deze richtlijnen in hun nationale wetgeving op te nemen. Deze Europese richtlijnen bevatten ook nog enkele andere verplichtingen: •
Het gebruik van cookies is enkel toegelaten indien de bezoeker van een website hierover duidelijk geïnformeerd wordt (bijvoorbeeld in een privacy statement). De bezoeker heeft het recht zich te verweren tegen het gebruik van deze cookies.
•
Spyware is enkel toegelaten indien het bedrijf zijn intenties duidelijk maakt en de gebruiker hierover informeert. De gebruiker heeft het recht zich hiertegen te verzetten
•
Lokalisatiegegevens mogen enkel opgevraagd worden met expliciete toestemming van de betrokkene. Hier zijn echter 2 uitzonderingen van pas: o
Lokalisatiegegevens bij communicatie mogen doorgestuurd worden naar hulpdiensten ter bevordering van de hulpverlening
o
Gerechtelijke onderzoeken mogen onder strikte voorwaarden lokalisatiegegevens opvragen van verdachten in het kader van een crimineel onderzoek
8.2.1 België België paste zijn wetgeving omtrent elektronische communicatie aan aan de richtlijnen van de Europese gemeenschap op 11 maart 2003: “Wet betreffende bepaalde juridische aspecten van de diensten van de informatiemaatschappij”. Deze stelt dat elektronische post met reclamedoeleinden niet mag verstuurd worden zonder toestemming van de ontvanger. Elektronische post is een begrip dat zowel e-mail, fax, SMS, MMS,… omvat. Ook verkieziezingsmarketing valt trouwens onder deze wet. De reclame moet bovendien duidelijk en ondubbelzinnig herkenbaar zijn, en moet de vermelding “reclame” of ’”publicité” bevatten. Verder dienen bij ieder bericht duidelijke instructies aanwezig te zijn die de ontvanger kosteloos verwijdert van de lijst van toekomstige reclameberichten.
78
Hoofdstuk 8: Spam en wetgeving
Op 28 mei 2003 werd deze regelgeving enigszins aangepast met een Koninklijk Besluit [14], er zijn twee uitzonderingen op de opt-in regel mogelijk: men spreekt van een soft
opt-in regime. •
Uitzondering 1: eigen klanten Men is vrijgesteld voorafgaande toestemming te vragen bij het versturen van elektronische reclame als wordt voldaan aan 3 voorwaarden: o
De elektronische persoonsgegevens van de ontvanger zijn op een rechtmatige manier verworven, dit wil zeggen conform de privacywet op het verzamelen van persoonsgegevens.
o
De reclameboodschap handelt over gelijkaardige producten of diensten die het bedrijf zelf levert.
o
De afzender moet een gemakkelijke en kostenloze methode aanreiken zodat de klanten zich kunnen verzetten tegen het gebruik van de data.
•
Uitzondering 2: rechtspersonen Men is vrijgesteld van voorafgaande permissie te vragen aan rechtspersonen omtrent elektronische reclame als: o
De contactgegevens die hiervoor gebruikt zijn, onpersoonlijk zijn.
o
De producten of diensten die gepromoot worden bestemd zijn voor de rechtspersoon.
Ook omtrent het verzamelen van elektronische contactgegevens zijn er in België wetten voorzien: de zogenaamde privacywet [15]. Deze verleent ieder individu waarvan persoonsgegevens bewaard worden (dit zijn onder meer naam, telefoonnummer, e-mail adres,…) enkele specifieke rechten: •
De betrokkene dient geïnformeerd te worden over de doeleinden van de database waarin hun gegevens worden in opgeslagen.
•
De betrokkene dient geïnformeerd te worden over de verantwoordelijke die de gegevens verwerkt en over de privacyrechten die de wet verleend.
•
De betrokkene heeft het recht zijn gegevens in te kijken, te verbeteren en in bepaalde gevallen zijn gegevens te verwijderen uit de database.
Een bedrijf mag contactgegevens uitgeven aan derden, als de klanten hiervoor toestemming gegeven hebben. Men dient ook te preciseren wie deze derden zijn en voor welke doeleinden de gegevens zullen gebruikt worden
79
Hoofdstuk 8: Spam en wetgeving
8.2.2 Andere Europese lidstaten De landen die lid zijn van de Europese commissie zijn verplicht om vanaf 31 oktober 2003 de richtlijnen opgesteld door de Europese commissie in hun nationale wetgeving in te passen [16].
8.2.2.1
Denemarken
Spammen in Denemarken is al sinds Januari 2000 verboden, dit valt immers onder de Marketing Practices Act (Markedsfoeringsloven). Het implementeren van de nieuwe Europese richtlijnen impliceerde wel enkele aanpassingen aan die wet 20. Zo was het vroeger niet mogelijk om e-mails te versturen voor “gelijkaardige aanbiedingen” naar klanten die reeds hun toestemming hadden gegeven om bepaalde elektronische advertenties te ontvangen. Er is nog geen publieke instantie toegewezen die de klachten omtrent spam afhandelt. Paragraaf 8.3 vermeld wel 3 organisaties die het recht hebben om inbreuken op de wet aan te klagen: -
Association of the German Internet Economy (eco)
-
Federation of German Consumer Associations (vzbv)
-
Agency to Combat Unfair Competition ( Wettbewerbszentrale)
8.2.2.2
Finland
Finland heeft sinds 1999 reeds een wet die commerciële e-mails reguleert. Naast de implementatie van de Europese richtlijnen werd de wetgeving omtrent commerciële email herzien op 16 juli 2004: Act on Data Protection in Electronic Communications. Deze schrijft een zuiver opt-in beleid voor, conform de richtlijnen.
8.2.2.3
Frankrijk
Op 22 juni 2004 werd in Frankrijk een wet 21 aangenomen die de elektronische communicatie reguleert, met voor het eerst een ruime interpretatie van het begrip ecommerce: “de economische activiteit waarbij een persoon van op afstand en via elektronische weg de levering van goederen of diensten voorstelt”. Deze wet laat toe dat commerciële e-mails mogen verstuurd worden als de gegevens van de bestemmeling 20
Lov om markedsføring
21
LOI n° 2004-575 du 21 juin 2004 pour la confiance dans l'économie numérique
80
Hoofdstuk 8: Spam en wetgeving
rechtstreeks bij de betrokkene werden ingewonnen (dus met toestemming) en indien de bestemmeling de mogelijkheid heeft om zich kosteloos te verzetten tegen toekomstige commerciële communicatie van de afzender. De commerciële e-mail moet ook duidelijk als zijnde publiciteit herkenbaar zijn, en er moet notie aanwezig zijn van de identificatiegegevens van de afzender.
8.2.2.4
Duitsland
Duitsland heeft een wetsvoorstel in die commerciële e-mail toelaat onder het opt-in principe. Dit voorstel is een verderzetting van de wet op oneerlijke concurrentie 22, meer specifiek een uitbreiding op artikel 7. Dit artikel beschouwt communicatie via e-mail, fax of andere geautomatiseerde systemen naar ontvangers zonder hun voorafgaande permissie als concurrentievervalsing. Indien een bedrijf op eerlijke manier een klantenbestand heeft opgebouwd door eerdere elektronische communicatie, mag hij zijn klanten elektronisch aanbiedingen versturen tot de klant aangeeft dat hij geen verdere aanbiedingen wil ontvangen. Er moet te allen tijde meegedeeld worden aan de klant dat hij zich kan verzetten tegen toekomstige commerciële communicatie.
8.2.2.5
Griekenland
Griekenland heeft nog geen wet die specifiek artikel 13 van de Europese richtlijnen handhaaft. Wel is er reeds een wet die het opt-in systeem voorschrijft bij zogenaamde verkoop op afstand 23. Deze wet slaat op geautomatiseerde systemen, fax en e-mail. Andere wetteksten die kunnen aangewend worden om spam te bestrijden zijn: •
Article 9 (Advertising), Section 2 (Unfair terms in consumer contracts) of the law 2251/94
•
PD for e-commerce 131/2003
•
EU Directive 2002/58/EC of 12 July 2002
8.2.2.6
Hongarije
Hongarije had reeds in 2001 een wet die UCE aan banden legde: Act On E-Commerce and Information Society Related Services. Deze liet alleen commerciële e-mails toe indien de betrokkene hiervoor expliciete toestemming heeft gegeven. In 2003 werd de wet
22
Gesetz gegen Unlauteren Wettbewerb
23
Distance Selling Directive (97/7/EC)
81
Hoofdstuk 8: Spam en wetgeving
aangepast aan de opgelegde Europese richtlijnen met een extra amendement : Art. 14, Act CVIII of 2001 on Electronic Commerce)
8.2.2.7
Ierland
Ierland heeft sinds 2003 ook een wetgeving conform de Europese richtlijnen, deze is een update van een oudere datacommunicatiewet uit 1988. De Office of Data Protection Commissioner staat in voor de goede naleving van deze wetgeving.
8.2.2.8
Italië
Ook Italië heeft intussen de Europese richtlijnen in hun nationale wetgeving ingepast (Data Protection Code as amended by Legislative Decree no. 196 of 30 June 2003). De Italiaanse wetgeving voorziet vrij zware sanctionering bij overtredingen: deze kan oplopen van 500 tot 5000 euro per ongewenste e-mail (kan verdubbeld worden bij meerdere overtredingen). In principe kan de ontvanger van een ongewenste commerciële e-mail het bedrijf vragen of ze wel permissie hadden om de advertentie naar de betrokkene te sturen. Het bedrijf is verplicht zo’n verzoek binnen de 5 werkdagen op te volgen. Indien het antwoord van het bedrijf niet afdoend is, kan de klacht worden doorgestuurd naar de Italiaanse privacy autoriteit (Dit kost zo’n 26 euro). Deze zal de klacht verder onderzoeken en afhandelen binnen een tijdspanne van ongeveer 2 maand.
8.2.2.9
Luxemburg
Luxemburg beschikt tot op heden nog geen specifieke wet die ongewenste commerciële e-mails behandelt. Er zijn intenties om de Europese richtlijnen op te nemen in de wetsvoorstellen, en dus het opt-in regime te adapteren. Er is wel een vrij recente (1997) telecommunicatiewet die reeds het opt-in principe hanteert, maar deze maakt geen melding over e-mail.
8.2.2.10
Nederland
De Europese richtlijnen hebben in Nederland gezorgd voor een wijziging van de reeds bestaande telecommunicatiewet. De oudere telecommunicatiewet streefde een opt-out beleid na, waar de revisie van 19 mei 2004 een opt-in beleid voorstelt. Momenteel is het ontwerpvoorstel nog steeds in beraad. Het voorstel omschrijft dat er voorafgaande expliciete toestemming gegeven moet worden door de bestemmeling om commerciële email te mogen versturen. Bij eventuele betwistingen ligt de bewijslast bij de zender. Verder is het verboden de identiteit van de zender te vervalsen, en er moet altijd melding 82
Hoofdstuk 8: Spam en wetgeving
gemaakt worden van geldige contactgegevens van de zender. Om tegemoet te komen aan bezorgers van elektronische advertenties zou er een regeling zijn dat ieder domein een reclame@<domeinnaam>.nl adres aanmaakt, waarnaar de zenders vrijelijk en zonder toestemming hun advertenties kwijt kunnen. Het wetsvoorstel wordt medio 2006 door de tweede kamer behandeld.
8.2.2.11
Oostenrijk
Oostenrijk heeft de Europese richtlijnen omstreeks 2003 opgenomen in haar nationale wetgeving. Dit resulteerde in de vernieuwde telecommunicatiewet. Deze wet is van kracht van zodra de e-mail een commercieel oogmerk heeft óf de e-mail heeft meer dan 50 ontvangers (artikel 2). Hiermee wil Oostenrijk zowel UCE als UBE reguleren. Het is wel toegelaten elektronische communicatie aan te gaan zonder voorafgaande toestemming (behalve in de gevallen beschreven in artikel 2) als in die communicatie vermeld wordt hoe men toekomstige berichten kan weigeren.
8.2.2.12
Portugal
Portugal is een buitenbeentje in de Europese gemeenschap. Tot op heden hanteren zij nog altijd een opt-out politiek inzake commerciële elektronische communicatie. De regulering van commerciële e-mail valt onder de wet op beveiliging van persoonlijke data, welke wordt opgevolgd door de overheidsorganisatie CNPD 24. Het verkrijgen van e-mail adres mag alleen afkomstig zijn van de betrokkene in kwestie. Men mag wel elektronische advertenties versturen tot de ontvanger aangeeft dat hij deze niet meer wenst te ontvangen.
8.2.2.13
Spanje
Spanje heeft tot op de dag van vandaag nog geen officiële implementatie van de voorgeschreven Europese richtlijnen. Er wordt nog gebruik gemaakt van een wet uit juli 2002: Act 34/2002 of 11 July on Information Society Services and electronic Commerce. Deze wetgeving is een revisie van een eerste wetsvoorstel in januari 2001. Dit voorstel hanteerde een milde opt-out politiek, maar na een heuse proteststorm werd uiteindelijk toch geopteerd voor een opt-in regime.
24
Comissão Nacional de Protecção de Dados
83
Hoofdstuk 8: Spam en wetgeving
8.2.2.14
Verenigd Koninkrijk
Het Verenigd Koninkrijk hanteert sinds 2003 de Europese richtlijnen in hun juridisch beleid 25. Naast de gebruikelijke opt-in wetgeving voor commerciële e-mails zijn ook webpagina’s onder deze wet geregulariseerd: deze moeten bijvoorbeeld de mogelijkheid bieden om cookies te weigeren. Uitzondering op het opt-in regime zijn de bedrijfsadressen. Deze e-mail personalia mogen advertenties ontvangen tot er expliciete weigering is van de ontvanger.
8.2.2.15
Zweden
Ook Zweden heeft nog geen gehoor gegeven aan de Europese richtlijnen. Er wordt nog steeds gebruik gemaakt van de wet op verkoop op afstand (1997). Er is geen specifieke vermelding van e-mail, maar de clausule “other similar automatic system for individual communication..." geeft wel een ruimere interpretatiemogelijkheid aan. Deze elektronische communicatie wordt onder een opt-in beleid toegestaan.
8.2.2.16
Overzicht
Tabel 8.1: Spam wetgeving in Europa (bron: EuroCAUCE ) Land
Wetgeving
Opmerking
Austria
Opt-in
Opt-in geldt voor alle commerciële elektronische mail én elektronische mail naar meer dan 50 personen
Belgium
Opt-in
Cyprus Czech Republic Denmark
Opt-in
Estonia Finland
Opt-in
France
Opt-in
Germany
Opt-in
Greece
Opt-in
Hungary
Opt-in
Ireland
Opt-in
Italy
Opt-in
Strenge anti-spam wetgeving. Gevangenisstraffen tot 3 jaar mogelijk
25
Statutory Instrument 2003 No. 2426 The Privacy and Electronic Communications (EC Directive)
Regulations 2003
84
Hoofdstuk 8: Spam en wetgeving
Latvia Lithuania Luxembourg
Opt-in
Er is nog geen wetgeving die e-mail marketing als dusdanig reguleert
Malta Netherlands
Opt-in
Poland Portugal
Opt-out
Slovakia Slovenia Spain
Opt-in
Sweden
Opt-in
United Kingdom
Opt-in
8.3 Verenigde Staten 8.3.1 Staat niveau Op dit moment hebben 38 staten een wetgeving die het gebruik van commerciële elektronische communicatie reguleert. Deze wetgevingen zijn uiteenlopend qua effectiviteit per staat Sommige staten verplichten e-mail advertenties te voorzien van een “ADV:”-prefix in de onderwerpregel. De meeste staten in Amerika gedogen het gebruik van elektronische advertenties onder het opt-out regime, maar ook hier zijn er uitzonderingen op de regel. De staat Californië is de tweede staat (na Delaware) die sinds 2003 opteert voor een opt-in politiek, waar deze vroeger opt-out en “ADV:”-prefix voorschreef.
8.3.2 Federaal niveau Op 16 december 2003 werd een wetgeving voorgesteld aan de Amerikaanse senaat. Deze werd goedgekeurd, en sinds 1 januari 2004 kan ongewenste e-mail beteugeld worden middels de CAN-SPAM 26 act [17]. Deze federale wet (die trouwens afgeleid is van de staatswet omtrent spam in Virgina) omarmt het opt-out principe, maar stelt hier beperkingen aan:
26
CAN-SPAM: Controlling the Assault of Non-Solicited Pornography and Marketing
85
Hoofdstuk 8: Spam en wetgeving
•
Een commerciële e-mail moet duidelijk herkenbaar zijn als een advertentie, tenzij dit vooraf werd overeengekomen met de ontvanger. Misleidende onderwerpregels of vervalste e-mail headers zijn bijgevolg verboden.
•
Er moet een duidelijke opt-out methodiek aanwezig zijn die toelaat om toekomstige e-mails te weigeren.
•
De afzender moet notie maken van zijn identificatiegegevens. Naast een werkend e-mail adres moet ook een geldig fysiek adres kenbaar gemaakt worden.
•
Advertenties met 18+ inhoud moeten hiervan notie maken in de onderwerpregel van het bericht.
•
De CAN-SPAM act vervangt de wetgeving op staatniveau omtrent commerciële e-mail, behalve indien de staatswetgeving expliciet misleiding en fraude verbiedt.
•
Particulieren kunnen spammers niet aanklagen. Dit gebeurd immers door de Federal Trade Commision en de voorziene juridische instanties.
•
Ook ISPs hebben het recht om overtreders van de CAN-SPAM act voor de civiele rechtbank te dagen. ISPs die overwinningen halen in de rechtbank kunnen het merendeel van de financiële of statutaire kosten claimen.
Het vergaren van e-mail adressen via harvesting, dictionary of spoofing technieken zijn eveneens strafbaar. Tenslotte maakt de CAN-SPAM act ook notie van een soort blacklist van adressen die geen elektronische advertenties wensen te ontvangen. Deze bevoegdheid is toegeschreven aan de Federal Trade Commision, maar het staat ze vrij om al dan niet zo’n lijst bij te houden. De maximale straffen die zijn opgelegd op het overtreden van de CAN-SPAM wetgeving is een gevangenisstraf van 5 jaar en een boete van 11.000 dollar per overtreding.
86
Hoofdstuk 8: Spam en wetgeving
8.4 Andere Australië:
* Spam Act (2003) * Telecommunications Act (1997) * ACMA verplicht ISPs vanaf 16 juli 2006 hun klanten spamfilters (al dan niet betalend) aan te bieden [18]
Canada:
* Personal Information Protection and Electronic Documents Act (PIPEDA) * Canadian Code of Practice for Consumer Protection in ECommerce
Japan:
* Law on Regulation of Transmission of Specified Electronic Mail (Juli 2002) * Specific Commercial Transactions Law (2002)
Nieuw-Zeeland:
* Nog geen specifieke spam wetgeving, tot dusver alleen een wetsvoorstel (Februari 2005)
Bron: Combating spam through legslation: a comparative analysis of US and European approaches [19]
8.5 Problematiek van de spam wetgeving 8.5.1 Europese richtlijnen Een onderzoek aan de universiteit van Twente [20] heeft aangetoond dat de vooropgestelde Europese richtlijnen inzake elektronische commerciële communicatie enkele zwaktepunten bevat. Vooreerst bevat artikel 13, paragraaf 1 (zie Bijlage III: Uittreksel uit de Europese richtlijnen omtrent ongewenste communicatie) een expliciete omschrijving van de communicatiemedia. Dit wijst er op dat het medium voor ongewenste commerciële communicatie wel degelijk relevant is. De huidige opgesomde communicatiemedia die onderhevig zijn aan het opt-in regime zijn: automatische telefooncentrales, facsimile apparatuur en SMS. Voor andere vormen van communicatie staat het de Europese lidstaten vrij om een opt-in of opt-out regime te hanteren. Ook nieuwere communicatietechnieken zullen later expliciet moeten worden vermeld in de omschrijving. De Europese economische en sociale commissie wees uit dat het opt-in regime voor e-mail een grote belemmering kan zijn voor de groei van E-commerce in Europa. Om spam dan toch zoveel mogelijk in te dijken werd geopteerd voor enkele bijkomende richtlijnen zoals het gebruik 87
Hoofdstuk 8: Spam en wetgeving
van een geldig e-mail adres, het verbod op verbergen van de ware identiteit en het recht van de ontvanger om verdere communicatie te weigeren. Een andere vaststelling is dat de richtlijnen alleen maar gelden voor natuurlijke personen of rechtspersonen. Het is onduidelijk waarom bedrijven en non-profit organisaties niet kunnen genieten van deze richtlijnen. Bedrijven en organisaties hebben immers evenveel of zelfs meer last van de problemen die spam met zich meebrengt. Een laatste opmerking in het onderzoek betreft de toepassing van de richtlijnen op nietcommerciële communicatie zoals verkiezingspropaganda of reclame voor goede doelen.
8.5.2 CAN SPAM act De opt-out wetgeving die in de Verenigde Staten van toepassing is zal het spamprobleem inderdaad enigszins reguleren. De wetgeving verbied het gebruik van open proxies en het vervalsen van e-mail headers. Daarmee is meteen ook het grootste nadeel van de CAN SPAM wetgeving aan het licht gebracht: het opt-out principe. Hoe kan men nagaan of de restricties opgelegd door die wet worden nageleefd? Het voorstel opgegeven in de wet is het gebruik van een blacklist. Notoire spammers die sowieso al de wetgeving overtreden zullen lak hebben aan het niet versturen van e-mails naar adressen op deze blacklist. Integendeel, deze lijst kan misbruikt worden als een bron van geldige e-mail adressen voor de spammer. De federale wetgeving is ook beperkend te noemen in die zin dat een aanklacht tegen een spammer moet uitgaan van een gouvernementele organisatie of een ISP. Bedrijven en particuliere personen vallen hierdoor uit de boot. Anderzijds zijn de opgelegde maatregelen vrij eenvoudig omzeilbaar [21]: •
Oprichten van fictieve bedrijven om klachten te omzeilen
•
Gebruik maken van anonieme postbussen als fysiek adres
•
Spammen vanuit andere landen om zo de wetgeving te omzeilen
•
Bekende anti-spam activisten niet spammen, andere adressen wel
Daarnaast zal de CAN-SPAM wetgeving de restricties op staatsniveau vervangen. Indien de e-mail geen gebruik maakt van frauduleuze of misleidende technieken, zal deze onder federale bevoegdheid vallen. Daardoor kunnen strengere staatswetgevingen zoals die in Californië omzeild worden [22].
8.5.3 De wet en ISPs De wetgeving omtrent spam affecteert ook de Internet Service Providers. Deze willen immers ook maar al te graag hun kostbare bandbreedte vrijwaren van ongewenste email. Vele ISPs plaatsen daarom een filter op hun e-mail gateway die de ongewenste e88
Hoofdstuk 8: Spam en wetgeving
mail zal blokkeren. Maar is dit wel legaal? Mag je zomaar e-mail blokkeren, is dit geen inbreuk op het recht van vrije meningsuiting? En wat als er een legale e-mail wordt geblokkeerd? Over het algemeen staat de ISP in voor zijn eigen infrastructuur, en mag het derden weren van het gebruik van deze infrastructuur indien daar gegronde reden voor is [23]. De klant moet hiervan wel op de hoogte gebracht worden, en dit moet dus worden vermeld bij de abonnementsvoorwaarden. Als een soort van consensus kan verdachte e-mail louter gelabeld worden in plaats van directe verwijdering, zodat de ontvanger zelf de keuze heeft om de e-mail al dan niet te verwijderen. Door het labelen kan een eenvoudige berichtregel opgesteld worden die het verwijderen automatiseert. Toch is bij het filteren enige voorzichtigheid geboden: bij klachten kan de ISP immers opdraaien voor de kosten (zie: 8.6.4, E-mail blokkeren verboden)
8.5.4 Algemeen Spam is een internationaal fenomeen die de kwetsbaarheid van het Internet uitbuit. Het wordt dan ook best aangepakt met een internationale eenduidige wetgeving. Spamwetgeving dient enerzijds als een preventieve matregel, maar anderzijds ook als een middel om geïdentificeerde spammers te bestraffen. Er is reeds een samenwerkingsverband 27 tussen de Verenigde Staten, Groot-Brittannië en Australië die toelaat om spammers op te sporen. Een andere organisatie die internationale strekkingen heeft is het OECD of “Organisation for Economic Co-operation and Development”. Het OECD heeft als taak het internationale gevecht tegen spam te coördineren, het promoten van technische anti-spam maatregelen en het verduidelijken van het spamprobleem aan consumenten. Een ander algemeen probleem is het aanklagen van spammers. Daar deze vaak anoniem blijven is het moeilijk om ze op te sporen. Het opsporen van een spammer kan vaak alleen door gegevens op te vragen van ISPs, serverlogs,… Hiervoor is echter een gerechterlijk bevel nodig. Indien de zaak voor de aanklager ernstig genoeg geacht wordt, kan deze een “John Doe”-rechtzaak aanspannen. Dit zijn aanklachten die worden ten laste gelegd van een onbekend persoon. Indien de klacht ontvankelijk wordt verklaard, kan de aanklager via dagvaardigingen de identiteit van de beklaagde nagaan. Het spreekt voor zich dat dit een omslachtige procedure is, maar tot op heden is er nog geen wetgeving die een andere manier van werken toelaat. 27
Tripartite Memorandum of Understanding on Spam enforcement cooperation
89
Hoofdstuk 8: Spam en wetgeving
In juni 2005 werd trouwens voor het eerst een John Doe rechtzaak aangespannen tegen spammers de gebruik maken van zombie computers [24]. Door gebruik te maken van een honeypot (een pc die opzettelijk werd geïnfecteerd met zombie software) kon de gegevens van 10 dergelijke spammers worden opgevraagd. De rechtzaak is momenteel nog lopende.
8.6 Opmerkelijke cases 8.6.1 Microsoft versus Scott Richter Microsoft heeft recentelijk een zogenaamde “spam-king” voor de rechter gedaagd [25], in overtreding van de CAN-SPAM act. Beide partijen hebben echter de zaak buiten de rechtzaak kunnen regelen: Scott Richter vond zich bereid 7 miljoen dollar aan Microsoft te betalen plus de belofte dat hij niet zal hervallen in zijn praktijken. Volgens Postini was de “spam-king” verantwoordelijk voor zo’n 0.2% van alle spam. De overeenkomst met Scott Richter is niet uniek: Microsoft heeft reeds 106 spammers voor de rechtbank gedaagd, al bij al goed voor zo’n 1 miljoen dollar. Opmerkelijk is dat de meeste spammers gebruik maken van dezelfde ISPs, domein registreerders, website ontwikkelaars,…Het artikel vermeld ook dat het aantal klachten omtrent spam de laatste jaren sterk gedaald is. AOL claimt dat ze zo’n 85% minder spamklachten ontvangen heeft dan twee jaar geleden. Dit zou te wijten zijn aan betere spamfilters en de afhandeling van de spam klachten bij AOL.
8.6.2 Computer misuse act Een Britse tiener werd aangeklaagd door de Wimbledon Magistrates Court voor overtreding van de Computer Misuse Act uit 1990 [26]. De tiener had zo’n 5 miljoen emails verstuurd naar de mailserver, waarop deze crashte. De rechter oordeelde echter in het voordeel van de tiener, een mailserver dient immers om e-mail naar te sturen, ongeacht de hoeveelheid. De rechter voegde er meteen aan toe dat onder de huidige Britse wetgeving een DDoS aanval ook niet strafbaar is.
8.6.3 Jeremy Janes Jeremy Janes was een notoir spammer die vanuit North Carolina zijn activiteiten reguleerde. Met behulp van 16 T1-internetconnecties stuurde hij honderduizenden e-mails per dag, met een adressenbestand die later bleek gestolen te zijn van AOL en Ebay. In
90
Hoofdstuk 8: Spam en wetgeving
2004 werd hij echter veroordeeld met behulp van de CAN-SPAM wetgeving in de staat Virginia (hij opereerde immers vanuit North Carolina, maar de gebruikte servers stonden in Leesburg, Virginia). Jeremy werd door de rechtbank veroordeeld tot een gevangenisstraf van 9 jaar in plaats van de door de aanklager vooropgestelde 15 jaar. Momenteel is Jeremy onder huisarrest, omdat de advocaat van de beklaagde in beroep is gegaan tegen de beslissing van de rechter. In maart 2006 wordt de zaak herzien.
8.6.4 E-mail blokkeren verboden In Duitsland werd een universiteit in het ongelijk gesteld door de rechtbank van Karlsruhe omdat het e-mail geblokkeerd heeft [27]. Een vroegere werknemer van die universiteit nam immers zijn ontslag na een fikse ruzie, maar bleef communiceren met zijn vrienden in de universiteit per e-mail. De universiteit besloot vervolgens om iedere e-mail waar zijn naam in vermeld staat, te filteren – zonder dit mee te delen aan de ex-werknemer in kwestie, of de vrienden hiervan. De rechtbank stelde de universiteit in het ongelijk omdat er gefilterd werd op de inhoud van e-mails, welke confidentieel is in Duitsland. Blokkeren is enkel toegestaan bij uitbraak van bijvoorbeeld een virusaanval. De implicaties van deze beslissing zijn nog niet helemaal duidelijk, gezien vele ISPs spam selectief filteren op basis van inhoud.
91
Hoofdstuk 9: Spampreventie
Hoofdstuk 9: Spampreventie 9.1 Preventieve maatregelen tegen spam Spijtig genoeg is er geen exacte methodologie die je toelaat om geen spam te krijgen. Maar je kan wel het risico beperken door enkele maatregelen in acht te nemen:
•
Wees voorzichtig met het gebruik van je persoonlijke gegevens. E-mail adressen en andere persoonlijke gegevens is felbegeerde informatie voor spammers. Probeer het plaatsen van je e-mail adres tot een minimum te beperken. Indien je toch je gegevens wenst mede te delen, kan je dit eventueel op een meer cryptische – maar evenzeer leesbare – manier doen. Schrijf bijvoorbeeld niet: “[email protected]” maar opteer voor “jan at provider punt com”
•
Limiteer het gebruik van cookies. Cookies worden gebruikt om data zoals inlognamen en paswoorden te onthouden, zodat je e niet steeds moet intypen om je bij een website aan te melden. Cookies kunnen echter ook gebruikt worden voor “data mining”: men zal bijhouden hoelang je vertoefd op bepaalde website’s, op welke links je geklikt hebt enz…
•
Gebruik meerdere e-mail adressen. Een goede techniek is het gebruik van meerdere e-mail adressen. Gebruik een email adres waarmee je allerhande online activiteiten uitvoert, en een ander adres specifiek voor communicatie met vertrouwbare partijen. Alternatief kan gebruik gemaakt worden van disposable e-mail addresses: dit zijn e-mail adressen die maar functioneren gedurende een kort tijdsbestek.
•
Wees aandachtig bij het invullen van elektronische formulieren. Let bij het invullen van webformulieren er op dat je je niet per ongeluk inschrijft op een mailing list. Lees goed na wat er gebeurt eens je het formulier doorstuurt. Vink opties af die leiden tot het verkrijgen van e-mail. Wil je weten voor welke doeleinden je adres gebruikt wordt, kun je het privacy beleid van die website er op nalezen. Heeft de website geen privacy beleid, of denk je dat ze deze overtreden hebben, dan kun je je klacht kwijt bij de eerlijke handelscommissie
•
Antwoord niet op spam.
92
Hoofdstuk 9: Spampreventie
Doe geen moeite om te reageren op spam. Je bewijst er alleen maar de spammers een dienst mee, omdat ze weten dat je adres valide is. Resultaat is dat je waarschijnlijk alleen maar meer spam zal ontvangen. Ook opt-out mogelijkheden zijn spijtig genoeg ambigu. Hoewel deze juridische verplicht is, wordt deze vaak misbruikt door spammers: ze zullen je inderdaad van die ene lijst schrappen, maar ondertussen is je e-mail adres geverifieerd en bruikbaar voor vele andere e-mail campagnes. •
Gebruik voorzorgsmaatregelen Gebruik de voorzieningen die je ISP je aanbied. Het installeren van een spamfilter kan heel wat ongewenste e-mail uit je mailbox houden. Open eveneens nooit bijlagen van onbekende personen, deze bevatten mogelijk een virus. Het installeren en regelmatig updaten van een firewall, virusscanner en spamfilter zullen het probleem grotendeels verhelpen.
•
Gebruik encryptie Is je e-mail correspondentie vertrouwelijk of heb je liever niet dat deze in verkeerde handen valt, dan is het overwegen waard om encryptie te gebruiken. Pakketten zoals Pretty Good Privacy zullen je e-mail versleutelen en alleen de rechtmatige ontvanger zal deze kunnen openen.
•
Stuur klachten Ieder domein zou moeten voorzien zijn van een speciaal e-mail adres waarnaar je klachten kunt sturen. Meestal is dit abuse@<domein> of postmaster@<domein>. Indien er twijfels zijn kan je dit adres nog altijd opzoeken via een whois service. Daarnaast kun je ook klacht indienen bij officiële instanties: o
[email protected]: Hier kan je klachten nalaten over spam van Amerikaanse origine.
o
[email protected]: Hier kan je klachten kwijt over Amerikaanse pornografische spam
o
[email protected]: Dit adres is er speciaal om elektronische advertenties die “medische wondermiddeltjes” promoten af te handelen.
o
[email protected]: Dit is het adres van de commissie die de persoonlijke levenssfeer in België beschermt. Spam van Belgische bodem kun je hier kwijt.
o
[email protected]: dit adres handelt klachten af over oplichterij en piramideschema’s.
93
Hoofdstuk 9: Spampreventie
9.2 Zombie netwerk preventie In voorgaande hoofdstukken is duidelijk geworden dat de meeste spam verstuurd wordt via zogenaamde zombie computers: computersystemen die onbeveiligd zijn en worden ingezet als SMTP server ten dienste van spammers. We bekijken enkele maatregelen die dit tegengaan [28].
•
Voorzie je systeem van een virusscanner en een degelijke firewall. Dit is waarschijnlijk wel de meest belangrijke maatregel. Een goede recente virusscanner en firewall zullen het risico op kaping van je computersysteem aanzienlijk verminderen.
•
Blokkeer uitgaand verkeer op poort 25 Poort 25 is nog altijd de meest frequent gebruikte poort om e-mail te versturen. Indien je deze niet zelf gebruikt, sluit je deze best af voor netwerkverkeer. Indien je zelf een e-mail server wilt draaien, probeer dan een authenticated SMTP server op te zetten, op een andere poort (bvb: poort 587).
•
Indien je systeem traag aanvoelt, of je netwerkverkeer gaat tergend langzaam: controleer het uitgaand netwerkverkeer. Dit kan in de command prompt met het netstat commando:
Fig. 9.1: Het netstat commando
94
Hoofdstuk 10: Spambestrijding
Hoofdstuk 10:
Spambestrijding
10.1 Classificatie De onderstaande classificatie van een aantal anti-spam technieken is gebaseerd op een model van Ronald Wezeman en Eelco Driel [29]. Het model is aangevuld met enkele recente en toekomstige anti-spam technieken. De genoemde methoden worden zeer vaak gecombineerd gebruikt, om zo tot een optimaal resultaat te komen.
Fig. 10.1: Anti-spam technieken
10.2 Plaatsing van filters Het spreekt voor zich dat spam liefst in een zo vroeg mogelijk stadium wordt gedetecteerd. Hoe vroeger de detectie, hoe minder kosten de verstuurde spam met zich meebrengt. Filteren kan: •
op de inkomende SMTP server
•
net voor of net na de inkomende e-mail server
•
op de relay server
•
net voor of net na de relay server
•
op de uitgaande SMTP server
•
net voor of net na de uitgaande e-mail server
•
op het ontvangende computersysteem
95
Hoofdstuk 10: Spambestrijding
Fig. 10.2: Plaatsing anti-spam filter
10.2.1 Dekstop filters (client-side filtering) Deze client-side filters werken vrij nauwkeurig. Ze zijn echter wel grotendeels gefocussed op de consumentenmarkt. Dit type filter wordt gebruikt om de spamfiltering fijn te stellen aan de noden van die specifieke gebruiker. Anderzijds brengt zo’n filter ook hel wat extra werk met zich mee. Het IT-departement moet een extra applicatie ondersteunen (updates, patches,…) of gebruikers moeten de software (meestal) trainen wat leidt tot een productiviteitsverlies. Client-side filters missen vaak ook functies zoals gecentraliseerd beheer en controle. Daarom zijn ze louter geschikt voor particulieren en KMO’s.
10.2.2 E-mail server filters Deze klasse filters richten zich vooral op de reeds bestaande applicaties (Exchange, Lotus Notes, Netware,…) op de e-mail server van het bedrijf. Onder de vorm van plug-ins zullen ze de spam trachten tegen te houden. Dit spaart heel wat uit op de productiviteit van de werknemers. Het gebruik van dit type filter is ook een goede juridische indekking: het getuigt van goede wil om de pornografische/racistische/… e-mail uit het bedrijfsnetwerk te houden. Nadeel is dat deze plug-ins voor e-mail servers vrij veel resources vergen: er worden immers vele mailboxen tegelijk gecontroleerd op spam. Grotere bedrijven (>500 werknemers) hebben vaak nood aan meerdere e-mail servers, wat het onderhoud van de anti-spam filters niet ten goede komt. 96
Hoofdstuk 10: Spambestrijding
10.2.3 Gateway filters Gateway filters zullen spam gaan intercepteren nog voor het de e-mail server(s) van het bedrijf bereikt. Er zijn grosso modo 2 types gateway filters onderscheidbaar: •
E-mail relay plug-in: dit is een plug-in voor de SMTP sofware van het bedrijf. Het voegt een extra stap toe die de e-mail zal filteren.
•
E-mail firewall: dit is een alleenstaande applicatie (kan zowel softwarematig als hardwarematig) die zaken zoals virussen, spam, e-mail relay en firewall zal reguleren
Gateway filteren is een goede oplossing voor de productiviteit van de werknemers te behouden. Alsook is er een positieve invloed op het bedrijfsnetwerk bemerkbaar: door spam te filteren vanaf de start van het bedrijfsnetwerk kan het (redundante) e-mail verkeer met 45% doen dalen [30]. Met gecentraliseerd beheer als bijkomend pluspunt is een gateway filter de ideale oplossing voor grote bedrijven.
10.2.4 Outsourcing Sommige bedrijven laten hun e-mail filteren door externe derde partijen. Deze zijn vaak gespecialiseerd in het filteren van spam en virussen. Evenals gateway filters zullen zij de netwerkvervuiling aanzienlijk doen dalen: de e-mail wordt gefilterd alvorens ze op het bedrijfsnetwerk komt. Door het outsourcen is het IT-departement gevrijwaard met het beheer van e-mail filters. Nadeel is dat het de e-mail communicatie van een bedrijf afhankelijk is van die derde partij qua controle en veiligheid. Als hun servers onbereikbaar zijn, heb je geen e-mail meer. Het outsourcen van je e-mail verkeer brengt ook maandelijkse/jaarlijkse kosten met zich mee. Een bedrijf moet zich afvragen of het op termijn niet beter is zelf te investeren in een anti-spam oplossing.
Fig. 10.3: Performantie anti-spam filters (Bron: Tumbleweed)
97
Hoofdstuk 10: Spambestrijding
10.3 Adresvalidering Adresvalidering zal e-mail filteren op basis van het adres van de zender. Aan de hand van voorgeschreven criteria zal de e-mail al dan niet als spam beschouwd worden. Let op: authenticatie betekent niet dat de e-mail geen spam is, spammers kunnen zich immers ook authenticeren. Het is louter een maatregel die de zender dwingt zich kenbaar te maken opdat hun e-mail wordt doorgestuurd naar de ontvanger.
10.3.1 Blacklisting Blacklisting maakt gebruik van –zoals de naam het al aangeeft- “zwarte lijsten”. Deze lijsten kunnen e-mail adressen, IP-adressen en domeinnamen bevatten. Omstreeks 1997 creëerde Paul Vixie de eerste “Real-time Blackhole List” (RBL), genaamd MAPS (Mail Abuse Prevention System). Gekende spammers en open relay adressen worden toegevoegd op deze lijst. RBLs kunnen lokaal of centraal op het Internet bijgehouden worden. Deze lijsten laten de routers van een ISP toe gemakkelijk mail te blokkeren door de adresvelden te vergelijken met deze op de RBL. Deze techniek vergt weinig resources voor het filteren, maar anderzijds is er wel een heel grote onderhoudskost om de lijst accuraat te houden. Bekende centrale blacklists zijn SPEWS, SpamHaus en ORBL (Open Relay Blacklist). Heel vaak zijn deze domeinen ook het doelwit van een DDoS aanval.
10.3.2 Whitelisting Whitelisting is het tegenovergestelde van blacklisting. Alleen adressen op een bepaalde lijst zullen in de inbox van de gebruiker komen. Deze techniek wordt niet vaak gebruikt, gezien het heel beperkend is. Een ander probleem is dat deze vrij gemakkelijk te omzeilen is voor spammers. Vele whitelists beperken zich immers door het opnemen van e-mail adressen, in plaats van een volledige “From: ”-header. Zoals eerder aangetoond is deze header helemaal niet zo veilig, en kan deze gemakkelijk vervalst worden. De spammer kan vervolgens een e-mail adres invoeren van een gereputeerd bedrijf die waarschijnlijk wel zal vermeld staan op de whitelist ([email protected], [email protected],…). Een oplossing hiervoor zou het whitelisten op basis van IP-adres kunnen zijn, ware het niet dat deze methodiek veel onderhoud vergt: een zender kan van tijd tot tijd een ander IP-adres toegewezen krijgen van zijn ISP.
98
Hoofdstuk 10: Spambestrijding
10.3.3 Greylisting Greylisting adopteert zowel kenmerken van blacklisting als van whitelisting. Greylisting werd ontworpen door zich te baseren op enkele kernpunten [31]: •
Het mag slechts een minimale impact hebben op de gebruikers
•
Het mag niet gemakkelijk omzeilbaar zijn door de spammer
•
Er moet een minimale onderhoudskost zijn voor de administrator
Er zal getracht worden om de spammers zo vroeg mogelijk te stoppen, daarom werd geopteerd om greylisting te implementeren op MTA-niveau.. De werking van de greylist is gebaseerd op 3 stukken informatie, ook wel triplet genoemd: •
Het IP-adres van de zendende host
•
Het adres van de zender in de e-mail
•
Het adres van de ontvanger in de e-mail
Deze triplet zal de e-mail conversatie uniek gaan identificeren. Greylisting hanteert vervolgens een basisregel: Indien we een triplet voor de eerste maal tegenkomen, zullen we de e-mail transactie weigeren. Stuurt een MTA het bericht nogmaals door, dan zal het wél geaccepteerd worden. Deze regel is gebaseerd op het feit dat SMTP geen betrouwbaar protocol is. In de specificaties van SMTP (RFC 821) is hiermee rekening gehouden en wordt er een minimum aantal pogingen gedefinieerd die moet worden ondernomen om de e-mail te leveren. Iedere degelijke Mail Transfer Agent zal bij een fout in de levering een aantal keer trachten de e-mail opnieuw door te sturen. Spammers daarentegen maken gebruik van spam tools die de e-mails zal versturen. Deze hanteren vaak het “fireand-forget”-principe: de e-mails worden gestuurd naar het MX-host van een domein, zonder de e-mail opnieuw door te sturen bij een eventuele fout in de levering. Greylisting zal dus enigszins een vertraging in de levering van e-mail impliceren, maar zal anderzijds ook (hopelijk) meer werk voor de spammer introduceren.
Fig. 10.4: Het greylisting principe
99
Hoofdstuk 10: Spambestrijding
10.3.4 DNS lookup DNS lookup zal de geldigheid van de combinatie e-mail server en e-mail adres van de afzender verifiëren. Door enerzijds het MX-record van de mailserver op te vragen, en anderzijds de domeinnaam van de afzender (rechts van @-teken). Mocht de e-mail afkomstig zijn van een mailserver die bekend is in de DNS-database of het domein van het e-mail adres blijkt niet te bestaan, dan kan de e-mail als spam bestempeld worden. Deze techniek wordt vaak gecombineerd met blacklisting: DNSBL. Voorbeeld: Een mailserver krijgt een e-mail van IP-adres 192.168.42.23 te verwerken, afkomstig van het domein “spam.com”. •
Het IP-adres van de spammer wordt volgens de ip4r notatie geschreven, we keren het adres om: 23.42.168.192
•
Daarna wordt de domeinnaam er aan toegevoegd: 23.42.168.192.spam.com. Het ip4r adres functioneert hier als een soort artificieel subdomein.
•
Het verkregen adres wordt vervolgens opgezocht in de DNSBL-database (“A”record). 44.3.200.10.spam.com.
IN A 127.0.0.3 IN TXT "open relay"
23.42.168.192.spam.com.
IN A 127.0.0.5 IN TXT "spam source "
*.5.222.10.otherspammer.com.
IN A 127.0.0.10 IN TXT “spam network”
25.14.109.127.spam.com.
IN A 127.0.0.2 IN TXT “test record”
Wordt het adres teruggevonden in de DNSBL-database, dan zal er een 127.0.0.x record geretourneerd worden (met x > 1). Het record-nummer duidt aan om welk type spam source het gaat. Per conventie is 127.0.0.2 een record voor testdoeleinden. Wordt er geen record-nummer geretourneerd, maar een “NXDOMAIN” melding (no such domain: het domein staat niet op de zwarte lijst), dan zal de e-mail niet gemarkeerd worden als spam. Het probleem met deze techniek is dat mailservers van gebruikers met dynamische IPadressen (ADSL, kabel) soms ten onrechte als spammers worden beschouwd. Deze dynamische IP-adressen worden immers vaak niet opgenomen worden de DNS-database.
100
Hoofdstuk 10: Spambestrijding
10.3.5 Challenge/Response De challenge/response techniek is een uitbreiding op de whitelisting techniek. Iedere zender die voor het eerst een bericht wil sturen naar een bepaald adres, zal een challenge voorgeschoteld krijgen van de mailserver. Indien deze challenge correct wordt beantwoord, zal de e-mail worden verstuurd en wordt de zender eveneens op de whitelist geplaatst. Subject: Re: Hi There! Greetings, You just sent an e-mail to my spam-free e-mail service. Because this is the first time you have sent to this e-mail account, please confirm yourself so you'll be recognized when you send to me in the future. It's easy. To prove your message comes from a human and not a computer, click on the link below: http://<Some Web Link> Attached is your original message that is in my pending folder, waiting for your quick authentication.
Deze techniek is heel accuraat, maar er is ook veel controverse. Velen vinden het vervelend om iedere mail te bevestigen, en zullen ook weigeren dit te doen. Evenals belast het challenge/response systeem het netwerkverkeer meer, terwijl filters eigenlijk moeten zorgen voor een betere netwerkverbinding. Iedere e-mail van een spammer zal bijvoorbeeld een nieuwe challenge genereren en versturen naar de zender, wat niet bijdraagt tot een snellere verbinding. Een laatste argument is dat het challenge/response systeem zorgt voor vertraging van de e-mail. Stel dat de zender vergeet dat er een challenge naar hem gestuurd wordt die hij dient te confirmeren: de e-mail zal pas effectief verstuurd worden eens de challenge door de zender opgelost is geweest.
101
Hoofdstuk 10: Spambestrijding
10.3.6 Digital signature 10.3.6.1
Problematiek
Bij normaal gebruik van e-mail zien enkel afzender en bestemmeling(en) de inhoud van de boodschap. Er zijn echter bepaalde omstandigheden waardoor andere personen de inhoud van een E-mail kunnen zien: •
Door het ingeven van verkeerde e-mail adressen, of door een configuratiefout van een systeembeheerder is het mogelijk dat e-mail bij een postmaster (de persoon verantwoordelijk voor e-mail) terechtkomt. Deze kan dan eventueel de mail lezen.
•
Wanneer een mail verstuurd wordt, dan zal die mail tijdelijk op verschillende mailservers beschikbaar zijn. Systeembeheerders van de mailservers kunnen deze mails lezen. De mailer software houdt meestal ook een log bij van de afzender en bestemmeling van de mail, het tijdstip van ontvangst van de mail, en het IP adres van de machine van waar de mail werd verzonden. Gelezen en verstuurde mail vanaf een PC wordt meestal ook bewaard op die PC. Door inbraak op de PC of via virussen die mail folders versturen kan een indringer mail lezen die op de PC staat.
•
De Internetlijnen kunnen afgeluisterd worden, en zo kan de inhoud van een E-mail onderschept worden
•
Een mail die persoon A verstuurt naar persoon B, kan door persoon B eventueel doorgestuurd worden naar persoon C, zonder dat A hiervoor de toestemming geeft.
Een oplossing voor deze problemen is het gebruik van een digital signature of elektronische handtekening. Deze is de elektronische variant van de normale handtekening. Deze handtekening wordt onlosmakelijk verbonden met het e-mail bericht. Enkel personen die bevoegd zijn kunnen vervolgens je verstuurde e-mail lezen.
10.3.6.2
Soorten sleutels
Wanneer een digitale handtekening wordt gebruikt, dient er een keuze gemaakt te worden tussen de symmetrische sleutel en de asymmetrische sleutel. Deze twee soorten sleutels hebben niks te maken met de versleuteling van het bericht, maar met de manier waarop de sleutel wordt overgedragen aan de andere partij.
102
Hoofdstuk 10: Spambestrijding •
Symmetrische sleutel Bij een eenvoudige briefwisseling kan geopteerd worden om gebruik te maken van een symmetrische sleutel. De encryptie door de zender en decryptie van het bericht door de ontvanger gebeurt met dezelfde sleutel. Het probleem van de symmetrische sleutel is evenwel dat deze sleutel moet worden overgedragen aan de andere partij. Wanneer dit over het Internet gebeurt dan komt de veiligheid weer in het gedrang. Om dit veilig te doen moet de sleutel bij voorkeur persoonlijk aan de andere partij worden overgedragen. Beschikt de andere partij eenmaal over de sleutel dan is het versturen van berichten verder wel veilig. Immers, alle berichten worden versleuteld verzonden (bijvoorbeeld volgens de DES 28-methode) en met de in zijn bezit zijnde sleutel kan de ontvanger de berichten lezen.
•
Asymmetrische sleutel De asymmetrische sleutel kent het probleem van de sleuteloverdracht niet. In dit geval heeft een gebruiker de beschikking over twee verschillende (asymmetrische) sleutels, namelijk een publieke sleutel en een private sleutel. De privé-sleutel dient strikt geheim te blijven; hij wordt gebruikt om de berichten te versleutelen en te ontsleutelen. De openbare sleutel wordt gebruikt om te verspreiden onder de communicatiepartners: zij hebben weliswaar hun eigen sleutel nodig om een bericht te lezen, maar met behulp van de openbare sleutel kan geverifieerd worden dat de boodschap na het ontsleutelen daadwerkelijk de boodschap is die de verzender geschreven heeft. Ook de afzender kan gecontroleerd worden, gezien het bericht alleen ontcijferd kan worden met de publieke sleutel van de afzender.
10.3.6.3
Sleutelbeheer
De elektronische handtekening werkt via een asymmetrische encryptie, dit wil zeggen dat er twee sleutels zijn: een publieke sleutel en een private sleutel. Deze sleutels zijn verbonden aan 1 persoon, waarvan de publieke sleutel wordt beheerd door een Certificate Authority (CA). Een CA zal een doorzoekbare lijst van publiek sleutels publiceren via het
28
DES: Data Encryption Standard. DES is gebaseerd op de encryptiemethode “Lucifer” van IBM. Ze
werd in 1977 tot standaard geheven en maakte origineel gebruik van een 56-bit encryptiesleutel.
103
Hoofdstuk 10: Spambestrijding LDAP 29 of X500 formaat. Uiteindelijk zal men op één of andere manier het certificaat van één of meerdere CA's moeten vertrouwen. Sommige webbrowsers en mailreaders worden geleverd met een aantal certificaten van gekende CA’s zoals VeriSign, GlobalSign, ValiCert,... De standaard voor het formaat van certificaten is het ISO X.509 formaat. Een PKI (Primary Key Infrastructure) beheert de infrastructuur van de certificaten, alsook de standaarden die worden gebruikt bij versleuteling. Bij e-mail is de PKI doorgaans S/MIME of Secure MIME. S/MIME maakt gebruik van de asymmetrische RSA 30 encodering.
10.3.6.4
Werking van de digitale handtekening
Stel dat user1 (zie figuur 14.2) een e-mail wens te sturen naar user2. Beide partijen beschikken over een digitale handtekening, waarvan de publieke sleutels opzoekbaar zijn in een Certificate Authority.
Fig. 10.5: Digital Signature
Bij het verzenden van de e-mail zal user1 de inhoud versleutelen met de publieke sleutel van user2, deze kan hij terugvinden in de LDAP structuur van de Certificate Authority. Vervolgens ondertekent hij deze e-mail met zijn persoonlijk certificaat (dit is zijn private sleutel). De boodschap wordt verstuurd naar user2. User2 kan nu het bericht van user1 decoderen. De publieke sleutel van user1 wordt meegestuurd met het certificaat. De
29
LDAP: Lightweight Directory Access Protocol. Een protocol die het mogelijk maakt
informatiestructuren te doorzoeken. Het is gebaseerd op het X500 protocol, maar dan een aanzienlijk eenvoudiger variant ervan. 30
RSA: een encryptie-algortime ontwikkeld door Ron Rivest, Adi Shamir and Len Adleman in 1977.
Deze techniek is gebaseerd op de moeilijkheid van het ontbinden van grote getallen in priemgetallen.
104
Hoofdstuk 10: Spambestrijding inhoud van de e-mail kan echter alleen door user2 gelezen worden, omdat alleen die beschikt over de correctie (private) sleutel om het bericht te decoderen. Door uitsluitend te communiceren met bekende personen én met digitale handtekening, zou dit het spam-probleem grotendeels verhelpen. Spijtig genoeg is PKI nog steeds een zelden toegepaste technologie.
10.3.7 Sender Policy Framework Het Sender Policy Framework (SPF) werd in de vorm van een paper voorgelegd in 2002 door Paul Vixie. In origine stond SPF voor Sender Permitted From, maar dit werd in Augustus 2004 gewijzigd naar Sender Policy Framework. Microsoft lanceerde recentelijk ook “SenderID”-techniek, deze is grotendeels gebaseerd op SPF. In juli 2005 werd het SPF-protocol na wat verbeteringen aanvaard door het IETF als experimenteel protocol. Verwacht wordt dat deze tegen eind 2005 of begin 2006 een RFC wordt.
10.3.7.1
Werking
Een standaard geconfigureerde SMTP-server laat toe e-mail te verturen, zonder enige vorm van adresverificatie. Dit maakt het bijzonder gemakkelijk voor spammers om hun afzender adres te vervalsen. SPF zal trachten te definiëren welke systemen op een netwerk permissie hebben om e-mail te versturen. SPF is niet zozeer gericht op het stoppen van spam, maar wel om de afzender van een e-mail weer te geven. Hiervoor gebeurt er een kleine modificatie van het “TXT”-record in de DNS database (zie ook: 1.4 SMTP). In het “TXT”-record wordt nu de reverse MX (zie ook: Spambestrijding, DNS lookup) informatie opgeslagen. De SPF-record voorziet een zekere semantiek [32]:
v=spf1 [[pre] type ] ... [mod]
v
Verplicht veld. Bevat de gebruikte versie van SPF. Momenteel is de enige geldige versie spf1.
Pre
Optioneel. Bevat de code die wordt teruggegeven indien er een gelijkenis is.
Type Verplicht veld. Definieert het type mechanisme dat moet worden gebruikt om de afzender te verifiëren. De verificatiesequentie hangt af van de “include” en “all” keywords. include: zal het testen van de domeinnaam herstarten door gebruik te maken van de opgegeven domeinnaam. Voorbeeld: ; spf record for example.com
105
Hoofdstuk 10: Spambestrijding example.com. IN TXT "v=spf1 include:example.net -all" example.com. IN TXT "v=spf1 mx include:example.net -all"
Er zal in bovenstaand voorbeeld opnieuw gestest worden op verificatie, maar dan vanaf het “example.net” domein in plaats van het “example.com” domein. all: dit keyword zal aangeven wat er gebeurd indien er een match gevonden wordt. Normaal wordt het voorgesteld als “-all”. Het minteken duidt aan dat indien er geen match gevonden wordt, het resultaat zal falen, en het verkeer zal niet doorgelaten worden. Andere opties zijn: “+”: resultaat is altijd positief “-”: resultaat is negetief indien geen match “~”: softfail “?”: neutraal, zal verkeer doorlaten ook indien tests falen. De reverse lookup hangt af van het verificatiemechanisme: ipv4: indien het adres van de zender in een gegeven ipv4 bereik ligt, is er een match. ipv6: indien het adres van de zender in een gegeven ipv6 bereik ligt, is er een match. a: indien het domein een “A”-record heeft in zijn DNS database dat overeenstemt met die van de zender, dan wordt de e-mail aanvaard. mx: indien het domein een “MX”-record heeft in zijn DNS database dat overeenstemt met die van de zender, dan wordt de e-mail aanvaard. ptr: er wordt een reverse lookup gedaan van zender. Indien de lookup het hetzelfde is als het ip-adres van de zender is er een match. exists: zal louter verifiëren of het domein bestaat mod
Optioneel. Kan het “redirect” of het “exp” keyword bevatten redirect: functioneel hetzelfde als “include”, maar kan gebruikt worden zonder het “all”-keyword exp: het “exp”-veld zal bij een mislukte test een verwijzing geven naar het “TXT”veld van een andere DNS-record. Voorbeeld: ;domain SPF record IN TXT "v=spf1 mx -all exp=getlost.mydomain.com" ; the getlost TXT record getlost IN TXT "Not authorized to send mail for the domain"
106
Hoofdstuk 10: Spambestrijding Stel dat men ontvangt krijgt een e-mail met voldgende headers: Received: from clubcu27hnnkfu (d51A56A6.microsoft.com [81.165.106.104]) by mail.microsoft.com (Postfix) with SMTP id 571D83874C; Tue, 31 Jan 2006 15:57:07 +0100 (CET) Message-ID: <00a601c62676$a77b9b50$0302a8c0@clubcu27hnnkfu> From: “[email protected]” Subject: Hey
Indien providerX een SPF lijst heeft, kun je makkelijk nagaan of het “[email protected]” wel geldig is. Stel dat het domein Microsoft.com volgende SPF record heeft: Processing SPF string: IN TXT “v=spf1 mx include:_spf-a.microsoft.com include:_spf-b.microsoft.com ~all”
We controleren vervolgens het adres aan de hand van een SPF tester, te vinden op onder meer http://www.dnsstuff.com/pages/spf.htm. Testing 'mx' on IP=81.165.106.104, target domain microsoft.com, CIDR 32, default=PASS. SPF: No match.
De controle van de identiteit van een zender in een SPF-systeem gebeurt automatisch bij iedere Mail Transfer Agent, rekening houdende met de verificatiemethode en de keywords.
10.3.7.2 •
Nadelen
Zowel zender als ontvangende partij moeten SPF ondersteunen. Hoewel er een opmars is, zijn er nog heel veel domeinen die geen SPF-vermelding hebben in hun DNS-record.
•
SPF is ontwikkeld om te werken op Mail Transfer Agents. Mail User Agents die geen Mail Transfer Agents hebben die SPF ondersteunen zullen bijgevolg de authenticatie informatie niet kunnen gebruiken.
107
Hoofdstuk 10: Spambestrijding
10.3.8 DomainKeys DomainKeys is een e-mail verificatie systeem ontwikkeld door Mark Delany (Yahoo). De DomainKeys technologie werd samengevoegd met de Identified Internet Mail technologie van Cisco, om zo een solide basis te hebben om een IETF-standaard te worden: Domain Keys Identified Mail (DKIM). DKIM is vergelijkbaar met het SPF-systeem, maar biedt toch enkele voordelen. Zo kan e-mail die door externe relays werd bezorgd toch nog geverifieerd worden, waar SPF dit niet kan. Ook hier is het enigste doel van de DomainKeys technologie het authenticeren van de afzender. Dit kan spam verminderen, maar is zeker geen afdoend middel.
10.3.8.1
Werking
Er wordt een secure hash genomen van de inhoud van de e-mail, vaak wordt hiervoor het SHA-1 31 algoritme gebruikt. Het resultaat van de hash wordt tenslotte versleuteld met een private sleutel (meestal aan de hand van het RSA-algoritme, zie ook: Digital signature). De publieke sleutel (het is immers een sleutelpaar) wordt verzonden naar een TXT-veld van het DNS-record van het domein van de zender. Alle toekomstige te zenden e-mails vanaf dat domein zullen gebruik maken van deze publieke sleutel. De data wordt tenslotte geëncodeerd met het Base64 algoritme (zie: Technieken om spam-filters te omzeilen, Encoding). Het resultaat wordt vervolgens toegevoegd aan de DomeinKeys-header in de e-mail: “DomainKey-Signature:”. In essentie werd de e-mail voorzien van een soort digitale handtekening.
Fig. 10.6: DomainKeys structuur
31
SHA: Secure Hash Algorithm. Werd in 1993 ontwikkeld door het National Security Agency, de
meest voorkomende vorm is SHA-1 en wordt aanzien als de opvolger van het MD5 algortime.
108
Hoofdstuk 10: Spambestrijding De ontvangende e-mail server zal vervolgens een DNS-lookup uitvoeren voor dat domein, en krijgt zo een publieke sleutel ter beschikking. Met deze sleutel kan de server de hash decoderen. Tegelijkertijd zal de hash van de e-mail terug berekend worden. Komen de herberekende hash en de ontcijferde hash met elkaar overeen, dan is de e-mail legitiem en kan ze doorgestuurd worden naar de ontvanger.
10.3.8.2 •
Nadelen
DomainKeys moet zowel door de zendende als ontvangende partij ondersteund worden.
•
Er is een zekere overhead gepaard met decryptie van de e-mail. Anno 2006 is dit echter geen onoverkomelijk probleem meer. De meeste Mail Transfer Agents kunnen deze extra processorbelasting wel aan.
10.4 Protocolaanpassingen 10.4.1 SMTP AUTH (ESMTP) Eerder werd aangehaald dat het SMTP-protocol geen garantie biedt op het gebied van authenticiteit van de afzender. SMTP AUTH (RFC 2554) is een uitbreiding op het SMTPprotocol. Het principe van SMTP Authentication is eenvoudig: geconnecteerde clients kunnen zich identificeren aan de hand van een gebruikersnaam en daarbij horende paswoord. SMTP authenticatie kan op drie manieren zoals beschreven in RFC 2222, Simple Authentication and Security Layer: •
Authenticatie via AUTH PLAIN
•
Authenticatie via AUTH LOGIN
•
Authenticatie via CRAM-MD5 of DIGEST-MD5
Een typische SMTP-AUTH connectie kan er als volg uitzien (S: SMTP-server, C: client): S:
220 smtp.example.com ESMTP server ready
ESMTP server klaar
C:
EHLO jgm.example.com
Client identificeert zich met het “EHLO”-keyword, waar dit bij SMTP HELO was
S:
250-smtp.example.com
250: OK
S:
250 AUTH LOGIN PLAIN CRAM-MD5 DIGEST-MD5
Server geeft lijst van authenticatiemogelijkheden
C:
AUTH CRAM-MD5
Client kiest een optie. Bij een ongeldige keuze krijgen we een
authenticatie het paswoord horende bij de loginnaam.
S:
235 Authentication successful, go on.
10.4.1.1
Authenticatie via AUTH PLAIN
De ESMTP server zal na het kiezen van een authenticatiemogelijkheid de client opdragen om zicht te authenticeren. Deze methode staat uitgebreid beschreven in de RFC 2595, “Using TLS with IMAP, POP3 and ACAP”. Deze vorm van authenticatie heeft immers zo zijn eigen semantiek, verschillend van de andere authenticatiemogelijkheden. De AUTH PLAIN authencticatiestring ziet er als volgt uit: “authid\0userid\0passwd”, gescheiden door een null karakter “\0”. Het “authid”-veld is optioneel indien “authid” en “userid” dezelfde waarde hebben. Deze string wordt tenslotte naar de server gestuurd, voorzien van een Base64 encodering. S:
De AUTH LOGIN methodiek is zeer gelijklopend met die van AUTH PLAIN. De uitwisseling van login-gegevens gebeurt via Base64 encodering. S:
220 mail.zeitform.de ESMTP
C:
EHLO my.host.com
S:
250-mail.zeitform.de
110
Hoofdstuk 10: Spambestrijding S:
250-AUTH LOGIN CRAM-MD5 PLAIN
C:
AUTH LOGIN
S:
334 VXNlcm5hbWU6
C:
YmVudXR6ZXJAemVpdGZvcm0uZGU=
<username>@zeitform.de (base64)
S:
334 UGFzc3dvcmQ6
“Password:” (base64)
C:
Z2VoZWltZXNfcGFzc3dvcnQ=
<password>
S:
235 ok, go ahead (#2.0.0)
10.4.1.3
“Username:” (base64)
Authenticatie via CRAM MD5:
CRAM 32 is gebaseerd op een challenge/respons principe om informatie uit te wisselen. Gevoelige informatie wordt bovendien versleuteld met het cryptografische MD5 checksum algoritme. S:
In bovenstaand voorbeeld verstuurt de ESMTP server een challenge naar de client (regel 10): “PDQwMzYuMTA3NjMyNDM4MUBndWlsZGVuc3Rlcm4uemVpdGZvcm0uZGU+”, wat zich laat vertalen naar: “<[email protected]>” (base64 encodering). Deze challenge bestaat uit 2 delen: @<domeinnaam. De timestamp is niets anders dat de datum waarop geconnecteerd wordt, geëncodeerd volgens het MD5 encryptieschema. De client zal vervolgens ook deze MD5 timestamp berekenen (secret), en in combinatie met zijn paswoord een proefsom (digest) opstellen:
CRAM: Challenge/Respons Authentication Method. Deze authenticatiemogelijkheid werd in 1997
voorgesteld in RFC 2159 door Klensin J., Catoe R. and P. Krumviede.
111
Hoofdstuk 10: Spambestrijding Nemen we B de grootte van de functionele blokken waarmee de proefsom werkt (standaard is dit 64 bit), dan kan men stellen dat: •
ipad = de byte “0x36”, B keer herhaald
•
opad = de byte “0x5C”, B keer herhaald
Deze digest wordt naar de ESMTP-server gestuurd, middels een base64-encodering (regel 11). Indien de challenge en de secret overeenstemmen, is de authenticatie voltooid.
10.4.1.4
nadelen
ESMTP bevat ook een keerzijde van de medaille. Indien een spammer/hacker/… toegang kan krijgen tot de inloggegevens van een ESMTP-server, dan kan deze middels de inloggegevens spammen. De ESMTP server is nu als het ware een open relay geworden. Het SMTP AUTH protocol valt of staat dus met het gebruik van voldoende sterke paswoorden.
10.4.2 TCP Damping Spam wordt vooral gekenmerkt door zijn bulk karakteristiek. Een spammer dient miljoenen e-mails te verzenden omdat de respons ratio heel beperkt is. Een manier om spammers het vuur aan de schenen te leggen is een “kost” per e-mail bericht verrekenen. Het probleem met deze techniek is dat deze techniek vaak echte valuta vereist van de zender. Ideaal om spammers tegen te houden, maar het kan op heel wat verzet rekenen van bedrijven en gewone gebruikers. TCP damping is een framework gepresenteerd door Kang Li, Calton Pu, Mustaque Ahamad [33], die aan de hand van een aanpassing van het TCP protocol selectief een zekere vertraging kan inbouwen bij het versturen van een e-mail. Deze “kost” heeft verwaarloosbare invloed op gewone gebruikers, maar zou nefaste gevolgen hebben voor spammers. De paper stelt dat het TCP-framework geen afdoende maatregel is tegen spam, het moet worden gecombineerd met filters. Het TCP protocol is immers niet verantwoordelijk voor de herkenning van spam, dit wordt gedaan door een filter op basis van de inhoud van de filter. Een filter kan de kans op een spam mail gaan berekenen, bijvoorbeeld op basis van het IP-adres dat opgezocht wordt in een blacklist en/of het gebruik maken van een reverse DNS lookup. Eens die kans op spammail bekend is, berekenen we de vertraging die de e-mail ondergaat. De vertraging kan op verschillende manieren bewerkstelligd worden. 112
Hoofdstuk 10: Spambestrijding
10.4.2.1
Delayed ACK’s
Het TCP model werkt op basis van ACK’s (zie ook: 1.1.2: TCP/IP). Indien we het confirmeren van een TCP segment kunnen vertraging als “straf” voor het versturen van spam, zal deze veel tijdshinder ondervinden bij het massaal sturen van spam. In de praktijk wordt er reeds gebruik gemaakt een vertraging voor het sturen van een ACK. Er is een vertraging van circa 200ms om zo de kansen op piggybacking 33 te maximaliseren. Er moet echter ook opgelet worden dat de vertraging niet te groot gekozen wordt: indien er een te ruime tijdsmarge is, zal de connectie simpelweg afgebroken worden en kan de spammer zonder problemen de volgende spam mail versturen. Gelukkig laten de SMTP specificaties een vrij ruime vertragingsmarge toe: TCP zal immers minimaal 15 maal trachten de data herzenden. Een vertraging van zo’n 10 minuten is een praktische richtwaarde.
Fig. 10.7: Invloed van delay op e-mail doorvoer
10.4.2.2
Verhogen resource consumption
We veronderstellen dat de bottleneck bij spammers vooral afhankelijk is van zijn resources: CPU, netwerk en geheugen. Indien de spammer meerdere concurrente connecties gebruikt, is de uitgaande link heel waarschijnlijk zijn bottleneck. De ontvanger gebruikt een anti-spam window van W bytes. Dit window verplicht de zender ertoe pakketten te versturen met een grootte die kleiner of gelijk aan W is. Stel dat de window size W=1 Byte. Een spammer die een spam mail van 1KB verstuurt naar
33
Piggybacking: Een techniek waarmee de ACK van een ontvanger wordt meegestuurd met een
ander datasegment.
113
Hoofdstuk 10: Spambestrijding de ontvanger zal dit moeten doen door 1000 verschillende packets in plaats van 1 packet. Een bijgevolg hiervan is dat de overhead van het TCP/IP packet stijgt van 27% naar 4000%.
Fig. 10.8: Invloed van spam window op e-mail doorvoer
10.4.3 SMTP Tarpitting Een tarpit is een aangepaste Mail Transfer Agent die spammail zodanig zal vertragen, zodat deze niet meer naar andere adressen zal gestuurd worden. Het maakt gebruik van niet-persoonsgebonden adressen die ze vervolgens op het Internet publiceren (honeypot). Indien een spammer een e-mail stuurt naar dit adres zal er een dusdanige vertraging ontstaan. Gewone gebruikers hebben hier geen last van, gezien het e-mail adres niet gelinkt is aan een persoon, en vaak alleen wordt opgepikt door e-mail harvesters. Tarpitting werd gerealiseerd door een aanpassing aan het SMTP protocol. De clients die connecteren met een tarpit SMTP worden verplicht op een bepaalde tijd te wachten voor hun e-mail wordt verwerkt. S:
220-smtp.server.com ESMTP server ready
S:
220-delay is required
C:
HELO spammer.com
S
220-You violated the SMTP protocol!
S:
220-Tarpit delay extended
114
Hoofdstuk 10: Spambestrijding
10.4.4 Internet Mail 2000 IM2000 is een voorstel die het huidige SMTP-protocol zou moeten vervangen, voorgesteld door Daniel J. Benstein. Waar SMTP een sterke analogie heeft met de klassieke postlevering, daar legt IM2000 de verantwoordelijkheid voor het opslaan van e-mail communicatie bij de afzender in plaats van de ontvanger. Tot op heden zijn er vele pogingen geweest om IM2000 te implementeren, met wisselend succes. Een concrete implementatie blijft nog uit. We bekijken het voorstel van Duan, Dong en Gopalan: Differentiated Mail Transfer Protocol uit 2004 [34], gebaseerd op IM2000.
10.4.4.1
Differentiated Mail Transfer Protocol
DMTP wil zich differentiëren ten opzichte van SMTP op 3 gebieden: •
Model gedreven door ontvangers: Het SMTP-protocol is voornamelijk afzender gebaseerd, iedereen kan een e-mail sturen naar een ander persoon zonder dat hij hiervoor toestemming geeft. DMTP wil de ontvanger meer controle geven over zijn e-mail communicatie, de ontvanger moet kunnen bepalen wanneer en hoe hij een e-mail ontvangt.
•
Reguleren van de zendratio: Spammers zijn afhankelijk van de kwantiteit van hun e-mail campagnes. Bij het huidige SMTP systeem ligt de bottleneck bij CPUgebruik en netwerktoegang. DMTP wil de zend ratio van e-mail reguleren, en dit door de ontvangers van e-mail
•
Verantwoordelijkheid opleggen: SMTP maakt het voor spammers eenvoudig om hun verantwoordelijkheid te ontlopen doordat ze hun identiteit vrij gemakkelijk kunnen verbergen. Spammers kunnen immers meteen na het versturen van een resem e-mails offline gaan en hun locatie (IP-adres) en/of ISP veranderen. DMTP wil spammers verplichten om langer online te blijven.
Asynchrone communicatie zoals e-mail kan twee zendmodellen gebruiken: sender-push en receiver-pull (of een combinatie van beide). Het huidige SMTP-protocol is een typisch voorbeeld van sender-push communicatie: de ontvangers moeten passief toezien hoe de afzender e-mails verstuurt naar hen. Er is geen controle mogelijk over wat en wanneer ze iets ontvangen. In receiver-pull systemen heeft de ontvanger in hand wat hij wenst te ontvangen (HTTP, FTP). DMTP handhaaft het receiver-pull systeem: afzenders moeten de e-mail berichten die ze wensen te zenden opslaan tot de ontvanger bereid is deze te lezen. Dit impliceert eveneens dat de afzender verplicht is langer online te blijven. 115
Hoofdstuk 10: Spambestrijding
Het nadeel van receiver-pull systemen is dat deze de kost voor het zenden van een e-mail verhogen (door de dataopslag). DMTP wil hiervoor een oplossing bieden door te werken met een hybride systeem (zie Fig. 10.9) . Er is ondersteuning voor zowel e-mail push als een e-mail pull. De gebruikte techniek hangt af van de ontvanger, deze kan immers de afzender onderverdelen in 3 groepen: •
Bekende spammers. Deze berichten worden direct geweigerd
•
Vertrouwde afzenders: deze zullen kunnen gebruik maken van de sender-push methode
•
Onbekende afzenders: onbekende afzenders zullen gebruik moeten maken van de receiver-pull methode en aldus de e-mail zelf opslaan.
Fig. 10.9: DMTP afzender classificatie
Indien een onbekende afzender een e-mail wenst te versturen naar een ontvanger, zal deze na opmaak worden gestockeerd op de SMTA (Sender Mail Transfer Agent). In plaats van de e-mail te pushen naar de ontvanger, wordt enkel een notificatie van een wachtende e-mail verstuurd naar de ontvanger (de MSID of message identifier). Deze bevat een msid waarmee de ontvanger de wachtende e-mail kan identificeren.
116
Hoofdstuk 10: Spambestrijding
Fig. 10.10: DMTP structuur
Indien een ontvanger een wachtende e-mail wenst te lezen, zal hij zijn RMTA (Receiver Mail Transfer Agent) verwittigen, dewelke vervolgens de e-mail zal ophalen. Dit kan worden gedaan aan de hand van het GTML-commando (Get Mail command), in combinatie met het unieke msid. Uit veiligheidsoverwegingen wordt eveneens gecontroleerd of de e-mail effectief verstuurd is naar het adres van de ontvanger die de e-mail opvraagt. We bekijken tenslotte nog de performantie van een DMTP gebaseerd systeem ten opzichte van het klassieke SMTP-protocol. We houden rekening met een aantal factoren die de performantie beïnvloeden. Tabel 10.1: DMTP performantie factoren
Notatie
Verklaring
Waarde
N
Aantal e-mail adressen in de database van de spammer
10 M
x
Aantal computersystemen gebruikt door de spammer (uniek IP)
62
Zendsnelheid van een computersysteem (berichten per
100K
k
tijdseenheid)
y
Kost betaald door spammer per computersysteem per tijdseenheid
0,1
g
Winst per e-mail voor de spammer
0,005
p
Kans dat ontvanger de spammer aangeeft
0,001
Aantal benodigde klachten om een computersysteem op een RBL te
50
q r
plaatsen Gemiddelde spam ontvangen van gebruikers spammail per
2500
tijdseenheid
117
Hoofdstuk 10: Spambestrijding Veronderstellen we dat iedere ontvanger gebruikt maakt van een centrale RBL. Initieel staat geen enkele van de x systemen van de spammer genoteerd op de RBL, ze bevinden zich daarentegen op de onbekende afzenders lijst van de ontvanger. Gezien dat het aantal ontvangers N in de database van de spammer relatief groot is, kunnen we r als een constante beschouwen. We stellen R(t) het aantal ontvangers die de e-mail ontvangen op tijdstip t. We kunnen R(t) noteren als:
R(t ) = min{r * t , ( x * q) / p} We definiëren nog een functie f(t) die het aantal door de spammer verstuurde berichten op een tijdstip t bij gebruik van alle x computersystemen weergeeft.
f (t ) = min{N , x * k * t , R(t )} De opbrengst kan nu worden beschreven als g*f(t). Gemiddeld gezien is de tijd nodig om een e-mail te versturen naar alle ontvangers N/r. Daar tegenover staat dat de gemiddelde tijdsduur voor een spammer die op een blacklist staat, kan worden geschreven als
(q / p ) , dit enkel als r<< k en de computersystemen x met dezelfde kans aangesproken (r / x) worden. We kunnen nu de totale kost c voor de spammer op een tijdstip t beschrijven:
c(t ) = x * y * min{t ,
N (q / p) , } r (r / x)
Berekenen we tenslotte de totale opbrengst voor een spammer U op een tijdstip t:
U DMTP (t ) = g * f (t ) − c(t ) = g * min{N , x * k * t , R(t )} − x * y * min{t ,
N (q / p) , } r (r / x)
We kunnen naar analogie ook een opbrengstenfunctie definiëren voor het klassieke SMTP model:
U SMTP (t ) = g * min{N , x * k * t} − x * y * min{t ,
( N / x) } k
We bemerken dat waar in het klassieke SMTP-model ze opbrengsten vooral afhankelijk zijn van de zendsnelheid van de SMTP, ze bij DMTP vooral afhankelijk zijn van de ontvangers die de berichten ophalen. Hoe trager de ontvangers de e-mail opvragen, hoe langer de zender moet online blijven, en hoe groter de kans bijgevolg is dat de spammer op een RBL genoteerd wordt. Maken we tenslotte gebruik van enkele empirisch gekozen numerieke waarden (zie Tabel 10.1) dan kunnen we enkele bevindingen constateren. Bekijken we Fig. 10.11, dan zien we dat een spammer zijn maximale opbrengsten (49990 eenheden) kan realiseren binnen slechts 2 tijdseenheden. Dit betekent dat ze heel vlug hun berichten kunnen versturen 118
Hoofdstuk 10: Spambestrijding om daarna vlug te verdwijnen – lang voordat een RBL ze kan identificeren. Bij gebruik van DMTP is de maximale opbrengst zo’n 84% minder (7812 eenheden), maar is de benodigde tijdseenheid om dit te bereiken ook veel groter (1240 tijdseenheden)
Fig. 10.11: Verwachte opbrengst per
Fig. 10.12: Impact spam ontvangst op
tijdseenheid
opbrengst
Als laatste bekijken we ook de impact op de opbrengst in functie van spam ontvangst bij ontvangers (Fig. 10.12). Nemen we voor x respectievelijk 100,200 en 400. We zien dat de inkomsten voor de spammer logischerwijs zullen dalen als de ontvanger niet tijdig genoeg de spam mail ophaalt. Op een bepaald moment is het voor de spammer zelfs niet meer rendabel om spam e-mail te versturen (bvb: x=100 en r = 2000). Belangrijker is dat het aanwenden van meer SMTAs om te spammen ook impliceert dat er de spam ontvangst ratio r moet stijgen (bvb: als x=200 moet de r minstens 4000 zijn, is x=400, dan moet de ontvangst ratio minimum 8000 zijn om rendabel te zijn).
10.5 Filtering Inhoudsfilteren zal e-mails gaan classificeren op basis van kernwoorden (“spam words”). Afhankelijk van de implementatie van de filter zal een e-mail die spam words bevat in een spamfolder worden geplaatst of zelfs helemaal worden gebounced.
10.5.1 Heuristieken filtering Heuristische filters werden ontwikkeld in de late jaren ’90. Deze soorten filters bestaan uit een aantal karakteristieken van een spam e-mail. Aan elke spameigenschap wordt een bepaalde waarde toegekend. Is de som van alle herkende eigenschappen groter dan een
119
Hoofdstuk 10: Spambestrijding bepaalde drempel, dan zal de e-mail als spam geclassificeerd worden. De meest bekende applicatie die gebruik maakt van heuristieken is SpamAssasin.
Fig. 10.13: Heuristieken regels
Nadeel van heuristische filters is dat deze werken met vaste regels die een spam eigenschap definiëren. Spammers kennen deze regels ook, en kunnen hun e-mail zodanig aanpassen dat deze niet meer wordt gefilterd. Een ander probleem is het onderhoud. Gezien er een constant kat-en-muis gevecht is tussen spammers en anti-spam filters, is het nodig om de regels constant aan te passen aan de nieuwe trends. SpamAssassin gebruikt bijvoorbeeld zo’n 900 tot 950 regels om spam te herkennen, en deze worden om de 6 maanden grondig herzien om de nauwkeurigheid van de filter te bewaren. Spammers blijven spam versturen, steeds met nieuwe technieken. Er is dus nood aan een systeem met een zekere intelligentie in plaats van een systeem dat steeds achter de feiten aanholt.
10.5.2 Statistische Inhoudsfiltering Inhoudsfilters trachten de tekst van de e-mail te classificeren op basis van de inhoud. Deze soort filters “leren” filteren op basis van het e-mail gedrag van de ontvanger, doordat ze gebaseerd zijn op machine learning. Machine learning is de mogelijkheid van een machine om zijn performantie te verbeteren op basis van vroegere resultaten. Het “leren” van een filter houdt niks anders in dat het kunnen voorspellen of een e-mail spam of legitiem is aan de hand van precedenten. Tegenwoordig zijn de meeste inhoudsfilters
120
Hoofdstuk 10: Spambestrijding gebaseerd op Bayesiaanse 34 statistiek, daar ze met vrij grote precisie e-mails kunnen classificeren. Andere leeralgoritmes zijn boosting trees [35] en Support Vector Machines [36].
10.5.2.1
Concept
Er zijn drie centrale componenten onderscheidbaar in een taalfilter [37]:
Fig. 10.14: Flowchart van een taalfilter
Historical dataset Dit is het geheugen van de filter. Het bevat vele karakteristieken die de filter geleerd heeft doorheen zijn gebruik. Andere benamingen zijn database of woordenboek. Dit is principieel een database met tokens en hun frequentie in spam e-mail.
34
Token
Spam hit
Nonspam hits
Free
32
10
Viagra
20
0
the
48
96
Thomas Bayes (1702-1761) was een Engels wiskundige en presbyteriaans predikant. Hij
bestudeerde vooral de waarschijnlijkheidsrekening. Naar hem is een aparte tak van de statistiek genoemd: de Bayesiaanse statistiek. Zijn beroemde “regel van Bayes” werd postuum gepubliceerd in "An Essay Towards Solving a Problem in the Doctrine of Chances" (1763).
121
Hoofdstuk 10: Spambestrijding
Tokenizer De tokenizer is het belangrijkste onderdeel van een taal classificatie filter. De tokenizer zal de e-mail opdelen in verschillende componenten (tokens of features genoemd) die later kunnen worden verwerkt door de analysis engine. Is een token nog niet aanwezig in de dataset, dan zal deze worden toegevoegd. Iedere token krijgt vervolgens een specifieke “spamscore”. Naargelang de frequentie dat dit token voorkomt in spam e-mails, zal de waarschijnlijkheid op spam groter zijn. De geassocieerde spamscore zal evenredig verlopen met deze waarschijnlijkheid. Het opdelen van tekst in tokens gebeurt door te kijken naar afbakeningen (delimiters of token seperator). Er moet overwogen worden of de delimiter geen deel uitmaakt van de token. Welke data zullen we negeren? Er zijn verschillende technieken die het opdelen in tokens vereenvoudigen. Vooreerst is er primitieve opdeling in tokens: punctuatie delimiters (. , ; “ ‘ :) die tekst zullen structureren in menselijk leesbare vorm. Andere afbakeningen zijn mathematische operatoren (+,-,/,=,*), gebruik van haakjes en accolades, speciale symbolen (&,~,|,´), het apestaartje (@) en minder gebruikte symbolen (_,^). Maar wat doen we indien de spammer gebruik maakt van obfuscation (zie 6.4.1)? C*A*L*L* N-O-W- I/T/S F’R’E’E VIA_GRA
Sommige filters zullen iedere letter als aparte token beschouwen. Andere zullen dit niet doen uit vrees dat dit te veel fouten zal genereren bij legitieme e-mails (ook wel “false positive” genoemd). Aanhangers van deze laatste mening zullen trachten de tokens terug samen te voegen, zodat ze meer bruikbare tokens verkrijgen. Er ontstaan dan woorden als VIA en GRA, welke nooit zullen gebruikt worden in een legitieme e-mail omdat ze geen betekenis op zich hebben. Bijgevolg kunnen we deze woorden een heel hoge spamprobabiliteit geven. Token
Spam freq
Nonspam freq
Probability
agra
00030
00000
0.9999
eacute
00021
00000
0.9999
prematur
00020
00000
0.9999
Een andere oplossing voor het tegengaan van obfuscation is gebruik maken van degeneratie. Degeneratie houdt in dat een onbekend token zal worden gereduceerd tot een simpeler, bekend token door rekening te houden met hoofdletters, punctuatie en 122
Hoofdstuk 10: Spambestrijding locatie. Stel dat we een onbekend token “FREE!!!” in de onderwerpregel van een e-mail vinden. We kunnen de token degenereren tot we een gelijke vinden in onze dataset. FREE!
Free!!
free!
free!!
Free!
FREE
free!!!
free
Het kiezen van de juiste woorden (“features”) uit een e-mail is cruciaal voor de goede werking van de spamfilter. We trachten de woordenlijst te reduceren door gebruik te maken van stemming. Stemming zal suffixen van woorden automatisch verwijderen, zodat we enkel nog de stam van een woord overhouden. Een veelgebruikt algoritme hiervoor is het algoritme van Porter [38]. Door het vocabularium van mogelijke tokens kleiner te maken, zal een betere selectie kunnen gemaakt worden door de analysis engine. Veel tokenizers zullen naast het opslaan van individuele tokens ook tokens linken met elkaar, om zo specifieke patronen te kunnen ontwaren in een e-mail. Dit wordt chained tokening genoemd. Gecombineerde tokens worden naast gewone tokens gebruikt om specifieke patronen te herkenen, welke kunnen duiden op een hogere spamprobabiliteit. Token(s)
Probabilty
color
0.3282
#000000
0.5794
color+#000000
0.9684
FONT
0.4573
face
0.5506
FONT+face
0.2084
Click+Here
0.9901
email+because
0.9901
Een meer doorgedreven versie van chained tokening is het gebruik maken van Sparse Binary Polynomial Hashing (SBPH), welke werd ontworpen door Bill Yerazunis in 2002 [39]. Aan de hand van deze techniek laten we een window over de tekst heen gaan, om zo specifieke woordparen en zinnen als tokens te beschouwen. SBPH laat toe om zinnen tot 5 woorden als 1 token te beschouwen. De volgorde van deze worden kan niet worden veranderd, maar er mogen wel woorden wegvallen uit een zin. SBPH tokens mogen ook meerdere malen gebruik maken van dezelfde woorden. Een window met grootte N kan dus maximaal 2 N −1 permutaties hebben. Het spreekt vanzelf dat deze methode heel 123
Hoofdstuk 10: Spambestrijding belastend is voor de dataset, met als gevolgd dat ze vaak alleen wordt gebruikt in train-
on-error omstandigheden (zie 10.5.2.1, Training). Eens er een voldoende aantal interessante subzinnen (“features”) werden gecreëerd, zullen deze worden gehashed tot een 32 of 64 bits getal waarbij de volgorde van de woorden niet verloren gaat. “Click here to buy viagra” leidt tot subzinnen zoals:
Hash waarde
Click Click
E06BF8AA here
Click Click
here
12FAD10F to
7B37C4F9
to
113936CF
Click Click
1821F0E8
Buy
46B99AAD
to
buy
B7EE69BF
to
buy
19A78B4D
here
Click Click
buy
here
Click Click
56626838
viagra
AE1B0B61
to
viagra
5710DE73
to
viagra
33094DBB
buy
viagra
48Y32C69
buy
viagra
RT96VV2
buy
viagra
21ADF01G
here
Click Click
viagra
here
Click Click
here
Click
here
to
Merk het binair telpatroon op bovenstaand voorbeeld, wat de benaming van SBPH verklaart. Eens de hashes zijn berekend, worden deze in een “Z-polynoom” ingevoerd (zie Bijlage IV:), deze zal voor een bepaald window alle Z j -waardes berekenen. Eens dit gedaan is kunnen we de hash waardes ( wn ) gemakkelijk shiften in plaats van ze steeds opnieuw te herberekenen. De Z-polynoom en zijn coëfficiënten werd zo gekozen dat de
Z j -waardes uniek zijn voor alle verschillende windows. Alternatieven op SBPH zijn onder andere het (verborgen) model van Markov en het Winnow model.
Analysis engine Deze component zal beslissen met behulp van de twee voorgaande componenten of de email al dan niet als spam mail kan worden geclassificeerd. Dit wordt gerealiseerd door gebruik van een beslissingsmatrix. De beslissingsmatrix wordt gevormd door een selectie te maken van de meest significante tokens in een e-mail. Tegenwoordig wordt slechts een
peak window value gevormd, met de 15 to 27 meest significante tokens (window size). Door gebruik te maken van zo’n peak window value focust de filter zicht op de meest 124
Hoofdstuk 10: Spambestrijding belangrijke elementen in een e-mail, in plaats van de vele (opzettelijk toegevoegde) overbodige tekst. Een beslissingsmatrix wordt vaak ook vergezeld van een statistisch combinatie-algoritme zoals Bayes’ theorema of het geïnverteerde chi-vierkant van FisherRobinson. Deze algoritmes laten ons toe om alle informatie van de beslissingsmatrix te fusioneren en een eenduidige beslissing te nemen.
Training Een taal classificatiefilter is pas succesvol nadat het voldoende getraind is door de gebruiker aan de hand van een spam corpus, zoals bijvoorbeeld het Ling spamcorpus en het PU1- corpus [40]. Een filter zal zich aanpassen aan hoe de gebruiker spam ervaart, daar hij tijdens het leerproces er feedback van krijgt. Er zijn 4 grote trainingsstrategieën: •
Train everything (unsupervised learning - TEFT): de filter wordt getraind door elke e-mail die de gebruiker ontvangt. Deze techniek heeft als voordeel dat het zich heel vlug kan aanpassen aan de e-mail attitudes van de gebruiker.
•
Train on error (TOE): Dit soort training zal alleen reageren als de filter een foutieve beslissing maakt. De gebruiker moet dus niet voor iedere ontvangen email feedback geven aan de filter. Eveneens zal de dataset van deze filter veel kleiner zijn. Maar het voordeel van deze filter impliceert meteen ook zijn grootste nadeel: de filter zal zich veel trager aanpassen aan een wijziging in het e-mail gedrag van een gebruiker. De filter dient immers eerst fouten te maken alvorens het zich kan aanpassen. Het zal zich ook veel trager aanpassen aan nieuwe spamtrends vergeleken met de TEFT-strategie.
•
Train until mature (TUM): TUM is een middenweg tussen TEFT en TOE. TUM bezit een zekere koppigheid: eens het beslist heeft hoe bepaalde tokens te classificeren, zal de werkwijze niet veranderd worden tot er een fout wordt gemaakt. TUM zal zich zoals TEFT aanpassen aan nieuwe spam trends, maar dit alleen tot er genoeg gegevens zijn om een voldoende accurate beslissing te nemen. Evenals TOE wordt er alleen maar “geleerd” als er een fout wordt gemaakt.
•
Train until no errors (TUNE): TUNE zal alleen leren als de gebruiker hem daartoe bevel geeft. De TUNE filter zal zich dan trainen door alle mail corpussen te lezen. Dit blijft hij doen tot de filter geen fouten meer genereert. Dit is geen populaire strategie omdat het veel tijd en inspanning vergt van de gebruiker.
125
Hoofdstuk 10: Spambestrijding
10.5.2.2
Taalclassificatie filtering met behulp van Bayesiaanse
statistiek Opbouwen van de historische dataset We weten dat een e-mail wordt opgedeeld in functionele tokens. Deze tokens krijgen een bepaalde spamscore (probabiliteit) toegewezen, gebaseerd op bevindingen van vorige emails (dataset). Hoe bepalen we deze probabiliteit? Stel dat we over een e-mail corpus beschikken met dubbel zoveel spam als legitieme email. Total spam:
224
Total legitimate e-mail:
112
We willen nu de spamprobabiliteit van het woord “the” berekenen. Uit onze dataset kunnen we volgende gegevens opvragen: Token
Spam hit
Nonspam hits
the
48
96
Er zijn een aantal veelgebruikte mathematische modellen die de spamprobabiliteit van een token kunnen berekenen. •
Algemene methode: dit is de meest simplistische techniek om een token een bepaalde spamprobabileit (spamacity) toe te eigenen. Calculatie van hoeveel maal een token voorkomt in spam e-mails
spamprob( w) =
freq( wspam ) n
∑w
spam , n
1
ten opzichte van het totaal aantal spam e-mails waarmee de filter mee getraind is. Calculatie van hoeveel maal een token voorkomt in nonspam e-
hamprob( w) =
hamfreq ( wham ) n
∑w
ham , n
1
mails (hams) ten opzichte van het totaal aantal nonspam emails waarmee de filter mee getraind is.
126
Hoofdstuk 10: Spambestrijding
spamacity ( w) =
spamprob( w) [ spamprob( w) + hamprob(w)]
De 15 tokens die het verst van 0,5 afliggen definiëren we als de meest interessante tokens. Een token die minder dan 5 maal is voorgekomen krijgt standaard een spamacity van 0,4. Indien de hamprobability of spamprobability groter is dan 1, krijgen deze een waarde van 1.
•
De techniek van Graham: deze vrij eenvoudige scoringstechniek zal rekening houden met het feit dat vele gebruikers over een ongebalanceerde collectie van spam en legitieme e-mail beschikken. SH: frequentie in spam e-mail
P (W ) =
( SH ) /(TS ) met [ ( SH ) /(TS )] + [( IH ) /(TI )]
IH: frequentie in legitieme e-mail TS: totaal aantal spam e-mails TI: totaal aantal legitieme e-mails
Voor het woord “the” kunnen we bijvoorbeeld volgende probabiliteit berekenen:
P(the) =
96 / 224 = 0.5 (96 / 224) + (48 /112)
Volgens deze techniek heeft dit woord een neutrale score van 0.5. Waarden die groter zijn dan 0.5 zullen een grotere spamprobabiliteit bezitten.
•
De techniek van Robinson: Robinson verbeterde de techniek van Graham door eveneens rekening te houden met het aantal keer het woord voorkomt in de historische databank. Een woord dat minder frequent voorkomt zal minder in rekening gebracht worden dan een woord dat juist heel frequent voorkomt. N: totaal aantal keer dat het woord voorkomt in de database (zowel spam als legitiem)
SX + N ( P(W )) met F (W ) = S+N
X: voorgestelde waarde als N=0. Een goede richtwaarde is 0.5 S: Een constante die kan worden aangepast om performantie te verhogen. Gebruikelijk is S=1.
127
Hoofdstuk 10: Spambestrijding
De beslissigsmatrix Tijdens het filteren van een e-mail houden we geen rekening met de volledige e-mail. We selecteren alleen een window van de meest significante woorden, gebruikelijk is de window size=15. We sorteren de tokens op basis van hun afstand ten opzichte van de neutrale 0.5 waarde. Dit noemen we de interessantheid of mathematisch uitgedrukt:
I (W ) =| 0,5 − P (W ) | Probability 0.999900 0.999900 0.999900 0.999900 0.999900 0.999900 0.999900 0.999900 0.938004 0.932180 0.885617 0.127251 0.856461 0.851932 0.830545
We combineren de gegevens uit de beslissingsmatrix door gebruik te maken van Bayesiaanse logica:
P( Aj | B) =
P( B | Aj ) * P( Aj )
∑ P( B | A ) * P( A ) i
i
A en B stellen allebei een gebeurtenis voor. Bij P ( Aj | B ) representeert A een mogelijk optredende gebeurtenis terwijl B staat voor een reeds opgetreden gebeurtenis. Indien de gebeurtenis nieuw is, krijgt P(A) een waarde 0.5 toegewezen. We kunnen deze vervolgens afleiden en toepasbaar maken voor gebruik bij meer dan 2 argumenten.
Een volledig uitgewerkt voorbeeld van inhoudsfilteren met Bayesiaanse statistiek kan men vinden op: http://www.process.com/precisemail/bayesian_example.htm.
128
Hoofdstuk 10: Spambestrijding
10.5.2.3
Inhoudsfiltering met behulp van de K-nearest
neighbour filter (K-NN) Het K-NN model werd vroeger reeds eerder overwogen als classificator in spamfilters, maar deze kon destijds nog niet opwegen tegen de andere anti-spam filters. De reden waarom we K-NN opnieuw introduceren als model voor spamfiltering, is omdat deze een non-lineaire werking heeft, waar Bayesiaanse analyse wel lineair verloopt. Er wordt geclaimd dat K-NN een factor 2 beter kan presteren dan een geoptimaliseerde Bayesiaanse filter 35.
Werking van K-NN Een K-NN model bestaat uit een onbekend object O. Dit object O zal worden “gelabeld” in correlatie met zijn k dichtst omringende buren. Het bepalen van de dichtst omringende buur gebeurt door middel van het berekenen van de euclidiaanse afstand:
pi : coördinaat van p in dimensie i d=
N
∑(p − q ) i =1
i
2
i
qi : coördinaat van q in dimensie i N: aantal dimensies
Stellen we k=1, dan wordt slechts rekening gehouden met de dichtste buur. Hoe meer buren we betrekken bij de berekening, hoe betrouwbaarder het resultaat zal zijn. Daar tegenover staat dat de rekentijd gevoelig zal stijgen bij toevoegen van extra buren. Het trainen van een K-NN filter kan bijgevolg een langdurige zaak worden. Om dit te vermijden maken we gebruik van het TOE-trainingsschema (Train on Error, zie 10.5.2.1: Concept) en een gelimiteerd aantal buren. Als input voor het K-NN model wordt gebruik gemaakt van OSB of Orthogonal Sparse Bigrams. Dit algoritme werkt gelijkaardig als het SBPH-algoritme dat we eerder besproken hebben. Een string (1) die als input wordt gegeven zal opgedeeld worden in aparte woorden (2). Ieder woord in de string wordt sequentieel benoemd als het “huidge” woord. Aan het huidige woord wordt steeds een volgend woord toegevoegd. Bij die toevoeging zullen de vorige “huidige woorden” worden gemarkeerd met een <skip>symbool (3).
35
Dit wordt beweerd in het werk “Nearest Neighbor Pattern Classification” van Cover M. en Hart P.
(1951)
129
Hoofdstuk 10: Spambestrijding For example, let’s look at this sentence.
(1)
For example, let’s (2)
look at this sentence For example, For <skip> let’s For <skip> <skip> look For <skip> <skip> <skip> at example, let’s example, <skip> look
(3)
example, <skip> <skip> at example, <skip> <skip> <skip> this let’s look let’s <skip> at let’s <skip> <skip> this let’s <skip> <skip> <skip> sentence
Iedere output string wordt vervolgens gehashed naar een 32-bit waarde, welke zal dienen als input voor de K-NN classificator. Deze wordt getest met k-waardes die respectievelijk 3, 7 en 21 bedragen. Na het testen aan de hand van een speciaal OSB-spamcorpus (TREC 2005 SA) werd duidelijk dat het aantal buren verantwoordelijk is voor de grootte van de historische database. Met hoe meer buren rekening wordt gehouden, hoe kleiner deze database is. De trainingset wordt 5 maal doorlopen. Wanneer we k=3 of k=7 nemen zien we dat het leerproces niet meer bijleert na de derde iteratie, wat leidt tot een totale accuraatheid van slechts 93% (respectievelijk 98.6% voor ham en 79.% voor spam). Nemen we k=21 dan zien we dat het K-NN model leert zelfs na de 5e iteratie, en de accuraatheid opdrijft tot 94% (96.1% ham en 90.1% spam).
Fig. 10.15: Leercurves voor k=3,7 en 21
130
Hoofdstuk 10: Spambestrijding We stellen vervolgens een andere berekeningswijze voor dan de dichtste buur. Deze wordt gebruikt in onder meer de crm114 spamfilter 36: het hyperspace model.
Wi =
(document similarity)d (eucledian distance) 2
Waarbij d een onafhankelijke parameter is die aangeeft hoe belangrijk de gelijkheid tussen documenten doorweegt. Het gewicht per token hangt dus niet alleen af van de nabije buren, maar ook de gelijkheid met andere teksten speelt een rol. Hierbij wordt geen rekening meer gehouden met k-waardes: het volledige corpus wordt als dichtste buur beschouwd. Dit model levert met d = 1,2,3 respectievelijk accuraatheden af van 99.34, 99.27 en 99.26%.
Fig. 10.16: K-NN hyperspace weging met d=1,2,3
Het K-NN model is maar relatief accuraat als er gebruik gemaakt wordt van een select aantal buren, bovendien moet het er aan een aantal trainingsstages voldaan worden om enigszins accuraatheid te bereiken. Beschouwen we echter het ganse testcorpus als dichtste buur, en houden we daarbij ook nog eens rekening met de gelijkheden ten opzichte van vorige documenten, dan kunnen we vrij spectaculaire resultaten bekomen – mits voldoende trainingsstages.
10.5.3 Genetische filters: filteren met neurale netwerken Neurale netwerken is groepering van geconnecteerde neuronen die werken als een soort blackbox: er wordt een bepaalde input aan het neuraal netwerk gegeven, dewelke wordt verwerkt door het netwerk naar een eenduidige output. Deze netwerken zijn gebaseerd op de werking van het menselijke brein. Er zijn slechts 2 elementen aanwezig in een neuraal netwerk: neuronen en verbindingen.
(a)
(b)
Fig. 10.17: Bouwstenen van een neuraal netwerk
Door het herhaalde combineren, bewerken, splitsen en doorgeven van signalen wordt de invoer die het netwerk vanuit de buitenwereld ontvangt, omgezet in uitvoer. Daarnaast hebben veel neurale netwerken een ander nuttig vermogen: ze kunnen leren. Verbindingen, en soms ook neuronen, kunnen namelijk hun eigenschappen aanpassen als reactie op de signalen die er door heen vloeien. Er zijn 3 leermethodes mogelijk: •
supervised learning: het neuraal netwerk zal de eigenschappen van het netwerk aanpassen doordat het weet wat de uitkomst moet zijn van de inputs. Het netwerk leert als het ware goede antwoorden te geven
•
unsupervised learning: Het netwerk krijgt louter inputgevens voorgeschoteld, zonder antwoorden. Het netwerk gaat vervolgens op zoek naar patronen in de invoer.
•
Reinforcement learning: het netwerk krijgt naast de nodige inputs ook een antwoord in de vorm van “goed” of “fout”. Het netwerk moet dan zelf uitzoeken wat het goed of fout heeft gedaan, en zijn gedrag aanpassen.
Het leren van een netwerk gebeurt door het aanpassen van de gewogen verbindingen ( Wn ) tussen de neuronen. Als neurale netwerken gebruikt worden bij spamfilters, zal er gebruik gemaakt worden van het supervised learning model tot de filter betrouwbaar genoeg is. Een probleem met dit soort filters is dat de wegingen worden aangepast door invoer van nieuwe gegevens: hierdoor kunnen mettertijd de oude gegevens verloren gaan. Naar dit fenomeen wordt ook wel eens gerefereerd als het stabiliteit/plasticiteit 132
Hoofdstuk 10: Spambestrijding
dilemma. Door gebruik te maken van ART of Adaptieve Resonantie Theorie [41] kan men deze problemen tegemoet komen. ARTMAP is een adaptatie op het klassiek neuraal netwerk dat zal gebruik maken van 2 ART-componenten ( ARTa en ARTb ) die worden gereguleerd door 2 subsystemen (Fig. 10.18). Het attentional subsyteem zal een stabiliteit zoeken tussen het leren van een netwerk en het daadwerkelijke berekenen van de inputs. Het orienting subsysteem zal het attentional subssysteem bijsturen als er een fout opgetreden is. De component ARTa zal herkenningscategorieën archiveren die worden gebruikt bij de invoer van gegevens door ARTb . MAP FIELD tenslotte is het resultaat van de invoer van ARTb die werd gecategoriseerd door ARTa .
Fig. 10.18: Het ARTMAP-systeem
Concreet betekent dit dat er in de e-mail op zoek wordt gegaan naar spamwoorden, obfuscation, bekende links, informatie afgeleid uit e-mail headers en andere heuristieken. Deze worden als invoer gegeven aan het neuraal netwerk, dewelke de gegevens zal verwerken en de e-mail gaat classifiëren (zie Bijlage V:). Indien een e-mail niet kan worden toegewezen aan een reeds bestaande categorie, wordt er een nieuwe categorie aangemaakt. De kracht van het neuraal netwerk is dat deze gebruikt maakt van patroonherkenning en bijgevolg snel getraind kan worden. Tweede gevolg van het herkennen van patronen is dat er categorisatie van de e-mail mogelijk is en er een hoge detectieratio is.
Fig. 10.19: Detectieratio bij gebruik van neurale netwerken
133
Hoofdstuk 10: Spambestrijding
10.5.4 Image analysis Het analyseren van afbeeldingen in een e-mail is een systeem dat maar weinig wordt toegepast in anti-spam filters. De reden hiervoor is dat er enerzijds relatief weinig afbeeldingen worden gebruikt in spam e-mails, maar anderzijds vergt het analyseren vrij veel processorkracht. Het analyseren van een afbeelding kan bijvoorbeeld door gebruik te maken van een OCR 37-systeem. De gevonden tekst kan vervolgens worden geanalyseerd door bijvoorbeeld een Bayesiaanse filter. Andere mogelijkheden is het herkennen van bepaalde patronen in een afbeelding. IBM en MessageLabs werken bijvoorbeeld samen aan een “Image Composition Analysis”-filter [42]. Deze zal afbeeldingen gaan analyseren op basis van: •
Gezichtsherkenning: Hoeveel procent van de afbeelding wordt ingenomen door de weergave van het gezicht?
•
Houding: indien het gezicht slechts een klein percentage van de afbeelding in beslag neemt, zal de stand van de houding ten opzichte van het hoofd verder geanalyseerd worden.
•
Huidtinten: de filter onderzoekt het percentage huidtinten aanwezig in de afbeelding.
10.5.5 Checksum filtering Checksum filtering [43] wordt ook wel fingerprinting of Distributed Checksum Clearinghouse (DCC) genoemd. Van elke e-mail wordt een binaire checksom gegenereerd (vaak via MD5 of SHA-1), die de e-mail uniek identificeerbaar maakt. Deze waarde wordt vervolgens geregistreerd in een database. E-mail
Fingerprint
Important Information:
From: 37fca9ce 5413b211 5b3beaf6 eaed8693
Since 1924 our Official Swiss Pharm. has been the
MessageID:
most trusted pharm. in the world, year after
68756bb2 ba8f3b4c 8a26a23c c53fc1f6
year.Unlike others, we allow you to order at your
Received: da45c2d9 2e1fd1c3 0671a663 a944c142
discretion,without any questions and with the Iron
Act assuring your order will be secure, delivered and all information will be kept private. This weeks
37
OCR: Optical Character Recognition, een techniek om tekst te herkennen uit afbeeldingen
134
Hoofdstuk 10: Spambestrijding specials are Painklllers, sleepaids(Amb/Val), & sexxaids(Ci/Vi) http://Lisa.iknd.com/p/864/Lisa Did this reach you in error please let us know and your info will be deleted from our database http://Lisa.aekb.com/a.php
Wanneer een bericht met dezelfde “From”, “Message-ID” of “Received” ontvangen wordt, dan zal de fingerprint overeenstemmen. Wanneer er binnen een bepaald tijdsbestek vele overeenstemmingen geregistreerd worden, kan men ervan uitgaan dat er wordt gespammed. Fingerprints is dus een vrij goed systeem om bulk e-mail te herkennen. Spammers zullen hun e-mails trachten niet uniek identificeerbaar te maken door enkele details subtiel te veranderen. Fingerprintig zal hier enigszins mee rekening houden door gebruik te maken van fuzzy hashes. Fuzzy hashes zullen de inhoud van een bericht hashen, maar dit zonder interpunctie. Ook zullen URLs in de e-mail worden gestript naar louter het domeinnaam in kwestie, zodat de spammer verplicht is een nieuw domein te registreren eens zijn spam gecompromitteerd is. Deze techniek is echter niet feilloos: indien er voldoende woorden worden veranderd of toegevoegd, zal de fingerprint toch wijzigen. Men is bijgevolg verplicht de checksums regelmatig bij te werken.
10.6 Performantievergelijking Anti-spam producten claimen elk een zo hoog mogelijke detectieratio te hebben. Deze wordt vaak procentueel uitgedrukt: detectieratio van 98% met 5 false positives. Een ander product claimt een ratio van 95% met 26 false negatives. Welke van deze producten is nu het best? Zijn vijf valse positieven beter of slechter dan 95% accuraatheid? Zonder de juiste omstandigheden (hoeveel e-mails werden er gefilterd? Wat was de spam/ham verhouding?) betekenen die cijfers niks. We willen de performantie meten aan de hand van objectieve maatstaven: de false acceptance ratio (FAR) en de false rejection ratio (FRR). Deze kunnen worden gedefinieerd als volgt [44]: 135
Hoofdstuk 10: Spambestrijding
FAR =
nS ⎯⎯ →H nS
FRR =
nH ⎯⎯ →S nH
Waarbij: S Æ S:
Correcte classificatie van spam e-mail
S Æ H:
Spam wordt herkend als legitieme e-mail (ham) of False negative
H Æ H:
Correcte classificatie van ham e-mail
H Æ S:
Ham wordt als spam bestempeld of False positive
De reden waarom er twee meetobjectieven zijn, is omdat een filter de FAR bijvoorbeeld artificieel zou kunnen herleiden naar 0 door alle e-mail te blokkeren. Bij gebruik van zowel FAR en FRR zal dit er toe leiden dat de FRR opmerkelijk zal stijgen. Dit werkt in beide richtingen. Een goede spamfilter zal bijgevolg zowel een lage FAR als een lage FRR bezitten. We kunnen vervolgens een maatstaf wrongness (W) van een filter definiëren. Deze houdt in asymmetrische mate rekening met de FAR en FRR. De reden hiervoor is dat het veel erger is een legitiem bericht te classifiëren als spam, dan het occasioneel doorlaten van een spam e-mail.
W ( FAR, FRR) = ( FRR + ∈) 2 ( FAR + ∈) met ∈ = 0.01 Het testen van de filters gebeurt in een simulatieomgeving, waarbij zoveel mogelijk rekening werd getracht een realistische omgeving te creëren. Deze simulator bestaat uit 3 onderdelen (zie Fig. 10.20): •
Traffic generator: Deze component zal e-mail verkeer genereren tussen een set van zenders en ontvangers. Deze kunnen zowel ham als spam e-mails zijn. Indien de zender een spammer is, zal deze continu zenden tot alle ontvangers in de database zijn overlopen.
•
Wrapper: dit is de e-mail client van de ontvanger. Deze zal de te testen filter uitvoeren en het resultaat terugsturen naar de traffic generator. Bij filters die op server-niveau werken zullen alle connecties worden gelogd en kan die data worden gebruikt voor het classifiëren van de e-mails.
•
Trainer: sommige filters vereisen dat ze eerst worden getraind alvorens ze in gebruik kunnen worden genomen. De simulator kan een hoeveelheid e-mail als correct geclassificeerde ham en spam e-mail voorzien voor de filter. Aan de hand van dit testcorpus moet de filter in staat zijn om zich hiermee te trainen.
136
Hoofdstuk 10: Spambestrijding
Fig. 10.20: simulatieopstelling voor filteranalyse
De deelnemende filters zijn allemaal vrijelijk beschikbaar, daar het open source software betreft. Doordat er geen mogelijkheid is tot raadplegen van diverse online databases, is het aantal filters in de analyse beperkt. De filters worden zowel op user niveau (U) als server niveau (S) geratificeerd. Checksum filter:
DCC
Genetische filters (neuraal netwerk):
SpamAssasin
Bayesiaanse filters:
BogoFilter, Spamprove, BMF
Analyse e-mail verkeer:
Mail volume
(1) Gepersonaliseerde spam
(2) Niet-gepersonaliseerde spam
(3) Niet gepersonaliseerde, recente spam
Fig. 10.21: Resultaten analyse anti-spam filters
137
Hoofdstuk 10: Spambestrijding De meest interessante resultaten zijn misschien wel die van tabel 3: deze geeft weer hoe goed de filters reageren op recente spamontwikkelingen. Er werd hiervoor een selectie gemaakt van een aantal heel recente (< 2 weken) spam e-mails. We bemerken dat de analyse van e-mail verkeer een goed tot zeer goede FRR levert voor gepersonaliseerde e-mail. Indien het volume e-mail een bepaalde drempelwaarde overstijgt, zal deze worden bestempeld als spam. Bij gepersonaliseerde spam moet de bulk mailer van de spammer steeds een nieuwe connectie aanmaken, wat de detectie veel eenvoudiger maakt. Het grootste probleem met dit type filter is dat er algemeen gezien een grote FRR voorkomt die kan worden toegeschreven aan de aanwezigheid van mailinglists,marketingcampagnes… De checksum methodiek DCC levert daarentegen wel een goede FAR waarde, maar de algemene performantie is gematigd te noemen. Deze performantie kan worden opgekrikt door rekening te houden met een meer realistische richtwaarde, maar deze zal een directe impact uitoefenen op de FRR. De genetische filters bleken bij uitstekt geschikt te zijn om te worden geïmplementeerd op ISP of relay niveau. De goede resultaten van de FAR en FRR hebben maar 1 nadeel: het genetisch algoritme vergt veel rekenkracht van het computersysteem. Bayesiaanse filters bleken onderling toch performantieverschillen te hebben. De koploper is BogoFilter die gebruik maakt van het Fisher-algoritme. BMF heeft de laagste FAR waarden, maar daar tegenover staat dat het aantal false positives vrij hoog is. Een karakteristiek die werd opgemerkt tijdens het testen is dat Bayesiaanse filters minder goed presteren op serverniveau. Ook kunnen de fouten die gemaakt worden bij Bayesiaanse filters worden toegeschreven aan het feit dat de e-mail kort was: blijkbaar had de filter te weinig informatie kunnen verzamelen om de e-mail correct te kunnen classifiëren.
10.7 Gecombineerde aanpak Het gebruik van 1 filter is vaak niet voldoende om alle spam te weerhouden. Eén filter is immers nog vrij gemakkelijk omzeilbaar voor een spammer. Bij het blokkeren van spam komt men vele obstakels tegen waarmee men rekening moet houden: •
Het is relatief “duur” (in termen van geld/tijd/werk) om spam te detecteren
•
Volume is geen goede indicator van spam: denk maar aan legale marketing emails naar een klantenbestand
138
Hoofdstuk 10: Spambestrijding •
Gebruik van incorrecte e-mail adressen duidt niet noodzakelijk op aanwezigheid van spam
•
Er kunnen legale/contractuele beperkingen zijn aan het filteren van spam.
Door een combinatie van verschillende anti-spam technieken trachten we zoveel mogelijk rekening te houden met deze moeilijkheden. Zo kunnen we naast het effectief filteren van de inkomende e-mail ook identiteitscontrole invoeren. Een zeer geschikte combinatie als totaaloplossing tegen ongewenste e-mail zou kunnen zijn: •
Blacklisting
•
DNS-lookup
•
Challenge/response
•
Checksumfiltering
•
Naïve Bayes classificatie
Een andere aanpak wordt voorgesteld door Eric Allman [45]. Deze heeft tot doel de e-mail processing te verhogen door slechts een gering aantal e-mails te onderwerpen aan inhoudsfiltering. Indien de afzender afkomstig is van een geauthenticeerde bekende bron, dan is er geen nood aan inhoudsfiltering. Uiteraard wordt de e-mail wel vanuit veiligheidsoverwegingen gecontroleerd op virusaanwezigheid. Het model voorziet tevens centrale reputatie-rapportering om een e-mail alsnog te weigeren indien de authenticatiemechanismen niet afdoend zijn.
Fig. 10.22: Flowchart van gecombineerde spamfiltering
139
Hoofdstuk 11: Phishing
Hoofdstuk 11:
Phishing
11.1 Wat is phishing Phishing is het oplichten van mensen door een vertrouwde website te kopiëren, en de nietsvermoedende personen al hun gegevens te laten ingeven zoals hun kredietkaartnummer en hun geheime code. De slachtoffers kunnen naar de valse website gelokt worden door een e-mail met een link naar de website.
11.2 Historiek Omstreeks 1994 werden de eerste aanvallen uitgevoerd waarbij de aanvallers het gemunt hadden op inloggegevens van AOL) Internet accounts. Met algoritmisch gegenereerde kredietkaartnummers kregen de crackers toegang tot de AOL-diensten. Eind 1995 greep AOL echter in, en riep een halt toe aan de onechte kredietkaart nummers. De crackers werden nu verwezen naar phishing technieken om AOL-inloggegevens te kunnen bemachtigen. De crackers deden zich voor als AOL medewerkers en verstuurden e-mails met vermeldingen zoals "verify your account" of "confirm billing information". Als de onwetende gebruiker zijn/haar paswoord ingaf, kon de cracker de account misbruiken voor illegale doeleinden, zoals spammen. In een poging om het phishen in te dijken, maakte het haar klanten duidelijk dat een AOL medewerker nooit om persoonlijke accountgegevens zal vragen. Phising was daarmee echter verre van uitgeroeid. Met de huidige anti-spam technieken die voorhanden zijn, verleggen sommige spammers hun territorium naar het opstellen van phishing e-mails of het gebruik maken van adware en spyware om inkomsten te genereren. 8000 7000 6000 5000 4000 3000 2000 1000 0 Dec
Feb
Apr
Jun
Aug
Oct
Dec
Fig. 11.1: Phishing sites Dec '04 - Dec '05 (Bron: APWG)
140
Hoofdstuk 11: Phishing
11.3 Huidige beveiligingsmodellen 11.3.1 Secure Sockets Layer (SSL) SSL is een communicatieprotocol ontwikkeld in 1996 door Netscape. Het heeft als bedoeling door middel van cryptografie een beveiligde verbinding op te zetten tussen een server/client omgeving. Het is meer bekend onder de HTTPS 38-URL. Er is tevens al een opvolger voor SSL ontwikkeld door het IETF: Transport Layer Security (TLS), wat kan beschouwd worden als de 3.1 versie van SSL. Een SSL-verbinding wordt opgezet in 4 fases [46]: •
Mogelijkheid tot veilige connectie: Deze fase wordt door de client gestart om een logische connectie op te zetten. De client stuurt een “client_hello” bericht door naar de andere partij met daarbij: o
Versie van SSL die er gebruikt wordt
o
Sessie ID: een unieke waarde waarmee de sessie kan worden geïdentificeerd
o
Cipher suite: een lijst van cryptografische algoritmes die ondersteund worden door de client, in dalende volgorde van belangrijkheid.
o
Compressie methode: de lijst van compressie methodes die de client ondersteunt.
•
Server authenticatie en sleuteluitwisseling: De server waarmee geconnecteerd wordt stuurt zijn certificaat op naar de client. Deze certificaten zijn meestal beschreven volgens de X.509 norm.
•
Client authenticatie en sleuteluitwisseling: De client zal de certficaten van de server verifiëren en de andere berichten ontvangen. Wanneer alles in orde is zal ook de client zijn certificaat doorsturen naar de server, indien dit aanwezig is (optioneel). Vervolgens worden de publieke sleutels (partieel) uitgewisseld tussen de client en de server.
•
Einde: Deze fase beëindigt het opzetten van de connectie. Na deze fase is de connectie gerealiseerd.
38
HTTPS: Secure HyperText Protocol
141
Hoofdstuk 11: Phishing
Fig. 11.2: SSL transactiefases (Bron: SSi)
SSL is door zijn relatief eenvoudige structuur wijdverspreid geraakt, onder meer in browsers. De werking van SSL sluit echter niet uit dat een gebruiker (zowel server als client) malafide kan zijn. Het gebruik van een HTTPS-verbinding is dus geen synoniem voor een verzekerde veilige verbinding: wie kijkt er bijvoorbeeld de certificaten na of ze al dan niet vervallen zijn en tot wie ze toebehoren?
142
Hoofdstuk 11: Phishing
11.3.2 Web browser security Toen Netscape het gebruik van JavaScript 39 introduceerde in hun browsers (1995), waren ze zich bewust van de potentiële gevaren die daarmee gepaard gingen. Een van de sleutelproblemen omtrent veiligheid is het gebruik van JavaScript bij meerdere geopende browserpagina’s. De JavaScript code mag onder geen beding informatie kunnen opvragen van andere origine dan van waar het script gestart werd. Met origine bedoelen we: domeinnaam, protocol en poort. Vanaf de Netscape communicator 2.0 browser werden richtlijnen geïmplementeerd [47] waarbij de JavaScript code alleen maar data kan opvragen van webpagina’s binnen hetzelfde domein en protocol: “same origin policy”. Microsoft’s Internet Explorer gebruikt trouwens een alternatieve aanpak: zij werken met het concept van veiligheids-zone’s. Origine: http://store.company.com/dir/page.html URL
Resultaat
Reden
http://store.company.com/dir2/other.html
succes
http://store.company.com/dir/inner/another.html
succes
https://store.company.com/secure.html
fout
Verschillende poort
http://store.company.com:81/dir/etc.html
fout
Verschillende poort
http://news.company.com/dir/other.html
fout
Verschillend domein
Daarnaast is er een algemeen beveiligingsbeleid op gebied van JavaScript uitgewerkt. Alle JavaScript code wordt uitgevoerd in een sandbox: dit is een omgeving die geen toegang heeft tot harde schijf, register, gebruikersdata en netwerkbronnen. Zoals eerder aangegeven werkt Microsoft ook hier met een alternatief systeem van veiligheidszone’s.
11.3.3 Twee factoren authenticatie (T-FA) De meeste on-line banken, veilingwebsites,… maken tegenwoordig gebruik van een “twee factoren”-beveiliging. Dit beveilingsprotocol vereist twee onafhankelijke methodes om een partij te identificeren en priveleges aan toe te kennen. Vaak worden deze methodes praktisch geïmplementeerd als een partij die iets heeft (smartcard, nummergenerator, usb-sticks…) en iets weet (paswoord, PIN,…). Andere factoren die als authenticatie kunnen fungeren zijn: locatie (slechts op een bepaalde plaats kunnen inloggen), tijd (op
39
JavaScript is een scripttaal met object-georiënteerde mogelijkheden. Deze is vooral gericht op
het gebruik op het World Wide Web. Origineel heette de scripttaal Mocha en vervolgens LiveScript, maar deze werd hernoemd naar JavaScript toen Netscape ondersteuning bood voor Java-applets in hun browser.
143
Hoofdstuk 11: Phishing bepaalde tijd inloggen),… Dit soort beveiliging noemt men een sterke authenticatie ten opzichte van een zwakke authenticatie als de klassieke passwoord-beveiliging. Er is tegenwoordig ook een opmars te bemerken voor het gebruik van biometrie (vingerafdrukken, irisscan,…) als derde authenticatiefactor. De techniek van twee factoren authenticatie is echter ook niet heiligmakend [48]. Ze is immers vooral gebaseerd op aanvallen waar men 10-20 jaar geleden mee te maken had: communicatielijnen afluisteren en paswoorden raden.
Fig. 11.3: Twee factoren authenticatie
Naast de beveiliging is immers ook het type aanvallen geëvolueerd, jammer genoeg. We krijgen steeds meer en meer te maken met aanvallen gebruik makend van trojaanse paarden en man-in-the-middle aanvallen: •
Man-in-the-middle aanval: Een aanvaller maakt een valse kopie van een online bank website. Vervolgens lokt hij slachtoffers naar deze website en laat ze hun login-gegevens invullen. Vervolgens stuurt hij ze door naar de legitieme website, zodat de gebruiker nooit geweten heeft dat hij zijn gegevens heeft afgestaan aan een aanvaller of dat hij überhaupt op een malafide website aanwezig was.
•
Trojaanse aanval: Een aanvaller installeert een trojaans paard virus (trojan) op het computersysteem van het slachtoffer. Wanneer het slachtoffer vervolgens verbinding maakt met een online bank en zijn gegevens invult, worden deze onzichtbaar verstuurd naar de aanvaller.
•
Twee factoren beveiling is echter niet nutteloos: het is een goede beveiliging in een lokale omgeving, maar zal niet afdoende veiligheid bieden bij authenticatie over het Internet. 144
Hoofdstuk 11: Phishing
11.4 De phishing aanval Phishing is gebaseerd op de kracht van enerzijds technische fouten uitbuiten en anderzijds op het principe van social engineering. Social engineering is een type aanval waarbij men tracht de zwakste schakel van een beveiling te kraken, in dit geval de mens. Men tracht op velerlei technieken vertrouwelijke informatie vrij te krijgen van de mens, om zo hun aanval verder te kunnen ontplooien. Een phishing-aanval is dus eigenlijk niets meer dan een high-tech scam-aanval: Een typische phishing aanval doorloopt enkele stadia (zie Bijlage VI: Stappenplan van een phishing aanval): •
De aanvaller verkrijgt het e-mail adres van de slachtoffers. Deze kunnen willekeurig gegenereerd zijn, of afkomstig van andere bronnen (zie hoofdstuk 6.1, Het verkrijgen van e-mail adressen).
•
De aanvaller genereert een e-mail die schijnbaar afkomstig is van de instelling waarvan hij de inloggevens wenst. Hij moedigt het slachtoffer in de e-mail aan om een welbepaalde actie te ondernemen.
•
Afhankelijk van het type e-mail kan de gebruiker gevraagd worden een bepaalde bijlage te openen, een bepaald formulier in te vullen of een bepaalde website te bezoeken.
•
De aanvaller slaat de verkregen inloggegevens op, om ze in de toekomst te kunnen uitbuiten.
Er zijn grofweg drie types phishing aanvallen die frequent gebruikt worden. Het eerste type is een aanval waarbij het slachtoffer wordt besmet met een worm/trojan virus. Een andere aanval is het misleiden van het slachtoffer om een bepaalde actie te ondernemen. Een laatste type aanval is het gebruik van spyware om vertrouwelijke informatie te verkrijgen.
11.5 Soorten aanvallen 11.5.1 Worms/trojans Worms en trojans zullen als bijlage beschikbaar zijn in de verstuurde e-mail. Vaak gecamoufleerd als screen saver of een elektronische kaart. In realiteit zal de bijlage een binair bestand zijn die toekomstige communicatie tussen het slachtoffer en een bepaalde legitieme instelling kan onderscheppen. De verkregen informatie wordt dan vervolgens zonder medeweten van de gebruiker doorgestuurd naar de aanvaller. Potentiële 145
Hoofdstuk 11: Phishing problemen die de aanval kunnen tegenwerken zijn virusscanners, firewalls en intrusiedetectie systemen.
Fig. 11.4: Trojan/Worm aanval (Bron: McAfee Research)
146
Hoofdstuk 11: Phishing
11.5.2 Misleiding Deze aanval zal niet zozeer technische veiligheidslekken gaan exploiteren of gebruik maken van verdachte software. De aanvaller berust erop dat indien zijn groep slachtoffers groot genoeg is, er wel iemand zal geloven dat de verstuurde e-mail legitiem is. Hiervoor wordt misbruik gemaakt van bekende (vertrouwde) merken en het ongemerkt doorsturen van gebruikers naar een andere URL (“redirecting”). Veiligheidsprotocollen zoals SSL bieden weerstand ten opzichte van deze aanvallen, maar dit alleen als de gebruikte certificaten (nog) geldig zijn. Een andere oplossing die dit soort aanvallen tegenwerkt is commerciële privacybeschermende software.
Fig. 11.5: Phishing via misleidende e-mail (Bron: McAfee Research)
147
Hoofdstuk 11: Phishing
11.5.3 Spyware De aanvaller maakt gebruik van spyware pakketten om confidentiële informatie te bemachtigen van het slachtoffer. Deze software kan worden geïnstalleerd vanuit bijlage, of door een reeds eerdere besmetting van worms of trojans. Veel commerciële software detecteren en verwijderen tegenwoordig spyware. Ook vele virusscanners bezitten deze functionaliteit. Tenslotte zijn er ook firewalls die de communicatie met de aanvaller kunnen verhinderen.
Fig. 11.6: Spyware phishing aanval (Bron: McAfee Research)
148
Hoofdstuk 11: Phishing
11.6 Phishing technieken 11.6.1 Overzicht De technieken die worden gebruikt om een phishing aanval te realiseren kan men opdelen in drie categorieën. Na het overzicht nemen we een kijkje naar de meest gebruikte praktische methodes om beveiligingen te omzeilen.
Fig. 11.7: Phishing technieken
11.6.1.1
Schadelijke code uitgevoerd door externen
Dit type aanval zal HTML-tags misbruiken om ander personen ongewild bepaalde code te laten uitvoeren. De getroffen tags die deze code kunnen uitvoeren zijn [49]: <SCRIPT>,