Bankovní institut vysoká škola Praha Katedra matematiky, statistiky a informačních technologií
Metody a nástroje OSINT
Diplomová práce
Autor:
Bc. Petr Vondruška Informační technologie a management
Vedoucí práce:
Praha
Ing. Vladimír Beneš
Duben, 2013
Prohlášení: Prohlašuji, ţe jsem diplomovou práci zpracoval samostatně a v seznamu uvedl veškerou pouţitou literaturu. Svým podpisem stvrzuji, ţe odevzdaná elektronická podoba práce je identická s její tištěnou verzí, a jsem seznámen/ se skutečností, ţe se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.
podpis autora V Praze, dne 25. 4. 2013
Petr Vondruška
Poděkování Děkuji Ing. Vladimírovi Benešovi za ochotu a cenné připomínky při vedení této práce. Rád bych také poděkoval mé rodině, která mě podporovala nejen v průběhu tvorby této diplomové práce, ale i během celého studia.
Anotace Tato diplomová práce je zaměřena na komplexní popis problematiky OSINT, tedy Open Source Intelligence neboli zpravodajství z otevřených zdrojů. Jedná se o oblast zabývající se sběrem, zpracováním a analyzováním údajů a informací z volně dostupných (především internetových) zdrojů. Práce je zaměřena především na popis metod a nástrojů používaných v rámci OSINT analýzy. V závěru práce je popsán doporučený postup provedení OSINT analýzy vybraného firemního subjektu. Klíčová slova:
OSINT, Competitive Intelligence, zpravodajský cyklus, vyhledávání informací na internetu, sociální média
Annotation This thesis is focused on comprehensive description of OSINT (Open Source Intelligence). This field consists of collecting, processing and analyzing data and information from publicly available (mostly online) sources. The thesis is mainly focused on the description of the methods and tools used in the OSINT analysis. In conclusion, the paper describes the recommended steps of OSINT analysis of selected company. Key words:
OSINT, Competitive Intelligence, Intelligence cycle, Internet searching, Social media
Obsah 1 2
Úvod ............................................................................................................................... 8 Vymezení oblasti OSINT .............................................................................................. 9 2.1 Základní pojmy ..................................................................................................... 10 2.2 Rozdílné přístupy k OSINT .................................................................................. 12 2.2.1 Plošný OSINT ............................................................................................... 12 2.2.2 Cílený OSINT ................................................................................................ 12 2.3 Vyuţití OSINT dle účelu ...................................................................................... 13 2.3.1 Bezpečnostní a silové sloţky ......................................................................... 13 2.3.2 Soukromé bezpečnostní agentury .................................................................. 13 2.3.3 Ţurnalistika .................................................................................................... 13 2.3.4 Operativní firemní vyuţití ............................................................................. 13 2.3.5 Penetrační testování ....................................................................................... 14 2.4 Historický vývoj OSINT ....................................................................................... 15 2.5 Otevřené zdroje ..................................................................................................... 16 2.6 Deep Web.............................................................................................................. 17 2.7 Uniklé zdroje a databáze ....................................................................................... 18 2.7.1 Dokumenty .................................................................................................... 18 2.7.2 SQL databáze................................................................................................. 19 2.7.3 E-maily .......................................................................................................... 19 2.7.4 Databáze ........................................................................................................ 19 2.7.5 Osobní údaje .................................................................................................. 19 2.7.6 Příklad zneuţití .............................................................................................. 20 3 Existující projekty v oblasti OSINT .......................................................................... 21 3.1 Společné výzkumné centrum Evropské Komise (JRC) ........................................ 21 3.1.1 EMM Media Monitoring and Open Source Intelligence Tools ..................... 22 3.1.2 Newsbrief ...................................................................................................... 22 3.1.3 Newswxplorer................................................................................................ 23 3.1.4 Medisys.......................................................................................................... 23 3.1.5 Labs ............................................................................................................... 23 3.2 FRONTEX ............................................................................................................ 24 3.3 Counterterrorism Research Lab ............................................................................ 25 3.4 EUROSINT ........................................................................................................... 26 3.5 IHS a Jane’s Information Group ........................................................................... 26 4 Metody OSINT ............................................................................................................ 27 4.1 Zpravodajský cyklus ............................................................................................. 27 4.2 Zpracování a analýza informací ............................................................................ 29 4.3 Vyhodnocení kredibility informací ....................................................................... 30 5
4.3.1 Přesnost.......................................................................................................... 30 4.3.2 Kredibilita a váha .......................................................................................... 30 4.3.3 Aktuálnost...................................................................................................... 30 4.3.4 Objektivita ..................................................................................................... 31 4.3.5 Relevance ...................................................................................................... 31 4.3.6 Škála pro vyhodnocení kredibility................................................................. 31 5 Nástroje OSINT .......................................................................................................... 32 5.1 Vyhledávače a metavyhledávače .......................................................................... 33 5.1.1 Google Alerts................................................................................................. 34 5.1.2 Google hacking .............................................................................................. 34 5.2 Archivní zobrazení webových stránek .................................................................. 37 5.2.1 Google Cache ................................................................................................ 37 5.2.2 Wayback Machine ......................................................................................... 37 5.2.3 WebArchiv .................................................................................................... 37 5.2.4 Srovnání ......................................................................................................... 38 5.3 Kopírování webových stránek .............................................................................. 39 5.3.1 HTTrack Web Site Copier ............................................................................. 39 5.3.2 Website Ripper Copier .................................................................................. 40 5.3.3 Srovnání ......................................................................................................... 41 5.4 Síťová infrastruktura ............................................................................................. 42 5.4.1 DNS dotazování............................................................................................. 43 5.4.2 Whois záznamy.............................................................................................. 43 5.4.3 Sam Spade ..................................................................................................... 44 5.4.4 Knock ............................................................................................................ 45 5.4.5 Srovnání ......................................................................................................... 46 5.5 Metadata................................................................................................................ 47 5.5.1 Foca Free ....................................................................................................... 48 5.5.2 Metagoofil ..................................................................................................... 50 5.5.3 ExifTool ......................................................................................................... 51 5.5.4 Creepy............................................................................................................ 52 5.5.5 Srovnání ......................................................................................................... 54 5.6 Údaje o uţivatelích ............................................................................................... 56 5.6.1 Scythe: Account enumerator ......................................................................... 56 5.6.2 The Harvester ................................................................................................ 60 5.6.3 Web Data Extractor ....................................................................................... 61 5.6.4 Link Extractor ................................................................................................ 62 5.6.5 Zjištění IP uţivatele Skype ............................................................................ 63 5.6.6 Srovnání ......................................................................................................... 64 5.7 Monitoring sociálních médií ................................................................................. 66 6
5.7.1 Recorded Future ............................................................................................ 69 5.7.2 SiloBreaker .................................................................................................... 71 5.7.3 Spicy Mango .................................................................................................. 72 5.7.4 Srovnání ......................................................................................................... 73 5.8 Komplexní nástroje pro OSINT ............................................................................ 74 5.8.1 Paterva Maltego ............................................................................................. 74 5.8.2 Netglub .......................................................................................................... 76 5.8.3 Srovnání ......................................................................................................... 77 5.9 Pokročilá analýza textu ......................................................................................... 79 5.9.1 Copernic Summarizer .................................................................................... 79 5.9.2 Tovek Tools ................................................................................................... 80 5.9.3 Cogito semantic technology .......................................................................... 82 5.9.4 Basis Technology .......................................................................................... 84 5.9.5 Srovnání ......................................................................................................... 85 5.10 Vizuální analýza dat.............................................................................................. 86 5.10.1 Paterva CaseFile ............................................................................................ 86 5.10.2 IBM i2 Analyst´s Notebook .......................................................................... 87 5.10.3 Srovnání ......................................................................................................... 88 6 Modelová OSINT analýza vybraného subjektu ....................................................... 89 7 Závěr ............................................................................................................................ 93 8 Slovník Pojmů ............................................................................................................. 94 9 Použitá literatura ........................................................................................................ 96 10 Seznam obrázků ........................................................................................................ 100 11 Seznam tabulek ......................................................................................................... 101
7
1 Úvod Tato diplomová práce volně navazuje na bakalářskou práci „Nástroje pro vyhledávání informací o osobách na internetu“, kterou jsem v roce 2011 úspěšně obhájil na Vysoké škole ekonomické v Praze a jejímţ vedoucím byl Ing. Luboš Pavlíček a oponentem prof. Ing. Zdeněk Molnár, CSc. Problematika vyhledávání informací o osobách na internetu tvoří součást oblasti OSINT, která je však mnohem obsáhlejší. Některé vybrané pasáţe této diplomové práce (jako například některé základní definice, popis zpravodajského cyklu nebo některé vybrané metody a nástroje), byly zmíněny jiţ v uvedené bakalářské práci a jsou částečně převzaty a případně doplněny a aktualizovány také v této diplomové práci. Hlavním cílem této práce je komplexní a shrnující pohled na problematiku oblasti zpravodajství z otevřených zdrojů neboli OSINT (Open Source Intelligence). V době psaní této práce mi není známa existence jiné podobně rozsáhlé práce týkající se OSINT v českém jazyce. Dalším cílem této práce je poskytnutí přehledu existujících metod a nástrojů vhodných pro tvorbu OSINT analýzy, včetně jejich praktického otestování a dílčího srovnání nástrojů v rámci dané kategorie nástrojů. Srovnání všech nástrojů není moţné z důvodu jejich nesourodosti. Nástroje z jednotlivých kategorií se však vzájemně doplňují a umoţňují tak tvorbu výsledné OSINT analýzy. Posledním cílem je návrh modelového postupu pro OSINT analýzu vybraného firemního subjektu. Se všemi uvedenými nástroji jsem se setkal v praxi a při jejich výběru a popisu jsem vycházel především z osobní zkušenosti práce s těmito nástroji. Problematikou pokročilých metod vyhledávání a zpracování informací se dlouhodobě zabývám. Jde o téma, které se především s rostoucím vyuţitím internetu rychle rozvíjí a v současné době stojí v popředí zájmu mnoha společností a institucí. Problematikou pokročilých metod vyhledávání a zpracování informací se dlouhodobě zabývám. V roce 2010 jsem navštívil mezinárodní konferenci ASONAM (Advances in Social Networks Analysis and Mining) v Dánsku, jejíţ součástí bylo také symposium OSINT-WM (International Symposium on Open Source Intelligence and Web Mining). V roce 2011 jsem navštívil konferenci EISIC (European Intelligence and Security Informatics Conference) v Řecku, rovněţ ve spojení s OSINT-WM Symposium.
8
2 Vymezení oblasti OSINT Pojem OSINT (Open Source Intelligence) neboli Zpravodajství z otevřených zdrojů je oblast zabývající se sběrem, zpracováním a analyzováním údajů a informací z volně dostupných zdrojů. V rámci zdrojů dostupných v českém jazyce je oblast OSINT výstiţně popsána na webových stránkách ÚZSI: „Otevřené zdroje nejsou jen obvyklé komerčně dostupné tištěné a elektronické sdělovací prostředky, ale celá škála sofistikovaných, málo známých postupů, v nichž jsou často "ukryta" cenná data, o nichž často dopředu nemáme tušení. S nástupem internetu (a po pádu mnoha diktatur ve světě) se staly otevřené zdroje ještě významnějšími. Data z otevřených zdrojů tvoří v databázích - informačních fondech zpravodajských služeb obrovský podíl. Na některá témata a při vyšším stupni obecnosti analýz mohou otevřené zdroje poskytnout uspokojivé odpovědi. OSINT je téměř bez rizik, ale hrozí utopení v množství dat.“ [1] Definice dle terminologického slovníku vojenského názvosloví amerického Ministerstva obrany (DoD)1: „Informace s potencionální zpravodajskou hodnotou, které jsou dostupné široké veřejnosti. Také nazýváno jako OSINT.“ [2] Výše uvedené definice a popisy oblasti OSINT tedy mají několik společných znaků: jedná se o vyhledávání, sběr a zpracování informací, informace pocházejí výhradně z otevřených zdrojů, nejsou pouţity ţádné nelegální metody získávání informací, jde o relativně rychlý a levný způsob získávání informací, nejde o špionáţ.
1
Volný překlad z anglického jazyka
9
O významnosti a praktické vyuţitelnosti OSINT svědčí i vyjádření, dle kterého pochází 80 % všech informací CIA z vyhledávače Google. [3] Podobná čísla se objevují také například u příbuzné oblasti Competitive Intelligence (Konkurenční zpravodajství): „Až 95 % informací potřebných pro oblast Competitive intelligence je dostupných z veřejně dostupných otevřených zdrojů a z toho 80 % prostřednictvím veřejně dostupných prostředků.“ [4]
2.1 Základní pojmy Mezi základní pojmy související s oblastí OSINT patří zejména OSD (Open Source Data), OSIF/OSINF (Open Source Information) a OSINT-V (Validated OSINT), které byly popsány v dokumentu NATO Open Source Intelligence Handbook vydaném v listopadu 2001. [5] Open Source Data (OSD) OSD označuje syrová nezpracovaná data z primárních zdrojů. Mezi OSD patří tištěné i elektronické dokumenty, rozhlas, audio a video záznamy, fotografie apod. Open Source Information (OSIF / OSINF) OSINF označuje informace z otevřených zdrojů. Jedná se o libovolné informace v tištěné či digitální podobě, které lze získat legální cestou. Proces třídění, zpracování a analyzování takových informací se nazývá OSINT. Open Source Intelligence (OSINT) OSINT označuje proces zpracování informací z otevřených zdrojů (OSIF / OSINF). Zpracování zahrnuje analýzu, třídění a ověřování informací. Pro zpracování dat v rámci OSINT je pouţíván zpravodajský, resp. OSINT cyklus. Výstupem OSINT analýzy je výstup s významnou přidanou hodnotou (např. analýza určité situace, hledání trendů, objevování vazeb mezi subjekty apod.) Validated OSINT (OSINT-V) OSINT-V dle definice NATO označuje ověřené informace, kterým lze přisoudit velmi vysoký stupeň určitosti. Tyto informace jsou produkovány informačními specialisty, kteří mají přístup k utajovaným informacím. OSINT-V tedy označuje takový typ informací z otevřených zdrojů, které jsou v souladu s dalšími (především utajovanými informacemi) a jsou nezpochybnitelné. Jak jiţ bylo zmíněno, jedná se o pojem pouţívaný v rámci NATO.
10
SOCMINT (Social Media Intelligence) SOCMINT označuje podoblast OSINT zaměřenou na monitorování a vytěţování sociálních médi, která v současné době zaţívá velmi výrazný rozvoj. To je dáno především rychle rostoucím mnoţstvím aktivních uţivatelů SNS (Social Networking Sites) či jiných sociálních médií. Uţivatelé sociálních sítí dobrovolně poskytují mnoţství svých osobních údajů, ale také fotografií či příspěvků týkajících se nejrůznějších společenských témat. Existují také nejrůznější metody sledování preferencí uţivatelů pro obchodní a marketingové účely. Vţdy je nutno respektovat obchodní podmínky jednotlivých sociálních médií, aby nedošlo k jejich porušení případným vytěţováním těchto médií. Jedná se o jeden z nejobsáhlejších informačních zdrojů současnosti. Například na síti Facebook je měsíčně přihlášeno 845 milionů aktivních uţivatelů (MAUs – monthly active users), kteří denně vloţí celkem 2,7 miliardy příspěvků nebo kliknutí na tlačítko „to se mi líbí“. Denně je také vloţeno 250 milionů fotografií. Celkem jiţ vzniklo 100 miliard uzavřených přátelství. [6] Obdobná je situace i v případě dalších sociálních médií – například na síti Twitter je vloţeno denně 400 [7] - 500 [8] milionů příspěvků („tweetů“). Na serveru Youtube je denně shlédnuto 4 miliardy videí. Sociální média představují významný zdroj informací a dostávají se do popředí zájmu oblasti sběru a analýzy údajů z otevřených zdrojů. Zároveň se jedná o velmi cenná data, se kterými je dnes běţně obchodováno. Doxing Doxing označuje cílené vyhledávání a sběr informací o osobě a jejích osobních údajích. Doxing se můţe týkat také zveřejnění údajů o některé společnosti. Pojem Doxing vznikl fonetickým přepisem anglického slova „documents“, resp. zkráceného tvaru „docs“. Doxing zahrnuje také přiřazování internetových přezdívek a identit k identitě reálných osob. Výsledky mnoha výstupů doxingu je moţno nalézt například na serveru Pastebin.com nebo v rámci specializovaného necenzurovaného projektu Doxbin v rámci Tor hidden service.
11
2.2 Rozdílné přístupy k OSINT Pouţití OSINT v praxi existuje na několika různých úrovních, lišících se dle účelu a pouţití. Existují dva základní rozdíly v přístupu k OSINT. Pro účely této práce jsou tyto přístupy pojmenovány jako plošný OSINT a cílený OSINT. Zatímco plošný OSINT se zaměřuje na automatizovaný plošný sběr dat, cílený OSINT je zaměřen na vyhledání konkrétní informace.
2.2.1 Plošný OSINT Jednou z moţností pouţití OSINT je automatizované vyhledávání a zpracování velmi rozsáhlého objemu dat, která jsou následně analyzována. Můţe jít například o monitoring médií, blogosféry či sociálních médiích. Tyto informace mohou poslouţit například k monitorování vývoje v některé zemi či pro tvorbu systémů pro včasné varování. Spadá sem také podoblast SOCMINT (vytěţování informací ze sociálních médií). Patří sem také analýza sociálních sítí (ve smyslu analýzy vztahů prvků určité sociální sítě). Typické vyuţití pro plošný OSINT: systémy pro monitoring médií, systémy včasného varování, analýza sociálních sítí.
2.2.2 Cílený OSINT Dále můţe být OSINT pouţit pro vyhledávání konkrétních informací, kdy nejde o široce zaměřené monitorování dostupných médií, ale o vyhledání konkrétních relevantních informací v libovolných otevřených zdrojích. Do této oblasti spadají zejména rešerše, vyhledávání informací o osobách, či úvodní fáze penetračního testování, kdy jsou zjišťovány základní informace o společnosti a její technické a síťové infrastruktury. Typické vyuţití pro cílený OSINT: tvorba rešerší, vyhledávání informací o osobách, vyhledávání informací o firmách, úvodní fáze penetračního testování, Competitive intelligence doxing.
12
2.3 Využití OSINT dle účelu 2.3.1 Bezpečnostní a silové složky Vyuţití OSINT v rámci bezpečnostních a silových sloţek zastává významnou roli. OSINT je zde moţno vyuţít na několika úrovních. V první řadě jde o monitoring médií a dalších (nejen internetových) zdrojů. Další významnou oblastí je vyhledávání informací o osobách a v širším kontextu také prevence internetové i jiné kriminality či boj proti terorismu. Předpokládá se pouţití velmi sofistikovaných metod, postupů a nástrojů. Velmi důleţitá je zde fáze verifikace a analýzy získaných údajů a informací. Bezpečnostní a silové sloţky mají z hlediska legislativy širší moţnosti ve srovnání s jinými subjekty. OSINT tedy slouţí jako rychlý a především bezpečný způsob získávání informací a jde o významný doplňující zdroj k dalším informacím, kterými dané subjekty disponují.
2.3.2 Soukromé bezpečnostní agentury Jednou z oblastí, které se věnují soukromé bezpečnostní agentury, je pátrání po osobách, či vyhledávání informací o osobách a firmách nebo vyhledávání vazeb mezi těmito subjekty. Dále můţe jít o monitorování vazeb mezi osobami či jinými subjekty. Také společnosti pro vymáhání pohledávek vyuţívají internet pro získání informací o dluţnících.
2.3.3 Žurnalistika Práce s otevřenými zdroji je důleţitou součástí ţurnalistické činnosti. V této oblasti jsou často vyhledávány informace o osobách (např. politici, podnikatelé, vědci, celebrity, pachatelé trestné činnosti) nebo o společnostech či dalších subjektech a jejich vzájemných vztahů. V rámci ţurnalistiky lze OSINT vyuţít k monitorování vývoje v některé zemi a k monitorování vývoje určitých událostí. Důleţitá je zde především práce s jiţ existujícími zdroji informací. Výstupem je zveřejnění prostřednictvím tištěných či audiovizuálních médií.
2.3.4 Operativní firemní využití Firemní vyuţití OSINT spadá spíše do oblasti Competitive Intelligence, avšak většina pouţitých metod, postupů či nástrojů je velmi podobná či shodná. Jde o součást strategické analýzy podniku. Příkladem vyuţití můţe být analýza trhu nebo určitého odvětví, 13
vyhledávání obchodních příleţitostí či informací o současných i budoucích obchodních partnerech. Je předpokládáno vyuţití sofistikovaných metod a nástrojů. Důleţitá je nejen samotná fáze vyhledávání, ale také analýza získaných údajů. Součástí můţe být i analýza vztahů mezi osobami či dalšími subjekty.
2.3.5 Penetrační testování Penetrační testování je součástí etického hackingu a označuje souhrn metod a postupů umoţňujících k odhalení existujících zranitelností informačního systému. Metody OSINT jsou vyuţívány v úvodních fázích penetračního testování, kdy jsou zjišťovány základní informace
o
společnosti,
jejích
systémech
a
dalších
technických
údajích
či o zaměstnancích. Tato přípravná fáze se nazývá Reconnaissance. Cílem je komplexní sběr informací o daném subjektu (zahrnuje systémy, sítě, zaměstnance či případně klienty). Reconnaissance se rozděluje na pasivní a aktivní.
Pasivní Reconnaissance zahrnuje
získávání informací bez přímé interakce s daným cílem. Příkladem zdrojů takových informací jsou internetová média, veřejně dostupné databáze nebo vyhledávání pomocí vyhledávačů. Aktivní Reconnaissance zahrnuje přímou interakci s cílem. Jedná se například o zjišťování síťové architektury zkoumaného subjektu, skenování portů, Ping, Traceroute nebo zjišťování verzí OS či aplikačního SW. Zahrnuty jsou také metody sociálního inţenýrství (například telefonický rozhovor s cílem zjistit konkrétní informace zejména takové, které nejsou z ostatních otevřených zdrojů běţně dostupné).
Obrázek 1 - znázornění jednotlivých fází Reconnaissance zdroj: http://www.ecqurity.com/wp/footprinting-encored.pdf
14
2.4 Historický vývoj OSINT Informace měly vţdy zásadní význam pro společnost - při rozvoji států, vědy a techniky, stejně tak jako mohly mít zásadní vliv na výsledky válečných konfliktů. Počátek sofistikovaného přístupu ke zpracování informací z otevřených zdrojů souvisel s druhou světovou válkou, kdy došlo v USA v roce 1941 k zaloţení FBIS (Foreign Broadcast Information Service), jakoţto součásti CIA zaměřené na zpracování informací z otevřených zdrojů týkajících se druhé světové války. Mezi nejvýznamnější faktory následujícího rozvoje OSINT patří především masivní nárůst informací ve všech podobách a s tím související potřeba tyto informace třídit, zpracovávat a uchovávat. Dalším zásadním milníkem je vznik osobního počítače a následně internetu, coţ umoţnilo přístup k informacím (ale také jejich vytváření a šíření) převáţné části populace civilizovaného světa. Konec studené války a nárůst globalizace znamenal potřebu získávání a zpracování informací z mnoha různých jazyků, coţ kladlo nové poţadavky na rozvoj OSINT. Významný rozvoj získávání informací z otevřených zdrojů a oblasti OSINT se objevil v době po teroristickém útoku 11. září 2001, který byl v médiích mnohdy označován jako selhání práce zpravodajských sluţeb. V této souvislosti se objevila potřeba získávat informace v co nejkratším čase z co největšího mnoţství informačních zdrojů a jejich analyzováním získat cenné informace s vysokou přidanou hodnotou. Jedním z výstupů vyšetřovací komise k útokům z 11. září 2001 bylo doporučení pro zaloţení specializovaného oddělení, které by se této činnosti věnovalo. [9] Na základě tohoto doporučení vzniklo v roce 2005 DNI Open Source Center. Oblast OSINT je tedy v současném chápání poměrně mladou disciplínou zaţívající významný rozvoj. Mezi lety 1994 a 2011 vznikl některý typ organizace věnující se OSINT ve více neţ 40 zemích světa, ve většině případů pro vojenské vyuţití. [10] V současnosti je oblast OSINT uznávána jako jeden z plnohodnotných způsobů zpravodajské činnosti.
15
2.5 Otevřené zdroje Otevřené zdroje označuje jakékoliv údaje a informace, které lze získat legální cestou, ať uţ zdarma nebo za poplatek. Takto jsou otevřené zdroje definovány dle BIS: „Do otevřených zdrojů patří např. noviny a časopisy, rozhlasové a televizní vysílání, Internet, různé publikace, knihy apod. Otevřenými zdroji mohou být i různé přednášky, sympózia, konference a jakékoliv jiné aktivity, které jsou zdrojem informací a odehrávají se ve veřejném, volně přístupném prostoru.“ [11] V minulosti se získávání informací týkalo především tištěných zdrojů či dalších klasických médií (rozhlas, televize). V současnosti je hlavní pozornost zaměřena na elektronická média (především internet). Základním a zcela zásadním rozdílem oproti jiným oblastem věnujícím se získávání informací je práce se všemi dostupnými informačními zdroji - tedy i s takovými, které nejsou označovány jako relevantní ve vědecké sféře. V rámci OSINT jsou běţně vytěţovány například i takové informační zdroje jako jsou blogy, diskusní fóra, newsgroups nebo (zejména v poslední době) sociální média. Tyto zdroje mohou poskytnout velmi aktuální a cenné údaje a informace. Zároveň však vzniká problém s velkým objemem takových dat a jejich problematickým zpracováním v reálném čase. Dále tyto informační zdroje kladou vysoké nároky na následnou analýzu a ověření, přičemţ můţe snadno dojít k dezinterpretaci takových informací. Dle původnosti obsahu tedy OSINT zahrnuje primární, sekundární i terciární informační prameny a bílé (publikované), šedé (polopublikované) a za určitých okolností i černé (nepublikované) informační zdroje.
16
Otevřené internetové zdroje zahrnují zejména: média a jejich digitalizovaná podoba (noviny, časopisy, rozhlas, televize, apod.), literatura a další publikace (knihy, sborníky, ţurnály, apod.), webové stránky a sluţby všech typů, o osobní a firemní stránky, o SNS (Social Networking Sites) a další sociální média, o diskuzní fóra, o chatovací sluţby (online chat, IRC), o wiki, o blogosféra, audiovizuální obsah, o fotografie a grafické soubory, o video a weby pro online sdílení videa, o zvuk, katalogy, databáze, soubory ke staţení (prostřednictvím internetových odkazů, P2P sítí, Torrent apod.), mapy (resp. GIS), alternativní webové sluţby jako Tor Hidden Service či Freenet apod. veškeré další údaje, informace a soubory, které lze na internetu legálně získat.
2.6 Deep Web Hluboký web (v češtině téţ označovaný jako neviditelný, skrytý, hlubinný; v anglickém jazyce Deep Web, Invisible Web, Hidden Web) je část internetu, kterou nedokáţí vyhledávací stroje indexovat a tudíţ takový obsah nelze vyhledat pomocí běţných vyhledávačů. Přesto však Deep Web spadá do kategorie otevřených zdrojů. Poprvé se pojmenování pro tento typ obsahu objevilo v roce 1994, kdy Jill Ellsworth pouţil termín „Invisible Web“. Toto někdy stále pouţívané označení "neviditelný web" není zcela přesné, neboť problém nespočívá ve viditelnosti daného obsahu, ale v technikách, jakými dokáţou běţné vyhledávače obsah internetu procházet a indexovat. Tomu také odpovídá odhad, ţe aţ 95 % obsahu hlubokého webu je veřejně dostupných [12]. Odhaduje se, ţe objem hlubokého webu je mnohanásobně větší neţ v případě tzv. povrchového webu (Surface Web). Nejčastěji je přejímán údaj o 400-550krát větším objemu hlubokého webu, tak jak jej jiţ v roce 2001 uvedla společnost Brightplanet.com v pravděpodobně první rozsáhlé studii na téma hlubokého webu. Dnešní rozsah hlubokého webu je pravděpodobně ještě mnohonásobně vyšší, ale konkrétní rozsah není současnými metodami přesně měřitelný. 17
Důvody, proč nemohou vyhledávací stroje některé stránky indexovat: [13] na stránku nevedou ţádné odkazy a zároveň sama ţádné neobsahuje, dynamicky generovaný obsah stránek, databáze, obsah souborů některých formátů (např. doc, pdf, postscript, komprimované soubory apod.), stránky s autorizovaným přístupem (chráněné heslem), stránky nepovolující indexaci, omezení počtu indexovaných stránek v rámci jedné domény, kontextuální web – stránky s obsahem lišícím se dle způsobu přístupu (např. dle IP adresy nebo dle předchozího pohybu na stránce), skriptový obsah – stránky přístupné pouze přes odkazy vytvořené Java skriptem nebo obsah přístupný přes Flash nebo Ajax, alternativní webové sluţby jako Tor Hidden Service či Freenet apod.
2.7 Uniklé zdroje a databáze Obtíţně zařaditelným typem otevřených zdrojů jsou původně neveřejná či utajovaná data, informace, dokumenty, databáze nebo soubory, u nichţ došlo k úniku a následnému zveřejnění na internetu. Přesto, ţe se jedná o údaje získané mnohdy nelegálním způsobem, jsou následně tyto údaje zveřejňovány a přístup k nim je velmi snadný. Kromě velmi známých příkladů serverů Cryptome.org či Wikileaks existuje stále více spíše drobnějších zdrojů zabývajících se podobnou aktivitou. Můţe jít o jednotlivce i o organizované skupiny (Anonymous, Team Ghost Shell apod.). V mnoha případech se jedná o hacktivistickou aktivitu.
2.7.1 Dokumenty Typickým příkladem je známý server Wikileaks, který byl zaměřen na zveřejňování utajovaných dokumentů. V českých podmínkách vznikl podobný projekt pod názvem Pirateleaks. Dalším příkladem zveřejňování uniklých dokumentů je projekt Par-anoia.net. Na webových stránkách www.par-anoia.net jsou k dispozici odkazy na uniklé dokumenty zahrnující například 14 GB dat Bank of America, 1,5 GB dat ministerstva komunikací a IT Ázerbajdţánu nebo 2,7 GB dat německé obchodní komory.
18
2.7.2 SQL databáze Další podobné případy jsou úniky a zveřejnění kompletních SQL databází diskuzních fór. V srpnu 2008 se tímto způsobem na internetu objevila databáze diskuzního fóra www.bloodandhonour.com, sdruţujícího především příznivce extrémní pravice, mezi nimiţ bylo i mnoho uţivatelů z ČR. Případů podobných úniků bylo více, například v roce 2009 únik německého hackerského fóra www.1337-crew.to nebo v roce 2010 únik databází
německých
hackerských
diskuzních
fór
www.dream-crew.com
a
www.carders.cc7. Uniklé databáze umoţnily přístup k veškerému obsahu diskuzních fór, tedy včetně všech uţivatelských jmen, otisků hesel, e-mailových adres, IP adres přístupů nebo soukromé pošty jednotlivých uţivatelů.
2.7.3 E-maily Příkladem úniku e-mailů je zveřejnění více neţ 70 000 e-mailů zaměstnanců firmy HBGary v únoru 2011. Tyto e-maily jsou k dispozici ke staţení nebo je lze procházet a vyhledávat v nich přímo online.
2.7.4 Databáze Jako příklad z českého prostředí lze uvést únik a zveřejnění databáze členů ODS z února [14], resp. dubna 2012 [15]: „V databázi se nachází 65 295 záznamů a 27 727 je označeno jako „člen ODS“. Podle obsahu databáze jsou ostatní záznamy (neoznačené jako „člen ODS“) buďto zájemci o zasílání informací o ODS nebo bývalými členy ODS. Databáze ods_intranet obsahující tabulku s dalšími údaji o členech ODS – pohlaví, rodné číslo, datum narození, jméno a příjmení, tituly, oblast, profese, vzdělání, sektor, povolání, telefon, dva e-maily, členství v KSČ, údaje o členství a řadu dalších údajů (včetně přihlašovacího jména a hesla v MD5 podobě).“ [15]
2.7.5 Osobní údaje Dalším zajímavým únikem soukromých osobních údajů je případ z roku 2006, kdy došlo ke zveřejnění přibliţně 36 miliónů dotazů, které za období tří měsíců hledalo přes 650 tisíc vybraných uţivatelů na portálu AOL. Tyto údaje byly anonymizovány, resp. IP adresy uţivatelů byly nahrazeny čísly. Přesto lze v mnoha případech dohledat konkrétní identitu uţivatele na základě obsahu vyhledávaných dotazů. 19
2.7.6 Příklad zneužití V některých případech vede zveřejnění podobných údajů k jejich následnému zneuţití. Příkladem je útok na stránky České televize ze dne 17. 3. 2012, ke kterému se přihlásil uţivatel s přezdívkou „p1r@t3z'sec“ [16]. Dne 10. 3. 2012 byly na serveru pastebin.com zveřejněny přístupové údaje celkem 189 uţivatelských účtů ČT. Databáze obsahovala uţivatelské ID, uţivatelské jméno a heslo (heslo nebylo zveřejněno v otevřené podobě, ale jako MD5 hash). Ke dni útoku na ČT (17. 3. 2012) bylo u této databáze umístěné na pastebin.com uvedeno pouze 60 zobrazení. Je velmi pravděpodobné, ţe v případě napadení ČT se nejednalo o sofistikovaný útok, ale právě o vyuţití údajů z výše zmíněné databáze. Podobných útoků se objevuje velké mnoţství. Existují také projekty agregující tyto databáze – jedním z příkladů byla databáze OZ Data Centa na www.ozdc.net obsahující přes 4200 uniklých databází nebo odkazů na ně. Tento projekt byl dne 21. 2. 2013 ukončen.
20
3 Existující projekty v oblasti OSINT 3.1 Společné výzkumné centrum Evropské Komise (JRC) Společné výzkumné centrum Evropské Komise neboli Joint Research Centre (JRC) sestává ze sedmi výzkumných institucí rozmístěných v pěti členských státech (Belgii, Německu, Itálii, Nizozemí a Španělsku). „Posláním JRC je poskytovat cílenou vědeckou a technickou podporu pro koncepci, rozvoj, implementaci a sledování politik Evropské unie. Tento útvar nacházející se v těsné blízkosti rozhodovacích procesů slouží společným zájmům členských států nezávisle na komerčních a národních zájmech.“ [17] Seznam výzkumných institucí při JRC: The Institute for Reference Materials and Measurements (IRMM), The Institute for Transuranium Elements (ITU), The Institute for Energy and Transport (IET), The Institute for the Protection and Security of the Citizen (IPSC), The Institute for Environment and Sustainability (IES), The Institute for Health and Consumer Protection (IHCP), The Institute for Prospective Technological Studies (IPTS). Vyuţitím OSINT v praxi se v rámci JRC zabývá výzkumná skupina OPTIMA (Open Source Text Information Mining and Analysis) spadající pod GlobeSec (Global Security and Crisis Management Unit) při IPSC (Institute for the Protection and Security of the Citizen). Nejvýznamnějším projektem OPTIMA je EMM (European Media Monitor), skládající se ze 4 částí: NewsBrief, NewsExplorer, MediSys, Labs.
21
3.1.1 EMM Media Monitoring and Open Source Intelligence Tools EMM poskytuje sadu nástrojů pro automatizovaný monitoring a analýzu online médií (včetně sociálních médií), které jsou určeny pro informační specialisty z jednotlivých členských zemí EU. [18] Monitorováno je přes 10000 RSS zdrojů a webových stránek, dále 3750 klíčových zpravodajských serverů z celého světa a 20 dalších komerčních zpravodajských databází. Denně je zpracováno přes 150 000 zpráv v 60 různých jazycích. Při zpracování jsou příspěvky nejprve extrahovány, dojde k detekci jazyka, rozpoznání entit, zjištění geografických údajů, nalezení duplikátů a následně k tvorbě výstupů, varování a reportů.
Obrázek 2 - schéma automatizované extrakce zpráv v rámci EMM zdroj: http://videolectures.net/wapa2010_goot_emm
3.1.2 Newsbrief Webové stránky: www.emm.newsbrief.eu/NewsBrief/clusteredition/cs/latest.html NewsBrief je veřejně dostupná webová aplikace zobrazující nejvýznamnější, resp. nejvíce diskutované události získané z lokálních zpravodajských serverů v celkem 60 různých jazycích. K aktualizaci dochází kaţdých deset minut. Zprávy jsou kategorizovány dle témat a lokality.
22
3.1.3 Newswxplorer Webové stránky: www.emm.newsexplorer.eu/NewsExplorer/home/en/latest.html Na konci kaţdého dne jsou získané zprávy získané pomocí EMM seskupeny do různých kategorií (pokud informují o stejné události nebo jsou tematicky příbuzné). Dále jsou z textu extrahovány osoby, organizace a lokality, které jsou nejčastěji v získaných zprávách zmíněny. Nástroj umoţňuje nalézt informace o osobách nezávisle na pouţitém tvaru jména a detekuje citací od osob a o osobách. Součástí je mapa, zobrazující události dle lokality, a kalendář pro zobrazení článků z minulosti.
3.1.4 Medisys Webové stránky: www.medisys.newsbrief.eu/medisys/homeedition/cs/home.html MediSys byl vyvinut ve spolupráci JRC s EC Directorate General SANCO. Jedná se o webovou sluţbu agregující články týkající se zdravotnictví. Na základě automatického sběru dat a jejich analýzy jsou generována varování a reporty. Pro analýzu dat jsou pouţity všechny zdroje projektu EMM a navíc dalších 400 specializovaných zdrojů týkajících se oblasti veřejného zdraví a zdravotnictví. Nástroj umoţňuje pokročilé filtrování, analýzu a vizualizaci informací. Pro detekování relevantních zpráv jsou pouţity tisíce vyhledávacích dotazů ve všech dostupných jazycích. Upozornění jsou generována kaţdých 20 minut a společně s pravidelnými reporty jsou poskytovány mnoha veřejným zdravotnickým organizacím.
3.1.5 Labs Webové stránky: www.emm-labs.jrc.it/ EMM-Labs je webová sluţba poskytující přístup k pokročilým analytickým systémům vycházejících z dat získaných v rámci projektu EMM. V rámci Labs jsou automaticky generovány statistiky o zprávách extrahovaných v rámci EMM (konkrétně o tématech a zemích, kterých se zprávy týkají). Součástí je vizualizace těchto informací prostřednictvím map, grafů a tabulek. Labs umoţňuje monitorování automaticky extrahovaných násilných událostí a katastrof a zobrazení těchto událostí prostřednictvím mapy (v prohlíţeči nebo v Google Earth). Nástroj dále umoţňuje vizualizaci automaticky generovaných sociálních sítí vzniklých v průběhu extrakce dat v rámci EMM. 23
3.2 FRONTEX Webové stránky: http://www.frontex.europa.eu/ Agentura FRONTEX neboli celým názvem European Agency for the Management of Operational Cooperation at the External Borders of the Member States of the European Union (v češtině Evropská agentura pro řízení operativní spolupráce na vnějších hranicích členských států EU) vznikla v roce 2004. Jak vyplývá ze Zprávy o hodnocení a budoucím rozvoji Evropské agentury pro ochranu vnějších hranic (FRONTEX): „Cílem agentury FRONTEX je zlepšit integrované řízení vnějších hranic členských států Evropské unie zjednodušením a účinnějším uplatňováním stávajících i budoucích opatření Společenství týkajících se řízení vnějších hranic, tj. pozemních i námořních hranic členských států a jejich letišť a námořních přístavů, na které se vztahují právní předpisy Společenství o překračování vnějších hranic osobami.“ [19] V rámci svého působení vyuţívá FRONTEX metody OSINT. Především se jedná o vícejazyčný systém pro extrahování událostí, který byl vybudován jako nadstavba nad EMM (European Media Monitor) spojením se systémy NEXUS (který je vyvíjen v JRC) a PULS (vyvíjen na Helsinské univerzitě). Systém umoţňuje automatickou extrakci a analýzu článků z online tisku (vyuţívány jsou pouze otevřené zdroje s cílem získat informace o určitých typech událostí (nelegální migrace, pašování, katastrofy způsobené člověkem, přírodní katastrofy, násilí, ozbrojené konflikty, zdravotní rizika, únosy). Systém umoţňuje automaticky extrahovat typ události, čas, lokalitu, počet zadrţených osob, jména, případně popis zadrţení. V současné době systém funguje v plném rozsahu v angličtině, španělštině a italštině a v omezeném rozsahu ve francouzštině, portugalštině, arabštině a ruštině. Výstup je zobrazen v aplikaci Google Earth za pomoci sady ikon označujících konkrétní typ události s moţností zobrazení podrobných informací o dané události.
24
3.3 Counterterrorism Research Lab Webové stránky: webové stránky nejsou k dispozici (provoz CTR byl ukončen) V roce 2009 vzniklo na The Maersk Mc-Kinney Moller Institute při University of Southern Denmark oddělení The Counterterrorism Research Lab (CTR). Cílem CTR byl výzkum pokročilých matematických modelů, nových algoritmů a technik a vývoji softwarových nástrojů pro získávání informací z otevřených zdrojů. Dalším cílem byla analýza, vizualizace, dolování, předpovídání a simulování teroristických sítí s cílem předejít teroristickým úkolům. Vzniku CTR předcházel jiţ od roku 2003 vývoj nástroje iMiner, který byl určen pro investigativní dolování dat. Nástroj iMiner umoţňoval prostřednictvím matematických modelů určit klíčové osoby v rámci teroristické sítě. Dle jednoho z autorů tohoto nástroje provily o iMiner zájem zpravodajské sluţby Dánska i dalších zemí. [20] Vývoj tohoto nástroje byl ukončen v roce 2009, kdy na něj navázal vývoj sady nástrojů pod názvem CrimeFighter Toolbox. Od roku 2009 byl vyvíjen nástroj CrimeFighter Toolbox. Tento nástroj se skládá ze znalostní databáze a sady nástrojů, které podporují různé aktivity v rámci kriminálního vyšetřování: nástroje pro získávání dat prostřednictvím web harvestingu, nástroje pro podporu informační analýzy, nástroje pro vyhledávání v rámci znalostní databáze a dále algoritmy pro data mining, matematické modelování, analýzu sociálních sítí, teorii grafů, analýzu vztahů a znalostní management. Dle autorů nástroje se v době vzniku jednalo o nejkomplexnější nástroj (resp. sadu nástrojů a technik) pro protiteroristické pouţití. [21] CTR pořádala či spolupořádala několik konferencí na téma OSINT, CT-OSINT Workshop 2009 International Workshop on Counterterrorism and OSINT, OSINT-WM 2010 - 2012 International Symposium on Open Source Intelligence & Web Mining, ASONAM 2010 - 2011 International Conference on Advances in Social Networks Analysis and Mining, EISIC 2011 - 2012 European Intelligence and Security Informatics Conference. CTR v současné době jiţ neexistuje, ale většina jejích aktivit přešla pod Laboratoř informačního a znalostního managementu (Information and Knowledge Management Lab – IKM) spadající taktéţ pod the Maersk Mc-Kinney Moller Institute, University of Southern Denmark.
25
3.4 EUROSINT Webové stránky EUROSINT: https://www.eurosint.eu/ The EUROSINT Forum je belgická nezisková asociace věnující se evropské spolupráci a pouţití OSINT pro sníţení rizik a hrozeb pro mír a bezpečnost. EUROSINT Forum vzniklo v roce 2006 s podporou Justice, Liberty and Security Directorate (JLS) při Evropské komisi. Cílem EUROSINT Forum je identifikovat potřeby v rámci procesu, metodologie a nástrojích OSINT a vytvořit platformu pro komunikaci a sdílení myšlenek mezi informačními specialisty, vývojáři a uţivateli. Mezi členy EUROSINT patří významné evropské instituce a organizace zabývající se OSINT v praxi – například FRONTEX nebo JRC.
3.5 IHS a Jane’s Information Group Webové stránky IHS: Webové stránky Jane’s:
http://www.ihs.com/ http://www.janes.com/
Společnost IHS (Information Handling Services, Inc.) je úspěšným příkladem vyuţití OSINT v soukromé sféře. IHS zaměstnává přes 6500 osob v celkem 31 zemích celého světa a patří mezi nejvýznamnější společnosti věnující se zpracování informací. Společnost IHS poskytuje informace, analýzy a predikce týkající se širokého spektra průmyslových odvětví. V roce 2007 zakoupila IHS britskou společnost Jane’s information group, která se rovněţ věnuje tvorbě OSINT analýz v oblasti vojenství, obrany, bezpečnosti, dopravy a další témata zaměřena na potřeby orgánů vynucujících právo. Konzultační odnoţ s názvem Jane's Strategic Advisory Services pořádá vícedenní komplexní školení v oblasti OSINT.
26
4 Metody OSINT Tato kapitola popisuje metody pouţívané v rámci vyhledávání a zpracování otevřených informací na internetu. Cílem této kapitoly není podrobný podpis metod vyhledávání informací z různých informačních zdrojů, neboť této problematice byla věnována část bakalářské práce, na kterou tato diplomová práce navazuje.
4.1 Zpravodajský cyklus Jedná se o tradiční ustálený teoretický koncept obecné zpravodajské činnosti. Přeneseně se tento koncept pouţívá také v dalších oblastech a to zejména v oblasti OSINT nebo Competitive Intelligence. Zpravodajský cyklus označuje na sebe navazující fáze při získávání a zpracování informací a tvorbě výstupů. Jde o transformaci původního velkého mnoţství nestrukturovaných dat do srozumitelné podoby. V novější literatuře se tento cyklus označuje téţ jako zpravodajský proces nebo produkční proces. Zpravodajský cyklus vychází z konceptu rozhodovacího cyklu (Decision making cycle), který je znám pod označením OODA a skládá se z fází Observe, Orient, Decide a Act (pozoruj, orientuj se, rozhodni, čiň). Na rozdíl od OODA cyklu jsou ve zpravodajském cyklu důsledně rozlišováni producenti a konzumenti produktu. [22] Zpravodajský cyklus zahrnuje několik na sebe navazujících fází, jejichţ počet není pevně stanoven, ale nejčastěji se pohybuje od čtyř do osmi fází. Příkladem je zpravodajský cyklus sestávající z pěti částí, tak jak je definován dle CIA [23]. Se zpravodajským cyklem v tomto rozsahu se lze v literatuře setkat také pod názvem OSINT Cycle: plánování a řízení (Planning and Direction), sběr (Collection), zpracování (Processing), analýza a produkce (Analysis and Production), šíření (Dissemination).
27
Obrázek 3 - zpravodajský cyklus pro oblast OSINT zdroj: http://langtech.jrc.ec.europa.eu/mmdss2007/htdocs/Presentations/Docs/MMDSS_Best.pdf
28
4.2 Zpracování a analýza informací Ve fázích zpracování a analýzy informací je stěţejním úkolem zorientovat se ve velkém mnoţství nalezených informací a vyhodnotit jejich relevanci. Otevřené zdroje ze své podstaty nezajišťují vţdy objektivní nebo pravdivé informace, coţ činí jejich zpracování mnohdy velmi náročné. Riziko tedy spočívá ve vyuţití neověřených informací, či informací z méně důvěryhodných zdrojů. OSINT proces se tedy skládá z několika kroků, které umoţňují interpretaci získaných informací a vyhodnocení jejich spolehlivosti. Níţe je popsán obecný postup OSINT procesu v kontextu zpravodajského, resp. OSINT cyklu: plánování a řízení (Planning and Direction) o orientace v zadání a definování konkrétního cíle, o identifikace moţných zdrojů a postupů, sběr (Collection) o vyhledávání, o sběr, o odpovídající ukládání dat, zpracování (Processing) o extrahování dat, o čištění dat, analýza a produkce (Analysis and Production) o čtení a pochopení nalezených zdrojů, o evaluace zdrojů, o syntéza nalezených informací, o začlenění informací do širšího geoprostorového a časového kontextu, o strukturování informací, o pečlivá tvorba analytického shrnutí / anotace, šíření (Dissemination) o tvorba odpovídajícího výstupu ve formě srozumitelné (obsahově i formálně) cílovému čtenáři.
29
4.3 Vyhodnocení kredibility informací Správné vyhodnocení kredibility informací je v oblasti OSINT velmi důleţitý a zároveň obtíţný úkol. Vzhledem k povaze získaných informací (například v případě monitorování příspěvků v rámci sociálních médií, blogosféry, diskusních fór nebo komentářů pod články apod.) se velmi často jedná o neověřené a (především z vědeckého hlediska) nerelevantní informace. Aby bylo moţné rozlišit, které z takto získaných informací mohou mít pro dané téma informační hodnotu, je nutné tyto informace podrobit procesu vyhodnocení. Kritéria vyhodnocení jsou následující: Přesnost (Accuracy), Kredibilita a váha (Credibility & Authority), Aktuálnost (Currency), Objektivita (Objectivity), Relevance (Relevancy). Výše uvedená kritéria lze vyhodnotit na základě následujících znaků:
4.3.1 Přesnost počet informačních zdrojů, na kterých se informace vyskytuje, ověření nezávislosti informačních zdrojů, ze kterých informace pochází, ověření konzistence informací nalezené na více informačních zdrojích, obecné ověření důvěryhodnosti nalezených informačních zdrojů (zda jsou ostatní informace z daného zdroje důvěryhodné).
4.3.2 Kredibilita a váha ověření, zda je moţná jednoznačná identifikace daného informačního zdroje (nejčastěji webové stránky), zjištění údajů o provozovateli webové stránky nebo autorovi konkrétní informace, ověření, zda nalezený zdroj vykazuje známky moţného ovlivnění (názorové skupiny, vlastník konkrétních médií apod.), zjištění návštěvnosti webových stránek nebo citovanosti daného zdroje, v případě webových stránek ověření, zda se v minulosti staly terčem kybernetického útoku.
4.3.3 Aktuálnost zjištění, zda je daný informační zdroj, resp. konkrétní informace aktuální, u některých zdrojů lze dohledat datum a čas (např. u článků, v diskusních fórech apod.), případně ověření, zda existuje alternativní moţnost zjištění (např. z metadat dokumentů nebo pomocí The wayback machine apod.).
30
4.3.4 Objektivita ověření, zda nalezený zdroj zastupuje názory jednotlivce či nějaké organizace, ověření, zda dané informace odpovídají myšlenkám některé známé názorové skupiny, ověření, zda se v případě webových stránek jedná o oficiální webové stránky, ověření, zda se jedná o hlavní webovou stránku, či o některou podstránku (např. „microsite“), zjištění na jaké další zdroje stránka odkazuje či zda je k dispozici seznam doporučených odkazů nebo odkazů na příbuzné organizace nebo podobná témata.
4.3.5 Relevance posouzení, zda nalezené informace odpovídají předmětu vyhledávání a zda poskytují odpovědi na stanovené otázky.
4.3.6 Škála pro vyhodnocení kredibility Pro rozlišení důvěryhodnosti (kredibility) zdroje nebo konkrétní informace lze pouţít číselnou škálu. Škála pouţitelná pro hodnocení důvěryhodnosti (kredibility) konkrétní informace [22]: 1. pravdivá informace = verifikována i z jiných nezávislých zdrojů, 2. pravděpodobně pravdivá = logicky skloubena s jinými, zapadá do kontextu, odjinud ale potvrzena není, 3. asi pravdivá = není potvrzena, ale ani vyvrácena, je logická, ale nezpůsobilá pro závěr, protoţe např. příliš obecná nebo fragmentární, nebo naopak vybočující, pochybná, ale moţná pravdivá = nyní nepravděpodobná, ale není nelogická, tj. nemůţeme přijmout ani zamítnout, nelze vyloučit, ţe získá v dalším vývoji platnost, 4. nepravděpodobná = je popřena jinými informacemi, nelogická, neodpovídá kontextu, 5. nelze posoudit = v současnosti chybí data ke srovnání.
31
5 Nástroje OSINT Cílem této kapitoly je poskytnout přehled nástrojů vhodných pro oblast OSINT včetně jejich stručného popisu a srovnání. Smyslem je tedy především uvést stručné zhodnocení potenciálního přínosu daných nástrojů pro oblast OSINT. Testované nástroje byly rozděleny do několika kategorií dle účelu jejich pouţití. Z důvodu nesourodosti nástrojů nelze provést přímé srovnání všech uvedených nástrojů. V závěru kaţdé podkapitoly je provedeno dílčí srovnání nástrojů formou tabulky nebo formou stručného slovního hodnocení, pokud nejde o přímo srovnatelné nástroje. Jednotlivé nástroje mají své konkrétní místo v rámci OSINT procesu, resp. zpravodajského cyklu. V současné době však není k dispozici komplexní komerční nástroj, který by umoţňoval pouţití pro všechny fáze OSINT procesu. Proto je velmi důleţité rozpoznat a vhodně vyuţít určitou kombinaci těchto nástrojů pro konkrétní pouţití. Cílem není podrobný popis všech funkcí uvedených nástrojů, neboť to rozsah této práce neumoţňuje. V případě většiny nástrojů je k dispozici dokumentace, která podrobněji popisuje instalaci i samotnou práci s daným nástrojem. Všechny uvedené nástroje (s výjimkou nástrojů zaloţených na Cogito semantic technology a Basis Technology) byly autorem práce testovány v praxi. Výše uvedené nástroje nebyly pro tuto práci zapůjčeny se zdůvodněním, ţe se jedná o nástroje, jejichţ pořizovací náklady daleko přesahují moţnosti akademické sféry; v obou případech byly společnostmi poskytnuty propagační materiály, ze kterých bylo při popisu a srovnávání nástrojů vycházeno. Srovnávané kategorie nástrojů: vyhledávače a metavyhledávače, archivní zobrazení webových stránek kopírování webových stránek, síťová a technická infrastruktura, metadata, údaje o uţivatelích, monitoring sociálních sítí, komplexní nástroje pro OSINT, pokročilá analýza textu, vizuální analýza dat.
32
5.1 Vyhledávače a metavyhledávače Základní vyhledávání probíhá prostřednictvím vyhledávačů (např. Google) nebo metavyhledávačů, které umoţňují vyhledávání ve více vyhledávačích zároveň (např. Copernic Agent nebo český nástroj Professional Web Orchestra). Pro přesnější výsledky je nutné pouţít vyhledávací operátory. Výhodou běţných vyhledávačů je velmi snadná práce s nimi a mnohdy jsou nejlepší volbou pro základní vyhledávání k danému tématu, společnosti či osobě. Na základě výsledků z vyhledávačů lze dále směřovat další způsoby vyhledávání a sběru informací. Obecnou nevýhodou vyhledávačů je nemoţnost vyhledávání v neindexovaném obsahu internetu. V současnosti je celosvětově nejpouţívanějším vyhledávačem Google, ale existuje velmi mnoho dalších vyhledávačů. Dalšími typickými příklady jsou Bing, Yahoo či Seznam. Mezi typické zástupce metavyhledávačů patří desktopová aplikace Copernic Agent. Pro přesnější výsledky vyhledávání je vhodné pouţívat vyhledávací operátory (booleovské operátory či zpřesňující parametry, tzv. „Google Dorks“ – více viz kapitola Google Hacking). Tato kapitola si neklade za cíl podrobný popis postupu vyhledávání pomocí vyhledávačů, neboť jde o základní metodu vyhledávání informací, jejíţ znalost je v dnešní době samozřejmostí. Protoţe se však jedná o velmi důleţitou metodu internetového vyhledávání, je zde pro úplnost tato moţnost alespoň zmíněna. Dále je vhodné vyhledávat v těchto internetových zdrojích: internetové katalogy (Web Directories), databáze, specializované nástroje pro vyhledávání informací o osobách, sociální média, blogosféra, diskuzní fóra, chat, IRC, Instant Messaging, Usenet/Newsgroups, mapy, vyhledávání souborů, Deep web.
33
5.1.1 Google Alerts Google Alerts (Upozornění Google) je sluţba monitorující obsah nově indexovaný vyhledávačem Google (Web, Zprávy, blogy, video, diskusní skupiny) dle nastavených klíčových slov. V případě, ţe se objeví nově indexovaný obsah s daným klíčovým slovem, je uţivateli automaticky zaslána notifikace. Tato sluţba je velmi vhodná pro průběţné monitorování odkazů týkajících se určitého tématu. Uţivatel zadá e-mailovou adresu, na kterou jsou příspěvky zasílány (moţné frekvence zasílání jsou průběţně, jednou denně a jednou týdně). Jedná se o jednoduchý, ale zároveň účinný nástroj pro průběţné sledování výsledků vyhledávání pro libovolná klíčová slova. Sluţba Google Alerts (Upozornění Google) umoţňuje zejména: sledovat vývoj události, drţet krok s konkurencí nebo vývojem v oboru, získávat nejnovější informace o celebritách a událostech, vést si tabulky o oblíbených sportovních týmech. [24]
5.1.2 Google hacking Google hacking označuje metodu vyhledávání prostřednictvím vyhledávače Google za pouţití pokročilých operátorů (tzv. „Google dorks“) s cílem vyhledat specifické textové řetězce. Pomocí Google hackingu lze nalézt například stránky obsahující přihlašovací rozhraní, soubory obsahující přihlašovací údaje a hesla, chybové hlášky webových aplikací obsahující citlivá data, stránky obsahující známé zranitelnosti, síťová zařízení a datová úloţiště na síti, tiskárny nebo IP kamery. V rámci projektu Google Hacking Database dostupného na www.exploit-db.com/googledorks/ jsou zveřejňovány vybrané zajímavé řetězce umoţňující pouţití Google dorks pro vyhledání odkazů například s následujícím obsahem: soubory obsahující uţivatelská jména nebo hesla, detekce webových serverů, vyhledávání známých zranitelností, vyhledávání chybových hlášek, stránky obsahující přihlašovací okna, online zařízení.
34
Zneužívání Google hackingu Vzhledem k vzrůstajícímu zneuţívání moţností, které pouţití pokročilých operátorů při vyhledávání na Goolge nabízí, byly ze strany Google některé dotazy zakázány a není moţné je nadále pouţívat. V případě pouţití takového dotazu se objeví chybová hláška informující o pouţití nepovoleného vyhledávacího řetězce (zároveň dojde k monitorování IP adresy). Jedná se především o typ dotazů, které vedou k moţnému zneuţití, tedy především odhalování některých zranitelností. Oficiální seznam nepovolených dotazů však neexistuje. Zneuţití Google hackingu by mohlo vést k protiprávnímu jednání dle následujících paragrafů Trestního zákoníku:„Jednání pachatele trestného činu podle § 257a TrZ spočívá v získání přístupu k nosiči informací a zároveň: v neoprávněném užití informací (§ 257a odst. 1a); ve zničení, poškození nebo učinění informací neupotřebitelnými (§ 257a odst. 1b); v zásahu do technického nebo programového vybavení počítače (§ 257a odst. 1c).“ [25]
35
Tabulka operátorů pro Google hacking, včetně příkladu jejich použití: [26] Operátor
Určení
site
omezuje výsledek na strany nacházející se v zadané doméně
intitle
omezuje výsledky na dokumenty obsahující zadaný výraz ve jméně omezuje výsledky na dokumenty obsahující všechny zadané řetězce v titulku omezuje výsledky na strany bsahující zadaný řetězec v URL adrese omezuje výsledky na strany obsahující všechny zadané výrazy v URL adrese
allintitle
inurl
allinurl
filetype, ext
omezuje výsledky na dokumenty zadaného typu
numrange
omezí výsledky na dokumenty obsahující ve svém obsahu číslo ze zadaného rozsahu
link
omezí výsledky na strany obsahující odkazy na zadané umístění
inanchor
omezí výsledky na strany s odkazy obsahující v popise zadaný výraz
allintext
+ „ “
omezí výsledky na dokumenty obsahující zadaný výraz v textu a současně neobsahující jej v popise, odkazech a URL adrese vynutí častý výskyt zadaného výrazu ve výsledcích vynutí nevyskytování se zadaného výrazu ve výsledcích umožňuje hledat celé fráze, nejenom výrazy
.
je zástupcem jednoho znaku
*
je zástupcem libovolného výrazu
|
logické OR
Příklad použití site:google.com fox najde všechny strany obsahující v textu výraz fox, které se nacházejí v doméně *.google.com intitle:fox fire najde všechny strany obsahující výraz fox ve jméně a fire v textu allintitle:fox fire najde všechny strany obsahující v titulku výrazy fox a fire; funguje podobně jako intitle:fox intitle:fire inurl:fox fire najde strany obsahující v textu výraz firea fox v URL adrese allinurl:fox fire najde strany obsahující v URL adrese výrazy fox a fire; funguje podobně jako inurl:fox inurl:fire filetype:pdf fire vrátí dokumenty PDF obsahující výraz fire a filetype:xls fox vrátí dokumenty tabulkového kalkulátoru Excel obsahující fox numrange:1-100 fire vrátí strany obsahující hodnotu z rozsahu od 1 do 100 a výraz fire. Stejný efekt je možno získat dotazem: 1..100 fire link:www.google.com vrátí dokumenty obsahující nejméně jeden odkaz na stranu www.google.com inanchor:fire vrátí dokumenty obsahující odkazy, které mají v popisu výraz fire (ne v URL adrese, na kterou odkazují, ale v podtržené části textu) allintext:"fire fox" vrátí dokumenty, které obsahují výraz fire fox pouze v textu +fire třídí výsledky dle počtu výskytů výrazu fire -fire vrátí dokumenty neobsahující výraz fire "fire fox" vrátí dokumenty obsahující frázi fire fox fire.fox vrátí dokumenty obsahující fráze fire fox, fireAfox, fire1fox, fire-fox apod. fire * fox vrátí dokumenty obsahující frázi fire the fox, fire in fox, fire or fox apod. "fire fox" | firefox vrátí dokumenty obsahující frázi fire fox nebo výraz firefox
Tabulka 1 - tabulka operátorů pro Google hacking, včetně příkladu jejich použití zdroj: PIOTROWSKI, M. Nebezpečný Google – vyhledávání důvěrných informací. Hakin9: jak se bránit. Warszawa: Software-Wydawnictwo Sp z o.o, 2005, č. 04. ISSN 1214-7710.
36
5.2 Archivní zobrazení webových stránek 5.2.1 Google Cache Google umoţňuje vyhledávání pouze na stránkách, které jsou předem indexovány. Google v roce 2008 uvedl, ţe jejich vyhledávač prohledal a indexoval materiál z více neţ 1 trilionu unikátních URL adres. [27] Indexace webových stránek není moţná v případě existence dynamického obsahu nebo v případě nutnosti autorizovaného přístupu ke stránce, kdy uţivatel zadává své uţivatelské jméno a heslo (například diskuzní fóra). Přesto jsou k dispozici i výsledky zobrazující obsah některých diskuzních fór (či jiných stránek vyţadujících autentizaci) a to díky moţnosti zobrazení výsledků z vyrovnávací paměti vyhledávače výběrem odkazu „Archiv“. Pro zobrazení stránek z vyrovnávací paměti vyhledávače lze také přímo v poli pro vyhledávání pouţít rozšiřující operátor „cache:“, tedy například zadáním řetězce: „cache:bivs.cz“ lze získat pohled na stránku www.bivs.cz indexovanou v minulosti. Je však vţdy zobrazen pouze poslední indexovaný pohled na stánku a nelze se posouvat v čase dále zpět k dalším předchozím indexovaným verzím stránek.
5.2.2 Wayback Machine Webové stránky: http://archive.org/web/web.php Wayback Machine je sluţba, kterou provozuje organizace Internet Archive, umoţňující vyhledávání obsahu jiţ neexistujících stránek nebo zobrazení webové stránky v určitém okamţiku v minulosti. Wayback Machine nabízí archivní pohled na webové stránky zpět v minulosti aţ do roku 1996. Jedná se o nejrozsáhlejší archiv tohoto typu.
5.2.3 WebArchiv Webové stránky: http://www.webarchiv.cz/ V ČR existuje obdobná sluţba WebArchiv, kterou od roku 2000 zajišťuje Národní knihovna ČR ve spolupráci s Moravskou zemskou knihovnou a Ústavem výpočetní techniky Masarykovy univerzity. Pro archivaci webového obsahu je pouţívána technologie vyvinutá organizací Internet Archive (jde o stejnou technologii jako v případě Wayback Machine). Nevýhodou projektu WebAarchiv je indexace pouze obsahu, s jehoţ indexací autor souhlasí. Některé další zdroje, u kterých provozovatel nedal souhlas s archivací, lze zobrazit pouze při přístupu z prostor Národní knihovny ČR. K 21. 4. 2013 bylo uzavřeno 37
celkem 3707 smluv s poskytovateli obsahu o jeho zařazení k indexaci. WebArchiv obsahoval 60,3 TB dat k 1. 6. 2012. První dokument byl archivován 3. 9. 2001. [28]
5.2.4 Srovnání Sluţby Google Cache, Wayback Machine a WebArchiv umoţňují archivní pohled na stránky, tak jak byly v minulosti indexovány. Pouţití kaţdého nástroje je však odlišné. Google Cache umoţňuje pohled na poslední indexovanou verzi webových stránek, coţ je výrazný rozdíl oproti dalším zmíněným sluţbám, které umoţňují pohled na kaţdou indexovanou verzi zpět v minulosti (indexace probíhá nepravidelně; obecně ale platí, ţe čím je stránka více navštěvována, tím častěji dochází k její indexaci). Výhodou Google Cache je moţnost získat v určitých případech pohled na stránku (nejčastěji diskuzní fórum) vyţadující k přístupu autentizaci. Wayback Machine i Webarchive pouţívají stejnou metodu sběru dat i indexace. Technologicky jde tedy o velmi podobné sluţby. Výhodou sluţby Webarchive je cílení na obsah českého internetu a zaměření především na kvalitní zdroje informací. Nevýhodou je indexace pouze obsahu, s jehoţ archivací majitel autorských práv souhlasí (v souladu se Zákonem č. 121/2000 Sb.). Wayback Machine není omezen autorskými právy a zaměřuje se na libovolný internetový obsah. Výhodou je dále indexace obsahu jiţ od roku 1996 (oproti Webarchiv, který začal s indexací aţ v roce 2001).
38
5.3 Kopírování webových stránek Kopírování webových stránek pro offline pouţití (označováno také jako website mirroring) slouţí ke zkopírování celého obsahu vybrané webové stránky. Tato metoda je vhodná pro prohlíţení a zpracování obsahu dané stránky offline (např. vyhledávání metadat v získaných dokumentech či fotografiích nebo pro vyhledávání informací ve zdrojovém kódu stránek. Nástroje pro website mirroring umoţňují filtrování pro staţení pouze určitého typu obsahu nebo výběr maximální hloubky interního či externího stahování.
5.3.1 HTTrack Web Site Copier Webové stránky: www.httrack.com HTTrack je desktopová aplikace dostupná zdarma pod licencí GPL. HTTrack umoţňuje staţení obsahu webových stránek na lokální disk, staţení určitého typu souborů z webových stránek nebo kontrolu odkazů na webových stránkách. Nástroj je k dispozici pro OS Windows a Linux. Nástroj je lokalizován do českého jazyka a jeho pouţití je velmi snadné.
Obrázek 4 - nástroj HTTrack pro kopírování obsahu webových stránek zdroj: autor
39
K dispozici jsou filtry pro staţení pouze určitého obsahu (dle formátu soborů nebo dle řetězce obsaţeném v URL). Dále lze nastavit maximální hloubka procházení interního (pouze na dané doméně) a externího odkazu (pro staţení obsahu také z externích odkazů). Maximální hloubka stanovuje, do jaké úrovně bude staţení obsahu provedeno. Pro offline prohlíţení stránek zachovává nástroj původní strukturu odkazů a prohlíţení stránek je tedy identické jako v případě prohlíţení online verze webových stránek.
5.3.2 Website Ripper Copier Webové stránky: http://www.tensons.com/products/websiterippercopier/ Website Ripper Copier je nástroj americké společnosti Tensons umoţňující kopírování webových stránek pro offline prohlíţení (s automaticky doplněnou strukturou odkazů), vytvoření přesné kopie webových stránek (nemusí být zachováno funkční offline prohlíţení), zjištění struktury odkazů webových stránek nebo vyhledání a staţení souborů z webových stránek. K dispozici je rozšiřující nastavení pro staţení pouze určitého obsahu dle nastavení filtrů. Filtry zahrnují výběr dle popisu (klíčová slova) nebo dle obsahu URL nebo dle formátu souborů. Nástroj nabízí také podporu pro stahování stránek vyţadujících autentizaci (pro tuto funkci je nutné zadání přihlašovacích údajů). K dispozici je vestavěný prohlíţeč staţených stránek. Website Ripper Copier je nabízen za cenu 39,95 USD, k dispozici je také trial verze zdarma.
Obrázek 5 - pracovní plocha nástroje Website Ripper Copier zdroj: autor
40
5.3.3 Srovnání HTTrack GNU GPL
Licence Cena
Zdarma
OS Dokumentace Offline Browser Přístup na stránky vyžadující autentizaci Filtrování dle přípony souborů Filtrování dle URL Filtrování dle části URL Vytvoření relativní struktury odkazů Možnost použití proxy Maximální hloubka hledání Maximální počet spojení Přerušení stahování
Website Ripper Copier Komerční software $39,95 (k dispozici Trial verze zdarma)
Windows Linux/Unix/BSD Ano Ne
Windows Ano Ne
Ne
Ano
Ano
Ano
Ano Ano
Ano Ano
Ano
Ano
Ano
Ano 15 od každého zdrojového odkazu 50 Ano
20 (interní) / 3 (externí) 8 Ano
Tabulka 2 - srovnání nástrojů HTTrack a Website Ripper Copier zdroj: autor
Z výše uvedené tabulky vyplývá, ţe srovnávané nástroje jsou ve většině funkcí a parametrů velmi podobné. Nástroj HTTrack je zdarma (pod licencí GNU GPL), zatímco Website Ripper Copier je placený nástroj v ceně 39,95 USD. V moţnostech filtrace stahovaného obsahu jsou oba nástroje srovnatelné. Website Ripper Copier nabízí oproti nástroji HTTrack především vestavěný prohlíţeč webových stránek a přístup na stránky vyţadující autentizaci.
41
5.4 Síťová infrastruktura Zjišťování údajů o síťové a technické infrastruktuře můţe poskytnout některé základní informace o společnosti, resp. internetové doméně. Mezi základní zjistitelné informace patří například Whois záznamy, tedy údaje o vlastníkovi internetové domény. Dalšími metodami jsou například zjišťování DNS záznamů či síťová enumerace. Tyto metody spadají do úvodní fáze penetračního testování a nazývá se Footprinting (nebyl nalezen ekvivalentní výraz v českém jazyce). Jde o techniky získávání a sběru základních informací o zkoumaném subjektu, jeho síťové infrastruktuře, počítačích a systémech, které se v určité síti nachází. Cílem této kapitoly (vzhledem k rozsahu této práce) není podrobně se věnovat teorii v oblasti sítí a síťových protokolů. Protoţe zjišťování těchto údajů je také součástí procesu OSINT, jsou zde tyto metody také uvedeny (nikoliv z hlediska teorie sítí, ale z hlediska praktického přínosu těchto informací pro oblast OSINT). V přípravné fázi penetračního testování, tedy ve fázi prvotního získávání informací, mohou být tyto metody pouţity pro vyhledávání zranitelností daných systémů. Předpokladem pro takovou činnosti je autorizace ze strany dané společnosti. V opačném případě by se v převáţné většině zemí světa jednalo o protizákonné jednání. Metody pro Footprinting: Základní vyhledávání informací pomocí vyhledávačů, Whois footprinting - vyhledávání Whois záznamů, DNS footprinting - DNS dotazování (DNS queries), Network footprinting - síťová enumerace (Network enumeration), SNMP dotazování, Identifikace operačního systému, Website footprinting, E-mail footprinting, Google Hacking.
42
5.4.1 DNS dotazování Definice: „DNS (Domain Name System) je hierarchický systém doménových jmen, který je realizován servery DNS a protokolem stejného jména, kterým si vyměňují informace. Jeho hlavním úkolem a příčinou vzniku jsou vzájemné převody doménových jmen a IP adres uzlů sítě.“ [29] DNS neboli Domain Name System (DNS protokol je popsán v RFC 8822 a RFC 8833 a aktualizován v RFC 10344 a 10355. DNS záznamy obsahují tyto informace: A (IPv4 address record), AAAA (IPv6 address record), CNAME (canonical name record), MX (mail exchange record), NS (name server record), PTR (pointer record), SOA (start of authority record), SRV (Service records), RP (Responsible person), HINFO (Host information record).
5.4.2 Whois záznamy Whois záznamy obsahují registrační údaje pro kaţdou existující doménu. Whois databáze jsou udrţovány v regionálních internetových registrech (Regional Internet Registry; zkráceně RIR) a obsahují také některé osobní a kontaktní údaje o vlastníkovi domény. Existuje několik regionálních internetových registrů: RIPE NCC, LACNIC, APNIC, ARIN, AfriNIC. Whois záznamy obsahují: jméno domény, kontaktní údaje drţitele domény, o adresa, telefonní číslo, e-mail údaje o technickém a administrativním správci domény, DNS záznamy, síťový rozsah.
2
RFC 882: RFC 883: 4 RFC 1034: 5 RFC 1035: 3
http://tools.ietf.org/html/rfc882 http://tools.ietf.org/html/rfc883 http://tools.ietf.org/html/rfc1034 http://tools.ietf.org/html/rfc1035
43
5.4.3 Sam Spade Webové stránky: www.samspade.org (v současné době jsou nefunkční) Sam Spade je nástroj, který vznikl v roce 1997 s cílem usnadnit zjišťování zdrojů spamových e-mailů. Autorem tohoto nástroje je Steve Atkins. V současné době nejsou webové stránky projektu k dispozici. Testována byla verze 1.14. Mezi hlavní funkce nástroje Sam Spade patří dotazování Ping, Traceroute, DNS dotazování, vyhledávání Whois záznamů, zjišťování rozsahu IP adres, detekce lokálního času nebo pro extrakci některých údajů ze zdrojového kódu stránek, např. e-mailové adresy, hodnoty formulářů, odkazy na obrázky, interní a externí odkazy.
Obrázek 6 - pracovní prostředí nástroje Sam Spade zdroj: autor
44
5.4.4 Knock Webové stránky: https://code.google.com/p/knock/ Knock je nástroj (resp. skript) napsaný v jazyce Python umoţňující skenování subdomén, zjišťování zónového transferu (Transfer zone) a Wildcard testování. Skenování subdomén Pro skenování subdomén je k dispozici interní slovník obsahující řádově stovky nejpouţívanějších názvů; pouţít lze také libovolný externí slovník. Zónový transfer Zónový transfer slouţí k přenesení obsahu všech DNS záznamů domény prostřednictvím TCP protokolu z jednoho DNS serveru na druhý a je pouţíván například pro přenos dat z primární na sekundární DNS server. Přenos všech záznamů je nazýván AXFR a je definován v RFC10356. V případě AXFR dochází k přenosu všech záznamů v případě jakékoliv provedené změny. Druhý moţný postup je nazýván IXFR (incremental zone transfer), který je definován v RFC 19957 a probíhá inkrementálním způsobem, kdy dochází k přenosu pouze změněných údajů. Tímto způsobem je moţné získat některé neveřejné údaje, můţe se však jednat o porušení zákonů některých zemí Wildcard označuje záznam v zónovém souboru DNS, který akceptuje veškeré dotazy na neexistující subdomény v dané doméně po nahrazení zástupného znaku (např.: *.example.com). V případě nastavení tohoto záznamu by byl kaţdý dotaz na existenci subdomény vyhodnocen jako existující. Použití nástroje Knock Pouţití je velmi snadné. Nástroj se spustí v příkazové řádce a uţivatel jej spustí textovým příkazem (na výběr je skenování domén s vyuţitím interního či externího slovníku a několik dalších rozšiřujících parametrů): knock.py [url] skenování domén s vyuţitím interního slovníku knock.py [url] [slovník] skenování domén s vyuţitím externího slovníku
6
RFC 1035: http://tools.ietf.org/html/rfc1035
7
RFC 1995: http://tools.ietf.org/html/rfc1995
45
Příklad pouţití pro doménu www.bivs.cz s externím slovníkem „slovnik.txt“, který je umístěn ve stejné sloţce jako skript: knock.py bivs.cz slovnik.txt Rozšiřující parametry: -zt zjištění Zone Transfer -wc wildcard testování -dns překlad DNS jména -bw Bypass wildcard
5.4.5
Srovnání
Sam Spade je velmi starý nástroj (první verze vznikla jiţ v roce 1997) pro základní doménový footprinting (Whois, DNS, Traceroute, apod.). Shodné funkce, které tento nástroj nabízí, lze pouţít jednoduchými dotazy přímo z příkazové řádky nebo prostřednictvím mnoha webových sluţeb nebo prostřednictvím doplňků do prohlíţeče (jedná se o všeobecně známé sluţby). Výhodou tohoto nástroje je snadná obsluha a spojení několika základních funkcí pro zjišťování technických údajů o nějaké doméně do jednoho nástroje. Knock je jednoduchý jednoúčelový nástroj (resp. skript) napsaný v jazyce Python umoţňující skenování subdomén, zjišťování zónového transferu (Transfer zone) a Wildcard testování. Jeho pouţití je velmi snadné
46
5.5 Metadata Metadata jsou údaje uloţené v HTML souborech, v dokumentech či multimediálních souborech, která obsahují informace o vytvoření, zpracování a vlastnostech daného souboru. Specifickým případem pouţití metadat je formát Exif (Exchangeable image file format) vkládaný do fotografií při jejich pořízení (digitálním fotoaparátem, mobilním telefonem či jiným zařízením umoţňujícím pořízení fotografií). Hodnota metadat pro OSINT spočívá v moţnosti odhalit v dokumentech či fotografiích skryté informace obsahující osobní údaje, zjistit datum a čas vytvoření nebo upravení souboru či v případě fotografií informace o geografické poloze při pořízení. Metadata obsahující informace o IP adrese nebo o geografické poloze jsou také dostupné v případě vloţení příspěvků na některé sociální sítě (např. Twitter). Soubory neobsahují metada vţdy a je moţné je také manuálně odstranit. Naopak některé společnosti metadata cíleně vyuţívají pro další automatizované zpracování a kategorizaci firemních dokumentů. Jedná se o metodu, která je také běţně pouţívána při forenzní analýze obsahu PC. Typické údaje obsaţené v metadatech dokumentů: datum a čas vytvoření, datum a čas upravení, konkrétní verze SW, ve kterém byl soubor vytvořen či editován, informace o geografické poloze při vytvoření nebo úpravě, informace o autorovi, informace o autorovi poslední změny, informace o revizích, e-mailové adresy, informace o tiskárně, na které byl dokument vytisknut, skrytý obsah.
47
Pro extrahování metadat z dokumentů byly testovány následující nástroje: Foca Free o nástroj pro automatizované extrahování metadat ze všech dokumentů na určité webové stránce, MetaGoofil o nástroj pro automatizované extrahování metadat ze všech dokumentů na určité webové stránce, resp. ve výsledcích vyhledávání na Google, EXIF Tool o nástroj pro zobrazení Exif dat z fotografií, Creepy o nástroj pro extrahování údajů o geografické poloze z příspěvků a fotografií vloţených na sociální sítě a stránky pro sdílení fotografií.
5.5.1 Foca Free Webové stránky: http://www.informatica64.com/foca.aspx Nástroj Foca Free vyvinula španělská společnost Informática64. Foca je ve verzi Free zdarma. Pro získání odkazu ke staţení je nutné na webové stránce projektu uvést emailovou adresu, na kterou je následně zaslán odkaz ke staţení nástroje. Existuje také verze Foca Pro, kterou lze získat po absolvování online semináře v ceně 100 EUR. Ve verzi Pro jsou k dispozici některé funkce navíc (automatické ukládání projektu, vyhledávání souborů zálohy na webových stránkách apod.). Nástroj Foca Free umoţňuje vyhledávání serverů, domén, URL a staţení všech dokumentů zveřejněných na určité doméně. Dále umoţňuje extrakci a analýzu metadat z nalezených dokumentů, directory listing či vyhledání nezabezpečených HTTP metod. Tento nástroj je pouţíván například v rámci penetračního testování. Z hlediska OSINT je nejvýznamnější funkcí moţnost extrakce metadata ze všech dokumentů na určité doméně. Z dokumentů jsou extrahována tato metadata: Uţivatelé (Users) – uţivatelé, kteří vytvořili nebo upravili daný dokument, Sloţky (Folders) – cesta ke sloţce, ve které byl na daném PC dokument uloţen, Tiskárny (Printers) – tiskárny, na kterých byly dokumenty vytištěny, Software (Software) – software, který byl pouţit k vytvoření dokumentů, E-maily (Emails) – e-maily uvedené v metadatech dokumentu, Operační systémy (Operating Systems) – Operační systémy, ve kterých byly dokumenty vytvořeny, Hesla (Passwords), Servery (Servers). 48
K dispozici jsou tyto volitelné pluginy: Web fuzzer o umoţňuje slovníkové dotazování pro snadnější vyhledávání souborů a sloţek zaloţené na fuzzing technikách, SVN Extrator o plugin pro získání struktury souborů a sloţek ve sloţce souborů formátu .svn, MySQL Injection plugin o plugin umoţňující testování SQL Injection v MySQL databázích, IIS Short Name Extractor o získání struktury souborů ve sloţce webového serveru s podporou pro IIS 8.3 krátká jména, NTFS Based Server Enumerator o rekurzivní extrakce krátkých jmen IIS. Obsahuje také fuzzer pro jména, která nemohou být získána prostřednictvím zranitelnosti a mechanismus pro znovuvytvoření sloţek a souborů pomocí slovníků.
Obrázek 7 - pracovní prostředí nástroje FOCA Free 3.2 zdroj: autor
49
5.5.2 Metagoofil Webové stránky: http://www.edge-security.com/metagoofil.php Metagoofil je nástroj, resp. skript v jazyce Python, určený pro vyhledávání a extrahování metadat z veřejně dostupných dokumentů (PDF, DOC, DOCX, XLS, XLSX, PPT, PPTX). Nástroj nejprve provede vyhledávání pomocí vyhledávače Google s cílem nalézt dokumenty (primárně je nástroj určen pro vyhledávání dokumentů patřících nějaké společnosti). Dokumenty jsou poté uloţeny na disk a jsou z nich extrahována metadata. Poté je vygenerován výstup obsahující uţivatelská jména, e-mailové adresy, verze SW, názvy serverů a dalších PC. Nástroj dokonce umoţňuje zjištění MAC adresy z MS Office dokumentů) [30]. Výstup lze exportovat do HTML. Použití nástroje: Metagoofil.py –d [doména] –t [typ souboru] –l Rozšiřující parametry: -d doména, v rámci které bude vyhledáváno -t typ souborů, které budou staţeny (pdf, doc, docx, xls, xlsx, ppt, pptx, odp, ods) -l limit výsledků vyhledávání (výchozí nastavení 200) -h práce s lokální sloţkou obsahující dokumenty („yes“ pro umoţnění lokální analýzy) -n omezení počtu souborů, které budou staţeny -o sloţka, do které budou soubory uloţeny -f název souboru s výstupem (v HTML formátu) Příkaz pro staţení dokumentů formátu DOC, DOCX a PDF ze stránek www.bivs.cz, dále nastavení limitu na 300 výsledků vyhledávání a na maximálně 100 staţených souborů. Výsledek bude uloţen v souboru bivs.html ve sloţce „bivs“: metagoofil.py -d bivs.cz -t doc,docx,pdf -l 300 -n 100 -o bivs –f bivs.html
50
5.5.3 ExifTool Webové stránky: http://www.sno.phy.queensu.ca/~phil/exiftool/install.html ExifTool je nástroj napsaný v jazyce Perl umoţňující zobrazit, zapisovat a editovat metadata širokého spektra formátů obrazových souborů. Podporuje následující formáty metadat: EXIF, GPS, IPTC, XMP, JFIF, GeoTIFF, ICC Profile, Photoshop IRB, FlashPix, AFCP a ID3). Nástroj v sobě obsahuje také databáze všech významných výrobců digitálních fotoaparátů pro přesnější detekci informací o původu pořízených souborů. ExifTool je dostupný jako skript nezávislý na platformě nebo jako spustitelná aplikace pro platformy Windows či Mac OS X. Na adrese http://regex.info/exif.cgi je dostupná také online verze tohoto nástroje.
Obrázek 8 - ukázka výstupu z online verze nástroje ExifTool obsahující informace o fotografii včetně GPS souřadnic místa pořízení zdroj: autor
Obrázek 9 - zobrazení místa pořízení fotografie na Google Maps zdroj: autor
51
5.5.4 Creepy Webové stránky: http://ilektrojohn.github.com/creepy Nástroj Creepy umoţňuje geolokaci uţivatelů majících profil na Twitter a Flickr. Před prvním pouţitím je nutné nástroj propojit s existujícím uţivatelským účtem na Twitter. Propojení proběhne potvrzením práv aplikace Creepy v uţivatelském profilu na Twitter, čímţ dojde k autorizaci a zprovoznění funkcí nástroje). Funkcionalita pro Flickr je k dispozici jiţ ve výchozím nastavení.
Obrázek 10 - pracovní prostředí nástroje Creepy zdroj: autor
Nástroj umoţňuje vyhledání uţivatelů dané sítě dle uţivatelského jména. Po výběru konkrétního uţivatele jsou extrahovány veškeré jeho příspěvky a fotografie, ze kterých jsou dále zjištěny údaje o lokalitě, ze které byly vloţeny. Výsledky jsou následně graficky zobrazeny na mapě. Někteří uţivatelé mají však ve svých profilech nastaveno omezení ukládání údajů o lokalitě vkládaných příspěvků nebo ze svých fotografií vymazávají Exif údaje. V takovém případě nelze uţivatele lokalizovat. 52
Pro vyhledávání na Twitteru je nutno zadat uţivatelské jméno, případně lze uţivatele dohledat přímo pomocí tohoto nástroje. Pro vyhledávání na Flickr je nutno zadat Flickr UserID (kód ve tvaru: „xxxxxxx@xxx“). Creepy umoţňuje vyhledávat uţivatele podle uţivatelského jména, následně doplnit výsledky vyhledávání o skutečné jméno uţivatele a přiřadit Flickr UserID. Případně lze pro dohledání Flickr UserID vyuţít některého specializovaného nástroje, například nástroj Idgettr, který je dostupný online na adrese: www.idgettr.com.
Obrázek 11 - výstup nástroje Creepy zdroj: autor
53
5.5.5 Srovnání Foca Free Typ aplikace
Metagoofil Skript Desktopová v jazyce aplikace Python
ExifTool
Creepy
Skript v jazyce Perl / desktopová aplikace
Desktopová aplikace
OS
Windows
Nezávislé na platformě
Cena Dokumentace Extrakce metadat z dokumentů Extrakce metadat z fotografií Extrakce metadat ze sociálních médií
Zdarma Ne
Zdarma Ne
Skript nezávislý na platformě / Aplikace pro Windows a Mac OS Zdarma Ano
Ano
Ano
Ano
Ne
Ne
Ne
Ano
Ano
Ne
Ne
Ano (pouze manuálně)
Ano (automatizovaně)
Windows Linux Zdarma Ne
Tabulka 3 - obecné srovnání nástrojů Foca Free, Metagoofil, ExifTool a Creepy zdroj: autor
Všechny srovnávané nástroje slouţí k extrakci metadat z internetových zdrojů, přímé srovnání funkcí zmíněných nástrojů však není moţné, neboť se liší konkrétní zaměření a pouţití jednotlivých nástrojů. Všechny zmíněné nástroje jsou zdarma, pouze v případě nástroje Foca existuje také rozšířená verze Pro v ceně 100 EUR. Hlavní funkcí nástrojů Foca a Metagoofil je automatizované nalezení dokumentů na vybraných webových stránkách, jejich následné staţení a extrakce metadat z těchto dokumentů. Výhodou nástroje Foca je přívětivé grafické uţivatelské rozhraní a moţnosti vyuţití pluginů. Pro přesnější výsledky je vhodné pouţít pro extrahování oba zmíněné nástroje a výsledky následně kombinovat. Nástroj ExifTool slouţí k manuální extrakci metadat z velkého mnoţství souborů (které zahrnuje fotografie, kancelářské dokumenty i soubory archivů). Rozdílem oproti nástrojům Foca a Metagoofil je nutnost vybrat konkrétní soubor, nejde tedy o automatizovaný proces. Výhodou nástroje ExifTool je velmi široké spektrum souborových typů se kterými umí tento nástroj pracovat.
54
Nástroj Creepy slouţí k automatizovanému extrahování metadat (v tomto případě údajů o poloze) z příspěvků a fotografií na Twitter a Flickr. Pro fungování nástroje je nutné, aby daný uţivatel u svých příspěvků funkci zveřejňování informací o poloze nezakázal (nebo aby neodstranil metadata z vloţených fotografií).
55
5.6 Údaje o uživatelích 5.6.1 Scythe: Account enumerator Webové stránky: https://github.com/ChrisJohnRiley/Scythe Nástroj Scythe umoţňuje ověření existence registrovaných účtů dle uţivatelských jmen nebo e-mailových adres (user enumeration). Nástroj je napsán v programovacím jazyce Python a obsahuje upravitelné moduly, jejichţ struktura je napsána v XML. Tento nástroj byl představen na konferenci BRUCON 2012 a jeho autorem je Chris John Riley. Zdrojový kód je volně dostupný na úloţišti Github. Přehled výchozích modulů dle kategorií: blogy, aukční a obchodní portály, vývojářské sluţby pro sdílení zdrojového kódu, diskusní fóra, online hry, sociální média, e-mailové sluţby.
Obrázek 12 - nástroj Scythe zpracovávající dotaz (v tomto případě "bivs") zdroj: autor
56
Použití nástroje Scythe Nástroj Scythe lze pouţívat jak pod platformou MS Windows, tak pod Linux, resp. jde o skript v jazyce Python nezávislý na platformě. V případě pouţití ve Windows je doporučena také instalace doplňku Colorama pro barevné zobrazení výstupu. Spuštění nástroje probíhá prostřednictvím příkazové řádky s následujícími moţnostmi: výběr seznamu uţivatelů nebo uvedení konkrétního uţivatelského jména nebo emailu, výběr jednoho čí více modulů, případně výběr všech modulů z některé kategorie výběr počtu vláken (threads), nastavení doby čekání a počtu opakování pokusu v případě chybové hlášky, nastavení výstupu do konzole nebo do souboru, moţnost spuštění debugging módu. Parametry: -a [soubor s uživatelskými jmény] -u [už. jméno] více jmen oddělit čárkou, bez mezer) -l zobrazení dostupných modulů -m [složka] vybraná sloţka s moduly -s [modul] výběr konkrétního modulu -c [kategorie] výběr pouze určité kategorie modulů -t [počet] maximální počet vláken -w [počet sekund] prodleva mezi jednotlivými pokusy -retrytime [počet sekund] počet opakovaných pokusů (mezi jednotlivými pokusy je vţdy dvojnásobně dlouhá prodleva) --summary zobrazení detailního výstupu před ukončením skriptu -o [název souboru]uloţení výstupu do souboru Příkaz pro ověření, zda jsou pod uţivatelskými jmény uloţenými v souboru „jmena.txt“ registrovány profily na sociální síti Facebook: scythe.py –s facebook.com –a jmena.txt Vzorový modul v XML s metodou GET Níţe uvedený zdrojový kód v XML umoţňuje provedení dotazu metodou GET s dotazem na server ebay.com. Dotaz vyhledává existenci uţivatelského jména obsaţeného v následujícím URL na místě
: http://www.ebay.com/usr/ V případě, ţe odpověď serveru bude odkazovat slovní spojení ve tvaru „Feedback score:“ uvedenou v <successmatch>, bude uţivatelské jméno vyhodnoceno jako existující. V případě, ţe se v odpovědi serveru objeví věta „The User ID you entered was not found.“ uvedená v , bude uţivatelské jméno vyhodnoceno jako neexistující.
57
<module> <site> ebay.com (Username) ]]> <method>GET <postParameters> Accept-Language: en-gb <requestCookie>False <requestCSRF>False <successmatch>Feedback score: The User ID you entered was not found. 10/12/2012 1 Jaime Filson aka WiK commerce Vzorový modul v XML s metodou POST: V případě modulu obsahujícím metodu POST probíhá dotazování zasláním řetězce s parametry (v tomto případě přihlašovacími údaji) na URL daného serveru (v níţe uvedeném příkladu se jedná o Wordpres.com). Dojde k otestování přihlašovacích údajů dle definovaného uţivatelského jména a náhodného řetězce znaků místo hesla. V případě existence daného účtu se v odpovědi serveru objeví věta definovaná v <successmatch>: „The password you entered for the email or username“. V případě neexistence je vrácena odpověď uvedená v : „Invalid email or username“. V případě testování více uţivatelských jmen můţe dojít k vyvolání chybové hlášky, která je popsána v <errormatch>: „You have exceeded the login limit“. V takovém případě dojde k ukončení spojení a uvedení chybného pokusu v souboru výstupu. <module>
<site> Wordpress.com <method>POST <postParameters>&pwd=&testcooki e=1&redirect_to=http%3A%2F%2Fwordpress.com%2F&submit=]]> <requestCookie>False <requestCSRF>False <successmatch>The password you entered for the email or username 58
Invalid email or username <errormatch>You have exceeded the login limit 13/09/2012 2 CJR blogs Obdobným způsobem lze poměrně jednoduchým způsobem definovat v XML další vlastní moduly. Pokud bychom například chtěli vytvořit modul s metodou GET, dotazující se na existenci profilu na české sociální síti Lide.cz
Definice vlastního modulu v XML s metodou GET Tento modul jednoduchým způsobem ověří existenci uţivatelského profilu na sociální síti Lidé.cz (www.lide.cz). Profily na lide.cz jsou vţdy ve tvaru www.lide.cz/jmeno (přičemţ „jmeno“ bude nahrazeno řetězcem ]]> Při existenci profilu a zadání správné adresy se profil zobrazí. Je tedy nutné vybrat určitý řetězec, který je viditelný u všech profilů, ale není viditelný v případě neexistujícího profilu a ten označit tagem <successmatch>. V tomto případě by řetězec vypadal například takto: <successmatch>Adresa profilu V případě neexistujícího uţivatelského jména se objeví jedna ze dvou moţných chybových hlášek: „Hledaný uživatel xxx nebyl nalezen“ nebo „Uživatel xxx nechodí na Lidé.cz“. Kontrola existence účtu by tedy proběhla porovnáním obsahu stránky s řetězcem uvedeným v tagu : nebyl nalezen nechodí
59
5.6.2 The Harvester Webové stránky: http://code.google.com/p/theharvester/ The Harvester je nástroj napsaný v jazyce Python umoţňující vyhledávání e-mailových adres nacházejících se na určité doméně. Tento nástroj dále umoţňuje vyhledání subdomén a virtuálních hostů pro určitou doménu. Vyhledávání probíhá pasivním nebo aktivním způsobem. Získávání e-mailových adres probíhá vyhledáváním nad výsledky vyhledávání z různých (Google, Bing, Bing API, PGP key server, Linkedin, Google Profiles, People123, Jigsaw). Výstup je moţné zobrazit v konzoli nebo uloţit ve formátu XML či HTML. Nástroj The Harvester je součástí linuxové distribuce BackTrack. Příklad použití -d -b -s -v -f -n -c -e -l -h
doména, v rámci které proběhne vyhledávání nebo název společnosti zdroje vyhledávání (google, bing, bingapi, pgp, linkedin, google-profiles, people123, jigsaw, all) vyhledávání aţ od určitého nalezeného výsledku (výchozí nastavení je 0) vyhledávání virtuálních hostů uloţení výsledků do HTML nebo XML souboru reverzní DNS dotaz na všechny nalezené rozsahy DNS dotazování na doménová jména hrubou silou uţití konkrétního DNS serveru omezení počtu výsledků, se kterými bude pracováno pouţití databáze Shodan pro dotazování na nalezené výsledky
Příklad pro sběr e-mailů na doméně www.bivs.cz v prvních 200 výsledcích vyhledávání ve všech zdrojích, které jsou k dispozici: theharvester.py –d bivs.cz –l 500 –b all
Obrázek 13 – shrnutí výstupu nástroje The Harvester 2.2 pro e-maily na doméně www.bivs.cz zdroj: autor
60
5.6.3 Web Data Extractor Webové stránky: http://webextractor.com Web Data Extractor je desktopový nástroj určený k nalezení, resp. extrahování kontaktních údajů z vybraných webových stránek. Vyhledávání funguje prostřednictvím vyhledávačů. Jiţ ve výchozím nastavení je k dispozici velké mnoţství vyhledávačů rozdělených do kategorií dle jednotlivých zemí. Uţivatel můţe jednoduše přidat další vyhledávače a rozšířit tím funkcionalitu nástroje. Lze také upravit některá pravidla pro rozpoznávání a extrahování obsahu (např. slova pouţívaná ve spojitosti s telefonním nebo faxovým číslem apod.). Nástroj Web Data Extractor obsahuje několik modulů, které umoţňují vyhledávání následujících informací: modul URL (pro získávání URL adresa), modul Meta Tag (získávání meta tagů ze zdrojového kódu webové stránky), modul Body (vyhledávání v textu v těle zdrojového kódu webové stránky), modul Email (vyhledávání e-mailů), modul Phone/Fax (vyhledávání telefonních a faxových čísel). Nástroj Web Data Extractor existuje ve verzích 8.3 a Pro. Verze Pro nabízí navíc především zpracování neomezeného objemu dat a vylepšené rozpoznávání telefonních a faxových čísel. Cena nástroje Web Data Extractor 8.3 se liší dle zvolených modulů nástroje (URL, Meta Tag, Body Extractor, Email, Phone / Fax). Varianty obsahující pouze modul pro f-mail nebo moduly pro telefonní a faxová čísla stojí 89 USD; varianta obsahující modul pro extrakci Meta tagů a textu z těla webových stránek stojí 99 USD; varianta obsahující všechny moduly stojí 149 USD. Nástroj Web Data Extractor Pro 2.1 je k dispozici pouze v jedné variantě za cenu 199 USD.
61
5.6.4 Link Extractor http://www.spadixbd.com/elink/index.htm Nástroj Extract Link, vyvinutý společností Spadix, vyhledává a extrahuje odkazy (HTTP, FTP, e-maily, telefonní a faxová čísla) z libovolného lokálně uloţeného souboru (HTML, kancelářské dokumenty, EXE, archivy ZIP apod). Vhodné je pouţití s některým z nástrojů pro kopírování webových stránek. Link Extractor vyvinula společnost Spadix. K dispozici je trial verze zdarma, cena plné verze činí 49 USD. Jedná se o desktopovou aplikaci. Testována byla verze 4.0. Výstup je moţné uloţit do textového souboru nebo do tabulky v MS Excel. V této podobě jej následně lze naimportovat do některého databázového nástroje pro další zpracování.
Obrázek 14 - pracovní prostředí nástroje Extract Link zdroj: autor
62
5.6.5 Zjištění IP uživatele Skype Skype slouţí k provozování internetové telefonie (VoIP) a videohovorů a Instant messaging včetně přenosu souborů. Jeho autory jsou Niklas Zennström a Janus Friis, tvůrci populárního softwaru Kazaa. Země původu je Estonsko. [31] V květnu 2011 byl Skype zakoupen společností Microsoft. [32] V dubnu 2012 zveřejnil uţivatel Pavel Zhovner na úloţišti Github nástroj a postup umoţňující zjištění IP adresy posledního připojení libovolného uţivatele komunikačního nástroje Skype. V dubnu 2012 byla také spuštěna webová aplikace umoţňující zjištění IP adresy uţivatelů prostřednictvím webového rozhraní. Pro zjištění IP adresy uţivatelů však bylo nutné pouţít neoficiální verzi Skype umoţňující spuštění ladícího módu. Protoţe takový zásah do zdrojového kódu programu porušuje licenční podmínky Skype (resp. vlastníka Skype společnosti Microsoft) byla tato upravená verze na výzvu společnosti Microsoft dne 1. 5. 2012 z webového úloţiště Github odstraněna. Z důvodu výše uvedeného porušování licenčních podmínek společnosti Microsoft není v této práci uveden odkaz na stránky původního projektu. Dle vyjádření společnosti Sophos je moţnost odhalení poslední známé IP adresy libovolného uţivatele známa společnosti Skype jiţ od listopadu 2010. [33] Zjištění IP adresy bylo umoţněno při otevření karty libovolného kontaktu, kdy se v komunikaci se serverem objevila i IP adresa uţivatele v případě ţe byl daný uţivatel právě online (nebo pokud byl přihlášen v poslední době, řádově několika dnech). V případě, ţe uţivatel nebyl delší dobu online, nebylo moţné zjistit poslední IP adresu. V případě, ţe byl uţivatel přihlášen na více zařízeních současně nebo na dvou různých IP adresách v krátkém časovém rozmezí, zobrazily se poslední dvě IP adresy. Záznamy o IP adresách byly uloţeny v logovacím souboru, který byl však velice obsáhlý a proto byl zveřejněn také skript v jazyce Perl umoţňující vyhledání konkrétního řetězce obsahujícího externí i interní IP adresu uţivatele v rámci logovacího souboru. V kombinaci s dohledáním informací o dané IP adrese (např. prostřednictvím www.ripe.net) lze získat informace o ISP, lokalitě (Země, Město) a interní IP adrese posledního připojení daného uţivatele. IP adresa můţe být pevná, přidělená danému počítači na stálo ze strany poskytovatele internetových sluţeb (ISP) nebo dynamická, která se v čase mění.
63
Ze získané IP adresy lze pomocí různých nástrojů zjistit některé údaje o jejím uţivateli (resp. o jeho počítači). Z IP adresy lze dále zjistit DNS jméno, lokalitu (země, kraj, město, PSČ), časové pásmo, údaje o poskytovateli internetové sluţby (ISP) pro danou IP adresu. Dále je moţno sledovat směrování, resp. trasu vedoucí od aktuálního počítače k počítači s danou IP adresou. Vyhledávání údajů o IP adrese lze provést pomocí k tomu určených nástrojů typu Whois (např. Whois.net nebo v databázích RIPE či APNIC) nebo prostřednictvím některých speciálních aplikací. Například program Avast Internet Security umoţňuje přehledné a graficky zpracované vyhledávání informací o IP adrese, včetně trasování. Existují moţnosti, jak svou reálnou IP adresu skrýt, ať uţ z důvodu prosté ochrany soukromí nebo z důvodu zakrytí nevhodné či nelegální činnosti na internetu. Mezi nejběţnější metody patří uţití sluţby TOR (The Onion Routing), anonymní šifrované VPN (Virtual Private Network), nebo připojení prostřednictvím anonymní proxy.
5.6.6 Srovnání Obecné srovnání Typ aplikace OS
Cena
Dokumentace
Web Data
Scythe
The Harvester
Skript (Python)
Skript (Python)
Desktopová aplikace
Desktopová aplikace
Nezávislé na OS
Nezávislé na OS
Windows
Windows
Zdarma
Zdarma
$89 až $199 (dle verze) Trial verze zdarma
$49 Trial verze zdarma
Ano (základní)
Ne
Ano
Ne
Extractor
Link Extractor
Tabulka 4 - obecné srovnání nástrojů Scythe, The Harvester, Web Data Extractor a Link Extractor zdroj: autor
64
V této kategorii nástrojů nelze přímým způsobem srovnat funkcionalitu, neboť kaţdý nástroj slouţí k odlišnému účelu nebo funguje na jiném principu. Nástroj Scythe umoţňuje zjistit existenci uţivatelských účtů a profilů dle zadaného uţivatelského jména nebo e-mailu. Jiţ ve výchozím nastavení je k dispozici velké mnoţství (převáţně zahraničních) sluţeb (sociální média, blogy, diskusní fóra, e-maily apod.) v rámci kterých jsou uţivatelská jména vyhledávána. Uţivatel si můţe nadefinovat vlastní moduly a tím rozšířit funkcionalitu nástroje. Nástroj The Harvester umoţňuje získání seznamu e-mailových adres na určité doméně. Vyhledávání funguje prostřednictvím extrakce údajů z výsledků vyhledávání v různých vyhledávačích. Web Data Extractor je desktopový nástroj určený k nalezení, resp. extrahování kontaktních údajů z vybraných webových stránek. Vyhledávání funguje prostřednictvím vyhledávačů rozdělených dle států jejich původu. Uţivatel můţe nadefinovat vyhledávání prostřednictvím dalších vyhledávačů. Ve funkci pro vyhledávání e-mailů se jedná o konkurenta nástroje TheHarvester. Web Data Extractror nabízí moţnosti rozšířeného nastavení. Pro zjištění maximálního moţného počtu e-mailů je vhodné pouţít oba zmíněné nástroje, neboť kaţdý pouţívá odlišné zdroje hledání a výsledky se tak mohou lišit. Link Extractor vyhledává a extrahuje odkazy (HTTP, FTP, e-maily, telefonní a faxová čísla) z libovolného lokálně uloţeného souboru. Nástroj tedy neumoţňuje vyhledávání v online internetových zdrojích a je vhodný pro pouţití například s nástroji pro kopírování obsahu webových stránek (website mirroring).
65
5.7 Monitoring sociálních médií Sociální média (zejména Facebook, Twitter, Youtube, Google Plus) včetně takových typů médií jako jsou diskusní fóra či blogosféra patří mezi velmi významné zdroje informací, vzhledem k mnoţství údajů, příspěvků a komentářů, které na nich lidé sdílí. Sociální sítě zastávají stále významnější roli v oblasti OSINT, přesto, ţe cílené vytěţování údajů ze sociálních sítí můţe být v některých případech v rozporu s podmínkami provozovatelů těchto sluţeb. Vytěţování sociálních sítí však stojí v popředí zájmu mnoha firem, zejména z důvodu získávání údajů pro marketingové účely a z důvodu monitorování příspěvků na určité téma (např. nový produkt). V této souvislosti je také pouţívána analýza sentimentu, nicméně přes mnoho pokusů o kvalitní analyzování sentimentu není tato metoda v současnosti spolehlivá a má spíše orientační charakter. V českých podmínkách je v současné době s výraznou převahou nejčastěji pouţívanou sociální sítí Facebook. Jak je vidět na následujícím grafu Google Trends, získal Facebook převahu nad ostatními sítěmi aţ v průběhu roku 2009, kdy předběhl sítě Spoluzaci.cz, Libimseti.cz a Lide.cz. Pozici nejpouţívanější sociální sítě si od té doby s přehledem udrţel a návštěvnost zůstává od roku 2011 přibliţně na stejné úrovni. Zájem o ostatní zmíněné sociální sítě naopak od roku 2011 klesá. Zajímavostí je výrazný pokles zájmu o síť Spoluzaci.cz, coţ mimo jiné poukazuje na současný trend růstu věkového průměru uţivatelů sociálních sítí, především sítě Facebook (tito uţivatelé tedy nemají potřebu dále navštěvovat sít Spoluzaci.cz). S tím souvisí rostoucí význam sociálních sítí právě pro oblast vyhledávání informací, neboť uţívání těchto sítí jiţ není výsadou mládeţe. Do srovnání je zařazena také sluţba Youtube.com, která však není typickou sociální sítí, protoţe cíl návštěvy je zde primárně jiný. Přesto však lze i Youtube zařadit mezi určitý typ sociální sítě, vzhledem k existenci profilů a moţnosti komunikace a další interakce mezi jednotlivými uţivateli. Z grafu je patrná vysoká obliba této sluţby v ČR.
Obrázek 15 - srovnání návštěvnosti sociálních sítí prostřednictvím Google Trends zdroj: autor
66
Dle studie Centra Simona Wiesenthala vzrostlo v roce 2009 o 20 % uţívání sociálních sítí jako Facebook, Twitter a YouTube pro účely extremistických a teroristických skupin a organizací. [34] Nástroje a metody umoţňující monitorování sociálních médií lze roztřídit do několika kategorií: Integrovaná možnost vyhledávání Většina sociálních sítí umoţňuje (i kdyţ jen v omezené míře) vyhledávání uţivatelů a příspěvků. Nejedná se však o systematické vyhledávání, které by umoţnilo automatizovaný plošný sběr údajů a informací pro další zpracování. V případě hledání konkrétní informace ale můţe být tento způsob dostačující. V některých případech (např. na síti Facebook) můţe naduţívání integrovaného vyhledávání vést k dočasnému pozastavení této moţnosti. API rozhraní jednotlivých sociálních sítí API (Application Programming Interface) označuje rozhraní pro vyuţití dané sluţby v jiném prostředí a pouţívá se pro integraci s dalšími nástroji. Některé sociální sítě nabízí vlastní API, které lze vyuţít i pro vyhledávání obsahu těchto sítí. Existující API pro integraci se sociálními sítěmi: Facebook Open Graph API, Google Custom Search API, Twitter API, Google+ API. Komerční služby pro monitorování sociálních médií Jde o nástroje, které agregují příspěvky ze sociálních médií a umoţňují sledování určitého tématu, nejčastěji se zaměřením na monitorování povědomí o určité společnosti nebo produktu. Pro monitorování českých a slovenských sociálních médií jsou v ČR dostupné například tyto sluţby: Klábosení, BuzzBoot, Ataxo Social Insider.
67
Webové nástroje pro monitorování sociálních sítí v reálném čase Jedná se o nástroje umoţňující vyhledávání ve více sociálních médiích současně: Social Mention: Addictiomatic: Whos Talkin: Kurrently: Uvrx: Veooz:
(www.socialmention.com), (www.addictomatic.com), (www.whostalkin.com), (www.kurrently.com), (www.uvrx.com), (www.veooz.com).
Webové nástroje pro průběžné monitorování médií a sociálních médií Jedná se o nástroje umoţňující kromě vyhledávání v reálném čase také vyhledávání v určitém časovém úseku v minulosti. Nabízejí také větší mnoţství zdrojů (nejen sociální média, ale také příspěvky z vybraných médií a blogosféry). Tyto nástroje také umoţňují tvorbu sofistikovanějších dotazů neţ pouhé zadání klíčového slova či fráze. SiloBreaker: (www.silobreaker.com), Recorded Future: (www.recordedfuture.com). Desktopové aplikace pro monitorování sociálních médií Nástroje slouţící k monitorování sociálních médií, extrahování příspěvků a jejich kategorizaci dle klíčových slov a jejich vah. Ukládání příspěvků probíhá v rámci lokální databáze. Spicy Mango:
(www.code.google.com/p/spicymango)
68
5.7.1 Recorded Future Webové stránky: https://www.recordedfuture.com/ Nástroj Recorded Future extrahuje informace z více neţ 250000 otevřených internetových zdrojů. Pomocí nástroje je moţné vyhledávání a grafická vizualizace získaných informací. U příspěvků je aplikována analýza sentimentu. Z příspěvků jsou také extrahovány některé entity, jejichţ vzájemné vztahy lze zobrazit prostřednictvím síťového grafu. Nástroj dále umoţňuje prediktivní analýzu, na základě které jsou odhaleny trendy moţného budoucího vývoje událostí. Mezi zákazníky pouţívající tento nástroj patří dle firemního profilu na Linkedin například některé vládní organizaci či vůdčí společnosti v oblasti finančních trhů a dalších významných komerčních společností. Do vývoje nástroje investovala například společnost Google nebo CIA. [35] Pro pouţití nástroje zdarma je nutná registrace. Při registraci je zvolena primární oblast zájmu pro uţívání nástroje. K dispozici je také placená verze Professional Edition v ceně 1599 USD/rok. Verze Proffesional Edition nabízí pokročilé moţnosti analýzy událostí, entit, lokalit a časových období. Dále je umoţněno selektivní sdílení a export do PNG, PDF,PPT,HTML a CSV souborů. Za cenu 9000 USD/měsíc je k dispozici vývojářská varianta Developer Edition umoţňující neomezený přístup k datům prostřednictvím API a integraci sluţby do jiného nástroje.
Obrázek 16 - pracovní prostředí nástroje Recorded Future (časová osa) zdroj: autor
69
Pracovní plocha nástroje obsahuje 3 sekce: Gallery V sekci Gallery je zobrazena nabídka výstupů od ostatních uţivatelů na základě zvolené oblasti zájmu. My Work Vlastní pracovní prostředí pro tvorbu a procházení vlastních výstupů. Tato sekce obsahuje také moţnost sdílení výstupů s dalšími uţivateli. Analyze Sekce pro analýzu umoţňuje práci se získanými daty a tvorbu vlastních vizualizací a reportů. Report zahrnuje souhrn analytického pohledu, anotací a komentářů.
Obrázek 17 - pracovní prostředí nástroje Recorded Future (geografické zobrazení) zdroj: autor
70
5.7.2 SiloBreaker Webové stránky: http://www.silobreaker.com/ Silobreaker je společnost, která vznikla v roce 2005 a zaměřuje se na vývoj technologie a produktů pro agregování, analyzování a kontextualizaci informací. Silobreaker provádí extrakci informací z velkého mnoţství otevřených internetových zdrojů a jejich následnou sémantickou analýzu. V nalezených datech lze dále vyhledávat, filtrovat je a dále analyzovat. Agregovány jsou jak tradiční internetové zdroje, tak sociální média. Kromě internetových zdrojů lze do nástroje importovat také vlastní data. Extrahování entit je zaměřeno na osoby, společnosti, události a místa. Nástroj také umoţňuje odhalení trendů v rámci aktuálních zpráv. Dashboard uţivatele lze sdílet s ostatními uţivateli. Nástroj umoţňuje zasílání upozornění na významné události emailem, exportování výstupů do aplikací třetích stran nebo tvorbu RSS kanálů. Nástroj Silobreaker je nabízen ve verzi Premium v ceně 299 USD / měsíc. Variantu Silobreaker Premium lze vyzkoušet v trial verzi zdarma po zaregistrování uţivatelské účtu. Existuje také odlehčená varianta Silobreaker News Search, která byla spuštěna v roce 2008 a je nabízena zdarma, nicméně má pouze omezenou funkcionalitu oproti verzi Premium.
Obrázek 18 - schéma postupu zpracování informací v nástroji Silobreaker zdroj: http://news.silobreaker.com/Images/About/Technology.png
71
5.7.3 Spicy Mango Webové stránky: http://code.google.com/p/spicymango/ Nástroj Spicy Mango slouţí k monitorování sociálních médií, extrahování příspěvků a jejich kategorizaci dle klíčových slov a jejich vah. Ve výchozím nastavení je k dispozici monitorování Facebooku, Twitteru, RSS kanálů, IRC kanálů a ze schránky na Gmail. Je moţné nainstalovat a přidat další vlastní moduly a tím ještě zvýšit pouţitelnost tohoto nástroje. Nástroj vyvinul Chris Centore a představil jej na konferenci DerbyCon 2012. Aktuálně je k dispozici beta verze, kterou lze zdarma stáhnout na webových stránkách projektu. Princip fungování tohoto nástroje je poměrně jednoduchý – data jsou v nastavitelných časových intervalech a v určeném počtu vláken extrahována z vybraných informačních zdrojů a ukládána do lokální databáze. Extrahovány jsou všechny příspěvky obsahující klíčové slovo (nebo více slov) definované v konfiguračním souboru. Pro třídění příspěvků lze vyuţít systém rozdělení příspěvků do několika kategorií dle významnosti. Ze všech nalezených příspěvků jsou vybrány takové, které navíc obsahují některá z dalších zvolených klíčových slov mající nadefinovanou váhu. Hodnoty vah se sčítají a na základě celkové váhy jsou příspěvky tříděny na události s vysokou, střední a nízkou prioritou. Zobrazení příspěvků a jejich rozdělení do kategorií dle významnosti je moţné prostřednictvím webového rozhraní běţícím na lokálním serveru.
Obrázek 19 - Dashboard nástroje SpicyMango zdroj: autor
72
Obrázek 20 - panel zobrazující průběžné výstupy v nástroji Spicy Mango zdroj: autor
5.7.4 Srovnání Nástroje Recorded Future a Silobreaker mají velmi podobné zaměření i funkce. Mezi hlavní funkce obou srovnávaných nástrojů patří automatizovaný sběr velkého mnoţství otevřených internetových zdrojů (které zahrnují nejen sociální média, ale také klasické zpravodajské servery). Nad nalezenými daty probíhá analýza, která zahrnuje automatické rozpoznání entit a grafické znázornění výsledků. Nástroj Recorded Future i Silobreaker umoţňují zobrazení nalezených příspěvků a témat na časové ose, na mapě, jako síťový graf extrahovaných entit. Zásadnější rozdíl mezi oběma nástroji tedy spočívá v rozdílných informačních zdrojích, které jsou pouţity (v obou případech jde řádově o stovky tisíc zdrojů). Obě společnosti také pouţívají vlastní systém a algoritmy pro zpracování a analýzu textu. Kombinace rozdílných informačních zdrojů a odlišných algoritmů pro jejich zpracování můţe tedy vést k rozdílným výsledkům při pouţití obou nástrojů. Nástroj Spicy Mango je oproti výše uvedeným nástrojům velmi jednoduchý. Umoţnuje vyhledávání pouze v několika informačních zdrojích (Twitter, Facebook, IRC kanály, RSS kanály nebo e-mailová schránka na Gmail). Výhodou je snadná instalace a jednoduchá obsluha nástroje. Při zvolení vhodné kombinace klíčových slov a jejich vah umoţňuje také jednoduchou kategorizaci nalezených příspěvků dle jejich významnosti. Jedná se o velmi jednoduchý, ale silný nástroj pro monitorování sociálních sítí v reálném čase, například při monitorování určité aktuální události.
73
5.8 Komplexní nástroje pro OSINT 5.8.1 Paterva Maltego Webové stránky: http://www.paterva.com/web6/products/maltego.php Paterva Maltego je účinný komplexní nástroj pro oblast Open Source Intelligence a forenzní analýzy. Umoţňuje získávání informací a jejich následnou prezentaci v přehledné grafické podobě. Společnost Paterva je soukromá společnost se sídlem v Jihoafrické republice zaloţená v roce 2007. Produkt Maltego byl zprovozněn v květnu 2008. Testována byla verze Maltego Radium 3.3.3.4115 ve variantě Commercial Edition. Aplikace je zaloţena na platformě Java a je k dispozici pro operační systémy Windows, Linux a Mac OS. Nástroj je k dispozici ve variantě Community Edition s omezenou funkcionalitou zdarma nebo ve verzi Commercial Edition v ceně 650 USD/rok. Paterva Maltego umoţňuje vyuţití přednastavených transformací pro získávání dat či tvorbu vlastních, tzv. lokálních transformací (Local Transformation) nezávislých na základním serveru Maltego. Pro jejich tvorbu je doporučen programovací jazyk Python. Od verze s kódovým označením Maltego Radium je k dispozici nová funkce „Machine“ umoţňující automatické spuštění několika navazujících transformací. Maltego umoţňuje vyhledávat a analyzovat vztahy mezi těmito entitami: osoby, skupiny osob (sociální sítě), společnosti, organizace, webové stránky, síťová a internetová infrastruktura, o domény, o DNS jména, o Netblocks, o IP adresy, fráze, dokumenty a soubory. V současné verzi je do základní funkcionality začleněno i vyhledávání v rámci sociálních sítí Twitter, MySpace a Flickr a dále v příspěvcích vloţených na Pastebin. Tento nástroj se tedy hodí pro grafickou analýzu vztahu jednotlivých uţivatelů sociálních sítí a umoţňuje vytvořit mapu těchto vztahů v několika různých pohledech. V minulosti bylo moţno analyzovat i síť Facebook, ale vzhledem k podmínkám uţívání této sítě, které takové
74
jednání nepovolují, byla tato funkce odstraněna. Stále je ale tato funkce „předpřipravena“ a program obsahuje příslušné ikony v základní paletě nástrojů. Maltego je také velmi vhodným nástrojem pro grafickou analýzu síťové infrastruktury. V rámci neoficiálního rozšíření s názvem Sploitego lze tento nástroj vyuţít také jako grafickou platformu pro penetrační testování.
Obrázek 21 - pracovní plocha nástroje Paterva Maltego zdroj: autor
75
5.8.2 Netglub Webové stránky: http://www.netglub.org Netglub je freewarový nástroj umoţňující získávání informací a jejich následnou prezentaci v přehledné grafické podobě, podobně jako komerční nástroj Paterva Maltego. Právě nástrojem Paterva Maltego je Netglub výrazně inspirován a představuje vzhledem i funkcionalitou odlehčenou verzi Maltega. Netglub byl vytvořen v roce 2010 a od té doby nebyl dále vyvíjen. Testována byla verze Netglub 1.0. Nástroj Netglub je k dispozici pouze pro Linux. Instalace je poměrně náročná, vyţaduje instalaci několika knihoven a dále pak instalaci Master a Slave modulů Netglub. Funkcionalita nástroje Netglub je zaměřena především na mapování a grafické znázornění síťové infrastruktury a dále na vyhledávání osob, e-mailů a frází na internetu. Výstupem je grafické znázornění nalezených údajů. Další transformace lze vytvořit v jazyce Python či PHP a následně implementovat do nástroje Netglub. Výchozí transformace nástroje Netglub: Síťová infrastruktura DNS jména, domény, IP adresy, IP podsítě, MX záznamy, NS záznamy, URL, Osobní údaje e-mailová adresa, osoba, fráze.
76
Obrázek 22 - pracovní prostředí nástroje Netglub zdroj: autor
5.8.3 Srovnání Obecné srovnání Cena OS Instalace Možnost přizpůsobení Dokumentace Technická podpora Uživatelské rozhraní v češtině Export výsledků
Paterva Maltego $650 / 1. rok $320 / každý další rok Windows, Mac OS X, Linux Ano Ano Ano Ano Ne Ano
Netglub Zdarma Linux Ano Ano Ne Ne Ne Ano
Tabulka 5 - obecné srovnání nástrojů Paterva Maltego a Neglub zdroj: autor
Nástroj Netglub je odlehčenou kopií nástroje Paterva Maltego. Oba nástroje na první pohled nabízí velmi podobné pracovní prostředí. Oba nástroje také nabízí sadu výchozích transformací nebo moţnost pouţití vlastních transformací a propojení s existujícími API dalších sluţeb. Výhodou nástroje Neglub je distribuce zdarma, nevýhodou je pak poměrně náročná instalace (k dispozici je verze pouze pro OS Linux). Netglub nemá k dispozici dokumentaci, pouze základní informace na webových stránkách projektu. Netglub neposkytuje support a nebyla zatím vydána ţádná aktualizace. Jedná se o vhodnou volbu pro vývojáře, kdy je moţno vyuţít otevřeného zdrojového kódu pro vytvoření vlastních rozšíření tohoto nástroje.
77
Nástroj Paterva Maltego je komerční nástroj v ceně 650 USD/rok. Jedná se v současnosti o jeden z nejoblíbenějších nástrojů pro pouţití v oblasti OSINT. Maltego je dostupné pro OS Windows, Mac OS X a Linux. Instalace nástroje je velmi snadná. Nástroj nabízí ve výchozím nastavení více transformací neţ Netglub (ale oba nástroje umoţňují vytvořit vlastní transformace). Pouţití nástroje Maltego je oproti Netglub komfortnější. Nástroj Maltego je společností často aktualizován a stále jsou vyvíjeny nové funkce.
78
5.9 Pokročilá analýza textu 5.9.1 Copernic Summarizer Webové stránky: http://www.copernic.com/en/products/summarizer/ Copernic Summarizer slouţí ke shrnutí textu, tedy k jeho automatizovanému zkrácení a k detekci významných částí daného textu. Nástroj umoţňuje extrahování textů z webové stránky nebo z importovaného dokumentu. Ze získaného textu jsou pomocí technologie WebEssence automaticky odstraněny nerelevantní části (jako například text v navigačním panelu stránky, reklamní texty apod.). Nástroj pracuje s texty v anglickém, německém francouzském a španělském jazyce. Na základě četnosti jsou definována nejvýznamnější klíčová slova v daném textu, dále uţivatel vybere rozsah zkráceného textu (v rozmezí 5 % aţ 50 % původní délky textu nebo 100 aţ 1000 slov). Nástroj nenabízí moţnosti textového editoru, takţe výsledky shrnutého textu nelze dále upravovat. Výstup lze exportovat do souboru ve formátu HTML, XML, DOC nebo TXT. Součástí nástroje je také doplněk Copernic LiveSummarizer umoţňující práci s textem přímo v okně prohlíţeče Internet Explorer. Plná verze Copernic Summarizer je nabízena za cenu 29 USD. K dispozici je také trial verze zdarma.
Obrázek 23 - pracovní plocha nástroje Copernic Summarizer zdroj: autor
79
5.9.2 Tovek Tools Webové stránky: http://www.tovek.cz/ Tovek Tools je desktopová aplikace pro vyhledávání a analýzu dat vyvinutá českou společností Tovek, s.r.o. Tato aplikace je zaměřena především na zpracování velkého objemu nestrukturovaných dat z různých informačních zdrojů. Jde o specializovaný produkt pro profesionální pouţití a jde o komplexní řešení práce s informacemi a jejich analýzou. Tomu odpovídá i vysoká cena produktu a jeho implementace (konkrétní cenu společnost Tovek na svých webových stránkách veřejně neudává). V současné době je k dispozici verze 6.4. Tento nástroj byl testován v době psaní bakalářské práce, na kterou tato diplomová práce navazuje. Společností Tovek byla tehdy zapůjčena časově omezená licence produktu Tovek Tools Analyst Pack ve verzi 4.40. Jedná se o velmi silný produkt zejména pro oblast CI. Typickými uţivateli Tovek Tools z komerčního sektoru jsou finanční, auditorské a konzultační instituce a společnosti, výrobní a obchodní firmy či média. Ve státní správě a samosprávě je produkt uţíván především policií, armádou, zpravodajskými sluţbami nebo ministerstvy. Vzhledem k vysoké náročnosti práce s Tovek Tools nabízí společnost Tovek ke svým produktům rozsáhlou produktovou dokumentaci a nabízí moţnost školení. K dispozici je také technická podpora. Z výše uvedeného vyplývá zařazení pro vyuţití vyhledávání informací o osobách. Takovýto komplexní produkt je vhodný například pro vyhledávání informací, souvislostí a vztahů o veřejně známých osobnostech, při napojení Tovek Tools na některou mediální databázi (např. Anopress). Další moţností vyuţití je sofistikovaná analýza rozsáhlých databází, připojených k Tovek Tools prostřednictvím ODBC zdroje. Případně by produkt mohl být pouţit pro analýzu souboru poštovním sloţek ve formátu .pst vyexportovaném z aplikace MS Outlook. Obecně ale Tovek Tools neřeší původ informačních zdrojů, pouze umoţňuje následnou práci s předem připojenými zdroji.
80
Varianty produktu Tovek Tools Standardně se produkt Tovek Tools dodává ve dvou variantách Tovek Tools Search Pack a Tovek Tools Analyst Pack, zahrnujících následující aplikace: Tovek Tools Search Pack Index Manager, o umoţňuje připojení informačních zdrojů a jejich následnou ruční či automatickou indexaci, Tovek Agent, o aplikace k vyhledávání dokumentů dle zadaného dotazu. Tovek Tools Analyst Pack Index Manager, Tovek Agent, InfoRating, o umoţňuje kontextovou analýzu dokumentů; výsledek je zobrazen pomocí kontextové matice, diagramu vazeb nebo pomocí grafu, Fulltext Plug-in pro Analyst‘s Notebook, o napojení na informační zdroje prostřednictvím Tovek Tools a následnou práci s nimi v prostředí Analyst‘s Notebook, Query Editor, o nástroj k vytváření sloţitějších dotazů ve formě hierarchické struktury pro velmi přesnou formulaci vyhledávacího dotazu, Harvester, o umoţňuje analýzu dokumentů a výběr relevantních slov a jejich vztahů za pouţití statistických metod.
Obrázek 24 - Tovek Tools – Harvester zdroj: autor
81
5.9.3 Cogito semantic technology Webové stránky: http://www.expertsystem.net/ Cogito semantic technology je patentovaná technologie vyvinutá italskou společností Expert System S.p.A., která vznikla v roce 1989 a je jedním z předních společností v oblasti vývoje sémantické analýzy a dalších pokročilých metod pro zpracování textu. Produkty společnosti Expert System jsou uţívány v komerční i vládní sféře. Všechny produkty společnost Expert System jsou zaloţeny na zmíněné technologii Cogito semantic technology a jsou zaměřeny především na následující oblasti: analýza rozsáhlých dat přeměna nestrukturovaných dat na strukturovaná rozpoznávání entit v libovolném typu textu automatické pochopení významu slov v souladu s kontextem identifikace skrytých vztahů mezi entitami Produktové portfolio společnosti zahrnuje celkem 7 typů produktů: Cogito intelligence platform o přístup ke strategickým informacím v reálném čase Cogito search explore engine o vyhledávání, analýza a korelace informací Cogito categorizer o kategorizování velkého objemu dokumentů Cogito discover o extrakce dat a metadat z nestrukturovaného textu Cogito semantic tagger o Aplikování sémantiky v Microsoft SharePoint pro efektivnější spolupráci a sdílení informací Cogito answers o sémantická technologie aplikovaná pro péči o zákazníky Cogito studio o vývoj customizovaných sémantických aplikací
82
Obrázek 25 - transformace nestrukturovaných dat na strukturovaná pomocí technologie Cogito zdroj: http://www.expertsystem.net/images/tecnologia/cogito_scheme.jpg
83
5.9.4 Basis Technology Webové stránky: http://www.basistech.com/ Basis Technology je americká společnost, která vznikla v roce 1995 a zabývá se vývojem nástrojů pro analýzu textů a zpracování velkého objemu dat, monitorování sociálních médií nebo pro forenzní analýzu digitálních dokumentů. Mezi zákazníky patří přes 60 vládních organizací a přes 200 komerčních společností z celého světa. Nástroje společnosti Basis Technology umoţňují velmi pokročilou analýzu textu, která je zaloţena na vlastní platformě Rosette Linguistics Platform. Tato platforma slouţí k transformaci nestrukturovaný text do strukturované podoby a umoţňuje automaticky rozpoznat pouţitý jazyk a kódování, transformovat text do formátu pro další zpracování, provedení lingvistické analýzy, extrahování entit (např. osob, míst a organizací), indexování jmen v odlišných formách hláskování a v různých jazycích a překlad cizích jmen do anglického jazyka.
Obrázek 26 - schéma procesu zpracování textu pomocí Rosette Linguistics Platform zdroj: http://www.basistech.com/products/
84
5.9.5 Srovnání Nástroj Copernic Summarizer nelze srovnávat s ostatními zmíněnými nástroji, jedná se o nástroj, který se věnuje pouze velmi základní analýze textu a jde o jednoúčelově zaměřený nástroj k automatické sumarizaci textu. Ostatní zmíněné nástroje naopak představují vrchol v oblasti komerčních nástrojů pro pokročilou analýzu textu. Sadu nástrojů Tovek Tools je nutné napojit na kolekce dat, ze kterých nástroj dále provádí hledání a analýzu. Můţe se jednat například o napojení na mediální databázi Anopress nebo o databází připojenou prostřednictvím ODBC. Nástroj Tovek Tools. Nástroj však není primárně určen pro vyhledávání informací z online zdrojů, coţ je také základní rozdíl oproti dalším zmíněným nástrojům. Nástroje pouţívající technologie Cogito semantic technology a nástroje společnosti Basis Technology mají stejné zaměření. Jejich hlavním cílem je automatizovaný sběr velkého mnoţství informačních zdrojů v mnoha různých světových jazycích a následně automatizovaný proces porozumění textu, tedy přesněji rozpoznání významu jednotlivých slov s ohledem na jejich kontext. Oba nástroje také umoţňují automatickou extrakci entit a jejich grafické znázornění. U obou nástrojů je moţná integrace s dalšími informačními systémy nebo aplikacemi. Ceny obou nástrojů jsou velmi vysoké (ale neveřejné). Kvalitu obou uvedených řešení dokazuje fakt, ţe mezi klienty obou firem patří velké mnoţství subjektů z komerční i vládní sféry.
85
5.10 Vizuální analýza dat 5.10.1 Paterva CaseFile Webové stránky: http://www.paterva.com/web6/products/casefile.php Paterva CaseFile je desktopová aplikace slouţící k vizuální analýze dat a tvorbě síťových grafů. Jde o nástroj velmi podobný nástroji Paterva Maltego, ale bez moţnosti provádět transformace. Nenabízí tedy moţnost vyhledávání a získávání informací, ale je zaměřen na jejich grafické zpracování a grafickou analýzu. CaseFile slouţí také jako nástroj k odhalení vztahů a vazeb mezi různými typy získaných informací. Jiţ ve výchozím nastavení je k dispozici rozsáhlá databáze ikon, případně lze do programu importovat ikony vlastní. Nástroj je nabízen ve variantě Community Edition zdarma nebo ve verzi Commercial Edition v ceně 200 USD/rok.
Obrázek 27 - pracovní plocha nástroje Paterva CaseFile zdroj: autor
86
5.10.2 IBM i2 Analyst´s Notebook Webové stránky českého distributora: http://www.tovek.cz/produkty-i2-analyst-s-notebook IBM i2 Analyst's Notebook je desktopová aplikace vyvinutá společností i2 (která je nyní součástí IBM) zaměřená na vizuální analýzu dat a jejich následnou prezentaci. Vizuální zobrazení dat umoţňuje analyzovat vztahy mezi osobami nebo organizacemi v přehledné formě. Umoţňuje také rychle identifikovat vzory v analyzovaných datech, které by za pouţití jiných metod mohly zůstat skryty. Jde o nástroj s velmi pokročilými moţnostmi, čemuţ odpovídá také cena v řádu statisíců Kč. Typickými uţivateli tohoto produktu jsou kriminalisté, bezpečnostní a silové sloţky, armáda, ale i firemní sektor. Někdy se lze s výstupy tohoto nástroje setkat také v médiích. V ČR je dodavatelem tohoto produktu v lokalizované verzi společnost Tovek, aktuálně je k dispozici verze IBM i2 Analyst´s Notebook 8.9.5 v české lokalizaci. Společnost Tovek také nabízí plugin pro spolupráci s produktem Tovek Tools.
Obrázek 28 - pracovní plocha Analyst's Notebook zdroj: http://www-01.ibm.com/software/industry/i2software/images/740x550_i2_3.jpg
87
5.10.3 Srovnání Rozdílnost srovnávaných nástrojů, tedy Paterva CaseFile a IBM i2 Analyst's Notebook, je dána uţ samotným zaměřením cílové skupiny uţivatelů těchto nástrojů. Nástroj Paterva CaseFile (v ceně 200 USD) je velmi dobrý nástroj pro vizualizaci především menšího rozsahu dat, neumoţňuje však další moţnosti práce s daty nebo propojení s dalšími existujícími nástroji. Jde tedy především o nástroj, který slouţí k základní vizuální analýze dat. Nástroj IBM i2 Analyst's Notebook je světovým standardem v oblasti vizuální analýzy dat. O kvalitě tohoto nástroje hovoří především dlouhodobé pouţití informačními specialisty z komerční i vládní sféry v mnoha světových zemích. Jedná se o velmi sofistikovaný profesionální nástroj umoţňující kromě samotné vizualizace také vyhledávání a další práci s daty nebo propojení s dalšími nástroji (např. napojení na Tovek Tools). Profesionálnímu pouţití odpovídá také cena tohoto nástroje, která se (včetně podpory) pohybuje v řádu statisíců.
88
6 Modelová OSINT analýza vybraného subjektu Tato kapitola si klade za cíl popsat modelový postup při OSINT analýze. Z důvodu ochrany osobních údajů však nelze v plném rozsahu uvést výstupy některých uvedených postupů nebo nástrojů. Proto byla zvolena právě cesta obecného praktického postupu řešení OSINT analýzy. Uvedený postup popisuje variantu zjištění informací o společnosti, její webové prezentaci, síťové infrastruktuře, informací o společnosti v tradičních i sociálních médiích, o zaměstnancích a jejich dalších osobních údajích či profilech na sociálních sítích. Jedná se o komplexní postup, nicméně v praxi se lze setkat spíše s cíleným poţadavkem, kdy by byla provedena pouze určitá část z níţe popsaných bodů. Všechny popsané body lze provést prostřednictvím některého z nástrojů a postupů popsaných v této práci. Předpokládejme, ţe jediným výchozím údajem je název společnosti. Obchodní rejstřík Získáme výpis společnosti z obchodního rejstříku (dostupný online na www.justice.cz), čímţ získáme podrobné údaje o společnosti, včetně sídla, informace o předmětu podnikání, informace o statutárních zástupcích společnosti. Součástí obchodního rejstříku jsou také oskenované dokumenty obsahující mnohdy osobní údaje včetně rodných čísel, čísel průkazů totoţnosti nebo podpisových vzorů. Nalezení webových stránek společnosti Zadáním jména do některého vyhledávače (např. Google) či metavyhledávače (např. Copernic Agent) zjistíme, zda má daná společnost oficiální webové stránky či případně další stránky (firemní blog, microsites apod). Zkopírování obsahu webových stránek Prostřednictvím některého nástroje pro kopírování obsahu stránek (tzv. website mirroring) zkopírujeme celý obsah stránek pro další lokální vyuţití. Získáme tím mimo jiné všechny dokumenty, které se na daných stránkách nachází. V lokální verzi stránek lze také lépe vyhledávat, či analyzovat metadata. Historický pohled na webové stránky Vyuţijeme sluţby The Wayback Machine pro získání pohledů na webové stránky indexované v minulosti. Zjistíme například, zda i v minulosti patřila daná doména společnosti, která nás zajímá nebo zda se na ní nacházel nějaký jiný obsah. Z historického
89
pohledu na stránky lze dále nalézt další zajímavé informace, fotografie či dokumenty, které jiţ nejsou jiným způsobem dostupné. Údaje o vlastníkovi domény Po nalezení webové stránky společnosti můţeme zjistit údaje o vlastníkovi domény prostřednictvím Whois záznamu (např. pomocí www.ripe.net). Zjistíme historii Whois záznamů k dané doméně (např. pomocí placené sluţby na www.whois.domaintools.com). Další webové stránky na stejném serveru Překladem doménového jména na IP adresu získáme IP adresu dané webové stránky, resp. serveru, na kterém je hostována. Následně zjistíme, zda jsou na daném serveru hostovány další stránky a jestli mají se zkoumanou společností nějakou souvislost. Síťová infrastruktura Pro zmapování síťové infrastruktury pouţijeme nástroj Paterva Maltego a provedeme transformace pro získání MX (mailserver) a NS (nameserver záznamů), dále zjistíme jejich IP adresy, a z nich dále lokalitu umístění těchto serverů. Ze získaných IP spustíme transformaci pro výpočet IP adres v dané síti (Netblock) a dále zjistíme jejich AS číslo. Dále pouţijeme nástroj Shodan (www.shodanhq.com) pro nalezení existence síťových zařízení v dané síti. Extrahování metadat z firemních dokumentů Pomocí nástroje Foca Free automatizovaně stáhneme všechny dokumenty nacházející se na stránkách společnosti. Po staţení dokumentů extrahujeme metadata, jejichţ analýzou získáme seznam pouţívaného SW v dané společnosti, dále seznam uţivatelů a názvy jejich počítačů. Zjistíme také, od kterých uţivatelů pochází nejvíce dokumentů. Dále zjistíme seznam tiskáren, na kterých byly dokumenty vytištěny. E-mailové adresy na dané doméně Dalším krokem bude nalezení e-mailových adres vedení společnosti a jejích zaměstnanců. Některé z těchto adres budou uvedeny přímo na webových stránkách společnosti, často se však jedná především o oficiální kontaktní e-mailové adresy. Pro další vyhledávání emailových adres pouţijeme nástroj TheHarvester, který na základě výsledků vyhledávání na Google, či Linkedin apod. dohledá existující e-mailové adresy. Existenci e-mailových lze zjistit SMTP ověřením.
90
Výskyt e-mailových adres Získané e-mailové adresy importujeme do nástroje Paterva Maltego a spustíme transformace pro zjištění spojení e-mailových adres na webových stránkách a na sociálních sítích. Dále můţeme vytvořit kombinace nalezených jmen pro vytvoření seznamu dalších moţných e-mailů na jiných schránkách a výsledek opět pouţijeme pro zjištění existence účtů na sociálních sítích. Obdobný postup provedeme s nástrojem Scythe, který umoţňuje zjistit existenci profilů na sociálních sítích dle uţivatelských jmen. Profily společnosti na sociálních sítích Zjistíme, jestli má společnost profily na sociálních sítích (především Facebook a Linkedin). Vzhledem k tomu, ţe jsou jiţ k dispozici některá jména zaměstnanců, zaměříme se na vyhledávání jmen těchto zaměstnanců. Informace o společnosti v médiích Vytipujeme vhodná klíčová slova pro vyhledávání informací o společnosti, získáme výsledky
prostřednictvím
vyhledávačů,
metavyhledávačů
nebo
specializovaných
informačních zdrojů pro monitoring médií (např. v českých podmínkách Anopress). Nalezené výsledky vhodným způsobem třídíme a ukládáme. Vyhodnotíme, které zdroje jsou pro analýzu významné Monitoring sociálních médií Provedeme monitoring sociálních médií a sledujeme výskyt relevantních klíčových slov. Klíčové slovo můţe být nejen název společnosti, ale můţeme monitorovat také výskyt jmen vedení nebo zaměstnanců společnosti apod. Případně lze monitorovat příbuzná témata jako např. informace o odvětví, kterému se společnost věnuje či konkurentům. Sestavení profilu společnosti a informací z médií Na základě získaných firemních dokumentů a informací z médií sloţíme komplexní profil společnosti. V případě velkého mnoţství nalezených dokumentů můţe být tato fáze velmi náročná, proto je vhodné pouţití specializovaného nástroje pro analýzu textu (např. Cogito Intelligence Platform). V této fázi se dále zaměříme na sestavení profilů vedení společnosti a na vybrané významné informace o dalších zaměstnancích.
91
Geografické údaje Nalezené adresy sídla či poboček společnosti vyhledáme na mapách a zjistíme, v jakém prostředí se společnost nachází. Vhodné je pouţití satelitních snímků nebo pohledu z ptačí perspektivy a kombinace se snímky z Google Street View. Vyhodnocení kredibility informací Získané informace (především pokud jde o informace získané z méně důvěryhodných zdrojů) je nutné pečlivě ověřit a případně číselně ohodnotit jejich důvěryhodnost dle následujících kritérií: Přesnost, Kredibilita a váha, Aktuálnost, Objektivita, Relevance. Syntéza informací Vzhledem k pravděpodobně velmi vysokému objemu získaných informací je nutné provést jejich syntézu, tedy spojení do ucelených částí dle jejich významu. Začlenění informací do širšího kontextu Získané informace začleníme do širšího kontextu, především historického, politického, hospodářského. Jde o analytickou práci předpokládající hlubší znalost dané problematiky. Grafická reprezentace dat Některé informace jsou srozumitelnější, pokud jsou znázorněny v grafické podobě, proto vybereme takové informace a zpracujeme jejich vizualizaci. Vhodné je pouţívání tabulkových grafů, síťových grafů, časových os apod. Pro mapování vztahů mezi osobami a subjekty lze pouţít nástroje Paterva CaseFile nebo IBM i2 Analyst's Notebook. Tvorba závěrečného výstupu Výstup by měl být srozumitelný danému čtenáři. Pokud je pracováno s pojmy, které by nemusely být čtenáři srozumitelné, je vhodné je stručně vysvětlit. I přes původní velmi rozsáhlý objem získaných dat je cílem, aby závěrečný výstup neměl zbytečně příliš velký rozsah, neboť by v takovém případě hrozilo utopení některých významných informací. Nejdůleţitější informace jsou shrnuty v úvodní anotaci.
92
7 Závěr Hlavním cílem této práce je poskytnout čtenáři komplexní a shrnující pohled na problematiku oblasti zpravodajství z otevřených zdrojů neboli OSINT (Open Source Intelligence). Dalším cílem je uvedení přehledu vhodných nástrojů pouţitelných v rámci OSINT procesu, jejich rozdělení do kategorií a provedení stručného srovnání těchto nástrojů. Posledním cílem práce byl návrh modelového postupu pro OSINT analýzu vybraného firemního subjektu. V první (spíše teoretické) části této práce jsou popsány základní pojmy, stručně je popsán historický vývoj a rozdílné přístupy k OSINT. Dále jsou definovány otevřené zdroje. Jako součást netypických otevřených zdrojů jsou popsány uniklé zdroje a databáze (tedy původně neveřejné zdroje) a neindexovaná část internetu (tzv. Deep Web), kterou nelze efektivně prohledávat pomocí běţných vyhledávačů. Dále je uvedeno několik existujících projektů, které se oblastí OSINT na velmi vysoké úrovni zabývají v praxi. V rámci teoretické části této práce je také popsán zpravodajský cyklus (nazýván také jako OSINT cyklus), který představuje obecný postup procesu OSINT. V rámci této části je také popsán proces ověřování informací, tedy hodnocení kredibility informací, neboť v rámci OSINT se pracuje s mnohdy velmi nepřesnými či nerelevantními zdroji informací. Druhá část této práce, která je zaměřena více prakticky, obsahuje přehled existujících nástrojů pouţitelných v rámci různých fází procesu OSINT. Nástroje jsou rozděleny do deseti různých kategorií, dle účelu jejich pouţití. V rámci kaţdé kategorie nástrojů je provedeno stručné srovnání nástrojů dané kategorie. V závěru této části je proveden návrh ho postupu pro OSINT analýzu vybraného firemního subjektu. Z výše uvedeného shrnutí vyplývá, ţe všechny stanovené cíle této práce byly úspěšně naplněny.
93
8 Slovník Pojmů Pojem
Zkratka
Analýza sentimentu Application Programming Interface
API
Blogosféra Booleovská logika Cache Competitive Intelligence Deep Web
CI
Domain Name Server Doxing
DNS
Exchangeable image file format
Exif
Footprinting
Geografický informační systém Google Hacking Hacktivismus Internet Protocol address (IP adresa) Internet Service Provider Java Metadata Metavyhledávač
GIS
IP
ISP
Popis Detekce kladné, neutrální či záporné nálady z určitého textu [autor] technologie interaktivních webových aplikací, umoţňující změnu obsahu stránky bez znovunačtení [autor] souhrnné označení pro všechny internetové blogy [autor] označení pro logické operace na mnoţině hodnot {0, 1}; zahrnuje konjunkci (AND), disjunkci (OR) a negaci (NOT) [autor] Mezipaměť slouţící k dočasné práci s daty konkurenční zpravodajství označení pro hlubinný či neviditelný web – část obsahu internetu neindexovaná pomocí vyhledávačů [autor] hierarchický systém doménových jmen [autor] cílené vyhledávání osobních údajů a identifikace reálné identity internetového uţivatele; označuje také vyhledávání informací o společnosti [autor] Formát pro metadata vkládaná do fotografií při jejich pořízení (digitálním fotoaparátem, mobilním telefonem či jiným zařízením umoţňujícím pořízení fotografií) [autor] techniky získávání a sběru základních informací o zkoumaném subjektu, jeho síťové infrastruktuře, počítačích a systémech, které se v určité síti nachází [autor] informační systém zaloţený na práci s geografickými daty pokročilá metoda vyhledávání prostřednictvím vyhledávače Google za pouţití zpřesňujících parametrů, tzv. „Google Dorks“ [autor] aktivismus prostřednictvím hackingu [autor] jednoznačná identifikace síťového rozhraní v počítačové síti; má podobu čísla; v současné době nejrozšířenější verze IPv4, ale přechází se na IPv6 [autor] poskytovatel internetových sluţeb programovací jazyk s dobrou přenositelností na různé platformy [autor] údaje vloţené v souboru, označující podrobnosti o souboru, o jeho autorovi či editorovi, o zařízení, na kterém byl soubor vytvořen [autor] nástroj umoţňující vyhledávání prostřednictvím více vyhledávačů nebo více informačních zdrojů současně [autor]
94
MySQL Online identita Open Source Data
OSD
Open Source Information
OSIF/OSINF
Open Source Intelligence
OSINT
Perl Pojem Proxy
Zkratka
Python Reconnaissance Sémantická analýza Skype Social Media Intelligence
SOCMINT
Social networking site
SNS
Sociální média Sociální síť Technická identita The Onion Routing
TOR
Validated Open Source Intelligence
OSINT-V
Whois
databázový systém; komunikace probíhá pomocí dotazovacího jazyka SQL [autor] označení pro internetovou neboli online identitu uţivatele; souhrn všech údajů dostupných na internetu identifikujících danou osobu. [autor] nezpracovaná data z primárních zdrojů. Mezi OSD patří tištěné i elektronické dokumenty, rozhlas, audio a video záznamy, fotografie apod. [autor] libovolné informace z otevřených zdrojů v tištěné či digitální podobě, které lze získat legální cestou. [autor] proces vyhledání, sběru, třídění, analýzy a ověřování informací z otevřených zdrojů. Jde o jeden z typů zpravodajské činnosti, ale pouţívá se také v komerční sféře [autor] Interpretovaný programovací jazyk Význam SW či HW oddělení intranetu od internetu; prostředník mezi klientem a serverem [autor] objektově orientovaný skriptovací programovací jazyk [autor] úvodní fáze penetračního testování s cílem sběru informací o daném subjektu (zahrnuje systémy, sítě, zaměstnance či případně klienty) [autor] Analýza textu umoţňující rozpoznání významu daného textu [autor] Program pro instant messaging (IM) a videohovory [autor] podoblast OSINT zaměřenou na monitorování a vytěţování sociálních médií [autor] Webové sluţby umoţňující a podporující tvorbu sociálních sítí Souhrn všech typů médií umoţňujících interakci mezi uţivateli a tvorbu sociálních sítí [autor] Skupina osob, mezi kterými existují vzájemné vztahy souhrn technických údajů umoţňujících přímou či nepřímou identifikaci uţivatele internetu [autor] Softwarové řešení umoţňující vyšší anonymitu uţivatele na internetu a prohlíţení obsahu Tor Hidden Service [autor] OSINT výstup, jehoţ závěry jsou podpořeny informacemi z utajovaných zdrojů; pojem uţívaný v rámci OSINT procesu v NATO [autor] sluţba umoţňující zjištění informací o vlastníkovi a registrátorovi určité domény [autor]
95
9 Použitá literatura 1.
ÚZSI. Otevřené zdroje (Open Source Intelligence – OSINT). [online]. 24. 10. 2007 [cit. 2013-01-15]. Dostupné z: http://uzsi.cz/cz/otevrene-zdroje-open-sourceintelligence-osint.html
2.
DEPARTMENT OF DEFENSE. Joint Publication 1-02: Department of Defense Dictionary of Military and Associated Terms. Department of Defense, 2013 [cit. 201301-18]. Dostupné z: http://www.dtic.mil/doctrine/new_pubs/jp1_02.pdf
3.
BEST, C. Open Source Intelligence. 2008 [cit. 2013-01-18]. Dostupné z: http:// media.eurekalert.org/aaasnewsroom/2008/FIL_000000000010/071119_MMDSSchapter_CB.pdf
4.
MOLNÁR, Z. Competitive intelligence. Praha: Oeconomica, 2009. ISBN 978-8024516-035.
5.
NATO. NATO Open Source Intelligence Handbook. 2001 [cit. 2013-01-19]. Dostupné z: http://www.oss.net/dynamaster/file_archive/030201/ ca5fb66734f540fbb4f8f6ef759b258c/NATO%20OSINT%20Handbook%20v1.2%20%20Jan%202002.pdf
6.
UNITED STATES SECURITIES AND EXCHANGE COMMISSION. Form S-1 REGISTRATION STATEMENT Under The Securities Act of 1933: Facebook, Inc. 2012 [cit. 2013-01-19]. Dostupné z: http://www.sec.gov/Archives/edgar/data/ 1326801/000119312512034517/d287954ds1.htm#toc
7.
FARBER, D. Twitter hits 400 million tweets per day, mostly mobile. In: CNET [online]. 12. 06. 2012 [cit. 2013-01-19]. Dostupné z: http://news.cnet.com/83011023_3-57448388-93/twitter-hits-400-million-tweets-per-day-mostly-mobile/
8.
TERDIMAN, D. Report: Twitter hits half a billion tweets a day. In: CNET [online]. 26. 10. 2012 [cit. 2013-01-19]. Dostupné z: http://news.cnet.com/8301-1023_357541566-93/report-twitter-hits-half-a-billion-tweets-a-day/
96
9.
NATIONAL COMMISSION ON TERRORIST ATTACKS UPON THE UNITED STATES. The 9/11 Commission Report. [online]. 2004 [cit. 2013-01-25]. Dostupné z: http://govinfo.library.unt.edu/911/report/911Report.pdf
10. STEEL, R. D. Special Operations Forces Open Source Intelligence (OSINT) Handbook. In: OSS International Press [online]. 23. 06. 2004 [cit. 2013-01-25]. Dostupné z: http://www.oss.net/dynamaster/file_archive/060322/ 17c1874f675af107a11872c1a76dbf37/SOF%20OSINT%20Handbook%20(Draft).pdf 11. BIS. Jak pracujeme. [online]. [cit. 2013-01-20]. Dostupné z: http://www.bis.cz/jakpracujeme.html 12. INFOGRAM. Neviditelný web. In: Infogram [online]. [cit. 2013-02-11]. Dostupné z: http://www.infogram.cz/article.do?articleId=1765 13. WIKIPEDIA. Deep Web. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikipedia Foundation, 22. 03. 2013 [cit. 2013-03-27]. Dostupné z: http:// en.wikipedia.org/wiki/Deep_web 14. IDNES. Anonymous dali na web data všech členů ODS, ta podá trestní oznámení. [online]. 06. 02. 2012 [cit. 2013-02-10]. Dostupné z: http://zpravy.idnes.cz/ anonymous-dali-na-web-data-vsech-clenu-ods-ta-poda-trestni-oznameni-1di-/ domaci.aspx?c=A120206_091847_domaci_jj 15. DOČEKAL, D. Co zajímavé najdete v uniklé databázi ODS? In: LUPA [online]. 03. 04. 2012 [cit. 2013-02-10]. Dostupné z: http://www.lupa.cz/clanky/co-zajimavenajdete-v-unikle-databazi-ods/ 16. ČT24. Hacker napadl stránky České televize. [online]. 17. 03. 2012 [cit. 2013-03-10]. 17. EUROPEAN COMMISSION. Spolecné výzkumné centrum a FP7. In: JRC [online]. 2007 [cit. 2013-01-27]. Dostupné z: http://ec.europa.eu/dgs/jrc/downloads/ jrc_fact_sheet_fp7_cs.pdf 18. JRC IPSC. EMM Media Monitoring and Open Source Intelligence Tools [online]. 2012, verze 2012-10-18 [cit. 2013-02-02]. Dostupné z: http://ipsc.jrc.ec.europa.eu/ events.php?idx=65
97
19. KOMISE EVROPSKÝCH SPOLEČENSTVÍ. Zpráva o hodnocení a budoucím rozvoji Evropské agentury pro ochranu vnějších hranic (FRONTEX). [online]. 13. 02. 2008 [cit. 2013-03-17]. Dostupné z: http://eur-lex.europa.eu/ Notice.do?mode=dbl&lng1=cs,en&lang=&lng2=bg,cs,da,de,el,en,es,et,fi,fr,hu,it,lt,lv, mt,nl,pl,pt,ro,sk,sl,sv,&val=464860:cs 20. Anti Terrorism Researcher at the Faculty of Engineering. In: University of Southern Denmark [online]. 20. 06. 2011 [cit. 2013-01-25]. Dostupné z: http://www.sdu.dk/en/ Om_SDU/Fakulteterne/Teknik/Nyt_fra_Det_Tekniske_Fakultet/nasrullah 21. WIIL, U. , N. MEMON a J. GNIADEK. CrimeFighter: A Toolbox for Counterterrorism. In: Knowledge Discovery, Knowledge Engineering and Knowledge Management. Funchal: Springer, 2009, s. 337-50. 22. ZEMAN, P. ZPRAVODAJSKÝ CYKLUS –KLIŠÉ NEBO NOSNÝ KONCEPT? In: OBRANA A STRATEGIE / DEFENCE & STRATEGY [online]. 15. 06. 2010 [cit. 201302-06]. Dostupné z: http://www.defenceandstrategy.eu/cs/archiv/rocnik-2010/1-2010/ clanky/zpravodajsky-cyklus-klise-nebo-nosny-koncept.html 23. CIA. The Intelligence Cycle. In: CIA [online]. 15. 04. 2007, verze 2013-02-12 [cit. 2013-02-06]. Dostupné z: https://www.cia.gov/kids-page/6-12th-grade/who-we-arewhat-we-do/the-intelligence-cycle.html 24. GOOGLE. Google Alerts. Google [online]. [cit. 2013-02-06]. Dostupné z: http:// www.google.com/alerts 25. KRATOCHVÍL, P. Google hacking: cíl zaměřen. Chip: Magazín informačních technologií. Praha: Vogel Publishing, 2009, č. 06, s. 102-05 [cit. 2013-12-březen]. ISSN 1210-0684. Dostupné z: http://earchiv.chip.cz/cs/earchiv/rubriky/praxe/googlehacking-06-09.html 26. PIOTROWSKI, M. Nebezpečný Google – vyhledávání důvěrných informací. Hakin9: jak se bránit. Warszawa: Software-Wydawnictwo Sp z o.o, 2005, č. 04. ISSN 12147710.
98
27. GOOGLE. We knew the web was big…. Google Official Blog [online]. 2008 [cit. 2013-02-06]. Dostupné z: http://googleblog.blogspot.com/2008/07/we-knew-webwas-big.html 28. WEBARCHIV. WebArchiv - archiv českého webu. Webarchiv [online]. verze 21.04.2013 [cit. 2013-04-21]. Dostupné z: http://www.webarchiv.cz/ 29. WIKIPEDIA. Domain Name System. In: Wikipedia: the free encyclopedia [online]. 2001-, verze 7.3.2013 [cit. 2013-04-10]. Dostupné z: http://cs.wikipedia.org/wiki/ Domain_Name_System 30. Metagoofil v1.4 Released – Metadata and Information Gathering Tool. In: darknet.org.uk [online]. 12. 05. 2008 [cit. 2013-14-03]. Dostupné z: http:// www.darknet.org.uk/2008/05/metagoofil-v14-released-metadata-and-informationgathering-tool/ 31. Skype. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikipedia Foundation, 29. 10. 2006, naposledy upraveno 23.4.2013 [cit. 2013-04-23]. Dostupné z: http://cs.wikipedia.org/wiki/Skype 32. ZANDL, P. Microsoft kupuje firmu Skype za 8,5 mld dolarů. Pohřbí ji? In: Lupa [online]. 11. květen. 2011 [cit. 2013-březen-07]. Dostupné z: http://www.lupa.cz/ clanky/microsoft-kupuje-firmu-skype-za-8-5-mld-dolaru-pohrbi-ji/ 33. VAAS, L. Skype knew about IP address security flaw since November 2010. In: Naked Security [online]. 2012. květen. 3 [cit. 2013-březen-13]. Dostupné z: http:// nakedsecurity.sophos.com/2012/05/03/skype-security-flaw/ 34. FOXNEWS. Terrorists Targeting Children Via Facebook, Twitter. In: Foxnews [online]. 15. 10. 2010 [cit. 2013-03-20]. Dostupné z: http://www.foxnews.com/tech/ 2010/03/15/terrorists-targeting-children-via-facebook-twitter/ 35. SHACHTMAN, N. Exclusive: Google, CIA Invest in ‘Future’ of Web Monitoring. In: wired.com [online]. 28. červenec. 2010 [cit. 2013-březen-12]. Dostupné z: http:// www.wired.com/dangerroom/2010/07/exclusive-google-cia/
99
10 Seznam obrázků Obrázek 1 - znázornění jednotlivých fází Reconnaissance ................................................. 14 Obrázek 2 - schéma automatizované extrakce zpráv v rámci EMM ................................... 22 Obrázek 3 - zpravodajský cyklus pro oblast OSINT ........................................................... 28 Obrázek 4 - nástroj HTTrack pro kopírování obsahu webových stránek ............................ 39 Obrázek 5 - pracovní plocha nástroje Website Ripper Copier ............................................ 40 Obrázek 6 - pracovní plocha nástroje Paterva Maltego ....................................................... 75 Obrázek 7 - pracovní prostředí nástroje Netglub................................................................. 77 Obrázek 8 - pracovní prostředí nástroje Sam Spade............................................................ 44 Obrázek 9 - pracovní prostředí nástroje FOCA Free 3.2 ..................................................... 49 Obrázek 10 - ukázka výstupu z online verze nástroje ExifTool obsahující informace o fotografii včetně GPS souřadnic místa pořízení .......................................... 51 Obrázek 11 - zobrazení místa pořízení fotografie na Google Maps .................................... 51 Obrázek 12 - pracovní prostředí nástroje Creepy ................................................................ 52 Obrázek 13 - výstup nástroje Creepy .................................................................................. 53 Obrázek 14 - nástroj Scythe zpracovávající dotaz (v tomto případě "bivs") ....................... 56 Obrázek 15 – shrnutí výstupu nástroje The Harvester 2.2 pro e-maily na doméně www.bivs.cz ................................................................................................. 60 Obrázek 16 - pracovní prostředí nástroje Extract Link ....................................................... 62 Obrázek 17 - srovnání návštěvnosti sociálních sítí prostřednictvím Google Trends .......... 66 Obrázek 18 - pracovní prostředí nástroje Recorded Future (časosvá osa) .......................... 69 Obrázek 19 - pracovní prostředí nástroje Recorded Future (geografické zobrazení).......... 70 Obrázek 20 - schéma postupu zpracování informací v nástroji Silobreaker ....................... 71 Obrázek 21 - Dashboard nástroje SpicyMango ................................................................... 72 Obrázek 22 - panel zobrazující průběţné výstupy v nástroji Spicy Mango ........................ 73 Obrázek 23 - pracovní plocha nástroje Copernic Summarizer ............................................ 79 Obrázek 24 - Tovek Tools – Harvester ............................................................................... 81 Obrázek 25 - transformace nestrukturovaných dat na strukturovaná pomocí technologie Cogito........................................................................................................... 83 Obrázek 26 - schéma procesu zpracování textu pomocí Rosette Linguistics Platform....... 84 Obrázek 27 - pracovní plocha nástroje Paterva CaseFile .................................................... 86 Obrázek 28 - pracovní plocha Analyst's Notebook ............................................................. 87
100
11 Seznam tabulek Tabulka 1 - tabulka operátorů pro Google hacking, včetně příkladu jejich pouţití .......... 36 Tabulka 2 - srovnání nástrojů HTTrack a Website Ripper Copier .................................... 41 Tabulka 3 - obecné srovnání nástrojů Paterva Maltego a Neglub ..................................... 77 Tabulka 4 - obecné srovnání nástrojů Foca Free, Metagoofil, ExifTool a Creepy ......... 54 Tabulka 5 - obecné srovnání nástrojů Scythe, The Harvester, Web Data Extractor a Link Extractor ......................................................................................................... 64
101