Web harvesztelés Automatikus módszerekkel Kovács Péter Országos Széchényi Könyvtár Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Miről lesz szó? • Mi is az a web harvesztelés? • Mire és hol használjuk? Miért hasznos? • Saját megvalósításaink
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Mi a web harvesztelés? (web aratás) • Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele) • Lépések – Adatok begyűjtése (crawl) – Feldolgozás (index) – Közzététel (search)
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Nem egy új keletű dolog
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Mire és hol használjuk a szolgáltatást, miért hasznos? • Főként keresésre használjuk • Otthon, munkahelyen, iskolákban – mindenhol, ahol internet van • Hasznos – Gyors, egyszerű keresés – Szűrési lehetőségek („” , site: stb.) – Tárolt változat
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Hasznosak, ingyenesek, DE… • Nem a sajátunk, ezért – Nem azt aratjuk, amit mi szeretnénk – Nem akkor aratunk, amikor mi szeretnénk – Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány – Harvesztelt adatok sincsenek a birtokunkban – Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Saját megoldások • Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást • 3 dolog hiányzott: Szerver, tárhely, ember • Open Source programokat kerestünk – Ingyenesek – Forráskód, beállítások elérhetők – Segítség (Forum, wiki, howto)
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Szerver • Teszteléshez használt konfiguráció (Hp Hp Proliant ML350 ML350) – 2 magos Intel Xeon Processzor (32 bit) – 2 GB RAM – SCSI merevlemez
• Javasolt szerver konfiguráció (Ideális esetben 3 szerver) – 2*2 vagy 1*4 magos processzor (64 bit) – 8 GB RAM – SAS vagy SSD merevlemez
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Operációs rendszer • Debian linux 5.0 (Lenny) – Linux disztribúciók közül az egyik legjobb – Vannak tapasztalataink – Gyors, stabil, biztonságos – Ingyenes
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Felhasznált programok • Crawler – adatok begyűjtését végzi • Indexer - fulltext kereséshez • Indexer – URL kereséshez • Java alap kereső felületekhez használjuk
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Folyamat 1
Központi adattároló (Storage)
3 Adat gyűjtés (Crawl)
4 2 Adatok indexelése (Fulltext és URL kereséshez) Kovács Péter
Kereső felületek Web harvesztelés Automatikus módszerekkel
OSZK
• Aktuális stabil verzió: 3.0.0 • Weboldalak begyűjtését végzi (crawl) • Warc.gz fájlokban tárolja az adatokat – WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk – Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél – Szabványnak köszönhetően más programok gond nélkül kezelik Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
WARC fájl – timestamp (időbélyeg) • Fájl névben van egy időbélyeg – mikor készült a fájl • Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget – Pl.: 20090914123124 – Egyedi – Fontos szerepe van
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Heritrix - GUI
- Meghibásodás esetén hasznos - Automatikus vagy kézi létrehozás - Kis méret (~500 KB)
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
• Jelenlegi stabil verzió 0.13 • Begyűjtött adatokat indexeljük vele – I/O műveletek miatt magas memória és gyors merevlemez igény – Index adatbázisban keresünk – Fulltext keresés – Mindent leindexel ami a warc fájlban van • Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek • Képek, videók, flash fájlok stb nevére kereshetek Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Nutchwax - Search
• Java alapú kereső, Apache Tomcat alatt fut • Java miatt lassú, nem könnyű szerkeszteni Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Nutchwax - Opensearch
• Nem kell hozzá Java, HTML alapú • Gyors, könnyű beágyazni weblapokba Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Nucthwax – search vs. opensearch
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Opensearch - all versions
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
• Jelenlegi stabil verzió 1.4.2 • Szintén a begyűjtött adatokat indexeljük vele – Index adatbázisában keresünk (kisebb méret) – URL-ek keresésére használjuk – Kezeli az időbélyegeket • Azonos URL címek között különbséget tesz • Verziókövetésre kiváló
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Timestamp példa • http://www.oszk.hu/index.html aratva lett: – 20090914123124 = 2009.09.14 12:31:24 – 20091023092522 = 2009.10.22 09:25:22
• Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Wayback kereső
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
www.oszk.hu/index.html - 2009.09.14
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
www.oszk.hu/index.html - 2009.10.22
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Heritrix vs. Google
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Hol tartunk, tervek • Tesztelési fázis – Kell még tesztelni – Új szerver – 6.0-ás Debián tesztje
• Tervek – Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése – Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Forrásanyagok • http://crawler.archive.org/
• http://archive-access.sourceforge.net/projects/nutch/
• http://www.archive.org/web/web.php
• http://tomcat.apache.org/ Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK
Köszönöm a figyelmet!
[email protected]
Kovács Péter
Web harvesztelés Automatikus módszerekkel
OSZK