Rejte% tartalmak nyomában
Mire jó a Textplore dokumentumelemző szo7ver? Czibik Ágnes – Tóth István János
Sajtóbemutató Puskin kávéház, Budapest, Semmelweis u. 2. 2011. október 25. 10 óra
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Tartalom • A projektről • A szoHver jellemzői • Mintaelemzések: Magyarország a New York Times-‐ban v Siemens és korrupció az online sajtóban v Az őszödi beszéd az Indexen és az Origo-‐n v Ítélőtáblák adatközlési gyakorlata v Stohl András balesete négy hazai hírportálon v
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A projektről
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A projektről A Textplore program a TEXTREND (h%p://www.textrend.org/) projekt keretében a Nemze\ Innovációs Hivatal Jedlik Ányos programjának támogatásával készül (2008-‐ ).
(Projekt száma: NKFP_07_A2-‐TEXTREND, Szerződésszám: OM-‐00002/2008). Konzorcium: – Universitas Press Felsőoktatás-‐kutató Műhely KH.; – Eötvös Lóránd Tudományegyetem; – Glia Számítástechnikai és Tanácsadó KH.; – MKIK GVI; – MTA SZTAKI; – Szegedi Tudományegyetem.
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Jellemzők, lehetőségek
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A koncepció • Cloud concept: v v
●
Online: h%ps://www.textplore.org/ A program, az adatok, az eredmények a szerveren, de letölthetőek
Kvan\taov és kvalitaov szövegelemzés v v
v
Nagy mennyiségű szöveg gyors feldolgozása Szógyakoriságokra és szókörnyezetekre alapuló elemzések Korlátok: v v
Szövegek értelmezésére a szoHver nem képes Az elemze% adatok „\sztasága” nem automa\kus: Azt mérjük vajon, amit szeretnénk?
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Elemezhető dokumentumok
Saját dokumentumok
Internetről gyűjtö% tartalom: hírportálok, kutatóintézetek 1.500.000+ cikk jelenleg. LETÖLTÉSI KORLÁTOK!
Dokumentumok honlapokról – amit a felhasználó kiválaszt
• Kereséssel érhetőek el és választhatóak ki elemzésre: kulcsszó, dátum, formátum, hossz alapján
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Elemzési lehetőségek • A dokumentumok általános adatai: dátum, hossz, forrás, (cím, szerző) – Pl. egy téma lefutása cikkekben • Szókörnyezet: kulcsszó elő% és után 10 szó bemutatása – Korlátozo% kvalitaov eszköz • Szókörnyezet-‐ sta\sz\ka -‐ Milyen szavak szerepelnek a kulcsszó közvetlen közelében? • Szósta\sz\ka: hányszor szerepelnek megado% szavak a dokumentumokban? Az eredmény exportálható sta\sz\kai programokba, alapinformáció a kvan\taov elemzéshez • Saját sta\sz\kai eszközök: keresz%ábla, korreláció… Szavak köz\ kapcsolat mérésére, különböző dokumentumok köz\ szóhasznála\ különbségek mérésére • Kísérle\ állapotban: tulajdonnév-‐felismerés
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Lehetséges felhasználók • • • •
kormányzat üzle\ szféra, non-‐profit szektor egyetemek, kutatók egyéb érdeklődők
• Elérhetőség: v v
jelenleg zárt (kapacitás-‐korlátok) A GVI készít elemzéseket v
v
Üzle\ céllal: pl. Energiaklub Szakpoli\kai Intézet – A fukusimai katasztrófa megjelenése az online médiában Tudományos céllal
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Tesztelemzések A tesztelemzéseket készíte%ék: Czibik Ágnes Makó Ágnes Miskolczi Erna Nyírő Zsanna Priksz Tamás Tóth István János Várhalmi Zoltán
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Magyarországról a New York Times 2011. első féléves poliMkai cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Adatok • Minta a NYTimes 2010.nov-‐2011. ápr. cikkeiből: 37 db • Milyen országokra vonatkoznak a cikkek? Magyarország, poszt-‐szocialista országok, egyéb országok – Tulajdonnév-‐felismerés
• Milyen témákat érintenek? gazdasági, poli\kai, társadalmi – Szógyakoriságok alapján
• Milyen irányú értékelést tartalmaznak? poziov, semleges, negaov – Szógyakoriságok alapján
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Cikkek száma havonta • 2011 márciusában jelent meg a legtöbb cikk
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Országok és országcsoportok • Kifejeze%en Magyarországra vonatkozó cikkek száma 1 fele%: januárban és áprilisban (médiatörvény és Alaptörvény)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az értékelés iránya • Magyarország döntően negaov kontextusban jelenik meg • A vizsgált cikkek fele negaovként értékelhető
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az értékelés iránya és országcsoportok • Ha Magyarország a téma akkor a cikkek 8/9-‐e negaov; de • o% is erősen negaov, ahol más ország a voltaképpeni téma (pl. nők diszkriminálása Olaszországban)
negaAv
semleges
poziAv
Magyarország
8
1
0
K-‐K-‐Európa
2
1
0
Más országok
8
14
2
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens és a korrupció a magyar online sajtóban
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens megjelenése Index és Origo cikkekben (2000-‐2010) • A cikkek száma: 1512 • Nagy ingadozás a cikkek számában • A két portál nem mindig mozog együ% (2002-‐2003)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens és a korrupció együ%es megjelenése • Forrásonként máskor tetőzik (2007 és 2008) • Nemzetközi Siemens-‐ botrány, Combino-‐ szerződés, hivatkozó cikkek • Eltérő mértékben foglalkozik a két portál a témával vagy csak a szóhasználat tér el? „botrány” vagy „korrupció”
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Gyurcsány Ferenc őszödi beszéde az Index és az Origo cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Vizsgált időszak: 2006. szept. -‐ 2011. ápr. • A cikkek száma: 559 • Hangvétel szerin\ vizsgálat: poziov, negaov, semleges szavak • Szakszavak és köznyelvi kategóriába sorolt szavak vizsgálata • Elemzési egység: cikk • Fontos továbblépés lehetne: bekezdések, kijelentések elemzése
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Sok cikk: a megjelenés után és a 2010-‐es választások elő%. Közte: „csend” • Indexen általában több cikk
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek hangvétele • Poziov szavak: lehetőség, bizalom, őszinte, nyílt, önálló, bátorság, önvizsgálat, igazságbeszéd… • Negaov szavak: hazugság, botrány, kudarc, elhibázo%, brutális, hülye… • Hangvétel mutató: cikkek hosszával normálva, poziov és negaov szavak egyenlegét véve, az összes szó arányában vizsgálva • Index: nagyobb ingadozás cikkek közö%, éves átlagban viszont kiegyenlíte%ebb • Index: poziovabb hangvétel
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek hangvétele • A „csend” ala% a leginkább negaov a cikkek hangvétele • • • •
(p-‐n) /(p+n+s) p: 1000 karakterre jutó poziov szavak száma n: negaov szavakra analóg módon s: semleges szavakra analóg módon
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Szakszavak/köznyelvi szavak • Szakszavak (politológiai, szociológiai, közgazdaságtani): pl. államadósság, paradigma, pártpoli\kai, kiadáscsökkentés, integráció… • Köznyelvi szavak: pl. népszerűség, következmény, tárgyalás, kemény, kiszivárgás… • Szakszó-‐használa\ fok: tudományos/(köznyelvi +tudományos) • Az Origo némileg több elvont politológiai-‐közgazdaságtani kifejezést használt az őszödi beszédet érintő cikkeiben, mint az Index
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Szakszó-‐használa\ fok időbeli változása
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Hangvétel és szakszavak • A köznyelvi térfélben nagyobb szórás • A leginkább negaov sávban Origo-‐ dominancia • A szakértői térfélen enyhe Origo-‐ dominancia
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Ítélőtáblák internetes adatközlési gyakorlata
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Öt ítélőtábla: feladatuk elsősorban a helyi, illetve megyei bíróságok határozatai ellen előterjeszte% jogorvoslatok elbírálása • Feladatuk, működésük, felépítésük, jogi há%erük megegyezik, vonatkozik rájuk az Elektronikus információ-‐szabadság törvény (Eitv.) • Adatközlési gyakorlatuk is azonos? • A vizsgált dokumentumok: doc és pdf formátum, a honlapokról automa\kusan letöltve, összesen 642 dokumentum
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A felte% dokumentumok száma • Győr, Debrecen: sajtócikkeket is feltesznek – ezt nem vesszük figyelembe • Győr: doc-‐ok is vannak, máshol csak pdf • Nagy különbségek
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Dokumentumok tartalma • Győrben a leginkább sokszínű: v kollégiumi vélemények, ajánlások, határozatok éves bontásban, v
közérdekű adatok (alapító okirat, SzMSz, ügyelosztási rendek, költségvetési okmányok, működés értékelésére vonatkozó dokumentumok)
v
tárgyalási jegyzékek
v
a megnyitó ünnepség beszédeinek szövege
v
az ítélőtáblát érintő, a sajtóban megjelent cikkek
• UGYANAKKOR: ETI (Elektronikus Információ-‐szabadság Törvény\sztelet Index) v Győr: 37,3 v
Debrecen: 63
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Közlések időben, honlap-‐frissítés • Győr, (Főváros): egyenletes, évente frissül, hasonló mennyiség • Pécs, Debrecen: első 1-‐2 évben sok dokumentum, utána kevés • Szeged: először kevés, majd egy évben nagyon sok (váltás?)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Stohl András a Magyar Nemzet, a Népszabadság, a Velvet és a Blikk online cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A vizsgált cikkek • 2010. május – 2011. augusztus • Csak balese%el kapcsolatos cikkek: 304 db • NOL (36), MNO (48), Velvet (100), Blikk (120)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek száma összesen Kiugró cikkszámok: • 1.: közvetlenül a baleset után • 2: nyomozás lezárása • 3: elsőfokú tárgyalás • 4: elsőfokú ítélet • 5: másodfokú tárgyalás
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Kapcsolódó altémák Milyen témakörök azonosíthatóak szó-‐ előfordulások alapján? • Drog-‐ és alkoholfogyasztás, pl: i%as, drog, díler, pszichotrop… • Jogi PR: vezeklés, pl: megbán, szégyell, tanulság, vezeklés… • Negaov jellemrajz, pl: átmulato%, botrány, cserbenhagyás, megérdemel…
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az addikciót említő cikkek aránya • Kis különbségek • A NOL-‐on található a legtöbb addikciót NEM említő cikk
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Addikciós szavak előfordulása • A NOL szól legkevésbé arról, hogy Stohl András drogokat és alkoholt fogyaszto% a baleset elő%
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Jogi PR szavak előfordulása
• Az MNO szól legkevésbé arról, hogy Stohl András megbánta azt amit te%, és ezért drogellenes kampányba kezde%
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Negaov jellemrajz szavak előfordulása • Az MNO cikkeiben rajzolódik ki leginkább negaov kép Stohlról
Köszönjük a figyelmet! A minta-‐elemzések elérhetősége: h%ps://www.textplore.org/ Elemzések menüpont