Rejtett tartalmak nyomában Mire jó a Textplore dokumentumelemző szoftver? Czibik Ágnes – Tóth István János
Sajtóbemutató Puskin kávéház, Budapest, Semmelweis u. 2. 2011. október 25. 10 óra
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Tartalom • A projektről • A szoftver jellemzői • Mintaelemzések:
Magyarország a New York Times-ban Siemens és korrupció az online sajtóban Az őszödi beszéd az Indexen és az Origo-n Ítélőtáblák adatközlési gyakorlata Stohl András balesete négy hazai hírportálon
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A projektről
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A projektről A Textplore program a TEXTREND (http://www.textrend.org/) projekt keretében a Nemzeti Innovációs Hivatal Jedlik Ányos programjának támogatásával készül (2008- ). (Projekt száma: NKFP_07_A2-TEXTREND, Szerződésszám: OM-00002/2008). Konzorcium: – Universitas Press Felsőoktatás-kutató Műhely Kft.; – Eötvös Lóránd Tudományegyetem; – Glia Számítástechnikai és Tanácsadó Kft.; – MKIK GVI; – MTA SZTAKI; – Szegedi Tudományegyetem.
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Jellemzők, lehetőségek
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A koncepció • Cloud concept:
●
Online: https://www.textplore.org/ A program, az adatok, az eredmények a szerveren, de letölthetőek
Kvantitatív és kvalitatív szövegelemzés
Nagy mennyiségű szöveg gyors feldolgozása Szógyakoriságokra és szókörnyezetekre alapuló elemzések Korlátok:
Szövegek értelmezésére a szoftver nem képes Az elemzett adatok „tisztasága” nem automatikus
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Elemezhető dokumentumok
Saját dokumentumok
Internetről gyűjtött tartalom: hírportálok, kutatóintézetek 1.500.000+ cikk jelenleg. LETÖLTÉSI KORLÁTOK!
Dokumentumok honlapokról – amit a felhasználó kiválaszt
• Kereséssel érhetőek el és választhatóak ki elemzésre: kulcsszó, dátum, formátum, hossz alapján
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Elemzési lehetőségek • A dokumentumok általános adatai: dátum, hossz, forrás, (cím, szerző) – Pl. egy téma lefutása cikkekben • Szókörnyezet: kulcsszó előtt és után 10 szó bemutatása – Korlátozott kvalitatív eszköz • Szókörnyezet- statisztika - Milyen szavak szerepelnek a kulcsszó közvetlen közelében? • Szóstatisztika: hányszor szerepelnek megadott szavak a dokumentumokban? Az eredmény exportálható statisztikai programokba, alapinformáció a kvantitatív elemzéshez • Saját statisztikai eszközök: kereszttábla, korreláció… Szavak közti kapcsolat mérésére, különböző dokumentumok közti szóhasználati különbségek mérésére • Kísérleti állapotban: tulajdonnév-felismerés
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Lehetséges felhasználók • • • •
kormányzat üzleti szféra, non-profit szektor egyetemek, kutatók egyéb érdeklődők
• Elérhetőség:
jelenleg zárt (kapacitás-korlátok) A GVI készít elemzéseket
Üzleti céllal: pl. Energiaklub Szakpolitikai Intézet – A fukusimai katasztrófa megjelenése az online médiában Tudományos céllal
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Tesztelemzések A tesztelemzéseket készítették: Czibik Ágnes Makó Ágnes Miskolczi Erna Nyírő Zsanna Priksz Tamás Tóth István János Várhalmi Zoltán
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Magyarországról a New York Times 2011. első féléves politikai cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Adatok • Minta a NYTimes 2010.nov-2011. ápr. cikkeiből: 37 db • Milyen országokra vonatkoznak a cikkek? Magyarország, poszt-szocialista országok, egyéb országok – Tulajdonnév-felismerés
• Milyen témákat érintenek? gazdasági, politikai, társadalmi – Szógyakoriságok alapján
• Milyen irányú értékelést tartalmaznak? pozitív, semleges, negatív – Szógyakoriságok alapján
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Cikkek száma havonta • 2011 márciusában jelent meg a legtöbb cikk
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Országok és országcsoportok • Kifejezetten Magyarországra vonatkozó cikkek száma 1 felett: januárban és áprilisban (médiatörvény és Alaptörvény)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az értékelés iránya • Magyarország döntően negatív kontextusban jelenik meg • A vizsgált cikkek fele negatívként értékelhető
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az értékelés iránya és országcsoportok • Ha Magyarország a téma akkor a cikkek 8/9-e negatív; de • ott is erősen negatív, ahol más ország a voltaképpeni téma (pl. nők diszkriminálása Olaszországban)
negatív
semleges
pozitív
Magyarország
8
1
0
K-K-Európa
2
1
0
Más országok
8
14
2
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens és a korrupció a magyar online sajtóban
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens megjelenése Index és Origo cikkekben (2000-2010) • A cikkek száma: 1512 • Nagy ingadozás a cikkek számában • A két portál nem mindig mozog együtt (2002-2003)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A Siemens és a korrupció együttes megjelenése • •
•
Forrásonként máskor tetőzik (2007 és 2008) Nemzetközi Siemensbotrány, Combinoszerződés, hivatkozó cikkek Eltérő mértékben foglalkozik a két portál a témával vagy csak a szóhasználat tér el? „botrány” vagy „korrupció”
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Gyurcsány Ferenc őszödi beszéde az Index és az Origo cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Vizsgált időszak: 2006. szept. - 2011. ápr. • A cikkek száma: 559 • Hangvétel szerinti vizsgálat: pozitív, negatív, semleges szavak • Szakszavak és köznyelvi kategóriába sorolt szavak vizsgálata • Elemzési egység: cikk • Fontos továbblépés lehetne: bekezdések, kijelentések elemzése
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Sok cikk: a megjelenés után és a 2010-es választások előtt. Közte: „csend” • Indexen általában több cikk
Az őszödi beszéddel kapcsolatosan megjelent cikkek száma az index.hu-n és az origo.hu-n (2006. IV. negyedév - 2011. I. negyedév), darab, N=559 50 45
44 Index
40 Origo 35
32 30 30
30
28
27
25 21
20
20
18
21 19
18
17
17
16
14
15
13
12
11 11
10
12
13 11
13 10
10
12 10
8
7
5
10 6
6
5
4
3
0 IV
I
II
2006 Forrás: GVI - Textplore
III 2007
IV
I
II
III 2008
IV
I
II
III 2009
IV
I
II
III 2010
IV
I 2011
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek hangvétele • Pozitív szavak: lehetőség, bizalom, őszinte, nyílt, önálló, bátorság, önvizsgálat, igazságbeszéd… • Negatív szavak: hazugság, botrány, kudarc, elhibázott, brutális, hülye… • Hangvétel mutató: cikkek hosszával normálva, pozitív és negatív szavak egyenlegét véve, az összes szó arányában vizsgálva • Index: nagyobb ingadozás cikkek között, éves átlagban viszont kiegyenlítettebb • Index: pozitívabb hangvétel
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek hangvétele • A „csend” alatt a leginkább negatív a cikkek hangvétele • • • •
(p-n) /(p+n+s) p: 1000 karakterre jutó pozitív szavak száma n: negatív szavakra analóg módon s: semleges szavakra analóg módon
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Szakszavak/köznyelvi szavak • Szakszavak (politológiai, szociológiai, közgazdaságtani): pl. államadósság, paradigma, pártpolitikai, kiadáscsökkentés, integráció… • Köznyelvi szavak: pl. népszerűség, következmény, tárgyalás, kemény, kiszivárgás… • Szakszó-használati fok: tudományos/(köznyelvi+tudományos) • Az Origo némileg több elvont politológiai-közgazdaságtani kifejezést használt az őszödi beszédet érintő cikkeiben, mint az Index
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Szakszó-használati fok időbeli változása
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Hangvétel és szakszavak • A köznyelvi térfélben nagyobb szórás
Az őszödi beszéddel kapcsolatosan megjelent cikkek "hangvétele" és "szakértelmi foka" az index.hu-n és az origo.hu-n, N=559
hangvétel 0,4
KÖZÉRTHETŐ POZITÍV
0,3
SZAKÉRTŐI POZITÍV
0,2
• A leginkább negatív sávban Origodominancia
0,1
R² = 0,1182 R² = 0,1474
0 -0,1 -0,2
• A szakértői térfélen enyhe Origodominancia
-0,3
SZAKÉRTŐI NEGATÍV
-0,4 toltes Index -0,5
Sorozatok2 Origo
KÖZÉRTHETŐ NEGATÍV
-0,6 0
0,1
Forrás: GVI - Textplore
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9 szakértelmi fok
1
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Ítélőtáblák internetes adatközlési gyakorlata
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
• Öt ítélőtábla: feladatuk elsősorban a helyi, illetve megyei bíróságok határozatai ellen előterjesztett jogorvoslatok elbírálása • Feladatuk, működésük, felépítésük, jogi hátterük megegyezik, vonatkozik rájuk az Elektronikus információ-szabadság törvény (Eitv.) • Adatközlési gyakorlatuk is azonos? • A vizsgált dokumentumok: doc és pdf formátum, a honlapokról automatikusan letöltve, összesen 642 dokumentum
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A feltett dokumentumok száma • Győr, Debrecen: sajtócikkeket is feltesznek – ezt nem vesszük figyelembe • Győr: doc-ok is vannak, máshol csak pdf • Nagy különbségek
Az ítélőtáblák honlapján megtalálható dokumentumok száma 350 300 250 200 322
150 100 50
102
122 56
40
0 Fővárosi Ítélőtábla
Szegedi Ítélőtábla
Pécsi Ítélőtábla
Győri Ítélőtábla
Debreceni Ítélőtábla
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Dokumentumok tartalma • Győrben a leginkább sokszínű: kollégiumi vélemények, ajánlások, határozatok éves bontásban,
közérdekű adatok (alapító okirat, SzMSz, ügyelosztási rendek, költségvetési okmányok, működés értékelésére vonatkozó dokumentumok)
tárgyalási jegyzékek
a megnyitó ünnepség beszédeinek szövege
az ítélőtáblát érintő, a sajtóban megjelent cikkek
• UGYANAKKOR: ETI (Elektronikus Információ-szabadság Törvénytisztelet Index) Győr: 37,3
Debrecen: 63
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Közlések időben, honlap-frissítés • Győr, (Főváros): egyenletes, évente frissül, hasonló mennyiség • Pécs, Debrecen: első 1-2 évben sok dokumentum, utána kevés • Szeged: először kevés, majd egy évben nagyon sok (váltás?) A letölthető dokumentumok publikálásának időbeli megoszlása az egyes ítélőtáblák esetében, % 60 50 40
Fővárosi Ítélőtábla Szegedi Ítélőtábla
30
Pécsi Ítélőtábla Győri Ítélőtábla
20
Debreceni Ítélőtábla
10 0 2004
2005
2006
2007
2008
2009
2010
2011
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Stohl András a Magyar Nemzet, a Népszabadság, a Velvet és a Blikk online cikkeiben
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A vizsgált cikkek • 2010. május – 2011. augusztus • Csak balesettel kapcsolatos cikkek: 304 db • NOL (36), MNO (48), Velvet (100), Blikk (120)
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
A cikkek száma összesen Kiugró cikkszámok: • 1.: közvetlenül a baleset után • 2: nyomozás lezárása • 3: elsőfokú tárgyalás • 4: elsőfokú ítélet • 5: másodfokú tárgyalás
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Kapcsolódó altémák Milyen témakörök azonosíthatóak szóelőfordulások alapján? • Drog- és alkoholfogyasztás, pl: ittas, drog, díler, pszichotrop… • Jogi PR: vezeklés, pl: megbán, szégyell, tanulság, vezeklés… • Negatív jellemrajz, pl: átmulatott, botrány, cserbenhagyás, megérdemel…
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Az addikciót említő cikkek aránya • Kis különbségek • A NOL-on található a legtöbb addikciót NEM említő cikk
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Addikciós szavak előfordulása • A NOL szól legkevésbé arról, hogy Stohl András drogokat és alkoholt fogyasztott a baleset előtt
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Jogi PR szavak előfordulása
• Az MNO szól legkevésbé arról, hogy Stohl András megbánta azt amit tett, és ezért drogellenes kampányba kezdett
• A projektről • Jellemzők • NYTimes • Siemens • Őszödi beszéd • Ítélőtáblák • Stohl András
Negatív jellemrajz szavak előfordulása • Az MNO cikkeiben rajzolódik ki leginkább negatív kép Stohlról
Köszönjük a figyelmet! A minta-elemzések elérhetősége: https://www.textplore.org/ Elemzések menüpont