Počítačová textová analýza metodou sledování spoluvýskytů slov Martin Hájek* Fakulta sociálních věd, Univerzita Karlova v Praze
Computer-assisted Text Analysis Abstract: This article presents a method for computerassisted text analysis, which has been employed by the author in a number of studies. The inductive methodology is based on a frequency count analysis of the co-occurrence of words; and a visualization of the results of this text analysis in a two dimensional space. The main advantage of this text analysis technique is its potential for (a) exploring large amounts of textual data without any precoded or theoretically laden vocabularies or thesauri; and (b) the extraction of discursive patterns often only detectable in an a posteriori expert analysis. An example is used to demonstrate the use of this computer assisted text analysis method through an analysis of the transcripts of biographical interviews exploring life in Czech socialist society. The analysis presented uncovers both shared and distinctive discursive patterns found in the narratives of the interviewees who come from two distinct social groups. Data a výzkum - SDA Info 2010, Vol. 4, No. 1: 19-37. (c) Sociologický ústav AV ČR, v.v.i., Praha 2010. 1. Úvod Současná společnost je charakteristická mimo jiné tím, že o sobě produkuje veliké množství informací; řečeno s Niklasem Luhmannem, moderní společnost je intenzivně sebepozorující se a sebepopisující se systém [Luhmann * Tento článek vznikl v rámci řešení výzkumného projektu P404/10/0790 podpořeného Grantovou agenturou České republiky. ** Veškerou korespondenci posílejte na adresu: Mgr. Martin Hájek, Ph.D., Institut sociologických studií, Fakulta sociálních věd UK, U Kříže 8, 158 00 Praha 5 – Jinonice; e-mail:
[email protected].
- 19 -
1988]. Technicky vzato mnoho z těchto sebepopisů má formu digitalizovaných informací: od záznamů z digitálních kamer ze soukromých a veřejných prostranství přes elektronické verze mediální produkce až po databáze knih a časopisů. Ruku v ruce s tímto rozvojem se díky technologickým inovacím zvětšují i možnosti snadného a finančně nenáročného archivování digitalizovaných informací. Na druhé straně tomuto tempu tvorby a skladování všemožných digitálních dat o společnosti neodpovídá rozvoj nástrojů k jejich zpracování. Cousins a McIntosh trefně poznamenávají, že po „půlstoletí informační revoluce jsme postaveni před nové malthusovské dilema: zatímco množství informací roste exponenciálním způsobem, naše schopnost vytvořit z tohoto množství smysluplné vědění se zdá být omezena na pouze aritmetický růst“ [Cousins & McIntosh 2005: 582]. Dosavadní analytické nástroje jsou schopny poskytovat převážně deskriptivní informace (kolik je čeho), případně zjišťovat či modelovat předem vymezené specifické vztahy (jak něco souvisí s něčím jiným). Na aktuálnosti proto nabývají různé způsoby „data miningu“ rozsáhlých datových souborů, tzn. technik, jak získat netriviální informace z velkého množství rozmanitých dat (pro přehled viz např. [Berka 2003; Han & Kamber 2006]). Tento článek se nebude zabývat obecně dolováním textových dat, označovaným ve společenskovědním kontextu jako computer assisted text analysis (CATA), protože jde o příliš široké téma, ke kterému existuje rozsáhlá literatura [Roberts 1997, Popping 2000, Alexa 1997, Guérin-Pace 1998]. V následujícím textu se zaměříme na jednu techniku specificky použitelnou k analýze přirozeně vzniklých textových dat, jakými jsou mediální texty, webové stránky nebo záznamy narativních rozhovorů s respondenty, kterou jsme spolu s kolegy již několikrát úspěšně použili [Hájek et al. 2006; Hájek & Bayer 2007; Hájek & Kabele 2010]. Jedná se o techniku, která mapuje vztahy mezi textovými entitami (slovy, slovními spojeními) tím, že zaznamenává jejich společný výskyt v určité oblasti textu (věta, odstavec, článek, webová stránka apod.). Výsledkem měření společných výskytů je numerická matice spoluvýskytů, kterou lze následně vizuálně znázornit jako graf či diagram, a tím umožnit interpretaci nalezených struktur. Sociologicky je tato metoda zajímavá zejména tím, že může zviditelnit a případně i měřit sociálně relevantní významové struktury nacházející se v textech [Mohr 1998].
2. Jádro problému – kódování Když se výzkumník nebo výzkumnice rozhodne analyzovat nějaký text nebo soubor textů, narazí vždy na zásadní otázku, která se týká kódování, tzn. způsobu, jakým převést „pomíjivé, nestrukturované nebo neurčité, nicméně jinak zcela smysluplné fenomény do pojmů jazyka dat, ve kterém mohou být analyzovány pomocí náležitých technik“ [Krippendorf 2004: 125]. Nej- 20 -
běžnější postupy kódování textu se zakládají na manuálním přisouzení určité oblasti textu určitému kódu lidským kodérem, např. výrok „s dcerou jsme se neustále hádaly“ by měl být podle předem určených instrukcí kódován jako konflikt v rodině. Tento postup má své silné stránky: jelikož kodér je vyškolený člověk, je schopen pochopit význam analyzovaného textu a validně i reliabilně přiřazovat kategorie; neboli je schopen se vypořádat s přirozenými jazykovými fenomény polysémie (víceznačnosti) a konotace. Je schopen odvodit, že v textu „mám dceru ráda, ale občas se spolu dostaneme do křížku“ výraz „dostat se do křížku“ znamená mít spor, a tudíž úsek správně přiřadí kódu konflikt v rodině. Na druhou stranu manuální kódování má i své slabé stránky. První souvisí s tím, co bylo uvedeno v úvodu – množství textu k analýze. Manuálně lze kódovat několik biografických rozhovorů do cca dvou desítek kategorií, ale už ne všechny články obsahující slovo nespravedlnost v českých celostátních denících v posledním desetiletí, kterých je přes deset tisíc. Jen samotné přečtení by zabralo týdny. I když by bylo teoreticky možné zaměstnat desítky vyškolených kodérů, nevyhneme se pak problému s reliabilitou takového kódování; „intercoder reliability“ je ovšem problém, do kterého se zde nemůžeme pouštět, a čtenáře proto odkazujeme na [Krippendorf 2004, kap. 11]. Druhý problém spočívá v samotném kódovacím klíči. Klasická obsahová analýza počítá s předem vytvořeným kódovacím klíčem. Například ve výzkumu mediální reprezentace nespravedlnosti můžeme kódovat podle principů nespravedlnosti vytvořených v nějakém předchozím kvalitativně orientovaném výzkumu na dané téma. Co však v případě, že nechceme aplikovat na naše data nějaký již vytvořený kódovací klíč, ať už z důvodu, že máme pochyby o jeho použitelnosti na naše data, nebo nás zajímá induktivně orientovaný explorační přístup, např. o čem se v článcích o nespravedlnosti nejčastěji píše, v jaké souvislosti se koncept objevuje? V takovém případě je ovšem manuální kódování problematické právě z téhož důvodu, který z něj činí silný nástroj pro teoreticky zakotvené kategorie – pro neodstranitelný sklon kodérů interpretovat text vždy v kontextu. Výrok „vyrostl jsem v pocitu, že je nespravedlivé, když člověk, který má víc odvahy než ostatní, stojí na okraji“ může být v publikovaném rozhovoru se známým politikem kódován jedním kodérem do oblasti nespravedlnost-politika, jiný do nespravedlnost‑socializace/výchova, jiným třeba do oblasti nespravedlnost-pocity/emoce. Různost zvolených kontextů či oblastí významu ovšem není chybou kodérů, nýbrž vlastností lidského čtení a interpretace textu. Čtenář s textem kooperuje a jeho význam svým čtením spoluvytváří. I když jen málokdy se čtení textů kodéry diametrálně liší, zhusta se můžeme setkat s tím, že si kodéři nedokážou vybrat z možných verzí dominantní kontext a v důsledku toho nevědí, ja- 21 -
kým kódem nebo kategorií mají daný text kódovat. V případě exploračního výzkumu to je zásadní překážka, neboť kodérům nelze poskytnout obecný návod, jak v situaci kontextové nejistoty postupovat. Oba výše uvedené problémy – neschopnosti lidských kodérů zpracovat veliké množství textů a rozhodnout o kontextu v případě exploračního přístupu – vedly výzkumníky v textové analýze k hledání automatického způsobu induktivně orientovaného kódování. Zadání bylo jednoduché: a) Jak kódovat velké množství textu, který je k dispozici v elektronické podobě? b) Jak zaručit kvalitu kódování, aby zachycovalo relevantní atributy textu efektivně a spolehlivě? Odpověď na první úlohu je jednoduchá – kódovat musí stroj. Odpověď na druhou otázku závisí na tom, co považujeme za relevantní atributy textu.
3. Frekvenční analýza textů Jestliže nás jako relevantní atribut určitého textu zajímá jeho téma (o čem text je), zjištěná nejfrekventovanější významová slova se zpravidla k tématu vážou. Již tradičně bývá frekvence výskytu určitého prvku v daném prostředí – nejen v textové analýze – považována za indikátor dominantní povahy tohoto prostředí (mnoho stromů značí v přírodě les). Kupříkladu nejčastější významová slova tohoto článku jsou text, slovo, spoluvýskyt, korpus, graf, která bezesporu jeho téma indikují. Metoda analýzy textů založená výhradně na samostatně posuzovaných frekvencích jednotlivých slov však poskytuje pouze velmi přibližná zjištění a hodí se jen na určité druhy textů, zejména odborných, které jsou tematicky vyhraněné. Pro analýzu neodborných textů, např. biografických rozhovorů nebo mediálních sdělení, není vhodná, protože tyto texty se frekventovanými slovy příliš neliší. Také při výzkumu novinových článků bychom sice dokázali tematicky odlišit články o ekonomice od článků o sportu, ale to k sociologicky zajímavým zjištěním nepostačuje. V současnosti navíc již existují sofistikované metody, jak téma textu nebo jeho shrnutí z frekvencí slov, jejich vzájemných vztahů a klasifikací odhadnout (pro přehled viz [Dale et al. 2000]). Z odborného pohledu však nejde o techniky analýzy, které by měly přinést nějaké nové vědění nebo odhalit nějaké netriviální struktury, jako spíše o metody zpracování textových dat za účelem automatického získání informací v textu již obsažených. Toto zaměření je zřejmé z jejich anglických názvů natural language processing, information retrieval. Nicméně mohou sloužit jako pomocné techniky při sociologickém výzkumu vycházejícím z velkého množství textových dat. Jako příklad můžeme uvést analýzu proměn témat v on-line diskuzních skupinách nebo sledování objevujících se témat ve weblozích. Pokud chceme jít dál, než je zjištění tématu v nějakém textu nebo souboru textů, tzn. chceme-li se pustit do objevování nového, potom se pro nás stane relevantním atributem textu spíše jeho struktura nebo struktury - 22 -
(vzorce) než téma. Posunuje nás to z oblasti, kterou bychom označili jako čtenářskou, do oblasti ne-čtenářské. Co tím chceme říci: zjištění tématu textu je něco, co dovede člověk-čtenář, zatímco zjištění netriviální struktury textu je čtenářem jen těžko postižitelné. Tradiční obsahová analýza si sice činí ambice odhalit „fenomény, které nejsou přímo pozorovatelné,“ ale spoléhá v naprosté většině případů buď na kodéry-čtenáře, kteří čtením odhalují a kódují mikro- či makro- témata případně jejich hodnocení (negativní, pozitivní, neutrální), nebo na ex-ante vytvořené kategorizační slovníky a tezaury, které čtenářské chápání předpokládají [Carley 1993]. To znamená, že jsou výrazně buď čtenářsky, nebo teoreticky předpokladové. Induktivně orientovaná počítačová textová analýza čtenářskou dovednost nepotřebuje, přesněji nepotřebuje ji v analytické fázi výzkumu. Předpokládá minimální znalost textů, které vstupují do analýzy, a snaží se explorativním způsobem zjistit jejich strukturní charakteristiky nebo vzorce, které se v nich objevují. Za základní jednotku textu je považováno slovo a strukturou textu se rozumí soubor vztahů mezi slovy, resp. vztahy mezi různými strukturami a vzorci slov. Jednu z takto orientovaných metod textové analýzy představíme v následujícím oddíle.
4. Metoda sledování spoluvýskytů slov ilustrovaná na příkladu analýzy biografických vyprávění V rámci projektu zaměřeného na textovou analýzu biografických rozhovorů s pamětníky doby socialismu se v jedné z dílčích úloh zabýváme otázkou, zdali a případně jak rozlišují pamětníci ve svých životopisných vyprávěních sféru soukromého a veřejného života a zdali se u různých sociálních skupin vypravěčů tyto sféry liší. O reálném socialismu, zvláště o normalizačním období 1970–1989, se často tvrdí, že veřejná sféra byla natolik prosycena nevěrohodným ideologickým diskurzem, že lidé hledali životní autenticitu a seberealizaci v soukromé sféře, tj. doma a v rodině, přičemž bývá zpravidla zmiňován masový fenomén chataření a kutilství. Proto jsme při použití metody sledování spoluvýskytů slov očekávali, že sféra soukromého bude v rozhovorech výrazně zastoupena, jak co do počtu různých slov k soukromí se vážících, tak jejich frekvencí. Vytvoření korpusů Přepsané rozhovory pro analýzu jsme získali ze sbírky Biografie příslušníků dělnických profesí a inteligence, která byla vytvořena v Centru orální historie Ústavu pro soudobé dějiny AV ČR. Jedná se o soubor cca sta biografických rozhovorů s lidmi rozmanitých profesí, mužů i žen, z různých částí republiky, z měst i venkova. Hned na začátku jsme se rozhodli, že budeme vycházet z rozdělení vypravěčů, které poskytuje sbírka, tzn. na muže - 23 -
a ženy a na příslušníky dělnických profesí a příslušníky tzv. inteligence, což jsou lidé s vysokoškolským vzděláním pracující v odborných a manažerských funkcích. Tím nám vznikly čtyři skupiny, které jsme si označili jako: muži-dělníci, ženy-dělnice, muži-inteligence a ženy-inteligence. Korpusy rozhovorů pro jednotlivé skupiny jsme vytvořili sloučením všech rozhovorů stejného typu vypravěčů do jednoho velkého souboru. Výsledkem byly čtyři velké soubory. Poté jsme z nich poloautomaticky odstranili otázky tazatelů, které by mohly ovlivnit výsledky systematickou chybou.1 Při práci s mediálními texty je nutné zase odstranit (nejlépe poloautomaticky pomocí vytvořeného skriptu nebo makra v textovém editoru) průvodní informace k článkům (jméno autora, popis autora, popiska fotografie, název rubriky či sekce apod.) nebo opakující se záhlaví a zápatí stránek. Takto vytvořené a očištěné korpusy jsou připraveny pro analýzu. Frekvenční slovníky Vytvoření frekvenčního slovníku je prvním krokem analýzy. Programů, které jsou schopny spočítat frekvenci slov v textovém souboru, existuje celá řada, např. Atlas.ti, TextStat, AntConc. Pro každý korpus postupujeme stejně. Nejprve spočítáme frekvence jednotlivých slov, která seřadíme od nejčetnějších po nejméně četné. Protože nás ve vyprávění zajímají významové oblasti, vybereme do slovníku jen nejčetnější významová slova, zpravidla podstatná jména. Jde nám totiž o to, abychom v následujících krocích mohli pracovat jen se samotnými slovy, bez ohledu na bezprostřední kontext, ve kterém se v textu vyskytla. Při sestavování slovníků stojíme před dvěma otázkami: jaká slova a hlavně kolik slov do analýzy zahrnout. Mezi nejčastější slova v obou korpusech se řadí také slova označující čas nebo trvání (dneska, tenkrát, tehdy, rok, nikdy, pořád), která by teoreticky mohla indikovat ve vyprávění časové struktury, nicméně mimo svůj konkrétní kontext výskytu jsou jen těžko interpretovatelná. „Tehdy“ může znamenat v roce 1948 stejně jako v roce 1989. Podobně jsou na tom častá slovesa „dělat“, „jít“, „myslet“, která sice mají vlastní význam, ale pro analýzu, která se ve vyprávěních snaží odhalit životní sféry, nejsou dostatečně jednoznačná. Co se týče množství slov zahrnutých do analytického slovníku, jsme omezeni na jedné straně zobrazovací schopností výsledných grafů, které jsou čitelné zhruba do padesáti až šedesáti zobrazených slov, a jednak velikostí korpusu, přičemž platí, že čím 1 Termín chyba je zde míněn ryze instrumentálně, nikoliv v tom smyslu, že otázky tazatelů s vyprávěním nesouvisí. Právě naopak, uvědomujeme si, že by tento krok mohl být legitimně interpretován i tak, že oddělením otázek od analýzy určitou systematickou chybu vnášíme, že narušujeme přirozený dialogicky formovaný celek biografických rozhovorů. Nicméně v prvním plánu nás zajímala struktura spoluvýskytů slov v samotných vyprávěních narátorů.
- 24 -
větší korpus, tím více slov má smysl do slovníku zařadit. U malých korpusů hrozí, že relativně málo frekventovaná slova zahrnutá do analýzy budou v grafu tvořit přirozené outliers, stojící mimo ostatní struktury, a tudíž nebude možné je smysluplně interpretovat. Protože v našem případě jsou korpusy použitých biografických vyprávění dostatečně velké (přes půl miliónu slov každý), vybrali jsme padesát nejčastějších slov, výhradně podstatných jmen. Technicky je procedura výběru slov do slovníku složitější než jen vypsání těch padesáti nejčastějších. Vzhledem k tomu, že čeština má velmi ohebná slova, je prakticky potřeba vybrat nikoli nejčastější jednotlivé formy slova, ale slovní základy neboli lemmata. Důvodem je snaha zabránit nadreprezentaci neohebných slov, často názvů či zkratek (např. USA, ODS, JZD), která sice mají relativně vyšší výskyt než jednotlivé formy ohebných slov, ovšem ty je v součtu svým kumulovaným výskytem převýší (např. slovo „babička“ v první neupravené padesátce nejčastějších slov není, zatímco ROH ano, ale sečteme-li výskyt tvarů „babička“, „babičky“, babičkou“, „babičce“ atd., pohodlně se mezi padesát nejčastějších dostane). Proto postupujeme tak, že nejprve vybereme nejčastějších cca 150 slov, tato převedeme na slovní kořeny (např. „babič“, „sestr“ apod.) a poté zjistíme výskyty těchto slovních kořenů. V některých případech ale takto postupovat nemůžeme, protože slovní kořen je společný různým slovům. Když zůstaneme u členů rodiny, kořen „mám“ slov „máma“, „mámou“ atd. je totožný s první osobou singuláru slovesa „mít“, a tudíž bychom sčítali frekvence dvou různých slov. V takovém případě musíme postupovat odlišně. Použijeme k tomu program COOA [COOA 2009], který jsme pro účely analýzy spoluvýskytů vytvořili a který je volně ke stažení. Tento program umožňuje počítat frekvence jak slovních kořenů, tak i několika forem téhož slova v případech, kde slovní kořen využít nelze. V případě slova „máma“ kumulujeme četnosti jak jednotlivých pádů jednotného a množného čísla, ale i synonymních výrazů matka, mamča, mamka, mamina apod. Při tvorbě slovníku se musíme vypořádat ještě s jednou obtíží, a to jsou slova nesoucí více významů. Snad největší potíže činí slovo „stát“, které je velice časté a znamená a) politickou instituci, b) vzpřímený postoj, c) cenu „stát tolik a tolik“ nebo d) dosažení určitého stavu či pozice, „stát se učitelem“. Podobně víceznačnými slovy jsou dále např. strana (politická, tisková, strana sporu, „na druhou stranu“), společnost (firma, skupina), svoboda (hodnota, vlastní jméno) nebo demokracie (politické uspořádání, část názvu politické strany). Jediným způsobem, jak se s významovou mnohoznačností (polysémií) vypořádat, je manuálně pozměnit slova tak, aby byl každý význam rozlišitelný, resp. aby byl rozlišitelný význam, který chceme zařadit do slovníku, od významů, které sledovat nechceme. V případě biografických vyprávění jsme všechna slova „stát“, kdy se nejed- 25 -
nalo o politickou instituci, ručně přeměnili na „_stát“, slova „strana“, kde se nejednalo o politickou stranu na „_strana“ a „společnost“ jako firmu na „_společnost“. K tomu, abychom zjistili, v jakých různých kontextech a tím pádem i významech se dané slovo v korpusu vyskytuje, použijeme prakticky ve všech programech pro textovou analýzu dostupnou funkci KWIC, znamenající keyword in context, s jejíž pomocí se nám zobrazí seznam výskytů hledaného slova a jeho variant v kontextu okolních slov tak, jak se v korpusu vyskytuje. Tak můžeme zkontrolovat, že pozměněné slovo „_společnost“ znamená vždy firmu nebo „bratr“ znamená příbuzného a nikoliv člena nějaké organizace (skauti, strana lidová, některé církve). Tato kontrola by měla být co nejdůkladnější, aby se předešlo vzniku artefaktuálních výsledků, zpětně jen těžko odhalitelných. Posledním krokem při vytváření analytického slovníku je doplnění jednotlivých slov o synonyma, která se vyskytují v korpusu, např. táta a otec nebo firma, společnost a podnik. Výsledný slovník vypadá např. takto: 1. auto, autě, auty, autu, aut, autům, autem, autech, auta, auť*, vůz, vozu, vozem 2. babič* 3. bratr, bratra, bratrem, bratrovi, bratrův, bratři, bratrů, bratřím, bratry, bratrech, brách* 4. brig* 5. byt, bytů, bytě, byty, bytu, bytům, bytem, bytech, bytov* 6. člověk* 7. … Sledování spoluvýskytů slov Jak bylo uvedeno výše, technikou, jak zviditelnit struktury textu v korpusu, je sledování spoluvýskytů vybraných slov. Obecný princip je popsán např. Daganem [Dagan 2000]. V originálním pojetí je sledování spoluvýskytů slov lingvistickým nástrojem ke zjištění jejich významu. Tento přístup se opírá o známou Firthovu distribuční hypotézu – „You shall know a word by the company it keeps“ [Firth 1957: 179], která říká, že slova vyskytující se v podobných kontextech mají i příbuzný význam [Firth 1957]. Cílem většiny studií je proto ze vzájemné četnosti spoluvýskytu slov odvodit jejich vzdálenost sémantickou [Mohammad, Hirst 2005; Mohr 1998; Bernard, Ryan 1998]. Spoluvýskyty lze ovšem sledovat i z jiných důvodů, než je zjištění jejich významu. Stačí, když Firthovu úvahu obrátíme: zajímá nás, jak jsou určitým mluvčím nebo skupinou mluvčích sdružována slova, jejichž běžný význam známe. Lze to formulovat i negativně, tak, že zkoumáme, která slova lidé společně nikdy nebo téměř nikdy nepoužívají. Přitom nám, jako sociologům, nejde o poznání jazyka a vztahů slov v jeho rámci, ale o pozná- 26 -
ní, jak je jazyk používán sociálními aktéry, co mluvením či psaním „dělají“ [Austin 1962]. Tento přístup má blízko k foucaultovské diskurzní analýze, která se zaměřuje na sociální pravidla a normy, které způsobují specifickou alokaci pojmů a výpovědí [Foucault 2002]. Od teoretických úvah se přesuňme k technické rovině metody. Máme-li připraven analytický slovník padesáti nejfrekventovanějších významových slov, je na řadě rozhodnout, v jakých kontextových jednotkách budeme spoluvýskyty sledovat. Podobně jako při vytvoření slovníku i zde provádíme analytické volby podle povahy dat a výzkumných otázek. Technicky vzato můžeme volit mezi přirozenými a umělými jednotkami (pro přehled viz [Krippendorf 2004: kap. 5]). Přirozenou kontextovou jednotkou je věta, odstavec či celý článek/rozhovor, umělou jednotkou může být určitý počet slov, vět, odstavců nebo oblast mezi specifickými znaky či slovy (např. osobními zájmeny). Obecně platí, že v krátkých kontextových jednotkách (např. 10 slov, věta) se více zvýrazní obecně jazykové (gramatické a stylistické) jevy, např. sousloví, spojení subjektu s aktivitou apod., zatímco v globálních jednotkách (např. odstavce či články) převažují tematické aspekty textu v korpusu [Dagan 2000: 463–4]. Zajímají-li nás slovní spojení a těsné vazby slov (tzv. kolokace), je vhodné sledovat spoluvýskyty slov v krátkých úsecích textu, zjišťujeme-li sémantická pole, jsou vhodnější středně dlouhé až dlouhé úseky (od věty po několik vět). Často je ale naše volba omezena povahou textů, kterými disponujeme. V případě analýzy webových stránek nebo biografických rozhovorů nelze použít odstavce, protože nejsou vždy zjistitelné. Analyticky nejoblíbenější kontextovou jednotkou je proto věta (text mezi dvěma tečkami), resp. několik vět, z toho důvodu, že věta většinou vyjadřuje jednotlivou myšlenku a několik vět se vztahuje k určitému argumentu. Pro analýzu biografických vyprávění jsme jako kontextovou jednotku zkusili postupně jednu, tři, pět a deset vět, abychom zjistili, jaká délka je pro zachycení variability korpusů nejvhodnější. Nakonec jsme analýzu provedli na kontextové jednotce pěti vět. Pro výpočet spoluvýskytů slov z analytického slovníku jsme použili již zmíněný program COOA, který byl pro tyto účely vyvinut. Program spočítá párové četnosti dvojic slov obsažených ve slovníku (přičemž se všemi slovy v řádku nakládá jako s variantami téhož slova) a výsledné četnosti normalizuje zvoleným koeficientem podobnosti. Podle našich zkušeností i experimentálních studií je nejrobustnější Jaccardův koeficient podobnosti (S) [Chung & Lee 2001]. Počítá se podle této rovnice: S (x,y) = a / (a + b + c), kde x, y jsou proměnné (daná slova), a je počet společných výskytů x a y v korpusu, b je počet samostatných výskytů x v korpusu a c je počet samostatných výskytů y v korpusu. Koeficient je považován za vhodnou míru - 27 -
asociace párově se vyskytujících objektů. Výstupem programu je jednak přehled frekvencí jednotlivých slov (položek) slovníku v korpusu, dále frekvence slov v kontextových jednotkách a hlavně matice normalizovaných vzdáleností mezi slovy. Volitelně si můžeme nechat pro kontrolu vypsat všechny kontextové jednotky s vyhledávanými slovy. Vizualizace spoluvýskytů Získaná matice vzdáleností slov v korpusu je sice přímo interpretovatelná a jednoduše můžeme zjistit, která slova jsou si v korpusu blízko, tzn. vyskytují se relativně často spolu v kontextových jednotkách, a která slova naopak mají spoluvýskytů minimum, ale cílem metody je získat pokud možno celkový obraz vzdáleností slov. Toho je možné dosáhnout různými klasifikačními nebo škálovacími technikami, které vycházejí z distančních matic, z nichž nejběžnější jsou shluková analýza a mnohorozměrné škálování. Shlukovou analýzu je vhodné použít tehdy, když chceme odhalit oddělené skupiny slov vyskytujících se v textu blízko sebe, např. při zjišťování množství diskrétních témat textu (monotematické vyprávění vs. polytematické), a následně můžeme testovat diskrétnost shluků analýzou variance. Shluková analýza se obecně řečeno hodí tehdy, pokud chceme nalézt lokální minima distancí, dvojice, trojice blízkých slov, které mají ostatní slova jako své satelity. Naproti tomu technika mnohorozměrného škálování (MDS) je procedurou, která zjišťuje globální minimum distancí celého souboru slov, tzn. je optimalizovanou projekcí n‑rozměrného prostoru matice vzdáleností (či podobností) do prostoru s nižší dimenzionalitou [Hebák et al. 2005: 145; Cox & Cox 2001; Shepard et al. 1972]. Její použití je na místě tam, kde klademe větší důraz na interpretaci celkové struktury textu než na interpretaci jednotlivých vztahů mezi slovy jako v případě shlukování. To bylo i cílem výzkumu, na kterém ilustrujeme popisovanou metodu. Výsledkem MDS je známá „mapa“ bodů (slov), ve které jsou si bližší ta slova, která jsou si bližší rovněž v korpusu (jak již bylo uvedeno, blízkostí v textu se zde rozumí frekvence spoluvýskytů v úseku pěti po sobě jdoucích vět). Nebudeme na tomto místě popisovat techniku mnohorozměrného škálování, které je jistě čtenářům časopisu Data a Výzkum známo a ani netvoří originální součást vykládané metody. Z toho důvodu uvedeme jen nejdůležitější parametry. Poněvadž vzdálenosti mezi slovy v textu (spoluvýskyty) nemají metrický charakter, nabízí se jen nemetrická varianta MDS, která ordinalizuje vzájemné vzdálenosti mezi slovy. Z hlediska počtu zobrazených dimenzí se přidržujeme, jak je doporučováno [Cox & Cox 2001: 88], dvourozměrného zobrazení, které sice mívá relativně vysokou hodnotu stresu, ale na rozdíl od třírozměrného zobrazení poskytuje snadnější interpretaci zobrazené konfigurace.
- 28 -
Interpretace získaných diagramů Mnohorozměrné škálování je technika především vizualizační, tzn. její funkcí je poskytnout grafické zobrazení jako podklad k interpretaci strukturálních charakteristik dat. Zobrazení má podobu grafu znázorňujícího body na ploše a připomíná proto mapu. To svádí k intuitivnímu „čtení“, které se zaměřuje na vzájemnou blízkost či vzdálenost jednotlivých slov tvořících shluky. Správná interpretace, zvláště při vyšších hodnotách stresu, však spočívá ve sledování celkových strukturních charakteristik, jakými jsou polarita, rozptýlenost/sevřenost, oddělenost/spojitost, jádro/okraj. V předchozích výzkumech se nám ukázaly jako relevantní dominantní rysy polarita [Hájek et al. 2006; Hájek & Kabele 2010] a jádro/okraj [Hájek & Bayer 2007]. Kromě celostního čtení konfigurace je třeba při interpretaci grafů vzít v úvahu následující skutečnosti: a) Jednotlivé dimenze nemají substantivní smysl a graf lze proto libovolně otáčet a převracet; velmi četná slova, která prostupují rozsáhlé oblasti textu (např. slova „lidé“ a „člověk“), jsou zobrazena blíže středu grafu, de facto vymezují střed konfigurace, a jejich vzájemné pozice jsou velmi stabilní; zatímco slova relativně méně častá a frekvenčně nesvázaná s jinými slovy se nacházejí na okrajích grafu a jejich pozice se při změně parametrů zobrazení může změnit. Krajním případem by bylo takové slovo, které by bylo přítomno v každé kontextové jednotce a které by logicky v grafu muselo mít pozici zcela uprostřed, protože jeho vzdálenost k ostatním slovům (tj. spoluvýskyt) by byla dána jen jejich frekvencí v textu. V důsledku tohoto trendu je při interpretaci někdy využíváno rozdělení konfigurace na výseče, mající společný střed, poněvadž vzdálenost slov od středu vytvořeného nejfrekventovanějšími slovy vypovídá zejména o jejich relativní frekvenci v korpusu, nikoliv o jejich specifické distribuci. b) Interpretace je pochopitelně ovlivněna významem jednotlivých slov, nicméně v grafu nelze nahradit slova tečkami nebo čísly za účelem dosažení objektivnější interpretace nezávislé na našem lingvistickém porozumění. I tak by bylo sice možné odhalit izolované shluky, ale nikoliv např. polaritu pole, kdy na jedné straně grafu se nacházejí slova vážící se např. k politickému diskurzu a na druhé straně ke slovům odkazujícím na každodenní život. Proto i když musíme vzít při interpretaci v úvahu význam sledovaných slov, nepojímáme vzdálenost prvků v textovém prostoru jako primárně sémantickou, ale jako vzdálenost diskurzní. c) Konečně je třeba uvést, že věcná interpretace konfigurací slov v korpusu zobrazených prostřednictvím MDS nemá žádnou „technickou“ oporu nezávislou na studovaném problému [Shepard 1980]. V tomto smyslu nemůže být ani „objektivní“ a závisí na schopnosti výzkumníka vynalézt
- 29 -
smysluplné vysvětlení získané konfigurace slov. Velkou výhodou je proto provádět srovnávací analýzy několika korpusů a při interpretaci se opírat o diskuzi jejich specifických i sdílených rysů. Vraťme se opět k našemu ilustrativnímu příkladu biografických rozhovorů. Na základě vytvořených frekvenčních slovníků jsme pro každý korpus vybrali 50 nejfrekventovanějších slov (včetně jejich forem a vyskytujících se synonym) a z nich sestavili analytické slovníky. S využitím programu COOA jsme spočítali vzájemnou vzdálenost slov v kontextové jednotce pět vět a matici spoluvýskytů normalizovali Jaccardovým koeficientem podobnosti. Matici jsme použili jako vstupní data pro nemetrické mnohorozměrné škálování v programu SPSS. Pro výpočet dvojrozměrné konfigurace jsme použili proceduru PROXSCAL, pracující s maticí podobností. Ostatní parametry byly standardní, tak, jak je program nabízí; počet iterací byl 1 000 náhodných startů a procedura byla několikrát opakována za účelem získání konfigurace s nejnižším stresem. Výsledný graf pro korpus biografických rozhovorů žen dělnic je na obrázku 1, graf mužů, příslušníků inteligence je na obrázku 2. Jak interpretovat graf spoluvýskytů frekventovaných významových slov ve vyprávěních žen dělnic (Obrázek 1)? Nejdříve zkusíme najít střed grafu, který by měl být v okolí nejfrekventovanějších slov. To jsou v tomto případě slova „dítě“ (1 087×), „škola“ (734×) a „práce“ (716×) vč. jejich variant. Pozice těchto slov je opravdu ve středu grafu, tzn. že konfigurace není nestandardně excentrická. Dále nás zajímá hustota slov, zdali lze identifikovat oblasti nahuštění, které by mohly indikovat nějakou diskurzní strukturu, např. výrazné téma, které by bylo pro tyto vypravěčky charakteristické. Z grafu je patrné, že největší hustota je v jeho středu, který tvoří jakési jádro, a okolo něj je prstenec ostatních slov, která jsou více či méně rovnoměrně rozptýlena. Tato struktura je vyznačena elipsami. Naslepo, bez znalosti slov, které tuto diskurzní strukturu tvoří, bychom ji mohli interpretovat tak, že vyprávění žen-dělnic má určitou osu, která prochází napříč jednotlivými vyprávěními a která je tvořena 10–15 vysoce frekventovanými slovy. Na tuto osu jsou navěšena témata, která, vzhledem k prázdnému prostoru, jenž odděluje jádro od prstence slov kolem něj, jsou diskurzně kvalitativně odlišná, tzn. že ve vyprávěních hrají sekundární roli. Podíváme-li se na konkrétní slova, která jsou v grafu zastoupena, můžeme ověřovat, zdali má navržená struktura i sémantickou logiku, jestli v ní zachycená distribuce slov je interpretovatelná vzhledem k jejich významu. V diskurzním jádru se nacházejí slova dítě, škola, dům, otec, máma, rodiče, rodina, práce, peníze, doma, život…, která se vážou na základní biografické aspekty lidského života: dětství, rodiče, školu, rodinu, zaměstnání. To je ona diskurzní osa, která zřetelně prochází většinou vyprávění a dominuje jim. Ostatní slova na periferii grafu se vztahují k různým životním sférám - 30 -
- 31 -
Graf spoluvýskytĤ slov pro korpus biografických vyprávČní žen dČlnic.
Obrázek 1.
- 32 -
Graf spoluvýskytĤ slov pro korpus biografických vyprávČní mužĤ, pĜíslušníkĤ inteligence.
Obrázek 2.
nebo situacím, které ve vyprávěních – z globálního hlediska – hrají spíše vedlejší roli. Na obrázku 2 je znázorněn graf rozmístění slov podle jejich spoluvýskytů v korpusu biografických vyprávění mužů, příslušníků inteligence. Tento graf jsme vybrali z toho důvodu, že naslepo, bez znalosti zobrazených slov, ho prakticky nelze interpretovat. Na rozdíl od předchozího případu, jsou zde body „rozházené“ po ploše bez rozeznatelné struktury. Interpretaci opět začínáme od nejfrekventovanějších slov v korpusu, která jsou: „lidé“ (2 604×), „škola“ (2 238×) a „člověk“ (1 523×). Dvojice slov „lidé“ a „člověk“ jsou ve středu grafu, což vypovídá o jejich málo specifickém používání v životopisných rozhovorech, zatímco „škola“ je mimo střed grafu a vymezuje tak jedno z velkých témat rozhovorů, kterým je vypravěčovo vzdělávání. Tato sféra je v grafu označena jako škola. Ovšem diskurzní sféra školy na levé straně plynule přechází ve slova, která se mohou vyskytovat jak při líčení zaměstnání vypravěče, tak při líčení politické situace. Z toho můžeme usuzovat, že pracovní uplatnění mužů, příslušníků inteligence je v jejich vyprávěních úzce provázáno s politickými faktory a politickým životem společnosti i jednotlivců, kdy na jedné straně (vlevo) se mluví o vlastní participaci (pasivní či aktivní) na politickém životě zejména v pracovní sféře a na druhé straně (dole) o celospolečenském politickém uspořádání („režim“, „systém“). Dalším významným strukturním rysem vyprávění, který je zřetelný z grafu, je polarita mezi diskurzní sférou pracovně-politickou a sférou rodinnou, která je na protilehlé straně grafu a vytváří jen úzkou výseč. Tento rys výrazně odlišuje tuto skupinu vypravěčů od skupiny předchozí, kde slova vztahující se k základním biografickým epizodám domova, dětství, vzdělání, rodiny a zaměstnání tvořila osu vyprávění. V biografických vyprávěních mužů, příslušníků inteligence takováto osa přítomna není a vyprávění přecházejí od školního vzdělávání k práci ovlivňované politickými okolnostmi a sféra domova a rodiny zaujímá jen relativně malé místo, které s politikou a zaměstnáním úzce nesouvisí. Co z této interpretace grafů spoluvýskytů nejčastějších významových slov vyplývá pro výzkumnou otázku – zdali a případně jak rozlišují pamětníci ve svých životopisných vyprávěních sféru soukromého a veřejného života a zdali se u různých sociálních skupin vypravěčů tyto sféry liší? Pochopitelně zde prezentovaná analýza byla ryze ilustrativní a na jejím základě můžeme činit jen tentativní závěry. Hlavním zjištěním je, že ve vyprávěních není veřejné a soukromé – ať již je definujeme jakkoliv – diskurzně výrazným polarizujícím prvkem. Naopak, hypotetické sféry veřejně-politického a privátně-rodinného jsou diskurzivně propojeny prostřednictvím líčení školního vzdělávání a pracovního uplatnění. Zvláště sféra práce se jak u dělnic, tak u příslušníků inteligence nachází v těsné blízkosti nebo přímo obsahuje slova vztahující se ke komunistické straně a jejím organizačním - 33 -
jednotkám a členům. Poukazuje to na skutečnost, že často zmiňovaný útěk do privátního světa v osmdesátých letech nevytvořil výraznou oblast soukromí, která by dala v pamětnických vyprávěních vznik rozeznatelné diskurzní sféře postavené na roveň líčení vzdělávání nebo zaměstnání, ve kterých se privátní a politické mísí. Pro bližší zjištění povahy dichotomie soukromého a veřejného bychom museli analyzovat jednotlivé životní sféry a v jejich rámci sledovat distinktivní znaky této dichotomie. 5. Diskuze a závěr Cílem tohoto textu bylo seznámit čtenáře se specifickou metodou počítačové textové analýzy, která je založena na sledování spoluvýskytů frekventovaných slov v souboru textů a jejich následné vizualizaci ve dvourozměrném prostoru, která umožňuje identifikovat kvantitativně výrazné diskurzní struktury. Tato metoda je použitelná na široké spektrum textů, od odpovědí na otevřené otázky v dotaznících přes texty produkované masovými médii až po texty biograficky narativního charakteru, které zde posloužily jako ilustrační ukázka. Máme-li rekapitulovat hlavní výhody a omezení představené metody, je její silnou stránkou schopnost zpracovat velké množství textu bez nutnosti zapojení lidských kodérů a přitom zachytit relevantní aspekty dat, tj. přirozeně se vyskytující diskurzní struktury. Její hlavní slabinou je predominantní závislost na frekvenčním rozměru dat, tzn. že jevy a struktury, které se neprojevují frekvenčně zřetelnými rysy, nejsou touto metodou zachytitelné. Tato slabina ovšem není tak významná, jak by se mohlo na první pohled zdát. V úvodní pasáži jsme diskutovali častý problém textových analýz spojený s kódovacími strategiemi. Lidští kodéři jsou skrze své porozumění textu schopni zachytit mnohem více relevantních aspektů textu, zvláště ve vztahu k jeho významovému a strategickému použití. Na druhou stranu mají opodstatněný sklon nalézat více možných způsobů čtení textu a tím komplikovat rychlé kódování většího množství textu. Metoda sledování spoluvýskytů slov „čte“ text tak, že zviditelňuje frekventované struktury spojené s použitým lexikem (slovy). Ovšem vzhledem k tomu, že pracuje s velkým množstvím textů zpravidla podobného charakteru, relevantní struktury by měly být přítomné ve velké části textů a tak i kvantitativně postižitelné. V našem ilustrativním případě například rozdílná distribuce spoluvýskytů frekventovaných slov ukázala na přítomnost diskurzivní osy v biograficky orientovaných rozhovorech žen dělnic, která zahrnovala hlavní životní etapy, zatímco v případě mužů, příslušníků inteligence takováto struktura přítomna nebyla a rozhovory se vyznačovaly spíše biograficky relevantními, ale přeci jen více tematickými diskurzními oblastmi. Z tohoto hlediska by se metoda neměla používat na textová data, která jsou buď příliš heterogenní, kde nelze předpokládat opakující se diskurzní struktury (po- 34 -
kud však nechceme analyzovat právě důsledky této heterogenity, jako např. v [Hájek a kol. 2006]), nebo na data sestávající z několika málo souvislých textů, kde opakující se lexikálně postižitelné diskurzní struktury nebudou kvantitativně výrazné (např. porovnání dvou biografií). Poslední slovo věnujeme hodnocení, jaké možné uplatnění má tato textová metoda (se svými přednostmi a slabinami) v sociologickém výzkumu. Jak jsme poznamenali v úvodu článku, současná společnost je charakteristická extenzivní produkcí sebepopisů. Tyto sebepopisy – od mediálních zpráv přes sociologická šetření až ke sběru biografických vyprávění – jsou to, co nám jako aktérům pomáhá se v komplikované společnosti orientovat. Už David Riesman v Osamělém davu poukazoval na tento druh vnějškového řízení, které namísto v dřívějších dobách v dětství jednou socializovaných etických pravidel umožňuje lidem v pozdně moderní společnosti vést spořádaný život [Riesman 1968]. Tímto odkazem chceme poukázat na kvalitativní změnu, která spočívá v kvantitativním rozdílu. V současnosti jsme zahlceni texty a schopnost orientovat se v nadbytku informací nabývá na významu. Spolu s tím i metody, které dokážou tento fenomén velkého množství dostatečně reflektovat a jsou uzpůsobené k jeho zachycení a analýze. Jednu z takových metod jsme se pokusili v tomto článku představit
Literatura Alexa, M. 1997. Computer-assisted text analysis methodology in the social sciences. ZUMA –Arbeitsbericht 97/07. Mannheim: ZUMA. Austin, J.L. 1962. How to do Things with Words: The William James Lectures delivered at Harvard University in 1955. Ed. J. O. Urmson, Oxford: Clarendon. Berka, P. 2003. Dobývání znalostí z databází. Praha: Academia. Bernard, H. R.; Ryan G. W. 1998. Text analysis. Qualitative and Quantitative Methods. In H. R. Bernard (ed.). Handbook of Research Methods in Cultural Anthropology. Walnut Creek: AltaMira, 595–646. Carley, K. 1993. Coding Choices for Textual Analysis A Comparison of Content Analysis and Map Analysis. Sociological Methodology 23: 75-126. COOA 2009. Co-occurrence Analysis Software. Praha: Fakulta sociálních věd UK, Dostupné z:
. Cousins, K.; Mcintosh, W. 2005. More than Typewriters, More than Adding Machines: Integrating Information Technology into Political Research. Quality and Quantity 39(5): 581-614. Cox, T. F.; Cox. M. A. A. 2001. Multidimensional Scaling. Boca Raton, FL: Chapman and Hall/CRC.
- 35 -
Chung, Y. M.; Lee J. Y. 2001. A corpus-based approach to comparative evaluation of statistical term association measures. Journal of the American Society for Information and Technology 52: 283–296. Dagan, I. 2000. Contextual Word Similarity. In. Dale, Moisl & Sommers (eds.) Handbook of natural language processing. New York: CRC Press, 459476. Firth, J. R. 1957. A Synopsis of Linguistic Theory 1930–1955. In Studies in Linguistic Analysis. Special volume of the Philological Society. Oxford: Blackwell, 1–32. Foucault, M. 2002. Archeologie vědění. Praha: Herrmann a synové. Dale, R.; Moisl, H; Somers, H. L. 2000. Handbook of natural language processing. New York: CRC Press. Guérin-Pace, F. 1998. Textual Statistics. An exploratory tool for the social sciences. Population 10(1):73-95. Hájek, M.; Bayer, I. 2007. Diskurzivní stabilita „ne/spravedlivého“ v českém tisku. In: Hájek a kol. Praktiky ne/spravedlnosti: pojmy, slova, diskurzy. Praha: Matfyzpress, str. 155–189. Hájek, M.; Kabele, J. 2010. Dual discursive pattern in Czech activists‘ internet media communication. European Journal of Communication 25(1): 43–58. Hájek, M.; Kabele, J.; Vojtíšková, K. 2006. ‚Zázemí‘ a ‚bojiště‘ v usilování o spravedlnost: textová analýza odborářské, feministické a lidskoprávní mediální komunikace. Sociologický časopis 42 (2): 269–290. Han, J.; Kamber, M. 2006. Data mining: concepts and techniques. San Francisco: Morgan Kaufmann. Hebák, P., Hustopecký, J.; Pecáková, I.; Průša, M.; Řezenková, H.; Svobodová, A.; Vlach, P. 2005. Vícerozměrné statistické metody. Díl 3. Praha: Informatorium. Krippendorff, K. 2004. Content Analysis. Thousand Oaks, London, New Delhi: Sage. Luhmann N. 1988. Tautology and Paradox in the Self-Descriptions of Modern Society. Sociological Theory 6(1): 21-37. Mohammad, S.; Hirst, G. 2005. Distributional Measures as Proxies for Semantic Relatedness. [cit. 13. 8. 2006]. Dostupné z: . Mohr, J. W. 1998. Measuring Meaning Structures. Annual Review of Sociology 24: 345–70. Popping, R. 2000. Computer-assisted Text Analysis. London, Thousand Oaks: Sage Publications. Riesman, D. 1968. Osamělý dav. Praha: Mladá fronta.
- 36 -
Roberts, C. W. 1997. Text analysis for the social sciences: methods for drawing statistical inferences from texts and transcripts. London: Routledge. Shepard, R. N. 1980. Multidimensional Scaling, Tree-Fitting, and Clustering. Science 210: 390–398. Shepard, R. N.; Romney, A. K.; Nerlove, S. B. (eds.) 1972. Multidimensional scaling: Theory and applications in the behavioral sciences. New York: Seminar Press.
- 37 -