Studijní podklady
Sekundární analýza socio‐ekonomických dat a zdroje dat Martin Vávra, Tomáš Čížek Sociologický ústav AV ČR, v.v.i.
Kontakty na autory Martin Vávra, Tomáš Čížek Český sociálněvědní datový archiv Sociologického ústavu AV ČR Jilská 1, 110 00 Praha 1, tel.: +420 ‐ 210 310 231 e‐mail: Martin Vávra,
[email protected] Tomáš Čížek,
[email protected] Tento studijní materiál byl připraven v rámci projektu Laboratoř sociálně ‐ vědních výzkumů ‐ inovace studijních oborů Sociologie, Politologie a Evropská studia v souladu s potřebami trhu práce. Hlavní řešitel: Univerzita Palackého v Olomouci, Filozofická fakulta, Katedra sociologie a andragogiky. Projekt je spolufinancovaný Evropským sociálním fondem a státním rozpočtem České republiky, registrační číslo: CZ.1.07/2.2.00/07.0126. Studijní materiál vyšel též na CD‐ROM jako součást souhrnné elektronické publikace s názvem Zkoumání veřejného mínění, zdroje dat a kvalita dat z výběrových šetření vydané Sociologickým ústavem AV ČR, v.v.i., v Praze 2011. Text neprošel jazykovou úpravou. © Sociologický ústav AV ČR, v.v.i., Praha 2011.
Obsah 1. Data v sociologii 2. Zdroje sociologicky relevantních dat 3. Sekundární analýza dat a její předpoklady 4. Sociálněvědní datové archivy 5. Systém Nesstar a práce s ním
Tento studijní materiál by měl studentům pomoci zorientovat se ve spleti datových zdrojů pochopit význam sekundární analýzy dat a funkci datových archivů uvědomit si problémy a omezení, které jsou se sekundární analýzou sociologických dat spojeny naučit se pracovat s nástroji pro vyhledávání a on‐line analýzu dat využít takto získaná data pro vlastní práci
1.) Data v sociologii Začněme konstatováním něčeho v podstatě zřejmého ‐ data představují základnu, na které je možno budovat sociologické analýzy a interpretace. Sociologie může být samozřejmě také teoretická a spekulativní, ale nemůže být pouze taková, jinak by ztratila kontakt ze sociální realitou. Co vše mohou sociologicky relevantní data být nelze nikdy dopředu přesně vymezit. Jisté je, že takových dat existuje široká škála. Patří sem například záznamy pozorování, osobní dokumenty jako jsou deníky či dopisy, přepisy rozhovorů, a tak bychom mohli pokračovat. V tomto studijním materiálu se zabýváme především (i když nikoli výhradně) daty číselnými a z nich převážně daty z dotazníkových šetření. Tato data představují v rámci sociologie zdroj asi nejvyužívanější, koneckonců jak říká jeden z klasiků empirického výzkumu "jen málo z inovací v sociálních vědách mělo takový význam jako dotazníkové šetření" (Presser 1984:93). V sociálních vědách se využívání dat z kvantitativních šetření prosadilo postupně v období po druhé světové válce. Je to vidět například na tom, že v období pěti let po válce pouze 24% článků v nejvýznamnějších sociologických žurnálech (jako je například American Sociological Review) využívalo tento typ dat, zatímco o třicet let později to bylo už 56% (Presser 1984:96). Přesto bychom neměli zapomínat, že jde jen o jeden z typů dat relevantních pro sociologii. Aby využívaní dat bylo efektivní, je potřebná existence jejich centralizovaných úložišť, která budou data shromažďovat, kontrolovat, upravovat a popisovat a následně je zpřístupňovat zájemcům ‐ zkrátka budou provádět datový management. Moderní trend umožněný rozvojem informačních technologií směřuje ke stále snadnější dostupnosti dat. Na této cestě je sice potřebné překonat řadu překážek (jakou je například nutnost uvést data do plného souladu se zákony na ochranu osobních údajů), ale lze doufat, že po ní sociální vědy půjdou stále rychleji. V této studijní opoře se budeme nejprve věnovat stručnému představení vybraných datových zdrojů a možností přístupu k nim. Následuje nástin principů a předpokladů sekundární analýzy dat a datových archivů jakožto instituce, která vytváří předpoklady pro takovou analýzu. Poté představíme systém Nesstar, který je v současnosti asi nejpoužívanějším prostředkem pro on‐line prezentaci a analýzu dat. V závěrečné části se pak věnujeme archivům kvalitativních dat a problémům spjatým s archivací kvalitativních dat
1
2.) Zdroje sociologicky relevantních dat: mezinárodní programy šetření s českou účastí, statistické úřady, data mezinárodních organizací, specializované služby Jak už jsme zmínili, nelze dopředu nijak přesně vymezit, co může být zdrojem relevantním pro sociologii. Dále uvedené zdroje tedy nepředstavují nějaký vyčerpávající seznam, ale spíše nejvýznamnější příklady takových zdrojů, a to pouze zdrojů kvantitativních dat. Co se týče typů zdrojů, uvést je nutno zejména:
sociálněvědní datové archivy (jedná se o infrastrukturu speciálně vytvořenou pro akademický výzkum), kam spadá i Český sociálněvědní datový archiv – ty budou podrobněji rozebrány v následujících částech
weby výzkumných projektů (jako příklad stránky mimořádně informačně bohaté je možno uvést web European Social Survey1)
statistické úřady (Eurostat, národní statistické úřady)
mezinárodní instituce (OECD, World Bank,...)
tématické archivy (The World Database of Happiness2)
inventáře, adresáře datových služeb (NESSIE,...)
weby výzkumných institucí, autorských týmů
Převážná většina datových zdrojů, kterými se zde budeme zabývat má podobu webových stránek a on‐line přístupných databází. Co očekávat od akademické datové infrastruktury?
zdroje dat, materiálů pro výzkum a informací o výzkumech
možnost zveřejnění vlastních dat
zázemí pro organizaci komparativních a speciálních projektů
výuka metod analýzy dat ...informační technologie, standardy ...
Mezinárodní sociálněvědní výzkumné programy Následuje přehled vybraných významných zdrojů dat, která obsahují česká data. 1 2
http://europeansocialsurvey.org/ http://worlddatabaseofhappiness.eur.nl/
2
European Social Survey http://europeansocialsurvey.org/ Obrázek 4.1. Stránky projektu European Social Survey
European Social Survey představuje v současné době asi špičku co se týče kvality dat (velký důraz je kladen na kvalitu výběru vzorku i na mezinárodní srovnatelnost dat). Této výzkumné série, která je prováděna každé dva roky (poprvé v roce 2002, Česká republika se zúčastnila všech šetření z výjimkou toho provedeného v roce 2006) se účastní většina evropských zemí. Data jsou dostupná všem na stránkách projektu, stačí se zaregistrovat.
3
SHARE – Survey of Health, Ageing and Retirement in Europe http://www.share‐project.org/, http://iweb.cerge‐ei.cz/share/ Obrázek 4.1. České stránky projektu SHARE
Zdroj: SHARE. International Social Justice Project http://www.isjp.de/
European Working Conditions Survey (EWCO) Eurofound, www.eurofound.eu.int/ewco/surveys
4
Obrázek 4.2. EWCO: online analýzy, agregovaná data, publikace
Zdroj: EWCO. Comparative Study of Electoral Systems (CSES) www.cses.org Obrázek 4.3. Centrum dat CSES
5
Zdroj: CSES. Democracy and Local Governance (DLG) www.ssc.upenn.edu/dlg International Crime Victim Survey, UNICRI/ICVS http://www.unicri.it/wwd/analysis/icvs/index.php Multinational Time Use Study, MTUS http://www.timeuse.org/mtus/ Šetření OECD: vzdělávání, konkurenceschopnost
International Adult Literacy Survey (IALS) / Secondary International Adult Literacy Survey (SIALS) Statistics Canada: http://search2.odesi.ca/)
www.statcan.ca
(dohledatelný
Progress in International Reading Literacy Study (PIRLS)
Trends in International Mathematics and Science Study (TIMSS) timss.bc.edu, lighthouse.air.org/timss
Programme for International Student Assessment (PISA), www.pisa.oecd.org
6
přes
ODESI
Obrázek 4.4. Stránky TIMSS a PIRLS
Zdroj: TIMSS a PIRLS. Evropský statistický systém Mikrodata v ESS – přístup k primárním datům
dva typy dat
úplné soubory považovány za důvěrné: přístup v „safe centres“
odvozená data zcela anonymní: distribuce na CD pod heslem na základě smlouvy
šetření
European Community Household Panel (ECHP)
Labour Force Survey (LFS)
EU Statistics on Income and Living Conditions (EU‐SILC)
Structure of Earning Survey (SES)
7
Community Innovation Survey (CIS)
Adult Education Survey (AES)
Continuing Vocational Survey (AES)
Farm Structure Survey (FSS)
Přístup k agregovaným datům ze statistik Evropského statistického systému (ESS) http://epp.eurostat.ec.europa.eu/ Obrázek 4.5. Přístup k tabulkám ze statistik ESS
8
Český statistický úřad http://www.cso.cz Obrázek 4.6. ČSÚ na Webu
Zdroj: ČSÚ. Národní statistický portál http://czso.cz/csu/nsp.nsf/i/home
9
Za pozornost stojí i tento portál, který je sice provozovaný ČSÚ, ale jsou na něm soustředěna data i z celé řady dalších institucí jako je například Ústav pro informace ve vzdělávání nebo Ústav zdravotnických informací a statistiky ČR. Statistická služba OECD http://www.oecd.org ‐> statistics — OECD.Stat Extracts: výběr statistik, volný přístup — OECD.Stat: kompletní statistická služba, hrazený přístup — Country Statistical Profiles, profily zemí OECD, volný přístup — OECD Factbook: základní fakta — publikace (PDF) Obrázek 4.7. Členění statistik OECD
Zdroj: OECD.
10
Další datové služby — World Bank, www.worldbank.org/data — UNESCO: vzdělání, věda a výzkum, kultura, komunikace, www.unesco.org — NATO Science, Technology and Research Network (STARNET) , starnet.rta.nato.int — WHO (health), WHOSIS www.who.int/whosis Doporučená literatura: Krejčí, J. „Mezinárodní sociální komparativní výzkum a Česká republika: Přehled výzkumů a dostupných dat“. Sociologický časopis / Czech Sociological Review 42 (1): 149‐173. 2006. http://sreview.soc.cas.cz/uploads/1c32576704fe5af0fa3274ddc9e34bf04968e79e_582_110 krejci24.pdf
11
3.) Sekundární analýza dat a její předpoklady Sekundární analýza je analýza dat pořízených pro jiný výzkumný záměr, než v jehož rámci jsou právě používána. To mimo jiné znamená, že analytik nebo tým analytiků provádějících sekundární analýzu se nepodílel na vytvoření původního datového souboru. Pro to, aby bylo provádění sekundárních analýz možné, je ovšem potřeba data sdílet. Od počátku profesionalizace sociologie (která se dá datovat k založení jejích univerzitních kateder a výzkumných institucí) prudce narůstá množství prováděných výzkumů. Dříve byly výzkumy silně svázány s konkrétními týmy a bylo těžko myslitelné, aby například někdo znovu zpracoval primární data vyprodukovaná týmy soustředěnými kolem klasiků dotazníkových šetření jako byli Lazarsfeld nebo Stouffer. Dnes je to díky rozvoji technologií (především internetu) mnohem jednodušší. Mezi výhody sekundární analýzy patří větší rozsah zdrojů, která má výzkumník k dispozici, nízké náklady a nižší organizační náročnost ve srovnání s tím kdy by si data zajišťoval sám, a nové možnosti výzkumu. K čemu ještě je dobrá (kromě finančních a organizačních výhod) sekundární analýza a tedy i sdílení dat v sociálních vědách (podle [ICPSR 2005])?
Podporuje různorodost analýz a interpretací. V sociálních vědách velmi zřídka existuje jediná možná interpretace dat a pokud umožníme více vědeckým týmům pracovat na jednom datovém souboru, získáme hlubší představu o dané oblasti;
Podporuje otevřené vědecké zkoumání. Když jsou data veřejně dostupná, je možné opravit chyby v předchozích analýzách;
Díky sdílení dat je možné vyvíjet lepší metody sběru a analýzy dat;
Díky tomu, že výzkumníci se při plánování nových výzkumů mohou opírat o výzkumy předchozí, je možná určitá (i když v sociálních vědách vždy omezená) kumulativnost poznání.
Samotný výzkumník se svým týmem využije vždy pouze malou část informací, které se v datech skrývají. Otestuje pouze některé hypotézy o vztazích mezi proměnnými, použije jen omezený počet analytických metod. Dostupnost dat také může omezit duplikaci výzkumů. Existují významná šetření, která díky tomu, že byla nejprve velmi dobře (a s velkými náklady) připravena a provedena a posléze prostřednictvím datových archivů dána k dispozici vědecké veřejnosti, dala vzniknout stovkám článků a konferenčních příspěvků, z nichž velká část byla vyprodukována lidmi, kteří se na těchto výzkumech přímo nepodíleli. V Evropě jsou významnými příklady výzkumné série ISSP a European Social Survey. Ve Spojených státech je to případ General Social Survey. Pro sekundárná analýzu ovšem existují i limity:
tím prvním je samozřejmě nedostupnost „vhodných dat“ – když vhodná data zatím nebyla sebrána, tak si je samozřejmě buď musíme sebrat v terénu sami, nebo je potřeba upravit naše záměry, co vlastně budeme analyzovat;
12
druhým je nedostatečná dokumentace původního výzkumu a datového souboru (tedy neexistující nebo nekvalitní metadata), když například nevíme, jakou metodou byl vybírán vzorek, pak je velmi pochybné pouštět se do jakýchkoli statistických analýz;
netransparentnost kvality dat či rovnou nízká kvalita dat;
kompatibilita formátů dat – pro data, která vznikla v posledních cca 15 – 20 letech to většinou není problém, ale starší data se mohou nacházet na dnešními počítači programy nečitelných nosičích a/nebo formátech. Je ovšem úkolem archivů, nikoli uživatelů, aby si s touto situací poradili a data převedly do aktuální podoby.
Následující schéma ukazuje rámec pravidel pro sdílení dat
Vidíme, že sdílení se nachází na křižovatce právních, etických i čistě technických či „datově manažerských“ aspektů. 13
Cyklus života dat: V prostředí, kde dochází ke sdílení dat, nesměřuje jejich využití pouze k předem vymezenému konkrétnímu cíli, po jehož dosažení by bylo ukončeno, ale jejich používání vytváří cyklus. Schéma 2.1. Cyklus života dat
Koncept výzkumu
Recyklace
Sběr dat
Zpracování dat
Distribuce dat
Analýza dat
Archivace dat
Zdroj: Ionescu, Vardigan 2008. Vidíme, že jde skutečně o cyklus, a že datové soubory se vrací zpět do výzkumného procesu v rámci různých projektů. Data mohou být modifikována nebo přispívají k organizaci nových šetření.
14
4.) Sociálněvědní datové archivy Sdílení dat je velmi ekonomické. Když dáme dohromady fakt, že s rozvojem výpočetní techniky je stále jednodušší pracovat s daty a zároveň, že provedení samotného výzkumu je pořád velmi nákladné, pak nám z toho logicky vyjde potřeba instituce, která bude shromažďovat data nebo alespoň informace o nich a bude je poskytovat dalším výzkumníkům tak, aby bylo možno provádět sekundární analýzu dat. Datové archivy jsou právě tou institucí, která sdílení dat institucionálně zajišťuje. Archivace se jistě může dít na zcela základní úrovni, kterou je prosté hromadění a katalogizace dat. Pokud má být ovšem efektivní, pak musí vyvíjet své vlastní techniky a metody práce, což se také v současnosti děje. Existence centralizovaných archivů má velký vliv na podobu současného sociálněvědního výzkumu, protože rozšiřuje možnosti bádání a vytváří východiska pro spolupráci. V důsledku toho je proces vědeckého poznávání správným zpracováním a rozsáhlým sdílením dat jednoznačně posílen. Další využití mohou nalézt služby datového archivu ve výuce. Pro učitele i studenty je jistě lepší, když si mohou při cvičeních zvolit téma, kterému se chtějí věnovat, a nemusí pracovat na umělých souborech (pokud to samozřejmě z pedagogických důvodů není výhodné) nebo například souborech, které jsou dodávány spolu se statistickým softwarem. Studenti také mohou zpracovávat vlastní seminární práce na reálných datech. Lze si jen těžko představit, že by datové archivy v dnešním smyslu slova vznikly v době počátků dotazníkových šetření ve dvacátých a třicátých letech. Tehdejší záznamová média a techniky práce s daty nějakou smysluplnou archivaci primárních dat v podstatě znemožňovaly. První pokusy o založení datového archivu se datují do doby těsně po druhé světové válce. Sociálněvědní datové archivy v dnešním smyslu slova začaly vznikat v šedesátých letech minulého století. Německý Zentral Archiv vznikl v roce 1960, americký ICPSR (Inter‐university Consortium for Political and Social Research), byl založen v roce 1962, další velmi významný archiv, britský UK Data Archive, v roce 1967. V jistém smyslu je úloha datového archiváře jednodušší než pozice klasického archiváře, který musí být schopen ukládat velmi různorodá data. Základní úkol sociologických archivů je „pouze“ skladovat primární data ze sociologických výzkumů a s nimi související dokumentaci. K tomu jsou celkem pochopitelně navázány další přidružené činnosti jako kontrola dat, transformace dat a podobně. I když archiv nezodpovídá za kvalitu dat, která do něj výzkumníci uložili, přesto je nutné před uložením dat provést alespoň elementární úkony, aby se ověřila jejich úplnost. Mnohem komplikovanější úloha pak pro archiv přichází, pokud na nějakém výzkumu přímo spolupracuje a jeho pracovníci jsou (spolu)zodpovědní například za čištění dat, rekódování proměnných a vytváření umělých znaků. K archivaci a archivům patří i zájem o metody výzkumu. I to je celkem logické, neboť jednotlivé týmy a oddělení jsou velice specializované a datové archivy proto často slouží i jako určitá metodologická centra, zabývající se tématy, jako je reprezentativita nebo návratnost dotazníkových šetření. Dalším úkolem pracovníků archivů je vývoj mezinárodně srovnatelných ukazatelů. Je potřeba vyvíjet indikátory, které bude možné použít ve všech zúčastněných zemích – data z
15
komparativních výzkumů jako je například European Social Survey jsou dnes asi těmi nejpoužívanějšími. Úprava těchto nástrojů tak, aby mohly být používány v komparativním výzkumu, náleží do kompetence archivů především proto, že zde je nejlepší přístup ke studiu již provedených výzkumů, a také proto, že pracovníci archivů se na provádění mezinárodních výzkumů podílejí. Za další se podílejí výzkumníci na vytváření „questions banks“, tedy databází otázek použitých v předchozích výzkumech. Například v bance otázek Question bank existující při britském ESCR (Economic and Social Research Council) lze vyhledávat pomocí klíčových slov, výzkumů, nebo slov a slovních spojení použitých v otázkách. Tato obsáhlá banka otázek pomáhá velmi výrazně při tvorbě dotazníků mnoha výzkumníkům. Archivace dat a jejich poskytování pro další analýzy představuje výsledek činnosti tří stran – kromě samotných archivů jsou to uživatelé a také depozitoři. Vysokou úroveň vztahů archivu k (potenciálním) depozitorům je možno zajistit kvalitou datového managementu prováděnou archivem, ale také správným nastavením smluvních podmínek. Ve smlouvě by mělo být stanoveno, jaká data a metadata jsou archivu poskytována a za jakých podmínek. Je možno například stanovit, že data budou koncovým uživatelům poskytnuta vždy pouze se souhlasem depozitora. Většina archivů v současné době rozhodně není v pozici, kdy by mohly čekat na to, až jim data někdo pošle. Je nutno provádět aktivní politiku akvizice dat. Ovšem dokonce i v případě, kdy se podaří nějaká relevantní data dohledat a kontaktovat toho, kdo je vytvořil (vycházíme teď ze zkušenosti našeho archivu), není vůbec jisté, že se data do archivu dostanou. Neochota data poskytovat může být způsobena několika příčinami:
Nedůvěra v kvalitu vlastních dat
Neznalost možnosti archivace a výhod, které archivace přináší
Přesvědčení některých výzkumníků, že data, byť byla pořízena z veřejných peněz, jsou jejich vlastnictvím
V některých případech je samozřejmě poskytnutí dat obtížné z objektivních příčin. Může existovat například konflikt se zásadou anonymity dat, a to především v případech, kdy jde o data z výzkumu nějaké specifické populace.
Nějaké jednoduché řešení zmíněných problémů zřejmě neexistuje. Je potřeba, aby o sobě archivy „daly vědět“ tak, aby pokud možno všichni potenciální depozitoři dat znali archiv i jeho cíle. Ideální by samozřejmě bylo, aby se závazným a vymahatelným stalo obecné pravidlo, že data, která vznikla díky veřejným financím, by měla být nejdéle po ukončení projektu, v jehož rámci vznikla, zveřejněna. Datové archivy svou činnost provádějí, aby uspokojily požadavky svých uživatelů. I vztah s uživateli by se měl odehrávat na určité smluvní bázi. Ta pomůže zajistit, že data budou využívána v souladu s cíly datové archivace, mezi které patří především nekomerčnost využití dat. Pro všechny uživatele je ale především potřeba zajistit vhodný způsob přístupu k datům.
16
V současné době představuje jeden z nejlepších (a určitě nejvyužívanější) nástrojů pro tento přístup systém Nesstar, který je podrobně představen v následující kapitole. Postup získání dat z archivu 1) dobré je mít rozpracovanou koncepci vlastního výzkumu => vím co hledám 2) následuje identifikace vhodných dat (prohledání metadat dostupných na webu archivu, v dnešní době často usnadněno díky systému Nesstar – viz dále) 3) dále je důležité zjistit podmínky pro přístup k datům – v dnešní době jsou naštěstí u „běžných“ datových souborů restrikce pro přístup minimální 4) posledním krokem bývá většinou registrace v dané instituci a získání přístupu k datům Kategorie přístupu k datovým souborům (příklad kategorií používaných Českým sociálněvědním datovým archivem)
soubory přístupné “on‐line” na Internetu (pro jejich užívání platí standardní podmínky) bez nutnosti registrace a/nebo speciálního objednání dat
A soubory dostupné za dodržení standardních podmínek (kam patří zejména nekomerční využití dat)
B soubory dostupné za dodržení standardních a specifických podmínek určených depozitorem (depozitor může například stanovit, že k datům budou mít přístup výhradně uživatelé – výzkumníci)
C soubory – k poskytnutí je nutný písemný souhlas depozitora
X soubory pouze pro vyjmenované instituce nebo osoby, často pouze pro členy výzkumného týmu
Podmínky pro používání datového souboru – příklad
pouze nekomerční výzkum nebo výuka
dodržení předem stanoveného účelu použití dat
ochrana osobních údajů respondentů
respektování autorských práv, citace
zákaz další distribuce bez svolení archivu
sdělení bibliografických údajů publikací
archiv neodpovídá za spolehlivost dat
17
Přehled vybraných zdrojů dat ČR Český sociálněvědní datový archiv SOÚ AV ČR http://archiv.soc.cas.cz V tomto archivu se shromažďují data z dotazníkových šetření prováděných na území ČR. Více o něm v části, která rozebírá systém Nesstar Zahraniční USA ICPSR (Inter‐university Consortium for Political and Social Research) http://www.icpsr.umich.edu/¨ Roper Center http://www.ropercenter.uconn.edu/ Dataverse http://thedata.org/ Ve všech třech případech jde o stránky institucí, které shromažďují data v digitalizované podobě. Nejde pouze přímo o datové soubory z výzkumů, ale také o různé typy metadat (informací o těchto výzkumech) a dat s výzkumy nějakým způsobem spojených jako jsou dotazníky, závěrečné zprávy z výzkumů a podobně. Slovensko Slovenský archív sociálnych dát http://sasd.sav.sk/ Evropa – CESSDA (Council of European Social Science Data Archives) http://www.cessda.org
rozcestník k evropským datovým archivům a k dalším zdrojům dat
množství informací z oblasti archivace a analýzy dat
18
Obrázek 3.1. Archivy sítě CESSDA
Zdroj: CESSDA. Na serveru organizace CESSDA (http://www.cessda.org) vyhledejte odkazy na členské archivy a odkazy na další datové organizace. Vyberte z těchto rozcestníků odkazy na dvě až tři datové organizace a prohlédněte jejich stránky z hlediska obsahu datových knihoven a pravidel přístupu k datům. Vybrané významné národní archivy v Evropě GESIS (dříve GESIS‐ZA) http://www.gesis.org/
rozsáhlá datová knihovna včetně mezinárodních dat
ISSP, EVS, Eurobarometer, East Europe, Election Studies
jarní školy, centrum pro stážisty
19
UK Data, Spojené království, http://www.data‐archive.ac.uk/
rozsáhlá datová knihovna včetně mezinárodních dat
jarní školy, centrum pro stážisty
NSD, Norsko, http://www.nsd.uib.no/
rozsáhlá datová knihovna, regionální data
vývoj technologií (statistika, informace)
CEPS/INSTEAD, Lucembursko, http://www.ceps.lu/
socioekonomická data, centrum pro stážisty IRISS
Výuková a výzkumná centra při archivech
Essex Summer School in Social Science Data Analysis and Collection
http://www.essex.ac.uk/summerschool/
GESIS Spring Seminars
http://www.gesis.org/en/research/events/spring‐seminar/
ICPSR Summer Program in Quantitative Methods
http://www.icpsr.umich.edu/icpsrweb/sumprog/
IMPALLA International Master in Social Policy Analysis
http://www.impalla.ceps.lu/
ECASS ‐ European Centre for Analysis in the Social Sciences, Essex
http://www.iser.essex.ac.uk/research/ecass
GESIS‐EUROLAB, Köln
http://www.gesis.org/en/research/research‐stay/european‐data‐laboratory/
IRISS ‐ Integrated Research Infrastructure in the Socio‐economic Sciences at CEPS/INSTEAD
http://iriss.ceps.lu/ 20
Projděte postup a podmínky pro získání dat z následujících archivů: Český sociálněvědní datový archiv SOÚ AV ČR ‐ http://archiv.soc.cas.cz/ UK Data Archive (Spojené království) ‐ http://www.data‐archive.ac.uk/findingData/findintro.asp (http://www.data‐archive.ac.uk) GESIS (Německo) ‐ http://www.gesis.org/en/services/data/retrieval‐data‐access/ (http://www.gesis.org/)
21
5.) Systém Nesstar a práce s ním Nesstar je webovým řešením pro prezentaci a analýzu datových souborů. Umí data nejen zobrazit, včetně textů jednotlivých otázek, ale dokáže je i analyzovat. Tím se přibližuje možnostem statistických programů, jejich pokročilosti ale samozřejmě nedosahuje. Nesstar umožňuje následující operace:
prohlížení datových souborů a tabulek
prohlížení datové dokumentace
vytváření kontingenčních tabulek
korelační a regresní analýzu
grafickou reprezentaci dat a analýz
vytváření nových proměnných
re‐kódování stávajících proměnných
Jaké znáte statistické programy? Jak se od sebe liší ? Kolik stojí licence k jejich používání ? Podívejme se nyní, jak celý systém vypadá. Uživatel je uvítán následující webovou stránkou:
22
Nesstar ukazuje v levém horním rohu datové katalogy uložené v systému. V případě Českého sociálněvědního datového archivu se jedná o katalog ČSDA, kde jsou uloženy kvantitativní výzkumy a katalog Medard, kde se nacházejí popisy kvalitativních výzkumů. Některé výzkumy jsou v systému uloženy i v anglickém jazyce, většina jich je ale pouze v jazyce českém. Kliknutím na čtvereček vedle názvu katalogu se uživatel dostane k volbě mezi českým a anglickým katalogem a následně do seznamu samotných výzkumů, které jsou uloženy v tematických adresářích (např. ISSP, genderové výzkumy atd.). Informace o jednotlivých výzkumech jsou v systému Nesstar ukládány podle mezinárodního standardu DDI. Co je to DDI? DDI (Data Documentation Initiative) je standard metadat pro popis a dokumentaci datových souborů, který byl vyvinut společnou prací evropských a severoamerických datových archivů, knihoven a statistických úřadů. Je vytvořen tak, aby umožnil automatické počítačové zpracování a je kompatibilní se standardem „Dublin Core“. Více informací lze nalézt na domovské webové stránce projektu www.icpsr.umich.edu/DDI. Některé součásti standardu DDI. Popis dokumentu Tato část dokumentu splňujícího požadavky DDI obsahuje bibliografické informace o dokumentu jako celku. Je to podobná informace, jako je ta, kterou vydavatelé popisují vydané knihy. Je to také část, která je používána elektronickými vyhledávacími systémy k identifikaci datového a metadatového souboru Popis výzkumu Popis výzkumu je část dokumentu, která obsahuje všechny informace o souboru, který je pomocí DDI popisován. V této části se je obvykle možné dozvědět o hlavních výzkumnících, distributorech datového souboru, klíčových slovech, abstraktu popisovaného výzkumu, metodách sběru dat, informacích o místě a času výzkumu a také informacích o zpracování datového souboru. Popis datového souboru Tato část popisuje uložený datový soubor, jsou zde informace o všech souborech, které jsou součástí datového souboru. Je to část, která je užívána pro interní potřeby datového archivu, a také pro automatické systémy zpracování dat.
23
Popis proměnných Část popisu proměnných obsahuje seznam proměnných v daném výzkumu, obvykle rozdělený do skupin, které jsou utvářeny při archivaci podle tematických oblastí výzkumného šetření. Část popis proměnných umožňuje velmi podrobné popsání všech proměnných v datovém souboru tak, aby byly přístupné všechny relevantní informace vzniklé při sběru a zpracování dat. Více viz M. Vávra (2007) Položky hlavního menu každého datového souboru jsou členěny do dvou základních kategorií: 1) Metadata – Informace o datovém souboru, rozsahu výzkumu, použité metodologii a podmínkách poskytnutí datového souboru. Je zde možné stáhnout dotazník a případné další materiály o výzkumu a datovém souboru. 2) Popis proměnných – Zde jsou podle tematických kategorií seřazeny jednotlivé proměnné použité ve výzkumy a jsou uvedeny frekvence jejich kategorií v datovém souboru. V případě, že proměnná představuje odpověď respondenta v dotazníkovém šetření, je zde uvedeno i přesné znění otázky. 3) Třetí kategorii představují záložky; zde si registrovaní uživatelé mohou ukládat vlastní odkazy na jednotlivé výzkumy nebo na jiné informace a analýzy v systému Nesstar. Tabulkový datový soubor (cube), obsahuje pouze složky 'Metadata' a 'Záložky'.
Představení funkcí programu Pro zobrazení možností systému Nesstar je nutné kliknout na symbol „+“ vedle názvu katalogu (ČSDA a MEDARD) v levém pracovním sloupci. Kliknutí rozevře zvolený datový katalog a budou zobrazeny další uložené informace (výzkumy, tabulky a další).
24
Levé pracovní okno (sloupec) V tomto okně se zobrazují všechny publikované zdroje. Pro každý datový soubor je zřízena zvláštní složka, která je dále uspořádána do následujících pod‐složek: Složka Metadata poskytuje informace o uložených datových souborech v následujících podsložkách:
Popis výzkumu
Popis datových souborů
Další dokumentace
Složka Popis proměnných poskytuje informace o všech uložených proměnných v datovém souboru. Pomocí volby '+' lze prozkoumávat tematické skupiny proměnných (pokud byly vytvořeny). Složka Záložky obsahuje záložky, které si uživatelé uložili na server systému Nesstar. Pro používání záložek je nutná registrace uživatele. Popis, tabulky a analýza Tři volby na vrchním okraji pravého pracovního okna představují tři možné způsoby práce s uloženými daty. Pro tabulkové datové soubory není přítomna možnost „Analýza“. 1. Popis Položka Popis obsahuje informace o uloženém datovém souboru, po jejím zvolení je zobrazen abstrakt výzkumu, což je informace základním způsobem popisující studii, na jejímž základě vznikla uložená data. Je zde také možné zobrazit informace o proměnných. Je možno prohledávat skupiny proměnných a jednotlivé proměnné, při zobrazení jednotlivé proměnné se zobrazí základní statistické informace v pravém pracovním okně, a název samotné proměnné nacházející se v levém pracovním okně se zobrazí červenou barvou. 2. Tabulky Volba Tabulky ve svém základním nastavení zobrazuje prázdnou tabulku. V levém pracovním sloupci je možno vybírat proměnné, které lze do tabulky přidávat, a to buď do řádků, nebo do sloupců. Po vytvoření tabulky je možné vytvářet grafy nebo případně mapy, které náš archiv zatím nepodporuje. 3. Analýza
25
Pokud je zvolena možnost Analýza, zobrazí se dvě další možnosti: Korelace a Regrese.
Volba korelace je dostupná ihned, volbu regrese je nutné zvolit kliknutím na název položky. Proměnné do analýzy se vybírají ze seznamu v levém pracovním okně. Zopakujte si, co zjišťujeme pomocí korelační a co pomocí regresní analýzy. Ikony pracovní plochy programu Pravý horní roh pracovní stránky je plný nejrůznějších ikonek. Zde je jejich seznam a také popis toho k čemu jsou:
Zobrazení tabulek Sloupcový graf Graf časových řad Scatterplot Mapa (zatím není dostupné) Vymazat – Tato funkce „vyčistí“ okno s tabulkami, nebo s analýzami. Váha – Uložené datové soubory mohou obsahovat váhy, tato funkce umožňuje
jejich použití. Je také možno použít jako váhy jiné proměnné ze souboru. Podsoubor – Tato možnost dovoluje uživateli provádět analýzy nebo zobrazení grafů na podsouboru kategorií z proměnných (například pouze za osoby mužského nebo ženského pohlaví). Výpočet – Vytváření a rekódování proměnných. Stáhnout – Stahování datových souborů je podmíněno uzavřením smlouvy s archivem. Systém umožňuje stažení datového souboru do většiny používaných statistických formátů (SPSS, STATA, Statistica, SAS,...). Export do tabulkového procesoru – Umožnuje exportovat tabulku, graf nebo výsledek analýzy do formátu Microsoft Excel. Export do PDF – Umožňuje exportovat tabulku, graf nebo výsledek analýzy do formátu PDF. Náhled tisku – Ukáže náhled pracovního okna a otevře dialogové okno tisku. Vytvořit záložku – Umožňuje registrovaným uživatelům vytvářet záložky v rámci samotného Nesstaru (Záložka na serveru). Nápověda – Zobrazí nápovědu k programu.
26
Popis výzkumu
Po zvolení položky Popis a kliknutí na název datového souboru je například zobrazen abstrakt výzkumu v pravém okně. Po kliknutí na proměnnou je zobrazena informace o této proměnné. Tato informace může obsahovat například následující položky:
Jméno proměnné a její label Znění otázky v dotazníku Přehled kategorií proměnné a informace o četnostech
Přehledové statistiky mohou být počet platných případů, standardní odchylka, minimum, maxium a informace o typu proměnné.
27
Prohledávání datové dokumentace Po otevření datového souboru má uživatel možnost prohledávat tři hlavní složky dokumentace, kterými jsou "Metadata", "Popis proměnných" a "Záložky". Při prohledávání datového souboru jsou položky metadat zobrazovány na levé straně stránky. Po zvolení některé z těchto položek se její obsah zobrazí ve velkém okně v pravé části stránky. Složka Metadata obsahuje informace o právě otevřeném datovém souboru, jakými jsou například abstrakt, popis souboru nebo jméno jeho tvůrce. Kliknutím na samotný název složky "Metadata" se zobrazí všechny dostupné informace z této složky. Rozkliknutím jednotlivých položek složky a jejích podsložek se uživatel může dozvědět podrobnější informace o datovém souboru. Složka Popis proměnných obsahuje seznam skupin proměnných (pouze pokud byl vytvořen) nebo pouze jednu položku zobrazenou jako '...'. Po rozbalení těchto skupin proměnných se zobrazí jednotlivé proměnné, případně další podskupiny proměnných. Po kliknutí na jednotlivou proměnnou se zobrazí informace jako je jméno proměnné, text otázky v dotazníku nebo četnosti v pravém velkém pracovním okně webové stránky. Složka „Záložky“ obsahuje seznam záložek, které byly vytvořeny pomocí funkce „Záložka na serveru“ přístupné pomocí obrázkového menu v pravém horním rohu stránky (volba Záložka). Odkazy na jakékoliv stažitelné soubory mohou být dostupné ve složce „Další dokumenty“ která je podsložkou oddílu Metadata. Jsou zde obvykle uloženy původní dotazníky výzkumu a další materiály související s datovým souborem. K otevírání zde uložených souborů je potřeba patřičné programové vybavení, jako je například MS Word nebo Adobe Acrobat. Typy datových souborů v systému Nesstar 1. Data z dotazníkových šetření Dotazníková šetření představují strukturovaný datový soubor s hodnotami proměnných pro každou zkoumanou jednotku šetření. 2. Tabulkové datové soubory (Cubes) Soubory nazývané „cubes“ jsou většinou vícedimenzionální tabulky, které zahrnují dvě nebo více proměnných a také proměnnou, která slouží jako „míra“. Taková data jsou automaticky zobrazována v tabulkovém formátu. Tabulku zobrazenou v pravém pracovním okně lze měnit pomocí nabídkových menu nad tabulkou, kde lze určit, jaká data budou zobrazena. Tabulky jsou předem definovány archivem a obsahují agregované informace, nelze tedy zjistit údaje na úrovni jednotlivého respondenta. Data jsou agregovaná. Pro používání tabulek je nutná registrace. 28
Jak mohu najít, to co hledám? Datový katalog obsahuje velké množství souborů, orientovat se v nich je velmi složité. K usnadnění slouží uživateli Nesstaru různé možnosti vyhledávání. V Nesstaru je možné vyhledávat dvěma způsoby:
Jednoduché vyhledávání
Pokročilé vyhledávání
Jednoduché vyhledávání – jak vyhledávat: V případě jednoduchého vyhledávání jsou hledané termíny hledány v celém publikovaném katalogu datových zdrojů (matadata, proměnné, atd.) 1. Zadáme termín, který chceme vyhledat do okénka nad levým pracovním oknem. 2. Stiskneme Enter nebo klikneme na ikonku dalekohledu Poté bude vygenerován seznam výzkumů obsahujících hledaný termín nebo slovní spojení. Pro vyhledání přímo v určených položkách a pro nalezení například jedné konkrétní proměnné je nutné využít pokročilého vyhledávání. Pokročilé vyhledávání – volba Výzkumy Tato možnost vyhledávání umožňuje vyhledávat v datových souborech a tabulkových datových souborech. K jejímu použití jsou nutné následující kroky: 1. Klikněte na ikonku dvou šipek nad levým oknem. Otevře se nové dialogové okno. 2. V kolonce 'kritéria pro vyhledávání ' vybereme oblast datového souboru, kde chceme vyhledávat. 3. Vybereme vhodný operátor, například slovo „obsahuje“. 4. Zadáme hledaný text do určeného políčka. 5. Můžeme použít volbu 'Více' k přidání dalších oblastí a témat vyhledávání a můžeme také volit různé operátory. Celkem takto mohou být vybrány až čtyři další oblasti vyhledávání. Kliknutím na ´Méně´ odebereme poslední přidanou oblast nebo téma. 6. Stisknutím Enter nebo políčka „Hledat“ začne vyhledávání. 7. Výsledky vyhledávání budou zobrazeny v levém pracovním okně za seznamem uložených datových souborů. 29
Kde lze vyhledávat? Pokud není určeno jinak, vyhledává se ve všech uložených katalozích. Pod dialogovým oknem lze zaškrtnout katalog, ve kterém si přejeme vyhledávat (okénko „Kde hledat?“). Hledání datových souborů, proměnných, nebo tabulek (cubes). V případě, že systém Nesstar obsahuje různé typy datových souborů, jako jsou data z dotazníkových šetření nebo tabulky, můžete zvolit, jaký typ dat chcete vyhledávat. Jsou zde tři možnosti:
vyhledat datové soubory vyhledat proměnné vyhledat tabulky
1. Vyhledat datové soubory V pokročilém vyhledávání lze hledat slova v jedné nebo více oblastech vyhledávání. Všechny oblasti se objeví v rozbalovacím menu a jedná se o oblasti jako je například abstrakt, klíčová slova a podobně. Některé výzkumy nemusí mít vyplněny údaje pro všechny v menu uvedené oblasti. 2. Vyhledat proměnné Tato možnost vyhledává uvnitř informací uvedených v oddíle „Popis proměnných“. Lze vyhledávat například název proměnné nebo slovo z otázky v dotazníku. Seznam vyhledaných výzkumů se zobrazí v levém pracovním okně. Po kliknutí na vybraný datový soubor se objeví možnost „Otevřít v kontextu“, která otevře datový soubor, ve kterém byla proměnná nalezena. Tato proměnná je pak červeně zvýrazněna. 3. Vyhledat tabulky V případě vyhledávání tabulek lze používat oblasti vyhledávání metadat, stejně jako u datových souborů z dotazníkových šetření. Vyhledávání uvnitř jednoho datového souboru 1) Je nutné nalézt "identifikační údaj" datového souboru v oddílu Metadata. 2) Ve vyhledávacích možnostech je nutné zvolit položku "Identifikační údaj“ a vložit vyhledaný údaj. 3) Pomocí volby „více“ vložíme další vyhledávající kritéria 4) Stisknutím Enter nebo políčka „Hledat“ začne vyhledávání.
30
Analytické možnosti programu Vytváření tabulek K vytvoření tabulky obsahující jednu nebo více proměnných z datového souboru je potřeba provést následující kroky: 1. Vybereme datový soubor v levém pracovním okně. 2. Otevřeme ho pomocí kliknutí na ikonu . 3. Klikneme na volbu Tabulky, která bude aktivní (je nutné být přihlášen) 4. V Popis proměnných vyhledáme námi zvolenou proměnnou. 5. Vybereme tuto proměnou kliknutím na její jméno. 6. Vybereme operaci, kterou chceme s danou proměnnou provést (např. přidat do řádku) 7. Tento proces opakujeme do doby než máme v tabulce všechny proměnné, které potřebujeme Možnosti přidávaní proměnných jsou následující: Přidat do řádku – přiřadí proměnnou do řádku tabulky.
31
Přidat do sloupce – přiřadí proměnnou do sloupce tabulky. Přidat do podúrovní – tabulka je vytvářena pro každou kategorii dané proměnné zvlášť, tato proměnná je pak graficky zvýrazněna. Přidat jako míru Pokud je spojitá (!) proměnná přidána do prázdné tabulky, program vypočítá statistické charakteristiky této proměnné. Jedná se o následující údaje: medián, průměr, minimum, maximum, směrodatná odchylka, suma, počet případů, různé intervaly spolehlivosti a kvartily. Proměnná může být také přidána do tabulky jako míra (measure) ostatních proměnných. Například v případě spojité proměnné Věk přidané do tabulky obsahující proměnné Stav a Pohlaví se zobrazují například průměrný věk, nebo ostatní charakteristiky (minimum, maximum, směrodatná odchylka a suma) pro každou kombinaci výše uvedených proměnných. Jako „míru“ lze použít pouze jednu proměnnou. Vybírání proměnných z hierarchicky strukturovaného datového souboru Proměnné mohou být vybírány z různých hierarchických úrovní. Například může být jedna proměnná vybrána z datového souboru domácností a druhá z datového souboru jednotlivců, systém pak pro analýzu obě datové úrovně spojí. Je to ovšem možné pouze u přímo provázaných datových souborů. Práce s tabulkami Na horním okraji každé tabulky je větší množství roletových nabídek pro každou znázorněnou proměnou. Mohou zde být i kolonky Typ a Míra. Kolonka Proměnná/Dimenze V této kolonce lze provádět následující operace:
Vybrání jiné úrovně proměnné, pokud to datový soubor dovoluje, lze vybrat proměnné například na národní či regionální úrovni.
Vybrání kategorie do podúrovní tabulky. Lze například zobrazovat údaje pouze za muže nebo ženy v proměnné „pohlaví respondenta“.
Přesunout proměnnou ze sloupce do řádku a naopak.
Přesunout proměnnou do podúrovně tabulky.
Zobrazit kategorie proměnné v tabulce.
Vkládat výpočty pomocí vytváření nových kategorií tabulky, viz. sekce Vložit výpočty.
32
Vybrání možnosti okamžitě přepočítá danou tabulku, pro volby „vybrat kategorie“ a „vložit výpočet“ se otevře nové dialogové okno. Funkce 'Vložení výpočtu' umožňuje vytvoření nových vypočtených kategorií a jejich zobrazení v tabulce. Jsou dostupné následující funkce:
Přičíst
Agregovat
Odečíst
Násobit
Dělit
Procenta
Procenta z celku
Průměr
Procentní růst
Použití funkce 'Agregovat' Tam, kde políčka tabulky obsahují hodnoty typu „průměr“, lze agregovat hodnoty dvou a více takových buněk k vytvoření agregovaného průměru. Další možnosti práce s daty Kromě generování tabulek umožňuje systém i pokročilejší statistické operace v oddíle ANALÝZA. Jedná se korelační a regresní analýzu. Volba „Korelace“ vyvolá prázdnou korelační tabulku. Proměnné lze do analýzy přidávat ze seznamu v levém sloupci pomocí volby „Přidat do korelace“. Regresní analýza se provádí obdobně zvolením „Regrese“. V levém sloupci zobrazujícím proměnné je pak možno vybrat nezávislou proměnnou a proměnné závislé. V případě provedení analýz jako je korelace, regrese nebo v případě vytvoření tabulky je možno vytvářet grafy. To platí i pro datové soubory ve formě tabulek. Sloupcový graf
Použití této funkce záleží na počtu a typu proměnných v tabulce. Všechny proměnné a jejich kategorie budou v grafu zobrazeny.
33
Velké tabulky nemusí být možné zobrazit v grafu, pokud nastane tento případ, zobrazí se varovná zpráva. Vyřešit to lze přesunem některých proměnných/dimenzí do podúrovní. Rozsah hodnot grafu lze měnit pod oknem grafem pomocí volby změnit, volba vymazat změnu zruší.
Sloupcový graf tento typ grafu je dostupný, pokud je v tabulce jedna nebo více proměnných (a nejedná se o jedinou míru).
Součtový sloupcový graf) (a žádná míra).
Výsečový graf míra).
Box whisker (krabicový graf) dostupný, pokud jsou v tabulce dvě a více proměnných, z nichž jedna musí být míra. Pokud je v tabulce přítomna pouze míra, zobrazí její frekvence s normálním rozdělením a kvartily.
Graf intervalů spolehlivosti dostupný, pokud jsou v tabulce dvě a více proměnných, z nichž jedna musí být míra.
Sloupcový graf s průměrem dostupný, pokud jsou v tabulce dvě a více proměnných, z nichž jedna musí být míra.
dostupný, pokud jsou v tabulce dvě a více proměnných
dostupný, pokud jsou v tabulce dvě a více proměnných (a žádná
Regresní graf
Je dostupný pouze po provedení regresní analýzy, nahrazuje ikonu sloupcového grafu. Graf časových řad
Je dostupný pouze pokud je v tabulce přítomna časová proměnná/dimenze. Scatterplot
Je dostupný pouze po provedení regresní analýzy, nahrazuje ikonu grafu časových řad. Mapa
Funkce mapy není prozatím podporována, ale do budoucna se s jejím zprovozněním počítá.
34
Úprava dat Data lze v programu Nesstar upravovat i jiným způsobem, např. překódováním, různými možnostmi matematických operací a také vytvářením podsouborů. Výpočet a překódování Funkce Výpočet slouží k vytváření uživatelských proměnných podle předem definovaných statistických a matematických výpočtů. Funkce překódování slouží k vytváření nových proměnných pomocí nového kódování hodnot proměnných. Použití funkce 'Výpočet': 1. Funkci vybereme kliknutím na ikonku . Funkce je dostupná pouze v případě, že datový soubor obsahuje vhodná data. Po zvolení funkce je možné pracovat s již vytvořenými uživatelskými proměnnými. 2. Pokud tyto proměnné nebyly vytvořeny, objeví se dialogové okno "Vytvořit".
3. Použitím libovolného typu výpočtu nebo funkce překódování začne proces vytváření nové proměnné. 4. Pokud existují dříve vytvořené uživatelské proměnné, lze je odstranit pomocí funkce "Vymazat".
35
Výpočet Pro funkci „Výpočet“ jsou dostupné následující operace: Funkce „Přičíst“ umožňuje přičítání konstanty nebo hodnoty jiné proměnné (případně více proměnných) ke zvolené proměnné. Tato operace (stejně jako všechny níže popsané) se po zadání provede kliknutím na políčko „Ok“, zruší se zvolením „Zrušit“. Funkce „Odečíst“ umožňuje odečítat hodnoty jedné proměnné od hodnot proměnné druhé. Umožňuje také odečíst hodnoty zvolené proměnné od konstanty, nebo naopak odečítání konstanty od proměnné. „Násobit umožňuje násobení proměnných navzájem nebo násobení zvolenou konstantou. „Dělit“ umožňuje dělení proměnné jinou proměnnou, dělení konstanty proměnnou nebo dělení proměnné konstantou. Funkce „Procenta“ porovnává hodnoty jedné proměnné jako procentní vyjádření vzhledem k druhé proměnné (As % of)¨. Stejně jako v předchozích operacích lze použít místo proměnných i zvolenou konstantu. Funkce „Průměr“ vypočítá průměr jedné nebo více proměnných. Funkce „Procentní růst“ vypočítá procentní vyjádření hodnot jedné proměnné vzhledem k hodnotám druhé proměnné. Překódování Funkce „překódování“ se používá pro vytvoření nové proměnné z proměnné existující pomocí změny jejích původních kategorií na nové. Jsou dostupné následující možnosti: 1. Hodnota – překóduje na novou hodnotu. 2. Rozsah: ... do... – rozsah nových hodnot proměnné. 3. Rozsah: nižší než – rozsah začíná na nejnižší hodnotě a pokračuje až do zvolené hodnoty. 4. Rozsah: ... vyšší než – začíná zvolenou hodnotou a končí nejvyšší hodnotou. Novou proměnnou a její popisek je nutno vyplnit v kolonce „Nová proměnná“.
36
Co když mi Nesstar nestačí? Pokud uživateli funkce programu Nesstar z jakéhokoliv důvodu nedostačují, má možnost stáhnout si datové soubory přímo do svého počítače v následujících formátech:
SPSS soubor
SPSS portable soubor
NSDstat
Statistica
Stata v8
Stata v7
Stata v6
DIF (Data Interchange Format, pro použití v MS Excel)
DBase
Text file
37
Delimited (Tab delimited)
SAS
Comma Separated Values (CSV)
Uživatel může stáhnout i podsoubor vytvořený z datového souboru. Pro otevření stažených souborů jsou nutné programy pro otevírání „zip“ souborů. Tabulkové (cube) datové soubory Tabulkové datové soubory není možné data stáhnout, jako je tomu u dat z dotazníkových šetření. Tabulku lze ale exportovat jak do tabulkového procesoru kliknutím na ikonku nebo do souboru PDF kliknutím na . Stahování metadat Tato možnost je dostupná jak pro data z dotazníkových šetření, tak pro data ve formě tabulek. Metadata je možno stáhnout ve formátu HTML nebo XML. Zobrazení výsledků Výsledky analýz mohou být ukládány třemi následujícími způsoby:
Export do tabulkového procesoru – Umožňuje exportovat tabulku, graf nebo výsledek analýzy do formátu Microsoft Excel. V dialogovém okně vašeho webového prohlížeče, zvolte možnost "Uložit na disk" nebo "Otevřít v programu...".
Export do PDF – Umožňuje exportovat tabulku, graf nebo výsledek analýzy do formátu PDF. V dialogovém okně vašeho webového prohlížeče, zvolte možnost "Uložit na disk" nebo "Otevřít v programu...".
Náhled tisku – Ukáže náhled pracovního okna a otevře dialogové okno tisku. Náhled lze uložit i jako webovou stránku pomocí funkce vašeho webového prohlížeče "Uložit jako".
Na serveru organizace CESSDA (http://www.cessda.org) vyhledejte odkazy na členské archivy a odkazy na další datové organizace. Podívejte se na stránky jednotlivých archivů a zkuste vyhledat, jakým způsobem zpřístupňují svá data. Většina členských archivů CESSDA má zaveden systém Nesstar, podívejte se na jednotlivé katalogy Nesstar v případě různých archivů.
38
Použitá literatura Čížek, T. M. Vávra. 2007. „Co všechno znamená NESSTAR?“. Data a výzkum ‐ SDA Info 1 (1), pp. 19‐33. http://archiv.soc.cas.cz/download/629/DaV0701_p19_33.pdf ICPSR. 2009. Guide to Social Science Data Preparation and Archiving. Best Practice Throughout the Data Life Cycle. Ann Arbor: Inter‐university Consortium for Political and Social Research, University of Michigan. http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf Krejčí, J. „Mezinárodní sociální komparativní výzkum a Česká republika: Přehled výzkumů a dostupných dat“. Sociologický časopis / Czech Sociological Review 42 (1): 149‐173. 2006. http://sreview.soc.cas.cz/uploads/1c32576704fe5af0fa3274ddc9e34bf04968e79e_582_1 10krejci24.pdf Vávra, M. „Archivace sociologických dat“ Data a výzkum ‐ SDA Info 1 (1): 7‐17. 2007. http://archiv.soc.cas.cz/download/628/DaV0701_p7_18.pdf Presser 1984:93 Ionescu, Vardigan 2008 ICPSR 2005
Doporučená literatura Čížek, T. 2007. „Co všechno znamená NESSTAR?“. Data a výzkum ‐ SDA Info 1 (1), pp. 19‐33. http://archiv.soc.cas.cz/download/629/DaV0701_p19_33.pdf Vávra, M. „Archivace sociologických dat“ Data a výzkum ‐ SDA Info 1 (1): 7‐17. 2007. http://archiv.soc.cas.cz/download/628/DaV0701_p7_18.pdf
39