Funguje to, co děláme? aneb možnosti kontrafaktuálních evaluačních přístupů ke zjišťování skutečných účinků veřejných politik. (V prezentaci je použita část materiálů z letní školy ve Fenestrele 1.-12.9.2010, vedené Albertem Martinim)
Jazyková terminologická poznámka • Terminologie Counterfactual impact evaluation v současné době nemá ustálenou českou podobu (případně nemá žádnou českou podobu). • Rozvoj českého pojmosloví je jedním z vedlejších cílů evaluačního projektu, v jehož rámci se koná tento seminář. • Ve svém vystoupení tak budu užívat jak anglických termínů, tak budu experimentovat s možnými odpovídajícími českými pojmy. • Zpětnou vazbu k pojmosloví vítáme!
Cíl workshopu • Seznámit s konceptem Counterfactual Impact Evaluation (?srovnávacího hodnocení dopadů?), možnostmi a limity použití použití jednotlivých metod. • Ambice je v posunu účastníků ze stavu „nevím, co nevím“ do stavu „vím, co nevím“ (nenaučím vás CIE). • Připravit předmostí pro častější používání kvantitativních metod v prostředí českých strukturálních fondů. • Přinést úvod do problematiky před navazujícím workshopem, který se věnuje aplikaci metod CIE na oblast podpory 1.1 OP LZZ – „Adaptabilita“
Co to je ta Counterfactual impact evaluation • Nejprve se pustíme vysvětlení klíčových pojmů: counterfactual a impact • O vysvětlení pojmu evaluace se raději pokoušet nebudu…
Kontext Při hodnocení programů strukturálních fondů existují tři základní otázky: • „Manažerská“: Plním plán? – Na tuto otázku více-méně odpovídá monitoring
• „Politická“: Přináší to výsledky dostatečné, abych byl opět zvolen? (Accountability) – Pokrok metodou pokusů a omylů?
• „Vědecká“: Co funguje, jak a proč? – Intuice se může mýlit, co platí jsou důkazy. – Kauzalita se nemůže jen předpokládat, musí se prokázat (snižují rekvalifikace nezaměstnanost?).
V současná (česká/evropská) evaluační praxe stojí hodně na názorech expertů a málo na rigorózních důkazech, často se píše o tom, jak a proč něco funguje, aniž by se věrohodně prokázalo, že to vůbec funguje.
Counterfactual impact evaluation Counterfactual impact evaluation je důsledně vědecký převážně kvantitativní přístup opírající se experimenty a kvaziexperimenty (kontrolní a srovnávací skupiny / control & comparison groups). Není to jediný správný přístup (průzkumy, případové studie, ekonometrické modelování, kvalitativní metody obecně jsou také důležité). Není vždy použitelný (vyžaduje velké „N“, dostatek dat, určitý typ intervence…). Pomocí CIE nelze hodnotit program jako celek (příliš složitý komplex), ale velmi dobře některé projekty, výzvy či oblasti podpory. Ale pokud jde použít, představuje „zlatý standard“ kvality důkazů. V rigorózním designu CIE se snadno hledají chyby (pro toho, kdo tomu rozumí), protože je velmi transparentní. CIE evaluátoři jsou nazí evaluátoři.
What the hell is „Counterfactual“!? • „Český“ pojem kontrafaktuál není nic moc. • Nenapadá mě výstižnější než „co-by-kdyby“. • Counterfactual tedy označuje hypotetickou situaci, která by nastala, pokud by intervence nebyla realizována. Jde o stav cílové oblasti v případě alternativní historie. • Counterfactual nelze pozorovat, jde o fikci, ideu. V řadě případů však lze pomocí statistických metod a za explicitně vyjádřených předpokladů counterfactual věrohodně odhadnout (estimate). • Odhad kontrafaktuálu (?nulové varianty?) je ústředním problémem Counterfactual impact evaluation – CIE.
Intermezzo I Terminologická vsuvka • Pozorovatelnost • Observability
• Dostupnost dat • Data accessibility
• Je principiální, teoretická.
• Je praktická záležitost, dostupnost může být limitována rozpočtem, (ne)existencí záznamů atd.
Dekonstrukce pojmu Impact • Impact, česky dopad je v žargonu strukturálních fondů (vzor 2007-2013) zpravidla chápán v souvislosti s logickým rámcem (logframe, logical framework) jako nějaký finální výsledek, dlouhodobý efekt intervence kdesi na konci tradiční kauzální linie vstup => aktivita => výstup => výsledek => dopad
Stylizovaný logframe vstupy
aktivity
výstupy výsledky
operativní
specifické
cíle Jak se toto sleduje?
indikátory
dopady
globání
Indikátory dopadu • Současné (2007-2013) metodiky EK říkají: • “The ultimate objective of Structural Funds and Cohesion Fund assistance is a certain impact, measured as far as possible by impact indicators” • Indikátory mají různá označení, která pomáhají uchopit jejich význam. • Máme indikátory vstupů (input indicators), indikátory výstupů (output indicators), … indikátory dopadů (impact indicators), indikátory kontextu (contextual indicators),… • Pokud indikátory výstupů měří výstupy, pak indikátory dopadů měří dopady??? dopady.
NE! • Protože to by znamenalo, že impact je pozorovatelný a stav cílové oblasti po intervenci je ovlivněn pouze intervencí samotnou.
Aby bylo jasno: Na indikátorech není nic špatného. Něco shnilého ve státě dánském je však s indikátory pokud jde o přičitatelnost (attribution). Klíčovou otázkou je, zda indikátory samy o sobě mohou měřit impact/dopad.
Intermezzo II Dva často zaměňované pojmy • Contribution (česky = přispění?)
• Attribution (česky = přičitatelnost?)
• Užívá se pro vyjádření, že zkoumaná intervence má nějaký účinek na cílovou oblast, tj. je schopna dění v cílové oblasti (nějak) ovlivnit. Neboli: je intervence jedním z faktorů ovlivňujících cílovou oblast? Na „contribution“ lze usuzovat z konstrukce teorie změny (popisu kauzálních vztahů intervence) a zkoumáním naplnění jejích předpokladů.
• Označuje skutečný příspěvek intervence ke stavu cílové oblasti. Co intervence skutečně způsobila? Jakou změnu cílové oblasti lze přičíst jen intervenci po očištění dalších vlivů? „Attribution“ lze odhadnout pomocí metod „Counterfactual impact evaluation (CIE)“.
Odlišné významy Impact • V kontextu logického rámce (a EK 2007-2013) • Pozorovatelná proměnná • Stav, který plánujeme, nebo si přejeme, aby nastal
• V kontextu counterfactual impact evaluation (a snad EK 2014+) • Nepozorovatelný rozdíl mezi pozorovatelnou skutečností a hypotetickým stavem • Skutečný účinek intervence
Na logických rámcích není nic špatného • Jsou nenahraditelné pro plánování (Kéž by každý program či projekt měl už v základním dokumentu namalovanou teorii změny!)
• Jsou důležité pro monitoring • Jsou užitečné pro evaluace • Ale nemohou dost dobře odpovědět na základní otázku: „FUNGUJE TO?“
Impact v kontextu CIE • Sociální vědy definují impact/dopad jako • “the difference between a situation observed after a stimulus has been applied and the situation that would have occurred without such stimulus” • „rozdíl mezi situací pozorovanou po provedené intervenci a situací, která by nastala bez takové intervence“.
Co je tedy impact? • Impact lze definovat pouze, pokud víme: • Dopad čeho zkoumáme (intervence/treatment) • Dopad pro koho (a ve srovnání s kým) zkoumáme (pro podpořené osoby, firmy) • Dopad na co zkoumáme (na konkrétní proměnnou – tržby, zaměstnanost, výdělek…) • Otázka jaké jsou dopady OP LZZ proto bez dalšího upřesnění nedává smysl.
Co je tedy impact? • Dopad/impact je definován jako rozdíl v hodnotě zkoumaného indikátoru (Y) v situaci s intervencí (Y1) a v situaci bez intervence (Y0). • Tedy, impact = Y1 – Y0 • Impact lze v tomto kontextu použít jako synonymum slov efekt, účinek, dopad. Nemá smysl se zabývat tím, zda jde o efekt krátkodobý či dlouhodobý.
Co je tedy contrafactual impact evaluation? “An impact evaluation is a study which tackles the issue of attribution by identifying the counterfactual value of Y (Y0) in a rigorous manner“ CIE je studie, která řeší problém přičitatelnosti (attribution) pomocí hledání kontrafaktuální hodnoty Y (Y0) rigorózním, vědeckým způsobem. CIE není umění. Je to věda. No dobře, je to věda, při které se občas hodí trocha intuice.
Ideální postup evaluace 1.
Kvalitativní přípravná studie s cílem porozumět zkoumané intervenci (klíčové je přesné zmapování procesu výběru účastníků/participants). 2. Kvantitativní evaluace - konstrukce kontrafaktálu (získáme odpověď na otázku FUNGUJE TO?) (CIE) 3. Pokud to statistické parametry (velikost vzorku apod.) dovolí, lze zkoumat otázku PRO KOHO TO FUNGUJE LÉPE? (CIE) (Ryzí kvantitativci mohou skončit zde.) 4. Kvalitativní studie (např. případové studie) s cílem vysvětlit PROČ TO (NE)FUNGUJE? (Theory based evaluation, case studies)
Jak účinkuje intervence Zjednodušený příklad • Předpokládejme, že náš program (treatment) spočívá v možnosti získat grant v jednotné výši 50.000 Kč na vytvoření jednoho pracovního místa. Jde o binární proměnou, buď T=1 (existuje možnost grantu) nebo T=0 (neexistuje možnost grantu). Pro zjednodušení: každý, kdo grant dostane, pracovní místo i vytvoří. • Výsledek je také binární, buď se vytvoří místo (Y=1) nebo nevytvoří (Y=0).
Co může v tomto jednoduchém světě nastat? Počet vytvořených míst
S intervencí Bez intervence (Y|T=1)
(Y|T=0)
Dopad (Y|T=1) - (Y|T=0)
1
0
= 1
Always takers/pilní:
1
1
= 0
Never takers/líní:
0
0
= 0
1
= -1
Compliers/ovlivnitelní:
Defiers (kverulanti): (také se jim říká puberťáci)
0
Možné výsledky
T=1
Pozitivní dopad je jen mezi ovlivnitelnými, je však obtížné je identifikovat
COMPLIERS
ALWAYS-TAKERS
1 δ=1
δ=0
δ=0 0 NEVER TAKERS
δ = -1 1
DEFIERS
T=0
T=1
COMPLIERS
1 δ=1
ALWAYS-TAKERS
δ=0
Řekněme, že neexistují (nebo jich je zanedbatelný počet – jsou fakt divní).
δ=0 0
δ = -1
NEVER TAKERS
DEFIERS (Pokud existují)
1
T=0
T=1
COMPLIERS
1 δ=1
δ=0
ALWAYS-TAKERS
δ=0 0
Jsou pozorovatelní: NEVER TAKERS Ti, kteří si grant mohli vzít, ale nevzali. T=0
T=1
Vzali si grant a změnili své chování COMPLIERS
1 δ=1
0
ALWAYS-TAKERS Vzali si grant, ale nové místo by vytvořil i bez něj
δ=0
1
T=0
T=1
Neexistuje zjevný způsob jak je odlišit COMPLIERS
1 δ=1
0
ALWAYS-TAKERS
δ=0
1
T=0
Co může v tomto jednoduchém světě nastat? S intervencí Bez intervence
Impact
(Y|T=1)
(Y|T=1) - (Y|T=0)
(Y|T=0)
Compliers (ovlivnitelní):
1
0
= 1
Always takers (pilní):
1
1
= 0
Never takers (líní):
0
0
= 0
Defiers (kverulanti):
0
1
= -1
(také se jim říká puberťáci)
Compliers: Y = 1 Always takers : Y = 1 Never takers : Y = 0
To je vše co lze pozorovat!
Se všemi daty (a se všemi myslitelnými indikátory) nemůžeme určit, které z 1000 podpořených firem by vytvořily pracovní místo i bez obdrženého grantu. Takže zatím nevíme, jaký byl dopad naší politiky
A také zde narážíme na jeden další pojem – Mrtvá váha • DEADWEIGHT není nic jiného než maskovaný counterfactual; • DEADWEIGHT je výsledek always-takerů; • DEADWEIGHT není efekt, který by se měl odečíst, spíše ukazuje na absenci zamýšleného efektu zkoumané politiky; • DEADWEIGHT je zpravidla uvažován, jen pokud stojí peníze, jinak nikoho nezajímá (přitom čistě logicky mrtvá váha politiky nařizující snížení rychlosti na silnici jsou ti, kteří jezdí pomalu sami od sebe); • DEADWEIGHT pohřbíme na Hřbitov Zbytečných Pojmů, protože – Je nepozorovatelný, a proto nepoužitelný v monitoringu – Je redundantní v konceptu CIE
Occamova břitva “entia non sunt multiplicanda praeter necessitatem” „pojem nemá být vytvořen pokud to není nezbytně nutné“. † Deadweight † Hrubý dopad Hřbitov zbytečných pojmů
† Čistý dopad † Indikátory dopadu † Účelnost / Effectiveness † (Účinnost / Efficiency)
Odlišit compliers a always takers je stejný problém jako odlišit impact a counterfactual (nebo †deadweight) Potřebujeme další data a (netestovatelné) předpoklady, abychom mohli impact odhadnout.
Potřebujeme identifikační strategii (identification strategy)
Přehled identifikačních strategií (designů CIE) Existuje několik základních přístupů, které vyžadují různě silné předpoklady. Neexistuje univerzálně nejlepší přístup. Některé ale vyžadují tak silné předpoklady, že jsou v praxi neužívané (ale svojí jednoduchostí se hodí k pochopení těch složitějších). Zpravidla mají velmi silnou interní validitu, avšak často slabší externí validitu.
Intermezzo III Terminologická vsuvka • Vnitřní platnost • Internal validity
• Vnější platnost • External validity
• Vnitřní čistota vědeckého postupu, kdy ze samotné jeho konstrukce vyplývá platnost závěrů pro konkrétní zkoumaný jev.
• Souvisí se zobecnitelností závěrů. • Např.: pokud prokáži s velkou interní validitou, že impact OP LZZ na zaměstnanost podpořených žen v jihočeském kraji ve srování s nepodpořenými byl velký, mohu usuzovat, že OP LZZ bude fungovat i na muže v moravskoslezském kraji?
Interní a externí validita Slabou interní validitu má např. fokusní skupina vybraná metodou sněhové koule. Slabiny CIE metod v externí validitě lze odstranit opakováním velkého množství evaluací obdobných intervencí nebo kombinací s kvalitativními metodami (mixed methods), kdy poté, co díky CIE zjistím, jak moc intervence funguje, mi např. Theory based impact evaluation může osvětlit, proč to funguje.
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
PRE & POST • Měříme pouze situaci účastníků před intervencí a po intervenci. • Tzv. one group pretest posttest design (Před a po bez kontrolní skupiny) • Základní předpoklad: neexistuje přirozená dynamika, tj. bez politiky by zůstal původní stav • Takto lze např. zjišťovat „Dopad stavebních aktivit ŘSD v roce 2010 na délku dálniční sítě v ČR“
PRE & POST • Problém je v akceptovatelnosti předpokladu, že neexistuje přirozená dynamiky, protože věci se, jak známo, mění samy od sebe. • Pokud přirozená dynamika je nulová, pak je dopad skutečně roven rozdílu mezi konečnou a výchozí situací. • Pokud však je přirozená dynamika pozitivní (věci se samovolně zlepšuji), pak by byl dopad nadhodnocen. • Pokud je přirozená dynamika negativní (věci se zhoršují), pak by byl dopad podhodnocen.
PRE & POST • Možností rozvinutí tohoto přístupu je získání dalších pozorování – časové řady • One group interupted time-series design Výdaje na vzdělávání zaměstnanců (mil. Kč) 30 25
Impact?
Výdaje
20 15 10
Začátek intervence
5 0 PRE (t-3)
PRE (t-2)
PRE (t-1) Čas
PRE (t)
POST (t+1)
PRE & POST • Předpoklad absence přirozené dynamiky se mění na předpoklad neměnnosti trendu. • Stále velmi silný předpoklad • (Můžete se třeba pokusit vyloučit všechna alternativní vysvětlení, proč by se trend mohl změnit.)
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
Intuitivní příklad? • Ve třídě nabídneme doučování z matematiky. • Část žáků se přihlásí, část nikoliv. • Na konci roku je průměrná známka z matematiky ve skupině doučovaných 3,2 a ve skupině nedoučovaných 2,7. • Bylo doučování prospěšné? • Jaký je impact/dopad doučování? • Jak probíhal proces výběru (selection process)?
WITH & WITHOUT • Měříme situaci účastníků po intervenci a situaci neúčastníků po intervenci, rozdíl považujeme za dopad. • Základní předpoklad: neexistují předintervenční rozdíly mezi skupinami způsobené procesem výběru účastníků • Nebo jinak: pokud by ani jedna skupina nebyla podpořena, jejich výsledky by byly stejné.
Diskuse • Navrhněte způsob, jak změřit účinek (impact) doučování žáků z matematiky.
Jak zajistit totožnost (tedy porovnatelnost) skupiny účastníků a neúčastníků, tj. nulový selection bias – nulové zkreslení výběrem účastníků? Tady aby výsledek účastníků a neúčastníků v situaci bez intervence byl totožný?
NEJLEPŠÍ ZNÁMÝ ZPŮSOB JE PROVÉST
NÁHODNÉ PŘIŘAZENÍ (RANDOM ASSIGNMENT) 48
Experimentální metody Randomized control trials • Experimentální design používá náhodně vybranou skupinu účastníků (treated group) a kontrolní skupinu (control group). • Při použití náhodného přiřazení centrální limitní věta (a dostatečná velikost obou skupin) zajistí, že obě skupiny jsou ekvivalentní ve svých pozorovatelných i nepozorovatelných charakteristikách. • Tento přístup má silnou interní validitu (byť existují problémy, zvláště pokud se ví, kdo je v jaké skupině – viz tzv. Hawthrone effect), ale omezenou možnost zobecnění.
Výběr ve skutečném světě strukturálních fondů • 1. Oprávněnost Oprávněnost je dána na základě pozorovatelných, zpravidla objektivních veličin (působí to selecion bias?). • 2. Rozhodnutí o účasti Ne všichni oprávnění podají žádost, rozhodují o tom nepozorovatelné jevy (působí to selection bias?). • 3. Výběr Rozhodování o tom, koho podpořit, probíhá na základě pozorovatelných objektivních i subjektivních veličin, s určitou dávkou náhodnosti (působí to selection bias?).
Výběr ve skutečném světě strukturálních fondů • Složitý proces výběru také přináší otázku, jaký impact sledovat: – Podpořené projekty ve srovnání s nepodpořenými? – Podpořené projekty ve srovnání s těmi, co se nepřihlásili? – Podpořené projekty ve srovnání s neoprávněnými?
• Vše přináší určitou informaci, ne všechno je v praxi stejně snadné.
Zpět k experimentům • Přestože je možnost experimentálního designu pro evaluaci strukturálních fondů velmi nepravděpodobná, není to tak nesmyslné, jak se na první pohled zdá.
Zpět k experimentům • Etická námitka: Nemůžete přeci losovat, kdo dostane podporu a kdo ne, jak k tomu ti nepodpoření přijdou? • Pokud jsme si jistí, že to funguje a nepodpoření mají újmu, tak proč evaluovat? • Pokud si nejsme jistí, že to funguje, jaká újma? • Podívejte na lékaře, ti v experimentech zabíjejí lidi (určitě mnoho lidí zemřelo jen proto, že byly v kontrolní skupině), kvůli nám nikdo neumře.
Co by mohlo být možné (pokud vůbec něco) • Pipeline approach – pokud je poptávka větší než kapacita poskytovatele dotací a nelze všem dát hned, nabízí se možnost losovat kdy na konkrétní projekt dojde (teď nebo za dva roky?), což přináší možnost evaluovat rozdíly ve vývoji po dobu dvou let (častý přístup v rozvojové pomoci). • Různá podpora – např. část projektů dostane úvěr, část grant. CIE pak hodnotí, která z intervencí je lepší (darwinovský přístup k vývoji politik). • Random encouragement (více u Instrumental variable design).
Regression discontinuity design • Využití situace přirozeného experimentu (natural experiment).
Regresní diskontinuita Předpoklady • Existuje nějaká spojitá proměnná, která skokově ovlivňuje pravděpodobnost účasti v podpoře. Úsek, kde funkce p(T=1) p(T=1) 1
nemá definovanou derivaci Cut off point
Funkce p(T=1) „ostrá/sharp“ varianta Funkce p(T=1) „neostrá/fuzzy“ varianta
0 10 20 30 40 50 60 70 80 90 Proměnná X
Regression discontinuity design Nějaký příklad? Počet bodů z věcného hodnocení projektové žádosti. Pravděpodobnost podpory projektu 1
0 10 20 30 40 50 60 70 80 90 Počet bodů
Regression discontinuity design Na čem počet bodů závisí? Na mnoha věcech, které neumíme operacionalizovat. To ale nevadí. Lze přijmout předpoklad, že projekty „těsně“ nad čarou, jsou stejně dobré jako projekty „těsně“ pod čarou. Pro projekty blízko hranice platí, že to, zda jsou nad čarou nebo pod čarou je svým způsobem téměř náhodné.
Regression discontinuity design U sledovaného indikátoru pozorujeme v závislosti na počtu bodů např. toto rozložení (modře výsledky nepodpořených projektů, zeleně podpořených). Vysvětlíme-li závislost jednoduchou regresí zvlášť pro obě části, dostaneme toto:
Impact
Regression discontinuity design Impact lze odhadnout jako rozdíl mezi vnitřními krajními body obou regresních funkcí.
0.70 0.65 Local Average Polynomial fit
0.60
Vote Share, Election t+1
Tento přístup má silnou interní validitu a omezenou externí validitu (omezenou vypovídací schopnost).
Figure IVa: Democrat Party's Vote Share in Election t+1, by Margin of Victory in Election t: local averages and parametric fit
0.55 0.50 0.45 0.40 0.35 0.30 -0.25
-0.20
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
0.20
0.25
Vote Share Margin of Victory, Election t Figure IVb: Democratic Party Vote Share in Election t-1, by Margin of Victory in Election t: local averages and parametric fit 0.70 0.65 0.60
Vote Share, Election t-1
Ukazuje pouze na dopad podpořených vs. nepodpořených projektů v „blízkosti čáry“. Nevíme nic o dopadu pro projekty s maximem bodů nebo pro nepodpořené projekty s málo body (natož pro ty, co nejsou eligible…).
Local Average Polynomial fit
0.55 0.50 0.45 0.40 0.35 0.30 -0.25
-0.20
-0.15
-0.10
-0.05
0.00
0.05
0.10
0.15
Vote Share Margin of Victory, Election t
0.20
0.25
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
Pre & Post + With & Without (Two group pretest posttest design) Máme alespoň 4 pozorování: účastníci před a po a neúčastníci před a po. Základní předpoklad: externí faktory působí na obě skupiny stejně. Metoda: Difference in Difference (DD), „rozdíl rozdílů, dvojitá diference“
counterfactual
PRE DIFFERENCE
POST difference (10.000) - PRE difference (5.000) = Impact = 5.000
?
IMPACT POST 70.000 DIFFERENCE
Nutné předpoklady 1. Kontrafaktuální trend je rovnoběžný s trendem neúčastníků. 2. Všechny nepozorovatelné rozdíly mezi účastníky a neúčastníky jsou konstantní v čase. 3. Selection bias spočívá pouze ve výchozí úrovni, nikoliv v trendu.
Vzhledem k těmto předpokladům může být odhad impactu pomocí DD přibližný, špatný nebo naprosto zcestný. Oprávněnost použití metody závisí na kvalitativní znalosti kontextu zkoumané intervence. Část předpokladů (rovnoběžnost trendu) můžeme testovat za předpokladu, že máme k dispozici další data – časovou řadu pro obě skupiny v PRE období.
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
Ošetření proměnných ovlivňujících participaci T (podpora)
Y (zaměstnanost)
X (vzdělání) Ústřední problém: existuje mnoho jevů, které současně ovlivňují pravděpodobnost, že se osoba bude účastnit naší podpory a sledovanou výslednou proměnnou (např. osoby s nižším vzděláním budeme častěji rekvalifikovat než vysokoškoláky a zároveň má osoba s nižším vzděláním menší pravděpodobnost nalézt zaměstnání než vysokoškolák).
Základním princip • Základním principem je porovnávání účastníka s co nejpodobnějším neúčastníkem. (Vysokoškoláky s vysokoškoláky, zdravotně postižené se zdravotně postiženými). • V praxi se používají statistické metody odvozené od regresní analýzy.
„párování“ Účastníci
Neúčastníci
Předpoklady • Mám informace o charakteristikách účastníků i neúčastníků, které ovlivňují účast i výsledky a mám důvod věřit, že ostatní charakteristiky (k nimž nemám data) jsou v obou skupinách shodně rozvrstveny. • Obě skupiny jsou dostatečně velké (ne o mnoho méně než tisíc) • Existují „podobní“ ve skupině účastníků i neúčastníků
Propensity score matching • Statistická metoda, která umí veškeré charakteristiky (ne)účastníka interpretovat jedním číslem (propensity score), následně porovnává páry s nejbližším propensity score. • Jako by se zkoumané subjekty lišili jen svojí výškou.
Propensity score matching – možnost rozšíření modelu Máme-li k dispozici daje z doby před intervencí i po intervenci (panelová data), lze použít kombinaci metody Difference-inDifference a PSM. Vysvětlovanou proměnnou zde pak není hodnota Y, nýbrž její první derivace, což eliminuje všechny pozorovatelné i nepozorovatelné veličiny ovlivňující výchozí úroveň Y a selection bias může zbýt pouze v rozdílném trendu. Máme-li panelová data i pro vysvětlující veličiny, můžeme eliminovat i proměnlivé trend jednotlivých vysvětlujících proměnných.
Design či metoda
Předpoklad
1
Pre & Post Před a po bez kontrolní skupiny
Neexistuje přirozená dynamika (natural dynamics)
2
With & Without Podpořená a nepodpořená skupina •Randomized control trial (pokus jsou ekvivalentní s náhodný přiřazením účastníků) •Regression discontinuity design (regresní diskontinuita)
3
Pre & Post v kombinaci s With & Without •Metoda „Difference-indifference“ – Dvojí diference
Na obě skupiny působí externí faktory stejně
4
Využití informací o proměnných ovlivňující participaci •Regresní analýza •Propensity score matching
Všechny rozdíly mezi skupinami jsou pozorovatelné
5
•Instrumental variable (instrumentální proměnná)
Existuje něco, co ovlivňuje účast v podpoře, avšak nikoliv výsledek
Instrumentální proměnná Instrumental variable
T (podpora)
X (IV)
Y (výsledek)
Co když existuje proměnná, která ovlivňuje participaci v intervenci, ale která (významně) neovlivňuje výsledek?
Skupinová úloha 2 (jako průprava pro použití instrumentálních proměnných) Cisterna se studenou vodou
Cisterna, kterou jsme se pokoušeli ohřát
Rozbitá baterie (umožňuje míchat vodu v poměru 25:75 až 75:25)
Nádoba s teploměrem
Navrhněte metodu, jak zjistit rozdíl teploty vody v cisternách. Špatně fungující baterie neumožňuje zcela uzavřít jeden zdroj vody, ale umožňuje namíchat směs v různých známých poměrech.
Úloha z matematiky (jako průprava pro použití instrumentálních proměnných) Natočím si jednu směs (např. 0,25 teplé a 0,75 studené) a změřím teplotu (např. 30 °C).
Natočím si jinou směs (např. 0,65 teplé a 0,35 studené) a změřím teplotu (např. 40 °C). Je rozdíl v měření (10 °C) rozdílem teplot v cisternách? NE. Jak spočítám rozdíl? T-S = 10 °C / 0,4 T-S = 25 °C
Úloha z matematiky (jako průprava pro použití instrumentálních proměnných) 0,25 T + 0,75 S = 30 °C 0,65 T + 0,35 S = 40 °C 10 °C = (0,65 T + 0,35 S) – (0,25 T + 0,75 S) 10 °C = 0,4 T – 0,4 S 10 °C = 0,4 (T – S) 10 °C / 0,4 = T – S 25 °C = T – S
Instrumentální proměnná Instrumentální proměnná funguje podobně jako „částečně funkční směšovací baterie“ v předchozím příkladu. Potřebuji nějaký instrument, o kterém vím, že (i) ovlivňuje účast, (ii) neovlivňuje výsledky. Kde ale něco takového najít? První možností je mít štěstí a identifikovat přirozenou IV (např. diskontinuitu v metodikách, administrativní hranice), u které lze úspěšně argumentovat, že ovlivňuje participaci a zároveň neovlivňuje výsledek intervence. U „našeho“ evaluačního projektu je to kvalita hodnotitelů – to, zda projekt dostane přísného nebo shovívavého hodnotitele je náhodné, tato náhoda ovlivňuje šanci, zda bude realizovat projektu, ale neovlivňuje dispozice projektu mít dobré nebo špatné výsledky. Druhou možností je ji uměle vytvořit, často zmiňovaná je možnost, tzv. randomized encouragement / náhodného oslovení.
Náhodné oslovení Mějme pilotní projekt na zlepšení finanční gramotnost. Cílem je zjistit, nakolik naše vzdělávání ve finanční gramotnosti funguje. Postup by byl tento: 1. Uchazeči o zaměstnání na ÚP se mohou účastnit vzdělávání FG. 2. Na tuto možnost jsou však úředníkem aktivně upozorněni pouze uchazeči, kteří se narodili v lichý den. (Umělá instrumentální proměnná). 3. Pochopitelně, uchazeč může účast odmítnout a naopak, ÚP nemůže odmítnout uchazeče narozeného v sudý den, který se o FG vzdělávání doslechl od souseda nebo z médií. 4. Můžeme oprávněně předpokládat, že lidé narození v lichý den jsou stejní jako ti, narození v sudý den. Kdy přišli na svět je náhoda. 5. Pokud naše náhodné oslovení mělo účinek, pak např. ze všech „lichých“ uchazečů se vzdělávání zúčastní 55 % a ze všech „sudých“ jen 15 %.
Náhodné oslovení 6. Po čase např. zjistíme, že z „lichých“ uchazečů 20 % skončilo v registru dlužníků (směs 55% účastníků a 45% neúčastníků). Ze sudých to je 35 % (směs 15% účastníků a 85% neúčastníků). 7. Snadno spočítáme, že účastí na vzdělávání se sníží pravděpodobnost, že uchazeč skončí v registru dlužníků o 0,375. (Průměrný účastník vzdělávání skončí v registru dlužníků s pravděpodobností 3,1 %, totožný průměrný neúčastník s pravděpodobností 40,6 %) => Náš kurs finanční gramotnosti musí být naprosto geniální.
Instrumentální proměnné Omezení designu: • IV přístup má silnou vnitřní logiku, avšak za cenu malé přesnosti (čím menší vliv má instrumentální proměnná na participaci v intervenci, tím se výpočet kontrafaktuálu limitně blíží výrazu 0/0 a nelze prokázat statistickou významnost; je to „drahá“ metoda z hlediska potřebné velikosti vzorku. • IV přístup má omezenou externí validitu, protože zachycuje (nevychýleně) impact pouze pro skupinu compliers.(Tedy přesně měří efekty na tu skupinu, která se nechala ovlivnit naší náhodně cílenou propagací intervence).
Shrnutí – jak vybrat design podle povahy intervence Jde o univerzální nebo neuniverzální intervenci?
Univerzální (např. povinná), existují pouze účastníci. Data jen o účastnících.
Neuniverzální, existují účastníci i neúčastníci. Data mám i o neúčastnících.
One group design Comparison group design Analýza časových řad (Interupted time series analysis)
Mám panelová data nebo využitelný přirozený experiment?
NE. Musím očistit vliv pozorovatelných kontrolních proměnných
ANO
Využitelný přirozený experiment? Propensity score matching
ANO Regresní diskontinuity (RDD) nebo Geografický experiment
NE
Mám panelová data pro výsledek (Y) nebo i pro kontrolní proměnné (X)?
Jen indikátor Y
I kontrolní proměnné (X)
Difference-in-difference (DD) nebo DDD
Propensity score matching v kombinaci s Difference-in-difference (tj. pomocí PSM vysvětluji derivaci Y nikoliv Y samotné)
Výběr metody • Pokud je to možné, je vhodné použít více metod současně jako nástroj testování stability odhadu kontrafaktuálu / impactu. • Výstup dobré CIE není jedno číslo se čtyřmi desetinnými místy, ale spíše interval vzniklý na základě testování stability.
Zdroje dalších informací K metodologii CIE pro intervence typu podpora podniků • Bondonio, Daniele. Impact identification strategies for evaluating business incentive programs. Dipartimento di Politiche Pubbliche e Scelte Collettive – POLIS Working Paper n. 145, June 2009 [online]. URL:
. Studie věnovaná determinantům účasti v programu (užitečná v případě volby metody propensity score matching jako použité identification strategy): • Tanayama, Tanja. Eligibility, awareness and the application decision: An empirical study of firm participation in an R&D subsidy program. Discussion Paper No. 161, April 2007 [online]. University of Helsinki and HECER. ISSN 1795-0562. URL: .
Zdroje dalších informací Příklady zajímavých evaluací: • Gadd, Håkan – Hansson, Gustav – Månsson, Jonas. Evaluating the impact of firm subsidy using a multilevel propensity score approach. Working Paper Series Nr 3, 2009 [on-line]. Centre for Labour Market Policy Research. ISSN 1653-638X. URL: . • Serrano-Velarde, Nicolas. The Financing Structure of Corporate R&D – Evidence from Regression Discontinuity Design. European University Institute [online]. URL: . • Einiö, Elias. The effect of government subsidies on private R&D: evidence from geographic variation in support program funding. Discussion Paper No. 263, May 2009 [online]. University of Helsinki and HECER. ISSN 17950562. URL: . • Bondonio, Daniele – Greenbaum, Robert T. Counterfactual Impact Evaluation of Enterprise Support Policies: An Empirical Application to EU, Co-Sponsored, National and Regional Programs. John Glenn School of Public Affairs Working Paper Series, July 2010 [online]. URL: .
Naše aktivity v oblasti CIE • V běhu: Pilotní kontrafaktuální evaluace dopadu na naší PO1-Adaptabilita (viz navazující workshop) – mezi použitými metodami je – Regresní diskontinuita (u grantových projektů s využitím hranice bodového hodnocení jako diskontinuity) – Instrumentální proměnná (u grantových projektů náhodná míra „přísnosti“ hodnotitelů – Propensity score matching (u podpor ze Vzdělávejte se!)
Naše aktivity v oblasti CIE • Ve stádiu „studie proveditelnosti“ kontrafaktuální evaluace aktivní politiky zaměstnanosti (po technické stránce realizovatelná, nyní řešíme právní problémy z oblasti ochrany osobních údajů). • Hledáme další příležitosti (např. individuální pilotní projekt na finanční gramotnost?).
Zdroje dalších informací Obecně k metodologii Counterfactual Impact Evaluation • DG REGIO. Evalsed: counterfactual impact evaluation [online]. URL: . • Shahidur R. Khandker, Gayatri B. Koolwal, Hussain A. Samad (2010). Handbook on impact evaluation : quantitative methods and practices. The International Bank for Reconstruction and Development / The World Bank. ISBN 978-0-8213-8028-4. URL: . • Konference DG REGIO ve Varšavě 2009: „New Methods for Cohesion Policy Evaluation : Promoting Accountability and Learning“ Workshop 1: Rigorous impact evaluation using counterfactuals URL: . • White, Howard (2010). A Contribution to Current Debates in Impact Evaluation. Evaluation, April 2010, pp.153-164.
Děkuji za pozornost. [email protected] web projektu: http://cie.ireas.cz