Effectonderzoek in de gedragswetenschappen: Zelftoets Antwoorden Open vragen nr
juiste antwoord
1
Effectonderzoek kan een bijdrage leveren aan theorieontwikkeling, aan een betere afstemming van de vele vormen van interventie op de verschillende hulpvragen van volwassenen en kinderen en aan de verhoging en/of waarborging van de kwaliteit van de hulp. Omdat nog onvoldoende (goed) effectonderzoek plaatsvindt om een dergelijke conclusie te rechtvaardigen en omdat er ook studies zijn, waarin negatieve of géén effecten worden gevonden van interventies. Als gevolg van het politieke beleid, dat evidence-based werken stimuleert, en door de groeiende competitie tussen aanbieders van hulp en zorg.
2
3
4
5
6
7
8 9 10 11
Het black box-principe: er is een bepaalde situatie, daarin pleeg je een interventie en vervolgens meet je of de situatie is veranderd. De interventie, bijvoorbeeld het toedienen van medicatie, is een gegeven, daar hoef je verder niet naar te kijken. De hulpverleningspraktijk draait helemaal om de interventie en ziet die als een proces. Er is een idee dat zich ontwikkelt in de praktijk. Er is aan het begin wel een notie over de gewenste uitkomsten, maar nog lang geen zicht op een meetbaar resultaat. De interventie is niet te beschouwen als een vast gegeven, waardoor het black box-principe hier niet goed toe te passen is. Er bestond een gebrek aan kennis van onderzoek en statistiek en er was de kloof tussen onderzoek en praktijk. 1 Observatie, op ideeen komen. 2 Inductie, ideeën scherp formuleren. 3 Deductie, consequenties aan de formuleringen ontlenen voor de empirie. 4Toetsing, nagaan of de consequenties gelden in de empirie. 5 Evaluatie, nagaan of de toetsing goed is verlopen en nagaan wat ik er van geleerd heb. Enkelvoudige deterministische hypothesen Alle A zijn B. Deterministische existentiehypothese, er zijn A die B zijn. Probabilistische hypothesen, de meeste A zijn B. Descriptief. Exploratief. Hypothesetoetsend. Instrumenteel-nomologisch. Interpretatief-theoretisch 1 Voorwerp van studie recht doen. 2 Vermijden van storende subjectiviteit. 1 Probleemstelling. 2 Diagnose. 3 Plan. 4 Ingreep. 5 Evaluatie Alle activiteiten van een (menselijk) organisme, die waarneembaar of registreerbaar zijn of tot waarneembare of registreerbare toestandswijzigingen leiden.
12
13
14
15
16 17
Een interventieprogramma is een geheel van hulpverleningsactiviteiten, die gekenmerkt worden door goed omschreven doelen, gericht op het oplossen, verminderen of voorkomen van risico’s of problemen bij kinderen en/of volwassenen; aansluiten bij toepasselijke theorieën en hypothesen; goed gedefinieerd zijn wat betreft inhoud en doelgroep; in de tijd gefaseerd zijn ter wille van het bereiken van de doelen; en vooraf geplande evaluatiemomenten en evaluatiecriteria bevatten. Wanneer de interventie (a) afhankelijkheid vertoont, dat wil zeggen wanneer er een functionele relatie is tussen onafhankelijke variabele (de interventie) en de afhankelijke variabele (de factor waaruit blijkt dat de interventie invloed heeft); (b) specifiek is, dat wil zeggen de mate waarin bepaalde handelingen verondersteld worden verantwoordelijk te zijn voor de verandering in de participant(en); en (c) niet samengaat met alternatieve verklaringsmogelijkheden, dat wil zeggen de mate waarin het onderzoek er in slaagt verborgen factoren te benoemen en weg te werken. Dat het bij effectiviteit en causale gevolgtrekkingen niet gaat om een allesof-niets zaak. Zij plaatsen het begrip op een continuüm, zodat het mogelijk is om verschillende vormen en niveaus van causale gevolgtrekkingen te onderscheiden. De kosten die de toepassing van een interventieprogramma met zich meebrengt zijn niet alleen voor rekening van degenen die het interventieprogramma toepassen, maar bestaan ook uit de (financiële) inspanningen die de doelgroep zich moet veroorloven om aan het programma deel te nemen. Natuurlijk is het ook van belang om de kosten van het effectonderzoek zelf te ramen en te wegen. In het algemeen is het zo dat hoe hoger het niveau van precisie, betrouwbaarheid en generalisatie is, hoe hoger de kosten zijn in termen van tijd, personele en andere benodigde middelen (Wholey, Hatry & Newcomer, 2004). De kosten van een effectonderzoek bestaan uit benodigde tijd en middelen voor de effectonderzoeker en onderzoeksmedewerkers, maar ook die van beleidsmakers, programmamanagers, ander personeel en de doelgroep van het programma. Deze moeten worden afgewogen tegen de opbrengsten van het onderzoek, zoals de kracht en geloofwaardigheid van het geproduceerde bewijs ten opzichte van beleidsmakers, managers en andere gebruikers en de invloed van de resultaten op de werking van het programma. Ontwikkelen van theorieën. Vooral en in het merendeel langs de weg van de empirische cyclus van wetenschappelijk onderzoek. Het doel van praktijkgericht onderzoek is het ontwikkelen, proberen en evalueren van oplossingen voor praktijkproblemen die bestaan bij aanwijsbare actoren buiten de wetenschap. Praktijkgericht onderzoek wordt ook wel toegepast onderzoek genoemd (Verschuren, 1994) en wordt vaak beschreven aan de hand van de regulatieve cyclus van Van Strien (1975, 1986).
18
19
20
21
Product- en procesevaluaties verschillen wat betreft het doel dat zij nastreven en de criteria die aangelegd worden. Productevaluaties hebben vaak tot doel de rechtvaardiging van de interventie ten opzichte van de uitvoerders, de doelgroep, de opdrachtgever en de financiers of het maken van een beslissing over stoppen of doorgaan met de interventie. Deze doelen worden ook wel summatief genoemd. De criteria op grond waarvan de interventie wordt beoordeeld zijn bij productevaluaties ontleend aan het doel van de interventie (zogenaamde goal-based productevaluaties). De procesevaluatie heeft tot doel het tot stand brengen van veranderingen in de interventie en/of bewustwording van de betrokkenen bij het proces (ook wel formatieve doelen genoemd). De criteria op grond waarvan de effectiviteit van de interventie wordt beoordeeld hoeven bij procesevaluaties niet te zijn ontleend aan het doel van de interventie. Ook de morele, maatschappelijke of politieke waarden kunnen bijvoorbeeld als beoordelingsmaatstaf worden genomen. Het belangrijkste verschil tussen kwalitatieve en kwantitatieve methoden heeft te maken met de mogelijkheid om de verzamelde informatie gemakkelijk tot getallen te reduceren. Kwantitatieve methoden bevatten instrumenten (bijvoorbeeld gestructureerde vragenlijsten, gestandaardiseerde tests) die gemakkelijk vertaald kunnen worden in een kwantitatieve formulering. Informatie, afkomstig van kwalitatieve methoden (bijvoorbeeld participerende observatie, open of semigestructureerde interviews, dagboeken) bestaat in verbale, dus nietkwantitatieve termen. Effectonderzoek is onderzoek, waarin met gebruikmaking van methoden en technieken uit de sociale wetenschappen een waardeoordeel wordt uitgesproken over het feitelijk functioneren van een interventieprogramma, door dat te vergelijken met de doelen ervan en, voor zover mogelijk, de systematische bepaling van de mate waarin het programma een eventueel geconstateerde verandering veroorzaakte, met de bedoeling bij te dragen tot betere, meer gefundeerde, rationelere beslissingen over het programma om uiteindelijk bij te dragen aan een optimale hulp- en zorgverlening. De voorheen gebruikelijke uitdrukkingswijze voor een effect van een interventie was gebaseerd op de statistische significantietoets van bijvoorbeeld de verschillen tussen een groep die de interventie heeft gevolgd en een controlegroep, na afloop van de interventie. In zo’n toetsing kan ook een miniem effect statistisch significant worden, als de grootte van de steekproeven (het aantal mensen dat de interventie volgt en het aantal mensen in de vergelijkingsgroep) toeneemt. Het begrippenpaar significant versus relevant is ingevoerd om een verschil te kunnen maken tussen wat zowel significant als relevant is en wat wel statistisch significant is, maar vakinhoudelijk nauwelijks relevant. Een ES is niet afhankelijk van de omvang van een of meer steekproeven en levert daardoor meer informatie op over de relevantie van de resultaten. ES’s bieden bovendien daardoor het grote voordeel dat men de effecten van verschillende studies kan vergelijken. Het rapporteren van ES verbetert de
eigen interpretatie én stelt de lezers in staat tot een betere interpretatie.
22
23
24
25
26
1. Inventariseren van begrippen en doelen. 2. Van doelen naar criteria en hypothesen. 3. Opstellen van meetinstrumenten. 4. Opstellen van een (experimenteel) onderzoeksdesign. 5. Verzameling, analyse en interpretatie van de data. 6. Verslaglegging van het onderzoek. Vragen naar de bruikbaarheid: Kunnen de resultaten van de evaluatie beslissingen aangaande het programma beïnvoeden? Kan de evaluatie op tijd plaatsvinden om bruikbaar te zijn? En is het programma relevant of zwaar genoeg? Vraag naar de noodzaak: is er ander onderzoek verricht en zo ja, wat zijn daaruit de resultaten? Vraag naar de noodzaak tot ethische toetsing: valt het onderzoek onder de Wet medisch-wetenschappelijk onderzoek met mensen? Een analyse van de factoren die bij een probleem of risico een rol spelen (risicofactoren, beschermende factoren, intermediaire factoren). Hoe die factoren met elkaar in verband staan. Welke daarvan beinvloedbaar zijn en welke niet. Wat is de prognose zonder ingrijpen (normale ontwikkelling)? Een aanduiding van de werkzame bestanddelen van de interventie, zowel algemeen werkzame bestanddelen als unieke (proces- en therapeutvariabelen, afstemmingsvariabelen). Evt. storende factoren en belangrijke covariaten. Doelen van de interventie. Tot welk type hulp het interventieprogramma behoort en bij welke bestaande theorieën aangesloten wordt, zodat een verband gelegd wordt met reeds aanwezige kennis. Accurate bronvermelding. Duidelijke beschrijving van de doelgroep van de interventie en de reden voor die doelgroep (cliëntvariabelen). Met hidden third factors of storende factoren worden factoren bedoeld die in plaats van de interventie de afhankelijke variabele beïnvloeden, waardoor men, wanneer men er bij de toetsingsopzet niet in slaagt storende factoren uit te schakelen, op basis van het onderzoek geen conclusies kan trekken over het verband tussen de interventie en de afhankelijke variabele(n). Dit gaat ten koste van de interne validiteit van het onderzoek. Met intermediaire factoren, ook wel intervening variable of moderatoren, worden factoren bedoeld die het beoogde effect van de interventie mediëren. De interventie heeft dan via een andere onafhankelijke variabele (intermediaire factor) invloed op de afhankelijke variabele. Grafisch kan dit als volgt worden weergegeven: A--> B -->C (A: Interventie,
B: Intermediaire factor, C: Afhankelijke variabele). Er is hier sprake van een keteneffect of een distaal causaal verband (in tegenstelling tot een rechtstreeks proximaal causaal verband).
27
het SMART-principe is management- en pedagogenjargon voor het eenvoudig en eenduidig opstellen en controleren van doelstellingen. De letters van SMART staan voor: Specifiek: de doelstellingen moeten eenduidig en gedetailleerd zijn; Meetbaar: onder welke (meetbare/observeerbare) voorwaarden is het doel bereikt; Acceptabel: de doelstellingen moeten aanvaardbaar zijn voor en relevant gevonden worden door de doelgroep en/of management; Realistisch: de doelstellingen moeten haalbaar zijn; Tijdgebonden: wanneer (in de tijd) moeten de doelen bereikt zijn?
28
Een goed onderscheid is dat van Lorion en Lounsburg (1982): Tertiair: na het opkomen van een probleem Secundair: tijdens het opkomen van een probleem Primair: voor het opkomen van een probleem
29
Wat? De inhoud van de interventie, zoals bedoeld en uitgevoerd (de methode en de implementatie). Werkt het? Welke effecten worden beoogd en hoe zijn deze te operationaliseren en welke mogelijke ongunstige effecten zijn er? Wanneer? Onder welke omstandigheden treden de effecten (het sterkst) op (verloop/implementatie)? voor Wie? Bij welke participanten (doelgroep) treden de effecten (het sterkst) op? Waarom? Welke oorzakelijke of in stand houdende mechanismen zijn beïnvloed? Sleepereffecten zijn effecten die na de interventie pas na verloop van tijd optreden en dus alleen met een longitudinaal design gemeten kunnen worden. Bijvoorbeeld: minder behoefte aan speciaal onderwijs of vaker afronden van middelbare school. Effectcriteria vormen een steekproef uit alle mogelijke variabelen waarin effect zich kan weerspiegelen. De onderzoeker moet een keus maken, op grond waarvan een netwerk van variabelen ontstaat. Wanneer het effect op die variabelen benoemd en meetbaar geformuleerd (geoperationaliseerd) is, wordt in het boek gesproken van effectcriteria. Het gevaar is dat studies ten onder gaan in een lawine van gegevens, omdat vooraf te weinig keuzen worden gemaakt. Design dump is een valkuil, waarbij bij gebrek aan een heldere vraagstelling een enorme hoeveelheid data door de onderzoeker worden verzameld, waarvan vervolgens onduidelijk is of en hoe die geïnterpreteerd moeten worden. Er wordt dan vaak achteraf gedaan aan HARKing (Hypothesizing After the Results are Known).
30
31
32
33
34
35
36
Omdat de effectiviteit van de interventie sterk bepaald wordt door de daadwerkelijke implementatie ervan en omdat die implementatie vaak afwijkt van het plan op papier. Zonder registratie van het programmaverloop kan niet nagegaan worden hoe een eventueel effect is bereikt en waardoor er bijvoorbeeld verschillende effecten bij subgroepen zijn. Ook is het van belang voor het repliceren van het onderzoek. Het meetinstrument moet: relevant zijn ten aanzien van de onderzoekshypothesen; aansluiten bij de doelgroep, doelen en activiteiten van de interventie (en dus een duidelijke omschrijving van doel en doelgroep bezitten); theoretisch goed onderbouwd zijn; praktische bruikbaar zijn; sensitief genoeg zijn om de gewenste verandering vast te stellen; zo objectief mogelijk door bij voorkeur gestructureerde, genormeerde methoden, voorzien van systematische richtlijnen; betrouwbaar; valide. Paralleltestbetrouwbaarheid, gebaseerd op de overeenkomst tussen tests die strikt parallel (vergelijkbaar) zijn, bijvoorbeeld verschillende versies van een test; Betrouwbaarheid op basis van inter-itemrelaties (zoals Cronbach’s alpha (α; 1951), Guttman’s lambda2 (λ-2; 1945), KR20, gebaseerd op de covarianties tussen de items van de test (de mate waarin de items overeenstemmen); Test-hertestbetrouwbaarheid, gebaseerd op de overeenkomst in scores als het instrument op dezelfde manier, door dezelfde persoon en bij dezelfde participanten nogmaals wordt afgenomen;nInterbeoordelaarsbetrouwbaarheid, gebaseerd op de overeenkomst in scores als het instrument door verschillende personen wordt gehanteerd bij dezelfde participanten; Overige methoden, zoals die op basis van item-responsetheorie of generaliseerbaarheidstheorie en structrurele vergelijkingmodellen. Bij de inhoudsvaliditeit wordt de vraag gesteld of de inhoud van de test representatief is voor de inhoud van de eigenschap die wordt gemeten. Zijn de items een representatieve steekproef uit het theoretische universum van alle mogelijke items over het te meten aspect? Criteriumvaliditeit wordt gemeten door de testscores te vergelijken met externe variabelen of criteria, waarvan aangenomen wordt dat ze dezelfde eigenschap meten. Een belangrijke vorm van criteriumvaliditeit is de predictieve validiteit, de mate waarin een test een voorspelling kan doen over gedrag dat zich buiten de testsituatie voordoet, in de toekomst, het verleden of het heden. Bij de begripsvaliditeit is het van belang wat de test meet, niet wat het voorspelt. De begripsvaliditeit geeft de mate aan waarin de test daadwerkelijk het psychologisch begrip meet: welke eigenschap(pen) kan (kunnen) de individuele variantie in de testscores verklaren? Men moet hier proberen de theorie achter de test te valideren, door bijvoorbeeld hypothesen over relaties, voortvloeiend uit die theorie, te testen. Zowel Drenth (1971) als De Groot (1971) scharen de soortgenoot (convergente of congruente) validiteit onder de begripsvaliditeit: de mate waarin een bepaalde test correleert met een andere test, waarvan wordt aangenomen dat die dezelfde trek meet.
37
38
39
40
41
42
43
De experimentele benadering van onderzoek heeft zijn wortels in het empirisch-analytische (positivistische) denken, dat in de decennia na de jaren vijftig gaandeweg de standaard werd binnen de psychologische discipline. Daartegenover staat de geesteswetenschappelijke stroming, waarin de experimentele benadering bij psychologisch gericht onderzoek wordt bekritiseerd. In het geesteswetenschappelijke denken ligt de nadruk niet op het opsporen en toetsen van algemene wetmatigheden in de individuele verscheidenheid, maar op de intuïtieve benadering van iedere unieke persoon. Het onderscheid tussen de twee denkwijzen is mooi geïllustreerd aan de hand van twee aforismen over wat wetenschappelijke kennis is, van twee vooraanstaande psychologen (Dehue, 1990): Van der Horsts – niet letterlijke uitspraak (geesteswetenschappelijk georiënteerd): ik weet iets, ik beleef iets en De Groots (1961) (empirisch-analytisch georiënteerd) parafrase: als ik iets weet kan ik iets voorspellen, als ik niets kan voorspellen weet ik niets. (a) Pre-experimenteel design, een ontwerp waarbij vrijwel alle interne en externe bedreigingen niet worden beheerst. (b) Quasi-experimenteel design, een ontwerp waarbij bedreigingen in zekere mate worden beheerst, zij het dat er geen sprake is van randomisatie. (c) Experimenteel design, een ontwerp waarbij er maximale beheersing van de bedreigingen tegen de externe en interne validiteit is. Meer dan een voormeting is nodig om het pre-experimentele verloop van de ontwikkeling van een variabele (de baseline) te schatten. Meer dan een nameting is belangrijk om het beklijven van het effect vast te stellen en om sleepereffecten te specificeren. Een design met zeer veel voor- en nametingen is van een bepaald type: het longitudinale design. Bijvoorbeeld bedoeld om individuele variatie van proefpersonen te schatten. Random toewijzing houdt in: toewijzing van deelnemers aan experimentele en controle groep op basis van toeval. Eventueel, een zwakkere vorm: het toewijzen van intacte groepen aan de experimentele en controle groep op basis van toeval. Hierbij zorgt men dat beide groepen op een aantal belangrijk geachte aspecten aan elkaar gelijk zijn. Dit kan door uit een grotere groep steeds twee personen te kiezen, die op deze aspecten gelijk zijn en van elk paar willekeurig de ene aan de experimentele groep en de ander aan de controlegroep toe te wijzen (reële matching of precisiecontrole). Een andere manier is twee groepen te vormen, die op een aantal variabelen dezelfde frequentieverdeling hebben (frequentieverdelingscontrole of globale controle). Door een placebogroep op te nemen, waarin interventies worden gepleegd die niet relevant zijn.
Een overzicht van de aantallen personen in alle fasen van het onderzoek, zoals: het totale aantal personen dat in de studie wordt geworven; de aantallen per groep; het aantal personen dat tijdens de studie uitvalt; de aantallen in de analyse.
44 O5 moet hoger zijn dan O4, zodat kan worden aangenomen dat de voortest geen sensitiziationeffecten had of dat de interventie sterk genoeg is om de interactie tussen sensitization en de interventie te overtreffen.
45
Het meetniveau van variabelen bepaalt in de statistiek welke berekeningen je kunt uitvoeren met de gegevens.
46
In het kort komt het erop neer dat de zwart-wit beslissing op basis van het gekozen significantieniveau arbitrair is, de nulhypothese-aanname vaak niet realistisch is en de vraag hoe groot de kans is dat er een effect is in de populatie, gegeven het gevonden effect, op basis van een betrouwbaarheidsinterval BI (confidence interval CI), eigenlijk interessanter is. Dit is de mogelijkheid om, wanneer verschillen in de populatie bestaan, deze verschillen tijdens het onderzoek in de steekproef aan te tonen. Het significantieniveau (alpha: α) dat de onderzoeker heeft gekozen. Hoe meer men de kans op een type I-fout wil controle¬ren (verkleinen), hoe lager juist de power wordt. Een belangrijke uit¬daging voor onderzoekers is dan ook het vinden van een passende balans tussen de kans op een type I-fout en de benodigde power. De steekproefgrootte. De effect size ES, die aangeeft hoeveel verschil een interventie maakte of hoeveel de groepen in de populatie verschillen op de afhankelijke variabele. A priori schatting gebeurt tijdens de planning en design van een onderzoek en hoort strikt gesproken dus niet thuis in de fase van data-analyse. Men wil een bepaalde power hebben (bijvoorbeeld .70 of .80) en zal daarmee rekening moeten houden bij de bepaling van de hoeveelheid participanten in het onderzoek (gegeven een bepaald vastgesteld significantieniveau en geschatte ES). 1. Verzekering van de nauwkeurigheid van de wetenschappelijke kennis. 2. De bescherming van de rechten en het welzijn van deelnemers (onderzoeksparticipanten, cliënten, organisaties, derde partijen) aan het onderzoek, die de bron van informatie zijn die in het onderzoek wordt gepubliceerd. 3. Ook moet aandacht besteed worden aan eventuele conflicts of interests, waarbij de onderzoeker een belang zou hebben bij bepaalde uitkomsten: alle informatie moet worden opgenomen in het artikel, die nodig is voor de lezer om in te schatten of er misschien omstandigheden zijn waardoor de onderzoeker positief dan wel negatief biased zou zijn. 4. De bescherming van intellectuele eigendomsrechten: onderzoekers mogen geen woorden of ideeën van anderen als hun eigen presenteren.
47
48
49
50
51
52
53
54
55 56
57
58
Er is niet altijd een toereikende theorie, waarop de interventie zich kan baseren, met name waar het gaat om de oorzakelijke mechanismen bij het ontstaan van problemen. De complexiteit in de gedragswetenschappen bemoeilijkt het samenvatten in een theoretisch model. Er is het gevaar van oversimplificatie van de complexe werkelijkheid. Er zijn weinig voorbeelden van theorie-gestuurde evaluaties. Het theoretisch raam wordt niet altijd (voldoende) geëxpliciteerd. Het definiëren van subpopulaties is ingewikkeld, doordat het niet altijd de gangbare diagnostische categorieën of (demografische) variabelen zijn, die verschillende effecten kunnen verklaren. Ook zijn er enorm veel (achtergrond)variabelen, waaruit gekozen moet worden. In plaats van op basis van categorieën van stoornissen, subpopulaties onderscheiden op basis van de oplopende ernst van stoornissen. Zich bewust zijn van de eigen normativiteit, keuzes expliciteren en beargumenteren en niet méér feitelijkheid of wetenschappelijke zekerheid suggereren dan zij ten overstaan van zichzelf en de betrokkenen kunnen verantwoorden. Hoe meer ecologische variabelen er in het onderzoek betrokken dienen te worden, hoe meer men aanloopt tegen het tekort aan meetinstrumenten van voldoende kwaliteit. Het voordeel is dat het instrument helemaal aangepast kan worden aan het betreffende programma, de betreffende doelgroep en de onderzoeksvragen. Een nadeel hiervan is dat specifieke instrumenten voor elk programma afzonderlijk de vergelijking met effecten van andere programma’s bemoeilijkt. Dit kan bovendien de verbetering van instrumenten, door middel van toetsing en ervaring in de praktijk, en de ontwikkeling van beschrijvende normatieve data over interessante variabelen in de weg staan. Dat de instrumenten genormeerd zijn op normale populaties, waardoor geen geschikte referentiepopulatie voorhanden is. Bij criteriumgeoriënteerde testen gaat het niet om het vergelijken met een referentiepopulatie maar om het beoordelen van het al of niet bereiken van een of ander criterium. Enerzijds kan er sprake zijn van reactiviteit van de metingen en anderzijds kunnen participanten om andere redenen dan beoogd door de onderzoeker tevreden zijn over het effect van de interventie. Uit onderzoek blijkt dat participanten de neiging hebben positief effect van de interventie te zien, ook al is dit niet het geval. Onderzoekers kunnen zelden een actieve rol spelen in de samenstelling van de experimentele groep, waardoor het vaak geen aslecte steekproef uit de populatie kan zijn. Een controlegroep is vaak niet haalbaar, bijvoorbeeld door de heterogeniteit van de populatie en de kleine aantallen participanten. Random toewijzing is vaak ook niet mogelijk, bijvoorbeeld door ethische bezwaren.
59
Zie tabel 5.1.
60
Dat het eveneens onethisch is om een programma, waarvan de waarde nog niet empirisch is vastgesteld, aan te bieden aan gezinnen. Er wordt gewerkt met vrijwillige opkomst of deelname, waardoor mensen die zich opgeven voor het onderzoek kunnen verschillen van de mensen uit dezelfde doelgroep die zich niet opgeven voor het onderzoek. Als dit het geval is, is de onderzoeksgroep geen representatieve steekproef uit de populatie en kunnen de resultaten niet gegeneraliseerd worden naar die populatie. Nee, zelfs waar wel random toewijzing mogelijk is, blijven problemen bestaan. Bijvoorbeeld: de randomisatie kan niet gemakkelijk geschieden omdat (a) er sprake kan zijn van systematische experimentele uitval, (b) niet-inschikkelijkheid van de participanten en (c) verandering in gedrag als participanten in de gaten krijgen tot welke groep ze behoren. Vergelijk ook het probleem met equipoise. Ander lijstje met bedreigingen voor de interne en externe validiteit: Selectieve uitval: Random toegewezen deelnemers kunnen, wanneer het programma veeleisend is, selectief uitvallen. - Selectie: Nog steeds kunnen mensen die zich opgeven voor het onderzoek, dus bereid zijn om mee te doen, verschillen van andere mensen uit de populatie. - Contamination of horizontale diffusie: Deelnemers interacteren met de controlegroep waardoor ze een deel van de behandeling doorgeven. - Compensatory rivalry: Deelnemers in de controlegroep kunnen manieren vinden om het gebrek aan hulpverlening te compenseren.
61
62
63
64 65
66
Respondenten die uitvallen zijn op belangrijke variabelen verschillend van respondenten die niet uitvallen, waardoor de generalisatiewaarde (externe validiteit) van het onderzoek wordt beperkt. Niet beantwoorde items in een vragenlijst, interview of test. Tweezijdig toetsen.
De term univariaat geeft aan dat er één afhankelijke en één onafhankelijke variabele in de analyse is opgenomen. Bij een multivariate toets gaat het om meer dan een afhankelijke variabele en meestal verschillende onafhankelijke variabelen.
67
68
69
70
71
72
73
74
Het kan zijn dat de toetsen een laag onderscheidingsvermogen hadden, dus dat er wel effecten waren, maar deze niet aangetoond zijn.Het kan zijn dat de theorie of hypothesen incorrect opgesteld waren, waardoor bijvoorbeeld de verkeerde of irrelevante variabelen of operationalisaties daarvan zijn gekozen binnen het onderzoek. Er kunnen andere methodologische fouten zijn gemaakt. Valkuilen bij het rapporteren van onderzoek zijn dat er meer zekerheid wordt gesuggereerd dan men heeft en dat slechts positieve effecten worden gerapporteerd en gepubliceerd. De eisen aan wetenschappelijke artikelen stemmen niet altijd overeen met de informatiebehoefte van de (hulpverlenings)praktijk. Er kunnen ook conflicts of interests ontstaan. Een logic model toont de veronderstelde verbanden tussen begrippen. Het is ook een stroomschema (flowchart) bedoeld om te beschrijven hoe het programma zal werken, volgens de elementen: middelen, activiteiten, output, doelgroepen, kortetermijneffecten, intermediaire uitkomsten, langetermijneffecten. Een programma moet nooit voortijdig worden geverifieerd, om hoge kosten te vermijden. De vraag is nu wanneer een interventieprogramma voldoende ontwikkeld is om beoordeeld te worden. Hiertoe kan een logic model dienen, in de vorm van uitgekristalliseerde ideeën over relaties tussen programma-elementen. Dit kan in een flowchart geplaatst worden, om na te gaan of het programmamodel logisch in elkaar steekt. Is zulks het geval, dan is de evaluability assessment met positief resultaat afgerond. (a) Een schematische weergave van alle met een programma beoogde (intermediaire) doelen en effecten en het veronderstelde verband daartussen. (b) Een poging om een rangorde in (eind)doelen aan te brengen. Een doelenhiërarchie -helpt om het overzicht te behouden op alle verschillende variabelen en doelstellingen die getoetst moeten worden in het effectonderzoek; - kan helpen voorkomen dat relevante effecten over het hoofd worden gezien; - dwingt de onderzoeker zijn of haar basisassumpties en theoretische overwegingen te expliciteren; -brengt een rangorde aan in (eind)doelen. Veranderingen in B = f(I, S, G, K, O, X), B = Afhankelijke of uitkomstvariabele, f betekent ‘functie van’, I = Kenmerken van de vroegtijdige orthopedagogische interventie, S = Eigenschappen van het sociale netwerk, G = Gezinskenmerken, K = Kindkenmerken, O = Overige variabelen die invloed uitoefenen op gezin en kind, X = Variabelen die een bedreiging vormen voor de interne validiteit. (a) Specificatie van variabelen die gedragsverandering veroorzaken. (b) Analyse van interventie als onafhankelijke variabele met andere variabelen. (c) Beheersing van validiteitsbedreigingen. (d) Specificatie van (eind)doelen.
75
76
77
78
79 80
81
82
In telegramstijl zijn dit de componenten die de aandacht behoeven. Is er behoefte aan het stimuleren van burgerschap? Beschrijving van de deelnemers aan het onderzoek. Dus de basisscholen. Inclusief of exclusief de groepen 1 en 2? De wetgever vindt de bevordering van burgerschap belangrijk in het kader van de integratie. Het interventieidee is oorspronkelijk ontwikkeld in het buitenland, met de volgende uitkomsten. Belangrijkste doel, naast burgerschap, is het ontwikkelen van extra veiligheid op school Op korte termijn neemt de identificatie van de leerling met het Nederlanderschap met bepaalde rechten en plichten toe Op lange termijn wordt het aantal conflicten tussen leerlingen onderling verminderd Enzovoorts: invullen het het logis model: aangeboden prograam en resultaten van het programma; organisatiestructuur, staf, financiele bronnen, samenwerking implementatiestrategie in andere scholen, evaluatieplan Deze laatste stap moet goed zichtbaar zijn voor de managers, maar de uitwerking is hier heel kort, want een template is altijd een samenvatting. Een programma-template vat op een helde en simpele manier de essentie van een interventie samen, bedoeld voor managers, staf en effectonderzoekers. Het bevat allerlei categorieën, waaronder het logic model en de flowchart. Zie tabel 6.1 Vanwege de geringe toepasbaarheid van standaardnormen bij kinderen met een ontwikkelingsachterstand of een ernstige beperking en vanwege het veronderstelde lineaire verloop van de ontwikkeling wordt normgeoriënteerd testen door deze auteur niet geschikt gevonden. Bij Indices of Change met betrekking tot zich ontwikkelende kinderen: deze procedures zijn alleen te gebruiken in combinatie met gestandaardiseerde tests en veronderstellen een lineair ontwikkelingsverloop Bij deze procedures wordt verondersteld dat verandering in het ontwikkelingstempo van het kind een indicatie is voor interventie-effect De Reliable Change Index (RCI), ook wel genoemd de J-T-index, naar Jacobson en Truax (1991). De maat standaardiseert het verschil tussen voor- en nameting, door middel van delen door standaardmeetfout. Er zijn verschillende manieren om de standaardmeetfout van de verschilscores te bereken. Let bijvoorbeeld op de kritiek van Maassen (2004). De subjectiviteit van ouders, onderzoekers en hulpverleners speelt een grote rol, zowel bij het opstellen van de doelen als bij het voorspellen van het succes en het vergelijken van het voorspelde succes met de vooruitgang van het individu. Er is mede hierdoor onduidelijkheid over de betrouwbaarheid en validiteit van de doelen.
83
84
85
86
87
88
89
90
91
92
(a) Door gevoelig en voorzichtig te werk te gaan bij de afname van de tests en het interpreteren van de scores. (b) Door de tests niet te gebruiken voor het vaststellen van het cognitieve niveau van kinderen met motorische of cognitieve beperkingen. (c) Door te letten op atypische scorepatronen, waarbij men rekening houdt met allerlei kenmerken van het kind en zijn of haar omgeving. (a) Wanneer men een construct wil meten waar simpelweg geen andere bruikbare instrumenten voor zijn. (b) Wanneer de onderzoeker bezorgd is over de representatie van het individu in de normpopulatie. (c) Wanneer men niet tevreden is over de sensitiviteit van een traditioneel meetinstrument. Deze ontwikkelingen spelen zich nog voornamelijk af op Engelstalig grondgebied.
De uitvoering van de observatie in een standaard, semi-gestructureerde situatie. Daarbij kan de generalisatiewaarde vergroot worden door aan te tonen dat de data valide metingen opleveren van het te meten construct of door de semi-gestructureerde observatie te herhalen met bijvoorbeeld andere taken of observatoren. Het toepassen van verschillende meetvormen. Bevestiging van de resultaten door verschillende meetvormen maken de resultaten geloofwaardiger, betrouwbaarder en meer valide, dan zonder deze congruentie. Voorbeeld: De ontwikkeling van het kind meten met behulp van een gestandaardiseerde ontwikkelingstest, observaties in de thuissituatie en een interview met de ouders (a) Zo kan men erachter komen of de groepen pre-experimenteel van elkaar verschillen. Wanneer dit het geval is, heeft dat grote consequenties voor de analyse en interpretatie van de uitkomsten. (b) Zo kan men uitval beter analyseren en voorzien. (a) Men kan statistisch corrigeren voor deze verschillen (zie ook p. 106-107 over covariantie-analyse). (b) Men kan alsnog subjecten bij het onderzoek zoeken, zodat er beter ‘gematcht’ kan worden. Op basis van multipele regressieanalyse waar bij een aantal relevante afhankelijke variabele betrokken zijn, wordt de PS van een persoon geschat Door middel van PS’s kan vrij gemakkelijk een controlegroep worden samengesteld uit een groot – toepasbaar – databestand, vergelijkbaar met de karakteristieken van een experimentele groep. De onderzoeker moet zich bij deze designs wel goed bewust zijn van de variabelen die in zijn of haar design niet beheerst kunnen worden. Als hij of zij dit niet doet, spreekt men van positieve interventie-effecten zonder dat de relatie tussen oorzaak (interventie) en effect duidelijk aangetoond is. Men kan gebruik maken van de ‘detective view’: zoveel mogelijk alternatieve verklaringen bedenken en deze verklaringen zo goed mogelijk
proberen uit te schakelen.
93
94
95
96
97
98
99
Nee, een theorie of hypothese kan alleen verworpen of aanvaard worden: een theorie of hypothese kan een toets niet doorstaan of wel doorstaan, maar daarmee is de theorie of hypothese nog niet bewezen. Strikte bewijsvoering van ‘gestoorde’ positieve universele deterministische hypothese komt niet voor; immers noch falsificatie noch verificatie van zulke hypothesen is mogelijk (a) Time-series design (enkelvoudige tijdreeks). (b) Untreated control group design. (c) Cohort design. (e) Nonequivalent dependent variables design. (d) Planned variation design. Het onderscheid tussen toetsingsonderzoek en interpretatief-theoretisch onderzoek: (a) Toetsingsonderzoek (kwantitatief onderzoek): een beperkt aantal, gewoonlijk aan de theorie ontleende, onderling samenhangende hypothesen wordt aan empirisch materiaal getoetst, meestal via steekproefonderzoek. (b) Interpretatief-theoretisch onderzoek (kwalitatief onderzoek): Een bepaalde verzameling van gegevens wordt in onderling verband gebracht door ze proberenderwijs af te leiden uit een hypothese of theorie (of opvatting of visie), die door de onderzoeker op het gegeven materiaal van toepassing geacht wordt. (a) Aandacht voor de empowerment van ondergewaardeerde groepen, waardoor men de onderzoekssubjecten bijvoorbeeld meer inspraak wil geven in het vormgeven van het onderzoek. (b) Discussies over theorieën die de context van de hulpverlening zeer belangrijk achten (zoals het transactionele ontwikkelingsmodel). (c) De erkenning van de normativiteit in elk onderzoek. (d) Het in twijfel trekken van de mogelijkheid tot het uitvoeren van zuivere experimenten. Type-fout I waarbij H0 wordt verworpen door de toets terwijl Ho toch waar is (kans hierop is α). Type-II-fout, waarbij H0 niet wordt verworpen door de statistische toets terwijl H1 waar is (kans hierop is β). Power neem toe, daarom is het niet onverstandig op een zo goed mogelijke manier het significantieniveau te bepalen, en niet zonder meer kiezen voor α=.01. 1 A priori. Hoe groot moet de steekproef zijn om een bepaald gewenst effect met power 1-β te ontdekken? 2 Post-hoc analyse. Als we een goede schatting hebben kunnen maken van ES, is de uitgevoerde toets dan met voldoende power gedaan? 3 Compromis-analyse. Zoals uit vraag blijkt moet er een goede balans zijn tussen α en β. Weten we de ES en de N dan kunnen we een bepaalde balans uitrekenen. 4 Sensitiviteitsanalyse. Van toepassing bij de beoordeling van reeds uitgevoerd onderzoek, waarbij we weten: N, power en α. De vraag is dan welk ES hier mee gedetecteerd kan worden.
100 101
102 103 104
105
106
Afhankelijk van toets en design. Een voorbeeld is dat de ES in een afhankelijk design met de fractie 1/√(1-r) toeneemt De noemer van de breuk. ES wordt gestandaardiseerd door de standaarddeviatie. Probleem is dat een keuze voor een bepaalde standaarddeviatie gemaakt moet worden De mate waarin de hulp er in slaagt de doelgroep positief te beïnvloeden, zodanig dat alternatieve verklaringen zijn uitgesloten (zo veel mogelijk). Associatie, in de betekenis van ‘samengaan’. Omdat op deze manier efficiënt compromissen gesloten kunnen worden met de praktijk. Het is een kwestie van wikken en wegen om in de praktijk – met het ideaaltype als voorbeeld – onderzoek op te zetten. Idee van ZonMw is meer of zelfs uitsluitend aandacht te vragen voor de identiteit van de hulpverlener, als verklarende variabele voor positieve effecten. Kennis van interventiemethoden kan de hulpverlening doen verbeteren.
Effectonderzoek in de gedragswetenschappen: Antwoorden Zelftoets 1 Multiple Choice-vragen
Nr
Vraag
Juiste Antwoord
1
Welke stelling omtrent effectonderzoek in de gedragswetenschappen is waar?
2
Welke stelling omtrent de effecten van hulpverleningsprogramma's is waar?
Effectonderzoek in de gedragswetenschappen is heel complex en onderzoekers zijn het niet altijd eens over de toe te passen methoden en technieken. Van slechts een fractie van de aangeboden programma's is het effect wetenschappelijk bewezen.
3
Het aantonen van verschillend gebruik van dezelfde term in één theorie wijst erop dat er iets schort aan de theorie. Op welke formuleringseis heeft dit mankement betrekking? In welke fase van de empirische cyclus valt de keuze voor een welbepaald meetinstrument om bijvoorbeeld verbale intelligentie te meten? Het wetenschappelijk forum omschrijft De Groot als
4
5 6
In 'Effectonderzoek in de gedragswetenschappen' wordt onder gedragswetenschappen verstaan rationele activiteiten van terzake deskundigen, gericht op overeenstemming, waarbij met behulp van empirisch onderzoek zicht wordt verkregen op gedrag en beleving. Welke stelling over gedrag in de in het boek
Logische consistentie
Deductie
de verzameling van alle ter zake kundige wetenschapsbeoefenaars Essentieel bij de definitie van gedrag is dat de nadruk wordt gelegd op registratie en waarneming, terwijl ook beleving onder de definitie kan vallen, voor zover deze beleving waarneembaar is.
gehanteerde definitie is waar? 7
Dunst, Snyder & Mankinen (1989) hanteren een multidimensionale definitie van effectiviteit, waarin drie dimensies besloten liggen. Welke dimensie hoort daar niet bij? Wanneer is volgens Dunst, Snyder en Mankinen (1989) in een effectstudie maximaal voldaan aan de eisen voor het maken van causale gevolgtrekkingen? Wanneer de interventie
(I) hoge afhankelijkheid vertoont, (II) in hoge mate specifiek is en (III) niet samengaat met alternatieve verklaringsmogelijkheden.
10
Welk kenmerk is geen onderdeel van de definitie van effectonderzoek? Wat behoort in het theoretisch raam beschreven te zijn?
Hantering van een onderzoeksdesign in de vorm van Randomized Controlled Trial (RCT). Alle genoemde antwoorden zijn juist.
11
De vijf W's van Orobio de Castro (2007):
12
Wat maakt het effectonderzoek naar preventieve doelen moeilijk?
geven een overzicht van vragen, waarop het effectonderzoek antwoord moet geven en die vruchtbaar zijn gebleken als criteria voor bruikbaar effectonderzoek. Alle drie genoemde antwoorden zijn juist.
13
Het beschrijven van de methode en de implementatie is van cruciaal belang om achteraf te kunnen nagaan welke dimensies van de interventie verandering teweegbrachten en onder welke omstandigheden en voor wie de interventie effectief is (en met welke eventuele bijeffecten). Wat wordt hier bedoeld met methode en implementatie? Welk advies over het operationaliseren van het doel in criteria wordt gegeven?
8
9
14
Methode is het interventieprogramma zoals bedoeld. Implementatie is het interventieprogramma, zoals in de praktijk uitgevoerd.
Het advies om het doel niet in één, maar in een zorgvuldig gekozen aantal criteria te operationaliseren en daarbij gebruik te maken van verschillende informanten.
15
Waarom is de nauwkeurige beschrijving van de participanten tijdens een effectstudie van belang?
16
Welke stelling over de betrouwbaarheid van psychometrische tests is juist? De mogelijkheid dat een verschil tussen voor- en nameting door toeval of door andere factoren dan de interventie (nietexperimentele variabelen) veroorzaakt was, kan worden beheerst door opname van een controlegroep. Dit verhoogt de: Welke stelling over Null-Hypothesis Significance Testing (NHST) is Als de gevonden p-waarde kleiner is dan het gehanteerde waar? significantieniveau, wordt het effect significant genoemd en wordt geconcludeerd dat de interventie in de populatie wellicht effect had. Wat is de juiste volgorde van meetniveau's van laag naar hoog? Nominaal, ordinaal, interval, ratio Welke instantie biedt richtlijnen voor het schrijven van De APA wetenschappelijke publicaties?
17
18
19 20 21
22
23
24
De Groot (1994) wijst in verband met instrumentatieproblemen op een spanning tussen objectiviteit en relevantie. Wat wordt daarmee bedoeld? Welke stelling omtrent ontwikkelingstests is juist?
Alleen kinderen die extreem laag scoren, worden aangemeld voor een interventieprogramma. Hierdoor is de kans op verbeterde scores na de interventie hoger. Van welke bedreiging voor de interne validiteit is dit een voorbeeld? Hoe wordt de situatie genoemd waarin de participant aan een
Omdat ervan uitgegaan moet worden dat niet iedere participant op dezelfde wijze en in dezelfde mate profiteert van het interventieprogramma. De betrouwbaarheid is een maat voor de consistentie, stabiliteit en precisie van de testscore. interne validiteit
Het risico, dat de technische vervolmaking van het instrument geschiedt ten koste van de inhoud, van de 'dekking' van wat gemeten wordt. Vele auteurs achten gestandaardiseerde ontwikkelingstests geen betrouwbare maat voor individuele variatie voor atypische groepen kinderen. Statistische regressie naar het gemiddelde.
Equipoise.
25
effectonderzoek een neutrale positie inneemt ten aanzien van de verwachte effecten met betrekking tot beide interventies (controlegroep en experimentele groep)? Wat is kanskapitalisatie, met betrekking tot de data-analyse?
26
Een logic model is vooral bedoeld om
27
Hoe zou u een zogenaamde programma-template willen definieren?
Samenvatting van centrale kenmerken van een programma, bedoeld om van tijd tot tijd te actualiseren
28
De Reliable Change Index, ook wel genoemd de J-T-index, is een maat voor betrouwbare verandering op individueel niveau. Toch moeten in de berekening groepsgegevens worden opgenomen. Welke? Ook in de medische effectonderzoekliteratuur komen evidencebased rating voor. Een voorbeeld is de taxonomie van Swanston, Williams en Nunn (2000), waarbij niveau I de sterkste vorm van bewezen effectiviteit is. Welke omschrijving behoort volgens u bij niveau I ? Het percentage zero data (PZD) is een eenvoudige maat die gebruikt wordt in Residual Change Scores is een methode om veranderingen tussen pre- en posttest vast te stellen, hoewel er veel kritiek bestaat. De methode werkt op basis van regressie-analyse van de pretestscores. Waarom wordt deze methode residual change scores genoemd?
(a) Correlatie tussen voor- en nameting van alle participanten in het onderzoek; (b) standaarddeviatie van de voormetingen van alle deelnemers
29
30 31
Dit is het verhogen van de kansen op het vinden van statistische verbanden door een groot aantal (onafhankelijke) hypothesen te testen. De volgorde der handelingen in een effectonderzoek te beoordelen op logische verbanden
Meta-analyse van zuiver experimentele designs
ABAB-designs (N=1-designs) Het residu bestaat uit het verschil tussen werkelijke en voorspelde posttestscore,
32
Een mogelijkheid om een bepaald methodologisch verschijnsel te bestrijden is te streven naar geografische spreiding in onderzoeksgroepen (zowel E als C), Welk van onderstaande verschijnselen wordt hier bedoeld?
33
Stel dat in een statistische toets H0 wordt verworpen, terwijl de alternatieve hypothese H1 juist is, dan nemen we een juiste beslissing. Hoe wordt deze uitkomst getypeerd? Stel dat de a priori poweranalyse aangeeft dat 156 ppn nodig zijn om gewenste power van .80 te behalen. Stel dat de onderzoeker slechts 100 deelnmers kan includeren. Waarom is dit buitengewoon vervelend voor de kwaliteit van het onderzoek? Er zijn verschillende maten voor Effect Size ontwikkeld, zoals Cohens d, Hedges'g, Cohens f-kwadraat en Odds ratio's. Welke maat wekt in dit rijtje de meeste verwondering? De Groot somt twee kwalificaties voor effectonderzoek op: wetenschappelijke en maatschappelijk. In welke rangorde plaatst hij deze kwalificaties?
34
35
36
Contact tussen E en C is ondermijning van de juiste balans tussen informatie over nuttigheid van verschillende interventies en dus ondermijning van het gewenste effect van randomisatie. Geografische spreiding gaat deze ondermijning enigszins tegen. Als 1-β, zijnde de power van de toets
Er bestaat een grote kans dat er niks uit het onderzoek komt, terwijl er in de populatie wel degelijk een (klein) effect te bespeuren is. Hedges' g
Wetenschappelijke kwaliteit gaat boven maatschappelijke
Effectonderzoek in de gedragswetenschappen: antwoorden Zelftoets 2 Multiple Choice-vragen Nr.
Vraag
Antwoord 1
1
Welke stelling is waar?
Als gevolg van het politieke beleid en de groeiende competitie tussen aanbieders van hulp en zorg, geniet de effectiviteit van de hulpverlening bij uiteenlopende partijen, zoals beleidsmakers, professionals in praktijkinstellingen en onderzoekers, veel belangstelling
2
Waarom is effectonderzoek in de gedragswetenschappen belangrijk? Welk antwoord is niet waar?
Omdat het doel van effectonderzoek is, aan te tonen dat participanten aan interventieprogramma's tevreden zijn over de interventie.
3
Kenmerkend voor de regulatieve en empirische cyclus is dat ze beide
essentiële aspecten van empirisch onderzoek expliciteren
4
De ‘fenomenologie’ is volgens De Groot een methode om op ideeën te komen. Deze uitspraak is
juist, omdat de fenomenologie thuis hoort in de empirische cyclus.
5
In lijn met wetenschapsfilosoof Popper, is de empirische cyclus van De Groot gericht op het
weerleggen van een theorie
6
Wat behoort niet per definitie tot een ‘interventieprogramma’?
In de gedragswetenschappen opgeleide, goed getrainde en vooraf geïnstrueerde hulpverleners.
7
Welke dimensie van Dunst, Snyder & Mankinen (1989), die besloten ligt in de definitie van effectiviteit, heeft betrekking op de interne validiteit?
Het bestaan van alternatieve verklaringen (spuriousness): de mate waarin andere factoren dan de interventie optreden als bronnen die van invloed zijn op de afhankelijke variabele.
8
Wat is de essentie van de gegeven definitie van effectiviteit?
Dat effectiviteit oftewel causale gevolgtrekking een relatief concept is; er zijn vele niveaus van bewijskracht mogelijk.
9
Welke stelling is waar?
Bij effectonderzoek (voorheen vooral productevaluatie) dient ook de procesevaluatie betrokken te worden. De productevaluatie toont dan aan of de interventie werkt en de procesevaluatie waarom de interventie (niet) werkt en hoe het misschien beter kan.
10
Interventieprogramma's zijn bij voorkeur gebaseerd op multifactoriële systeem of ecologische theoriën omdat:
deze zijn gericht op de complexiteit en onderlinge afhankelijkheid tussen en binnen systemen en daardoor meer recht doen aan de werkelijkheid.
11
Een groep van jonge alleenstaande moeders krijgt gerichte voorlichting over onder- en overvragen en mijlpalen in de ontwikkeling van kinderen. Tot wat voor soort preventie kan deze vorm van interventie gerekend worden? Welke stelling is waar ten aanzien van de beschrijving van doelen in het effectonderzoek?
Primaire pedagogische preventie
Wat wordt bedoeld met het operationaliseren van variabelen in criteria?
Het kiezen van variabelen die als criteriummaten voor de mogelijke effecten van de hulpverlening gelden en de criteriummaten omzetten in toetsbare voorspellingen.
12
13
Een eenduidige beschrijving van de doelen van een interventieprogramma is een voorwaarde voor goed effectonderzoek.
14
Welke stelling over onbedoelde effecten van interventieprogramma's is niet waar?
In het effectonderzoek dienen bedoelde en onbedoelde gevolgen van een programma tegen elkaar afgewogen te worden.
15
Welke definitie is juist?
Een operationele definitie wil zeggen dat betekenis is toegekend door het specificeren van de activiteiten of operaties die nodig zijn om het betreffende construct te meten en te evalueren
16
Welke stelling over de validiteit van psychometrische tests is juist?
Criteriumvaliditeit wordt gemeten door de testscores te vergelijken met externe variabelen of criteria, waarvan aangenomen wordt dat ze dezelfde eigenschap meten.
17
Het Solomon Four-Group Design is een voorbeeld van een: Wat is sensitivering als bedreiging voor de interne validiteit?
zuiver experimenteel design
Van welk meetniveau is de grootheid temperatuur in celsiusaanduiding?
interval.
18
19
Het effect waarbij participanten zich anders ontwikkelen als gevolg van de meting zelf.
20
De power van een statistische toets hangt af van:
het significantieniveau, de steekproefgrootte en de effect size.
21
Wat is een nadeel van ad hoc geconstrueerde instrumenten?
Alle drie de genoemde antwoorden zijn juist.
22
Welke stelling over de betrouwbaarheid van een test is waar?
Men moet bij de beoordeling van een test letten op (a) de aanwezigheid van andere maten dan coëfficiënt alpha en (b) de aanwezigheid van betrouwbaarheidsmaten op grond van meer dan een afname.
23
Bij het waarborgen van welk type validiteit gaat het vooral om representativiteit van de steekproeven en om representatieve replicatie van het onderzoek? Welke stelling is waar?
Externe validiteit.
Als uit de theorie en eerder onderzoek blijkt dat een interventieprogramma minstens een positief effect zal hebben, of helemaal géén, maar in elk geval geen negatief effect, welk type toets heeft dan de hoogste
Een eenzijdige toets.
24
25
De behoefte aan actie in de (hulpverlenings)praktijk en de publicatiedruk, bemoeilijken de uitvoering van longitudinale studies.
power?
26
Stel dat u een doelenhiërarchie opzet ten behoeve van de ontwikkeling van een preventief interventieprogramma, welk doel zou u bovenaan de doelboom plaatsen?
Het voorkomen van ontwikkelingsachterstand
27
De Index of Progress is een maat om de verandering in ontwikkelingssnelheid van kinderen met sterke achterstanden weer te geven. Welk fundamenteel bezwaar kleeft aan deze maat?
De maat is gebaseerd op psychometrisch weinig houdbare maat, te weten ontwikkelingsleeftijd
28
Carrs checklist voor de beoordeling van interventieonderzoeken is toegepast op een groot aantal interventiestudies. Hij hanteert vier stringente eisen voor inclusie. Een daarvan is 'aantal participanten in elke groep' Om welk aantal gaat het dan? Multiple imputation wordt beschreven als een verantwoorde techniek om de proefpersoon niet verloren te laten gaan, door drie of meer datapunten te imputeren en per imputatie een statistische analyse te doen. Deze techniek berust op een proces. Hoe zou u dat proces beschrijven? Een voorbeeld van een zuiver experimenteel design is een ontwerp met herhaalde metingen aan een experimentele groep (E), waarbinnen een interventie plaatsvindt en aan een controlegroep (C) waarbinnen geen interventie plaatsvindt, terwijl de proefpersonen at random worden
5 of meer
29
30
Imputatie, analyse, pooling
Non-equivalent Control Group Design
toegewezen aan E en C. Dit design lijk erg op een quasiexperimenteel ontwerp. Welk?
31
Wat is een nadeel van de GAS-methode om veranderingen vast te stellen?
Alle drie genoemde argumenten
32
Lees beide uitspraken. I De Index of Progress (IP) als veranderingsindex is een uitbreiding van Wolerys Proportional Change Index (PCI). II De Predicted PostIntervention Developmental Age score (PPIDA) is evenals de Residual Change Score gebaseerd op regressie-analyse De power van een statistische toets hangt van drie parameters af. Van welke niet?
I is juist en II is onjuist
34
Is het nodig altijd Cohens indeling in effectsizes (ES) te hanteren bij het beoordelen van effectiviteitsonderzoek in de gedragswetenschappen?
Cohens indeling is relevant, maar het is belangrijk op de kostenkant te letten.
35
In een ANCOVA-analyse worden effecten gecorrigeerd voor verschillen in pretestscores tussen verschillende groepen. Maar Huitema (1980) heeft een duidelijke waarschuwing. Welke?
Gebruik geen ANCOVA correcties als de groepen natuurlijkerwijze zijn samengesteld. Deze waarschuwing is al vele malen en vele jaren van kracht.
33
De schending van de voorwaarden
36
Een zogenaamde relatieve causale relatie tussen interventie en resultaat, is in de eerste plaats gelegen in
het theoretisch raam