Kwaliteit meten en beoordelen Eindrapport van de valideringsstudie naar het UA-evaluatieinstrument voor opleidingsonderdelen
februari 2005 Dimitri Mortelmans Pieter Spooren
Inhoudsopgave
VOORWOORD ....................................................................................................................... 5 HOOFDSTUK 1 PROBLEEMSTELLING, OPZET EN VERLOOP.................................................. 9 1 INLEIDING .............................................................................................................................. 9 2 SITUERING EN PROBLEEMSTELLING............................................................................................... 10 3 FASERING VAN HET ONDERZOEK .................................................................................................. 14 4 INHOUD VAN HET EINDRAPPORT .................................................................................................. 15 HOOFDSTUK 2 THEORETISCH KADER ................................................................................ 17 1 INLEIDING ............................................................................................................................ 17 2 DIMENSIE: “DOELSTELLINGEN”................................................................................................... 18 3 DIMENSIE ‘LEERINHOUDEN’ ....................................................................................................... 22 4 DIMENSIE ‘STRUCTUUR EN OPBOUW VAN HET PROGRAMMA’................................................................. 27 5 DIMENSIE ‘DIDACTISCHE WERKVORMEN’........................................................................................ 29 6 DIMENSIE ‘STUDIEMATERIALEN EN INFRASTRUCTUUR’........................................................................ 34 7 DIMENSIE ‘STUDEERBAARHEID’ ................................................................................................... 37 8 DIMENSIE ‘STUDIEBEGELEIDING’ ................................................................................................. 39 9 DIMENSIE ‘EVALUATIE’ ............................................................................................................. 42 10 BESLUIT ............................................................................................................................. 47 HOOFDSTUK 3 CONSTRUCTIE VAN EEN TESTINSTRUMENT (TESTFASE 1) ....................... 49 1 INLEIDING ............................................................................................................................ 49 2 DATAVERZAMELING EN VERWERKING ............................................................................................ 50
3 ANALYSE .............................................................................................................................. 52 4 BESLUIT VAN TESTRONDE 1 ....................................................................................................... 71 HOOFDSTUK 4 OP ZOEK NAAR VALIDITEIT EN BETROUWBAARHEID (TESTFASE 2) ........ 73 1 INLEIDING ............................................................................................................................ 73 2 DATAVERZAMELING EN VERWERKING ............................................................................................ 74 3 OP ZOEK NAAR BETROUWBAARHEID EN VALIDITEIT…......................................................................... 78 4 BESLUIT ............................................................................................................................... 92 HOOFDSTUK 5 BESLUIT...................................................................................................... 95 1 INLEIDING ............................................................................................................................ 95 2 SAMENVATTING EN CONCLUSIES .................................................................................................. 96 3 EEN LIKERT-SCHAAL ALS BETROUWBAAR EN VALIDE ALTERNATIEF ......................................................... 98 BIBLIOGRAFIE.................................................................................................................. 103 BIJLAGEN.......................................................................................................................... 107 1 BIJLAGE 1: VRAGENLIJST TESTFASE 1 ........................................................................................ 107 2 BIJLAGE 2: SPSS INTERNE CONSISTENTIE (CRONBACH’S ALPHA) PER OPLEIDINGSONDERDEEL EN PER SUBDIMENSIE .......................................................................................................................................... 118 3 BIJLAGE 3: SPSS EXPLORATIEVE FACTORANALYSE, AFZONDERLIJK PER HOOFDDIMENSIE (GEZAMENLIJK BESTAND VAN VIJF OPLEIDINGSONDERDELEN), GESTANDAARDISEERDE FACTORLADINGEN..........................................
122
4 BIJLAGE 4: SPSS EXPLORATIEVE FACTORANALYSE - FACTORLADINGEN ................................................ 124 5 BIJLAGE 5: LISREL CONFIRMATIEVE FACTORANALYSE – FACTORLADINGEN ........................................... 126 6 BIJLAGE 6: LISREL CONFIRMATIEVE FACTORANALYSE – CHI²-VERSCHILTESTEN ..................................... 129 7 BIJLAGE 7: LISREL CONFIRMATIEVE FACTORANALYSE – VARIANCE EXTRACTED EN CONFIDENTIE-INTERVAL TEST .......................................................................................................................................... 130 8 BIJLAGE 8 SCHAALVALIDERING IN TEW (N=44) ........................................................................... 132 9 BIJLAGE 9 SCHAALVALIDERING IN WETENSCHAPPEN (N=44) ............................................................ 135 10 BIJLAGE 10 VRAGENLIJST UA – TESTRONDE 2 ............................................................................ 138 11 BIJLAGE 11 VRAGENLIJST TESTINSTRUMENT – TESTRONDE 2 .......................................................... 142 12 BIJLAGE 12 ANALYSES OP ITEM-NIVEAU VOOR HET UA-INSTRUMENT ................................................. 147 13 BIJLAGE 13 ANALYSES OP ITEM-NIVEAU VOOR HET TESTINSTRUMENT ................................................. 151 14 BIJLAGE 14 VALIDITEIT- EN STABILITEITSTESTEN VOOR HET UA-INSTRUMENT ..................................... 157 15 BIJLAGE 15 VALIDITEIT- EN STABILITEITSTESTEN VOOR HET TESTINSTRUMENT ..................................... 160 16 BIJLAGE 16 TRANSITIEMATRICES VOOR HET UA-INSTRUMENT ......................................................... 165 17 BIJLAGE 17 TRANSITIEMATRICES VOOR HET TESTINSTRUMENT ......................................................... 168
4
Voorwoord
Eén van de actiepunten in het onderwijsontwikkelingsplan 2003-2006 van de Universiteit Antwerpen en tevens één van de kernopdrachten van de daartoe opgerichte facultaire Cellen voor Innovatie en Kwaliteitszorg van het Onderwijs (CIKO’s) betreft meer én meer systematische evaluatie van de opleidingsonderdelen (‘vakken’) door de studenten. Immers een belangrijke partner bij het evalueren van het aan een universitaire instelling verstrekte onderwijs zijn vanzelfsprekend diegenen die het onderwijs genieten c.q de studenten. Een opleidingsonderdeel kan enkel als ‘goed’, ‘zinvol’, … worden geëvalueerd als ook de studenten die mening zijn toegedaan. Om een en ander in goede banen te leiden werd door de Universiteit Antwerpen, meer bepaald het Departement Onderwijs een instrument ontwikkeld dat universiteitsbreed studenten moet toelaten hun ervaringen met en hun visie op de opleidingsonderdelen waaraan ze participeerden aan de betreffende onderwijs- en opleidingsverantwoordelijken kenbaar te maken. Het is dan ook de bedoeling van de Universiteit Antwerpen om de resultaten
van
dergelijke
docentevaluaties
en
het
onderwijsevaluaties opstellen
van
aan
te
wenden
zelfevaluatierapporten
bij in
onder het
andere
licht
van
onderwijsvisitaties. Echter, het voorgestelde evaluatie-instrument stootte op heel wat (vooral methodologische) vragen en bedenkingen en dan vooral bij de faculteit Politieke en Sociale Wetenschappen, die heel wat expertise kan voorleggen met betrekking tot vragenlijstconstructie en –
verwerking. Grosso modo konden de bedenkingen worden herleid tot de volgende algemene kritiek. Naar ons aanvoelen ontbreekt het het instrument aan een theoretisch kader en zijn weinig of geen gegevens bekend over de wetenschappelijke waarde ervan. De universitaire overheid stelt zich bijgevolg zeer kwetsbaar op wanneer zij opleidingsonderdelen wil evalueren en de resultaten van deze evaluaties wil gebruiken bij ZAP (en AAP?) –evaluaties enerzijds en zich wil beroepen op dit soort gegevens ten overstaan van externe actoren anderzijds. Onze bedenkingen vonden gehoor bij de Werkgroep voor Innovatie en Kwaliteitszorg van het Onderwijs (WIKO), want op haar overleg d.d. 31/08/2004 werd aan de CIKO-PSW toestemming gegeven om het instrument op haar kwaliteit (lees: betrouwbaarheid en validiteit) te testen. Het voorliggende rapport bevat de belangrijkste conclusies van dit onderzoek alsook een uitgebreide neerslag van de activiteiten die in de periode september – december 2004 hebben plaatsgevonden. Achtereenvolgens worden de verschillende fasen voorgesteld die werden doorlopen bij de constructie van een testinstrument dat ons moest toelaten het UAinstrument op haar kwaliteit te testen. In het eerste hoofdstuk bespreken we kort de probleemstelling en het opzet en verloop van ons onderzoek. We lichten toe welke stappen werden ondernomen, welke keuzes hierbij werden gemaakt en waarom en wat de belangrijkste actiepunten waren in elke onderzoeksfase. Een tweede hoofdstuk is het resultaat van een uitgebreide literatuurverkenning met als doel het opstellen van een degelijke theoretische onderbouwing van een aantal concepten (‘dimensies’) die in het evaluatie-instrument de revue passeren. Op basis hiervan kon een uitgebreide vragenlijst worden opgesteld, die in een eerste testfase diende verfijnd tot een kort en makkelijk invulbaar testinstrument. Hoe dit in zijn werk ging, wordt uitgebreid uit de doeken gedaan in het derde hoofdstuk. Het vierde hoofdstuk behandelt de eigenlijke test: op twee momenten werden het UA-instrument en het door ons ontwikkelde testinstrument aan een grote groep studenten voorgelegd met als uiteindelijke bedoeling uitspraken te kunnen doen over de kwaliteit van beide instrumenten. Een uitgebreide bespreking van de resultaten en het antwoord op de vraag of het door de universiteit ontwikkelde instrument op basis van ons onderzoek als een degelijk instrument kan worden beschouwd, vindt de lezer in het vijfde en laatste hoofdstuk. In datzelfde hoofdstuk vatten we de belangrijkste resultaten nog even kort samen en formuleren we een voorstel met betrekking tot verdere verfijning van het evaluatie-instrument.
6
Het zal intussen duidelijk geworden zijn dat we met dit eindrapport een zeer arbeidsintensieve en bij wijlen zelfs hectische periode afsluiten. Dat we het ondanks het strakke tijdsschema toch gehaald hebben, danken we vooral aan het enthousiasme van heel wat mensen die ons gedurende één of meerdere fasen van dit onderzoek hebben bijgestaan. We staan er dan ook op om de volgende personen van harte te bedanken voor hun zeer gewaarde medewerking aan dit project: - Mevr. Britt Dehertogh, Dhr. Koen Pepermans, Mevr. Veerle Van den Bergh, Dhr. Jeremi Van Gorp en Mevr. Sophie Verfaillie die ons gedurende het verloop van het onderzoek van heel wat nuttige suggesties hebben voorzien; - Mevr. Linda Rogiest en Dhr. Joos Schroeven voor de administratieve en technische bijstand - Prof. dr. Peter Bursens, Prof. dr. Luc Goossens, dr. Koen Van Aeken en Prof. dr. Michel Walrave die, deel uitmakend van de CIKO PSW, het onderzoek op de voet hebben gevolgd en ons bijstonden met raad en daad; - De onderwijscommissies van de faculteiten Geneeskunde, Rechten, Politieke en Sociale Wetenschappen, Letteren en Wijsbegeerte, Wetenschappen en Toegepaste Economische Wetenschappen die ons toestemming verleenden om enkele van de door hen georganiseerde opleidingsonderdelen als testcase in ons onderzoek op te nemen; - Alle docenten die ermee hebben ingestemd om hun ‘vak’ te laten evalueren respectievelijk collegetijd afstonden om de bevragingen bij de studenten af te nemen; - De CIKO’s van voornoemde faculteiten en meer bepaald de stafmedewerkers Onderwijs (Mevr. Liesbeth Hens, Mevr. Griet Peeraer, Mevr. Myriam Pelgrims, Mevr. Sophie Verfaillie, Dhr. Jan Vos) die enthousiast de verschillende bevragingen in hun faculteit hebben georganiseerd; - Alle studenten die zich bereid verklaarden om mee te werken aan ons onderzoek en aldus zorgden voor de benodigde data (meer dan 1500 correct ingevulde vragenlijsten) waarop we dit onderzoek konden baseren. Het feit dat zoveel mensen een belangrijke bijdrage leverden aan dit onderzoek neemt echter niet weg dat wij de volledige verantwoordelijkheid voor de inhoud van het onderzoek en het voorliggende onderzoeksrapport op ons nemen.
Pieter Spooren
Prof. dr. Dimitri Mortelmans
Stafmedewerker Onderwijs FPSW
Coördinator CIKO PSW
CIKO PSW Wilrijk, februari 2005
7
Hoofdstuk 1 Probleemstelling, opzet en verloop
1 Inleiding Voorliggend onderzoeksrapport bevat de resultaten van het onderzoek naar de validiteit en betrouwbaarheid van het instrument dat door de Universiteit Antwerpen anno 2004 werd ontwikkeld om opleidingsonderdelen te laten evalueren door de studenten. In dit eerste hoofdstuk, dat als een algemene inleiding op dit onderzoeksrapport kan worden beschouwd, bespreken we de probleemstelling, het opzet en het verloop van dit onderzoek. In een eerste paragraaf situeren we kort de aanleiding van dit onderzoek en formuleren we onze centrale onderzoeksvraag. Vervolgens komt de fasering aan de beurt, waarbij we een eerste keer stil staan bij de gebruikte methodologie. De derde en laatste paragraaf behandelt de wijze waarop de onderzoeksresultaten een plaats hebben gekregen in dit eindrapport en biedt aldus een overzicht van de verdere inhoud ervan.
2 Situering en probleemstelling De Universiteit Antwerpen (verder: UA) stelt in haar Onderwijsontwikkelingsplan (september 2003) dat zij “… systematisch en in overleg met alle betrokkenen zal nagaan dat de kwaliteit van het onderwijs gewaarborgd is en waar nodig verbetert, …” (p. 7). Onder die ‘betrokkenen’ moet worden verstaan de “…studenten, docenten, assistenten, afgestudeerden en afnemend veld” (p. 13). Om deze onderwijsevaluaties mee te helpen verwezenlijken werd in elke faculteit een Cel voor Innovatie en Kwaliteitszorg van het Onderwijs (CIKO) opgericht, die
de
onderwijscommissies
zal
ondersteunen
bij
het
ontwikkelen
van
een
kwaliteitszorgsysteem teneinde de kwaliteit van het onderwijs te optimaliseren. Het Departement Onderwijs van de UA, die de facultaire CIKO’s in hun werking ondersteunt, ontwikkelde in de loop van 2004 een instrument in de vorm van een vragenlijst aan de hand waarvan studenten de door hen gevolgde opleidingsonderdelen (‘vakken’) kunnen evalueren. Immers, de studenten zijn uiteindelijk diegenen die het onderwijs ‘genieten’ en moeten bijgevolg beschouwd worden als een belangrijke partner in het evaluatiegebeuren: een opleidingsonderdeel kan alleen maar als ‘goed’, ‘zinvol’, … beoordeeld worden als ook de studenten het als zodanig hebben ervaren. Het instrument waarvan sprake, de zogenaamde ‘SEM-SCAN”, zal universiteitsbreed (dit wil zeggen: voor elk opleidingsonderdeel, uit elk studiejaar, van elke opleiding …) worden gebruikt om in het kader van meer én meer systematische onderwijsevaluaties studenten de opleidingsonderdelen te laten beoordelen waaraan zij het vorige semester respectievelijk het vorige academiejaar hebben geparticipeerd. De resultaten van deze evaluaties zullen (naast andere) worden aangewend bij docenten- en opleidingsevaluaties (interne kwaliteitszorg) en in het verlengde daarvan het opstellen van zelfevaluatierapporten in het kader van onderwijsvisitaties (externe kwaliteitszorg). Het pleit voor de UA dat zij onder meer op deze manier actief werk wil maken van de kwaliteit van haar onderwijs en dat zij haar studenten erkent als volwaardige partner in het onderwijsgebeuren. Dat hiervoor het beste een instrument ontwikkeld wordt dat moet toelaten alle opleidingsonderdelen te evalueren op basis van enigszins vergelijkbare gegevens evenzeer. Belangrijk evenwel is dat een dergelijk instrument betrouwbaar en valide is, of met andere woorden, dat het goed meet én dat het meet wat het moet meten. En precies daar wringt (of liever: wrong) het schoentje: tot dusver kon men geen uitspraken
10
doen met betrekking tot de wetenschappelijke waarde van het “SEM-SCAN”-instrument. We verklaren ons nader. 1) Het ontbreekt het evaluatie-instrument aan een uitgewerkt theoretisch kader van waaruit de verschillende dimensies en de vragen die daarover zullen worden gesteld kunnen worden afgeleid. Bijvoorbeeld: één van de dimensies die werden opgenomen in het instrument betreft ‘Studeerbaarheid en studiebegeleiding’ waarbij met betrekking tot ‘studiebegeleiding’ één stelling wordt geformuleerd, nl. “De docent was beschikbaar voor bijkomende uitleg”. De vraag is vooreerst wat onder ‘studiebegeleiding’ moet worden verstaan en, indien dat (op basis van de wetenschappelijke theorievorming daaromtrent) is vastgelegd en besloten werd dat dit concept inderdaad thuishoort in een evaluatie van een opleidingsonderdeel, hoe dit concept het best kan worden gemeten. Of: met welke vraag/vragen kunnen we zo goed én zo volledig mogelijk de studiebegeleiding die bij een bepaald opleidingsonderdeel wordt geboden, nagaan? 2) Het evaluatie-instrument wordt niet empirisch ondersteund. Op welke (wetenschappelijke) grond kan men stellen dat het hier inderdaad om een ‘goed’ instrument gaat, d.w.z. een instrument dat meet wat het zou moeten meten (cf. dit is de vraag naar de validiteit van het instrument) én tegelijkertijd correcte gegevens oplevert die toelaten dat de evaluaties van verschillende opleidingsonderdelen (en dus docenten)
met
elkaar
kunnen
worden
vergeleken
(dit
is
de
vraag
naar
de
betrouwbaarheid van het instrument)? Er zijn ons geen resultaten bekend van testmomenten, validiteits- en betrouwbaarheidsanalyses, etc. 3) Er stellen zich heel wat validiteitsvragen t.a.v. het evaluatie-instrument, dat bestaat uit losstaande vragen (waarvan de mediaan, gemiddelde en spreiding worden berekend). Dit brengt enkele belangrijke risico’s en mogelijke problemen met zich mee, die we hier kort willen aanstippen: - losstaande items zijn gevoeliger voor sociale wenselijkheid
11
- onderwijsprestaties zijn ‘latente dimensies’ en niet onmiddellijk (dus aan de hand van één enkel item) observeerbaar zoals bijvoorbeeld iemands geslacht of leeftijd - op één item is de interpretatie van het antwoord vaak dubbelzinnig - bij één item spelen toevallige fluctuaties een veel grotere rol - bij één item is het moeilijk om groepen te onderscheiden (b.v. half tevreden – half ontevreden) - Statistisch gezien is het toetsen van validiteit en betrouwbaarheid moeilijker Wanneer echter zou worden gewerkt met Likertschalen waarbij rond een welbepaalde dimensie een aantal (positieve en negatieve) stellingen worden geformuleerd, kan de consistentie van het antwoordgedrag van de studenten op eenvoudige wijze worden nagegaan door het uitvoeren van een Cronbach’s alpha-test. Wanneer de alpha groter is dan .70 zijn de antwoorden van de studenten met betrekking tot deze dimensie consistent. Anders gezegd: wie bijvoorbeeld de studiebegeleiding goed vond, geeft dit op een consistente manier aan in zijn/haar antwoorden op de vragen in het instrument die betrekking hebben op de studiebegeleiding voor dit opleidingsonderdeel. Een Likertschaal kan men aldus omschrijven als een set items die relevant zijn om de houding van de respondent t.a.v. een bepaald latent concept (b.v. ‘studeerbaarheid’, ‘relevantie van de leerinhoud’, …) te meten. Deze items worden voorzien van een aantal antwoordmogelijkheden die een ordinale schaal vormen van positief naar negatief (Billiet, 1992: 239). Na het verzamelen van data tijdens een eerste testfase kunnen via een itemanalyse die items worden weerhouden die alle hetzelfde concept meten én dit op een voldoende betrouwbare wijze doen. Op basis van deze items wordt vervolgens een somscore berekend (b.v. de score voor de dimensie ‘studeerbaarheid’ op de schaal voor een bepaald opleidingsonderdeel). We vinden voor deze argumentatie steun bij Swanborn (1982) en Billiet (1992), die drie belangrijke redenen opgeeft voor het gebruik van schaaltechnieken in plaats van zich te beperken tot één vraag/item (Billiet, 1992: 236): 1.
Het bevorderen van de geldigheid
Wanneer een attitude of houding wordt bevraagd aan de hand van één enkel item, dan kan deze vraag onmogelijk datgene omvatten wat met deze attitude wordt bedoeld. 12
Respondenten (in ons geval: studenten) met dezelfde houding zullen nooit allemaal hetzelfde antwoord op deze ene vraag geven, bijvoorbeeld omdat ze de vraag verschillend percipiëren dan wel verschillende aspecten in hun oordeel laten meespelen. Wanneer echter verschillende items worden aangeboden die (verschillende aspecten van) eenzelfde concept of attitude meten, wordt de kans groter dat men wel een juist zicht verkrijgt van de houding van een respondent ten aanzien van dat concept of die attitude. 2.
Het verhogen van de betrouwbaarheid
Het is zo dat bij elke meting een aantal toevalsfactoren een rol spelen: de respondent is verstrooid, vult een vragenlijst niet correct in, leest een vraag verkeerd, … Volgens Billiet kan op die manier bij de antwoorden op één enkel item gemakkelijk sprake zijn van 5% verkeerde classificaties. Wanneer echter meerdere items hetzelfde achterliggende concept meten, verhoogt de betrouwbaarheid van de gegevens doordat deze toevallige factoren zichzelf opheffen of in omvang verminderden omdat het gemiddelde van de scores op elk item wordt genomen om de respondent op de schaal te scoren. 3.
Het verhogen van het meetniveau
Door meerdere items in een schaal te combineren, kan men van categorisch gemeten items overstappen naar het ordinale meetniveau (Likert-schalen) of zelfs een (quasi)intervalschaal (Thurstone-schalen). Dit laat toe de respondenten te rangordenen met betrekking tot hun houding ten aanzien van een welbepaald concept. Dit argument is hier minder van toepassing daar het door de UA ontwikkelde evaluatie-instrument reeds op ordinaal niveau meet (maar dan wel aan de hand van losstaande items). De vraag die zich dus opdrong betreft de wetenschappelijke waarde van het voorgestelde evaluatie-instrument: hoe zit het met de validiteit en de betrouwbaarheid van dit instrument? Om deze vraag te beantwoorden is een grondige valideringsstudie vereist en de CIKO-PSW vatte het plan op het instrument grondig te testen om aldus verantwoorde uitspraken te kunnen doen over zijn validiteit en betrouwbaarheid. Op de Werkgroep Innovatie en Kwaliteitszorg Onderwijs d.d. 31/08/2004 werd ons toelating verleend om op korte termijn een dergelijke studie op te zetten en uit te voeren.
13
In wat volgt overlopen we kort de verschillende onderzoeksfasen die deel uitmaakten van deze studie en lichten we kort toe wat er in elk van deze fase concreet gebeurde en waarom.
3 Fasering van het onderzoek 3.1
Theoretisch kader en ontwerp uitgebreide vragenbatterij (1 september 2004 – 8 oktober 2004)
De eerste fase bestond uit een literatuurstudie die gericht was op een theoretische fundering van de in het evaluatie-instrument opgenomen dimensies. Deze dimensies zijn ‘doel en inhoud
opleidingsonderdeel’,
‘structuur
en
opbouw
programma’,
‘werkvormen’,
‘studiebegeleiding en studeerbaarheid’, ‘studiemateriaal en infrastructuur’, ‘evaluatie’. We poogden deze dimensies te omschrijven en te definiëren aan de hand van de pedagogische literatuur en ze vervolgens te operationaliseren (‘meetbaar maken’). Pas dan konden we op zoek gaan naar vragen (‘items’) die elk van deze dimensies kunnen meten. Het resultaat van deze eerste fase bestond dus uit een grondige theoretische uitwerking van de verschillende dimensies enerzijds en een uitgebreide vragenlijst anderzijds. 3.2
Testfase 1: van uitgebreide vragenbatterij naar een testinstrument (10 oktober 2004 – 8 november 2004)
In deze fase deden we voor de eerste keer een beroep op de studenten. Aan hen werd gevraagd om aan de hand van de uitgebreide vragenbatterij één opleidingsonderdeel te evalueren dat ze het voorbije academiejaar hadden gevolgd. In totaal werden aldus 7 opleidingsonderdelen geëvalueerd door 433 studenten uit 6 verschillende faculteiten. Alle vragenlijsten werden vervolgens ingescand en de resultaten werden omgezet in SPSSbestanden. Op basis van strenge statistische analyses (Cronbach’s alpha testen, exploratieve factoranalyse, confirmatieve factoranalyse) gingen we na hoe goed de door ons geselecteerde items de dimensies meten. Items die niet aan onze eisen inzake validiteit en betrouwbaarheid beantwoordden werden uit de vragenlijst geschrapt. Op deze wijze konden we de uitgebreide testbatterij van 165 items reduceren tot een valide testinstrument bestaande uit 31 items.
14
3.3
Testfase 2: testen van validiteit en betrouwbaarheid evaluatie-instrument en testinstrument ( 9 november 2004 – 24 december 2004)
Tijdens de tweede testfase werden het evaluatie-instrument en het testinstrument opnieuw aan een brede groep studenten voorgelegd en dit twee keer (met een tussenperiode van 1 à 2 weken). Dit gebeurde opnieuw (op één uitzondering na) voor één opleidingsonderdeel dat het voorbije academiejaar werd gevolgd. De verkregen evaluatieresultaten lieten ons toe om de betrouwbaarheid en de validiteit van beide instrumenten te testen en met elkaar te vergelijken. 3.4
Eindrapportering en advies aan Werkgroep Innovatie en Kwaliteitszorg (januari - februari 2005)
In de vierde en laatste fase van deze studie formuleerden we een voorstel tot verbetering en optimalisering van het evaluatie-instrument en zorgden we voor dit eindrapport, waarin de belangrijkste resultaten van onze studie werden verzameld. We presenteerden reeds een eerste keer onze (voorlopige) resultaten aan de Onderwijsraad (d.d. 21/12/2004) en de Werkgroep Innovatie en Kwaliteitszorg Onderwijs (d.d. 23/12/2004). 4 Inhoud van het eindrapport De bovenstaande fasering werd in de structuur van dit onderzoeksrapport gehandhaafd. In concreto betekent dit dat elke onderzoeksfase in een afzonderlijk hoofdstuk wordt behandeld. Dit leek ons de beste optie wegens het nogal technische karakter van sommige uiteenzettingen en het feit dat in de testfases telkens met andere data werd gewerkt en andere analyses werden uitgevoerd. Door ons rapport op deze wijze te structureren hopen we het overzicht enigszins te bewaren. Aldus komt in het volgende hoofdstuk (hoofdstuk 2) het theoretisch kader aan bod, dat we hebben opgesteld met het oog op het formuleren van items die de in het evaluatieinstrument opgenomen dimensies zouden kunnen meten. Het derde hoofdstuk heeft betrekking op de eerste testfase. We bespreken de wijze waarop we uit onze uitgebreide vragenlijst reduceerden tot een naar onze normen betrouwbaar en valide testinstrument, dat kon dienen als uitgangspunt bij het testen van het evaluatie-instrument. Een uiteenzetting met betrekking tot hoe dit gebeurde en een overzicht van de resultaten, vindt men terug in het vierde hoofdstuk. Het vijfde hoofdstuk ten slotte bevat een voorstel ter optimalisering en
15
verbetering
van
het
evaluatie-instrument,
valideringsstudie opleverde.
16
gebaseerd
op
de
resultaten
die
deze
Hoofdstuk 2 Theoretisch kader
1 Inleiding Het instrument dat door de Universiteit Antwerpen zal worden gebruikt bij de evaluatie van opleidingsonderdelen door de studenten bestaat uit een aantal open en gesloten vragen, aangevuld met enkele identificatievragen. De gesloten vragen, die kwantitatief zullen worden verwerkt (berekening van gemiddelde, mediaan en spreiding), zijn ingedeeld volgens zes dimensies: ‘Doel en inhoud opleidingsonderdeel’, ‘structuur en opbouw programma’, ‘werkvormen’, ‘studeerbaarheid en studiebegeleiding’, ‘studiematerialen en infrastructuur’, ‘evaluatie’. Docenten zullen dus aan de hand van de resultaten op de vragenlijst kunnen worden gescoord op de verschillende items die onder de zes dimensies zijn opgenomen. Bij de ontwikkeling van ons testinstrument hebben wij ervoor geopteerd om deze dimensies over te nemen (wat het vergelijken van de kwaliteit van beide instrumenten aanzienlijk makkelijker maakt), maar niet zonder de nodige aandacht aan een theoretische uitwerking van de gebruikte concepten te besteden. Immers, we kunnen pas vragen en/of items selecteren indien we weten wat we willen meten. Zo dienen we bijvoorbeeld over een adequate en theoretisch gefundeerde omschrijving van het concept ‘studiebegeleiding’ te kunnen beschikken alvorens vragen te kunnen selecteren die dit concept respectievelijk deze
dimensie kunnen meten: Wat verstaan we onder studiebegeleiding? Welke aspecten/vormen van studiebegeleiding kunnen we onderscheiden? Op welke wijze kunnen deze aspecten meetbaar worden gemaakt? En, welke items kunnen in de vragenlijst worden opgenomen om de dimensie ‘studiebegeleiding’ voldoende te bevragen? Voorliggend hoofdstuk bevat het resultaat van een literatuurverkenning met betrekking tot bovenstaande dimensies. Achtereenvolgens komen aan bod: ‘doelstellingen’, ‘leerinhouden’, ‘structuur
en
opbouw
programma’,
‘didactische
werkvormen’,
‘studiemateriaal
en
infrastructuur’,‘studeerbaarheid’, ‘studiebegeleiding’, ‘evaluatie’. We pogen elk van deze dimensies te definiëren en meer of minder uitvoerig te omschrijven (operationaliseren) en lichten toe aan de hand van welke vragen ze zouden kunnen worden gemeten. Deze vragen (in het verdere bestek van dit rapport zullen we spreken van ‘items’) werden alle opgenomen in een uitgebreide vragenlijst die in de eerste testfase aan de studenten werd aangeboden met het oog op het selecteren van goede items voor ons testinstrument. Deze vragenlijst vindt men terug in Bijlage 1. 2 Dimensie: “Doelstellingen” 2.1
Omschrijving
Onderwijs betreft steeds een intentionele activiteit. Dit wil zeggen dat het wordt opgezet en georganiseerd met het oog op het verwezenlijken van bepaalde kennis, vaardigheden en attitudes bij de educandi. Een eerste belangrijke stap in het ontwerpen van leeromgevingen bestaat dan ook uit het bepalen van de doelstellingen die moeten worden gerealiseerd. Immers, alle andere momenten in het onderwijsleerproces zijn er in meer of mindere mate van afhankelijk: ze vormen hét uitgangspunt voor het ontwerpen van een leeromgeving. Met De Corte (1973) kunnen we stellen dat deze doelstellingen op verschillende niveaus van abstractie kunnen worden gerealiseerd, gaande van zeer algemene doelstellingen tot meer concrete doelstellingen. De meer algemene doelen dienen te worden vertaald in concrete leerdoelen en –taken, die zoveel mogelijk zijn afgestemd op de lerende (Lowyck & Terwel, 2003). Een goede omschrijving van wat moet worden verstaan onder ‘leerdoelen’ vinden we bij De Block en Heene, die stellen dat het gaat om “de bij de leerlingen intentioneel en systematisch nagestreefde wenselijke en realiseerbare gedragsveranderingen” (De Block & Heene, 1992: 312). Of nog: doelstellingen zijn “omschrijvingen van datgene wat de leerlingen of studenten als resultaat van een onderwijsleerproces moeten bereiken” (Janssens
18
e.a.,
2000:
101).
Het
moge
duidelijk
zijn
dat
hier
steeds
positieve
gedragsveranderingen worden beoogd, niettegenstaande het feit dat bij elk opgezet onderwijsleerproces ook andere, meer afwijkende en/of niet-positieve gedragsveranderingen kunnen optreden. 2.2
Soorten doelstellingen
We haalden reeds aan dat een onderscheid kan gemaakt worden tussen algemene en meer concrete leerdoelen. Leerdoelen worden immers op verschillende niveaus geformuleerd, en naarmate het niveau hoger is neemt het globaal karakter van de formulering toe (De Block & Heene, 1993: 23). Naargelang het niveau waarop ze worden geformuleerd en de functie die ze vervullen, onderscheiden De Block & Heene (1993) de volgende soorten doelstellingen: - Einddoelstellingen Dit zijn doelstellingen waarbij in algemene bewoordingen wordt omschreven wat men wil bereiken op het einde van een langere periode of cyclus. Het betreft met andere
woorden
permanente
doelstellingen
die
tijdens
het
gehele
onderwijsproces in het oog moeten worden gehouden, en dit over de verschillende opleidingsonderdelen en studiejaren heen. Bijvoorbeeld:
de
doelstellingen
van
de
bacheloropleiding
‘Politieke
Wetenschappen’ - Doelstellingen v.e. opleidingsonderdeel (‘curriculumdoelstellingen’) Dit
soort
doelstellingen
vormen
een
nadere
differentiatie
van
de
einddoelstellingen. Hier wordt het leerdoel namelijk zo opgevat en omschreven dat duidelijk wordt wat in een bepaalde leerperiode (bijvoorbeeld doorheen het verloop van een opleidingsonderdeel) moet worden bereikt. Hoewel deze leerdoelen niet onmiddellijk concreet en direct observeerbaar zijn, geven ze toch duidelijker aanwijzingen voor datgene wat met een bepaald vak tijdens een bepaald jaar moet worden bereikt. Op die basis kunnen docenten dan een aantal lesdoelstellingen, leerstofthema’s en didactische werkvormen selecteren die tot het (de) gewenste leerdoel(en) kunnen leiden. Bijvoorbeeld:
de
doelstellingen
van
een
collegereeks
‘Inleiding
tot
de
Communicatiewetenschappen’
19
- Les- of collegedoelstellingen Het betreft hier concreet observeerbare doelstellingen met het oog op het verwezenlijken van de curriculumdoelstellingen. Het zijn met andere woorden de instrumenten voor het bereiken van de curriculumdoelstellingen en worden daarom ook wel instrumentele leerdoelen genoemd. Collegedoelstellingen zijn een ‘vertaling’ van een te bereiken curriculumdoel naar een geschikte, concrete leersituatie. Bijvoorbeeld: de doelstellingen van een college ‘Statistiek’ - Evaluatiedoelstellingen (operationele of criteriumdoelstellingen) Met dit soort doelstellingen wordt zo precies mogelijk uitgedrukt welk eindgedrag ten aanzien van een bepaalde inhoud van een student wordt verwacht en hoe men deze verwachting wil toetsen. Het betreft hier operationaliseringen van lesof collegedoelstellingen (die vertalingen zijn van curriculumdoelstellingen, cf. supra) die het mogelijk maken om na te gaan of deze doelstellingen zijn bereikt (‘toetsen’ of ‘examen’). De evaluatiedoelstellingen geven met andere woorden het eindproduct aan van lessen (lessenreeks) of van een afgeronde periode. 2.3
Operationalisering
Aangezien het hier het ontwerp betreft van een instrument dat zal worden gehanteerd bij de evaluatie van opleidingsonderdelen, zullen we ons ten aanzien van deze dimensie (en alle andere) toespitsen op de curriculumdoelstellingen, meer bepaald de doelstellingen van het opleidingsonderdeel in kwestie. Concreet willen we met het instrument de volgende zaken kunnen nagaan. Vooreerst is het belangrijk dat studenten op de hoogte zijn van de doelstellingen die voor een bepaald opleidingsonderdeel gelden, met andere woorden weten zij wat met dit vak wordt beoogd? Zijn de doelstellingen voor hen voldoende duidelijk? Immers, indien zij begrijpen hoe de vakdoelstellingen bijdragen tot het verwerven van de competenties die met hun opleiding worden vooropgesteld, wordt ook de relevantie van het opleidingsonderdeel in het curriculum meer duidelijk. Hier stoten we meteen op een tweede aspect dat kan en moet worden bevraagd met het evaluatie-instrument, namelijk zijn de vooropgestelde leerdoelen voldoende relevant? Dragen zij inderdaad bij tot het verwerven van de kerncompetenties uit het curriculum? Het betreft hier met andere woorden de vraag
20
naar
de
kwaliteit
en
de
zinvolheid
van
de
doelstellingen
van
het
betreffende
opleidingsonderdeel. 2.4
2.4.1
Formuleren van items
Duidelijk zijn van de doelstellingen
De informatie die ik van de docent kreeg bij aanvang van dit opleidingsonderdeel gaf mij een duidelijk beeld van wat ik op het einde zou moeten beheersen De doelstellingen van dit opleidingsonderdeel zijn mij niet duidelijk Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel (UA) De doelstellingen van dit opleidingsonderdeel werden door de docent niet goed aangegeven
Ik weet nog steeds niet wat nu eigenlijk de doelstellingen van dit opleidingsonderdeel waren De omschrijving van de doelstellingen van dit opleidingsonderdeel door de docent was voldoende duidelijk
2.4.2
Kwaliteit van de doelstellingen Het is me niet duidelijk waarom dit opleidingsonderdeel in het studieprogramma is opgenomen Ik zie niet in hoe dit opleidingsonderdeel bijdraagt tot de wetenschappelijke vorming van de studenten Bij de behandeling van elk thema in dit opleidingsonderdeel toonde de docent de relevantie ervan voldoende aan Het is me duidelijk wat het nut is van dit opleidingsonderdeel voor de latere beroepsuitoefening De leerdoelen van dit opleidingsonderdeel zijn voor de studenten niet haalbaar Dit opleidingsonderdeel is van groot belang voor de opleiding die ik nu volg
21
3 Dimensie ‘Leerinhouden’ 3.1
Omschrijving
De leerinhouden die voor een opleidingsonderdeel worden geselecteerd zouden we kunnen omschrijven als die thema’s en onderwerpen over een kennisdomein of vak die in de loop van het opleidingsonderdeel zullen worden behandeld om de vooropgestelde leerdoelen te bereiken. Ontwerpers van onderwijsleeromgevingen (d.i. de concrete vormgeving van een opleidingsonderdeel) staan in dit verband steeds voor twee belangrijke keuzes, namelijk 1) welke leerinhouden komen aan bod en 2) op welke wijze zullen ze worden geordend? In wat volgt gaan we op elk van deze keuzes wat uitgebreider in, hierbij uitvoerig gebruik makend van Janssens e.a. (2000). 3.2
Factoren die de keuze van leerinhouden beïnvloeden
In deze paragraaf bespreken we kort welke principes en mogelijkheden van belang zijn bij het selecteren van de leerinhouden die in een bepaald opleidingsonderdeel aan bod zullen komen. Achtereenvolgens komen hierbij aan bod de doelstellingen, het ontwikkelingsniveau van de studenten, het vak en culturele en maatschappelijke ontwikkelingen. - Doelstellingen Bij het concretiseren van algemene doelstellingen (cf. supra) zijn twee belangrijke aspecten aan de orde: de inhoud waarop de doelstellingen betrekking hebben en de operaties die de studenten met betrekking tot deze inhoud moeten kunnen uitvoeren. Bijvoorbeeld: Algemene doelstelling = kritisch denken Concrete doelstelling = fouten kunnen opsporen (operatie) in de gedachtegang van een zakelijke tekst (inhoud)
Het is dus logisch dat deze twee aspecten zeer belangrijke aanwijzingen bevatten voor de keuze van de leerinhouden.
22
- Het ontwikkelingsniveau van de studenten In het verleden ging men ervan uit dat sommige leerinhouden pas op een bepaald moment in de ontwikkeling van een kind of student kunnen worden verwerkt. Meer inzicht in de rijpingsprocessen hebben deze idee meer genuanceerd: het is immers gebleken dat bepaalde leerinhouden waarvan men op het eerste zicht meende dat leerlingen ze pas vanaf een bepaald niveau/leeftijd aankunnen, toch door jongere leerlingen konden worden bereikt door middel van een vorm van aangepaste instructie (cf. idee van een ‘zone van naaste ontwikkeling’, ontwikkeld door Vygotski). Echter, een eerste beperking van dit inzicht is dat voor sommige leerinhouden het niet echt duidelijk is waarin dan die aangepaste instructie zou moeten bestaan. Een tweede beperking heeft betrekking op het feit dat het ontwikkelingsniveau van studenten wel degelijk grenzen kan stellen die niet door aangepaste instructie kunnen worden verlegd. - Het opleidingsonderdeel Zoals algemeen geweten zijn de programma’s in het secundair en het hoger onderwijs vrijwel volledig gestructureerd in vakken die afgeleid zijn van en corresponderen met de bestaande wetenschappelijke disciplines. Verder ervaren leraren en docenten zichzelf in de eerste plaats als onderwijsgevenden in een bepaald vak. Daarom is het vak een belangrijke factor in de keuze van de leerinhouden. 1) Wat is de (mogelijke) bijdrage van het vak tot de opleiding? 2) Welke mogelijkheden ziet de onderwijsgevende zelf m.b.t. zijn/haar vak (of: welke doelstellingen wil/kan hij of zij volgens de eigen subjectieve onderwijstheorie wel/niet realiseren)? - Culturele en maatschappelijke ontwikkelingen Binnen de huidige cultuur doen zich een aantal ontwikkelingen voor die in meerdere of mindere mate betrekking kunnen hebben op de keuze van de leerinhouden (denken we bijvoorbeeld maar aan het feit dat men in godsdienstlessen tegenwoordig niet meer om onderwerpen als ‘euthanasie’ of ‘abortus’ heen kan …). Daarnaast is het ook belangrijk dat bij de keuze van leerinhouden rekening wordt gehouden met de sociale bruikbaarheid ervan: de leerinhouden moeten de studenten in staat stellen om opdrachten in de 23
maatschappij uit te voeren (en aldus leiden tot het verwerven van een aantal basiscompetenties). 3.3
Het ordenen van leerinhouden
Beslissingen over de keuze van leerinhouden hebben vaak implicaties voor de ordening ervan en omgekeerd. Het aantal mogelijkheden tot ordening van leerinhouden is quasi onbeperkt, maar in de praktijk komen een drietal vormen meer voor dan andere: - het voorkomen van inhouden in de werkelijkheid Bijvoorbeeld: in de lessen aardrijkskunde wordt eerst ingezoomd op de eigen omgeving, daarna de eigen staat, dan de rest van het continent, etc. In de lessen informatica wordt eerst uitgelegd hoe men een computer opstart en installeert, dan hoe een besturingssysteem werkt, etc. - Toepassingsmodaliteiten en –frequentie Dit betekent dat eerst wordt aangeleerd wat de studenten in de praktijk eerst nodig hebben. Bijvoorbeeld: verpleegkundigen leren omwille van de stage in het eerste jaar van de opleiding eerst een aantal basisvaardigheden (lichaamsverzorging, toedienen van medicijnen, etc.). De principes waarop deze vaardigheden steunen, komen pas later aan bod. - Vakinhoudelijke structuren Wat men eerst behandelt en wat later, hangt af van de interne logica van het vak zelf. Bijvoorbeeld: in meetkunde worden eerst de punten, lijnen en hoeken besproken, en pas daarna de kenmerken van de vlakke figuren. Naast deze drie veel voorkomende ordeningsprincipes (die een eerder lineair karakter vertonen en streven naar een zo volledig mogelijke oriëntering in het vakgebied) bestaan er ook andere ordeningsprincipes (ordening volgens conceptuele structuren, elaborerende ordening, etc.). We gaan er hier niet verder op in, maar belangrijk is dat men inziet dat ook de ordening van de leerinhouden belangrijke keuzes impliceert. 24
3.4
Operationalisering
Uit het voorgaande onthouden we dat goede leerinhouden aansluiten op de doelstellingen van het opleidingsonderdeel, de vakinhoud, het ontwikkelingsniveau en de interesse van de studenten en de maatschappelijke realiteit. Tevens zijn ze goed en op een logische wijze geordend. Hieruit kunnen we drie subdimensies destilleren. Vooreerst moet worden nagegaan of de leerinhouden die in een bepaald opleidingsonderdeel aan bod komen wel relevant zijn: zijn ze relevant in die zin dat ze aansluiten bij de leerdoelen die met het opleidingsonderdeel worden beoogd (en dus de kerncompetenties van het curriculum waarbinnen dit opleidingsonderdeel is opgenomen)? En, weerspiegelen ze het vakdomein waarop het opleidingsonderdeel betrekking heeft? Dit betreft dus een subdimensie met betrekking tot de relevantie van de leerinhouden. Daarnaast moeten we nagaan of de aangeboden leerinhouden voor de studenten voldoende aantrekkelijk zijn en dit in twee betekenissen, namelijk zijn de leerinhouden voldoende aangepast aan het niveau van de studenten en zijn ze voor de studenten interessant? We hebben hier dus te maken met de subdimensie die betrekking heeft op de mate waarin de leerinhouden voor de studenten interessant zijn. Een derde en laatste belangrijke subdimensie betreft de wijze waarop de leerinhouden geordend zijn en met elkaar samenhangen. Of met andere woorden: hoe zit het met de logische opbouw van de inhouden die in het opleidingsonderdeel aan de orde zijn? 3.5 3.5.1
Formuleren van items (evaluatie-instrument) Relevantie van de leerinhouden De inhoud van het vak was relevant voor de opleiding (UA) De thema’s die in dit opleidingsonderdeel aan bod komen, laten toe de vooropgestelde leerdoelen te bereiken Sommige onderwerpen die in dit opleidingsonderdeel worden behandeld zijn naar mijn mening totaal overbodig voor de opleiding De inhouden die in dit vak aan bod komen, kan ik ook gebruiken bij het afwerken van andere opleidingsonderdelen uit de opleiding De thema’s die in dit vak aan bod komen, vormen volgens mij geen goede weerspiegeling van het vakdomein waarop dit opleidingsonderdeel betrekking heeft
25
Inhoudelijk is dit opleidingsonderdeel up-to-date Bij de behandeling van een onderwerp toonde de docent de relevantie ervan voldoende aan
3.5.2
Interessante leerinhouden? Ik heb van dit opleidingsonderdeel veel opgestoken Dit opleidingsonderdeel vond ik niet interessant De inhoud van dit opleidingsonderdeel stimuleerde mijn zelfstandige, actieve inzet bij het verwerken van de leerstof De inhoud van dit opleidingsonderdeel stimuleerde me niet echt tot persoonlijk nadenken Door dit opleidingsonderdeel is mijn interesse voor de opleiding afgenomen Dit opleidingsonderdeel heeft mijn kritisch denkvermogen gestimuleerd De docent slaagde er niet in mijn belangstelling voor dit opleidingsonderdeel te stimuleren In dit opleidingsonderdeel kwamen oefeningen, voorbeelden of toepassingen aan bod (UA)
3.5.3
Opbouw van de inhoud De inhoud van dit opleidingsonderdeel vertoont onvoldoende interne samenhang De gedachtegang in dit opleidingsonderdeel is logisch opgebouwd De verschillende thema’s die in dit opleidingsonderdeel aan bod komen, hebben niets met elkaar te maken De verschillende thema’s in dit vak zijn goed op elkaar afgestemd Het feit dat de verschillende thema’s niet goed op elkaar aansluiten, maakt van dit opleidingsonderdeel een onoverzichtelijk geheel De samenhang tussen de verschillende behandelde onderwerpen in dit opleidingsonderdeel is me duidelijk
26
4 Dimensie ‘Structuur en opbouw van het programma’ 4.1 Elke
Omschrijving leeromgeving
en/of
elk
opleidingsonderdeel
maakt
samen
met
andere
leeromgevingen/opleidingsonderdelen deel uit van een groter geheel: het curriculum. In het onderwijs wordt ‘curriculum’ gedefinieerd als een “leergang (‘course of study’) met doelen die de lerende moet bereiken en taken die voor het bereiken ervan moeten worden vervuld. Het is een samenhangend geheel van geplande en niet-geplande activiteiten die een lerende tijdens zijn hele leerloopbaan onderneemt onder begeleiding van de school” (Lowyck & Terwel, 2003: 287). Deze curricula worden ontworpen op macro-, meso- en zelfs microniveau waarbij aan de algemene leerdoelen een meer concrete en precieze invulling wordt gegeven (m.a.w. via welke vakken/leerinhouden en op welke wijze zullen we de studenten ondersteunen om de vooropgestelde leerdoelen te bereiken). Het is dan ook belangrijk dat alle onderdelen van het curriculum als het ware een organisch geheel vormen: de vakken en inhouden sluiten goed op elkaar aan, vloeien als het ware in elkaar over en vormen een aldus een totaalpakket dat studenten toelaat de leerdoelen te bereiken. Een (goed) curriculum omvat, naast doelen (de opleidingsdoelstellingen in termen van ‘kerncompetenties’) en inhouden, allerlei leeractiviteiten waarin de lerende centraal staat en verantwoordelijken voor onderwijs een ondersteunende rol spelen. Dat doen ze door een context te creëren waarin de lerende de (geplande en niet-geplande) activiteiten zo goed mogelijk kan uitvoeren, de nodige ervaringen kan opdoen en ervan kan leren. Zo gezien biedt het curriculum ruimte voor eigen initiatief, met afstemming op de concrete context. Hieruit volgt dat de invulling van het curriculum deels steunt op overleg tussen diverse participanten, onder wie de lerende zelf. Dat manifesteert zich ook in de aandacht die in het curriculum aan maatschappelijke thema’s wordt geschonken (Lowyck & Terwel, 2003: 287). 4.2
Operationalisering
Het moge duidelijk zijn dat bij de evaluatie van een opleidingsonderdeel ook haar relatie en samenhang met de andere vakken uit het programma/curriculum aan bod moet komen. De centrale vraag hierbij is of het opleidingsonderdeel goed is geïntegreerd in het curriculum waarvan het deel uitmaakt. Op basis van bovenstaande omschrijving van de dimensie ‘curriculum’ kunnen we in dit verband de volgende drie subdimensies onderscheiden. Vooreerst moet worden nagegaan of het opleidingsonderdeel voldoende aansluit bij de voorkennis van de studenten. Met andere woorden, zijn de studenten bij de aanvang van het 27
opleidingsonderdeel (b.v. vak uit de tweede bachelor) voldoende gewapend om het verwerven van de vooropgestelde leerdoelen tot een goed einde te brengen (b.v. omdat ze in de eerste bachelor voldoende (voor)kennis, vaardigheden en attitudes hebben verworven om dit vak aan te kunnen). Een tweede subdimensie betreft het bestaan van overlap tussen dit opleidingsonderdeel en andere die in het curriculum zijn opgenomen: zijn de verschillende opleidingsonderdelen ook in dit verband goed op elkaar afgestemd? Anderzijds dient te worden vermeden dat de opleidingsonderdelen als geïsoleerde elementen en dus volkomen onafhankelijk van elkaar fungeren: in een goed curriculum is het ook voor de studenten duidelijk waar zich de raakpunten tussen de verschillende vakken situeren. Ten slotte willen we peilen naar de wijze waarop het opleidingsonderdeel (en dus het curriculum) aansluit bij de maatschappelijke realiteit/beroepspraktijk. Dit is immers één van de voorwaarden om de studenten toe te laten competentiegericht te leren. Zo stelt bijvoorbeeld de UA in haar onderwijsontwikkelingsplan dat competentiegericht onderwijs veronderstelt dat “de instelling/faculteit/docent voorziet in leersettings waarin studenten kennis en vaardigheden
gelijktijdig
verwerven
in
contexten
die
relevant
zijn
voor
de
beroepsuitoefening” (p. 19). Dit betekent dat leerinhouden, taken, opdrachten etc. zoveel mogelijk dienen aan te sluiten op gangbare thema’s en recente (wetenschappelijke en maatschappelijke) ontwikkelingen in het vakgebied. 4.3 4.3.1
Formuleren van items (evaluatie-instrument) Aansluiting bij voorkennis De inhoud van dit opleidingsonderdeel sloot goed aan bij mijn voorkennis (UA) De docent bouwt in dit opleidingsonderdeel niet verder op onze voorkennis Rekening houdend met wat ik al ken en kan, is dit vak zeker op het juiste moment in de opleiding geprogrammeerd Met mijn achtergrond en voorkennis, kan ik de vooropgestelde doelen voor dit opleidingsonderdeel maar moeilijk bereiken Bij het aanbrengen van een nieuwe inhoud sluit de docent goed aan bij de reeds verworven kennis van de student In dit opleidingsonderdeel werd ik uitgedaagd om hetgeen ik al wist en kende te gebruiken De inhoud van dit opleidingsonderdeel sloot niet goed aan op wat we reeds kennen en kunnen
28
4.3.2
Afstemming op andere vakken Dit opleidingsonderdeel overlapt op storende wijze met de andere vakken De docent toonde duidelijk aan hoe dit opleidingsonderdeel in verband staat met de andere vakken uit de opleiding De raakpunten van dit opleidingsonderdeel met de andere vakken in het studieprogramma zijn mij niet duidelijk geworden De inhoud van dit opleidingsonderdeel sloot goed aan bij de andere opleidingsonderdelen (UA) De overlapping tussen dit opleidingsonderdeel en de andere opleidingsonderdelen is aanvaardbaar Ik zie het verband niet tussen dit opleidingsonderdeel en enkele andere opleidingsonderdelen uit het studieprogramma
4.3.3
Aansluiting op de maatschappelijke realiteit/beroepspraktijk De voorbeelden of illustraties die bij dit opleidingsonderdeel werden gebruikt sluiten goed aan op de leefwereld van de studenten De voorbeelden of illustraties die bij dit opleidingsonderdeel werden gebruikt sluiten goed aan op de maatschappelijke actualiteit Het belang van dit opleidingsonderdeel voor de latere beroepspraktijk is mij niet duidelijk De docent koppelde de leerinhouden van dit opleidingsonderdeel regelmatig terug naar de actualiteit Tijdens dit opleidingsonderdeel had ik nooit het gevoel dat ik iets nuttigs aan het leren was Ik heb mij dikwijls afgevraagd waarom dit opleidingsonderdeel deel uitmaakt van het studieprogramma
5 Dimensie ‘Didactische werkvormen’ 5.1
Omschrijving
Een belangrijke vraag met betrekking tot het aanbieden van de leerinhouden aan de studenten betreft de keuze van de didactische werkvorm(en) waarvan men gebruik zal maken. In onze contreien worden voor didactische werkvormen de meest uiteenlopende termen gebruikt (instructiemethode, onderwijsmethode, onderwijsstrategie, etc.). Lowyck 29
schuift in dit verband de volgende definitie van een didactische werkvorm naar voor: “Didactische werkvormen zijn relatief stabiele patronen van onderwijs- en leeractiviteiten, die in hun onderlinge samenhang gericht zijn op het bevorderen van beoogde leerprocessen en –resultaten” (Lowyck, 1995, 2003). Een docent kan of moet uit een veelheid van didactische werkvormen een keuze maken. Lowyck geeft aan dat de docent hierbij rekening dient te houden met een 7-tal factoren: de onderwijsvisie,
doelstellingen,
leerprocessen,
leerlingkenmerken,
leraarkenmerken,
randvoorwaarden en het interactiepatroon (Lowyck, 1995: 216-220). In de volgende paragraaf bespreken we kort deze factoren. 5.2
Factoren die de keuze voor een werkvorm beïnvloeden - Onderwijsvisie De opvattingen die een docent heeft over onderwijs bepalen in zeer sterke mate de onderwijs- en leeractiviteiten waarvoor hij/zij kiest. Indien een ontwerper van leeromgevingen onderwijs vooral ziet in termen van overdracht van kennis, dan zullen klassieke vormen van doceren meer dan andere werkvormen aan de orde zijn. Indien men bij de studenten vooral zelfstandigheid en creativiteit beoogt, zullen wellicht andere werkvormen (bv. probleemgestuurd onderwijs) meer kans maken. - Doelstellingen De leerresultaten of doelstellingen die met het onderwijs worden nagestreefd, zijn vertalingen van de onderwijsvisie. Het is duidelijk dat bepaalde leerdoelen beter kunnen worden bereikt door gebruik te maken van een of andere didactische werkvorm, maar het is zeker niet zo dat voor het bereiken van een specifiek leerdoel slechts één werkvorm het meest van toepassing is. - Leerprocessen Ook het type leerproces dat wordt beoogd (‘memoriseren’, ‘zelf ontdekken’, etc.) bepaalt mee de werkvorm waarvoor wordt geopteerd. Didactische werkvormen beïnvloeden niet alleen de leerresultaten, maar ook de kwaliteit van het leerproces zelf. Met andere woorden, leerprocessen van studenten kunnen door specifieke werkvormen worden beïnvloed. Immers, met verschillende didactische
30
werkvormen kan wel eenzelfde resultaat worden bereikt, maar de studenten zijn er op een heel andere manier toe gekomen. - Leerlingkenmerken De keuze van de soort werkvorm die zal worden gebruikt, wordt verder ook mee bepaald door de specifieke leerlingkenmerken. Studenten verschillen van elkaar op verschillende domeinen (geslacht, socio-culturele achtergrond, interesse, leeftijd, …) en ook klasgroepen zijn in niveau niet gelijk. Onderzoek toonde bijvoorbeeld aan dat studenten met verschillende kenmerken uit bepaalde vormen van instructie meer profijt halen: studenten met faalangst presteren beter in meer gestructureerd onderwijs, terwijl studenten die niet of minder faalangstig zijn meer baat hebben bij werkvormen die gericht zijn op zelfredzaamheid (ATI-onderzoek Cronbach & Snow, 1977 in: Lowyck, 1995). - Leraarkenmerken Ook de docenten zelf worden in hun keuze voor deze of gene didactische werkvorm mee bepaald door achtergrondkenmerken zoals vooropleiding, socioculturele achtergrond, leeftijd, etc. Wallen en Travers sommen in dit verband enkele belangrijke kenmerken op (Wallen & Travers in: Lowyck, 1995): − onderwijstraditie − sociale achtergrond − ervaren behoefte − gevoeligheid voor druk vanuit de omgeving − affiniteit met bepaalde theorieën over leren en onderwijzen (cf. supra) - Randvoorwaarden Ook de fysieke omgeving speelt een belangrijke rol: het feit dat men bijvoorbeeld met een grote groep studenten zal moeten werken, sluit al een aantal didactische werkvormen uit. Ook de aan- of afwezigheid van leermateriaal (PC’s, beamer, meubilair, etc.) beïnvloedt de mogelijkheden. - Interactiepatroon Een laatste belangrijke factor betreft de wijze waarop onderwijsgevende en studenten geacht worden met elkaar samen te werken: de keuze voor meer of
31
minder sturing bijvoorbeeld heeft consequenties voor de keuze van de geschikte didactische werkvorm(en). Samenvattend kunnen we bijgevolg stellen dat men, wil men ervoor zorgen dat de studenten de gewenste leerresultaten bereiken, met veel (expliciete en impliciete) factoren dient rekening te houden bij de keuze voor een didactische werkvorm. Belangrijk daarbij is dat men voortdurend dient na te gaan of de gekozen werkvorm nog voldoende afgestemd is op en aansluit bij de leerinhouden en de beoogde leereffecten. 5.3
Operationalisering
De evaluatie van de gebruikte didactische werkvormen voor een opleidingsonderdeel kunnen we opsplitsen in drie subdimensies. Een eerste betreft de doceerstijl van de docent: vinden de studenten dat hij/zij ‘goed lesgeeft’? Deze dimensie peilt de kwaliteiten van de docent als onderwijsgevende, en is van toepassing op alle mogelijke werkvormen (hoorcolleges, seminaries, practica, toelichting bij opdrachten/taken, herhalingsoefeningen, etc.). Een tweede subdimensie heeft betrekking op de relatie leerproces – didactische werkvorm. We staan hier stil bij de vraag of de didactische werkvorm voldoende afgestemd is op het leerproces of het type leren dat met de doelstellingen van het opleidingsonderdeel wordt beoogd (‘memoriseren’, ‘creatief met de leerinhoud omspringen’, ‘een kritisch standpunt innemen’, ‘relevante informatie selecteren’, …). Met andere woorden, is de gebruikte didactische werkvorm wel de meest geschikte om de vooropgestelde leerdoelen te bereiken? Een derde en laatste subdimensie heeft betrekking op de wijze waarop de studenten de inspanningen van de docent percipiëren ten aanzien van het leerproces dat ze doormaken: worden zij door de docent (en de gebruikte didactische werkvorm) gestimuleerd in hun leerproces? Biedt de docent volgens hen de nodige ondersteuning bij hun werkzaamheden voor dit opleidingsonderdeel? Biedt de docent hen voldoende mogelijkheden om de leerstof actief te verwerken? 5.4 5.4.1
Formuleren van items (evaluatie-instrument) Doceerstijl docent: wordt er goed lesgegeven? De docent legde de leerstof goed uit Het onderwijs van de docent was slecht De docent is onvoldoende didactisch geschoold
32
De docent kan moeilijke onderwerpen eenvoudig uitleggen Wanneer de studenten blijk geven niet te kunnen volgen, past de docent zich aan De docent bereidt de hoorcolleges, practica, oefeningen e.d. niet goed voor De uiteenzettingen van de docent tijdens de lessen zijn helder De docent houdt tijdens de hoorcolleges, practica, oefeningen e.d. voldoende rekening met kritische opmerkingen van de studenten
5.4.2
Afstemming werkvorm en leerdoelen De
verschillende
werkvormen
(hoorcollege,
oefenzitting,
opdracht,
practica,...)
voor
dit
opleidingsonderdeel zijn goed op elkaar afgestemd De gebruikte werkvorm laat mij niet toe de vooropgestelde leerdoelen te bereiken De contactmomenten met deze docent(e) zijn een meerwaarde ten opzichte van het studiemateriaal De gebruikte werkvorm vormt volgens mij een goed hulpmiddel bij het verwerken van de leerstof De gebruikte werkvorm liet mij niet toe het examen goed voor te bereiden De gebruikte didactische werkvorm bood mij geen goed overzicht op de inhoud van dit opleidingsonderdeel
5.4.3
Worden studenten gestimuleerd in hun leerproces? De docent is er nooit geslaagd mijn belangstelling voor deze cursus te stimuleren De docent kiest boeiende onderwerpen De docent kiest geen boeiende illustraties of voorbeelden om de leerstof inzichtelijker te maken De manier van lesgeven van de docent zet mij aan tot nadenken De docent lokt discussies uit De docent vraagt me geregeld om zelf voorbeelden te bedenken
33
De docent geeft nooit persoonlijke beschouwingen of commentaar op de leerinhouden De docent nodigt me regelmatig uit stelling ten nemen ten aanzien van een bepaald onderwerp De docent geeft af en toe een opdracht die me verplicht tot kritische reflectie
6 Dimensie ‘Studiematerialen en infrastructuur’ 6.1
Omschrijving
Deze dimensie heeft betrekking op de media of leermiddelen waarvan in een onderwijsleeromgeving gebruik wordt gemaakt. Onder ‘media’ verstaan we die middelen die “de onderwijsgevende tot zijn/haar beschikking heeft om de onderwijs- en leeractiviteiten te ondersteunen” (Janssens e.a., 2000:53). Voorbeelden van media zijn een syllabus, een powerpoint-presentatie, een elektronische leeromgeving (website, Blackboard), etc. Heene, Saveyn & Bonamie (1990) geven aan dat de keuze met betrekking tot welk medium zal worden gebruikt een subsidiaire keuze is. De belangrijkste beslissing is immers die over welke leerdoelen zullen worden vooropgesteld, rekening houdend met het leerplan (minder van toepassing in een academische omgeving), de studenten en de context (curriculum). Daarna dient een antwoord te worden gezocht op de vraag naar hoe men de studenten zal ondersteunen bij het bereiken van de leerdoelen. Dit is de vraag naar de didactische werkvorm en de leerstof die zal gebruikt worden. Ten slotte neemt men een beslissing over de wijze waarop zal worden getoetst of de studenten de beoogde leerresultaten ook daadwerkelijk hebben verworven (evaluatie, cf. infra). Bij elk van deze drie keuzemomenten kan men besluiten om één of meerdere media te hanteren (Heene e.a., 1990). Bijvoorbeeld: een schriftelijke leidraad bij het opstellen van de concrete leerdoelen, een film tijdens een hoorcollege, elektronische ondervraging als een vorm van permanente evaluatie. Intussen zal duidelijk geworden zijn dat er een zeer grote variatie in mogelijkheden bestaat wat betreft de media die kunnen worden gebruikt. Het is echter zeer moeilijk (en ongepast) om hierin een rangorde aan te brengen: een bepaald medium kan voor meerdere doeleinden worden gebruikt en de belangrijkste opdracht voor de onderwijsgevende bestaat hierin dat hij/zij voor zijn specifieke plannen de meest geschikte media moet zien te selecteren. Het is dus ook in dit opzicht het meest van belang om de juiste beslissingen te nemen die gericht is
34
op “de kern van alle interventies in het onderwijs: het leren van leerlingen of studenten” (Janssens, 2000: 54). 6.2
Operationalisering
Uit de bovenstaande omschrijving leiden we af dat goede media of leermiddelen aan drie vereisten (en deze vormen meteen onze drie subdimensies) moeten voldoen. Vooreerst moet het studiemateriaal van die aard zijn dat het de studenten helpt om de leerstof beter te begrijpen. Zo is het bijvoorbeeld niet aangeraden om tijdens een hoorcollege een powerpoint-presentatie te gebruiken die nog meer verwarring schept in de structuur van de leerstof. Daarnaast moet het studiemateriaal de studenten helpen om zich goed op het examen te kunnen voorbereiden. Een syllabus zonder inhoudstafel of een nietgestructureerde Blackboard-omgeving dragen daar zeker niet toe bij. Ten slotte is het ook belangrijk dat het gebruikte studiemateriaal goed aansluit bij de gehanteerde didactische werkvorm. Zo vereist probleemgestuurd onderwijs enkele goed uitgewerkte en realistische cases/probleemstellingen, waarin tal van leermogelijkheden voor de studenten terug te vinden zijn. 6.3 6.3.1
Formuleren van items (evaluatie-instrument) Bijdrage tot begrijpen van de leerstof De kwaliteit van het studiemateriaal (inhoud, taalgebruik, structuur, vormgeving,…) droeg bij tot een vlotte verwerking van de leerinhoud (UA) Het studiemateriaal was goed Deze docent maakt optimaal gebruik van informatie- en communicatietechnologieën Deze docent maakt gepast gebruik van audiovisueel materiaal Het studiemateriaal dat deze docent aanbiedt, is niet overzichtelijk Het gebruikte didactisch materiaal voor dit vak was functioneel Het onderscheid tussen hoofd- en bijzaken in het studiemateriaal is onduidelijk Het ontbreekt het studiemateriaal aan een logische opbouw Het studiemateriaal bevat aanwijzingen over hoe ik moet studeren
35
Het studiemateriaal is niet ‘studeervriendelijk’ Het studiemateriaal bevat voldoende oefeningen en opdrachten Het studiemateriaal dat deze docent ter beschikking stelt, helpt ons het vak onder de knie te krijgen Het gebruik van Blackboard voor dit opleidingsonderdeel hielp mij de leerstof beter te verwerken
6.3.2
Bijdrage tot voorbereiding examen De nodige studiematerialen (cursustekst, handboek, software, cursussite op Blackboard,...) waren tijdig beschikbaar (UA) Het studiemateriaal laat me niet toe het examen goed voor te bereiden Het studiemateriaal waarover we beschikken is verwarrend in de voorbereiding van het examen De bestudering van het studiemateriaal vormt een goede voorbereiding op het examen Voor het examen beschikken we over degelijk en volledig studiemateriaal Het studiemateriaal bevat onvoldoende vragen en/of oefeningen die ons kunnen helpen bij het voorbereiden van het examen
6.3.3
Aansluiting bij gebruikte didactische werkvorm De inschakeling van Blackboard (of een ander elektronisch platform) in dit opleidingsonderdeel had een meerwaarde t.o.v. de contactmomenten en het ander leermateriaal (UA) Het studiemateriaal sluit niet goed aan bij de gebruikte didactische werkvorm Ik kan mij aan de hand van het beschikbare studiemateriaal goed voorbereiden op hoorcolleges, practica, oefeningen, e.d. Sommige zaken die tijdens een les aanbod zijn gekomen en die behoren tot de leerstof, vind ik niet terug in het beschikbare studiemateriaal Deze docent moet de inhoud van de cursus en de inhoud van de lessen beter op elkaar afstemmen Als deze docent documentatie gebruikt, is die echt verduidelijkend voor de leerstof
36
7 Dimensie ‘Studeerbaarheid’ 7.1
Omschrijving
Wijnen e.a. omschrijven het begrip studeerbaarheid als “het ontbreken van voor de studie belemmerende factoren” (In: Peters, 1997). Een studieprogramma is dan studeerbaar wanneer “er geen duidelijke belemmeringen zijn te constateren in de afstemming op de aanleg, voorkennis en leervermogen, op de interesse en eigen doelen van de studenten en als er voldoende rekening is gehouden met de omgevingsfactoren” (Ibid.: 13). Wij nemen deze
definitie
over
en
spitsen
ze
in
dit
onderzoeksopzet
toe
op
afzonderlijke
opleidingsonderdelen (‘vakken’). De studeerbaarheid van een opleidingsonderdeel moet dan worden beschouwd als de mate waarin dit opleidingsonderdeel als onderwijsleeromgeving aansluit op studentkenmerken (zoals de persoon van de student, woon-en werksituatie, vooropleiding, etc.) en het curriculum waarbinnen het is opgenomen. Studeerbaar onderwijs is dan dat “onderwijs dat studenten met de juiste aanleg, voorkennis en motivatie, ondersteunt in het in de juiste mate uitvoeren van adequate leeractiviteiten” (Van de Kamp, 1997). Aangenomen
wordt
dat
bij
het
evalueren
van
de
studeerbaarheid
van
een
opleiding(sonderdeel) de studentenpopulatie een belangrijke (zo niet de belangrijkste) actor is. Immers, het zijn de studenten die het programma/vak volgen en de leeractiviteiten uitvoeren: het is dus niet meer dan logisch dat zij een belangrijke rol vervullen in het evaluatiegebeuren.
Het
bevragen
van
de
validiteit
en
de
betrouwbaarheid
van
studentoordelen is dan ook een onderzoekstak die de laatste decennia tot volle ontwikkeling is gekomen (zie o.a. Gijselaers, 1988, Peters, 1997). 7.2
Operationalisering
In bovenstaande omschrijving werd de ‘studeerbaarheid’ van een opleidingsonderdeel omschreven als de mate waarin dit opleidingsonderdeel aansluit op studentkenmerken en het curriculum waarin het is opgenomen. Deze definiëring is heel wat breder dan de “zwaarte” of het “gewicht” van een vak (in studiepunten bijvoorbeeld), zoals studeerbaarheid nog wel wordt uitgedrukt. Wij opteren ervoor de brede definitie te hanteren en willen de studeerbaarheid van een opleidingsonderdeel meten op twee domeinen (subdimensies). Vooreerst moet nagegaan worden in welke mate de inhoud van het opleidingsonderdeel aansluit op de voorkennis van de studenten (‘hoe beter het vak aansluit op de voorkennis, hoe hoger de studeerbaarheid’). We stelden echter al een schaal op met items die deze 37
vraag kunnen meten, en verwijzen bijgevolg naar de vragen die werden opgenomen onder de dimensie ‘structuur en opbouw van het programma’. Een tweede domein betreft de ‘zwaarte’ van het vak zoals dit wordt gepercipieerd door de studenten. Onder ‘zwaarte’ wordt hier verstaan het uit balans zijn van de verwachtingen van de docent ten aanzien van dit opleidingsonderdeel en de normverwachting van de studenten (‘Wat kan en mag een vak van mij verlangen?’). 7.3 7.3.1
Formuleren van items (evaluatie-instrument) Aansluiting op voorkennis studenten cf. supra
7.3.2
Gepercipieerde ‘zwaarte’ van het opleidingsonderdeel
Voor dit opleidingsonderdeel was de verhouding tussen het aantal uren contactonderwijs (vb. in hoorcolleges, oefeningensessies, labosessies, seminaries,…) en het aantal uren verwerkingstijd (studie thuis) goed gedoseerd (UA) De inspanningen die van mij vereist werden voor dit vak kon ik evenwichtig spreiden tijdens het semester (UA) De verwachtingen van de docent ten aanzien van wat we moeten kennen en kunnen zijn realistisch en haalbaar Deze docent verwacht te veel van ons in het kader van dit opleidingsonderdeel Het aantal voor dit vak gereserveerde contacturen is optimaal Ik moet me te hard inspannen om te voldoen aan de verwachtingen van de docent Ik kan mijn inspanningen voor dit opleidingsonderdeel goed verspreiden over de looptijd van dit opleidingsonderdeel De moeilijkheidsgraad van dit vak is aanvaardbaar In vergelijking met andere vakken vergt deze docent te veel van onze studietijd Dit opleidingsonderdeel is te gemakkelijk
38
8 Dimensie ‘Studiebegeleiding’ 8.1
Omschrijving
Het concept ‘studiebegeleiding’ dekt vele ladingen: een precieze omschrijving ervan blijkt een
zeer
moeilijke taak. Toch kunnen
we met
Masui e.a. (1986) stellen
dat
studiebegeleiding, hoe het concept in de praktijk ook wordt ingevuld, een tweeledig doel heeft namelijk het bevorderen van studeer- en oplossingsgedrag en het verbeteren van de prestaties van (vooral eerstejaars-) studenten. In wat volgt, bespreken we een aantal kenmerken en principes van studiebegeleiding en stellen we op basis van deze analyse een aantal mogelijke items voor die kunnen worden opgenomen in onze vragenlijst. 8.2
Kenmerken en principes
Studiebegeleiding kan worden voorzien door heel wat actoren, gaande van de individuele docent tot zijn/haar assistent(en), interne of externe studiebegeleiders, ombudspersonen, etc. Afhankelijk van wie er voor de begeleiding instaat, kan het aanbod er heel anders uit zien: de individuele docent kan bijvoorbeeld beschikbaar zijn voor vragen m.b.t. de inhoud van zijn/haar vak, de studiebegeleider werkt met studiegroepen, de assistent voorziet in een elektronische leeromgeving, een externe begeleidingsdienst werkt met een individuele student, … De doelgroep is steeds dezelfde, met name de studenten uit een bepaald studiejaar of die een bepaald vak of vakkenpakket volgen. Zoals hoger al aangegeven gaat vooral
in
het
hoger
onderwijs
veel
aandacht
uit
naar
de
nieuwkomers,
de
eerstejaarsstudenten, die de eerste weken van het nieuwe academiejaar kennis maken met een totaal andere leeromgeving: veel leerstof, een grote(re) afstand docent-student, onderwijs in grote groepen, … Echter, ook voor de ouderejaars blijft de mogelijkheid van studiebegeleiding even belangrijk, maar deze heeft meer betrekking op vakinhoudelijke kwesties. Hiermee zijn we aanbeland bij de verschillende thema’s die in studiebegeleiding aan bod kunnen komen: naast het aanzetten tot een inzichtelijke verwerking van de leerstof gaat het veelal ook om het ‘leren leren’ (het ontwikkelen van een goede studiemethode), het voorbereiden op toetsen en examens, psychosociale begeleiding en eventueel zelfs studieadvies en –oriëntering (bron: K.U. Leuven). Bij het opstellen van items voor onze uitgebreide vragenbatterij hebben we ons beperkt tot die vragen die betrekking hebben op de studiebegeleiding zoals die wordt georganiseerd voor het opleidingsonderdeel dat wordt geëvalueerd. Items die betrekking hebben op de studiebegeleiding zoals deze vorm krijgt aan een onderwijsinstelling of in een bepaald 39
studiejaar (dus over de verschillende vakken heen) horen thuis in een bevraging in het kader van bijvoorbeeld een programma-evaluatie. 8.3
Operationalisering
De mate waarin de studiebegeleiding door een docent bijdraagt tot het bereiken van de twee hoger omschreven doelen van studiebegeleiding, het stimuleren van studeer- en oplossingsgedrag enerzijds en hulp bij het verbeteren van prestaties anderzijds, kunnen we ons inziens meten aan de hand van drie subdimensies. Vooreerst moet worden nagegaan of en op welke wijze de docent (die instaat voor een bepaald opleidingsonderdeel) de studenten hulp biedt tijdens het leerproces: kunnen de studenten bij hem/haar terecht voor bijkomende uitleg, voorziet hij/zij extra oefeningen om de leerstof in te studeren, etc. Het betreft hier dus de begeleiding waarop de studenten beroep kunnen doen bij het verwerken van de leerinhouden. Een tweede subdimensie betreft de hulp die de docent zijn/haar studenten biedt bij de voorbereiding van de evaluatie (het examen): stelt hij/zij voorbeeldexamenvragen ter beschikking? Geeft hij/zij tips i.v.m. hoe de studenten de leerstof het best kunnen instuderen met het oog op de evaluatie? Hier gaat het dus om de concrete ondersteuning van de studenten bij het voorbereiden van het examen voor dit opleidingsonderdeel. Ten slotte moet worden nagegaan in hoeverre de docent de studenten stimuleert om zelfverantwoordelijk en actief te leren (cf. UA-visie op onderwijsinnovatie): biedt de docent de studenten hiertoe voldoende mogelijkheden en treedt hij/zij in dit verband inderdaad op als facilitator van het leerproces van de studenten? 8.4 8.4.1
Formuleren van items (evaluatie-instrument) Hulp van docent tijdens het leerproces De docent was beschikbaar voor bijkomende uitleg (UA) Deze docent waarschuwt voor moeilijke leerstofonderdelen Deze docent geeft tijdens de lessen nooit aanwijzingen voor de verwerking van de leerstof In de uiteenzettingen legt de docent duidelijke accenten die belangrijk zijn voor de studie Deze docent geeft geen duidelijke of onvolledige feedback op werkstukken, opdrachten, taken e.d. De figuren en schema’s in de cursustekst dragen nauwelijks bij tot het inzicht dat ik in de leerstof verwerf
40
Voor dit vak worden er te weinig verwerkingsopdrachten en herhalingsoefeningen gepland Deze docent laat je niet vallen als je een fout maakt In de lessen is er voldoende mogelijkheid om uitleg te vragen over onduidelijkheden in de inhoud Deze docent helpt je niet verder als je vastzit De docent is gemotiveerd om me te helpen bij het studeren van zijn vak De docent helpt me met mijn vragen en problemen bij de studie van zijn vak Deze docent is niet bezorgd om zijn studenten
8.4.2
Hulp van docent bij voorbereiding van de evaluatie Deze docent geeft ons aanwijzingen en tips in verband met de voorbereiding van het examen In de cursustekst worden geen aanwijzingen gegeven over hoe ik moet studeren Deze docent leert ons hoe je jezelf kan evalueren voor zijn vak Deze docent geeft duidelijk aan wat hij/zij inzake de verwerking van de inhoud van ons verwacht Een betere studiebegeleiding voor dit onderdeel zou mijn resultaat voor dit vak aanzienlijk verbeterd hebben Bij dit opleidingsonderdeel is het onduidelijk wat de docent van ons verwacht dat we kennen en kunnen voor het examen Tijdens het studiejaar levert deze docent ernstige inspanningen om de studenten op het examen voor te bereiden Deze docent geeft bij de leerinhoud regelmatig aan wat we daarvan moeten kunnen op het examen
8.4.3
Stimulatie om zelfverantwoordelijk en actief te leren Deze docent doet me nadenken over mijn studiemethode Deze docent leert mij wat studeren moet inhouden
41
Bij het uitvoeren van opdrachten konden we niet echt rekenen op deskundige begeleiding De docent stimuleert me om naast de cursustekst ook oorspronkelijke teksten te bestuderen Deze docent geeft regelmatig opgaven die het inzicht dat ik in de leerstof verwerf, ten goede komt Deze docent stimuleert ons om zoveel mogelijk zelf te leren en te ontdekken over dit opleidingsonderdeel
9 Dimensie ‘Evaluatie’ 9.1
Omschrijving
Evalueren kan worden omschreven als “vaststellen wat iets of iemand waard is” (Janssens e.a., 2000: 139). Ook in de onderwijspraktijk kunnen heel wat zaken worden geëvalueerd, denken we maar aan een nieuwe syllabus, een curriculum, de leerdoelen, de docent, de onderwijsinstelling, het verloop en het resultaat van het leerproces bij de student. Wij spitsen ons toe op deze laatste vorm van evaluatie namelijk het nagaan of en in welke mate de student op het eind van een onderwijsleerproces vooruitgang heeft geboekt c.q. de leerdoelen heeft bereikt. Deze vorm van evaluatie wordt in de wetenschappelijke literatuur aangeduid met de term ‘didactische evaluatie’, waarbij het gaat om ”evaluatie van de prestaties (in ruime zin) van de studenten” (Verloop & Van der Schoot, 1995: 249). De vraag of studenten voortgang hebben geboekt, kan op diverse wijzen worden beantwoord en hiervoor staan heel wat middelen ter beschikking (examen, tussentijdse toets, werkstuk, paper, …). Om iets of iemand te kunnen evalueren moet allereerst informatie verzameld worden waarover men vervolgens een waardering kan uitspreken. Naargelang de beslissing die op basis van deze waardering moet worden genomen, heeft de evaluatie een andere functie. Janssens e.a. (2000) onderscheiden vier functies van evaluatie: 1.
resultaatbepaling (toekennen van een credit/diploma)
2.
plaatsing, oriëntering en selectie van studenten
3.
optimalisering van het onderwijsleerproces
4.
signaleren en diagnosticeren van tekorten bij studenten met het oog op remediëring
Traditioneel zijn bij een evaluatie vooral de eerste twee functies aan de orde, maar de hedendaagse onderwijspraktijk laat zien dat ook de derde en de vierde functie meer en meer 42
aan belang winnen: “Meer en meer wordt benadrukt dat met de evaluatie vooral de sterke en de zwakke punten in het leerproces van de leerling/student opgespoord moeten worden, dat de evaluatie gebruikt moet worden om het leerproces van de leerling te begeleiden en om beslissingen over de planning en de uitvoering van de instructie te ondersteunen” (Janssens e.a., 2000: 143). Deze ontwikkeling heeft er tevens toe geleid dat ook het belang van formatieve evaluatie in het onderwijs nadrukkelijker naar voren is gekomen. Bij een formatieve evaluatie poogt men immers om het leerproces van de student in de gewenste richting bij te sturen, wat ook vaak inhoudt dat de ondersteuning van het leerproces (het didactisch handelen) veranderingen ondergaat (Dochy & Janssens, 2003: 379). Formatieve evaluatie vindt dus plaats terwijl het leerproces nog aan de gang is. De resultaten van een formatieve evaluatie worden niet verrekend in het eindresultaat van de studenten, het is integendeel de bedoeling om de studenten feedback te verschaffen die in hen in staat moet stellen de eigen leerprestaties te analyseren en te evalueren (Ibid.). Formatieve evaluatie moet in die zin onderscheiden worden van summatieve evaluatie, die meestal plaatsvindt op het eind van het leerproces en waarbij men op grond van evaluatiegegevens een eindoordeel uitspreekt over de prestaties van een student (Verloop & Van der Schoot, 1995: 251). Bij een summatieve evaluatie wordt met andere woorden nagegaan of de student de vooropgestelde leerdoelen heeft bereikt, en of hij/zij een vrijstelling verwerft voor het betreffende opleidingsonderdeel, wordt toegelaten tot het volgende studiejaar, het (eind)diploma kan worden toegekend, … Terwijl het onderscheid summatieve evaluatie – formatieve evaluatie betrekking heeft op de functie
van
de
evaluatie
(cf.
supra),
maakt
men
ook
een
onderscheid
tussen
evaluatievormen op basis van wat er wordt geëvalueerd. Wanneer men enkel het eindresultaat en/of het eindproduct van het leerproces evalueert (bijvoorbeeld via een klassiek examen, een eindwerk, …) spreekt men van productevaluatie. Wanneer men echter ook informatie gaat verzamelen over de stappen die tot dit eindresultaat/eindproduct hebben geleid en dus over de wijze waarop het leerproces is verlopen, wordt de term procesevaluatie gebruikt. Bij procesevaluatie evalueert men dus ook de kwaliteit van het leerproces. 9.2
Kwaliteit van de evaluatie
Zoals hoger aangegeven moeten op basis van de verzamelde evaluatiegegevens en bijhorende waardering vaak belangrijke beslissingen genomen worden. Daarom is het noodzakelijk dat men over goede evaluatie-instrumenten met een hoge mate van 43
betrouwbaarheid (hoe nauwkeurig meet het instrument?) en validiteit (meet het instrument wel wat het beoogt te meten?) beschikt. Het is met andere woorden belangrijk om de nodige aandacht te schenken aan de kwaliteit van de evaluatie (Janssens e.a., 2000: 145). In deze paragraaf staan we even stil bij de kenmerken van een goede evaluatie. We baseren ons hierbij op het werk van Janssens e.a. (2000), die naast betrouwbaarheid en validiteit ook transparantie als een belangrijke richtingwijzer voor een goede evaluatie naar voren schuiven. - Inhoudsvaliditeit Het evaluatie-instrument moet een goede representatie vormen van de leerinhoud die zal worden bevraagd. Met andere woorden: alle beoogde leerdoelen moeten erin vertegenwoordigd zijn. - Begripsvaliditeit Het evaluatie-instrument mag niet enkel de representatie zijn van de vooropgestelde leerdoelstellingen en leerinhouden, het moet ook daadwerkelijk meten of de studenten deze doelen en inhouden al dan niet hebben bereikt. - Authenticiteit De authenticiteit verwijst naar het feit dat de evaluatie-opdracht door de studenten als betekenisvol en waardevol wordt ervaren (Linn, Baker & Dunbar, in: Janssens e.a., 2000: 148). Met andere woorden, de opdracht sluit goed aan bij de leefwereld van de studenten, het latere beroepsleven, … waardoor studenten de taak als zinvol ervaren. - Betrouwbaarheid We spreken van betrouwbaarheid als het evaluatie-instrument bij herhaalde afname (en onder gelijke condities) dezelfde resultaten oplevert. Op deze wijze wordt zo min mogelijk aan het toeval overgelaten en kunnen beslissingen worden gebaseerd op betrouwbare gegevens. Meetfouten bij een evaluatie kunnen zich voordoen op vier niveaus: −
Het evaluatie-instrument zelf (cf. onduidelijke vragen die verschillend kunnen worden geïnterpreteerd)
− 44
De meetsituatie (cf. grote tijdsdruk, lawaaihinder, …)
−
De beoordelaar (cf. vooroordelen, onnauwkeurigheid, …)
−
De student (cf. motivatie, vermoeidheid, …)
- Transparantie Het is ten slotte belangrijk dat studenten weten wat er zal worden geëvalueerd, hoe dit zal gebeuren, hoe de beoordeling zal verlopen (beoordelingscriteria), en wat de gevolgen van de beoordeling inhouden. Dit kan gebeuren door al tijdens contactmomenten informatie te geven over de evaluatiemomenten (wanneer, wat, voorbeelden, gelijkaardige opdrachten, etc.). 9.3
Operationalisering
Het moge duidelijk zijn dat we met een evaluatie-instrument voor opleidingsonderdelen dat door de studenten zal worden gebruikt, niet alle hierboven aangehaalde kwaliteitsvereisten van de evaluatie(vormen) die behoren tot dat opleidingsonderdeel kunnen meten. Daarom beperken we ons tot datgene wat we met betrekking tot de evaluatie(vorm) van een opleidingsonderdeel zeker wel door de studenten kunnen laten beoordelen. Enerzijds kunnen we wat de summatieve evaluatie betreft, nagaan of deze door de studenten als transparant (‘Weten de studenten waarop ze zullen worden beoordeeld en hoe de beoordeling zal verlopen?’) en authentiek (‘Wordt de evaluatieopdracht als zinvol en aantrekkelijk ervaren?’) wordt gepercipieerd, en hoe het zit met de inhoudsvaliditeit van het examen (‘Vormt het examen een goede representatie van de leerinhouden?’). Daarnaast kunnen we de studenten ook de formatieve evaluatie laten beoordelen (indien die er is), en gaan we na in welke mate zij door de studenten wordt ervaren als een hulp in hun leerproces. Met andere woorden, draagt de formatieve evaluatie bij tot een betere verwerking van de leerinhouden? 9.4 9.4.1
Formuleren van items (evaluatie-instrument) Transparantie summatieve evaluatie Het was voor mij duidelijk op welke wijze ik geëvalueerd zou worden voor dit opleidingsonderdeel (UA) Deze docent heeft duidelijk gemaakt aan welke eisen een student moet voldoen om voor dit vak te slagen De docent maakt duidelijk welke leerinhouden op het examen aan bod kunnen komen Deze docent licht zijn / haar exameneisen onvoldoende toe
45
Doorheen het jaar maakt de docent duidelijk op basis van welke criteria hij / zij de student zal beoordelen Deze docent geeft duidelijk aan welke vorm het examen zal aannemen Wij weten van deze docent niet onder welke vorm ( bijvoorbeeld: mondeling, schriftelijk of elektronisch examen) de evaluatie zal doorgaan De docent bereidt ons niet voor op de vorm van het examen Deze docent heeft ons zijn manier van ondervragen concreet gemaakt aan de hand van voorbeelden
9.4.2
Authenticiteit summatieve evaluatie Bij de evaluatie werd meer gevraagd dan het louter reproduceren van de leerinhoud (UA) De evaluatiemethode was geschikt zodat ik mijn kennen en kunnen voor dit opleidingsonderdeel kon bewijzen (UA) In het examen wordt voornamelijk het begrijpen van de leerstof getoetst Op het examen verwacht deze docent dat ik zelfstandig nagedacht heb over de leerstof in plaats van alles gememoriseerd te hebben Deze docent waardeert ook creatieve maar goed onderbouwde antwoorden Het examen bevatte geen vragen en/of opdrachten die relevant zouden kunnen zijn voor de latere beroepsuitoefening De examenvragen waren creatief opgesteld (verwijzing naar actualiteit, leefwereld van de studenten, reële probematieken, etc.) Dit examen bestaat enkel uit reproductievragen
9.4.3
Inhoudsvaliditeit summatieve evaluatie De evaluatie was een goede afspiegeling van de inhoud van het opleidingsonderdeel (UA) De examenvorm is goed afgestemd op de doelstellingen van dit vak De examenvragen die deze docent stelt zijn niet afgestemd op de doelstellingen van dit vak
46
De vragen van deze docent reflecteren de geformuleerde leerdoelen De examenvragen zijn goed over de verschillende onderdelen van de leerstof gespreid De examenvragen hadden alle betrekking op één enkel thema uit de cursus
9.4.4
Formatieve evaluatie als hulp bij het leerproces Tijdens dit opleidingsonderdeel wordt een tussentijds evaluatiemoment georganiseerd De tussentijdse evaluatiemomenten betekenden voor mij een grote hulp voor de verdere verwerking van de leerstof Deze docent plande in de loop van dit opleidingsonderdeel geen enkel tussentijds evaluatiemoment De opdrachten en taken uit de tussentijdse evaluatiemomenten leken erg goed op de opdrachten en taken die we op het examen kregen Het tussentijdse evaluatiemoment voor dit opleidingsonderdeel heb ik niet echt als zinvol ervaren Het is me niet duidelijk waarom voor dit opleidingsonderdeel een tussentijds evaluatiemoment wordt georganiseerd
10 Besluit In dit hoofdstuk gingen we op zoek naar een theoretische omkadering van de dimensies die zijn opgenomen in het UA-instrument voor de evaluatie van opleidingsonderdelen ten einde op basis daarvan items te formuleren die in een latere fase kunnen worden opgenomen in ons testinstrument. We genereerden op deze manier in totaal 165 verschillende items en namen deze op in een uitgebreide vragenlijst die in de eerste testfase van dit onderzoeksproject zal worden voorgelegd aan studenten uit verschillende studiejaren en faculteiten. Hen zal worden gevraagd één opleidingsonderdeel dat ze het voorbije academiejaar (2003-2004) hebben gevolgd te evalueren. De resultaten van deze evaluaties moeten ons toelaten de vragenlijst van 165 items te herwerken tot een betrouwbaar, valide en vooral werkbaar testinstrument. In het volgende hoofdstuk bespreken we uitvoerig de gevolgde procedure en presenteren we het testinstrument dat in de tweede testfase zal worden gebruikt om de kwaliteit van het UA-instrument te onderzoeken.
47
Hoofdstuk 3 Constructie van een testinstrument (testfase 1)
1 Inleiding Op basis van de literatuurstudie slaagden we erin de acht hoofddimensies uit het UAinstrument op te splitsen in 22 subdimensies, waarvoor we telkens minstens zes mogelijke Likert-items formuleerden. Dit leidde tot een vragenlijst met in totaal 165 testitems, waarin ook de items uit het UA-instrument werden opgenomen (in die mate dat het mogelijk was ze als Likert-item op te nemen). Het opzet van de eerste testfase, waarover we verslag uitbrengen in dit hoofdstuk, bestond erin de uitgebreide vragenlijst van 165 items, die werden geformuleerd op basis van de theorie of konden worden overgenomen van andere bestaande instrumenten, te herleiden tot een testinstrument dat voor de studenten makkelijk invulbaar is en kan worden gebruikt voor de evaluatie van zoveel mogelijk verschillende soorten opleidingsonderdelen. De kracht van de Likert-items bestaat er immers in dat de
latente concepten die gemeten worden, op zo goed als alle onderwijsvormen toepasbaar zijn en zodoende een opsplitsing van het instrument mogelijk maken. Om deze fase tot een goed einde te brengen, deden we voor de eerste keer een beroep op studenten uit de verschillende faculteiten. Hen werd gevraagd een opleidingsonderdeel dat ze het voorbije academiejaar hebben gevolgd te evalueren met behulp van onze uitgebreide vragenlijst. Een bespreking van de wijze waarop dit gebeurde en een overzicht van de responscijfers komen aan bod in de eerste paragraaf. De analyses die werden uitgevoerd en de resultaten die deze opleverden alsook een kritische bespreking ervan werden opgenomen in de tweede paragraaf. We bespreken hoe het grote aantal items uit de vragenlijst werd herleid tot in totaal 31 items en pogen de gevolgde procedure zo inzichtelijk mogelijk weer te geven. In de derde en laatste paragraaf blikken we terug op deze eerste testfase en bieden we een vooruitblik op wat ons te doen stond in de tweede testfase, waar we de kwaliteit van het UA-instrument testten met behulp van ons testinstrument. 2 Dataverzameling en verwerking In de periode van 11 oktober 2004 tot 4 november 2004 deden we in totaal zes faculteiten aan en legden we onze uitgebreide vragenlijst voor aan 7 groepen studenten met de vraag een opleidingsonderdeel te evalueren dat ze het voorbije academiejaar hadden gevolgd. In tabel 1 vindt de lezer een overzicht van de opleidingsonderdelen die in deze testfase door de studenten werden geëvalueerd (echter zonder dat aan de resultaten van elke evaluatie gevolg werd gegeven: ons onderzoek was erop gericht een goed testinstrument te ontwikkelen en had niets te maken met het daadwerkelijk evalueren van vakken/docenten). Tevens geven we aan hoe lang elke bevraging duurde, d.w.z. de tijdsspanne waarbinnen, naast een korte toelichting met betrekking tot het onderzoek, de enquêtes (165 vragen) werden uitgedeeld, door de studenten ingevuld en terug werden opgehaald.
50
Tabel 1: Overzicht van bevraagde opleidingsonderdelen, naar faculteit Faculteit
Afgenomen vak
Afgenomen in
L&W
Moraalfilosofie
Theorie van de Historische Kennis (1ste licentie geschiedenis)
30
PSW
SWO 2
SWO 3 (1ste licentie PSW)
30
PSW
Sociologie
Statistiek II (2de kandidatuur PSW)
40
Rechten
Natuurrecht
Personen- en familierecht (1ste licentie Rechten)
35
Geneeskunde
Module ‘Zenuwstelsel’
Module ‘Trauma en Reanimatie’ (1ste arts)
35
TEW
Management en Accounting Controle
Algemeen en Strategisch Management (2de graad HI)
25
Algorithmen en Complexiteit (1ste licentie Informatica)
25
Wetenschappen Algebra en Discrete Wiskunde
Duur afname (in min.)
Men zal opmerken dat in de faculteit PSW twee bevragingen hebben plaatsgevonden in plaats van één. Dit had enkel als doel het aantal ingevulde enquêtes te verhogen om aan voldoende gegevens te komen zodat onze (statistische) analyses betrouwbare en valide resultaten zouden opleveren. Dezelfde ingreep gebeurde ook in de tweede testfase, waar in de faculteiten TEW en PSW telkens twee opleidingsonderdelen werden geëvalueerd (cf. hoofdstuk 4). Tabel 2 bevat de responscijfers alsook een overzicht van de tijd die werd besteed aan het inscannen en verwerken van de enquêtes. In totaal werden 433 enquêtes volledig ingevuld waarmee kon worden verder gewerkt. Een opmerkelijke vaststelling in dit verband is dat het aantal blanco enquêtes (enquêtes die niet of slecht werden ingevuld) tot een minimum beperkt bleef: het enthousiasme en de ernst waarmee deze vragenlijst (die bestond uit maar liefst 9 bladzijden met multiple choice-vragen) werd ingevuld kan een indicatie zijn van een grote betrokkenheid van de studenten ten aanzien van het onderzoek en met uitbreiding het ganse evaluatiegebeuren.
51
Tabel 2: Overzicht van verwerkingstijden van de enquêtes Vak
Aantal
Duur inscannen Duur corrigeren
Verwerkratio
enquêtes
(in minuten)
(in minuten)
(min. / enquête)
Moraalfilosofie
27
40
22
2.3
SWO 2
89
42
61
1.15
Sociologie
111
68
69
1.23
Natuurrecht
114
39
186
1.97
Module ‘Zenuwstelsel’
35
13
20
0.94
Management Accounting en Controle
44
60
63
2.75
Algebra en Discrete Wiskunde
13
5
10
1.15
433
267
431
(gem.) 1.7
Totaal
3 Analyse 3.1
Overzicht
De analyses die in deze eerste testfase werden uitgevoerd met het oog op het ontwikkelen van een goed testinstrument, kunnen worden ingedeeld in vier afzonderlijke fasen. Dit heeft zo zijn redenen. Vooreerst werden we geconfronteerd met de hoeveelheid data die beschikbaar waren. Een voorbeeld. Uit tabel 2 kan men aflezen dat voor het vak ‘Moraalfilosofie’ 27 enquêtes werden ingevuld (omdat de eerste licentie geschiedenis nu eenmaal een kleine klasgroep betreft). Het zou methodologisch onverantwoord (en waarschijnlijk zelfs onmogelijk) zijn om dan een instrument dat bestaat uit 165 items in één multivariate analyse op te nemen. Een tweede argument betreft de tijdsdruk waaronder dit onderzoek moest worden uitgevoerd. De faculteiten Wetenschappen en Toegepaste Economische Wetenschappen konden pas in de week van 1 november 2004 worden bevraagd terwijl onze tweede testfase (met het testinstrument) al van start moest gaan in de daarop volgende week om de deadline van de eindrapportering te kunnen halen. Om die reden werden de data die van deze faculteiten werden verkregen enkel gebruikt in de laatste fase van deze testronde.
52
Zoals gezegd worden in de analyses vier testfasen onderscheiden: twee selectiefasen en twee controlefasen. In een eerste fase werd geanalyseerd op het niveau van de afzonderlijke vakken (die grosso modo afkomstig zijn uit de verschillende faculteiten). Deze analyse richtte zich op de interne consistentie van de 22 afzonderlijke dimensies. Het is immers belangrijk om enkel die items te selecteren die in élke faculteit consistent de onderliggende (sub)dimensies meten. Deze analyse maakt het mogelijk om op het niveau van opleidingsonderdelen en faculteiten een eerste selectie door te voeren van de grote groep items die in de uitgebreide vragenlijst opgenomen werden. De tweede analysefase vertrekt van de groep items die deze eerste ronde overleefden en aldus een eerste interne consistentietest hebben doorstaan. Die geeft aan of items al dan niet tot één bepaalde dimensie behoren. In de tweede fase werd getest of de items ook op niet-ambigue wijze tot hun theoretische dimensies behoren en niet ook andere concepten meten. Daarvoor wordt een
exploratieve
factoranalyse
uitgevoerd.
Dit
gebeurt
over
de
verschillende
opleidingsonderdelen heen om voldoende respondenten te hebben in de analyse. Het resultaat van deze tweede fase leidde opnieuw tot het verwijderen van items die de onderliggende dimensies onvoldoende betrouwbaar meten. De derde fase was een controlefase. De items die na de vorige twee selectieronden overbleven, worden in een confirmatieve factoranalyse ingebracht en opnieuw getest. Deze analyse laat strenge validiteits- en betrouwbaarheidtesten toe, ook op het niveau van de dimensies zelf. Op deze wijze kan de kwaliteit en de onderlinge onafhankelijkheid van de dimensies in kaart gebracht worden. De tweede controlefase die gepland werd, bestond hierin dat een valideringstest zou worden uitgevoerd met data die niet betrokken werden in de constructie van de dimensies uit de vorige drie fasen. Hiervoor werd de gegevens gebruikt van de enquêtes uit de faculteiten wetenschappen en TEW (cf. supra). In wat volgt overlopen we de verschillende opeenvolgende fasen, argumenteren we kort het hoe en waarom ervan en bespreken we uitvoerig de belangrijkste resultaten. Men zal merken dat deze uiteenzetting een ietwat technisch karakter heeft (en dat kan ook niet anders), maar we hebben een (hopelijk geslaagde) poging ondernomen om het geheel inzichtelijk te maken en overzichtelijk te houden. 3.2
Fase 1: Grove selectie van bruikbare en niet-bruikbare items
De eerste fase werd aangevat met de uitgebreide vragenlijst van 165 items. Omdat geen geteste schalen voorhanden waren, was een uitgebreide lijst van mogelijke testitems 53
noodzakelijk om een goed testinstrument te kunnen ontwikkelen. De eerste analyse bestond uit het testen van de interne consistentie van de verschillende dimensies voor elk opleidingsonderdeel apart. Dit gebeurde door middel van het berekenen van de Cronbach’s alpha voor elk van de 22 subdimensies. Omdat deze statistische maat dermate centraal staat in ons onderzoek, starten we onze uiteenzetting met een korte toelichting met betrekking tot Cronbach’s alpha. 3.2.1
Achtergrondtoelichting bij Cronbach’s alpha
Cronbach’s alpha is een statistische maat die meet in welke mate respondenten op een bepaalde schaal consistent antwoorden. In concreto wil dat zeggen dat als je het onderwijs van een docent wil meten met zes Likert-items en het onderwijs van de betrokken docent was goed, dat het antwoord op deze zes items steeds moet aangeven dat het onderwijs goed was. Wiskundig wordt Cronbach’s alpha berekend op de volgende wijze:
α
N .r waarbij 1 ( N 1).r
N = het aantal items
r = de gemiddelde inter-item correlatie tussen de items
Uit de formule kan het gedrag van de alpha-maat afgeleid worden. Als het aantal items in de schaal groter wordt, verhoogt de waarde van alpha mee. Daarom stelt men strengere eisen aan de alpha-maat wanneer het aantal items oploopt. Als aan de andere kant de correlatie tussen de items laag is, dan is de alpha-waarde ook laag. Dat is wat we met de betrouwbaarheidsmaat in kaart willen brengen: als er een correlatie is tussen de items, dan betekent dat dat deze items eenzelfde onderliggend concept meten. Het zijn die concepten die ons in de evaluatie van opleidingsonderdelen interesseren. Een alpha-waarde van 0.70 wordt als goed aanzien. Wanneer het aantal items echter oploopt dan verschuift deze grens naar 0.80 of meer. Hierbij zijn enkele algemene opmerkingen op hun plaats. Alpha meet géén stabiliteit van evaluatie over de tijd. Daarvoor zijn test-retestanalyses nodig. Alpha meet ook geen consistentie over meetinstrumenten heen. Verschillende vragenlijsten kunnen niet met de alpha-waarde vergeleken worden. Alpha wordt gemakkelijker hoog bij normaal verdeelde items. Dat wil zeggen dat de betrouwbaarheid omlaag gaat wanneer de verdeling scheef verdeeld is (bij heel goede of heel slechte onderwijsprestaties op een bepaald onderdeel dus). Het is dus belangrijk om bij de beoordeling van de alpha-waarde ook de 54
scheefheidsmaten mee in rekening te nemen. Alpha kan ook niet de enige geldende waarde zijn om een prestatie te beoordelen. Naast de interne consistentie moet ook steeds het betrouwbaarheidsinterval berekend worden rond de gemiddelde schaalscore. Het kan immers zijn dat er een consistent antwoordpatroon gevonden wordt maar dat het betrouwbaarheidsinterval rond de gemiddelde schaalwaarde zo hoog is dat alsnog voorzichtig met de resultaten omgesprongen moet worden. 3.2.2
Testresultaten
Bij elke schaal werd steeds gestart met de volledige groep items die een bepaalde subdimensie theoretisch behoren te meten . Stap voor stap werden de items die niet in de schaal thuishoorden door middel van het criterium “alpha if item deleted” uit de schaal verwijderd. Dit criterium test of een schaal (d.i. de groep items die een subdimensie moet meten) een hogere interne consistentie bekomt door het weglaten van een bepaald item. Als de alpha-waarde van een schaal stijgt als één bepaald item er uit zou worden weggelaten, dan is dit een indicatie dat dit item niet thuis hoort in deze schaal. Indien de alpha-waarde op deze manier niet verder kon worden verbeterd, werd de analyse voor de betreffende subdimensie beëindigd. De analyse eindigde bijgevolg wanneer een schaal een interne consistentie behaalde van 0.70. Doch als een schaal verder verbeterd kon worden, werd dit niet nagelaten. De resultaten van deze eerste analyses zijn terug te vinden in Bijlage 2. In tabel 3 worden de resultaten schematisch voorgesteld. Voor elke subdimensie wordt de minimale en maximale alpha-waarde gegeven die in een van de opleidingsonderdelen gevonden werd. Ook staat vermeld hoeveel items over alle opleidingsonderdelen heen, in de definitieve schaal behouden bleven. Een voorbeeld. Bij subdimensie A1 (‘Duidelijk zijn van de doelstellingen’) werden initieel zes Likert-items in de uitgebreide vragenlijst opgenomen. Van deze zes items bleven drie items in alle opleidingsonderdelen behouden in de schaal van deze subdimensie. Minimaal werd over de faculteiten heen een Cronbach-waarde van 0.791 behaald. De maximale alpha in een van de faculteiten was 0.865.
55
Tabel 3 Overzicht van betrouwbaarheidstoetsen, naar theoretische dimensie Cronbach’sAlpha
ITEMS Over
DIMENSIES A. Doelstellingen
B. Leerinhouden
C. Structuur en opbouw
Omschrijving
MIN
MAX
blijvend
Initieel
A1 Duidelijk zijn van de doelstellingen
0.791
0.865
3
6
A2 Kwaliteit van de doelstellingen
0.745
0.865
2
6
B1
Relevantie van de leerinhouden
0.752
0.814
3
7
B2
Interessante leerinhouden ?
0.768
0.855
3
8
B3
Opbouw van de inhoud
0.715
0.862
3
6
C1 Aansluiting bij voorkennis
0.607
0.865
4
7
C2 Afstemming op andere vakken
0.558
0.781
3
6
0.673
0.808
4
6
0.791
0.894
3
8
0.621
0.704
4
6
leerproces?
0.753
0.878
4
9
E1
Bijdrage tot begrijpen van de leerstof
0.857
0.918
6
13
E2
Bijdrage tot voorbereiding examen
0.716
0.795
3
6
E3
Aansluiting bij gebruikte didactische werkvorm
0.604
0.750
3
6
F2
Gepercipieerde ‘zwaarte’ van het 0.807
0.887
4
9
0.843
0.937
8
13
0.817
0.874
4
8
0.618
0.843
5
6
0.843
0.867
4
9
C3 Aansluiting op de maatschappelijke realiteit/beroepspraktijk D. Didactische
D1 Doceerstijl docent: wordt er goed lesgegeven?
werkvormen D2 Afstemming werkvorm en leerdoelen D3 Worden studenten gestimuleerd in hun
E. Studiematerialen en infrastructuur
F. Studeerbaarheid G. Studiebegeleiding
opleidingsonderdeel G1 Hulp van docent tijdens het leerproces G2 Hulp van docent bij voorbereiding van de evaluatie G3 Stimulatie om zelfverantwoordelijk en actief te leren
H. Evaluatie
H1
Transparantie summatieve evaluatie
H2 Authenticiteit summatieve evaluatie
0.760
0.831
2
8
H3 Inhoudsvaliditeit summatieve evaluatie
0.646
0.784
4
6
H4 Formatieve evaluatie
0.740
0.813
3
6
Het behouden blijven bij de afzonderlijke evaluatie van elk van de vijf bevraagde opleidingsonderdelen (zie hoger) is een eerste indicatie van de mate waarin deze items de subdimensie meten. De minimumkolom geeft aan dat het voor enkele opleidingsonderdelen niet mogelijk was om voor deze subdimensie telkens een minimumwaarde te halen van 0.70. Dit is het geval voor de verschillende subdimensies van C (‘opbouw en structuur’) en voor D2 (‘Afstemming werkvorm en leerdoelen’), G3 (‘stimulatie om zelfverantwoordelijk en actief te leren’) en H3 (‘Inhoudsvaliditeit summatieve evaluatie’). Dit is op zich geen probleem omwille 56
van de soms lage aantallen in de enquêtering, maar het resultaat fungeert wel als signaalfunctie naar de volgende analyses toe. In de eerste fase werden de items ook per dimensie samengebracht in een exploratieve factoranalyse op het niveau van elke hoofddimensie. Zoals we eerder vermeldden was het totale aantal items (165) immers te hoog om in dit stadium een globale factoranalyse uit te voeren. Deze analyse per hoofddimensie leverde een tweede kijk op de kwaliteit van de items die aan de verschillende subdimensies toegewezen werden. Met behulp van de techniek van de exploratieve factoranalyse kon worden nagegaan welke items niet strikt tot één subdimensie behoorden maar bijvoorbeeld op verschillende subdimensies een hoge factorlading lieten optekenen. In Bijlage 3 is een overzicht te vinden van deze analyses. In deze tabel wordt duidelijk dat bepaalde items door de factoranalyse duidelijk in een bepaalde subdimensie samengebracht worden en andere items tot geen enkele subdimensie lijken te behoren. Deze items zijn minder geschikt om als schaalitem te dienen omdat ze in een analyse zonder vooronderstellingen (wat exploratieve factoranalyse is) niet correleren met de subdimensie waar ze theoretisch toe gerekend werden. In totaal werden zo 69 items uit de analyse geweerd. Tot slot van deze eerste fase werden beide analyses naast elkaar gelegd en aan een strikte selectie onderworpen. Enkel die items die in de betrouwbaarheidsanalyse in alle opleidingsonderdelen tot de definitieve schaal behoorden én tevens in de exploratieve factoranalyse tot dezelfde subdimensie werden gerekend, werden geselecteerd. Het resultaat hiervan was een uitdunning van de 165 items tot een subselectie van 63 items. Deze items werden in fase twee aan een bijkomende test onderworpen. 3.3
Fase 2: Fijne selectie van bruikbare subdimensies en hun items
In de tweede fase van deze eerste testronde werden de 63 overblijvende items in één gezamenlijke
factoranalyse
ondergebracht
en
werd
aldus
nagegaan
welke
items
ondubbelzinnig tot één bepaalde subdimensie gerekend kunnen worden. Voor elk van de factoren
die
in
deze
analyse
weerhouden
werden,
werd
opnieuw
een
interne
consistentietoets (Cronbach’s alpha) uitgevoerd. De factoranalyse gebruikte de SPSS-Principal Axis Factoring routine. De initiële oplossing werd geroteerd met een Varimaxrotatie. De procedure selecteerde 14 factoren die gezamenlijk 58.9 percent van de totale variantie in de 63 items verklaarden (resultaten zie 57
Bijlage 4). Na inspectie van de factorladingen werd duidelijk dat niet alle 14 factoren in verdere analyses bruikbaar waren. Acht factoren konden ondubbelzinnig geïdentificeerd worden. Dat wil zeggen dat deze factoren voldoende items (meer dan twee) bevatten die minimaal een factorlading van 0.45 haalden én waarvan de items geen hoge factorlading haalden op een andere factor. Omdat het hier een exploratieve factoranalyse betreft, werden er vooraf geen theoretische assumpties aan de items in de analyse opgelegd. Dit had voor gevolg dat in de eerste twee factoren meerdere theoretische dimensies samenvielen. In de eerste factor was dit het geval met drie theoretische factoren: A1 (‘duidelijkheid doelstellingen’), G2 (‘hulp van de docent bij de evaluatie’) en H1 (‘transparantie van de summatieve evaluatie’). Voor de tweede factor waren dit de subdimensies A2 (‘kwaliteit van de doelstellingen’) en B1 (‘relevantie van leerinhouden’). In totaal houden we dus in tien factoren, 13 theoretische subdimensies over (op een totaal van 22 subdimensies). Hierbij doet de exploratieve factoranalyse vermoeden dat een groep van drie subdimensies en een andere groep van twee onderling zeer sterk samenhangen. Negen theoretisch onderscheiden subdimensies konden niet op ondubbelzinnige wijze in de analyse van elkaar onderscheid worden. Deze subdimensies (en hun items) werden dan ook geweerd uit de verdere analyses. Het betreft hier de volgende subdimensies:
Tabel 4 Niet weerhouden theoretische dimensies na de exploratieve factoranalyse DIMENSIES
Omschrijving
B. Leerinhouden
B2
Interessante leerinhouden ?
C. Structuur en opbouw
C1
Aansluiting bij voorkennis
C2
Afstemming op andere vakken
C3
Aansluiting op de maatschappelijke realiteit/beroepspraktijk
D. Didactische werkvormen
D2
Afstemming werkvorm en leerdoelen
E. Studiematerialen
E2
Bijdrage tot voorbereiding examen
en infrastructuur
E3
Aansluiting bij gebruikte didactische werkvorm
G. Studiebegeleiding
G3
Stimulatie om zelfverantwoordelijk en actief te leren
H. Evaluatie
H3
Inhoudsvaliditeit summatieve evaluatie
Tabel 4 maakt duidelijk dat in de meeste hoofddimensies wel ergens één theoretische subdimensie onvoldoende betrouwbaar gemeten kon worden. Doorgaans hingen de items van deze subdimensie té sterk samen met de items van de andere subdimensie(s) van dezelfde hoofddimensie. Dit wijst er op dat studenten het inhoudelijke concept in deze subdimensie niet onderscheiden van de verwante subdimensies.
58
Enkel Hoofddimensie C “structuur en opbouw” zorgt voor enige moeilijkheden bij de verdere ontwikkeling van ons testinstrument. Deze dimensie valt immers volledig buiten de selectie waar in het verdere onderzoek mee gewerkt zal worden (en ook hiervoor moeten we waarschijnlijk een verklaring zoeken in de ‘kloof’ tussen wat in de literatuur als hoofd- of subdimensie kan worden onderscheiden en het feitelijk antwoordgedrag van de studenten). Echter, dit hoeft niet problematisch te zijn: wanneer we de items van (bijvoorbeeld) de subdimensie B1 ‘Relevantie van leerinhouden’ bekijken wordt duidelijk dat uit de scores van de studenten op deze items eveneens een indicatie kunnen geven van de wijze waarop het bevraagde opleidingsonderdeel is ingebed in het curriculum. Hetzelfde geldt voor de subdimensie A2 ‘Kwaliteit van doelstellingen’. Met andere woorden het is niet omdat we op basis van onze (toch wel zeer strenge) analyses geen schalen kunnen opnemen die expliciet betrekking hebben op de dimensie C ‘Structuur en opbouw programma’, dat ons testinstrument niet in de mogelijkheid voorziet om (weliswaar voorzichtige) uitspraken te doen over (bepaalde aspecten van) deze dimensie. 3.4
Fase 3: interne controle van de selectie
De exploratieve factoranalyse uit de vorige fase geeft duidelijk tien factoren die op een intern consistente wijze van elkaar onderscheiden kunnen worden. Toch werd vastgesteld dat deze factoren in feite bestaan uit dertien achterliggende theoretische subdimensies. Omdat exploratieve factoranalyse enkel een indicatie kan geven over het clusteren van items in factoren, werd besloten om in een derde analysefase de weerhouden theoretische dimensies en hun bijhorende items (47 in totaal) aan een confirmatieve factoranalyse te onderwerpen. Deze techniek vertrekt op voorhand van de structuur van de latente concepten (de factoren) om deze in een multivariaat model te testen. Het voordeel van de confirmatieve factoranalyse is dat de validiteit en betrouwbaarheid van de verschillende factoren op een zeer robuuste manier getest kan worden. De verschillende geëigende toetsen die doorgaans in dit kader worden uitgevoerd worden kort voorgesteld en de resultaten samengevat. De cijfergegevens in de tekst worden bewust beperkt gehouden. De geïnteresseerde lezer verwijzen we steeds naar de bijlagen voor bijkomende informatie. 3.4.1
Indicatorbetrouwbaarheid
De eerste toets die werd uitgevoerd is een test naar de indicatorbetrouwbaarheid van de schalen. De indicatorbetrouwbaarheid gaat na in hoeverre een bepaald item hoort bij een bepaalde factor. De indicatorbetrouwbaarheid is gedefinieerd als het kwadraat van de correlatie
tussen
de
latente
factor
en
de
indicator.
Dat
wil
zeggen
dat
de 59
indicatorbetrouwbaarheid nagaat hoeveel variantie van een item er verklaard wordt door de latente factor. Als er inderdaad een theoretisch concept ligt achter een schaal, dan willen we dat de antwoorden van de studenten bepaald worden door wat ze over dat concept denken en niet wat ze over het individuele item denken. Met andere woorden alle spreiding in de antwoorden op de items moet zo sterk mogelijk door het latente concept verklaard worden. Dit idee kan op twee manieren statistisch nagegaan worden. In de eerste plaats kijken we naar de hoogte van de factorladingen. Een factorlading geeft immers aan hoe sterk een item hoort bij een latent concept. Numeriek is dit echter beter uit te drukken door het kwadraat te nemen van deze factorladingen. Het kwadraat van de factorladingen heeft een R²interpretatie, vergelijkbaar met regressieanalyse. Dat wil zeggen dat een perfecte verklaring gelijk staat aan 1 of 100 %. In Bijlage 5 wordt een overzicht gegeven van de gekwadrateerde ladingen (in de kolom R²). Hieruit blijkt dat de R²-waarden van bijna alle items in alle schalen voldoende hoog is. Bij de meeste items wordt meer dan 70 tot 80 percent van de variantie in de items verklaard door het achterliggende concept. Enkel in de factor D3 (Stimulatie in het leerproces) vinden we verschillende items die lagere R²-waarden halen. 3.4.2
ρ
Samengestelde betrouwbaarheid ( )
De samengestelde betrouwbaarheid is te vergelijken met een Cronbach’s alpha. Deze alphawaarde geeft de interne consistentie aan van een schaal. Als de items hoog correleren met elkaar in een schaal zal de coëfficiënt hoog uitvallen. De ondergrens voor deze test is eveneens 0.70. Alle dimensies die bijgevolg hoger scoren dan 0.70 zijn betrouwbaar.
60
Tabel 5 Samengestelde betrouwbaarheid en verklaarde variantietoets Dimensie
Betrouwbaarheid
Verklaarde variantie schatting
A1: Duidelijkheid doelstellingen
0.96
0.88
A2: Kwaliteit doelstellingen
0.89
0.73
B1: Relevantie leerinhouden
0.90
0.75
B3: Opbouw inhoud
0.91
0.77
D1: Doceerstijl docent
0.94
0.85
D3: Stimulatie in leerproces
0.85
0.58
E1: Studiemateriaal draagt bij tot verwerken leerstof
0.91
0.72
F2: Studeerbaarheid
0.86
0.68
G1: Hulp van docent tijdens leerproces
0.91
0.77
G2: Hulp van docent bij voorbereiding examen
0.96
0.90
H1: Transparantie summatieve evaluatie
0.95
0.86
H2: Authenticiteit summatieve evaluatie
0.83
0.63
H4: Formatieve evaluatie
0.83
0.61
In Tabel 5 wordt duidelijk dat alle schalen die in het model opgenomen werden, voldoende betrouwbaar zijn. Alle schalen komen zelfs op een betrouwbaarheid van meer dan 0.80 uit wat een zeer hoog resultaat is. 3.4.3
Verklaarde variantietoets
Naast de validiteit laat de confirmatorische factoranalyse ook toe om verschillende validiteitstoetsen te doen. De eerste validiteitstest die we doen is een test die kijkt naar de hoeveelheid verklaarde (variance extracted test) waar de factoren voor verantwoordelijk zijn. Wanneer de factoren veel variantie verklaren, ligt de validiteit van deze factoren hoog. Men neemt als ondergrens aan dat een factor minstens 50 percent van de variantie van de indicatoren moet verklaren om valide te zijn. In Tabel 5 werd naast de samengestelde betrouwbaarheid ook de verklaarde variantietoets van de verschillende schalen opgenomen. Uit deze toetsen blijkt dat alle dimensies minstens 50 % van de variantie verklaren van hun items en dat vele schalen hier zelfs een stuk boven zitten. De voorgaande drie toetsen geven aan dat elk van de dimensies op zich een sterke statistische basis hebben. De hierna volgende toetsen gaan na in welke mate de schaal op
61
zich niet alleen sterk is maar ook duidelijk van de andere dimensies te onderscheiden valt. Hiervoor bekijken we de convergentievaliditeit en de discriminantvaliditeit. 3.4.4
Convergentievaliditeit
De convergentievaliditeit geeft aan in welke mate verschillende instrumenten gebruikt worden om hetzelfde te meten. In concreto wil dit zeggen dat twee dimensies in het instrument ook iets verschillends moeten meten. Als blijkt dat twee schalen hetzelfde achterliggende concept meten, dan is er een probleem. In de theoretische studie werden immers
allemaal
verschillende
latente
dimensies
uitgewerkt.
De
testen
op
convergentievaliditeit zijn dus in feite negatieve toetsen omdat we net niet willen dat twee schalen hetzelfde concept meten. Een eerste manier om de convergentievaliditeit na te gaan is te kijken naar de correlaties tussen de verschillende dimensies. Indien deze te hoog zijn, liggen de concepten te dicht bij elkaar om van andere dimensies te kunnen spreken.
Tabel 6 Correlaties tussen factoren F2
F3
F4
F5
F6
F7
F8
F9
F10
F11
F12
F13
F1
0.70
F2
0.68
0.98
F3
0.79
0.75 0.81
F4
0.75
0.59 0.65 0.73
F5
0.68
0.51 0.59 0.67 0.65
F6
0.73
0.62 0.66 0.84 0.72 0.57
F7
0.79
0.68 0.62 0.68 0.61 0.56 0.65
F8
0.83
0.61 0.63 0.71 0.68 0.78 0.67 0.80
F9
0.96
0.64 0.64 0.75 0.74 0.74 0.70 0.81 0.84
F10
0.96
0.62 0.60 0.71 0.70 0.68 0.69 0.78 0.82 0.99
F11
0.43
0.36 0.38 0.42 0.48 0.68 0.29 0.23 0.36 0.43 0.46
F12
0.40
0.14 0.18 0.40 0.29 0.37 0.36 0.31 0.41 0.44 0.37 0.08
Vermist de schalen in het instrument allemaal betrekking hebben op één en hetzelfde opleidingsonderdeel, is te verwachten dat de correlaties tussen de factoren hoger is dan in sociaal wetenschappelijk onderzoek. Dat blijkt ook uit Tabel 6. Toch merken we in deze tabel
62
dat de correlaties tussen bepaalde dimensies zeer hoog oploopt en bijna de 1 benadert. Dat is het geval voor de correlaties tussen F2 en F3, F7 en F8, F9 en F2, F10 en F2 en tot slot tussen F10 en F11. Deze factoren lijken onderling inhoudelijk zeer weinig van elkaar te verschillen. Een tweede manier om de convergentievaliditeit te bekijken, bestaat er in om de t-toetsen van de verschillende factorladingen na te kijken. Wanneer de t-toetsen statistisch significant zijn (zie Bijlage 5), kunnen we zeker zijn dat de items tot die factor behoren en niet tot een andere. Wat deze benadering betreft, zien we geen problemen in de data. Alle items zijn statistisch significant met een probabiliteit van minder dan één duizendste. 3.4.5
Discriminantvaliditeit
De discriminantvaliditeit is complementair aan de convergentievaliditeit. Discriminantvaliditeit toont immers aan in hoeverre verschillende instrumenten verschillende concepten meten. Er zijn drie verschillende testen waarmee we de discriminantvaliditeit van twee factoren kunnen nagaan: de Verklaarde Variantietest (5A), de Chi-kwadraat Verschil test (5B) en de Confidentie-Interval test (5C). 5A. de Verklaarde Variantietest De verklaarde variantietest vergelijkt de verklaarde varianties van twee dimensies met de gekwadrateerde
correlatie
tussen
deze
beide
factoren.
Discriminantvaliditeit
wordt
aangetoond als de beide verklaarde varianties hoger uitvallen dan het kwadraat van de correlatie tussen beide factoren. Het idee hierachter is eenvoudig samen te vatten als kijken of er meer binnen de factor verklaard wordt dan wat er gemeenschappelijk is tussen twee factoren. Wanneer we deze testen uitvoeren (zie Bijlage 7) dan blijkt dat de factoren F1 (Duidelijkheid doelstellingen) en F10 (Hulp docent bij voorbereiding examen) en F11 (Transparantie summatieve evaluatie) niet duidelijk te onderscheiden zijn van elkaar. Hetzelfde kan gezegd worden van factor 2 (Kwaliteit doelstellingen) en factor 3 (Relevantie leerinhouden) enerzijds en factor 6 (Stimulatie in het leerproces) en 9 (Hulp docent tijdens het leerproces) anderzijds. We komen hier later nog op terug.
63
5B. de Chi-kwadraat Verschil test De discriminantvaliditeit gaat zoals gezegd na in welke mate twee factoren een verschillend concept meten. We wensen dus na te gaan in welke mate ze niet hetzelfde meten. Dat kunnen we testen door een model te schatten waarin we simuleren dat beide factoren samenvallen. De Chi² Verschiltest gaat kijken in welke mate een model met perfect gecorreleerde factoren (dwz de twee factoren vallen exact samen) beter of slechter is dan een model met gewoon gecorreleerde factoren. Om dit na te gaan, schatten we een nieuw model waarin we beide factoren perfect laten correleren. We maken vervolgens het verschil tussen de chi²-toetswaarden van het eigenlijke model en het test model en berekenen een nieuwe chi²-toets op dit verschil. Indien de probabiliteit van deze toets kleiner uitvalt dan 0.001 dan is discriminantvaliditeit aangetoond omdat het model met perfect correlerende factoren dan significant verschilt van het eigen model. Anders gezegd: onze factoren zijn niet perfect gecorreleerd wat duidt op het meten van een verschillend concept. De Chi²-verschiltoets is een zeer arbeids- en tijdsintensieve toets. Voor elke combinatie van factoren moet aan nieuw Lisrel-model geschat worden waarvan de Chi²-toetswaarde genoteerd wordt en het aantal vrijheidsgraden. Deze worden dan vergeleken met de oorspronkelijke toetswaarden door een nieuwe chi²-toets te doen op het verschil. In totaal bestaan er 78 combinaties tussen factoren in ons model wat maakt dat 78 nieuwe modellen en bijhorende chi²-verschiltoetsen berekend moesten worden. De resultaten hiervan zijn samengevat in Bijlage 6. Als we de probabiliteiten van de toetsen bekijken zien we opnieuw problemen tussen de factoren F1 (Duidelijkheid doelstellingen), F10 (Hulp docent bij voorbereiding examen) en F11 (Transparantie summatieve evaluatie) aan de ene kant en de factoren 2 (Kwaliteit doelstellingen) en 3 (Relevantie leerinhouden) aan de andere kant. Voor de factoren 6 (Stimulatie in het leerproces) en 9 (Hulp docent tijdens het leerproces) wordt de discriminantvaliditeit wél aangetoond. 5C. de Confidentie-Interval test Voor deze laatste test kijken we opnieuw naar de correlatie tussen de factoren. We berekenen rond de waarde van de correlatie een confidentie-interval (in dit geval een 95%confidentie-interval). Wanneer de waarde 1 (= perfect gecorreleerde factoren) niet binnen dit interval valt, is er discriminantvaliditeit. Ook hier is de logica analoog: we willen met 95% zekerheid kunnen zeggen dat de twee concepten niet met elkaar kunnen samenvallen. Vermits de perfecte correlatie van 1 wijst op het samenvallen van concepten mag deze waarde niet in het interval vallen. 64
De confidentie-intervallen staan samengevat in de tabel in Bijlage 7. Opnieuw merken we dat de meeste factoren duidelijk afzonderlijke concepten meten en dat dezelfde factoren (F10, F11, F2 en F3) problemen hebben met deze toets. 3.4.6
Besluit uit de analyse
De interne controle van de schalen gebeurde aan de hand van een confirmatieve factoranalyse. Deze analyse (uitgevoerd in Lisrel) laat toe om de kwaliteit van schalen zeer uitgebreid en ook zeer streng te toetsen. Uit de analyse kunnen we twee belangrijke conclusies trekken. In de eerste plaats zijn de dertien factoren die uit de vorige fase overbleven
en
de
bijhorende
items
afzonderlijk
zeer
sterke
schalen.
Zowel
de
indicatorbetrouwbaarheid, als de samengestelde betrouwbaarheid en de verklaarde variantietoets tonen aan dat de verschillende concepten statistisch stevig onderbouwd zijn. De validiteitstoetsen brengen echter een ander soort probleem aan het licht dat in de vorige fasen nooit getoetst kon worden. Sommige concepten worden inhoudelijk door de studenten niet als afzonderlijke concepten aanzien. Twee clusters van factoren komen hierbij steeds opnieuw naar voor in de verschillende toetsen. Een eerste cluster wordt gevormd door de factoren F1 (Duidelijkheid doelstellingen), F10 (Hulp docent bij voorbereiding examen) en F11 (Transparantie summatieve evaluatie). De andere cluster bevat de factoren 2 (Kwaliteit doelstellingen) en 3 (Relevantie leerinhouden). Het verdient bijgevolg aanbeveling deze twee clusters dichterbij te bekijken. Cluster 1 Wanneer we een blik werpen op de items zijn opgenomen onder de factoren F1, F10 en F11 (zie onderstaande tabel 7), wordt onmiddellijk duidelijk waarom de studenten deze concepten niet als afzonderlijk beschouwen. Elk van deze items heeft immers betrekking op de vraag of het voor de studenten duidelijk is wat met het opleidingsonderdeel wordt beoogd, en studenten verbinden daaraan (logischerwijze?) de inhoud van de evaluatie die zal plaatsvinden voor dit opleidingsonderdeel. Zij gaan er blijkbaar vanuit dat op het examen zal getoetst worden in hoeverre elk van hen voldoet aan de doelstellingen van het opleidingsonderdeel (nl. “datgene dat ze moeten kennen en kunnen na dit vak”). De duidelijkheid van de doelstellingen (F1) wordt dus gekoppeld aan de duidelijkheid met betrekking tot wat op het examen van hen wordt verwacht (F11) alsook aan de mate waarin de docent in de loop van het opleidingsonderdeel aangeeft hoe ze het beste aan de 65
doelstellingen van het opleidingsonderdeel (en voor de studenten dus ook automatisch het examen) kunnen voldoen (F10).
Tabel 7 Cluster van samenhangende factoren F1: Duidelijkheid doelstellingen De informatie die ik van de docent kreeg bij aanvang van dit opleidingsonderdeel gaf mij een duidelijk beeld van wat ik op het einde zou moeten beheersen Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel De doelstellingen van dit opleidingsonderdeel werden door de docent niet goed aangegeven F10: Hulp van docent bij voorbereiding examen Deze docent geeft ons aanwijzingen en tips in verband met de voorbereiding van het examen Deze docent geeft duidelijk aan wat hij/zij inzake de verwerking van de inhoud van ons verwacht Deze docent geeft bij de leerinhoud regelmatig aan wat we daarvan moeten kunnen op het examen F11: Transparantie summatieve evaluatie Deze docent heeft duidelijk gemaakt aan welke eisen een student moet voldoen om voor dit vak te slagen Doorheen het jaar maakt de docent duidelijk op basis van welke criteria hij / zij de student zal beoordelen Deze docent geeft duidelijk aan welke vorm het examen zal aannemen
Omdat de doelstellingen van een opleidingsonderdeel, waarop factor 1 betrekking heeft, vanuit theoretisch oogpunt kunnen worden beschouwd als richtinggevend voor de wijze waarop de evaluatie zal verlopen alsook voor de studiebegeleiding die voor een bepaald opleidingsonderdeel wordt georganiseerd (cf. hoofdstuk 2), hebben we ervoor geopteerd om de subdimensie ‘duidelijkheid van de doelstellingen’ op te nemen in ons testinstrument. Een tweede argument is van pragmatische aard: de dimensies “Studiebegeleiding” (waaruit F10 afkomstig is) en “Evaluatie” (F11) zijn reeds vertegenwoordigd in ons testinstrument, terwijl de dimensie “Doelstellingen” nog niet aan bod komt (de tweede subdimensie van met betrekking tot de doelstellingen zit vervat in de tweede cluster): om een evenwichtig testinstrument op te stellen dat (minstens een deel van) alle dimensies bestrijkt, zijn we dus genoodzaakt om de subdimensie ‘Duidelijkheid doelstellingen’ te weerhouden. Deze beslissing is dus gebaseerd op een theoretische bedenking enerzijds en een pragmatische overweging anderzijds.
66
Cluster 2 Met betrekking tot de tweede cluster, waarin de factoren F2 en F3 sterk met elkaar samenhangen, kunnen we een gelijkaardige redenering opzetten als in de eerste cluster. De door ons bevraagde studenten blijken in de praktijk geen onderscheid te maken tussen de relevantie van een opleidingsonderdeel als geheel voor de opleiding en de relevantie van de afzonderlijke leerinhouden die in dit opleidingsonderdeel worden aangeboden. Ook hier hanteren de studenten een welbepaald logisch principe dat stelt dat als de inhouden van het vak niet relevant zijn, het vak als geheel ook niet relevant kan zijn voor de opleiding.
Tabel 8 Cluster van samenhangende factoren F2: Kwaliteit doelstellingen Het is me niet duidelijk waarom dit opleidingsonderdeel in het studieprogramma is opgenomen Ik zie niet in hoe dit opleidingsonderdeel bijdraagt tot de wetenschappelijke vorming van de studenten Dit opleidingsonderdeel is van groot belang voor de opleiding die ik nu volg F3: Relevantie leerinhouden De inhoud van het vak was relevant voor de opleiding Sommige onderwerpen die in dit opleidingsonderdeel worden behandeld zijn naar mijn mening totaal overbodig voor de opleiding De inhouden die in dit vak aan bod komen, kan ik ook gebruiken bij het afwerken van andere opleidingsonderdelen uit de opleiding
Het gevolg is dat hun uitspraken over de relevantie van een opleidingsonderdeel zowel de leerinhouden van dat vak als het vak als geheel betreffen. Omdat het hier het ontwerp van een testinstrument voor de evaluatie van opleidingsonderdelen betreft (en niet een instrument dat zal worden gebruikt bij programma-evaluaties) en we dus zeker geïnteresseerd zijn in de relevantie van de leerinhouden die worden opgenomen in dit opleidingsonderdeel, opteren we ervoor de subdimensie “Relevantie van de leerinhouden” (F3) te weerhouden ten nadele van de subdimensie “Kwaliteit van de doelstellingen” (F2). 3.5
Fase 4 Externe controle van de selectie
In deze laatste fase werden de gegevens van de faculteiten TEW en Wetenschappen vergeleken met de selectie die in de vorige ronden gebeurde. Dit is het principe van de training, validation en test data set wat ook in data-mining procedures gebruikt wordt. Kort gesteld: studenten uit beide faculteiten kregen hetzelfde instrument met de 165 items maar in plaats van een volledig exploratieve analyse uit te voeren, worden enkel de schalen en 67
items geanalyseerd die uit de vorige fase overgebleven zijn. Dat betekent in ons geval tien schalen en eenendertig items. De volledige output van deze analyse op schaal- en items niveau is terug te vinden in Bijlage 8. We presenteren hier enkel samengevatte resultaten. We richten ons daarbij op de analyses zoals die in een latere fase ook aan de betrokken docent voorgelegd zullen worden. We bespreken eerst de resultaten van TEW om ons vervolgens naar Wetenschappen te richten. In TEW vulden 44 studenten de testvragenlijst in. Van de tien schalen bereikte zeven schalen de ondergrens van 0.70. Eén schaal haalde 0.69 en is een randgeval. Twee schalen zijn problematisch: Dimensie 3 (opbouw van de inhoud) en dimensie 5 (stimulatie in het leerproces). Vooral die laatste dimensie werd absoluut niet consistent ingevuld. Als we de itemanalyse gedetailleerder bekijken, dan blijkt één item verantwoordelijk voor dit resultaat. Wanneer we het item “De docent geeft af en toe een opdracht die me verplicht tot kritische reflectie” uit de schaal weglaten, stijgt de alpha-waarde van de schaal naar 0.68 wat een minder problematische waarde is om het gemiddelde te interpreteren. Dit resultaat geeft aan dat de studenten het niet eens zijn over dit item.
Tabel 9 Testresultaten faculteit TEW
N
Gemiddelde
1. Duidelijk zijn van de doelstellingen
44
13.05
2. Relevantie van leerinhouden
44
3. Opbouw van de inhoud 4. Doceerstijl docent
Gemiddelde op
Std
Alpha
6.70
2.77
0.81
11.25
5.50
2.81
0.70
44
12.73
6.48
2.11
0.63
44
12.23
6.15
2.54
0.67
44
7.30
2.87
1.86
0.49
44
17.75
6.88
4.28
0.86
7. Studeerbaarheid
44
13.95
7.30
2.58
0.85
8. Hulp van docent tijdens het leerproces
44
12.58
6.39
2.29
0.69
9. Authenticiteit summatieve evaluatie
44
12.95
6.63
2.96
0.76
10. Formatieve evaluatie
44
8.10
3.40
3.42
0.82
5. Worden studenten door docent gestimuleerd in hun leerproces? 6. Studiemateriaal: Bijdrage tot het begrijpen van de leerstof
68
10
Om de gemiddelden op de verschillende schalen beter te kunnen vergelijken, werden deze herrekend naar punten op tien. Het voordeel is dat het schaalgemiddelde dan schommelt tussen 0 en 10 en bovendien ook vergelijkbaar is met schalen die uit 4 in plaats van 3 items bestaan.
De
standaardisatie
maakt
het
tevens
mogelijk
om
de
score
van
het
opleidingsonderdeel grafisch voor te stellen in een radargrafiek.
Grafiek 1 Testresultaten TEW, voorgesteld op radargrafiek**.
Duidelijkheid 8 Form. evaluatie
6
Relevantie
4 Authenticiteit
2
Opbouw
0 Hulp docent
Doceerstijl
Studeerb.
Stimulatie Studiemat.
** De stippen geven schalen aan die geen alpha-waarde van 0.70 behaalden
De radargrafiek geeft duidelijk aan dat het onderwijs in het betrokken opleidingsonderdeel in grote mate in orde is. De grafiek toont slecht twee problematische schalen: de formatieve evaluatie en de stimulatie door de docent tijdens het leerproces. De analyse voor het opleidingsonderdeel in de Wetenschappen is problematischer. Maar liefst vier van de tien schalen halen niet het vereiste minimum om het schaalgemiddelde te interpreteren. De belangrijkste oorzaak hiervan is het lage aantal studenten dat de vragenlijst invulde: slechts 13. Dat maakt het gemiddelde van een schaal gevoeliger voor extreme antwoorden. De invloed van één enkele student op het schaalgemiddelde en de alpha-waarde is veel groter waardoor het moeilijker wordt om de evaluatieresultaten te interpreteren. In dit geval is de boodschap aan de docent heel duidelijk: het lage aantal studenten in het opleidingsonderdeel moet tot voorzichtigheid aanzetten bij de interpretatie van de cijfers.
69
Tabel 10 Testresultaten faculteit Wetenschappen
N
Gemiddelde
1. Duidelijk zijn van de doelstellingen
13
13.23
2. Relevantie van leerinhouden
13
3. Opbouw van de inhoud 4. Doceerstijl docent
Gemiddelde op
Std
Alpha
6.82
2.17
0.49
11.00
5.33
3.94
0.94
13
13.62
7.08
2.18
0.91
13
12.58
6.39
2.48
0.70
13
6.85
2.57
1.52
0.29
13
19.77
7.89
3.22
0.89
7. Studeerbaarheid
13
13.54
7.03
1.76
0.56
8. Hulp van docent tijdens het leerproces
13
12.85
6.57
1.86
0.55
9. Authenticiteit summatieve evaluatie
13
11.85
5.90
3.02
0.83
10. Formatieve evaluatie
13
6.00
2.00
2.49
0.75
5. Worden studenten door docent gestimuleerd in hun leerproces? 6. Studiemateriaal: Bijdrage tot het begrijpen van de leerstof
10
Toch zijn ook hier corrigerende acties mogelijk. Voor de eerste dimensie (duidelijkheid van de doelstellingen) kunnen we het laatste item uit de schaal verwijderen om de alpha-waarde tot 0.64 te doen stijgen. Uiteraard is dit niet voldoende. Voor dimensie 5 (stimulatie in het leerproces) leidt dezelfde operatie tot een alpha-waarde van 0.72, wat wél boven de minimumgrens is. Bij studeerbaarheid kan het verwijderen van één item leiden tot een alpha-waarde van 0.82. Bij dimensie 8 (hulp van de docent) is dergelijke operatie niet mogelijk (zie Bijlage 9).
Grafiek 2 Testresultaten Wetenschappen, voorgesteld op radargrafiek**.
Duidelijkheid 8 Form. evaluatie
6
Relevantie
4 Authenticiteit
2
Opbouw
0 Doceerstijl
Hulp docent
Studeerb.
Stimulatie Studiemat.
** De stippen geven schalen aan die geen alpha-waarde van 0.70 behaalden
70
Op de radargrafiek wordt duidelijk dat ook in Wetenschappen de formatieve evaluatie en de stimulatie van de docent tijdens het leerproces, minder scoren in de evaluatie door de studenten. Uiteraard heeft dit alles te maken met het al dan niet organiseren van een tussentijds evaluatiemoment. Indien de docent dit niet doet, scoort hij hier een laag gemiddelde. 4 Besluit van Testronde 1 Het doel van de eerste testronde was een instrument op te stellen dat vertrekt van een Likert-benadering en tot doel heeft dezelfde basisdimensies te meten als het bestaande UAinstrument. Dit instrument wordt dan in de tweede onderzoeksfase samen met het UAinstrument afgenomen om de validiteit van dit instrument na te gaan. Om het testinstrument op te stellen werden in deze fase 165 Likert-uitspraken verzameld die gebaseerd zijn op het theoretische kader achter de evaluatiedimensies. Zo ver mogelijk was, werden alle UA-items mee opgenomen in de testvragenlijst. In totaal betrof het hier vijftien items. Hiervan bleven op het einde van de testfase nog drie items in het instrument over. Dat betekent geenszins dat de overige twaalf items technisch niet in orde waren. De UA-items verdwenen om twee redenen uit het instrument. Een eerste reden heeft te maken met de plaats van het item binnen een schaal. Een item kan verdwijnen uit de analyse omdat deze in combinatie met de andere items een bepaalde dimensie niet goed meet. Het item kan een concept meten dat niet het bedoelde concept is dat de UA wil evalueren. Of het item kan zodanig verwoord zijn dat het item wél het juiste concept meet maar onvoldoende krachtig. Een tweede reden hangt hier mee samen maar situeert zich meer op schaalniveau. Het kan zijn dat enkele items een bepaald concept goed meten maar dat de schaal als geheel onvoldoende consistentie vertoont, té sterk samenhangt met een andere schaal of gemeten wordt met een té klein aantal items. In dat geval werd de hele schaal niet in het instrument opgenomen en verdwijnen de individuele items eveneens uit de schaal. Van de 165 items bleven na een dubbele selectie nog 31 items, gegroepeerd in 10 schalen over. Deze schalen werden zeer streng geselecteerd door middel van exploratieve en confirmatieve statistische technieken. Het resultaat van deze analyse is dat we dit instrument in een tweede onderzoeksfase kunnen afnemen naast het UA-instrument. In die tweede fase staat het vergelijken van beide instrumenten centraal.
71
Hoofdstuk 4 Op zoek naar validiteit en betrouwbaarheid (testfase 2)
1 Inleiding De afname van onze uitgebreide vragenlijst bij 433 studenten liet ons toe een valide testinstrument op te stellen dat makkelijk en snel invulbaar is en kon dienen als een soort ijkpunt op basis waarvan uitspraken kunnen worden gedaan met betrekking tot het door de UA ontwikkelde evaluatie-instrument. Meer concreet werden beide instrumenten in de tweede testfase, waarover we verslag uitbrengen in dit hoofdstuk, getest op hun betrouwbaarheid en validiteit door ze opnieuw aan te bieden aan de studenten. In deze fase stapten we dus voor de tweede keer heel wat aula’s en klaslokalen binnen en vroegen we de studenten om een opleidingsonderdeel uit het voorbije academiejaar te evalueren aan de hand van één van de instrumenten.
73
In een eerste paragraaf bespreken we kort het opzet en verloop van deze onderzoeksfase en werpen we een blik op de responscijfers. Een overzicht van de door ons uitgevoerde validiteits- en betrouwbaarheidsanalyses werd opgenomen in de tweede paragraaf. In de derde en laatste paragraaf zetten we de belangrijkste resultaten nog eens op een rijtje en trekken we de eerste conclusies, die verder zullen worden uitgewerkt in het volgende hoofdstuk. 2 Dataverzameling en verwerking De tweede testfase vond plaats tussen 9 november 2004 en 24 december 2004. In deze periode werden studenten uit de faculteiten Rechten, Geneeskunde, Wetenschappen, Letteren & Wijsbegeerte, Toegepaste Economische Wetenschappen en Politieke & Sociale Wetenschappen bevraagd. Meer bepaald werd aan deze studenten op twee verschillende momenten (met een interval van één à twee weken) gevraagd hetzelfde opleidingsonderdeel te evalueren, hierbij gebruik makend van ofwel het UA-instrument (zie Bijlage 10) ofwel het testinstrument (zie Bijlage 11). Concreet gingen we hierbij op de volgende wijze te werk. Tijdens of vlak na een college werd de studenten gevraagd een opleidingsonderdeel te evalueren met het instrument dat hen werd aangereikt. Dit was ofwel het testinstrument ofwel het UA-instrument, maar aan de studenten werd niet verteld welk instrument ze voor zich hadden liggen. De onderzoekers wisten dit wel: de vragenlijsten waarin het testinstrument was opgenomen hadden een geel (met codewoord ‘Koen Wauters’) of groen (met codewoord ‘George W. Bush’) voorblad, de vragenlijsten met het UA-instrument hadden een blauwe (codewoord ‘David Beckham’) of roze (codewoord ‘Hugo Claus’) eerste bladzijde. Aldus konden de studenten worden ingedeeld in vier groepen: groep 1 (geel, ‘Koen Wauters’), groep 2 (groen, ‘George W. Bush’), groep 3 (blauw, ‘David Beckham’), groep 4 (roze, ‘Hugo Claus’). Er werd de studenten gevraagd de kleur van het voorblad en/of het codewoord te onthouden en om enkele identificatiegegevens in te vullen. Hierbij konden ze kiezen uit ofwel hun rolnummer ofwel hun naam + voornaam + geboortedatum, ofwel meisjesnaam + voornaam + geboortedatum van hun moeder. De praktijk wees uit dat de overgrote meerderheid van de studenten opteerde voor het invullen van het rolnummer, al dan niet gecombineerd met het invullen van de andere identificatiegegevens. Eén of twee weken later kregen deze studenten opnieuw bezoek van de onderzoekers: er werd hen gevraagd om hetzelfde opleidingsonderdeel te evalueren met de vragenlijst die ze kregen aangereikt. Nu gebeurde dit echter niet meer ad random: elke student(e) moest aangeven wat het kleur van het voorblad de vorige keer was en/of welk codewoord op 74
zijn/haar vragenlijst werd vermeld, en kreeg dan een vragenlijst met hetzelfde kleur voorblad en hetzelfde codewoord. De vragenlijst van groep 1 bevatte opnieuw het testinstrument, dat van groep 4 opnieuw het UA-instrument. De vragenlijst die groepen 2 en 3 invulden was echter verschillend: waar groep 2 vorige keer het testinstrument invulde (cf. supra), kreeg zij nu het UA-instrument voorgeschoteld (omgekeerd voor groep 3). Aan de studenten werd opnieuw gevraagd om ons (dezelfde) identificatiegegevens te verschaffen. Dit laatste liet ons toe om naderhand de vragenlijsten die op de twee momenten door student X werden ingevuld aan elkaar te koppelen (in functie van betrouwbaarheidsanalyses, meer bepaald het toetsen van de hertestingsbetrouwbaarheid). Dat niet alle studenten twee keer hetzelfde instrument gebruikten, heeft alles te maken met het zogenaamde ‘leereffect’. Onderzoek wees immers uit dat bij respondenten een vorm van ‘herkenning’ optreedt wanneer zij op korte tijd worden geconfronteerd met dezelfde reeks vragen. Het gevaar bestaat dan ook dat sommigen onder hen zich zullen trachten te herinneren welk antwoorden ze de vorige keer hebben ingevuld om dezelfde antwoorden kunnen geven tijdens het tweede moment (vanuit het oogpunt van ‘sociale wenselijkheid’) in plaats van de vragen te beantwoorden op het ‘moment van vandaag’. Door twee groepen (2 en 3) op het tweede moment een andere vragenlijst te laten invullen (en dus het leereffect uit te schakelen), konden we nagaan of bij de twee andere groepen (1 en 4) een leereffect was opgetreden. Empirisch onderzoek (en zeker betrouwbaarheids- en validiteitstesten zoals wij die hadden gepland) vereist grote aantallen respondenten. Daar wij elke studentengroep dan op basis van de bovenstaande argumentatie ook nog in vier kleinere groepen opdeelden, was het noodzakelijk om zowel in de faculteit Politieke en Sociale Wetenschappen als in de faculteit Toegepaste Economische Wetenschappen een extra bevraging te organiseren. In de faculteit PSW evalueerde dezelfde studentengroep twee opleidingsonderdelen (i.p.v. één), in de faculteit TEW evalueerden twee studentengroepen uit een verschillend studiejaar elk één opleidingsonderdeel. In onderstaande tabel 1 vindt de lezer een overzicht van het totaal afgenomen enquêtes over
de
verschillende
faculteiten
heen
alsook
een
overzicht
van
de
scan-
en
verwerkingsgegevens voor deze tweede testfase. In totaal verzamelden we in deze tweede testfase 1118 enquêtes en nam het inscannen en corrigeren van één enquête iets minder dan een minuut in beslag.
75
Tabel 11: Overzicht van verwerkingstijden van de enquêtes Vak
Aantal enquêtes
Duur inscannen en corrigeren
Verwerkratio
(1 enquête = 4 blz.)
(in minuten)
(min. / enquête)
GEN
33
31
0.93
L&W
42
46
1.09
PSW 1
187
182
0.97
PSW 2
183
140
0.76
REC
259
218
0.84
TEW 1
172
150
0.87
TEW 2
203
241
1.19
WET
39
42
1.08
1118
1050
0.94
Totaal
Wanneer we een blik werpen op het aantal ingevulde enquêtes per studentengroep en dit vergelijken met het aantal studenten dat in november 2004 was ingeschreven voor het studiejaar waarin onze bevragingen plaatsvonden, merken we op dat het aantal studenten dat effectief de colleges bijwoont blijkbaar nogal laag ligt. We willen hier echter enkel spreken van een ‘indicatie’ en niet van een ‘vaststelling’ daar bij wijze van vergelijkingspunt het aantal studenten werd genomen dat ingeschreven is voor het studiejaar waarbinnen het betreffende opleidingsonderdeel is geprogrammeerd, en niet het aantal studenten dat ingeschreven is voor het opleidingsonderdeel zelf (cf. bisstudenten, vrije studenten, etc.).
Tabel 12: Responscijfers per faculteit Ingeschreven voor het
Respons moment 1
Respons moment 2
studiejaar (november 2004) GEN
60
20
13
L&W
26
22
20
PSW 1
199
113
74
PSW 2
199
109
74
REC
286
128
131
TEW 1
145
88
84
TEW 2
118
106
97
WET
34
21
18
76
Zoals hoger aangegeven werden de studenten telkens ingedeeld in vier groepen afhankelijk van de vragenlijst die ze invulden. In tabel 3 geven we een meer gedetailleerd overzicht van de respons per deelgroep, dit wil zeggen een overzicht van het aantal studenten dat op elk moment het UA-instrument dan wel het testinstrument gebruikte. Men zal merken dat het steeds om ongeveer even grote groepen gaat: de helft van de studenten vulde het UAinstrument in, de andere helft het testinstrument.
Tabel 13: Overzicht respons per deelgroep Testinstr
UA-instr
Testinstr
UA-instr
(moment 1)
(moment 1)
(moment 2)
(moment 2)
GEN
10
10
7
6
L&W
11
11
10
10
PSW 1
56
57
35
39
PSW 2
55
54
35
39
REC
69
59
68
63
TEW 1
45
43
45
39
TEW 2
54
52
46
51
WET
11
10
9
9
Tot slot geven we in figuur 1 een algemeen overzicht van het totaal aantal studenten dat, in vier groepen verdeeld (cf. supra), meewerkte aan deze tweede testfase. In deze figuur werden per deelgroep ook het aantal ‘koppelbare studenten’ opgenomen, dit wil zeggen die studenten die op beide momenten een vragenlijst invulden (met hetzelfde kleur voorblad en hetzelfde codewoord) en ons de nodige identificatiegegevens bezorgden waardoor beide ingevulde vragenlijsten aan elkaar konden worden gekoppeld. Het percentage koppelbare studenten per deelgroep bedraagt gemiddeld 77%.
77
Figuur 1: Overzicht ‘koppelbare’ studenten
Testinstr (moment 1)
Koppelbaar: 102
N= 159
Testinstr (moment 2) N= 132
Koppelbaar: 102
Testinstr (moment 1)
UA-instr (moment 2)
N= 152
N= 129 Koppelbaar: 79
UA-instr (moment 1)
Test-instr (moment 2)
N= 147
N= 123
UA-instr (moment 1)
Koppelbaar: 111
N= 149
UA-instr (moment 2) N= 127
3 Op zoek naar betrouwbaarheid en validiteit… 3.1
Overzicht
De analyses in deze tweede testfase vallen grosso modo uiteen in drie groepen. Een eerste reeks testen betreft een enkelvoudige validiteitsanalyse waarbij we nagaan of beide instrumenten (het UA-instrument en het door ons ontwikkelde testinstrument) meten wat ze beweren te meten. Met andere woorden, meten de items die werden opgenomen onder bijvoorbeeld de (sub)dimensie ‘Studeerbaarheid’ wel degelijk de studeerbaarheid van het bevraagde opleidingsonderdeel? Op basis van de vorige testfase kunnen we vermoeden dat dit voor ons testinstrument het geval zal zijn, maar geldt dit ook voor het instrument dat door de UA werd ontwikkeld? Een tweede reeks analyses heeft betrekking op een enkelvoudige analyse van de instrumenten. Het doel van deze testen is het vergelijken van wat een docent als score zou krijgen op de beide instrumenten voor bijvoorbeeld de (sub)dimensie ‘Studeerbaarheid’: verschilt deze score sterk naargelang het gebruikte instrument, of genereren beide instrumenten hetzelfde resultaat? Ten slotte voerden we nog een aantal stabiliteitstesten uit, waarbij werd nagegaan hoe betrouwbaar de beide testen zijn over de tijd. Of met andere woorden: geeft student X op moment 2 dezelfde antwoorden als op moment 1 met betrekking tot een welbepaald opleidingsonderdeel? 78
Ook deze paragraaf heeft, net zoals de beschrijving van de uitgevoerde analyses in de vorige fase, een ietwat technisch karakter, maar we hebben een poging ondernomen om het geheel wat overzichtelijk te houden door in de tekst een aantal duidelijke figuren en tabellen op te nemen met illustraties van testresultaten. Onze onderzoeksresultaten zijn immers gebaseerd op heel wat data die, om de leesbaarheid van de tekst niet in het gedrang te brengen, niet allemaal in de tekst konden worden opgenomen. Voor een schematisch overzicht van alle resultaten verwijzen we naar de bijlagen. 3.2
Enkelvoudige validiteitsanalyse
Voor het uitvoeren van de enkelvoudige validiteitsanalyse op beide instrumenten werd de Cronbach’s alpha op elke schaal/subdimensie berekend, en dit voor de beide testmomenten. Concreet betekent dit dat de alpha-waarde voor elk van de 10 subdimensies uit het testinstrument werd berekend en voor elk van de 6 (8) dimensies uit het UA-instrument 1. In de onderstaande tabel 4 geven we een overzicht van de interne consistentie van het testinstrument, en dit op beide testmomenten.
1
Bij deze analyse werd de dimensie ‘Doelstellingen en inhoud’ uit het UA-instrument opgesplitst in 2 subdimensies, nl. ‘Doelstellingen’ en ‘Inhoud’. Hetzelfde gebeurde voor de dimensie ‘Studeerbaarheid en studiebegeleiding’. Deze dimensie viel uiteen in de subdimensies ‘Studeerbaarheid’ en ‘Studiebegeleiding’. Deze operatie werd doorgevoerd op basis van onze theoretische analyse (cf. hoofdstuk 2), waaruit duidelijk is geworden dat de vragen uit deze dimensies verschillende zaken meten. Men kan dan ook verwachten dat, wanneer deze items samen worden genomen om een interne consistentietoets uit te voeren, de alphawaarden voor de dimensies ‘Doelstellingen en inhoud’ en ‘Studiebegeleiding en studeerbaarheid’ geen hoge alphawaarden zouden opleveren. Na de opsplitsing bleek echter dat de subdimensies ‘Doelstellingen’ en ‘Studiebegeleiding’ worden gemeten door slechts één item. Voor deze subdimensies kon dus geen alphawaarde worden berekend, daar een interne consistentietoets minstens 2 items vereist (er wordt immers nagegaan hoe goed de items samen een theoretisch concept meten).
79
Tabel 14: Interne consistentie testinstrument per testmoment Testinstrument
moment 1
moment 2
Dimensie A1: Duidelijkheid van de doelstellingen
.781
.782
Dimensie B1: Relevantie van leerinhouden
.714
.758
Dimensie B3: Opbouw van de inhoud
.668
.729
Dimensie D1: Doceerstijl docent
.898
.875
Dimensie D3: Stimuleren van het leerproces
.663
.760
Dimensie E1: Bijdrage tot het begrijpen van de leerstof
.875
.856
Dimensie F2: Studeerbaarheid
.835
.858
Dimensie G1: Hulp van docent tijdens leerproces
.765
.730
Dimensie H2: Authenticiteit summatieve evaluatie
.858
.833
Dimensie H4: Formatieve evaluatie
.779
.833
In het vorige hoofdstuk haalden we reeds aan dat een schaal (i.c. een subdimensie) betrouwbaar kan worden genoemd als de alpha-waarde gelijk is aan of hoger dan .70. Uit de tabel wordt duidelijk dat ons testinstrument het op dit vlak zeer goed doet: slechts twee subdimensies scoren op één van de twee testmomenten net onder de .70. We kunnen dus stellen dat ons testinstrument op basis van deze validiteitsanalyse naar voor komt als een valide instrument, dat daarenboven ook redelijk stabiel lijkt te zijn: op de beide testmomenten worden immers vrij tot zeer hoge alpha-waarden gehaald. Deze laatste vaststelling volstaat natuurlijk niet om al uitspraken te kunnen doen over de stabiliteit van het testinstrument (cf. hoofdstuk 3). Daarvoor zijn andere testen vereist, die verder in dit hoofdstuk nog uitgebreid aan bod zullen komen. Het UA-instrument doet het duidelijk minder goed, getuige het overzicht van de resultaten van de validiteitsanalyse voor het UA-instrument in tabel 5. Slechts één dimensie scoort voor het tweede testmoment boven de ondergrens van .70 (enkele dimensies halen het net niet), de andere dimensies blijken niet intern consistent. Hieruit zouden we kunnen besluiten dat het UA-instrument de validiteitstest niet doorstaat en dat de items die werden opgenomen onder de verschillende dimensies deze dimensies niet goed meten. Een kanttekening die hierbij dient te worden geplaatst is dat het ook niet de bedoeling is van het UA-instrument om de achterliggende theoretische concepten gemeten: er wordt slechts geëvalueerd op itemniveau (d.w.z. scores voor elke vraag afzonderlijk). In hoofdstuk I haalden we aan dat dit echter grote risico’s met zich meebrengt.
80
Tabel 15: Interne consistentie UA-instrument per testmoment UA-instrument
2
moment 1
moment 2
Dimensie A: (Doel en) inhoud
.367
.420
Dimensie B: Structuur en opbouw programma
.399
.477
Dimensie C: Studeerbaarheid (en studiebegeleiding)
.491
.652
Dimensie D: Studiematerialen en infrastructuur
.152
.401
Dimensie E: Evaluatie
.627
.770
Dimensie F: Werkvorm (i.c. hoorcolleges)
.642
.697
3.3
Enkelvoudige analyse van de instrumenten
In deze paragraaf vergelijken we kort de wijze waarop beide instrumenten worden gebruikt bij de evaluatie van opleidingsonderdelen. Zoals eerder werd vermeld, zal de evaluatie aan de hand van het UA-instrument op itemniveau gebeuren. Dit wil zeggen dat per item gemiddelde, mediaan en standaardafwijking wordt berekend en dat op basis van deze gegevens het opleidingsonderdeel wordt gepositioneerd ten overstaan van de andere geëvalueerde opleidingsonderdelen. Een inzichtelijke manier om dit te doen bestaat erin boxplot-grafieken op te maken waarin per item de medianen van de geëvalueerde opleidingsonderdelen worden weergegeven. Ter illustratie geven we hieronder het resultaat van deze oefening voor een item dat werd opgenomen in de beide instrumenten, nl de vraag “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel”. Het overzicht van alle analyses volgens de ‘UAmethode’ (en dit toegepast op de items uit de beide instrumenten) vindt men in Bijlage 12 en Bijlage 13. We gaan van start met de resultaten voor het UA-instrument op beide testmomenten. We herinneren er even aan dat de studenten in het UA-instrument konden kiezen uit 5 antwoordcategorieën: 1 = helemaal niet akkoord, 2 = niet akkoord, 3 = akkoord, 4 = helemaal akkoord, 5 = niet van toepassing. De mediaanscore (kwartiel 2) kan in de figuur herkend worden aan de dikke zwarte streep.
2
Zoals vermeld in de vorige voetnoot, worden de afzonderlijke dimensies ‘Doelstellingen’ en ‘Studiebegeleiding’ gemeten aan de hand van één enkel item, waardoor voor deze subdimensies geen interne consistentietoets kon worden uitgevoerd. Deze items werden dan ook niet opgenomen in deze analyse.
81
Figuur 2: boxplot UA-instrument volgens mediaan (stelling “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel” – testmoment 1)
5,0
4,0
3,0 stc001
2,0
1,0 GEN
L&W
PSW 1
PSW 2
REC
TEW 1
TEW 2
WET
Vak
Wanneer
we
de
boxplots
interpreteren,
wordt
duidelijk
dat
de
bevraagde
opleidingsonderdelen een goede score halen op dit item: de medianen voor alle opleidingsonderdelen halen een score 3 (‘akkoord’) of 4 (‘helemaal akkoord’). De boxplots voor hetzelfde item op het tweede testmoment zien er uit als volgt:
82
Figuur 3: boxplot UA-instrument volgens mediaan (stelling “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel” – testmoment 2)
5,0
4,0
3,0 stf001
2,0
1,0 GEN
L&W
PSW 1
PSW
REC
TEW 1
TEW 2
WET
Vak
Ook op het tweede testmoment scoorden alle opleidingsonderdelen terug goed tot zeer goed, al stellen we wel enkele verschuivingen vast in de mediaanscores ten opzichte van het eerste testmoment (zie de scores voor de opleidingsonderdelen ‘GEN’, ‘REC’ en ‘TEW1’ over de twee testmomenten). Wanneer we de resultaten die het item “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel” uit het testinstrument opleverden op dezelfde wijze bekijken (figuur 4 & 5), wordt duidelijk dat de bevraagde opleidingsonderdelen ook hier goed scoren. Bij de ontwikkeling van het testinstrument werd ervoor geopteerd om de studenten 6 antwoordmogelijkheden aan te bieden: 1 = ‘helemaal niet akkoord’, 2 = ‘niet akkoord’, 3 = ‘eerder niet akkoord’, 4 = ‘eerder akkoord’, 5 = ‘akkoord’, 6 = ‘helemaal akkoord’. Alle opleidingsonderdelen halen op beide testmomenten voor dit item een 4 of een 5, wat erop wijst dat de studenten zich in de stelling kunnen terugvinden. 83
Figuur 4: boxplot testinstrument volgens mediaan (stelling “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel” – testmoment 1)
6,0
5,0
4,0
sta001
3,0
2,0
1,0 GEN
L&W
PSW 1
PSW 2
REC
Vak
84
TEW 1
TEW 2
WET
Figuur 5: boxplot testinstrument volgens mediaan (stelling “Tijdens het opleidingsonderdeel werd duidelijk gemaakt wat ik moest kennen en kunnen aan het einde van dit opleidingsonderdeel” – testmoment 2)
6,0
5,0
4,0 ste001
3,0
2,0 GEN
L&W
PSW 1
PSW 2
REC
TEW 1
TEW 2
WET
Vak De evaluatie volgens de methode van ons testinstrument verloopt op een heel andere wijze: er wordt niet gescoord op itemniveau, maar wel op schaalniveau. De items die werden weerhouden in onze subdimensies meten op een betrouwbare en valide manier (zo bleek in het vorige en in dit hoofdstuk) de theoretische concepten die achter deze subdimensies schuilgaan. Dit leidt ertoe dat de bevraagde opleidingsonderdelen kunnen worden gescoord per subdimensie. Zo bijvoorbeeld kunnen de resultaten op de items die samen de subdimensie ‘Studeerbaarheid’ meten bij elkaar worden opgeteld, zodat men een gekwantificeerde appreciatie van de studeerbaarheid van een opleidingsonderdeel verkrijgt (bijvoorbeeld op een schaal van 0 tot 10) die valide én betrouwbaar is. Dit laatste kunnen we met zekerheid stellen als de alphawaarde, die voor elke schaal telkens opnieuw wordt berekend hoger is of gelijk aan .70 . In de onderstaande tabel 6 geven we ter illustratie de scores die de geëvalueerde opleidingsonderdelen haalden op de subdimensie “Authenticiteit van de summatieve evaluatie”, en dit op de beide testmomenten. In de tabel vindt de lezer achtereenvolgens de gemiddelde score die elk opleidingsonderdeel haalt op deze subdimensie (op een maximum
85
van 18, want deze schaal bestaat 3 items * 6 antwoordcategorieën), de standaardafwijking, de alphawaarde (een alphawaarde groter of gelijk aan .70 wijst op een hoge mate van interne consistentie) en ten slotte de genormeerde score die elk opleidingsonderdeel haalt op 10 punten. Daarnaast deden we dezelfde oefening voor de dimensie “Evaluatie” uit het UA-instrument. Eerder in dit hoofdstuk bleek dat deze dimensie als enige in het UA-instrument een alphawaarde hoger dan .70 haalde en de daarin opgenomen items dus op redelijke wijze intern consistent zijn. Daar deze ‘schaal’ bestaat uit 4 items en er telkens 4 antwoordcategorieën worden aangeboden (de categorie ‘niet van toepassing’ buiten beschouwing gelaten), bestaat hier de maximale gemiddelde score uit 16 punten. We geven ook hier telkens de standaardafwijking, de alphawaarde en de genormeerde score voor elk opleidingsonderdeel voor de beide testmomenten. We gaven reeds aan dat de alphawaarde voor elke schaal voor elk opleidingsonderdeel telkens opnieuw wordt berekend. Indien deze alphawaarde minstens .70 haalt, betekent dit de score die dit opleidingsonderdeel op de schaal haalt, betrouwbaar en valide mag worden genoemd: de studenten hebben de (sub)dimensie die aan de hand van deze schaal wordt gemeten eensgezind en consequent geëvalueerd. Als de alphawaarde lager uitvalt dan .70, moet bij de interpretatie van de score op deze schaal wat meer voorzichtigheid aan de dag worden gelegd. Tot slot nog dit. De lezer zal merken dat de gemiddelde score die een opleidingsonderdeel haalt op een bepaalde schaal kan verschillen naargelang het testmoment. Om er zeker van te zijn dat deze gemiddelde scores niet significant van elkaar verschillen (en het dus niet over twee verschillende populaties gaat die het instrument hebben ingevuld), voerden we een t-toets uit. Het resultaat van deze toets (meer bepaald de p-waarde) werd eveneens opgenomen in de tabel. Elke waarde boven .05 wijst erop dat het verschil tussen de gemiddelde scores niet significant is. Uit tabel 6 blijkt dat we er vrij zeker kunnen van zijn dat het wel degelijk dezelfde studenten zijn die op beide testmomenten de instrumenten hebben ingevuld. Slechts een enkele keer (en dit geldt ook voor de t-toetsen die we uitvoerden op de andere schalen uit beide instrumenten, zie Bijlage 14 en Bijlage 15) blijkt er wel een significant verschil op te treden, maar dit moet worden beschouwd als een toevalstreffer eerder dan als een indicatie dat het hier verschillende populaties betreft (met een verschillende appreciatie van het opleidingsonderdeel). 86
Tabel 16: Analyse volgens testinstrument: schaal “Authenticiteit summatieve evaluatie” (testinstrument)
Test-instrument Dimensie H2: Authenticiteit sum. Evaluatie
Moment 1 Gemiddelde
STD
(max.= 18)
Moment 2
Gest. score
Alpha
(max = 10)
Gemiddelde
STD
(max.= 18)
Gest. score
Alpha
(max = 10)
t-test sign.
(3 items: 10, 25 en 31) GEN
10.600
4.2479
5.07
nvt
3
12.429
2.8200
6.28
nvt
.303
L&W
12.364
3.4460
6.24
nvt
11.222
3.3458
5.48
nvt
.464
PSW 1
11.018
3.6655
5.35
.834
12.086
3.4926
6.06
.914
.168
PSW 2
15.545
1.7619
8.36
.550
15.057
1.7140
8.04
.603
.197
REC
12.785
3.7770
6.52
.884
11.859
3.2750
5.90
.849
.139
TEW 1
14.136
2.4833
7.42
.836
14.136
2.5020
7.42
.775
1.00
TEW 2
13.547
2.8526
7.03
.711
13.239
2.7421
7.03
.677
.586
WET
10.545
4.2980
5.03
nvt
11.778
1.9861
5.85
nvt
.411
3
Te weinig respondenten (< 20) in de subgroepen GEN, L&W en WET om een betrouwbaarheidstest uit te voeren.
87
UA-instrument
Moment 1
Dimensie E: Evaluatie
Gemiddelde
(4 items: 21, 22, 23 en 24)
(max. = 16)
STD
Moment 2
Gest. score
Alpha
(max = 10)
Gemiddelde
STD
(max. = 16)
Gest. score
Alpha
(max = 10)
t-test sign.
GEN
12.700
3.4657
7.25
nvt
10.667
2.8048
5.56
nvt
.223
L&W
11.455
1.8091
6.21
nvt
11.600
.8433
6.33
nvt
.814
PSW 1
10.345
3.6220
5.29
.876
11.410
2.9622
6.18
.818
.434
PSW 2
10.902
2.5865
5.75
.672
11.821
2.1627
6.52
.736
.253
REC
13.000
2.3712
7.50
.513
11.600
3.0208
6.33
.788
.008
TEW 1
12.667
2.0797
7.22
.464
13.027
2.5765
7.52
.809
.400
TEW 2
13.100
1.9193
7.58
.632
13.188
2.4552
7.66
.734
.465
WET
11.800
1.2293
6.50
nvt
11.889
1.6159
6.57
nvt
.895
88
3.4
Stabiliteitstesten
Het concept ‘betrouwbaarheid’ wordt door Slotboom omschreven als de nauwkeurigheid van het instrument, meer bepaald de herhaalbaarheid of reproduceerbaarheid: wanneer we een tweede keer met hetzelfde instrument hetzelfde object (opleidingsonderdeel) meten, moet dit dezelfde uitkomst opleveren als de eerste keer (Slotboom, 1996: 23). In onze zoektocht naar de wetenschappelijke waarde van de beide evaluatie-instrumenten voerden we ook de nodige betrouwbaarheidstesten uit. Deze werden mogelijk gemaakt door het feit dat we de instrumenten twee keer aan dezelfde studentenpopulaties voorlegden met de vraag om telkens hetzelfde opleidingsonderdeel te evalueren. Door de studenten tevens te vragen ons enkele identificatiegegevens te verschaffen, konden we nagaan of student X op het tweede testmoment aan de hand van dezelfde vragenlijst dezelfde antwoorden gaf als op het eerste testmoment. In deze reeks testen werden dus enkel die data opgenomen van studenten die op de beide testmomenten dezelfde vragenlijst invulden (cf. supra). In deze laatste paragraaf bespreken we kort de resultaten die de betrouwbaarheidstoetsen voor beide instrumenten opleverden. De meest eenvoudige wijze om de betrouwbaarheid van een meetinstrument na te gaan is het opstellen van een transitiematrix per item en hier een aantal toetsen op te doen. Meer bepaald stelden we frequentietabellen op per item waarbij de resultaten voor dit item op moment 1 worden gekruist met de resultaten voor het item op moment 2. Hierbij werd vervolgens een Cohen’s Kappa-consistentietoets op uitgevoerd en werden tevens Kendall’s Tau en de Spearman’s correlatiecoëfficiënt berekend. De Cohen’s kappa is een statistische maat die aangeeft in hoeverre twee respondenten overeenstemmen in hun oordeel over een bepaald object. De kappa wordt uitgedrukt in een waarde tussen 0 en 1, waarbij 1 duidt op perfecte overeenstemming en 0 wijst op ‘toeval’. Landis en Koch (1977) stelden in dit verband een classificatie voor met betrekking tot de mate van overeenstemming die wordt weerspiegeld in de kappa-waarde: <=0
Poor
0-.2 Slight .2-.4 Fair .4-.6 Moderate .6-.8 Substantial .8-1
Almost perfect
Wij nemen deze classificatie over en zullen de kappa-waarden die deze consistentietoets op onze data oplevert ook als zodanig interpreteren.
Kendall’s Tau geeft aan in hoeverre rangschikkingen van een aantal personen met elkaar overeenkomen (b.v. van zeer negatief tot zeer positief). In ons geval betekent dit concreet dat wordt nagegaan of een student op beide testmomenten een stelling met ‘helemaal akkoord’ beantwoordde. De Kendall’s Tau-waarde wordt uitgedrukt in een getal tussen – 1 (tegengestelde beoordeling) en 1 (perfecte overeenstemming). De Spearman correlatie-
coëfficiënt is misschien nog de meest bekende en meest gebruikte manier om het verband tussen twee reeksen rangordeningen te berekenen en wordt voor dezelfde soort gegevens als Kendall’s Tau. Ook hier duidt de waarde – 1 op tegengestelde rangordeningen en 1 op een perfecte overeenstemming. Voor de volledigheid opteerden we er voor om ook deze overeenstemmingsmaat op te nemen in onze analyses. Ter illustratie geven we hieronder de resultaten van deze betrouwbaarheidsanalyses voor een item dat is opgenomen in beide instrumenten (UA-instrument én testinstrument), nl. “De inhoud van het vak was relevant voor de opleiding”. In tabel 7 worden de resultaten weergegeven voor het UA-instrument. De transitiematrix en de resultaten van de betrouwbaarheidstoetsen laten zien dat dit item het goed doet. De kappa-waarde bedraagt .577 wat volgens de classificatie van Landis en Koch wijst op een redelijke overeenstemming en ook de Spearman’s correlatiecoëfficiënt is vrij behoorlijk. Dit item werd dus op beide testmomenten door de studenten ongeveer gelijk beoordeeld. De resultaten voor de andere UA-items werden opgenomen in Bijlage 16. Globaal genomen kunnen we op basis van alle resultaten stellen dat de items opgenomen in het UA-instrument redelijk stabiel zijn, dit wil zeggen dat ze op beide testmomenten soortgelijke resultaten opleveren.
90
Tabel 17: betrouwbaarheid item 2 UA-instrument
4
Item 02: “De inhoud van het vak was relevant voor de opleiding”
1
2
3
4
1
0
0
0
0
2
0
2
1
0
3
0
1
25
7
4
0
0
13
59
Kappa = .577 (p < .000 ) Kendall’s Tau B = .334 (p < .000 ) Spearman’s corr = .627 (p < .000 )
Tabel 8 bevat zoals gezegd de resultaten voor datzelfde item, maar dan als deel uitmakend van ons testinstrument. Ook hier lijken de resultaten te wijzen in de richting van een betrouwbaar item, al ligt de kappa-waarde gevoelig lager (.373). Dit zou te maken kunnen hebben met het feit dat de studenten die het testinstrument invulden konden kiezen uit zes antwoordmogelijkheden (en niet uit vier zoals in het UA-instrument). We namen de proef op de som en berekenden ook de kappa-waarde voor dit item (en voor de andere items uit het testinstrument) wanneer we de zes antwoordmogelijkheden indeelden in 3 categorieën, te weten ‘niet akkoord’ (“helemaal niet akkoord” en “niet akkoord”), ‘neutraal’ (“eerder niet akkoord” en “eerder akkoord”) en akkoord (“akkoord” en “helemaal akkoord”). De kappawaarde voor het item bedraagt dan .557, en ook de waarde voor de andere items ligt opmerkelijk hoger. Enige voorzichtigheid is dus geboden bij het vergelijken van de betrouwbaarheid van beide instrumenten. Uit tabel 8 blijkt tevens dat de Kendall’s Tau en de Spearman’s correlatiecoëfficiënt duiden op een hoge mate van betrouwbaarheid van dit item. Dit geldt evenzeer voor de andere items uit ons testinstrument (zie Bijlage 17).
4
De antwoordcategorieën zijn : 1 = ‘helemaal niet akkoord’, 2 = ‘niet akkoord’, 3 = ‘akkoord’, 4 = ‘helemaal akkoord’.
91
Tabel 18: betrouwbaarheid item 2 testinstrument
5
Item 02: “De inhoud van het vak was relevant voor de opleiding”
1
2
3
4
5
6
1
0
0
0
0
0
0
2
0
0
1
0
0
0
3
0
1
0
2
0
1
4
0
0
3
10
2
1
5
0
0
1
10
21
3
6
0
0
0
0
20
30
Kappa = .373 (p < .000 ) Kendall’s Tau B = . .510 (p < .000 ) Spearman’s corr = .688 (p < .000 )
Uit de betrouwbaarheidstoetsen kunnen we bijgevolg opmaken dat beide instrumenten redelijk betrouwbaar zijn: ze leveren op beide testmomenten vergelijkbare resultaten op, zonder dat één van beide opvallend beter scoort dan het andere. 4 Besluit In dit hoofdstuk onderwierpen we het UA-instrument en het door ons ontwikkelde testinstrument aan een aantal validiteits- en betrouwbaarheidstesten op basis van in totaal 1118 enquêtes die op twee testmomenten werden ingevuld door studentengroepen uit 6 verschillende faculteiten. Dit gebeurde in drie fasen: een enkelvoudige validiteitsanalyse, een enkelvoudige analyse van de instrumenten en een reeks betrouwbaarheidstesten. De enkelvoudige validiteitsanalyse wees uit dat vooral het testinstrument een valide instrument blijkt te zijn: er wordt op 8 van de 10 schalen (‘subdimensies’) over de beide testmomenten heen telkens Cronbach’s alpha gehaald van .70. Slechts 2 schalen scoren op één testmoment net onder de .70-grens. De interne consistentie van de subdimensies uit het testinstrument is dus zeer hoog. De validiteit van het UA-instrument toetsen bleek veel moeilijker: het instrument bestaat uit losstaande items die wel werden onderverdeeld in dimensies (‘Evaluatie’, ‘Studeerbaarheid en studiebegeleiding’, …), maar niet pretenderen 5
De antwoordcategorieën zijn : 1 = ‘helemaal niet akkoord’, 2 = ‘niet akkoord’, 3 = ‘eerder niet akkoord’, 4 = ‘eerder akkoord’, 5 = ‘akkoord’ en 6 = ‘helemaal akkoord’.
92
samen deze achterliggende (latente) concepten te meten. De vraag is dan ook waaruit een empirische validiteitsanalyse van dit instrument kan bestaan. Wanneer we de verschillende dimensies toch beschouwen als schalen en deze onderwerpen aan een interne consistentietoets, doorstaat geen enkele dimensie deze toets: slechts één dimensie haalt op één testmoment een alpha-waarde hoger dan .70. In de enkelvoudige analyse van de instrumenten vergeleken we de wijze waarop beide instrumenten worden gebruikt. De analyse volgens het UA-instrument gebeurt op itemniveau. Voor elke stelling worden mediaan, gemiddelde en standaardafwijking berekend en worden op basis van deze gegevens uitspraken gedaan over de score die elk opleidingsonderdeel haalt op dit item. De evaluatie volgens het testinstrument verloopt op een totaal andere wijze: hier wordt niet geëvalueerd op itemniveau, maar op schaalniveau. Elk van de 10 subdimensies vormt een valide en betrouwbare schaal die aan de hand van 3 of 4 items een latent concept meet waarop opleidingsonderdelen kunnen worden gescoord. Deze score wordt berekend op basis van de somscore op de bij de schaal horende items en wordt herleid tot een schaal van 0 tot 10. Tevens wordt voor elk opleidingsonderdeel opnieuw de alpha-waarde voor elke schaal berekend. Indien de score op een bepaalde schaal de .70 niet haalt, noopt dit tot voorzichtigheid bij het interpreteren van de score die het betreffende opleidingsonderdeel haalt op deze schaal. De
betrouwbaarheidstoetsen
(Cohen’s
Kappa,
Kendall’s
Tau
en
Spearman’s
correlatiecoëfficiënt) ten slotte wezen uit dat beide instrumenten vrij stabiel zijn over de tijd. De items opgenomen in beide instrumenten leveren op de beide testmomenten vergelijkbare resultaten op. In het volgende hoofdstuk bespreken we kritisch de resultaten van de testen uitgevoerd in de eerste testfase (cf. hoofdstuk 3) en deze tweede testfase en formuleren we een alternatief ter optimalisering van het UA-instrument: hoe zou dit er uit moeten zien en hoe kan het worden gebruikt?
93
Hoofdstuk 5 Besluit
1 Inleiding In de voorgaande hoofdstukken brachten we uitvoerig verslag uit van onze werkzaamheden in het kader van deze valideringsstudie. We presenteerden het door ons gebruikte theoretisch kader en de wijze waarop we op basis van deze theorie een uitgebreide vragenlijst van 165 testitems opstelden. Vervolgens toonden we aan hoe deze vragenlijst werd gereduceerd tot een testinstrument dat bestaat uit 31 items die samen 10 valide schalen vertegenwoordigen. We onderwierpen dit testinstrument en het UA-instrument aan een reeks validiteits- en betrouwbaarheidstoetsen en constateerden dat beide instrumenten betrouwbaar zijn, maar dat we ons vragen kunnen stellen bij de validiteit van het UAinstrument. Dit vijfde en laatste hoofdstuk is opgesplitst in twee delen. In de eerste paragraaf vatten we de door ons uitgevoerde studie kort samen en bespreken we de belangrijkste resultaten. De tweede paragraaf bevat een alternatief voorstel met betrekking tot verdere verfijning en optimalisering van het evaluatiegebeuren meer bepaald het instrument dat hierbij zou moeten worden gebruikt, alsook enkele aandachtspunten betreffende de wijze waarop dit instrument moet worden gehanteerd. In deze paragraaf illustreren we eveneens een
mogelijke manier waarop dit instrument kan worden toegepast. We maken hierbij gebruik van data die we in de loop van deze studie hebben verzameld.
2 Samenvatting en conclusies 2.1
Probleemstelling en situering
In het kader van de op til staande onderwijsevaluaties werd door de Universiteit Antwerpen een instrument ontwikkeld dat universiteitsbreed de studenten moet toelaten de opleidingsonderdelen waaraan ze het voorgaande semester hebben geparticipeerd te evalueren. Dit instrument stootte echter op een aantal methodologische vragen en bedenkingen bij de faculteit Politieke en Sociale Wetenschappen. Vooral het ontbreken van een degelijk theoretisch kader en het feit dat weinig of niets bekend was met betrekking tot de betrouwbaarheid en de validiteit van het instrument, werden als tekortkomingen beschouwd. Daarnaast vormde ook het feit dat onderwijsprestaties zouden geëvalueerd worden op itemniveau een belangrijk punt van discussie. De Cel voor Innovatie en Kwaliteitszorg van het Onderwijs van de faculteit PSW kreeg daarom de toelating om het evaluatie-instrument op haar wetenschappelijke waarde te testen en aldus na te gaan hoe het zat met de betrouwbaarheid en de validiteit ervan. Dit gebeurde in de periode september 2004 – januari 2005 en in drie onderzoeksfases. In een eerste fase werd een theoretisch kader uitgewerkt op basis waarvan het mogelijk werd op schaalniveau een uitgebreide testbatterij op te stellen waarmee onderwijsprestaties kunnen worden gemeten. Deze uitgebreide vragenlijst kon in een tweede fase worden gereduceerd tot een testinstrument bestaande uit 10 schalen en 31 items. Door dit testinstrument en het UA-instrument in de derde onderzoeksfase aan de studenten aan te bieden, konden hun betrouwbaarheid en validiteit worden nagegaan en met elkaar vergeleken. 2.2
Fase 1: opstellen van een theoretisch kader en ontwerp van een uitgebreide testbatterij
Het evaluatie-instrument dat werd ontwikkeld door de UA bestaat uit een aantal open en gesloten vragen, aangevuld met enkele identificatievragen. De gesloten vragen, die kwantitatief zullen worden verwerkt en ons grootste zorg vormen, zijn ingedeeld volgens zes dimensies. Bij de ontwikkeling van onze uitgebreide testbatterij hebben we ervoor geopteerd deze dimensies over te nemen, echter niet zonder de nodige aandacht te besteden aan een
96
theoretische uitwerking van deze dimensies. Op basis van deze theoretische achtergrond konden vervolgens een aantal testitems worden geformuleerd en geselecteerd waarvan we vermoedden dat ze de achterliggende dimensies goed (d.w.z. juist) zouden meten. Deze oefening resulteerde aldus in een uitgebreide testbatterij met in totaal 22 theoretische subdimensies (‘schalen’) die werden geoperationaliseerd in de vorm van telkens minstens 6 Likertitems. 2.3
Fase 2: constructie van een testinstrument
Het opzet van deze fase bestond erin de uitgebreide vragenlijst te reduceren tot een testinstrument dat voor de studenten makkelijk invulbaar is en kan worden gebruikt voor de evaluatie van zoveel mogelijk verschillende soorten opleidingsonderdelen. Daarvoor werd een beroep gedaan op in totaal 433 studenten uit zes verschillende faculteiten. Aan hen werd gevraagd een opleidingsonderdeel dat ze het vorige academiejaar hadden gevolgd te evalueren aan de hand van onze vragenlijst. Door het uitvoeren van strenge statistische analyses op de data die deze bevragingen opleverden, kon een valide testinstrument worden opgesteld. Dit instrument meet 10 subdimensies aan de hand van 31 items. 2.4
Fase 3: op zoek naar betrouwbaarheid en validiteit
De derde fase van ons onderzoek bestond hierin dat het door ons ontwikkelde testinstrument en het UA-instrument opnieuw aan de studenten werden aangeboden en dit twee keer (met een interval van 1 à 2 weken). Dit leverde ons 1118 enquêtes op, die ons van het materiaal hebben voorzien om de beide instrumenten op hun betrouwbaarheid en validiteit te testen. De door ons uitgevoerde analyses wezen uit dat beide instrumenten betrouwbaar kunnen worden genoemd. Dit wil zeggen dat ze op beide testmomenten gelijkaardige resultaten opleverden met betrekking tot de evaluatie van een welbepaald opleidingsonderdeel. Wat betreft de validiteit van de instrumenten liggen de zaken anders. Op basis van de vorige onderzoeksfase konden we verwachten dat het testinstrument valide zou moeten zijn, omdat het testinstrument is ontwikkeld op basis van een uitgebreide validiteitsanalyse op veel items afkomstig uit de theorie. Dit bleek inderdaad ook het geval te zijn. Het testinstrument doorstaat ook in deze fase met glans de validiteitstesten. Het UA-instrument valide verklaren bleek veel moeilijker, niet in het minst omwille van het feit dat dit instrument is opgebouwd uit van elkaar onafhankelijke items. Deze items zijn niet opgehangen aan een theoretisch kader en meten onderwijsprestaties als waren zij onmiddellijk en rechtstreeks observeerbaar. 97
We toonden in het eerste hoofdstuk aan dat zich precies op dit punt de zwakte van het UAinstrument situeert: een instrument ontwikkelen op basis van een idee over wat ‘goed’ onderwijs inhoudt en dit instrument gebruiken voor een evaluatie op itemniveau, verhoogt op significante wijze de kans op meetfouten. Op basis van de theoretische en methodologische invalshoek van waaruit wij zijn vertrokken en op basis van de analyses die wij uitvoerden kunnen we het UA-instrument niet als valide beschouwen.
We pleiten voor een alternatief evaluatie-instrument in de vorm een op Likertschalen gebaseerd instrument.
In wat volgt presenteren we de wijze waarop een dergelijk instrument kan worden gebruikt bij de evaluatie van een opleidingsonderdeel en illustreren we hoe de resultaten die dit instrument oplevert kunnen worden verwerkt en geïnterpreteerd. 3 Een Likert-schaal als betrouwbaar en valide alternatief 3.1
Inleiding
Het evaluatie-instrument zoals dit werd ontwikkeld door de UA bestaat uit drie delen: een deel met vragen naar identificatiegegevens, een gesloten vraaggedeelte en een open vraaggedeelte. Het moge duidelijk zijn dat deze studie uitsluitend betrekking had op het gesloten vraaggedeelte. De open vragen die zullen dienen als aanvulling bij de gegevens die kwantitatief (a.d.h.v. de gesloten vragen) worden verzameld, zijn goed geformuleerde en zinvolle vragen. We pleiten er dan ook voor om in het UA-instrument enkel een wijziging door te voeren in het gesloten vraaggedeelte, met name het vervangen van de daarin opgenomen vragen door Likert-schalen die bewezen hebben onderwijsprestaties van docenten valide te meten. Als gevolg van deze operatie bekomt men een sterk evaluatieinstrument, dat wetenschappelijk onderbouwd is. In deze paragraaf beschrijven we hoe de Likert-schalen uit deze studie gebruikt en geïnterpreteerd zouden kunnen worden in een evaluatie van opleidingsonderdelen. 3.2
Werkwijze
De 31 items uit ons testinstrument meten het onderwijs dat in een bepaald opleidingsonderdeel wordt georganiseerd op in totaal 10 Likert-schalen. Elke schaal wordt gemeten aan de hand van 3 items (enkel de schaal m.b.t. het studiemateriaal bestaat uit 4 items) die samen instaan voor de score die het opleidingsonderdeel op deze schaal haalt. 98
Een docent zal bijgevolg voor elke schaal een score krijgen (dus in totaal 10 scores). Deze schaalscore is de optelsom van de gemiddelde scores op elk afzonderlijk item uit een schaal. Dit is mogelijk omdat met gevalideerde schalen wordt gewerkt en aan elk item hetzelfde gewicht wordt toegekend. Om een duidelijk overzicht te verkrijgen op de resultaten en deze met elkaar te vergelijken is het zelfs toegestaan om de score op een schaal om te zetten naar een genormeerde schaal (b.v. van 0 tot 10).
Tabel 19: Overzicht schaalscores Genormeerd gemiddelde
Schaal
N
Gemiddelde
1. Duidelijk zijn van de doelstellingen
44
13,05
6,70
2. Relevantie van leerinhouden
44
11,25
5,50
3. Opbouw van de inhoud
44
12,73
6,48
4. Doceerstijl docent
44
12,23
6,15
5. Worden studenten door docent
44
7,30
2,87
17,75
6,88
gestimuleerd in hun leerproces? 6. Studiemateriaal: bijdrage tot het
44
begrijpen van de leerstof
(op 10)
7. Studeerbaarheid
44
13,95
7,30
8. Hulp van docent tijdens het leerproces
44
12,58
6,39
9. Authenticiteit summatieve evaluatie
44
12,95
6,63
10. Formatieve evaluatie
44
8,10
3,40
Op de volgende bladzijde vindt de lezer een overzicht van een mogelijke voorstelling van de resultaten voor de gesloten vragen van een onderwijsevaluatie met ons testinstrument. Het betreft hier de resultaten van een evaluatie van een opleidingsonderdeel dat werd bevraagd in de eerste testfase.
99
Evaluatie van Opleidingsonderdelen
VERSLAG OPLEIDINGSONDERDEEL: naam opleidingsonderdeel TITULARIS: naam titularis
A. Schaalscores Genormeerd gemiddelde
Schaal
N
Gemiddelde
1. Duidelijk zijn van de doelstellingen
44
13,05
6,70
2,77
0,81
2. Relevantie van leerinhouden
44
11,25
5,50
2,81
0,70
3. Opbouw van de inhoud
44
12,73
6,48
2,11
0,63
4. Doceerstijl docent
44
12,23
6,15
2,54
0,67
5. Worden studenten door docent gestimuleerd in
44
7,30
2,87
1,86
0,49
17,75
6,88
4,28
0,86
hun leerproces? 6. Studiemateriaal: bijdrage tot het begrijpen van
44
de leerstof
(op 10)
Std
Alpha
7. Studeerbaarheid
44
13,95
7,30
2,58
0,85
8. Hulp van docent tijdens het leerproces
44
12,58
6,39
2,29
0,69
9. Authenticiteit summatieve evaluatie
44
12,95
6,63
2,96
0,76
10. Formatieve evaluatie
44
8,10
3,40
3,42
0,82
B. Grafiek
Duidelijkheid 8 Form. evaluatie
6
Relevantie
4 Authenticiteit
2
Opbouw
0 Hulp docent
Doceerstijl
Studeerb.
Stimulatie Studiemat.
100
Op dit scoreblad staan de scores op elke schaal vermeld (m.i.v. van deze scores naar een schaal van 0 tot 10), alsook de standaardafwijking van de schaalscores en de Cronbach’s alpha die in deze bevraging op elke schaal wordt gehaald. Dit laatste verdient enige duiding. Het is inderdaad zo dat de 10 schalen die uit deze valideringsstudie werden overgehouden betrouwbare en gevalideerde schalen zijn. Toch kan het voorkomen dat er binnen een bepaalde studentenpopulatie discussie is met betrekking tot een bepaalde vraag (d.w.z. dat er geen eensgezindheid bestaat bij de studenten wat betreft het antwoord op deze vraag). Het gevolg daarvan is dat de score voor dit item niet zal aansluiten bij de scores van de andere items uit de schaal. Door telkens opnieuw voor elke schaal de alphawaarde te berekenen, kunnen we dit achterhalen. Als alpha op een bepaalde schaal laag is, betekent dit dus dat we voorzichtig moeten zijn met de interpretatie van de score op deze schaal. In het voorbeeld zien we dat 4 op de 10 schalen bij deze bevraging de ondergrens van .70 niet halen. Vooral de interpretatie van de score op de schaal “Worden de studenten door de docent gestimuleerd in hun leerproces?” (alpha = .49) verdient hier de nodige aandacht. Ook de lagere alpha-waarde van de schaal “Opbouw van de leerinhoud” springt in het oog. 3.3
Interpretatie
Als we het scoreblad bekijken, stellen we vast dat het betreffende opleidingsonderdeel op acht van de tien schalen een vrij goede score behaalt, en dat enkel de scores op de schalen “Worden de studenten door de docent gestimuleerd in hun leerproces?” en “Formatieve evaluatie” aan de lage kant liggen. Dit kan voor de docent in kwestie een aanwijzing zijn om in het vervolg rond die thema’s iets te ondernemen indien hij/zij zijn/haar onderwijs in dit opleidingsonderdeel wenst te verbeteren. Hij/zij kan er tevens van uitgaan dat heel wat opmerkingen en suggesties van de studenten in het open vraaggedeelte betrekking zullen hebben op de lagere scores op deze twee schalen. Een suggestie hierbij zou kunnen zijn om een formatief evaluatiemoment te organiseren in de loop van het opleidingsonderdeel. We kunnen verwachten dat dit bij een volgende bevraging de scores op beide schalen aanzienlijk zouden doen toenemen.
101
Bibliografie
Billiet, J.B. (1992). Methoden van sociaal-wetenschappelijk onderzoek: ontwerp en
dataverzameling. Leuven: Acco. De Block, A. & Heene, J. (1992). Inleiding tot de algemene didactiek. Antwerpen: Standaard Educatieve Uitgeverij. De Block, A. & Heene, J. (1993). De school en haar doelstellingen. Antwerpen: Standaard Educatieve Uitgeverij. De Corte, E. (1973). Didactische evaluatie van het onderwijs. Studia Paedagogica, 1. Leuven: Universitaire Pers. Dochy, F. & Janssens, S. (2003). Evaluatie en assessment. In: N. Verloop & J. Lowyck (red.).
Onderwijskunde. Een kennisbasis voor professionals. Groningen: Wolters-Noordhoff. Gijselaers,
W.
(1988).
Kwaliteit
van
het
onderwijs
gemeten.
Studies
naar
de
betrouwbaarheid, validiteit en bruikbaarheid van studentoordelen. Maastricht: Dissertatie Rijksuniversiteit Limburg. Heene, J., Saveyn, J. & Bonamie, J. (1990). Van bord tot computer. Gent: De Clerck.
Janssens, S., Verschaffel, L., De Corte, E., Elen, J., Lowyck, J., Struyf, E., Van Damme, J. & Vandenberghe, R. (2000). Didactiek in beweging. Deurne: Wolters Plantyn. Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159-174. Lowyck, J. (1995). Didactische werkvormen en media. In: J. Lowyck & N. Verloop (Red.).
Onderwijskunde. Een kennisbasis voor professionals. Leuven: Wolters. Lowyck, J. & Terwel, J. (2003). Ontwerpen van leeromgevingen. In: N. Verloop & J. Lowyck (red.). Onderwijskunde. Een kennisbasis voor professionals. Groningen: Wolters-Noordhoff. Masui, C., Borremans, A., Van Damme, J. & Vandenberghe, R. (1986). Studiebegeleiding in
het hoger onderwijs. Leuven: Acco. Peters, P. (1997). Beoordeling van kwaliteit en studeerbaarheid van opleidingen. Een
onderzoek bij negen opleidingen fysiotherapie. Nijmegen: University Press. Slotboom, A. (1996). Statistiek in woorden. Groningen: Wolters-Noordhoff. Struyf, E. (2000). Evalueren: een leerkans voor leraren en leerlingen. Over de
evaluatiepraktijk in de klas en het evaluatiebeleid op school. Studia Paedagogica, 26. Leuven: Universitaire Pers. Swanborn, P.G. (1982). Schaaltechnieken: theorie en praktijk van acht eenvoudige
procedures. Meppel: Boom. Van de Kamp, I., Collis, B. & Moonen, J. (1997). Het World Wide Web in het onderwijs. De
meerwaarde voor de studenten centraal. Landelijke Dag Studievaardigheden ’97. (http://www.ou.nl/open/lds97/wwwonderwijs.htm). Verloop, N. & Van der Schoot, F. (1995). Didactische evaluatie. In: J. Lowyck & N. Verloop (Red.). Onderwijskunde. Een kennisbasis voor professionals. Leuven: Wolters.
104
Gebruikte vragenlijsten Universiteit Leiden. Afdeling Onderwijs en Wetenschapsbeleid. Evaluatieprotocol: gids voor keuze en toepassing van een adequate methode voor vak- en programma-evaluatie. Faculteit der Letteren (april 2003) Katholieke Universiteit Leuven. Algemene Onderwijsevaluatie 2001-2002. Handleiding voor de onderwijsevaluatiecommissies. Katholieke Universiteit Leuven. Faculteit der Geneeskunde. Docentevaluaties 1993-1995. Iris Hogeschool Brussel. Vragenlijst docentenevaluatie. University of Wollongong (Australia). Teacher evaluation student questionnaire. Flinders University (Australia). Student evaluation of teaching. Universiteit Gent. Vragenlijst docentenevaluatie door de studenten.
105