Graphical modelling voor Mediastudies Data De analyse Alle analyses zijn gedaan met MIM, een analyseprogramma ontworpen voor graphical modelling (Versie 3.2.07, Edwards,1990,1995). Modellen zijn verkregen aan de hand van loglinear modelling. Hierbij wordt een optimaal model gezocht vanuit een bepaald startpunt, in dit geval een model waarin alle variabelen onafhankelijk zijn van elkaar. Vervolgens wordt stap voor stap getest of er een significante interactie (samenhang, gekozen alpha = 0.05) tussen twee variabelen is die toegevoegd kan worden (Forward methode). Als er meerdere interacties zijn waarmee het model significant beter past, wordt alleen de interactie die de passing van het model het meest verbetert toegevoegd. Met dit nieuwe model wordt de analyse dan voortgezet. Dit proces gaat door tot een model gevonden is waar geen nieuwe significante interacties meer aan toegevoegd kunnen worden. Het eindmodel wordt vervolgens vertolkt in een graaf, een inzichtelijker representatie van het interactiemodel (zie Figuur 1).
Figuur 1. Voorbeeld van een graaf. Graaf van het eindmodel van de acht verschillende stata. Een graaf bestaat uit knopen (nodes) en lijnen tussen de knopen (edges). Een knoop representeert een variabele; in dit geval staat knoop a bijvoorbeeld voor variabele 'Intake Systeemstatus'. Een lijn tussen de twee variabelen representeert een directe samenhang of interactie tussen twee variabelen. Uit figuur 1 blijkt dus dat een een samenhang is gevonden tussen Intake Systeemstatus en Intake Definitieve Status. Als twee variabelen alleen indirect samenhangen (via een derde variabele), dan zijn de twee variabelen onafhankelijk van elkaar gegeven de derde variabele. Er is bijvoorbeeld een indirecte samenhang tussen Intake Definitieve Status en Systeemstatus op 31 januari. Intake Definitieve is onafhankelijk van Status en Systeemstatus op 31 januari gegeven Intake Systeemstatus. Met andere woorden, bij het voorspellen van Systeemstatus op 30 januari voegt kennis van Intake Definitieve Status niets meer toe wanneer Intake Systeemstatus al bekend is. Op deze manier kan dus op een relatief eenvoudige manier onderzocht worden welke variabelen nodig en welke variabelen overbodig zijn voor een bepaalde voorspelling. Een voordeel van deze methode is dat naast dat de relatie van de onafhankelijke variabelen met de afhankelijke variabelen wordt onderzocht, er tegelijkertijd ook rekening wordt gehouden met de relaties van de onafhankelijke variabelen en afhankelijke variabelen onderling. Echter, wanneer er meerdere onafhankelijke variabelen gevonden worden die een afhankelijke variabele kunnen voorspellen, is
het niet direct duidelijk welke het 'beste' voorspelt. Dit kan eventueel benaderd worden door te onderzoeken welke interactie het belangrijkst is voor de passing van het model (welke interactie het minst goed gemist kan worden), maar vereist additionele analyses voor een stabieler, generaliseerbaar antwoord.
Resultaten De hoofdanalyses zijn uitgevoerd met de data uit het collegejaar 2007/2008. De resultaten van deze analyses zijn vervolgens gekruisvalideerd met de data uit het collegejaar 2008/2009. Bij beide datasets zijn gegevens van studenten die geen inschrijving hadden bij de UvA in het begin van het collegejaar niet opgenomen in de analyses. De analyses met de data van het jaar 2007/2008 zijn gebaseerd op de gegevens van 269 studenten. De analyses met de data van het jaar 2008/2009 zijn gebaseerd op de gegevens van 318 studenten. De analyses zijn gedaan op basis van het onderzoeksvoorstel: •
•
Onderzoek naar de relatie tussen onafhankelijke variabelen in intake (studentkenmerken, systeemstatus en definitieve status en afhankelijke variabelen (participatie en prestatie in 1e en 2e semester en uitstroom) Onderzoek naar de relatie tussen onafhankelijke variabelen in studieloopbaanbegeleiding (advies propedeusecoördinator 15 januari 2009) en afhankelijke variabelen (participatie en prestatie in 2e semester en uitstroom ).
Onderzoek naar de relatie van de intakestataen studentkenmerken met studieprestatie en studieparticipatie Met loglinear graphical modelling is de relatie van Intake Systeemstatus, Intakestatus Definitief en de studentkenmerken met het gewogen gemiddelde eindcijfer, het totaal behaalde EC, het totaal behaalde CP en de eindstatus onderzocht. Deze relaties zijn in twee stappen onderzocht aangezien MIM niet alle variabelen tegelijkertijd aankon. Eerst zijn naast de Intakestatussen en de student participatie en prestatie variabelen alleen studentkenmerken met een goede verdeling van observaties over de categorieën opgenomen in de analyse. Vervolgens is een analyse gedaan met alle studentkenmerken, de intakestata en Eindstatus.
Figuur 2. Model r,jx,hs,hj,an,ah,ab,FGIx. Deviance full model (245398) = 1105.75, p ~ 1.
Het eindmodel dat de relaties tussen de intakestata, studentkenmerken en afhankelijke variabelen beschrijft is het model r,jx,hs,hj,an,ah,ab,FGIx (figuur 2), Uit het model blijkt dat de variabelen met betrekking to studieprestatie en studieparticipatie onafhankelijk zijn van de intakestata en studentkenmerken, gegeven het gemiddeld eindexamencijfer. Alleen het gemiddeld eindexamencijfer is nodig om de afhankelijke variabelen te voorspellen. Verder valt op dat de afhankelijke variabelen compleet met elkaar verbonden zijn. Dit kan erop duiden dat de variabelen allemaal representaties zijn van één eigenschap, bijvoorbeeld studiesucces. In die zin zijn de afhankelijke variabelen voor elkaar inwisselbaar. Daarom is in de volgende analyse maar één van de afhankelijke variabelen opgenomen; zo konden tevens alle studentkenmerken opgenomen worden in het model (MIM kan maar een beperkt aantal dimensies aan).
Figuur 3. Model ps,pq,mn,i,hj,bmp,al,ahk,abop,jI. Deviance full model (1200) = 1128.75, p ~ 1. Het eindmodel dat de relaties tussen de intakestata, alle studentkenmerken en Eindstatus beschrijft is het model ps,pq,mn,i,hj,bmp,al,ahk,abop,jI (figuur3).Uit het model blijkt dat ook als alle studentkenmerken toegevoegd zijn het gemiddelde examencijfer de enige variabele is die nodig is om eindstatus te voorspellen. Alle voorspelkracht van de overige variabelen wordt als het ware opgevangen door het gemiddelde examencijfer.
Onderzoek naar de relatie van definitieve status 15 januari met studieprestatie en studieparticipatie in het tweede semester
Figuur 4. Model HIvw, Hidv. Deviance full model (1200) = 23.52, p ~ 1. De relatie van de definitieve status op 15 januari met het aantal in semester 2 behaalde EC, het aantal in semester 2 behaalde CP en de eindstatus wordt beschreven door het model HIvw, Hidv (Figuur 4). Hieruit blijkt dat de Definitieve status op 15 januari direct samenhangt met het aantal behaalde EC in semester 2 vóór herkansingen, het aantal CP gehaald in semester 2 en Eindstatus. Definitieve status op 15 januari is onafhankelijk van het aantal EC gehaald in semester twee ná herkansingen gegeven de overige drie afhankelijke variabelen. Dit kan deels verklaard worden door het feit dat studenten afhankelijk van het aantal CP een herkansing mogen doen of niet en het aantal EC gehaald ná herkansingen uiteraard sterk bepaald wordt door het aantal EC gehaald vóór de herkansingen. Deze variabelen zijn daardoor mogelijk betere, directere voorspellers van het aantal behaalde EC in het tweede semester ná de herkansingen. In ieder geval blijkt dat de definitieve status op 15 januari zowel studieparticipatie als studieprestatie kan voorspellen.
Cijfers uit het eerste semester als voorspellers Onderzocht is of de eindcijfers van de vakken Inleiding Geschiedenis, Oriëntatie Film en Oriëntatie Film de studie prestatie en participatie van een student kunnen voorspellen. Tevens is onderzocht of de cijfers voor deze vakken het gemiddelde eindexamencijfer of de definitieve status op 15 januari overbodig maken. Eerst is de relatie van de eindcijfers met Eindstatus en het gemiddelde eindexamencijfer gemodelleerd (figuur 5). Vervolgens de relatie van de eindcijfers met Eindstatus en de definitieve status op 15 januari (figuur 6).
Figuur 5. Model CDEI, DCj. Deviance full model (608) = 81.83, p ~ 1. Het gevonden eindmodel met de variabelen eindstatus, eindcijfer Inleiding Geschiedenis, eindcijfer Oriëntatie Film, eindcijfer Oriëntatie Televisie en gemiddeld eindexamencijfer is model CDEI, DCj. Eindstatus is onafhankelijk van het gemiddelde examencijfer gegeven de eindcijfers voor vakken in het eerste semester. Zodra cijfers van een vak uit het eerste semester bekend zijn kan daar de eindstatus het beste mee voorspeld worden.
Figuur 6. Model CDEIvw, CDEIdw, CDEHIw.
Deviance full model (107520) = 89.52, p ~ 1. Het gevonden eindmodel met de variabelen eindstatus, EC van semester 2 voor herkansingen, EC van semester 2 na herkansingen , behaalde CP in semester 2, eindcijfer Inleiding Geschiedenis, eindcijfer Oriëntatie Film, eindcijfer Oriëntatie Televisie en Definitieve status op 15 januari is model CDEIvw, CDEIdw, CDEHIw (Figuur 6). Alle onafhankelijke variabelen hangen samen met eindstatus. Echter, de eindcijfers voorspellen alle afhankelijke variabelen direct en definitieve status 31 januari alleen Eindstatus en het aantal EC in semester 2 na herkansingen. Het is echter niet zeker welk eindcijfer het beste voorspelt en of deze ook beter voorspellen dan definitieve status op 15 januari. Hier kan wel een indicatie van gegeven worden door interacties te verwijderen en met een likelihood ratio test te toetsen hoe ernstig dit de passing van het model verslechtert (alpha 0.05). Verwijdering van IC: D(52) = 73.49, P = 0.027 Verwijdering van ID: D(34 ) = 91.91, P < 0.00001 Verwijdering van IE: D(42) = 70.87, P = 0.0035 Verwijdering van Id: D(47) = 57.43 , P = 0.14 Hieruit blijkt dat het eindcijfer van Oriëntatie Film het belangrijkst is voor de passing van het model, en dus mogelijk de beste voorspeller is van eindstatus. Dit is echter alleen een indicatie van het belang van een voorspeller en wellicht niet goed generaliseerbaar. Wat opvalt is dat de definitieve status op 15 januari op basis van deze test mogelijk overbodig is voor het voorspellen van Eindstatus, gegeven de eindcijfers voor de vakken. Dit resultaat contrasteert met het gevonden model op basis van de iteratieve loglineaire modelpassingen. Dit contrasterende resultaat kan worden gevonden doordat de hoofdanalyses met een forward methode zijn onderzocht en het testen of een interactie verwijderd kan worden met een backwards methode wordt onderzocht. Dat het
resultaat van beide methoden verschilt duidt erop dat modellen of delen van modellen niet geheel stabiel zijn. Hierom is het essentieel dat deze resultaten (zeker voor uitgebreidere modellen) gekruisvalideerd worden. Kruisvalidatie met data uit het jaar 20082009. Doordat de modellen in deze analyses erg groot zijn (met veel dimensies/categorieën en dus vrijheidsgraden) passen vrijwel alle modellen van 2007/2008 op de data van 2008/2009. Alleen de modellen gevonden in de analyse van 2007/2008 passen op de data van 2008/2009 is voor een kruisvalidatie dus niet heel informatief. Daarom zijn naast deze passingsgegevens tevens de analyses gedaan in 2007/2008 óók gedaan voor de data van 2008/2009. Modelpassingen op data 2008/2009: Model r,bj,as,an,ak,ab,Fj,FGIx : Deviance full model (245398) = 1285.21, p ~ 1. Model pq,mn,i,hs,hj,bm,al,ahk,abop,Ij: Deviance full model (1200) = 52.78, p ~ 1. Model Hivw,HIdv : Deviance full model (1200) = 1400.12, p ~ 1. Model CDEI,Dj: Deviance full model (632) = 125.77, p ~ 1 Model CDEIvw, CDEIdw, CDEIHw: Deviance full model (1228650) = 109.69, p ~ 1.
Kruisvalidatie van de relatie van de intakestata en studentkenmerken met studieprestatie en studieparticipatie
Figuur 7. Model s,hr,hj,abn,abh,FIx,FGj,FGI. Deviance full model (1228620) = 1348.82, p ~ 1. Het gevonden model is s,hr,hj,abn,abh,FIx,FGj,FGI (Figuur 7). Hoewel het model niet gelijk is aan dat gevonden op basis van de data uit het jaar 2007/2008 blijft de interpretatie van het model wel gelijk; alleen het gemiddelde eindexamencijfer is nodig om studieprestatie en studieparticipatie te voorspellen.
Figuur 8. Model s,mn,i,hj,bq,bm,bl,ak,abop,abh,Ij. Het model dat de relaties tussen de intakestata, alle studentkenmerken en Eindstatus beschrijft is het model s,mn,i,hj,bq,bm,bl,ak,abop,abh,Ijs,mn,i,hj,bq,bm,bl,ak,abop,abh,Ij (Figuur 8). Uit dit model blijkt tevens dat alleen het eindexamencijfer nodig is om de eindstatus van een student te voorspellen. De intakestata en overige studentkenmerken zijn onafhankelijk van Eindstatus gegeven het gemiddelde eindexamencijfer. Dit komt overeen met de resultaten van het jaar 2007/2008.
Onderzoek naar de relatie van definitieve status 15 januari met studieprestatie en studieparticipatie in het tweede semester
Figuur 9. Model Hvw, HIdw. Deviance full model (1392) = 71.16, p ~ 1. De relatie van de definitieve status op 15 januari met het aantal in semester 2 behaalde EC, het aantal in semester 2 behaalde CP en de eindstatus wordt beschreven door het model Hvw, Hidw (Figuur 9). Hieruit blijkt dat de Definitieve status op 15 januari direct samenhangt met het aantal behaalde EC in semester 2 vòòr herkansingen, het aantal CP gehaald in semester 2 en Eindstatus. Definiteve status op 15 januari is onafhankelijk van het aantal EC gehaald in semester twee ná herkansingen gegeven de overige drie afhankelijke variabelen. Dit komt overeen met de resultaten van het jaar 2007/2008.
Cijfers uit het eerste semester als voorspellers
Figuur 10 Model CDEI,Dj. Deviance full model (632) = 125.78, p ~ 1. Het gevonden eindmodel met de variabelen eindstatus, eindcijfer Inleiding Geschiedenis, eindcijfer Oriëntatie Film, eindcijfer Oriëntatie Televisie en gemiddeld eindexamencijfer is CDEI,Dj (Figuur 10). Eindstatus is onafhankelijk van het gemiddelde examencijfer gegeven de eindcijfers voor vakken in het eerste semester. Dit resultaat komt overeen met dat van de data uit het jaar 2007/2008.
Figuur 11 Model Chvw,CIdw,CHIw,CDEId. Deviance full model (120168) = 296.86, p ~ 1. Het gevonden eindmodel met de variabelen eindstatus, EC van semester 2 voor herkansingen, EC van semester 2 na herkansingen , behaalde CP in semester 2, eindcijfer Inleiding Geschiedenis, eindcijfer Oriëntatie Film, eindcijfer Oriëntatie Televisie en Definitieve status op 15 januari is Chvw,CIdw,CHIw,CDEId (Figuur 11). Alle onafhankelijke variabelen hangen samen met Eindstatus. Echter, alleen het eindcijfer van Inleiding Geschiedenis voorspelt alle afhankelijke variabelen direct. Dit verschilt van de resultaten uit het jaar 2007/2008, waar alle eindcijfers alle afhankelijke variabelen voorspelden. De vraag is of het eindcijfer van Oriëntatie film wel het belangrijkst is voor de passing van het model, zoals in jaar 2007/2008. Verwijdering van IC: D(43) = 89.79, P < 0.00001 Verwijdering van ID: D(50) = 93.86, P < 0.0001 Verwijdering van IE: D(62) = 145.77, P < 0.00001 Verwijdering van Id: D(70) = 126.57 , P < 0.00001 Alle onafhankelijke variabelen zijn ongeveer even belangrijk voor het model. Conclusies Uit de resultaten blijkt dat wanneer er nog geen informatie beschikbaar is over studenten in het collegejaar zelf, het studentkenmerk 'gemiddelde examencijfer' het beste studieprestatie en studieparticipatie voorspelt. De overige studentkenmerken, intake systeemstatus en de definitieve intake status zijn niet nodig. Echter, wanneer er informatie beschikbaar is over de cijfers van één van de inleidende vakken (Inleiding Geschiedenis, Oriëntatie Film of Oriëntatie Televisie) is dit een betere voorspeller van studieprestatie en studieparticipatie dan het gemiddelde examencijfer. Tevens blijkt dat de definitieve status toegekend door de propedeusecoördinator op 15 januari studieprestatie en participatie in het tweede semester kan voorspellen. De eindcijfers voor de inleidende vakken zijn echter naast de status op 15 januari ook voorspellers van studieparticipatie en prestatie in het tweede semester. Zowel de cijfers als de definitieve status op 15 januari voegen iets unieks toe aan de voorspelling van de afhankelijke variabelen. Deze resultaten blijken zowel uit de analyses met de data uit het collegejaar 2007/2008 als kruisvalidatie analyses met data uit het collegejaar 2008/2009. Dit is een indicatie dat de resultaten gevonden met deze analyses redelijk generaliseerbaar of stabiel zijn. In de praktijk zou dit kunnen betekenen dat lang niet alle studentkenmerken afgenomen hoeven worden voor de start van het collegejaar. Het gemiddelde examencijfer is voldoende. Op basis van dit cijfer kunnen studenten die in een gevarenzone zitten worden gesignaleerd (mogelijk de studenten in de laagste categorie eindexamencijfers, 6 tot 6.5). Dit zijn echter mogelijk erg veel studenten om op gesprek te vragen (+- 60 studenten per jaar). In plaats daarvan zouden mensen op basis van hun eerste tentamencijfer uitgenodigd kunnen worden op gesprek; dit cijfer voorspelt beter de uiteindelijke studieprestatie en participatie van de student dan diens gemiddelde eindexamencijfer. De prestaties en participatie van de studenten in het tweede semester kunnen voorspelt worden aan de hand van de eindcijfers van Inleiding Geschiedenis, Oriëntatie Film en Oriëntatie Televisie en aan de hand van de definitieve status van de student op 15 januari toegekend door de propedeusecoördinator.
Bijlage: Aanpassingen aan de data Continue Variabelen Alle continue variabelen (Gemiddelden, EC, CP) zijn omgescoord naar ordinale variabelen. Deze variabelen waren extreem niet normaal verdeeld en zouden zonder aanpassing mogelijk onbetrouwbare resultaten op kunnen leveren. Het indelen van de continue data in categorieën gaat echter gepaard met verlies van informatie. Er is getracht dit verlies van informatie zo veel mogelijk te beperken. EC De behaalde EC in elk semester konden vrij eenvoudig omgescoord worden, omdat de meeste studenten telkens nul, tien, twintig of dertig EC behaalden. Deze variabelen waren dus al vrijwel ordinaal verdeeld in vier categorieën. EC in semester 1 en 2 zijn als volgt omgescoord: 0-9 EC → 1 10-19 EC → 2 20-29 EC → 3 30 EC → 4 De in het jaar totaal behaalde EC is als volgt omgescoord: 0-14 EC → 1 15-29 EC → 2 30 – 44 EC → 3 45 – 60 EC → 4 CP zijn als volgt omgescoord: 0 – 24% → 1 25% – 49% → 2 50% – 74% → 3 75% – 100% → 4 De cijfers voor de vakken Inleiding Geschiedenis, Oriëntatie Film en Oriëntatie Televisie zijn als volgt omgescoord: 1-2,44→ 1 2,45 – 4,99 -->2 5- 7,44 → 3 7,45 – 10 → 4 Het gemiddelde cijfer is anders omgescoord dan de cijfers van de vakken omdat anders sommige categorieën te weinig waarnemingen bevatten. In plaats daarvan is gekozen voor een scoring zodat een optimale (maar nog steeds zinnige ) verdeling ontstaat van de waarnemingen over de categorieën. De categorieën representeren nu respectievelijk zware onvoldoendes, onvoldoendes, voldoendes en ruim voldoendes. 1-3,99 → 1 4 – 5,44 → 2 5,45 – 6,44 → 3 6,45 – 8,5 → 4
Nominale Data. Variabele Eindstatus is aangepast omdat deze te veel categorieën had. Deze is omgescoord van acht naar vijf categorieën. Dit is als volgt gebeurd: Gestopt studeren aan de UvA →1 Gestopt met mediastudies, andere opleiding begonnen bij de UvA → 1 Recidivist zeer onvoldoende + weinig actief →2 Recidivist zeer onvoldoende →2 Recidivist regulier →3 Naar het tweede jaar, geen propedeuse →4 Propedeuse behaald →4 Propedeuse + Bovengemiddeld →5 Variabele vlag 'Vooropleiding' is tevens omgescoord van acht categorieën naar vijf. Categorie 5, 6, 7 en 8 bevatten te weinig of geen observaties. Dit waren de categorieën 'Anders', 'Colloquium doctum' 'en Diploma Afgeronde Universitaire opleiding'. Categorie 7 bevatte geen observaties. Deze vier categorieën zijn samengenomen tot één categorie.