Tilburg University
Toewijzing m.b.v. een lineaire discriminantfunctie Plaisier, A.
Publication date: 1980 Link to publication
Citation for published version (APA): Plaisier, A. (1980). Toewijzing m.b.v. een lineaire discriminantfunctie: Een toepassing. (Ter discussie FEW; Vol. 80.100). Unknown Publisher.
General rights Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research • You may not further distribute the material or use it for any profit-making activity or commercial gain • You may freely distribute the URL identifying the publication in the public portal Take down policy If you believe that this document breaches copyright, please contact us providing details, and we will remove access to the work immediately and investigate your claim.
Download date: 09. feb. 2016
CBM R
i!~~ii i i ugiiqinqii i~~~ip~ subfaculteit der econometrie
REEKS "TER DISCUSSIE"
~ T1(í`S~?F.it-Ti-NdUREAU B~stemmin g ~ E;'~~I~~. ~ ~ :~~1~-~~,~~ . ~, ~...~ Y~'~T'Ii`-:-I:' :~ HOGI:SC:-i~~OL T:LBUKG
~~ d~ool Tix~r9
Nr.
KATHOLIEf~ HOGESCHOOL TILBURG REEKS "TER DISCUSSIE"
No . 80 .100
~anuari ~ 980
1'OEWIJZING M.B.V. EEN LINEAIRE DISCRIMINANTFUNCTIE; EEN TOEPASSING
A. Plaisier
t~ SPf .'~~`iT a~. Y'E ~i f( ~.`~
FACULTEIT DER ECONOMISCHE WETENSCHAPPEN SUBFACULTEIT ECONOMETRIE
Inhoud
1.
blz.
Inleiding
1
2. De gegevens
1
3. De toegepaste analyse methode
4
3.1
Het toewijzingscriterium
4
3.2
Toetsen
7
3.3
Foutenkansen
8
4. De resultaten
9
4.1
Een eerste overzicht
9
4.2
Indelingsresultaten m.b.v. de gegevensblokken ~1~, ~2~ en ~3~
15
en cámbinaties daarvan
4.3
Resultaten van de toetsingen
4.4
Een nadere analyse van de indeling m.b.v.
18 de gegevensblokken
20
~2~ . en ~3~ .
5. Conclusies
24
Literatuur
25
Appendix 1. Histogrammen van de frequentieverdelingen per variabele
26
per groep
Appendix 2. De samenhang van formule (3.12) met andere in de literatuur gebruikelijke formules.
30
1
1. Inleiding
In het onderhavige onderzoek wordt nagegaan of inen met bepaalde per student beschikbare gegevens deze student "goed" kan toewijzen aan één van twee groepen; de groep die zal slagen of de groep die zal zakken voor de propedeuse. Te verwachten valt dat naarmate, in de loop der tijd, meer gegevens beschikbaar komen deze toewijzing beter zal geschieden; dit wordt nagegaan. Ook rees in een eerder onderzoek, zie [3], het vermoeden dat de op een later tijdstip beschikbare gegevens
(bijv.cijfers van de 1e semester tentamens) de
"informatie" van de eerder beschikbare gegevens (bijv. vooropleiding) in zich opgenomen hebben. In extremo is dit vermoeden natuurlijk juist, gegeven alle tentamen- en herkansingauitslagen slaagt een student al of niet volgens het examenreglement en vroegere gegevens doen er dan niet meer toe. Nagegaan wordt of ook in de loop van een cursusjaar al "informatie overdracht" plaatsvindt. Een aanverwant probleem is de vraag of, gegeven een bepaalde set gegevens, de toewijzing met behulp van een deelverzameling van deze gegevens niet nagenoeg even "goed" is; op deze wijze valt dan te bepalen welke vakken voornamelijk het al of niet slagen bepalen. De toegepaste methode is de toewijzing m.b.v. een lineaire discriminantfunctie. Ook wordt gewerkt met OLS, waarbij de Y-variabele een nul-éér~ variabele is,omdat dit numeriek op hetzelfde neerkomt als de
berekening van
een lineaire discriminantfunctie.
2. De gegevens
Het basisma.teriaal bestast uit gegevens van alle (306) economiestudenten die zich, blijkens de registratie van de studentenadministratie, in het studiejaar 1975I1976 voorbereidden op het propedeutisch examen in de economische wetenschappen. Per student waren gegevens van de volgende variabelen aanwezig: - geslacht
~
- geboortedatum - aanvangsjaar - al of niet full-time werkkring - vooropleiding - cijfers VWO-vakken: wiskunde, wiskunde 1, wiskunde 2, economie, economie 1, economie 2, boekhouden en handelsrekenen
2
- voor elk van de propedeuse vakken economie, wiskunde, statistiek en wijsbegeerte: cijfer december, januari, mei, juni, eindcijfer juli, cijfer augustus
1, augustus 2 en eindcijfer augustus
- voor het propedeuse vak boekhouden~handelsrekenen (BO~HA}: cijfer BO mei, BO juni, HA mei, HA juni, eindcijfer juli, BO augustus, HA augustus, eindcijfer augustus. - examenbeoordeling juli - examenbeoordeling augustus Aangezien het de bedoeling van deze studie is om na te gaan hoe men via een discriminantanalyse op de gegevens een student in kan delen in gezakt of geslaagd,
zijn de gegevena omtrent examenbeoordeling juli en
examenbeoordeling auguatus omgewerkt tot een variabele Y, waarbij
Y - 0 - gezakt Y L 1- geslaagd (al of niet met genoegen)
De resterende gegevens worden ook omgezet in een numerieke vorm, waarbij er tevens op wordt gelet op welk tijdstip deze gegevens beschikbaar zijn, er ontstaan dan de volgende variabelen:
groep ~1~, dé bij aankomst bekende variabelen
v1 - geslacht (v1 - 1 als "man" en v1 - 2 als "vrouw~')
v~ - leeftijd op 1 juli (v2
1975
:- entier van (750701 - geboortedatum)~10.000)
v3 - aanvangsjaar (75, 7~, 73 etc.) v~ - werkkring ("full-time" - 1, "niet f1i11-time" - 0)
v5 - vooropleiding:
"rest" HEAO HBS A Gym a Gym A Ath . A A~:h. B Gym B Jym ~ xBS B
- -3 - -2 - -1 - 0 1 - 2 - 3 - ~ - 5 - 6
3
v6 - VWO-wiskundecijfer, d.w.z. v6 - max (wisk., wisk.
1, wisk.2)
v7 - VWO-economiecijfer, d.w.z. v7 - max ( econ., econ.l, econ.2)
groep ~2~, gegevens die na de eerste semestertentamens bekend zijn.
v9 - cijfer economie dec~jan
v10 - cijfer wiskunde dec~jan
v11 - cijfer statistiek dec~jan
v13 - cijfer wijsbegeerte dec~jan
Bij al deze variabelen geldt dat een vrijstelling omgecodeerd is tot het cijfer 6 en dat er rekening mee is gehouden dat bij het opnieuw afleggen van een tentamen het meest recent behaalde cijfer geldt (Zie Studiegids 1975~1976 artikel 4F op bl~. 39)
groep ~3~, gegevens die na de tweede semestertentamens bekend zijn.
v12 - cijfer boekhouden mei~juni
vi4 - cijfer economie mei~juni
v15 - cijfer wiskunde mei~juni
vi6 - cijfer statistiek mei~juni
v17 - cijfer handelsr. mei~juni
vi8 - cijfer wijsbegeerte mei~juni Ook hier geldt: een vrijstelling levert een 6. Een extra complicatie levert hier het feit dat in 197~~75 behaalde voldoende resultaten voor wiskunde A en~of boekhouden~handelsrekenen een onbeperkte geldigheidsduur hadden ( Zie studiegids 1974~75 artikel 4G blz.3~), dit feit komt in de gegevens 1975~76 als vrijstelling naar voren en levert dus ook een 6 voor het vak c.q. deelvak.
4
Studenten bij wie een gegeven m.b.t. de bovengenoemde variabelen ontbrak zijn uit de analyse weggelaten. Er resteren 145 studenten met volledige gegevens.
3. De toegepaste analyse methode .
Het toewijzingscriterium
3.1 ----------------------------
Op grond van een aantal waargenomen variabelen, gerangschikt in de vector x, zal getracht worden een student toe te wijzen aan groep 0(gezakt) of groep 1( geslaagd). Nemen we aan dat x p-variabelen bevat: x-(x1,x2,...,x~)'. De constructie van een toewijzingsflznctie (discriminant functie) verloopt nu als volgt: In groep 0 heef`t x een dichtheidsf'unctie f0(x) en analoog in groep 1 een dichtheidsfunctie f1(x). Noem de a priori kansen dat een student tot groep 0 resp. groep 1 behoort x~ en n1. Na waarneming van x is de a posteriori kans dat een student tot groep 0 behoort:
(3.1)
P(x~Y?0).P(Y-0) P(Y - O~x) P(xIY-O).P(Y-0) f P(x~Y-1).P(Y-1)
e
f0(x).n~ f~(x)n~ t f1(x).n1
en de a posteriori kans dat een student tot groep 1 behoort is: f1(x).n1 (3.2)
P(Y-1~x) -
f~(x).n~ t f1(x).a1
Als we nu toewijzen aan groep 0 indien a posteriori de kans om tot groep 0 te behoren groter is dan de kans om tot groep 1 te behoren, dan wordt het toewijzingscriterium: naar groep 0 als: f~(x).n~
(3.3) f~(x)n~ t f1(x)n1
ofwel
(3.4}
f1(x).n1 ~
fS(x) f1 x
~1 ' n~
f~(x)R~ f f1(x)R1
5
Indien nu zowel in groep 0 als in groep 1 de vector x een multivariate normale verdeling volgt met dezelfde covariantie matrix E, echter met verschillende vectoren van gemiddelden, zeg u~ en u~, dan wordt het toewijzingacriterium Naar groep 0 als:
e-~(x-uo)'E-~(x-uo) f ~(x-u~)'E-r(x-ui) ~ rz~ o ofwel
-~(x-uo)'E-~(X-ua) f ~(x-ui)'E-~(x-ui) ~ ln(n~) o of~,~el
(3.5)
x'E-~(u~-u~) - ~(uotu~)'E-i(uo-ui) ~ ln(rz~) o
De onbekende u0, u~ en E worden geschat met u~ ' x0' u1 - x1 N (xiD)-x~)(xi0)-xo)' ~ ~ (xi~)-x~)(xi~)-x~)'} S - N 0 fN -2 { 0 1 i-0 i-~ In woorden: voor u~ nemen we de vector van gemiddelden in groep 0; voor
u1 de vector van gemiddelden in groep 1 en voor S een pooling van de binnengroepscovariantie matrices. (N -1)S t (N -1)S 0 0 1 1)
(nl. S-
N~tN~-2 Het toewijzingscriterium wordt nu: naar groep 0 als: n x'S-~(x~-x~) - ~(xStx~)'S-~(xS-x~) ~ ln(R~) 0
(3.6)
Nu valt te bewijzen dat bij schatting van sS, s~,..., Bp via gewone kleinste kwadraten uit het model
Y- S~ f S~x~ f... f g x t e P P (N.B. dus een model met constante) geldt dat s-(S~,
ie) zie [ 3]
,.,
Appendix 3.
, gk)' proportioneel is met S-~(x0-x~); S- f.S-~(xS-x~) t)
6
Het toewijzingscriterium zou dus ook kunnen luiden: naar groep 0 als:
(3.?)
~ rz x'S - ~(x~tx~)'S ~ fln(n~) 0
(Als de proportionaliteitsfactor f negatief zou uitvallen verandert het groter-dan teken in een kleiner-dan teken) n Aannemend dat rz~ - a~, dus fln(n~) - 0, kan men het toewijzingscriterium op eeninteressante wijze als voïgt formuleren: Naar groep 0 als:
x'
Q
~
~(xOfx.~)'Q
of
x' s t Bo ~~(x~6 f s~ f x~6 f s~) of (3.8)
Y ~ ~( YX 0
t YX ) 1
Voor de indeling in groep 0 of 1 kan men dus ook de voor een student, op grond van zijn variabelen vector x, resulterer.de Y vergelijken met het gemiddelde van Y- en Y- , wsarbij Y- en Y- staan voor de waarden van Y die resulteren x~ x~ x~ x~ uit invulling van de gemiddelde variabelen waarden uit groep 0 resp. groep 1. Of nog anders gezegd, men kan ook toewijzen op grond van Y ~ ~ Y(~XO}~X1)
d.w.z. toewijzen op grond van het feit of een student met zijn gegevensvector x een Y heeft díe groter of kleiner is dan de Y behorend bij het "overall" gemiddelde ~x~f~x~ on~ewogen gemiddelde ~x f'-x ). 0 z 1
( N.B. dit is dan de Y behorend bij een
7
3.2 Toetsen
Zoals reeds vermeld gaan we ervan uit dat de gegevens van een student, samengevat in de vaxiabelen vector x, in z~wel groep 0(gezakt) als in groep 1(geslaagd) normaal verdeeld zijn met gemiddelden vector u0 resp' echter in beide groepen met dezelfde variantie-covariantie matrix E.
u1'
Een eerste toets zal bestaan uit toetsing van de hypothese H0: u0 - u1, tegen HA: u0 ~ u1 3.2.1
De via OLS resulterende F-ratio:
(3.9)
2 F- R ~p2 (1-R )~(N-p-1)
blijkt numeriek gelijk te zijn aan:
(3.10)
F- N--p.n d'C-1d
waarbij: C-( N-2)S NON1 n -
d-X1 -XO
zodat de via (3.10) uitgevoerde toets op de hypothese H0: u~ - u1, ook uitgevoerd kan worden door de F uit (3.9) te toetsen.
3.2.2
Een tweede toets zal samenhangen met de tijd waarop bepaalde gegevens beschikbaar zijn, we onderscheiden de gegevensblokken ~1~ (bij aankomst reeds bekend), ~2~ (na het eerste semester bekend) en ~3~ (na het tweede semester bekend). Het is nu interessant om na te gaan of de in de loop der tijd additioneel beschikbaar komende gegevens een "significante bijdrage" leveren. Precieser geformuleerd: laat bijvoorbeeld gegevensblok ~1~ p variabelen bevatten en gegevensblok ~2~ q variabelen. Men zou dan willen weten of een discriminantfunctie gebaseerd op pfq variabelen, dus op de na het 1e semester bekende gegevensblokken ~1~ f ~2~, superieur is aan een discriminantfunctie gebaseerd op slechts p variabelen, de aan het begin beschikbare gegevens uit blok t1~.
S
Voor dit doel gebruiken we de toetsingsgrootheid.
(3.11)
F' -
R2} - R2 N-P-q-1 p 4 p . 1-Rp}q q
met q en N-p-q-1 vrijheidsgraden.
(zie bijv. [2] formule (2-7) in combinatie
met (1-1~7 ) )
Uit de resultaten zal blijken dat de in de loop der tijd beschikbaar komende gegevens, d.w.z. de meer recente op tentamens gebaseerde gegevens, steeds een significante bijdrage leveren. Men kan zich dan ook afvragen of men niet beter alleen op via tentamens bekende gegevens kan discrimineren, m.a.w. levert het extra opnemen van blok ~1~
(de bij aankomst bekende gegevens)
nog wel een significante bijdrage. Het zal duidelijk zijn dat we voor de beantwoording van deze vraag wederom de toetsingsgrootheid (3.11) gebruiken.
3.2.3 Als speciasl geval van (3.11) is te beschouwen de situatie wsarin q- 1, anders gezegd die situatie waarin men nagaat of een bepaalde variabele bijdraagt aan de discriminatie en wel door de discriminantfunctie gebaseerd op pf1 variabelen te vergelijken met de discriminantfunctie gebaseerd op P variabelen. Formule ( 3.11) gaat dan over in:
(3.12)
- pt1 F- 1- R2
Rp
N-p-1-1 ,
met
pt1
v1 - 1 v2 - N - (P}1 ) - 1
Het blijkt dat deze F numeriek gelijk is aan t2, waarbij t de via OLS gebruikelijke t-wasrde is.
(Zie Appendix 2)
De bij de resultaten via OLS gevonden t-waarden zijn dus te zien als grootheden die, afhankelijk van hun waarde, aangeven of een bepaalde variabele nog een significante bijdrage levert boven de via de p andere variabelen al bereikte discriminatie.
3.3 Foutenkansen ---------------Het is bij een discriminantfunctie van belang te weten hoe "goed" nieuwe (toekomstige) waarnemingen worden ingedeeld. Hoe "goed" een discriminantf~nctie het doet, kan afgemeten worden aan de kans dat een nieuwe waar-
9
neming fout wordt ingedeeld. Indien in beide groepen de dichtheidsfunctie's f0(x)
en f1(x) bekend
zijn en indien we indelen in groep 0 als x in het gebied RO ligt en analoog in groep 1 als x in het ,Te1~ i d R ligt (R en R worden bepaald door formule 1 0 1n-~ f lX~ (3.~): naar groep 0 als f x~~) dan zijn de theoretische uitdrukkkingen 1 0 voor de kansen op het ten onrechte indelen in groep 0, aan te geven met PO en op resp. het ten onrechte indelen in groep 1, aan te geven met P1 als volgt:
PO - ! f1(x)dx RO P1 - ! R1
f0(x)dx.
Aangezien f0(x), f1(x) en dus ook R1 en R2 onbekend zijn en geschat moeten worden zijn ook voor PO en P1 slechts schattingen te geven. Hiertoe zijn onder andere de volgende methoden te gebruiken:
a) De "plug-in" methode. Uit het waarnemingsmateriasl worden de parameters van f0(x) en f1(x) geschat en wordt de geschatte discriminantfUnctie bepaald, vervolgens worden dezelfde waarnemingen ingedeeld en bepaald men uit de aantallen fout ingedeelde waarnemingen PO en P1. Deze methode leidt tot een onderschatting van PO en P~
b) De "leaving-one-out" methode. Met behulp van n-1 waarnemingen berekend men de discriminantfunctie en deelt vervolgens de ne waarneming in. Deze procedure herhaalt men n keer. Uit de aantallen fout ingedeelde waarnemingen berekend men PO en P1.
In dit onderzoek zijn de foutenkansen in het algemeen bepaald met behulp van methode b; slechts in paragraaf b.~ worden beide methoden numeriek vergeleken.
4. De resultaten ~.1 Een eerste overzicht
Het basismateriaal bestasnde uit gegevens van 306 economiestudenten, werd door de eis dat per student geen variabele onbekend mocht zijn gereduceerd tot een groep van 145 studenten, uiteenvallend in 48 gezakten en 97 geslaagden. De oorspronkelijke 306 studenten vielen uiteen in 11~8 gezakten
- 10 -
en 138 geslaagden, zodat de conclusie gerechtvaardigd is dat ontbrekende gegevens vooral bij de gezakten voorkomen. Histogrammen van de verdelingen van deze variabelen in zowel de groep gezakt als in de groep geslaagd vindt men in Appendix 4. Indien de verdeling van een variabele met enige goede wil als normaal beschouwd kan worden dan is deze variabele in de analyse opgenomen. De variabelen die uitgesloten moeten worden zijn:
geslacht (tweepuntsverdeling), aanvangs-
jaar (erg scheef) en al of niet full-time
werkkring (deze variabele is
zowel in de groep gezakt als in de groep geslaagd steeds gelijk aan nul (- geen full-time werkkring) zodat deze variabele niet aan de discriminatie kan bijdragen). Als een eerste beschrijving van de overblijvende variabelen geeft TABEL 1 de gemiddelden en standaardaf~iijkingen, de gemiddelden en standaardafwijkingen in groep 0(gezakt) en groep 1(geslaagd) en een gepoolde standaardafwijking ~)
~) standasrdafwijkingen met n in de noemer;
Spooled - { ~ (vj-v0)2 ~EGO
f
E (vj-v1)2}I(n-2), `7~G 1
dus de "within groups same of squares" gedeeld door n-2.
- 11 -
sv
v0
sv0
v1
sv1
spooled
18,3~~
1,14
18,7~
1,43
18,2rJ
U,90
1,11
2
2,3~~
0,67
2,13
0,39
2,52
0,73
0,64
VWO-wisk.
3
6.06
1,18
5,19
0,97
6,49
1,02
1,01
vwo-econ.
4
7,66
0,86
7,23
0,68
7,87
0,86
0,81
econ. d~j
5
6,13
1,37
4,98
1,41
6,70
0,91
1,11
wisk. d~j
6
6,47
2,32
4,48
1,88
7,45
1,83
1,86
stat. d~j
7
6,54
1,73
5,02
1,39
7,30
1,33
1,36
boekh. m~j
8
5,55
1~98
4,65
2,19
6,00
1,69
1,89
wijsb. d~j
9
6,22
0,77
5,92
0,70
6,37
0,76
0,75
econ. m~j
10
4,9k
1,85
3,17
1,37
5,82
1,36
1,38
wisk. m~j
11
4,89
2,13
2,90
1,64
5,88
1,59
1,62
stat. m~j
12
6,25
2,25
4,08
2,27
7,32
1,23
1,66
handelsr. m~j
13
5,91
1,66
4,92
1,88
6,40
1,28
1,52
wijsb. m~j
1!~
5,94
1,01
5,21
0,96
6,30
0,83
0,88
variabele
nr
leeftijd
1
vooropl.
v'
`
Een verdere beschrijving geven de correlatiematrices met de enkelvoudige correlatiecoëfficiënten tussen de variabelen i en j. Deze matrices zijn zowel per subgroep (groep 0 of 1) als "overall" berekend, waarbij de matrix "overall" een 15e variabele bevat die gelijk is aan Y- 0 of Y- 1 als een student resp. tot de groep gezakten of geslaagden behoort.
'~-L I~--''-a r , t x r, , ;; ,
-- .. -
-- .
.
-.
~
ï
- .1 ~ -', .~~--....:.1~~n - .~: ,[ 1. ' - . ~r -~:.14r ~~.11g --'.~i'.S5 1-~:'.,': si.;i44 ..~:-214 ~ 1 ~ - 4 . ,:.; ~ 1 S11 t 15; --1 . ~~-.. -. ~~. ~.---- ~--'`~--'~~~~----- ... ~--------'--.'.-'.., -,~.~,1 ~ --..... ~.JC~.---.~-. ~,311-..-.-,~ ,~~.JS?.-.-..-...--('.~~?~!-~...~~:1..~ 5..7.
1 c 2 `
~
-~~
--.~-.' ~. ~, ~ .. ,~
.
-
q
-
.1.4. ~ ~~c
~t
~?
~f~~
1
.
" ,, 7,. - -i~~.,~7 }~,~Sy ~.,1 ~? , ,"~~ :a .:. ,~ -lï.~~3 -4s117 -0.4b1 ~,~L12~. .~..s.~ ~.~::~, ,~ ~, ~~' -. ~: r, .~'~,; ~~ i ,~ 7:. i.~13 -..,1.~ -' ---.--.. ... . ......- . . -------..- . ~S~ ~~'-39----0...!ï1S .,--~.~.„p~---- ~ ~1~j~ .- - ... ~.~.~~~-,~.~~.~1A.4~~~~
-,i~1FF C~.!.Z34 ~'
~,~Z
~24
'f
~~
~ZS
r~-~41 , "i'~ ~7 í{ ~?7.-1 1 :.:1 ~) -~i..1 76 ~~. -1 c~ S L~ ~..-1 ~-.-. '~ . ~ ? 4 --- -4., 21 ~---.---~. ~ ~' 3 ~--.-,.-.~.,..2-~ 4-`.~ .4 ~..Q~1~~ ~ ~~~?.4.9 ~.-..~--.~ .2.3 ó - , , , ~, ~ c. n ~~ ~ ~'. ~ ; -~ 1 ; ~~ ~ ~ -' , ~ ~ .f-st - --I --.:
.. ~
.~ ~..K
1 ~' --- , u.1 ~.~..`---!1~11Z
~ ....-...--3~~4
- -
,-~
,"~~ C 7 ~1
~}
:l
3
1
z
."-13 ~....,~..-,..Q,~~ 71
~~ .2 5 L
~ Q. 2 6 9 , r
2q
-
. i5 C.17 2
( ~J 1 - u. U 5~
~,r~13
'~.i)47
0.11:~
~,.t13~
ri . Z 2.,~~,,,,--;~G~,~ ' L 7~,.,. 61 ~~ (1 ~~F 9
~1~~~q. '
.21~
-~~ ~~)7., - .~.. '14
.,..~!~:7~~~-.~Z''.,..rf
7 R ..~..~.-.,...T...a ~i- . ~-: 6 á. ~ --~? ..-. .2. 5 1..,.~.----,. ..~...-.. ~ .2 4 y .- " . - ~. 7 2 ~....:.:;. ~~~.~ t 17 ~ r: 1 1~.~, ~; ,'~:,,1 ,e
f, fi~y -~ ~ i` 1.!~-„G ~ ~.,~2 3 4
Y'
516 .~.' .,~,,. ., .,
--ns~t
~i.23~y
1.`~Qp
~. 3 i 2
~.~~ R 5 .
-C~.516 -:
C.?
~.~?~~~-.~.Q rZ 13~-:~~.~..fl, 0~7~Ó,?. .~Q,2
J 2~ S
,,.
14 '' .~:.~ '
~}~361
~71
~ y,~ ; ~~s-----
~1q4 ~-
-;'-..~ 2 in ..,--;1..Í l i ~-S 9TM.--~--- .~
-~1.'J~~~
...... .,.,.,,~...,
~~.3f1 .
j
x ~ 1 ':
11
1 ~ 13
---
~, 1 i'.
-
~:'.F14 . . ~~
1,7 1 rJ - .,----. - : . . -.-
-,? ~2 --- - - ~. .-,c .~~5.. .Z.7` .
1.~ ~~ ~ 14-----~:....,44-
~~~-------
- ~~.213 . 'S7
f~~2? 1 -.~ C~,2~~0 -Z ` ~
-
~!.f1~4 ,:lr~ 1,.,.
-~
- ~---a--
.--
l.~Tir-"~nï~-~x
~.
j
4
.~'4 -.,.1'4 -:..-?9 '.'."~4----.-1.,ti:ï1------~...?~6--.,-.-'1.:-~44--1 -y
-w--
-~..1~) ( 1 ---
~'
).r.~~
~~.~!15 --
1.''
,:-
G.["6
í..~----93
-...,.41 -~..~31
-'.~~.~ ~'.4'~~ ''.127 ~~.477 ~~,;~?i~ -- .--. --'.1C4 ---, -~' ---- --~''~~7 9 ~~..15 ~.. -~)-.274------~~1~~--r~.1n9 ..,:} 1.,5~ 1~~
i ~ i
.`~s.í~~6
1.t:~ti~
:.~21
7
v.
-!'.`?41
-u.?'1
-n.~í'i
} .r -U.1~;,
- '-~-.''15 -..~-,~.~9--.-.--..~~,127----.'J-.124.-..--'~.?.211--~-v~ 9
i~.44~
rl477
U.173
0.2E8
0.342
1 .f,![3U '!.173 ~,- .~ '',~o`~ !.r.342 'i,;~JJ ~~~~2 ~~.t ~1
(
~.(,y~
0.~~'~~:t
-',1.1~3
~}.N42
;~~~:
1 1
~.~.-. ~~,~...r
~~~~~9
. ~ ~~~ ~ -- -t:.~ ;8 '~. 7~~.... ~.~ M'~ ~ 4~- iy.
i:.Zr~1
9 lvti~ ~.z~4-..,..:.:;:,.~.-x.a...' .:...::--
f~.lo)
U-.u38 -
ï~,: S~
C~.á~-`.~ -.
U-s~,74- --Q.1 ~7 0.13~~-í}.`'~ii~ -tt.!st"'7 ....-. -- - - -~- ..11 .-.-.~.. y.....,~.,.....~.~ „~-.~-~ ....~-.- - ----- --- . -,. - . , .----- ... - . -- -- - ~i.4.~7...--.-....y.~sr. ~,... -!ï~ri17 " .3~ 1.7JU f~.4~3 7.133 n.?41 -;..,,..,.~,... Q.1b!.4.~57 ~-:. ;-f~-~~~,~.~..~ t,.t74-- --- ~. 44~---.1-,-~Q4f3.QZ3---- U.381 U.1b4 1.tit~~~ (i.1('4 f?.264 -t:.1~~7 J.1 33 G.2~4 (i.4;.~ - . 1,r)U~1 t}.~1,3 01T 0,(J73 0.104 ~~.114 `-Q,~~1dw,----.U.13{~~-'~.....--~ .-... .- -.-, ..~,-.,, r... . -- - -- --- -- - ----~ ----.-. - . .-C.C~~ 0.341 U.3?1 0.264 0.':43 C.G~~ Q.519 j.~~u~
.l.J7? r'.4~'n u.~~11 !?.467 U.244 11-- .....-.- -~;.1~:.~~ - 1',114 . ...~ -. ~{1,27n ., ---~----~.~.. : Q,357 -- ---- ~.244-~-~-~ ' 1c -~t1S~s.---,~'.~~4..-~.z~i.f~,-.....~..--~~~~-~---,-.~.~q7 ~-~-.!~.~~8~ 0,43~;--0,4.~16.~~asQ1.~..-..:y...~Q.~g~9-1~ ---U zr 364 r 261 -G i~z i~~? n z,~ r~}~ r~ 1Q ~ r~ 1 1 i 4 4 4 1 2 6 " 14 -U ~~~9 13
14
~r,~s~
-;.~,~a
? ".'~`~ 3-----r,.33R
'~.1í4 C.~i45
: .1 ` ~
f~ ~-~ L ~
` - -. --
5
!!.:.S~t
`.à.132
6 7
::~.177 ,~~r.~L'.~.2h1
~.2b4 ~.1 ~1 í:~.1'3
- ~.-'b .:.3~~h
C.216 ~1.23C
~{J
.cY~-~ ~.13~! ..t ~C ~ .~ ;~..--..-iÍ.2t: --.-.-1 ---.~J., a l .1;~i; -.?
..~;s:~....~:~~ -. :.~:,r~,r~~.~~:;.w:, -.~.-.-....-
-:..:::.~ . . . . oa ~w~.
.--,r.r-....,e,m
arL~TI-.-~'?T.IY
r,v~f:HLL f:
7
11
f~ -~".~~75 -~.~43~~.13` -.`.1fi6 -~!.'44 -U.~r.b -;-- .1!~9 - --- -.. . - i . '. F ~~ -. - - -. 1 . ~ -' ~ - , `J , 3 4 t~- --.,..-. ~? .1--3 b -.-. ---.l~?-.14 1ii..3.4:~--~-.--C1,t49,---.~Q.:~fs~----.~~.~.'.~)E~-- .~75 ta,~ 1.C., ~'~I.~J ~'.79r~ ~.1.539 L'.SF~ 0.16.i C~.J3C .14 3 r2.~~7C 1 . ".)'~ ~L~{"-~~ Q. 4~12 (1,~ C8~ 0! 1 7 7 ~~b -
~; :.,-1- --4,.- '.) -1 41 ~ --.1~e
~.44
-i~ 2~16 .~-...--.-..
1~ 1 1
~
12 1S 14
i
'.3i~~
-'J .a-'~~8 -. . 6. --`.~..~-~" -~.114 [~.Z,.~'
-
- - .~. -..
-. -195 --
19 .~ 1 -. 2,--
- . ~5 -~~.15r
~.Z1? ~.z3~
-'
f~,.39..~-~~.3'~~ ~..:.f)U.
1;.5~~
C.~49
G.~RS ~-
.
E:.?r6
iJ.4C2
rJ.1~8 U. 1 6..z -~~.~j..!~ ---~.t77.-..-.C~ 44~ 361
14
U.442 n-~1r}
15
.3~ .4~1
.~.~1~ !I.44b
r~ - - - `- . t ~:'6 - ~à-.~ 51 y . .'' .133--- -t)~2 T3 1'-~ -~4`~~ '.~ ~~
~.6-~? [?.5Z1
~1. 3 z 2 0 7?6 i:.675
11 - , - ~ - .~.1~~ ~~,6;7 - . ~--.~:.4'. .. --. -.. - --12 ------r~'4-'3 ---..- C~.i47 í7.67R . - -- - -1~ 1..'~"' '.' 17 1~.~'1 1a ;:.317 1.t;un tr.SCr7 1~ .4Z1 -~.~v7 1.~tJG
0 ..; 61 3 71 - .-.r...~..~t.~.
~'~, ~!~.."~.
G.455
U~1.7~-1
U.2~2 --U.1~6 G.590
U.3C2 Q.266 G e13
1.OLf} ~~.15t] ti-z75 i;-t~n n-~se - - - - .~ 0..15r3.----~'t~-~Q.196 4.Z4~ - -. -.-,~..- ..-- -...~-:... ~-...: d 375 tJ 196 1.d')~3 n-~ C.:bS
~i.t325
i)-.46e~.~~;~44(~.~F .~,73
~.446
G.4
G.17t~ -.525. tl 466
0.225 t).~52 .... Q~3G 0 . 46S . .. ~.349 ; 0.593 , , ~... ~~~ ~.
-~..'..25 -f?.15h -f~.24f; , ------t` . ? 12- --- -~ ' ~ -z ~ 0.27 b .~ ---~j4, ~31'~ `~.S?i 4 ''.2[5 -~...-L7CJ f!.349 t?.Sí~3 ~ - ----..~.~5?----'~~55
-Ct.114 -f}.1,-4-.~-- -~-.i~5--. r .. -.... -. ~G...2~~-.--~ G.219.. . - ..~~-.~ T:~~~~:.~: . 4.594-~ ~A.5~1 . -~?.44A - ---~, `. ~,'';
~1.446
~,~.5 99 f1.-i-----,~---.---71 ~1.44~ 0.70d 0.591 r~ ------------~0.320 ~,.r,-..-~~--,..~---.e-..~,-., ~.-...,.... ..~--.-.-.,.--~..,~ . : . i U.1- R4 i).2~~~,~ C.SÓ 1 tl.?C2 -.-. -.~ Q.473 ~ . -~ Q.b20 ., t3.686 0.387. . -..-. -.- ..
-13-~- ~-
~ ,7
y
;
G.32R 0 . 51 ~ ~.643 . ,,-: -
---0.491 . 446 0.621 . .. .., . .
tJ.S'7é~ .15 0.322
0.248 -~.-
~J.565
~ti.` .' ""
1.C~C0 .
-.. .4 .19-1-~---Ci.72 6-~~ ~.6 ~ ~a 0 ~M~ ~~~` ~.133 'J.49~ ~-C.4~4 ~~~~ ~ ~ g ~ ~ Jr,-; ~. 0. ~ : U.276 0.675 ~ J.b57 r ~.;:`.., -.... --~---,-~.~--... . . ,. .: ~ , ,~.; -~; - ,~... .:.~.: ~ -.r.:..~::~.ed..~ ~ ,-~ ~. ,.~:~...~ ""~"~~` ~ n,,, ~,~w~v.-r
~
x~ ;
.~....-.....w.. -:~. .~:.: .. ~
..~- .-.-.-~--..- ~.:.'.... --- .... ..~.. -.....,,.,.~....,,....M..,, r.~-..-....~...--,:',., . ~'.
- 15 -
4.2 Indelingsresultaten m.b.v. de gegevensblokken ~1~, ~2~ en ~3~ en ----------------------------------------------------------------combinaties daarvan.
In deze subpara~;raaf worden de resultaten beschreven indien men een student m.b.v. een aantal variabelen x~, ... v~,
, xp (gekozen uit de variabelen
..., v~~) tracht in te delen in groep 0(gezakt) of groep 1(geslaagd). Lettend op het tijdstip waarop bepaalde variabelen bekend zijn, kan
men de volgende gegevensblokken onderscheiden:
blok:
~2~
~3~
Tent. t~m jan.
Tent. t~m juni
~1~
aankomst I -}
tijdstip:
variabelen: v~ t~m v~
v5, v6, v7, v9
v8, v~0 t~m v~~
Chronologisch beginnend worden dan de resultaten gepresenteerd voor:
blok ~1~ blok ~1~ t ~2~
op grond van eerdere aanwijzingen, zie [3]
, zou het mogelijk kunnen zijn
dat blok ~2~ de informatie die blok ~1~ bevat "overneemt". Om dit te onderzoeken beschouwen we de resultaten van blok ~2~ slleen, dus:
blok ~2~ vervolgens blok ~1~ t ~2~ f ~3~
en om wederom na te gaan of informatie wordt "overgedragen":
blok ~2~ t ~3~ blok ~3~
De te presenteren resultaten~zijn: - De via OLS (als analogen voor discriminant-analyse) gevonden waarden van Sj en os
, benevens de t-waarde Sj~vs J
(N.B. De vector (S~,
. J
...
, Sp)' is proportioneel met de discriminantfunctie).
- 16 -
- De via OLS gevonden multiple correlatiecoëfficiënt R. - De via de "leaving-one-out" methode gevonden indelingsresultaten en de daaruit volgende schatting voor de foutenkansen PO en P1, d.w.z. voor de kans dat een student uit groep 1 wordt toegewezen aan groep 0, resp. de kans dat een student uit groep 0 wordt toegewezen aan groep 1. ~ j ~
G1~ t ~2~
s
s-s constante
-0,392
0,681
leeftijd
-0,044
0,030
vooropleiding
0,077
VWO-wisk. VWO-econ.
~ 2~
ss
t
1,188
0,635
-1,5
0,012
0,026
-0,5
0,052
1,5
0,055
0,044
1,3
0,157
0,033
4,8
0,042
0,032
1,3
0,096
0,041
2,3
0,010
0,035
0,3i
E1
0,108
W1 S1
WYS1
-------------------
R
K E
ss
t
-1,048
0,226
o,~2~i-~;5
0,115
0,023
5,0
0,041
0,017
2,4
0,052
0,016
3,3
0,062
0,024
2,6
O,o79
0,022
3,6
0,043
0,038
1,1
0,026
0,037
0,7
R- 0,5674 PO - 16,6y
R- 0,7473 PO - 7,6~
R- 0,7368 Po - 7,6~
P1 - 10,3~
P1 - 3,4q
P1 - 4,1~
Toewijzing TrT E
s
0
0 1
33 24
Toewijzing
1
15 73
I
48 97 1~5
J K
73,1~ goed.
W E
0
R 0
43
K
E 1 I J K
11
Toewijzing
1
5 86
1
48
E
R o 42
6
48
E 1 11 L I
86
97 145
K
97 145
89,0~ goed.
J K 88,3q goed.
- 17 -
N
N
~
N
~
~
Ó
C!]
t~J
~ O
~ O
Ó O
N fD
O p
Ó
m~
b
~
R~
0
0
0
0
0
0
0
0
1
O
O~
N
O
N
O
O
N
~.
~NNrn:~~sm~ 0 J~
~ ~
!A
N
O
t~. N
N~ ~ oa
rn
ro2orot
~
a
n ~
~D
~
~
~
W I
ó
0
0
0
0
0
0
~n
w
~
O
O
O
O
O
0
0
0
0
0
0
0
0
0
0
J
o
~
~
J
vWl
[T
~
OD
N
V
0
0
0
0
0
0
0
0
~ r~ v rn w
ó0
V
V
ó V
0
00
0 V
y
0
ceN.
a
ó V
~ ~
ó V
~
~
O
O
y
~
~
0
~ .
u
O
O
V
O
y
y
O V
O V
0 W N
0 W O
O
O
V
0 j
O V
o N ~
O` N O`
~~
T
n W V
~ y
O V
~n
Ó
N
V
V
1
W
V
vl
V
O V
1
0
~
O V
O V
~
~
O V J
W V
O
V
~
~N~~~~ 1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
~
0
0
0
0
0
~
-~
O~
N
o
V1
~O
~
W
N
mÍ
n N
O
V
~o N
~ O (D
O`
a ~ `.71
~O ~
0
0
0
0
0
0
0
0
0
0
0
O W ~
O
O
O ~
O N N
O
~O
O W ~
O
~O
O N ~
O N N
N N ~
O ~
II
0 O
~ O
[~ ~
[~
~
~
n W V
~ W
O
I O VT V `
-~ V
W V
N V `~
~
J
W
O V
~
O V
O~
O V
W
V
N
W V
1
`~
?~NF--fD.~i(D ~
~!'I
`!t
CA m)
~ ~
V
~
f
f3 O (D ~ F~~ tJ. N F'~ .~S 04
0 y -~ ~ ~ O
~d tó 2
11
11
V1
O`
~11
`O
O
O
O
O
O
O
I O
O vt W
O O W
O .rN
O O` O~
ó ~ W
O O ~
~ W Q`
O
O
V
j
1
10
O V
O
O V
O
O
~D
O`
O
N
~
N
N
W
O V
~ ~
W
v Vl
O V
O
U]
Im ),
Lf1
O W
cF
n W v
- 18 -
~-3-Resultaten van-de toetsingen ~.3.1
Zoals reeds opgemerkt kan de hypothese fl; u - u 1(d'w'z. de hypo0 0 these dat de gemiddelde per groep niet verschillen, zodat discriminant analyse zinloos zou zijn) ook getoetst worden door in de OLS aanpak de grootheid F-(R2~p)~((1-R2)~(N-p-1)) te berekenen, laatstgenoemde grootheid is onder de nulhypothese F verdeeld met v1 p en v2 - N-p-1 vrijheidsgraden. Dit resulteert voor de onderscheiden ( combinaties van)gegevens blokken in de volgende F-waarden met bijbehorende vrijheidsgraden. blok F
v1
v2
`1' 16,618 4 140 -----------------------------------------`1' f ~2'
21,501
8
136
~2~ 4 140 -------------------~`~,565- ---------------~1~ t ~2~ t ~3~
18,06~
14
130
~2~ t ~3~
2k,7~1
10
13~t
`3'
3~,367
6
138
Voor al deze F-waarden is de overschrijdingskans kleiner dan 1q.
~.3.2
We toetsen nu of het in de loop der tijd beschikbaar komen van meer informatie leidt tot een "betere" discriminatie, precieser geformuleerd: We gaan na of een indeling gebaseerd op bijv, blok ~1~ t ~2~ superieur is aan de indeling gebaseerd op blok ~1~ alleen. blok ~1~
p-~
Rp
blok ~1~ t ~2~
ptq-8
R2 p}q - 0,5585
- 0,3219
F1 - 18,22 met v1 - 4 en v2 - 136
De discriminatie gebaseerd op blok ~1~ t ~2~ is superieur aan die gebaseerd op alleen blok ~1~ (F(F1 ~ 18 22) ~ ~ 0,01). blok ~1~ t ~2~
-
blok ~?~ f ~2~ f ~3~
pfq - 13
De discriminatie m.b.v, blok ~1~ t ~2~,
p- 8
2
Rp - 0,5585 Rp}q - 0,6605
1
F- 7,87 v1 - 5
v2 - 131
blok ~1~ t ~2~ t ~3~ is superieur aan die m.b.v.
- 19 -
(P(F1 1 7e87) ~ 0,01)
4.3.3 Het toevoegen van in de loop der tijd beschikbaar komende informatie blijkt steeds tot een "betere" discriminatie te leiden. Men kan zich nu bij dit specifieke onderzoek afvragen of deze "betere" discriminatie berust op meer informatie of wellicht op het feit dat de later in de tijd beschikbaar (de tentamen-resultaten in concrete) een grotere voor-
komende informatie
spellende wasrde bezit. Ten einde deze laatste veronderstelling te onderzoeken wordt nu getoetst of het zinvol is om bijv. ten tijde van het bekend zijn van de gegevens van blok ~1~ én blok ~2~, de gegevens van blok ~1~ weg te laten. We krijgen dan de volgende uitkomsten.
blok ~1~ f ~2~
ptq-8
blok ~2~
p-4
R~q - 0,5585
F1 - 1,20
RP
met v1 -~ en v2 - 136
- 0,5k29
We concluderen dat de discriminatie m.b.v. blok ~1~ t ~2~ niet superieur is aan de indeling m.b.v. blok ~2~ alleen.
blok ~1~ f ~2~ f ~3~
pfq-14
blok ~2~ t ~3~
p-10
Rp}q - 0,6605
F1 - 1,13
RP
met v1 - 4 en v2 - 130
- 0,6487
wederom levert blok ~1~ geen significante bijdrage.
blok ~2~ f ~3~ blok ~3~
ptq-10 p-6
RP}q - 0,6487
F1 - 4,73
RP - 0,5991
met v1 - 4 en v2 - 13~
Blok ~2~ blijkt nog steeds een significante bijdrage te leveren (P(F1
~ 4,73) ~ 0,01).
Samenvattend kan men stellen dat zodra tentamen gegevens beschikbaar zijn (d.w.z. de gegevens van blok ~2~ en evt. blok ~3~) de bij aankomst bekende gegevens (blok ~1~) nauwelijks nog van belang zijn. Verder ziet men dat ook bij het bekend zijn van de 2e semester gegevens (blok ~3~), de 1e semester gegevens (blok ~2~) nog een wezenlijke bijdrage leveren. Indien men uit een
-20-
aantal gegevensblokken moet kiezen om daarop de discriminantanalyse te baseren, kan men dus het beste werken met de gegevensblokken ~2~ en ~3~. In de volgende subparagraaf wordt nog wat nader ingegaan op de analyse m.b.v. de blokken ~2~ en ~3~.
4.4 Een nadere analyse van de indeling m.b.v. de gegevensblokken ~2~ en ~3~.
Recapituleren we nogmaals de via OLS gevonden resultaten voor blok ~2~ f ~3~. variabele
S
SS
constante
-0,975
0,228
economie 1
0,082
0,022
3,7
wiskunde 1
0,003
0,017
0,2
statistiek 1
0,029
0,022
1,3
boekhouden
0,009
0,015
0,6
wijsb.
0,015
0,03~
O,k
economie 2
0,060
0,021
2,9
wiskunde 2
0,052
0,017
3,1
statistiek 2
0,028
0,019
1,5
-0,011
0,019
-0,6
0,021
0,031
0,7
1
handelsrek. wijsb. 2 R - 0,805~
Op grond van de t-waarden valt te concluderen dat vooral de variabelen economie 1, economie 2 en wiskunde 2 bijdragen tot een discriminatie tussen gezakt en geslaagd. Er is nog eens apart nagegaan hoe de discriminatie met alleen deze laatste drie variabelen verloopt. We vinden dan: variabele
s
constante
-0,730
0,113
economie 1
0,097
0,021
k,6
economie 2
0,091
0,017
5,4
wiskunde 2
0,073
0,014
5,2
R - 0,7909
t
- 21 -
Toetsen we of de discriminatie m.b.v. alle variabelen uit blok ~2~ en ~3~ superieur is aan de discriminatie met slechts de drie variabelen economie 1 (E1), economie 2(E2) en wiskunde 2(W2), dan vinden we: blok ~2~ t ~3~
ptq-10
~ E1, E2, W2 ~
p-3
RP}q - 0,6487
F1 - 1,26
RP
met v1 - 7 en v2 - 134
- 0,6255
een niet-significante uitkomst. De indeling m.b.v. e11e variabelen uit blok ~2~ en ~3~ is niet significant beter dan de indeling m.b.v. de variabelen E1, E2 en W2. De foutenkansen bij discriminatie m.b.v. E1, E2 en W2 zijn als volgt: Toewijzing
werkelijk
0
1
0
42
6
48
Po - 4,8
1
7
90
97 145
P1 - 4,1
91,0~ goed.
We zullen voor blok ~ 2~ en ~ 3~ de schatting van de foutenkansen met methode a) en b) eens numeriek vergelijken. Bij methode a) is regressie analyse als analogoon voor discriminantanalyse gebruikt, wat betref`t de resultaten van de indeling zullen we Y dus met ~(YXO f YX1) moeten vergelijken. ~(YX f YX ) is hier gelijk aan 0,56 0 1 Uit een grafiek van residu e afgezet tegen predictie Y moeten deze indelingsresultaten makkelijk af te lezen zijn. Namelijk e- Y~- Y is wanneer Y nul of één is a1s volgt te splitsen. 0- Y--Y als een individu tot groep 0 behoort e 1- Y
als een individu tot groep 1 behoort
bij afzetting van e tegen Y ontstaan dus de volgende lijnen voor groep 0 resp. groep 1.
-22-
` 1' ~~
~ .
~
~
~
, ~
~ischeidingslijn voor indeling ~ I
~( - waarneming
~ ~ ~.~.. . ~ . ~ . . i . . . . ~
Y
1 ~~ ~, `
` ~~ li.jn van groep 1
.~t ~ `` . ` '
y lijn van groep 0
Toewijzing geschiedt door de Y van een individu met variabelen vector x, te vergelijken met Y-~(Y- t Y- ). De aantallen fout ingedeelde individuen zijn XC1 x1 dus makkelijk te tellen door na te gaan, hoeveel waarnemingen aan de foute kant van de scheidingslijn ~(Y- t Q- ) terecht komen. XO x1 Voor gegevensblok ~2~ f ~3~ komen we tot de volgende resultaten.
- 23 Toewijzing aan ~neg,]
Toewijzing aan ~Oep 0
- -
-- --
l~.`2?l3f . .
.
.
.
.
. ;
.
~ .
.
. .
.
.
.
.
.
k~~IDI: - e f ~ .
. Cv-jC; .
.
.
.
.
.5. .
.
.
c~ . ~
.~ ,r,;. ~ .~ .
4
.
.
. -.
.~
~ . . .
.
.~
t4
.
. -.
~
'.
t .~ 34.
.
.
'. '.
.i 7
.
. . . . .
.
~~
~ ~;
.
42 . 78 ~. . .. . ;3. t3 .2t . 3
.
-o.z9a2.. . . . . 4.. . -.-
c
.
ï..z ~ . 3; '.
.
.~
.
-~
-C~.5~G3..
.
-í'.~c9
.
. ..
.~
{5 f
.
.
~
.
. .
~9n
.
.
3.{
.
.6E9
'1 . t
.
. .
.
- "-
-
:.
1.C48 1.~27 PREOICTiE - Y
Y ~ 0,56 is scheidingslijn n0~
: aantal ten onrechte in 0 ingedeeld: 5
n10
: aantal ten onrechte in 1 ingedeeld: ~
zodat volgens methode a)
PO - i45.100~ - 3,~[;d pl -
2,8í~
Terwijl methode b) levert: PO ~ 1~5.100~ - 3,~~ P1 - 1~.100~ - k,l~
Hoewel bij methode a) de schattingen van de foutenkansen wat aan de optimistische kant zijn, kan men deze methode toch goed hanteren om snel een indruk te krijgen hoe "goed"'de discriminantf~nctie het doet, vooral als men werkt met OLS en een grafiek van residu t.o.v. predictie laat afdrukken, kan men snel een indruk krijgen hoe goed beide groepen (d.w.z. de beide schuine lijnen in de grafiek) zijn te scheiden.
-2k-
5. Conclusies
De resultaten bi,j de toewijzing aan de groep gezakt of geslaagd zijn voor de propedeuse economie ~975~~976 als volgt kort samen te vatten. - Meer en nieuwere gegevens leiden tot een betere toewijzing. - Indien gegevens uit blok ~2~
(tentamens 1e semester) en~of blok ~3~
(ten-
tamens 2e semester) beschikbaar zijn verbetert de toewijzing nauwelijks door ook nog blok ~1~ (bij aanvang bekende
gegevens) op te nemen.
- Beschikkend over gegevena uit blok ~3~ is het niet zinvol om blok ~2~ weg te laten, de toewijzing verslechterd dan. - De toewijzing m.b.v. blok ~2~ t ~3~, met een totale {geschatte) foutenkans van 7,6~ is nauwelijks beter dan de toewijzing m.b.v. een deelverzameling van deze gegevens, namelijk de variabelen economie 1, economie 2 en wiskunde 2. De (geschatte) foutenkans is dan 9,0~. Genoemde drie variabelen kan men zien als de variabelen die de meeate invloed hebben op zakken of slagen. Gezien het onderzochte verschijnsel zou men zeggen:
"en zo hoort het ook".
- Enig voorbehoud is bij bovenstaande conclusies geboden; er is gewerkt met studenten waarvan alle gegevens bekend waren, de conclusie kunnen dus ook slechts op deze populatie slean. Verder viel op dat in het onderzoek geen studenten met een full-time werkkring voorkwamen, de conclusies slaan dus zeker niet op avondstudenten.
Literatuur
[1]
Kshirsagar, A.M., Mix].tivariate analysis, Marcel Dekker, New York,
[2]~
Lachenbruch, P.A., Discriminant analysis, Hafner Press, New York, 1975.
[3]
Plaisier, A. en Hempenius, A.L., Sla~en of zakken, een intern ra
1972.
ort
over de studieresultaten ~ronedeuse-economie 197~11975, Reeks "Ter Discussie" no. 77.061, Tilburg University, Tilburg, 1977.
f~req.
ena~7; ~~~ , - - - i, ;--:-- -~-;
~esti~pe~d~ ].i;,j~: i
i
c~na
I-. 30
micrpn
ep ~ezak ~
7
PT-r~ o-~-~a~-
-- ;~; ~o3a-
~-{.--~
: .,,
- ~o
{
--
20
-.
I ~}.~- ~--~
-.-.fi~
we~!`kkri~g ~
-,-- ~----- }--
t. i 't
--- ~
-
.40 30 r
i-.-- I-~---~o ~
-4---1-- --.-~--
i i
T
17 i
~8 ~ t9
~t3
2~S -- i--
2 ~ j 22 l 23 ~
. --r- - -~- --
25
26 ~ - i;-r--~.
70
-- --~--i
i
..--- .
~
' --1 ---~---~---
eq.
6
~
1
50
----~---
T 20
'
- 10
~~ l.
-
30
Í. 1 --~r -~
i
. - ~ 7~
~
i
75 ~ I
aa~v . ~~aar I
2
3
vooropjLeiding
I . r.~0
-Í
`30
,o
- k0
- 30
~.--:-~-
i i
i - --~-~--t---- -, ,
,
I ~i~ feri --, ~-G-~ fl eq. ,
un
-- }-- ~ 10
~ ci~~er I Í e~onomp.e . déc ~ 1an . i----~- --
i-
.- i------
3o t
~-~Í T
- 10
~r- ~~-- -'
7
e f~ j-f~r 10
-,
wiskunde ~iec~ jan,
Í
; ~ --~ ----a- --.i.~1..----1 ----~------
ti, ~~,,.?, ~,,, ~
---- - --L - -~ ~', GERM4r,~
-~--r-T~-~--
f~Cea~ . ~ I!
-T
:~!-! . ; ,
~D
; , ~ ~---~ ~; ~,-~ ,
--~ --~--
-10
----~,--~ . 1~
2
6
---;
~
7 ~ 8
, ~ --i---~ ,
'9
~ 10 ~
~ --~---
- ~.~-T -'
~ 20
-~? ;-
-10
-t 1 '~,
~,
5. .f. 6~: . ~
~ -
;
-
Í
--rt-~ ! , ~ ,I- ----
:
--
~7 I 8. ~
;
~--~ áfer
9 ~, 1o Ii
~
boe~kh. mei~J
~j0 i
~0 Í
20
J; ~Í
--JO
L1~.-.;~..~..1I ~
o
3
~-1 ,
'~~-.-!~
~ ,3~ ,
7 j 8
freq.~1
I -----i--
9
-~---~,~i------~~.i~ex
-~
~
~-
1Qi
j wij~b. d~c~ja~ ,
i-- i --~
-~ 1.-.-; I
!
30 20 í
-.~ ~
i
; ~
~,r,
~~'I Y-
--J----~~
---{---t -~ - I
1
.,uan~~
, ,
~Í
~ Í
- . ~-I
-8 ; 9 io ; ~ i --- i ,---tj---
~ -'
~-
~
- ,
' , C3~j~eT
! i , i economie meijljun'i' t---
1 -,,. , 1~,
MnCF
Í
'~ C,E4Mn!v!
.~.7:0
c ~ fe~r wis unde~lmei~juni
.--
~ c
. ? ~~ .
-stat stiék me
-30-
Appendix 2. Het bewijs dat de via OLS gevonden t-waarde na kwadratering gelijk N
is aan de F van formule (3.12) kan men in Kshirsagar [1] vinden. Uitgaande van een regressie met p variabelen (de constante niet meegeteld) wordt op blz. 213 bewezen dat uitgaande van
t-
b. 1 {Estimate of V(bi)}2
geldt dat t2 -
f-pf1 vrijheidsgraden
c2(D2 - D2)
f-pt1 (A.1)
met
. 1
.
p~ 2-1 f f c D p-1
- Ff- t1 p
Tdu geldt in de notatie van eerder genoemde auteur: f-n1 fn2-2 en
c 2 - n1n2 n1}n2 (~ 2)
t2 - n1fn2-p-1
.C(Dp Dp-1) 1 t C D2p-1
1 met
- F1 fn2 n1 p-1
n1n2 C (n1fn2)(n1tn2-2)
en
Dk
de Mahalanobis D2 gebaseerd op k variabelen.
Indien nu Y de(afhankelijke variabele bij OLS)een dichotome variabele is, geldt:
R2 (A.3)
1 waarbij Rk de gebruikelijke multiple correlatie
Dk - -x 2.1-Rk C
coëfficiënt bij OLS met k variabelen ( de constante niet meegeteld); men zie bijvoorbeeld Lachenbruch [2] blz. 19, formule (1.1~7).
Formule ( A.2)
(A.1~)
is dan te schrijven als:
t2 - F1 ~ n1fnG-p-1
-
n tn -p-1 2 1 1
R2 - R~ P-] . F 1-R2 P
en dit is na vervanging van p door pt1 precies formule (3.12).
1
IN DE REEKS "TER DISCUSSIE" ZIJN VERSCHENEN:
1. H.H. Tiggelaar 2. J.P.C.
Kleijnen
3. J.J. Kriens 4.
L.R.J.
Westermann
5. W. van Hulst J.Th. van Lieshout 6. M.H.C. Paardekooger 7. J.P.C. Kleijnen 8. J. Kriens
Spectraalanalyse en stochastische lineaire differentievergelijkingen.
juni
'75
De rol van simulatie in de algemene econometrie. .
juni
'75
A stratification procedure for typical auditing problems.
juni
'75
On bounds for Eigenvalues.
juni
'75
Investment~financial planning with endoqenous lifetimes: a heuristic approach to mixed integer proqramming.
juli
'75
Distribution of errors among input and output variables.
aug.
'75
Desiqn and analysis of simulation Practical statistical techniques.
auq.
'75
Accountanscontrole met behulp van steekproeven.
sep.
'75
9.
L.R.J.
Westermann
A note on the requla falsi.
sep.
'75
10.
B.C.J.
van Velthoven
Analoge simulatie van ekonomische modellen.
nov.
'75
Het ekonomisch nut van nauwkeurige informatie: simulatie van onderneminqsbeslissinqen en informatie
nov.
'75
Theory chanqe, incompatibility and non-deductibility.
dec.
'75
De arbeidswaardeleer onderbouwd?
jan.
'76
14. J. van Lieshout J. Ritzen J. Roemen
Input-outputanalyse en gelaagde planning.
febr.
'76
15. J.P.C.
Robustness of multiple ranking procedures: a Monte Carlo experiment illustrating design and analysis techniques.
febr.
'76
Computers and operations research: a survey.
febr.
'76
Statistical problems in the simulation of computer systems.
april
'76
Towards a more natural deontic logic.
mei
'76
Desiqn and analysis of simulation: practical, statistical techniques.
juni
'76
Identifiability in models with lagqed variables.
juli
'76
Quantile estimation in reqenerative simulation: a case study.
aug.
'76
11. J.P.C.
12.
F.J.
13. A.
Kleijnen
Vandamme
van Schaik
16. J.P.C.
Kleijnen
Kleijnen
17. J.P.C. Kleijnen 18. F.J. Vandamme 19. J.P.C. Kleijnen 20.
H.H. Tigelaar
21. J.P.C. Kleijnen
- 2 -
22.
W. Derks
Inleiding tot econometrische modellen van landen van de E.E.G.
auq.
'76
23.
B.
Econometrisch model van Belgié.
sep.
'76
24. J.P.C. Kleijnen
Principles of Economics for computers.
aug.
'76
25.
iiybriede simulatie van ekonomische modellen.
aug.
'76
Forecasting by exponential smoothing, the Box and Jenkins procedure and spectral analysis. A simulation study.
sept.
'76
Some reformulations and extensions in the univariate Box-Jenkins time series analysis.
juli
'76
28. W. Derks
Vier econo~metrische modellen.
auq.
'76
29. J. Frijns
Estimation methods for multivariate dynamic models.
okt.
'76
30. P. Meulendijks
Keynesiaanse theorieén van handelsliberalisatie.
okt.
'76
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel I: inleiding in de Grafentheorie.
sept.
'76
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel II: Formule van Mason.
okt.
'76
Een direct verband tussen economische veroudering en bezettingsgraadverliezen.
sept.
'76
sche modellen met één vertraging.
okt.
'76
Structuuranalyse van econometrísche modellen met behulp van Grafentheorie. Deel N. Formule van Mason en dynamische modellen met één vertraging.
okt.
'76
De ontwikkeling van de omvangsverdeling in de levensmiddelenindustrie in de D.D.R.
okt.
'76
Structuuranalyse van econometrische modPllen met behulp van Grafentheorie. Deel V. De graaf van dynamische modellen met meerdere vertragingen.
okt.
'76
Een direkt verband tussen economische veroudering en bezettingsgraadverliezen. Deel II: qevoeliqheidsanalyse.
dec.
'76
26.
27.
Diederen Th. Reijs W. Derks
B. F.
R.
van Velthoven Cole
Heuts
31. W. DErks
32. W. Derks
33. A. van Schaik
34. W.
35. W.
36. J.
37.
38.
W.
A.
Derks
Derks
Roemen
Derks
van Schaik
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel III. De graaf van dynami-
- 3 -
39. W. Derks
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel VI. Model I van Klein, statisch.
40. J. Kleijnen
Information Economics: kritiek.
41. M,
v.d.
Tillaart
dec.
'76
nov.
'76
Inleiding en
De spectrale representatie van multivariate zwak-stationaire stochastische processen met discrete tijdparameter.
nov.
'76
Een econometrisch model van Engeland.
dec.
'76
Capital market models f`or portfolio selection.
sept.
44. J. Kleijnen P. Rens
'76
A critical analysis of IBM's inventory package impact.
45. J. P.
dec.
'76
Computerized inventory management: A critical analysis of IBM's impact system.
dec.
'76
jan.
'77
febr.
'77
febr.
'77
42. W, van Groenendaal Th. Dunnewijk 43. R. Heuts
Kleijnen Rens
46. A. Willemstein
Evaluatie en foutenanalyse van econometrische modellen.
Deel I. Een identificatie methode voor een lineair discreet systeem met storingen op input, output en s tructuur . 47. W. Derks
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel VII. Model I van Klein, dynamisch.
48. L. Westermann
On systems of linear inequalities over Iltn.
49. W. Derks
Structuuranalyse van econometrische modellen met behulp van Grafentheorie. Deel VIII. Klein-Goldberger model.
50. W. van Grcenendaal Th. Dunnewijk
febr.
'77
Een econometrisch model van het Vereniqd Koninkrijk.
febr.
'77
51.
J. P.
A critical analysis of IBM's inventory package "IMPACT".
febr.
'77
52.
J.J.A.
Moors
Estimation in truncated parameterspaces.
mrt.
53.
R.M.J.
'77
Heuts
Dynamic transfer function-noise modelling (some theoretical considerations).
Kleijnen Rens
54. B.B, v.d. Genugten
Limit theorems for LS-estimators in linear regression models with independent errors.
55. P.A. Verheyen
Economische interpretatie in modellen betreffende levensduur van kapitaalgoederen.
4
56. W, v.d. Bogaard J. Kleijnen
Minimizing wastinq times using priority classes.
juni
'77
57. W. Derks
Structuuranalyse van econconetrische modellen met behulp van Grafentheorie. Deel IX. Model van landen van de E.E.G.
juni
'77
Capital market models for portfolio selection (a revised version).
juni
'77
Evaluatie en foutenanalyse van econometrische modellen. Deel II. Het model I van L.R. Klein.
aug.
'77
An econometric Model of the Federal Republic of Germany 1953-1973.
aug.
'77
economie 1974~1975.
aug.
'77
Over een maat voor de juistheid van voorspellingen.
aug.
'77
Heuts
Some reformulations and extensions in the univariate Box-Jenkins time series analysis approach (a revised version).
sept.
'77
64. R.J.M. Heuts
Applications of univariate time series modelling of U.S. monetary and business indicator data.
sept.
'77
58.
R.
Heuts
59. A.P. Willemstein
60. Th. Dunnewijk W.
61. A. A.
van Groenendaal
Plaisier Hempenius
Slagen of zakken. Een intern rapport
over de studieresultaten propedeuse-
62. A. Hempenius 63. R.M.J.
65.
A. Hempenius J. Frijns
Soorten van prijsheteroskedasticiteit in marktvraagfunkties.
okt.
'77
66.
H.H.
Identifiability in Multiple Time Series.
okt.
'77
67. J. van Lieshout P. Verheyen
Levensduur in een jaarqangenmodel.
nov.
'77
68. P.J.F.G. Meulendijks
De macro-economische betekenis van geinduceerde technische ontwikkeling; een meer-sektoren model met jaargangentheorie.
nov.
'77
A Monte Carlo study to obtain the percentage points of some goodness of fit tests in testing normality, when observations satisfy a certain low order ARMA-scheme.
dec.
'77
Generalizinq Simulation Results through Metamodels.
dec.
'77
Winstmaximalisatie in het Jaargangeramodel met vaste technische coéfficïénten; een inventarisatie van de problematiek.
dec.
'77
A central limit theorem with applications in regression analysis,
jan,
~78
Tigelaar
69.
R.M.J. Heuts P.J. Rens
70.
J.C.P.
71. Th.
72.
B.B.
Kleijnen
v.d. Klundert
v.d. Genugten
1
- 5 -
73. A.P. Willemstein
Evaluatie en foutenanalyse van econometrische modellen. Deel III. Stochastische fluctuaties op de parameters en heteroscedasticiteit in een lineair model.
jan.
'78
Some reflections on macro-economic planning, policy and development in the Netherlands: 1918-1978.
apr.
'78
Overeenkomsten en verschillen in uitgangspunten tussen log.-normale en Pareto-verdeling.
juli
'78
Applications of Hybrid Computers in Econometrics - Part I.
juli
'78
On a disequilibrium analysis of the labour market. Review of and comments upon R.S.G. Lenderink and J.C. 5iebrand, A disequilibrium analysis of the labour market, Rotterdam University Press, 1976.
auq.
'78
Asymptotic normality of 2SLS-estimators in simultaneous equation systems.
aug.
'78
Imperfect competition on the labour market(s) and the adjustment of factor inputs.
okt.
'78
The identifiability problem in dynamic simultaneous equations with moving average errors.
nov.
'78
Bayesian information economics: evaluation.
dec.
'78
Instrumental Variable Estimators Applied at Pooled Time Series Cross Section Models.
mrt.
'79
Inverse perturbations for approximations of least squares solutions.
mrt.
'79
Kostenverbijzonderinq op basis van een input-output-model voor een situatie met vaste en variabele kosten.
mrt.
'79
Een schattingsprocedure op basis van macro data voor de (stationaire) overgangswaarschijnlijkheden in een Markovmodel ter beschrijving van de ontwikkeling van de omvangsverdeling van onderneminqen.
apr.
'79
86. G.J. de Nooij Th.M.M. Verhallen
Marketing mix sensitivity.
apr.
'79
87. J. Kriens
Statistical Sampling in Auditing.
apr.
'79
88. J.D. Sylwestrowicz
Applications of hybrid computers in econometrics, Part II. An implementation of a medium size model for the Dutch economy.
mei
'79
74.
75.
P.J:F.G.
J.H.J.
76. J.D.
Meulendijks
Roemen
Sylwestrowicz
77. P.J.F.G. Meulendijks
78. B.B. v.d. Genugten
79. J.M.G.
80.
Frijns
H.H. Tigelaar
81. J.P.C.
Kleijnen
82. J.M.G. Frijns
83. M.H.C. Paardekooper 84. J.H.J. Roemen
85. J.H.J.
Roemen
an
- 6 -
Comparative Statics on nonlinear input-output models.
juli
'79
;7ertraqinqsverdelinqen voor het overloopeffect van marketinguitqaven.
aug.
'79
Central limit theorems for the OLSestimator in linear regression models including lagged variables.
sept.
'79
92. J.J.A. Moors
Momentproblems and truncated binomial estimation.
segt.
'79
93.
A general approach to identification, predictability and the problem of minimal informative samgle size.
sept.
'79
94. G.J. de Nooij J. de Schouwer
Positionering en segmentatie in de popmuziekmarkt.
nov.
'79
95. J.P.C.
Analysis of simulatíon with common random numbers: a note on Heikes et al. (1976). Version 2.
noV.
'79
dec.
'79
89. B. Kaper 90. W.J.
91.
B.B.
Oomens
v.d. Genuqten
H.H. Tigelaar
Kleijnen
96. M.A. de Bruijn J.D.
Sylwestrowicz
97. J.D. Heesters
Econometric Estimation and Simulation usinq Auto-patch System. De honorering van de huisarts als
vrij beroepsbeoefenaar vergeleken met die van de ambtenasr en de werknemer in de gezondheidszorg
jan. '80
98. J.P.C. Kleijnen
The investment analysis of data processing projects
jan.
'80
99. J.P.C. Kleijnen
Economic framework for information systems
jan.
'80
Toewijzing m.b.v. een lineaire discriminantfunctie; een toepassing
jan.
'80
100. A„ Plaisier
n i ~ ui~i~~iuiïiMUi i au ~i~u~~uui