Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Adviseren over onderzoeksmethoden: Ontbrekende waarnemingen, uitbijters en nonrespons Herman Ad`er and Don Mellenbergh
Verwante begrippen Statistiek versus Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie
19 november 2004
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Ontbrekende waarnemingen
Statistisch perspectief: Imputeren Imputatie: verschillende methoden
Ontbrekende waarnemingen: Missing Values Missing Cases
Exercise 14.7: Mean imputation. Can you see any objections against straightforward ‘mean imputation’ ?
Nonrespons: Unit nonrespons Item nonrespons
Answer Exercise 14.3
Uitbijters Drop out Noncompliance
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Statistisch perspectief: Imputeren Imputatie: verschillende methoden
Imputeren, motivatie VERLIES VAN POWER TEGENGAAN Bij technieken die gebaseerd zijn op ‘listwise deletion’, worden cases waarvan een of meer variabelen missen, genegeerd. Bijvoorbeeld: Regressie-analyse, Repeated measurement variantie analyse (Maar niet: Multilevel analyse)
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Ontbrekende waarnemingen
Statistisch perspectief: Imputeren Imputatie: verschillende methoden
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Statistisch perspectief: Imputeren Imputatie: verschillende methoden
Vooronderstelling: Missing Completely at Random (MCAR) of Missing at Random (MAR). Randvoorwaarden: De volgende statistics moeten overeen komen tussen de ge¨ımputeerde data set en de onge¨ımputeerde data set: Het gemiddelde van iedere variabele De variantie (standaard deviatie) van iedere variabele De variantie-covariantie matrix van ‘analyse’ variabelen
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Ontbrekende waarnemingen
Content Robustness and Content Reliability Voorbeeld: Grade point average
Soorten imputatie-methoden Mean imputation
Definition (Content Robustness)
Hot deck imputation
A statistical strategy is called content robust when we are confident that violations of the preconditions will have no disrupting effect on the conclusions drawn with respect to the original research question.
Regression imputation Stochastic regression imputation Maximum likelihood imputation using the EM algorithm Multiple imputation
Definition (Content Reliable)
Data augmentation (Bayesian imputation)
A statistical strategy is called content reliable if it provides means to derive that irregularities in the data may jeopardize our conclusions.
Data augmentation
(Zie: Little & Rubin, 1987; Schafer & Graham, 2002) Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Content Robustness and Content Reliability Voorbeeld: Grade point average
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
GPA: inschattingsmethoden
Principe (Content reliability for misssing data) A procedure to handle missing data is called content reliable when it can be ascertained that data sets in which missings have been imputed, lead to reliable (unbiased) pronouncements on the substantive research question.
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
# of Students 140 611 374 224 197 128 238 168 % Missing
Dutch
English
0
0
Herman Ad` er and Don Mellenbergh
Grade point average (GPA) Subject mean substitution (SMS) Corrected subject mean substitution (CSM) Subject correlation substitution (SCS)
Ontbrekende waarnemingen
Herman Ad` er and Don Mellenbergh
Content Robustness and Content Reliability Voorbeeld: Grade point average
Subjects Biology French × ×
× × 67
Content Robustness and Content Reliability Voorbeeld: Grade point average
× × ×
× 46
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
History
× × × × 35
Observed Imputed GPA RI SRI EMI DA # of grades Observerd Imputed
Dutch mean SD 6.79 0.75 — — — — —
— — — — — 2080 0
English mean SD 7.15 0.95 — — — — —
— — — — — 2080 0
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Content Robustness and Content Reliability Voorbeeld: Grade point average
Subjects Biology mean SD 6.32 0.77
French mean SD 6.81 0.97
History mean SD 6.86 0.77
7.01 6.19 6.33 6.21 6.31
6.89 6.76 6.75 6.71 6.70
6.93 6.90 6.86 6.89 6.87
689 1391
0.69 0.40 0.82 0.41 0.53
0.66 0.58 1.05 0.59 0.75
1117 963
Ontbrekende waarnemingen
1349 731
0.70 0.37 0.83 0.36 0.54
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Exercise 13.2: Strange data values A client presents you with the following problem: ‘An instrument that monitors physical effort every 10 seconds produces values in the range −10.00 − +10.00. The data, however, contain the value 22.20. This is clearly indicates some malfunctioning of the machine.’ His question is what value should be substituted in the data set. What would be your advice?
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Uitbijters mogen alleen worden verwijderd wanneer de reden van hun aanwezigheid onafhankelijk is van het ‘fenomeen’ dat we willen onderzoeken.
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Complicaties bij de behandeling van missings en uitbijters Bij missings is het probleem, dat het vaak moeilijk is om vast te stellen of de verdeling van de ‘missingness’ wel overeenkomt met de vooronderstellingen van de imputatie methode Bij uitbijters is het probleem, dat het vaak lastig is om het onderscheid te maken tussen uitbijter en extreme waarde
Herman Ad` er and Don Mellenbergh
Principe (Het verwijderen van uitbijters)
Ontbrekende waarnemingen
Ontbrekende waarnemingen
Multilevel analyse (en GEE) Aanbevelingen (aan de client)
Software MVA in SPSS (Echter, zie: Hippel, 2004) Demonstratie Missing Values Analysis
Splus library (Data augmentation): Website data augmentation
Splus: the so-called Harrell/hmisc library: Harrel/hmisc Website
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Multilevel analyse (en GEE) Aanbevelingen (aan de client)
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Multilevel analyse (en GEE) Aanbevelingen (aan de client)
MLA als alternatief voor imputatie Omdat multilevel analyse toestaat om ‘gerafelde’ data strukturen te analyseren, wordt de techniek vaak gebruikt als alternatief voor imputatie gevolgd door een regressie-achtige techniek Bezwaren tegen dit gebruik van MLA Bekende bezwaren tegen MLA (zie blz 267 cursusmateriaal)
Verlies het principe van behoud van informatie nooit uit het oog Vermijd imputatie als het maar enigszins mogelijk is Vooral: Als MLA een acceptabel alternatief is Als je geen idee hebt hoe de ‘missingness’ moet worden gemodelleerd
In veel situaties is MLA geen geschikt alternatief Impliciet imputeert MLA ook
Herman Ad` er and Don Mellenbergh Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Ontbrekende waarnemingen
Multilevel analyse (en GEE) Aanbevelingen (aan de client)
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Als imputatie onvermijdelijk is: Gebruik dan ML imputatie Doe de analyses op verschillende manieren. Bijvoorbeeld: Op de complete cases; Op de ge¨ımputeerde data set; met multilevel analyse;
Imputatie veronderstelt van allerlei ten aanzien van ‘missingness’ Verschillen tussen een statistisch en een methodologische kijk op ontbrekende waarnemingen Content reliability voor ontbrekende waarnemingen Inschatten van het Grade Point Average
De verschillen tussen met verschillende methoden verkregen resultaten moeten eenduidig aan verhoogde power zijn toe te schrijven
Verwijderen van uitbijters is tricky: de variantie verandert dramatisch
Uit de rapportage wordt alleen weggelaten wat evident waardeloos is.
Multilevel analyse is soms een goed alternatief
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
SPSS heeft redelijke module om missing te analyseren: MVA Vermijd imputatie indien enigszins mogelijk
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen
Overzicht Verwante begrippen Statistiek ⇔ Onderzoeksmethodologie Methodologisch perspectief Outliers Operationalisatie Samenvatting Referenties
Hippel, P. T. von. (2004). Biases in SPSS 12.0 Missing value Analysis. The American Statistician, 58(2), 160–164. Little, R. J. A., & Rubin, D. B. (1987). Statistical analysis with missing data. New York: Wiley. Schafer, J. L., & Graham, J. W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, 7(2), 147–177. Smits, N., Mellenbergh, G. J., & Vorst, H. C. M. (2002). Alternative Missing Data Techniques to Grade Point Average: Imputing Unavailable Grades. Journal of Educational Measurement, 187–206.
Herman Ad` er and Don Mellenbergh
Ontbrekende waarnemingen