OPTICAL MARK RECOGNITION (OMR)
MTSO-INFO 33
JEREMI VANGORP 2003
Faculteit PSW – Universiteit Antwerpen Contact: prof. dr. Dimitri Mortelmans (
[email protected]) Tel : +32 (03) 820.28.53 - Fax : +32 (03) 820.28.82
MTSO-INFO Documenten in de reeks MTSO-INFO werden geschreven door leden van de vakgroep MTSO (Methoden en Technieken van het Sociaal-Wetenschappelijk Onderzoek) met als doel op een heldere en eenvoudige manier bepaalde thema's van onderzoeksmethoden en computergebruik uit te leggen. De thema’s sluiten aan bij analysetechnieken of softwareprogramma’s die gebruikt worden aan de Faculteit PSW van de Universiteit Antwerpen. Vermits sommige documenten door andere leden van de Universiteit Antwerpen of daarbuiten nuttig kunnen zijn, worden deze gratis online aangeboden op http://www.ua.ac.be/mtso. Het downloaden en verspreiden van deze documenten is toegestaan mits correcte bronvermelding.
WAARSCHUWING: De documenten worden slechts sporadisch bijgewerkt. Dit heeft repercussies voor die documenten die slaan op software. De auteurs hebben niet de bedoeling om bij het uitkomen van nieuwe versies van programma’s steeds het hele document te herschrijven. Daarom dient de lezer er rekening mee te houden dat het document steeds slaat op de softwareversie zoals deze bij het uitkomen van het MTSO-INFO document gangbaar was.
OPTICAL MARK RECOGNITION Inhoud
1 INLEIDING .................................................................................................................................................. 2 2 DE ENQUÊTE MAKEN.............................................................................................................................. 3 2.1 HET BELANG VAN LAY-OUT ..................................................................................................................... 3 2.2 ENQUÊTES LAY-OUTEN MET WORD ......................................................................................................... 3 2.3 MERKTEKENS KIEZEN .............................................................................................................................. 5 2.4 SPATIES EN WITRUIMTE ........................................................................................................................... 5 2.5 BARCODES ............................................................................................................................................... 6 2.6 FORMAT VAN DE ENQUÊTE TESTEN .......................................................................................................... 6 3 EEN TEMPLATE MAKEN ........................................................................................................................ 6 3.1 INLEIDING ................................................................................................................................................ 6 3.2 DE ENQUÊTE INSCANNEN ......................................................................................................................... 7 3.3 VELDEN DEFINIËREN ............................................................................................................................. 11 3.4 OMR-VELDEN ....................................................................................................................................... 11 3.4.1 Types OMR-velden .................................................................................................................. 12 3.4.2 OMR-velden definiëren............................................................................................................ 14 3.5 IMAGE-VELDEN...................................................................................................................................... 29 3.5.1 Eigenschappen van Image-velden ........................................................................................... 29 3.5.2 Image-velden definiëren .......................................................................................................... 30 3.6 BARCODE-VELDEN................................................................................................................................. 32 3.6.1 Eigenschappen van Barcode-velden........................................................................................ 32 3.6.2 Barcode-velden definiëren....................................................................................................... 33 3.7 GEVORDERDE VELDBEWERKINGEN ........................................................................................................ 34 3.7.1 Velden kopiëren ....................................................................................................................... 34 3.7.2 Velden verwijderen .................................................................................................................. 35 3.7.3 Veldpositie aanpassen ............................................................................................................. 35 3.7.4 De redraw-optie....................................................................................................................... 36 3.8 DE TEMPLATE AFWERKEN ...................................................................................................................... 36 3.8.1 Afwerken en opslaan................................................................................................................ 36 3.8.2 Bestaande templates bewerken ................................................................................................ 37 4 HET EIGENLIJKE SCANNEN................................................................................................................ 38 5 DATACORRECTIE .................................................................................................................................. 42 5.1 REVIEW MODE....................................................................................................................................... 42 5.2 PROBLEEMVELDEN ................................................................................................................................ 45 5.2.1 BLANK-velden......................................................................................................................... 45 5.2.2 MULT-velden........................................................................................................................... 47 5.2.3 ERROR-velden......................................................................................................................... 49 5.2.4 Image-velden ........................................................................................................................... 51 6 TRANSFORMEREN TOT EEN SPSS-BESTAND................................................................................. 53 6.1 PROCEDURE ........................................................................................................................................... 53 6.2 OPMERKINGEN....................................................................................................................................... 54 © MTSO – INFO / UA - FPSW
2
1 Inleiding Werken met schriftelijke enquêtes in wetenschappelijk onderzoek is een vaak gebruikte methode, maar kost veel geld en is heel arbeidsintensief. De enquêtes moeten in de eerste plaats opgesteld, gedrukt en verspreid worden. De meest tijdrovende bezigheid is echter het invoeren van de ontvangen enquêtes, waarbij bovendien de kans op invoerfouten heel reëel is. Remark Office OMR is een softwarepakket dat ontworpen is om data te verzamelen vanuit optische kentekens en barcodes op papieren formulieren. De software werkt samen met een scanner1 om de data te verzamelen. "OMR" staat voor 'Optical Mark Recognition'. Remark is een soepel softwarepakket, in die zin dat het de opsteller van de in te scannen vragenlijst veel vrijheid laat in de opmaak van de enquête. Kortweg kunnen de vijf basisstappen in het gebruik van de software als volgt omschreven worden: a) De onderzoeker moet eerst een scanbare enquête opstellen. Hij kan daarbij een softwarepakket naar keuze gebruiken, maar vaak zal het hier Word betreffen. Er bestaan heel wat regels en hulpmiddelen die moeten helpen om bij de creatie van het format de beste resultaten te krijgen. (zie paragraaf 2: De enquête maken) b) Vervolgens wordt een template gemaakt van de enquête. Daarvoor moet een blanco exemplaar ingescand worden. Men kan dan velden definiëren op de enquête waarvan men wilt dat ze herkend worden (OMR-velden, barcodes, antwoorden op open vragen). (zie paragraaf 3: Een template maken) c) Vervolgens worden de ingevulde formulieren ingescand. Het is aan te raden te werken met een sheetfeeder, zodat de verwerking snel kan gebeuren. De uiteindelijk resultaten worden in een spreadsheet weergegeven. Elke rij staat daarbij voor een nieuwe respondent, elke kolom voor een andere variabele. (zie paragraaf 4: Het eigenlijke scannen) d) Daarna kan men correcties aanbrengen aan wat ingescand is. Remark duidt fouten aan met verschillende kleuren en een beschrijving in de foute cel. Aangezien Remark "foto's" opslaat van de ingescande enquêtes, kan men de fouten ook corrigeren na het inscannen van alle enquêtes. In deze fase moeten ook de antwoorden op de open vragen ingevoerd worden. (zie paragraaf 5: Datacorrectie)
1
Op de verschillende mogelijkheden in keuze van scanners en op het configureren van de scanner gaan we niet dieper in. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
3 e) De uiteindelijke data kunnen bewaard worden in verschillende formats, waaronder Access, Excel en SPSS2, waarna de eigenlijke analyse kan beginnen. (zie paragraaf 6: Transformeren tot een SPSS-bestand) De voorbeelden die in deze MTSO-info3 gebruikt worden zijn afkomstig van de enquête over jongeren en hun geld in het tijdschrift Panache, een franstalig magazine voor Vlaamse jongeren uit het vijfde en zesde middelbaar. De voorbeeldvragen zijn dan ook in het Frans opgesteld. 2 De enquête maken 2.1 Het belang van lay-out Het belangrijkste om voor ogen te houden bij het opstellen van een enquête is de leesbaarheid. Een hoge herkenninsgraad hangt nauw samen met een duidelijke format. De enquête moet leesbaar zijn voor zowel de respondent als de scanner. Tevens verdient het aanbeveling zoveel mogelijk ruimte te gebruiken om vragen te stellen. Het is bovendien aan te raden te werken met zwarte tekst en tekens op wit papier. Als men toch kleuren wil gebruiken als achtergrond, gebruikt men best lichte pastelkleuren. De kleur moet namelijk verdwijnen tijdens het scannen. 2.2 Enquêtes lay-outen met Word Remark legt (in tegenstelling tot bijvoorbeeld SPSS-Teleform) geen vereisten op met betrekking tot de software die gebruikt moet worden om de enquête te maken. We kunnen dus gerust met een programma als Word aan de slag. Een voordeel van het gebruiken van Word is tevens dat we tabellen kunnen gebruiken om de merktekens uit te lijnen, zonder dat deze tabellijnen op de uiteindelijke enquête te zien zullen zijn. Enkel werken met spaties, kan zorgen voor antwoordmogelijkheden of bolletjes die niet mooi onder elkaar staan, zoals bijvoorbeeld: 2. Dans quelle filière de l’enseignement es-tu? A. général (ASO) B. professionel (BSO) C. technique (TSO) D. artistique (KSO) E. autre Dit probleem kan deels verholpen worden door te werken met tabs. Een herwerking van het bovenstaande voorbeeld zou er dan als volgt kunnen uitzien: 2. Dans quelle filière de l’enseignement es-tu? A. général (ASO) 2 3
Remark kan zelf ook heel wat analyses uitvoeren, maar ook daar wordt niet op ingegaan. Met dank aan Dimitri Mortelmans en Koen Pelleriaux voor hun opmerkingen bij een eerste versie van deze MTSO-info. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
4 B. professionel (BSO) C. technique (TSO) D. artistique (KSO) E. autre Echter, wanneer ervoor geopteerd wordt om in een enquête vragen te stellen in twee kolommen, dan wordt werken met tabs problematisch, omdat dan twee vragen door elkaar opgesteld moeten worden. Een verandering aan de antwoordcategorieën in vraag 2 bijvoorbeeld, zal ook de lay-out van vraag 1 aantasten. Bijvoorbeeld: 1. Je suis A. un garçon B. une fille
2. En quelle année es-tu en ce moment? A. en cinquième B. en sixième C. autre
Daarom is het aan te raden met de tabelfunctie in Word, omdat men dan ondermeer kan selecteren welke lijnen wel en welke lijnen niet op de uiteindelijke enquête gedrukt zullen worden. Een deel uit de Panache-enquête ziet er in een Word-formaat (waarbij eerst alle tabellijnen gedrukt worden) als volgt uit: 1.
Je suis
Dans quelle filière de l’enseignement es-tu? A. B. C.
général (ASO) professionnel (BSO) technique (TSO)
En quelle année es-tu en ce moment?
D.
artistique (KSO)
A.
en cinquième
E.
Autre
B.
en sixième
C.
autre
A. B. 3.
2.
Un garçon Une fille
4.
En quelle année es-tu né(e)? A. B. C.
1988 1987 1986
E. F. G.
1985 1984 <1984
Wanneer enkel de lijnen gekleurd worden die ook op de uiteindelijke enquête moeten verschijnen, ziet dit deel van de enquête er zo uit:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
5
1.
Je suis A. B.
3.
2.
A. B. C.
Un garçon Une fille
En quelle année es-tu en ce moment? A. B. C.
Dans quelle filière de l’enseignement es-tu?
en cinquième en sixième autre
4.
D.
général (ASO) professionnel (BSO) technique (TSO) artistique (KSO)
E.
autre
En quelle année es-tu né(e)? A. 1988 E. 1985 B. 1987 F. 1984 C. 1986 G. <1984
2.3 Merktekens kiezen In schriftelijke enquêtes wordt vooral met gesloten vragen gewerkt. Daarbij moet de respondent bij een bepaalde vraag een keuze maken uit de verschillende voorgelegde antwoordmogelijkheden. Dit kan hij doen door het nummer van het gekozen antwoord te omcirkelen of door het merkteken dat bij dit antwoord hoort zwart te kleuren. Remark werkt volgens de laatste manier. Merktekens in enquêtes zijn typisch bolletjes. Volgens testen blijkt dat ovalen in lettergrootte 10 of 12 het beste werken. Ovalen zijn vaak beter geschikt dan ronde bolletjes, omdat respondenten gemakkelijker ovalen volledig kunnen inkleuren dan ronde bolletjes4. Men kan ook vierkanten en driehoeken gebruiken, maar deze zijn moeilijker hanteerbaar en komen de inscanbaarheid van de enquête niet ten goede. Deze merktekens worden ook best gedrukt in zwarte inkt. Wanneer er tekst (bijvoorbeeld een letter of een cijfer) in de bolletjes wordt geschreven, moet deze lichter en kleiner zijn dan het merkteken zelf. De bolletjes zelf worden best niet vet gedrukt omdat Remark dan moeilijker ingekleurde van niet-ingekleurde bolletjes kan onderscheiden. Wanneer men opteert voor bolletjes, kiest men liefst bolletjes die overal een gelijke rand hebben. Een hoofdletter O in Arial werkt goed, maar diezelfde hoofdletter in Times New Roman is bovenaan en onderaan wat dunner en bijgevolg minder geschikt. Men kan voor de merktekens ook de font gebruiken die door de makers van Remark naar voor wordt geschoven: de OMR-bubbles. Deze kan gedownload worden van de volgende site: (http://www.principiaproducts.com/office/downloads.html). 2.4 Spaties en witruimte Hoewel het aan te raden is niet teveel witruimte te laten op de enquête, moet men er zich ook voor hoeden veel vragen op te weinig plaats te willen stellen. Zo 4
Het is aan te raden op de enquête voorbeelden toe te voegen van hoe de bolletjes gekleurd moeten worden en hoe ze niet moeten gekleurd worden, met begeleidende tekst. Bijvoorbeeld: Gelieve de bolletjes volledig zwart te maken, zoals z en niet zoals ; of 9. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
6 wordt aangeraden minstens 1 cm te laten tussen de merktekens (bolletjes) op de enquête en omliggende tekst, tekeningen en lijnen. Wanneer er merktekens gegroepeerd worden, moet men minstens één spatie laten tussen twee tekens. Alle merktekens moeten horizontaal en verticaal uitgelijnd zijn. 2.5 Barcodes Met barcodes kan men op betrouwvolle wijze informatie verkrijgen en men heeft er slechts een beperkte ruimte voor nodig. Zo kan men met een barcode op een enquête op voorhand de naam plaatsen van de school waar de enquête zal afgenomen worden. Er is dan voor iedere school een eigen barcode. Wanneer Remark de enquêtes gaat lezen, kan het eenvoudigweg de naam van de school afleiden uit de barcode. Zo moeten respondenten de naam van hun school niet opgeven en moet de onderzoeker deze ook niet intypen. Wanneer men met Barcodes werkt, kiest men best één van de barcodes die compatibel zijn met Remark: "Code 39", "Codabar" of "Interleaved 2 of 5". Barcodes mogen nooit kleiner zijn dan het origineel. De beste lettergrootte voor barcodes is 26. Als men met de Code 39 barcode werkt, moet men elke barcode laten beginnen en eindigen met een * en moet het uitroepteken (!) gebruikt worden voor spaties. Daan Vervoort in een barcode zou dus *Daan!Vervoort* worden. Barcodes moeten minstens 1 cm verwijderd zijn van andere tekst, lijnen en merktekens op een enquête. 2.6 Format van de enquête testen Remark is heel flexibel als het op het ontwerpen van de enquête aankomt, maar niet alle toepassingen zijn even gepast. Het is daarom aan te raden het scannen van de enquête te testen vooraleer ze op grote schaal te verspreiden. Kopieer5 daartoe een beperkt aantal enquêtes en creëer een template, waarbij desnoods de labels van de variabelen kunnen weggelaten worden. Scan vervolgens een aantal ingevulde enquêtes in. Wanneer men vervolgens het gecreëerde databestand gaat verbeteren, kan men eventueel problemen ontdekken: bolletjes die te dicht op elkaar staan of bolletjes die te dicht bij tekst staan waardoor Remark de resultaten niet kan lezen, enzovoort.
3 Een template maken 3.1 Inleiding Na het openen van Remark Office, krijgt men volgend scherm:
5
Het is belangrijk ervoor te zorgen dat marges van printer, fotokopieerapparaat en scanner niet maken dat een deel van de enquête verdwijnt. Alle kopijen kunnen trouwens best gemaakt worden op hetzelfde kopieerapparaat en best in één keer, zodat mogelijk problemen door verschillen in verscheidene kopieersessies vermeden worden. Test ook altijd het format vooraleer tot grote kopieeropdrachten over te gaan. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
7
In deze gekende Windows-stijl merken we vijf opties in menu's en drie icoontjes op. Welke menu's veelal van toepassing zijn in het werken met Remark zal verder duidelijk worden. Vanuit dit basisscherm vertrekt men naar de template editor of opent men een al dan niet lege spreadsheet om gegevens te verzamelen of te corrigeren. Wanneer men een nieuw onderzoek begint, moet men eerst een template maken. De procedure die men daarbij volgt, wordt uitgelegd in de volgende paragrafen. 3.2 De enquête inscannen De template moet gemaakt worden van een blanco exemplaar van de enquête. Dit exemplaar moet van dezelfde printer of hetzelfde kopieerapparaat komen als de ingevulde enquêtes, op dezelfde papierdikte enzovoort. De template moet exact gelijk zijn aan de ingevulde enquêtes. Het verdient daarom aanbeveling alle enquêtes in één keer te laten drukken of kopiëren en één exemplaar van die stapel te gebruiken als template. Zo vermijdt men problemen bij het scannen. Om een template te maken, scant men eerst een blanco exemplaar van de enquête in. Daarna bepaalt men de velden die herkend moeten worden tijdens het scannen. Klik in het basisscherm van Remark op het icoontje "Launch Template Editor": . In de menu's kiest men File Æ Launch Template Editor (CTRL + L).
Men verkrijgt dan volgend scherm.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
8
Klik in dit scherm op "new": N).
. In de menu's kiest men File Æ New (CTRL +
Er worden vervolgens gevraagd een aantal gegevens over de in te scannen template in te geven, zoals een omschrijving, het formaat en de oriëntatie.
Wanneer dat gebeurd is, klikt men op OK. Dan wordt gevraagd hoe de template moet bekomen worden. Er zijn daarbij twee mogelijkheden. De eerste mogelijkheid is om een image te gebruiken van een eerder ingescande enquête. De tweede mogelijkheid is om een nieuwe enquête in te scannen. Bij het scannen raadt Remark aan te werken met een resolutie van 200 DPI (dots per inch). De
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
9 resolutie voor het scannen van de template en het scannen van de enquêtes moet dezelfde zijn. Wanneer een enquête meer dan één pagina bedraagt, is het belangrijk dat de volgorde van de enquête in de template en bij het uiteindelijke scannen hetzelfde is.
Wanneer men ervoor kiest om een nieuwe enquête in te scannen (Acquire) en de scanner aangesloten is zoals het hoort, begint het scannen van de nieuwe enquête onmiddellijk. Na het scannen, is de basis voor de template gecreëerd. Dit wil zeggen dat Remark nu een "basisfoto" van de enquête heeft.
Wanneer de enquête meer dan één pagina beslaat, wat meestal het geval is, krijgt men de volgende vraag wanneer men op OK klikt.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
10
Wanneer men ervoor kiest alle pagina's (in dit geval vier) als aparte templates te bewaren, kan men later ook aanpassingen doen aan één van deze pagina's, zonder daarvoor aan de andere pagina's te moeten raken. Dit is een belangrijke keuze, want het creëren van afzonderlijke pagina's brengt ook met zich mee dat er per ingescande enquête niet één, maar verschillende image-files gemaakt worden.
Wij hebben ervoor geopteerd verschillende pagina's te maken. Het bovenstaande scherm kent duidelijk twee delen die gebruikt worden om de templates te maken en aan te passen. Aan de linkerkant van dit scherm zien we linken naar de vier pagina's in een boomstructuur, waarin elk veld op elke pagina zal aangegeven worden. Aan de rechterkant zien we een image van de verschillende pagina's. Men kan hierbij in- en uitzoomen (met de menu's: View Æ Zoom).
We hebben nu een ingescande versie van een lege enquête. Nu moeten we de te lezen velden op de enquête bepalen en informatie geven over die velden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
11 3.3 Velden definiëren Er zijn in Remark drie soorten velden: barcodes, OMR-velden en open velden. Vooraleer de velden op de template te maken, moet de onderzoeker weten wat hij met de data wil doen, aangezien dit een effect kan hebben op de definiëring van deze velden. Als het bijvoorbeeld de bedoeling is de data naar SPSS te transformeren, dan doet de onderzoeker er goed aan zijn Field Names te beperken tot 8 karakters. Remark kent de basis-Windowsbewerkingen zoals kopiëren, knippen, plakken, slepen en ongedaan maken. Door van deze hulpmiddeltjes gebruik te maken, kan men veel tijd besparen bij het opmaken van velden. Zo kan men ook velden kopiëren van één pagina van de template naar een andere pagina, of zelfs van één template naar een andere. De volgorde waarin de velden gedefinieerd worden, zal ook de volgorde zijn waarin Remark de velden op de enquêtes zal lezen. Men kan deze volgorde nog wijzigen door velden te verslepen of te knippen en te plakken. Wanneer er veranderingen aangebracht moeten worden aan een template, is het belangrijk voor ogen te houden dat deze veranderingen de data die reeds ingescand zijn niet meer zullen wijzigen. Wijzigingen kunnen het wijzigen van de rangorde van de velden betreffen of het veranderen van labels en het herbepalen van de grootte van velden. Wanneer de verandering zou slaan op het inscannen van een nieuwe image, dan is het niet nodig om van nul te beginnen bij het maken van een nieuwe template. Men kan de nieuwe image verkrijgen met de bestaande template door de Page Properties te wijzigen en een nieuwe image te verwerven (Acquire). Wanneer deze nieuwe image verkregen is, kan men Auto Align (zie verder) gebruiken om de bestaande velden op de orginele template te verschuiven naar hun juiste locatie op de nieuwe image, waardoor men een aangepaste template heeft gemaakt. Het is tevens belangrijk om een kopij van de orginele template – zonder velden – te bewaren, zodat men later gemakkelijker eventuele fouten kan corrigeren. In wat volgt gaan we achtereenvolgens dieper in op de drie invoervormen die Remark kent: OMR-velden, Image-velden en Barcode-velden. 3.4 OMR-velden OMR-velden zijn ongetwijfeld het meest voorkomend in elke enquête. Aan de respondent wordt een vraag voorgelegd met een aantal antwoordmogelijkheden. Hij moet dan een antwoord aanduiden uit de voorgelegde lijst. Er bestaan natuurlijk verschillende tussenvormen. Zo kan een respondent bijvoorbeeld gevraagd worden één antwoord of alle passende antwoorden aan te stippen. In wat volgt overlopen we eerste de bestaande types van OMR-velden in Remark. Vervolgens gaan we dieper in op hoe OMR-velden gedefinieerd moeten worden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
12 3.4.1 Types OMR-velden 3.4.1.1 Multiple Field Een multiple field is waarschijnlijk het meest voorkomend. Het wordt gebruikt voor multiple choice vragen. Zowel het toelaten van één antwoord past hierbij als het toelaten van meerdere antwoorden. Meerdere gelijkaardige vragen kunnen eenvoudigweg onder elkaar geplaatst worden en in één veld gedefinieerd worden. De vragen moeten dan wel een gelijk aantal antwoordcategorieën hebben. Typische vragen hierbij zijn attitude-schalen waarbij een hele reeks vragen wordt voorgeschoteld aan de respondent die bij elke vraag moet kiezen hoe hij ten opzichte van de vermelde stelling staat, telkens volgens eenzelfde patroon, zoals: helemaal akkoord, akkoord, neutraal, niet akkoord en helemaal niet akkoord. Al deze vragen kunnen onder elkaar geplaatst worden en in één enkel OMR-veld gedefinieerd worden. Wanneer bijvoorbeeld gevraagd wordt naar het geslacht van de respondent zijn de antwoordmogelijkheden Man Vrouw 3.4.1.2 Grid Field Een grid field wordt gebruikt voor vragen die uit verschillende rijen en kolommen bestaan en waarbij één antwoord wordt afgeleid volgens al deze rijen en kolommen. Een voorbeeld is het geven van een postnummer, waarbij de respondent uit elke kolom van 0 tot 9 respectievelijk het eerste, tweede, derde en vierde nummer van het postnummer moet geven. Het resultaat van deze vier antwoorden is dan één enkel nummer. Een respondent die in Wilrijk woont zal kiezen en in de uiteindelijke datacel zal ook "2610" staan. 1e
2e
3e
4e
cijfer van de postcode.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
13 3.4.1.3 List Field Een list field sluit nauw aan bij een multiple field, maar bij een list field staan de antwoorden niet in één enkele rij of kolom. De respondent moet bijvoorbeeld de eerste letter van zijn voornaam aankruisen uit een lijst met alle letters van het alfabet. Bij een respondent met de voornaam Stefanie, zal in de Remark datacel een "S" staan.
3.4.1.4 Add Field Bij een Add field worden de antwoorden van verschillende vragen bij elkaar opgeteld om zo één waarde voort te brengen. Zo kan men bijvoorbeeld de vraag stellen hoe men zich gisteren en eergisteren voelde op een schaal van 5, waarbij 1 ongelukkig is en 5 gelukkig. Een antwoord van 2 op de eerste vraag en een antwoord van 3 op de tweede vraag zal als resultaat 5 opleveren. Deze respondent heeft dus op een schaal van 2 (minimum) tot 10 (maximum) een "gelukkigheidsgraad" van 5. Deze berekeningen kunnen echter later in SPSS ook gedaan worden. 3.4.1.5 Boolean Field Een Boolean field wordt gebruikt wanneer men een bepaald antwoord wil krijgen (bijvoorbeeld "Ja") als een bepaald antwoord aangestipt wordt en een ander bepaald antwoord (zoals "Neen") wil krijgen als de desbetreffende antwoordcategorie wordt opengelaten. Elk antwoord zal later ook een aparte variabele worden (wat niet zo is bij Binary fields (zie verder)). Men kan bijvoorbeeld aan een respondent vragen of hij al dan niet op regelmatige basis kijkt naar de volgende televisiezenders ATV JIMTV VITAYA
LIBERTYTV TMF KANAAL Z
Bij een respondent die geregeld naar ATV, JIMTV en TMF kijkt en nauwelijks naar de andere zenders zullen de zes variabelen (zenders) als volgt ingevuld worden ATV Ja
JIMTV Ja
VITAYA Neen
LIBERTYTV Neen
TMF Ja
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
Kanaal Z Neen
14 3.4.1.6 Binary Field Een Binary field wordt hetzelfde opgevat als een Boolean field, maar bij de eerste vorm worden de verschillende antwoorden weergegeven in één enkel (binair) antwoord. Wanneer dezelfde vraag voorgelegd wordt als hierboven bij de Boolean fields en de respondent antwoordt op dezelfde wijze, dan komt er uiteindelijk in één datacel te staan: 110010. Voor data-analyse is deze vorm van antwoord niet verkieslijk. 3.4.2 OMR-velden definiëren 3.4.2.1 Standaard methode OMR-velden definiëren gebeurt in een aantal cruciale stappen. Als eerste kiest men de optie "OMR-veld". Deze optie wordt gesymboliseerd door
In de menu's kiest men voor Page Æ Insert After Æ Field Æ OMR. Wanneer men deze optie aanklikt, wordt de cursor een kruis en kan men met de muis een rechthoekig veld creëren rond de "bolletjes" die horen bij de mogelijke keuzes als antwoord op de gestelde vraag6. De rand rond OMR-velden kleurt daarbij typisch rood.
Bij het creëren van dit OMR-veld, is het belangrijk voor ogen te houden dat dit enkel de merktekens mag omvatten en geen tekst of lijnen. Wanneer er toch tekst of lijnen tussen de verschillende merktekens zou staan, moet men werken met de optie Join Fields die verder uitgelegd zal worden. Nadat men het OMR-veld bepaald heeft, kan men dubbelklikken op deze rechthoek en moet men informatie geven aangaande het net getekende veld. Meestal echter opent dit Field Properties-scherm automatisch na het bepalen van 6
Zoals eerder vermeld komen de voorbeelden uit de Panache-enquête. Daarom zijn ze in het Frans opgesteld. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
15 het veld. In Field Name bepaalt men de naam van het veld en de variabele. Men geeft verder aan hoeveel kolommen en rijen de antwoordcategorieën beslaan en wat voor veld dit OMR-veld is: Multiple, Grid, List, Add, Boolean of Binary. De vraag naar geslacht is typisch een Multiple field. Vervolgens moet men de oriëntatie van de vraag bepalen. Er zijn daarbij twee keuzes, volgens rij of volgens kolom. De oriëntatie van de vraag geeft aan hoe de vraag gelezen moet worden. In dit geval is het duidelijk. De verschillende antwoordmogelijkheden zijn geordend volgens kolom.
In Data Type moet men bepalen wat het resultaat van de vraag is. Er zijn daarbij slechts twee mogelijkheden: tekst (text) of een getal (numeric). Bij Labels en Values kan men aangeven welke waarde achter welk resultaat moet staan (meestal begint dit bij 1 of bij 0) en welk label bij welke waarde hoort. Men kan ook op een eenvoudige manier labels toekennen door de functie Label Range, waarbij enkele mogelijkheden worden geopperd, zoals hieronder aangegeven.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
16
De andere opties zijn vooral van toepassing op attitudeschalen. De Advanced opties worden verder uitgelegd. 3.4.2.2 Gesplitste antwoordmogelijkheden samenbrengen Bij het creëren van OMR-velden zijn er een aantal interessant opties te melden. Zo kan men twee kolommen definiëren zodat die als één vraag gezien worden. Het is immers soms aan te raden om plaats te sparen de antwoordmogelijkheden bij een vraag te splitsen in twee kolommen. Bij de hieronder weergegeven vraag naar geboortejaar zijn de antwoordmogelijkheden gesplitst in twee kolommen.
Om twee OMR-velden met elkaar te verbinden (join), defineert men eerst het eerste veld. In dit geval zou men bijvoorbeeld eerst de linkerkolom kunnen definiëren volgens de hiervoor uitgelegde methode. Vervolgens klikt men op
In de menu's kiest men voor Field Æ Add Join. Nu bepaalt men het OMR-veld dat met dit veld verbonden moet zijn. Men past vervolgens de informatie aan in het OMR-Field Properties-venster (voornamelijk output labels and values) volgens de hiervoor uitgelegde methode en men heeft een nieuw OMR-veld gecreëerd waarbij de antwoordcategorieën niet fysiek tegen elkaar staan. Deze velden krijgen een donkerrode / bruine kleur. Men kan ook meer dan twee velden met elkaar linken. De te volgen procedure is daarbij dezelfde als zojuist beschreven. De antwoordcategorieën voor een vraag over het aantal siblings kan dan als volgt opgezet worden in een enquête.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
17
Wanneer men velden die men met elkaar verbonden heeft, opnieuw wil scheiden, selecteert men dit ééngemaakte veld en klikt men op
In de menu's kiest men dan voor Field Æ Unjoin. De velden worden nu opnieuw aparte velden. Wanneer er aanpassingen nodig waren aan de velden om ze later opnieuw samen te voegen, doet men eerst de aanpassingen en voert men vervolgens de Rejoin-procedure uit. Om velden terug samen te voegen, houdt men de SHIFT-toets ingedrukt, terwijl men met de muis de velden selecteert. Vervolgens klikt men op
Wie werkt met de menu's selecteert Field Æ Join. De velden worden nu opnieuw samengevoegd. 3.4.2.3 Oriëntatie volgens kolom of volgens rij Het bepalen van de oriëntatie van een vraag zorgt soms voor verwarring. Ter verduidelijking zullen twee vragen naast elkaar geplaatst worden, waarbij het duidelijk is dat de eerste volgens kolom dient gelezen te worden, de andere volgens rij.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
18 Bij de volgende vraag wordt er gepeild naar het opleidingsniveau van vader en moeder. Telkens zijn er vijf mogelijke antwoordcategorieën. Het is duidelijk dat er eigenlijk twee vragen in één gesteld worden. De eerste vraag betreft dan het opleidingsniveau van de vader, de tweede dat van de moeder. Om plaats te winnen (en ook omdat het duidelijker is), worden deze twee vragen samengezet. De antwoordmogelijkheden zijn duidelijk geörienteerd per kolom. Zo worden ze dan ook in de template ingevoerd.
B A
C
Deze vraag is georiënteerd per kolom (A). Er worden eigenlijk twee vragen gesteld en er zijn dan ook twee kolommen (B). Met de optie "Advanced" (zie hieronder) kan men aangeven dat het eerste antwoord (eerste kolom) betrekking heeft op het opleidingsniveau van de vader en het tweede antwoord (tweede kolom) op dat van de moeder. Per vraag zijn er vijf antwoordmogelijkheden (vijf rijen) (C).
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
19
Zoals te merken in het bovenstaande scherm, zijn er nog twee extra opties. De eerste betreft Use Default Field Names. Men kan, om snel te werken, Remark de namen van de verschillende subvariabelen laten bepalen. Remark gebruikt daarvoor de algemene naam van de vraag en plaatst daarachter een oplopend nummer. Bij een vraag naar lidmaatschap van verschillende verenigingen kan men bijvoorbeeld willen peilen naar het lidmaatschap van sportverenginigen, politieke verenigingen, culturele verenigingen en religieuze verenigingen. Wanneer men deze vraag algemeen bijvoorbeeld "Lidmaatschap" noemt, dan zal Remark de verschillende onderdelen benoemen op de volgende wijze: "Lidmaatschap1", "Lidmaatschap2", "Lidmaatschap3", "Lidmaatschap4". Soms is het echter aan te raden om de namen van deze subvariabelen zelf te definiëren. Bij hetzelfde voorbeeld zou men dan namen kunnen geven als: "sport", "politiek", "cultuur" en "religie". Het wordt dan in de uiteindelijke Remark-datafile sneller duidelijk waar het precies om draait. Bij het bewaren van het Remark-bestand als een SPSS-bestand, wordt de Question Text gebruikt om de verschillende subvariabelen te definiëren. De tweede optie betreft de Recognition Treshold. Deze drempel staat standaard ingesteld op 3 en kan voor OMR-velden variëren van 1 tot 6. Het is aan te bevelen de standaardinstelling te gebruiken, tenzij er problemen voorzien worden met het lezen van lichte pagina's, pagina's van verminderde kwaliteit of pagina's waar de respondent de bolletjes niet volledig heeft ingekleurd. In zulke gevallen moet de herkennings-drempelwaarde verlaagd worden. Het tweede voorbeeld betreft een vraag die geörieënteerd is per rij.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
20
In deze vraag worden vier verenigingsvormen voorgelegd waarbij telkens gevraagd wordt of men er lid van is of niet. Iedere vraag stelt met andere woorden een gelijkaardige vraag voor waarbij de antwoordcategorieën gelijk lopen: telkens ja of neen. In de optie Advanced kunnen we dit keer aanduiden op welke lidmaatschapsvraag het antwoord dan "ja" of "neen" is.
Dat het verschil in keuze voor codering volgens rij of kolom niet altijd duidelijk is, kunnen we afleiden uit de volgende twee voorbeelden. In het eerste voorbeeld worden de respondenten vijf mogelijke belangrijke elementen uit het leven voorgelegd. Het is de bedoeling dat zij een top-vijf maken, m.a.w. dat zij aan elk van deze vijf elementen een cijfer toekennen van 1 tot 5. Elk cijfer mag daarbij slechts éénmaal gegeven worden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
21
Deze vraag kan zowel gecodeerd worden per rij als kolom. Wanneer men besluit per rij te werken, zal aan de vijf levenselementen een cijfer toegekend worden van 1 tot 5. Echter, bij controle van deze gegevens zal het dan moeilijker zijn om na te gaan of elk cijfer inderdaad slechts éénmaal gegeven is. Daarom is het beter om dit soort vragen te coderen per kolom. Wanneer dan een cijfer meer dan één keer wordt toegekend, zal Remark automatisch een foutmelding geven (MULT) omdat het maar één "antwoord" verwacht. In zekere zin verwisselen we met deze werkwijze vraag en antwoord van plaats. De labels die we toekennen aan de verschillende "vragen", zijn de 5 verschillende "levenselementen". Met de optie Advanced, kan men nog eens verduidelijken welke de verschillende vragen zijn. Eigenlijk kan men de verschillende vragen ook lezen als "Wat vindt u het belangrijkste element in het leven uit de volgende lijst van 5 elementen?" en "Wat vindt u het tweede belangrijkste element uit de volgende lijst van 5 elementen?" tot "Wat vindt u het minst belangrijke element uit de volgende lijst van 5 elementen?".
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
22
Wanneer een cijfer wel meermaals mag toegekend worden, is het beter om de vraag te coderen per rij. In het volgende voorbeeld moeten de respondenten aangeven hoeveel geld ze spenderen aan uitgavenposten, door een cijfer van 1 tot 10 toe te kennen aan die specifieke uitgaanspost. Een 10 wil zeggen dat men er veel geld aan besteedt, een 1 wil zeggen dat men er geen geld aan besteedt.
Per uitgavepost (rij) zal een cijfer gegeven worden en het is ook dit cijfer dan we willen terugvinden in ons databestand. We willen bijvoorbeeld niet onmiddellijk weten welke posten allemaal het cijfer 5 hebben gekregen. Daarom coderen we deze vragen per rij.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
23
Het geven van de labels bij dit soort vragen kan via een versnelde manier gebeuren. Men kan namelijk Label Range aanklikken en de gepaste range selecteren uit de aangeboden keuzes. Met de optie "Advanced" kan men duidelijker aangeven welke de verschillende uitgavenposten zijn.
Wanneer men werkt met schalen, kan men ook labels selecteren uit een lijst of zelf labels maken die men daarna opslaat om in de toekomst opnieuw te gebruiken. De volgende vraag bestaat uit 14 items die allemaal dezelfde antwoordcategorieën hebben, gaande van "helemaal niet akkoord" tot "helemaal akkoord". Zulke typische 5-punts-Likertschalen komen in meerdere enquêtes voor en het verdient dan ook aanbeveling om niet telkens opnieuw de labels te moeten maken. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
24
Deze vraag is duidelijk geöriënteerd per rij. Iedere rij betekent een nieuwe vraag. De antwoorden staan in de kolommen. Wanneer we de labels invoeren in onderstaand scherm, kunnen we na de invoer klikken op Add (bij Scale). Zo worden deze labels toegevoegd als schaalwaarden van een eigen schaal.
Later kunnen we dan bij Scale opnieuw deze zelfde schaal selecteren (zoals hieronder aangegeven), en hoeven we ze niet terug in te voeren.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
25
Met de optie "Advanced" kan men bij deze verschillende attitudevragen aangeven waarover elke vraag gaat, zoals hieronder aangegeven.
3.4.2.4 Werken met Boolean-fields Soms is het niet wenselijk om wanneer keuzes niet aangestipt worden, dit te coderen als een missing value. In het volgende voorbeeld wordt aan respondenten gevraagd of hun ouders bepaalde van hun uitgaven (volledig of gedeeltelijk) betalen. Er worden 12 mogelijke uitgaveposten voorgelegd. Telkens moet de respondent het bolletje bij de desbetreffende post zwart maken als zijn of haar ouders (een deel van) de uitgaven hiervoor voor hun rekening nemen. Wanneer de ouders dat niet doen, moet het bolletje open gelaten worden. Nadien moeten
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
26 ze dezelfde vraag nog eens beantwoorden, maar dan moeten ze aangeven of zijzelf (een deel van) die uitgaven betalen.
Zowel het openlaten als het inkleuren van een bolletje hebben een betekenis. Een niet zwart gemaakt bolletje is niet zomaar een missing value. Bovendien mogen respondenten meer dan één uitgavepost selecteren. De optie "multiple" is hiervoor ongeschikt. De optie "Binary" is eveneens ongepast, omdat deze slechts één output-waarde genereert, van de vorm 01011010. Voor verdere analyses in bijvoorbeeld SPSS, is dit ongeschikt. De optie "Boolean" genereert voor elke nieuwe uitgavepost een nieuwe output-variabele, waarin aangegeven wordt of deze optie aangestipt is of niet. In het Field Properties-scherm, klikken we daarvoor volgende keuzes aan:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
27 Wanneer het desbetreffende bolletje niet is gekleurd, wordt de waarde 0 toegekend en het label "ouders betalen niet". Wanneer het bolletje wel is gekleurd, wordt de waarde 1 toegekend en het label "ouders betalen wel". Zo vermijden we dat lege bolletje als "Blank" zullen aanschouwd worden in het Remark-bestand en later als missing in de datafile komen. 3.4.2.5 Advanced-opties De Field Names, de Question Text, de Recognition Treshold en de Use Default Field Names van de tab General zijn reeds behandeld. In deze paragraaf willen we wat dieper ingaan op andere tab-bladen die binnen deze Advanced-opties bestaan. We moeten opmerken dat deze Advances-opties niet uitsluitend betrekking hebben op OMR-velden, maar ook met image-velden en barcodevelden kunnen gebruikt worden. De eerste tab waar we dieper op ingaan is de Grade & Tally. Met deze optie kan men de standaardinstellingen bij Grade & Tally wijzigen. Standaard worden enkel Multiple en List-OMR velden gesorteerd en geteld. Correcte antwoorden krijgen hierbij een score 1, incorrecte waarden een score 0 en blanco antwoorden eveneens een score 0. Een standaardtoepassing van deze optie is bijvoorbeeld het toekennen van twee punten bij een juist antwoord, het aftrekken van één punt bij een fout antwoord en het geven van nul punten wanneer de respondent zich onthoudt van het geven van een antwoord.
De tweede tab die we bespreken, geeft meer opties over Blank & Multiple Responses.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
28
Blanco-antwoorden kleuren geel en krijgen de tekst BLANK in de datacel. In plaats van deze tekst kan de onderzoeker ook opteren voor een spatie, een tilde (~), een asterisk (*) of helemaal niks. Multiple-responses kleuren groen en krijgen de tekst MULT in de datacel. Men kan er evenwel voor opteren om meerdere antwoorden toe te laten. In deze tab kan men ook aangeven of er meerdere antwoorden mogen gegeven worden en hoeveel er dat maximaal mogen zijn (max). Wanneer er slechts één antwoord mag gegeven worden, kan men Remark uit de verschillende antwoorden ook de beste laten selecteren na een evaluatie van de verschillende antwoorden. Tenslotte kan men ook kiezen om in plaats van de tekst MULT in de groene datacellen een spatie, een tilde, een asterisk of niets te plaatsen7.
7
Andere Advanced-opties komen minder vaak voor. Met de optie ID-field, die samen met de Auto Form ID-optie wordt gebruikt, wordt het mogelijk om verschillende soorten enquêtes door elkaar in te scannen. Remark zal namelijk aan de hand van deze optie telkens de juiste enquête met de juiste template vergelijken. Met andere woorden, aan de hand van dit ID-veld zal Remark weten welk format ingescand wordt. ID-velden kunnen enkel gebruikt worden met OMR-velden die Grid, Add of Binary zijn, Multiple en List-OMR velden voor enkele items of met Barcode-velden. Een andere minder vaak voorkomende optie is de Database-verificatie. Door gegevens van een bepaald OMR-veld te linken aan gegevens uit een database, kan bijvoorbeeld nagegaan worden of bepaalde waarden en gegevens wel mogelijk zijn. Zo kan men bij het inscannen van een Belgische postcode nagaan of deze postcode wel bestaat. Ook kan men gegevens uit een database vergelijken met een OMR-veld en dan de waarde van dit OMR-veld wijzigen in een andere waarde uit de database, die met de eerste waarde verbonden was. Wanneer in een database bijvoorbeeld bij de postcode ook de naam van de gemeente staat waar die postcode bij hoort, dan kan Remark bij het lezen van de postcode op de enquête, dit linken met de postcode in de database en uiteindelijk de naam van de gemeente in de datacel plaatsen waar die postcode eigenlijk zou moeten staan. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
29 Tot zover de OMR-velden. Laten we overgaan tot de twee andere types die met Remark ingescand kunnen worden: image-velden en barcodes. 3.5 Image-velden 3.5.1 Eigenschappen van Image-velden Image-velden worden voornamelijk gebruikt bij handgeschreven tekst. Soms wordt aan de respondent een open vraag voorgelegd. Remark kan deze informatie niet onmiddellijk lezen, maar neemt een "foto" van dit tekstvak en linkt dit aan het latere Remark-databestand. Wanneer men dan in dat Remark-databestand op het desbetreffende vakje (dat blauw kleurt als Remark geschrift heeft opgemerkt in dit tekstvak) dubbel klikt, krijgt men een afbeelding te zien van dit tekstvak en kan men deze tekst handmatig overtypen. Er is nog geen software voorhanden die handschrift efficiënt in getypte tekst omzet. Ook bij het opstellen van Image-velden zijn er verschillende opties. Eerst moet men een naam geven aan het desbetreffende veld in Field Name. Bij Field Type zijn er twee opties. De meest gebruikte optie bij het verwerken van enquêtes is Data Entry. Hierbij moet men de gegevens waarvan een foto genomen wordt, (achteraf) typen in een datacel. Bij de optie Image Clip wordt er in de datacel enkel een link geschreven naar de plaats waar de foto opgeslagen is en Remark zal niet vragen over te typen wat de respondent geschreven heeft. Bij Data Type zijn er opnieuw twee opties: Numeric en Text. Deze keuzes spreken voor zich. Het is echter belangrijk op te merken dat als men kiest voor Numeric men later bij het intypen van de data enkel cijfers kan gebruiken.
Default Fill plaatst zelf een waarde in de datacel van deze enquête. De optie Auto Increment kan daarbij gebruikt worden om deze waarde systematisch te laten oplopen. Dat kan bijvoorbeeld handig zijn om enquêtenummers toe te wijzen.
De optie Automatically Detect The Presence of Handwriting laat Remark nagaan of er tekst geschreven is in het daartoe voorziene veld. Wanneer een respondent de open vraag gewoon open gelaten heeft, zal Remark dit veld verder ongemoeid laten. Wanneer Remark wel geschrift opmerkt, zal het later de betreffende datacel blauw kleuren, zodat de invoerder weet dat de respondent op deze open vraag heeft geantwoord. Het verdient hierbij een speciale vermelding dat wanneer respondenten bijvoorbeeld met potlood hebben geschreven dit soms als een leeg vak aanzien wordt, terwijl het dat niet is. Er zijn eveneens een aantal Link Properties. Dit is handig als een open vraag enkel beantwoord dient te worden wanneer bij een vorige OMR-vraag een bepaald antwoord is gegeven (zoals "andere"). Het is belangrijk op te merken dat dit enkel voor het vorige OMR-veld mogelijk is. Men geeft dan op welk antwoord op die
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
30 vorige vraag gegeven moet zijn zodat de open vraag (mogelijk) beantwoord is. Verder wordt hiervan een voorbeeld gegeven. 3.5.2 Image-velden definiëren Image-velden moet men aanduiden op de template. Men klikt daarvoor op
In menutaal wordt dit: Page Æ Insert After Æ Field Æ Image. De cursor wordt een kruis en met de muis creëert men vervolgens een rechthoekig veld rond het vak waar de respondent de tekst zal schrijven. De rand rond Image-velden kleurt daarbij groen.
Wanneer men dubbelklikt op dit image-veld, krijgt men een scherm waarin verschillende eigenschappen van dit veld bepaald kunnen worden. In de eerste plaats geeft men het veld een naam. Vervolgens bepaalt men bij Field Type of de data later (manueel) in het bestand ingevoerd zullen worden, of er enkel een link naar de image in het bestand komt.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
31
Bij Data Type bepaalt men of de variabele een getal zal zijn (of een getalcode) of een tekstvariabele. In onderstaand geval betreft het een postcode en gaat het dus om een numerische variabele. De waarde die ingevuld moet worden is geen standaardwaarde en we werken dan ook niet met een Default Fill. We selecteren wel nog het automatisch detecteren van handschrift. Als de respondent geen postcode heeft ingevuld, zal Remark ons later niet vragen om dit vak in te vullen.
In het volgende voorbeeld wordt het principe van het linken van een tekstveld met het voorafgaand OMR-veld geïllustreerd. De eerste vraag is of de respondent een bijverdienste heeft. Hiervoor wordt een (joint) OMR-veld gehanteerd. Wanneer de respondent op deze vraag antwoordt dat hij geen bijverdienste heeft, wordt hem vervolgens gevraagd om de reden voor het niet hebben van een bijverdienste op te geven, in een open vraag. Hiervoor wordt een Image-veld gedefiniëerd. Dit veld wordt gelinkt aan de vorige vraag omdat enkel respondenten die op de vorige vraag negatief hebben geantwoord op deze vraag een antwoord moeten geven.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
32
In bovenstaand scherm wordt aangegeven dat het Image-veld enkel betrokken moet worden als het antwoord op de daaraan voorafgaande OMR-vraag "neen" was8. Remark geeft zelf de mogelijke antwoorden van die vorige vraag aan als keuzes. 3.6 Barcode-velden 3.6.1 Eigenschappen van Barcode-velden Met barcodes kan men op betrouwvolle wijze informatie verkrijgen en dit op een beperkte ruimte. De informatie die met barcodes verzameld wordt heeft veelal betrekking op een hoger dan het indivuele niveau (scholen, gemeenten). In een barcode kan men bijvoorbeeld aangeven in welke gemeente de respondent woont aan wie men een schriftelijke enquête stuurt. Men brengt deze barcode dan aan 8
Zoals eerder vermeld is het niet mogelijk dit ook toe te passen voor andere velden dan het OMRveld dat voorafgaat aan dit image-veld. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
33 vooraleer men de enquête verstuurt en wanneer de enquête anoniem terugstuurd wordt, kan men op deze manier de gemeente afleiden. Anders zou men een lange lijst met gemeenten als keuzemogelijkheid moeten opgeven (OMR-veld), wat niet werkbaar is, of zou men de respondent moeten vragen de gemeente waar hij woont neer te schrijven (image-veld), wat opnieuw veel werk betekent wanneer de onderzoeker dit moet overtypen. Barcodes kunnen rechtstreeks op een enquête gedrukt worden of met een sticker op de enquête worden bevestigd, maar het is (zoals steeds bij Remark) van groot belang dat deze barcode steeds op dezelfde plaats staat. Barcodes kunnen gemaakt worden met behulp van specifieke software, al kan het ook met Word. Remark kent drie van de meest voorkomende Barcode-types: "Code 39" (Alfanumeriek), "Codabar" (Numeriek) en "Interleaved 2 of 5" (Numeriek). 3.6.2 Barcode-velden definiëren Barcode-velden moet men aanduiden op de template. In de menu's kiest men achtereenvolgens Page Æ Insert After Æ Field Æ Barcode. Wie werkt met de muis klikt op
De cursor krijgt de vorm van een kruis en met de muis creëert men vervolgens een rechthoekig veld rond het vak waar de barcode staat. De rand rond barcodevelden kleurt daarbij typisch blauw.
Bij het definiëren van barcodes moeten verschillende zaken ingevoerd worden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
34
Ten eerste moet men het veld een naam geven. Vervolgens moet men selecteren welke van de drie vermelde barcode-types gebruikt werd. Men kan dit ook door Remark laten detecteren. Vervolgens moet men de oriëntatie van de barcode bepalen, waarbij men keuze heeft tussen een horizontale en een verticale oriëntatie. Bij Data Type heeft men opnieuw de keuze tussen tekst-data en numerische data. 3.7 Gevorderde veldbewerkingen Achtereenvolgens worden het kopiëren, het verwijderen, het herordenen en aanpassen van velden besproken. Men kan hiervoor zowel het boomstructuurscherm (links) gebruiken als de image-voorstelling (rechts). 3.7.1 Velden kopiëren Om velden te kopiëren activeert men het veld dat men wil kopiëren. In de menu's kiest men Edit Æ Copy of men klikt op
In de boomstructuur selecteert men het veld waarvoor of waarachter men dit veld wil kopiëren. In het menu kiest men Edit Æ Paste Before (CTRL + B) of Edit Æ Paste After (CTRL + V) om het veld voor of na het geselecteerde veld te kopiëren.
Door te klikken op veld.
plakt men het gekopieerde veld na het geselecteerde
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
35 Nadat men het veld heeft geplakt, zal het verschijnen in de image-voorstelling van de template. Vervolgens moet men het met de muis naar de juiste positie verslepen en de eigenschappen van het veld aanpassen. Men kan ook in de boomstructuur het te kopiëren veld selecteren. Vervolgens sleept men dit veld naar de plaats waarnaar men het zou willen kopiëren. Op die plaats (men houdt nog steeds de linkermuisknop ingedrukt), drukt men op CTRL en laat men de linkermuisknop los. Een dialoogscherm vraagt of dit veld gekopieerd moet worden op de plaats die geselecteerd is. Men klikt dan op OK. Nadat men het veld heeft geplakt, zal het verschijnen in de image-voorstelling van de template. Nu moet men het met de muis naar de juiste positie verslepen en de eigenschappen van het veld aanpassen.
3.7.2
Velden verwijderen
Om velden te verwijderen, volstaat het veld dat men wil verwijderen te selecteren en vervolgens in het menu Field Æ Delete te selecteren. Men kan ook de deletetoets op het toetsenbord gebruiken of klikken op
.
3.7.3 Veldpositie aanpassen Wanneer een veld op een incorrecte wijze is aangebracht rond de merktekens, zal het volledig rood kleuren, zoals aangegeven in onderstaand scherm.
Een veld zal ook rood kleuren als het aantal rijen en kolommen niet overeen komt met wat in de Field Properties is aangegeven. Als een veld volledig rood is gekleurd, kan men het verplaatsen door het met de muis te selecteren en de verslepen naar een andere, correcte plaats. Men kan ook de veldranden wijzigen om extra aanpassingen te doen.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
36
Als een veld schijnbaar correct gepositioneerd is en het toch rood kleurt, moet men dubbelklikken in het veld om de Field Properties weer te geven en de problemen te zoeken (voornamelijk in het aantal rijen en kolommen dat opgegeven werd). Wanneer de nodige aanpassingen zijn gedaan, klikt men op OK. 3.7.4 De redraw-optie De redraw-optie laat toe dat een veld opnieuw getekend wordt zonder dat de eigenschappen van het veld – zoals het eerder gedefinieerd was – verloren gaan. Deze optie is vooral nuttig wanneer men niet wil werken met het verslepen van het veld of de randen ervan. Om een veld te hertekenen moet men het selecteren in de boomstructuur of in de image-voorstelling. Vervolgens klikt men er met de rechtermuisknop op en kiest men Redraw. In de menu's kiest men Field Æ Redraw. De cursor krijgt de vorm van een kruis. Men kan nu het nieuwe veld tekenen met de muis. Wanneer men de muisknop lost, vraagt Remark in een dialoogvorm of het deze nieuwe veldlocatie moet aanvaarden. Klik Ja om te aanvaarden en Neen om te weigeren te terug te keren naar de oorspronkelijke veldlocatie zonder veranderingen te hebben gemaakt. 3.8 De template afwerken 3.8.1 Afwerken en opslaan Op alle plaatsen waar op een enquête-formulier informatie te vinden zal zijn, moet men de gepaste velden definiëren. Wanneer alles gedefinieerd is, ziet de template er ongeveer als volgt uit:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
37
Als de template opgesteld is, moet men deze opslaan. Het is bovendien aan te raden om tijdens het opbouwen van de template geregeld het bestand op te slaan, om bij mogelijke problemen niet teveel werk te verliezen. Om de template op te slaan kiest men in de menu's File Æ Save As…. In het venster dat vervolgens verschijnt geeft men een naam aan de enquête en bewaart men ze. Het is belangrijk te onthouden waar men de template heeft opgeslagen. Bij het scannen van de enquêtes zal Remark eerst vragen naar de template die als basis moet dienen. 3.8.2 Bestaande templates bewerken 3.8.2.1 Templates openen, bewerken en bewaren Men kan eerder gecreëerde templates bewerken om pagina's toe te voegen of weg te laten of om veranderingen aan te brengen aan veld-definiëringen of pagina-layout. Het bewerken van templates vindt best niet plaats tussen het scannen door omdat dit compatibiliteitsproblemen met zich kan meebrengen wanneer men het aantal vragen gaat veranderen of de volgorde van lezen gaat veranderen. Om een bestaande template te openen, kiest men in de menu's File Æ Open of . Vervolgens kiest men de template die men zou willen klikt men op bewerken en klikt men op OK. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
38
Men kan nu de template bewerken: velden kopiëren of verslepen, eigenschappen van velden wijzigen, … Tenslotte kan men het bestand opslaan (eventueel onder een andere naam). 3.8.2.2 Auto Align De funtie Auto Align verdient speciale aandacht wanneer het op het bewerken van templates aankomt. Auto Align zal proberen om alle velden op een pagina aan te passen zodat ze zich netjes rond de merktekens situeren. Deze optie is in het bijzonder nuttig wanneer een nieuwe image moet gescand worden van een bestaande pagina van de template (omdat de oorspronklijke image een andere vorm had of foutief ingescand bleek) of om templates te delen met andere enquêtes. Men kan Auto Align toepassen op één pagina van de template of op de hele template. Om Auto Align toe te passen op één pagina kiest men in de boomstructuur een pagina, klikt er rechts op en kiest men in Auto Align in het verschijnende menu. Men kan ook na het selecteren van de pagina klikken op
Om Auto Align toe te passen op een hele template klikt men op het pijltje naast het Auto Align-icoontje en kiest men voor "Align Template".
4 Het eigenlijke scannen Wanneer de template klaar is, kan het eigenlijke scannen beginnen. Wanneer men werkt met een sheet-feeder kan dit heel snel gaan. Remark scant alle enquêtes één voor één in. Het programma zal iedere enquête vergelijken met de template en op basis van verschillen met de template worden data gegenereerd. Om het scanningsproces te beginnen, klikt men in het onderstaande scherm op het volgende icoontje:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
39
In de menu's kiezen we File Æ Open Æ Template (CTRL + T). Vervolgens selecteren we de template die voor dit scanningsproces van toepassing is.
Wanneer we vervolgens op openen klikken, krijgen we een leeg Remarkdatabestand te zien, waar de variabelennamen reeds aangegeven zijn.
Vooraleer het scannen te starten, is het aangeraden aan Remark op te geven waar de images opgeslagen moeten worden. Door in de menu's Tools Æ Options te selecteren, kan men men in de tab general kiezen waar deze images moeten opgeslagen worden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
40
. Om het scannen te starten, klikken we in het datascherm op het icoontje Met de menu's kiezen we voor Tools Æ Read From Æ Scanner (CTRL + R). Remark vraagt vervolgens waar het de images van de ingescande enquêtes moet stockeren, hoe deze image-files genoemd moeten worden en hoe de nummering van de verschillende image-files moet gebeuren. Dit laatste is vooral interessant om het scannen te kunnen onderbreken om het voorlopige databestand op te slaan en dan vervolgens het scannen te continueren vanaf de laatst ingevoerde enquête. Meestal onthoudt Remark dit, maar als het inscannen over meerdere dagen gespreid is of wanneer een stroompanne roet in het eten gooit, kan deze procedure wel helpen de structuur te bewaren.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
41
Het is zeker aan te raden om de images op te slaan. Anders kunnen de gegevens later niet snel gecontroleerd, noch verbeterd worden. De controle dient dan te gebeuren aan de hand van het opzoeken van de desbetreffende papieren enquête. Het hoeft geen betoog dat dit veel tijd in beslag neemt. Het is daarom beter images op te slaan. Vervolgens kunnen we een plaats op de harde schijf selecteren waar deze images gestockeerd moeten worden. Bij een vier-bladzijden tellende enquête van bijna 4000 respondenten loopt de grootte van dit bestand reeds op tot 1,5 Giga-byte. Zorg dus zeker voor voldoende vrije ruimte op de harde schijf van de pc waarop de scanner is aangesloten. Bij Base Name geeft men aan welke de basis wordt van de naam van de imagebestanden. Bij Base Index geeft men aan welke de eerste index wordt die achter de basisnaam toegevoegd wordt. Remark zal zelf de volgende enquête een nummer hoger geven. Met Index Digits geeft men aan uit hoeveel cijfers de index moet bestaan. Bij een Base Name "Panache", een Base Index "1" en een Index Digits "5" zal de eerste image-file de volgende naam dragen: "Panache00001". Wanneer men later, wanneer men een tijdelijk bestand heeft opgeslagen of na een technische panne, verder wil met scannen, geeft men de Base Name het nummer van de laatst ingevoerde enquête +1. Het lezen van de enquête begint doorgaans telkens met de eerste bladzijde van de template. Wanneer Review Mode aangeklikt wordt, zal Remark het inscannen onderbreken bij elk mogelijk probleem dat het tegenkomt. Men kan wel zelf aangeven bij welke fouten het scannen moet onderbroken worden (bij elk twijfelgeval (MULT), elke fout (Error), elk Image-veld en/of elke onbeantwoorde vraag (BLANK)). Remark zal dan aan de invoerder vragen de fout op te lossen of het image-bestand over te typen. Het is echter aangewezen om eerst alle enquêtes in te scannen en pas daarna over te gaan tot de verbetering ervan. Men kan later ook met een Review Mode werken, maar dat gebeurt na het inscannen van alle enquêtes. De tijdswinst die hiermee gepaard gaat, is groot. Tijdens het inscannen is het ten zeerste aan te raden geregeld het scannen te onderbreken en het databestand op te slaan. Zo vermijdt men dat men veel werk moet herdoen wanneer er problemen optreden of wanneer de stroom uitvalt. Het opslaan levert weinig vertraging op voor het hele scanproces. Wanneer alle enquêtes zijn ingevoerd ziet het Remark-databestand er als volgt uit:
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
42
In de volgende fase zijn het de gele (BLANK), de groene (MULT), de rode (ERROR) en de blauwe (in te voeren) vakjes die ons voornamelijk interesseren. 5 Datacorrectie Waarschijnlijk het meest tijdrovende werk bij het scannen van enquêtes is het corrigeren van de ingevoerde data en het intypen van de open antwoorden. Zoals reeds eerder aangegeven zijn er drie mogelijke problemen: blanco antwoorden (geel), ambigue antwoorden (groen) en fouten (rood). Bovendien moeten alle image-velden (blauw) in deze fase ingetypt worden. Wanneer dit bestand bewaard wordt als SPSS-bestand, zullen al deze "foute" gegevens missing values worden. Dat is geen probleem als het echt missing values betreft, maar zoals we zullen zien, is dit niet altijd het geval. Daarom moeten al deze velden één voor één nagekeken worden. Een optie die hier voor enige versnelling kan zorgen is de Review Mode. Vooraleer over te gaan tot een bespreking van deze optie, is het belangrijk op te merken dat men best geregeld een backup kan maken van het databestand. Wanneer tijdens het corrigeren van de data iets zou foutlopen, zal men minder moeten herdoen dan wanneer er geen backups zouden gemaakt zijn. 5.1 Review Mode Een eerste manier om de datacorrectie en datacleaning aan te pakken is de Review Mode. Zoals reeds eerder uitgelegd kan men Review Mode ook hanteren tijdens het scannen, maar omdat dan het scannen wordt onderbroken telkens er een mogelijk probleemveld of een image-veld wordt gelezen, is het beter om hier geen gebruik van te maken.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
43
De Review Mode na het scannen biedt wel heel wat perspectieven. Vooraleer aan de slag te gaan, moet men in het menu Tools Æ Options de tab Review Mode selecteren en aanklikken welke velden moeten nagekeken worden: blanco antwoorden, multiple antwoorden (waar er geen toegelaten waren), veldfouten, barcodefouten, image-velden en/of database verificatie.
Wanneer dit gebeurd is, kan men met de Review Mode aan slag. In het databasevenster selecteert men in de menu's Tools Æ Review Mode (CTRL + M) of klikt men op
Het Review Mode-venster zal nu openen en elk probleem aangeven dat de onderzoeker moet oplossen. In dit scherm zijn er een aantal gebieden die nadere aandacht verdienen: A
B
C
D
E
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
F
G
44
I
H
In het bovenste deel van het scherm merkt men ten eerste een omschrijving van de fout (A) en de kleur die bij deze fout hoort (B). In dit specifieke geval betreft het een blanco veld (BLANK). Rechts daarvan bevindt zich een balk die het verloop van het verbeteren van deze enquête weergeeft (D). Er moet opgemerkt worden dat niet alleen de fouten, maar alle velden in rekening gebracht worden. Men kan links en rechts van deze balk kiezen om terug te gaan naar de vorige fout (C) of om verder te gaan naar de volgende fout (F). Er wordt ook aangegeven hoeveel correcties er bij deze enquête nog moeten aangebracht worden (E). Onderaan kan men kiezen om over te gaan naar de correctie van de volgende enquête (I) of om de Review te beëindigen (H). Met behulp van de werkbalk om in en uit te zoomen (G), kan de onderzoeker bepaalde fouten en problemen van naderbij bekijken. Er zijn echter ook een aantal specifieke hulpmiddeltjes die het reviewen van enquêtes kunnen vergemakkelijken.
We overlopen kort deze extra opties.
(Deskew) laat Remark de pagina opnieuw uitlijnen. Deze optie is De optie vooral nuttig wanneer een bepaalde pagina op licht foute wijze is ingescand.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
45
De optie (Despeckle) is vooral nuttig wanneer er vlekjes (zwarte puntjes) op een enquête aangetroffen worden. Remark zal dan deze vlekjes verwijderen zodat de enquête beter leesbaar wordt.
(Invert) moet enkel gebruikt worden wanneer de gescande pagina De optie bestaat uit witte letters op een zwarte achtergrond. Remark zal deze pagina dan omzetten naar een witte pagina met zwarte letters.
De optie (Rotate Left) moet gebruikt worden wanneer de enquête incorrect geöriënteerd is. Remark zal de ingescande enquête 90° naar links draaien.
(Rotate Right) moet gebruikt worden wanneer de enquête De optie incorrect geöriënteerd is. Remark zal de ingescande enquête 90° naar rechts draaien. (Recognize), wordt gebruikt om aan Remark opnieuw te De laatste optie, vragen de vraag, het veld of de pagina te herkennen. Deze optie kan best gebruikt worden nadat alle andere middelen uitgeput zijn. De onderzoeker moet bij het reviewen van zijn scanproces alle door Review Mode naar voor geschoven problemen oplossen. Na het Review Mode-proces kan hij het databestand exporteren naar bijvoorbeeld SPSS. Laten we echter nog even dieper ingaan op mogelijke probleemvelden en op andere aspecten die bij het corrigeren van de data van belang zijn. 5.2 Probleemvelden We overlopen alle velden die in deze fase speciale aandacht verdienen. Dat zijn in de allereerste plaats de velden waar niets is ingevuld. De onderzoeker moet controleren of dit inderdaad zo is. Ten tweede zijn er de velden waar de respondent meer dan één antwoord heeft gegeven waar hij dat niet mocht. Ten derde zijn er de foutmeldingen. In de vierde plaats – en dit zijn niet meteen probleemvelden – zijn er de Image-velden die in deze fase ingevoerd moeten worden. 5.2.1 BLANK-velden Blank-velden zijn geel. In dit vakje had een antwoord moeten staan, maar Remark heeft geen antwoord gevonden. Hiervoor zijn twee mogelijke redenen. De eerste is de meest voorkomende en voor het onderzoek ook de minst kwalijke. Het is
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
46 mogelijk dat de respondent geen antwoord heeft gegeven op deze vraag en dan ook geen van de antwoorden heeft gekleurd. Remark zal dan geen antwoord vinden. We kunnen deze resultaten gerust op BLANK laten staan. In het latere databestand zullen het echte missing values betreffen. Hieronder staan twee voorbeelden van antwoorden die daadwerkelijk blanco zijn.
Het is echter ook mogelijk dat de respondent wel een bolletje heeft zwart gemaakt, maar dit niet duidelijk genoeg heeft gedaan. De Recognition Treshold van Remark wordt dan mogelijk niet overschreden, waardoor Remark dit vakje niet herkent en foutief aangeeft dat het hier een blanco antwoord betreft. Wanneer de onderzoeker op deze BLANK-velden dubbelklikt, krijgt hij in het rechterscherm een foto te zien van deze vraag. Vaak ziet de onderzoeker door zijn ervaring wel dat er een bolletje is gekleurd, door het lichte verschil dat er is met de andere bolletjes die wel blanco zijn gelaten. De onderzoeker kan dan in de datacel het correcte antwoord selecteren. Mogelijke oorzaken van zulke problemen zijn respondenten die de bolletjes niet volledig kleuren of die andere kleuren dan zwart gebruiken (potlood, marker).
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
47 5.2.2 MULT-velden MULT-velden zijn groen. Het betreft hier antwoorden waarop slechts één antwoord gegeven mocht worden, maar waarbij de respondent er meer gegeven heeft, of waarbij Remark denkt dat de respondent meer dan één antwoord gegeven heeft. Wanneer de respondent daadwerkelijk meer dan één antwoord gegeven heeft, moet de onderzoeker beslissen wat hij met dit antwoord doet. Vaak kan hij aan de hand van vorige antwoorden beslissen wat hiermee aan te vangen. Zo kan de respondent in een vroegere vraag bijvoorbeeld reeds aangegeven hebben geen zakgeld te ontvangen. Wanneer dan bij een vraag over de zakgeldgever zowel het antwoord "ik krijg geen zakgeld" als het antwoord "ik krijg mijn zakgeld van mijn moeder" aangestipt zijn, kan de onderzoeker beslissen in deze cel het eerste antwoord te selecteren. Dit soort correctie kan ook nog gebeuren bij het cleanen van het databestand, maar aangezien de onderzoeker deze cel toch moest controleren kan hij evengoed nu al deze datacleaning doen. In onderstaand voorbeeld wordt er gevraagd naar het hoogste opleidingsniveau van de vader. Het is duidelijk dat de respondent twee antwoorden heeft aangestipt, maar het is te veronderstellen dat die respondent alle opleidingsniveau's die zijn vader bereikt heeft, heeft aangestipt. De onderzoeker is echter enkel geïnteresseerd in het hoogste niveau en kan dit dan ook selecteren uit de mogelijke antwoorden. Zo blijft dit vak geen MULT-vak en zal dit in het latere databestand ook geen missing value worden.
Soms lijkt het voor Remark alsof de respondent meer dan één antwoord heeft geselecteerd, maar is dit niet het geval. Zo kan de respondent een antwoord hebben gekleurd, maar dan beseft hebben dat dit fout was. Hij heeft dan mogelijk een kruis gezet over het eerste antwoord en een ander antwoord gekleurd. Remark zal echter dit kruis lezen als een echt antwoord en daarom aangeven dat de respondent een dubbel antwoord heeft gegeven.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
48 In onderstaand voorbeeld is dit duidelijk het geval. De respondent heeft bijna alle antwoorden ingekleurd, maar vervolgens met een extra kringetje aangegeven wat het echte antwoord moest zijn. De onderzoeker kan dit dan ook selecteren uit de mogelijkheden. Zo wordt dit uiteindelijk geen missing value.
In een ander voorbeeld is het duidelijk dat de respondent eerst "ja" heeft geantwoord, maar dit uiteindelijk heeft veranderd naar "neen". Remark zal MULT aangeven. De onderzoeker moet dit veranderen naar "neen".
Wanneer de respondent zijn eerste antwoord niet gewoon had weggekleurd of er een kruis over had gezet, maar het met Tipp-Ex had verwijderd, had dit aanleiding gegeven tot andere problemen. Daar komen we op terug in de volgende paragraaf. Wanneer de respondent duidelijk een MULT-antwoord gegeven heeft en de onderzoeker niet kan afleiden wat het echte antwoord is, moet hij het vak op
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
49 MULT laten staan of er BLANK van maken, zodat dit in het latere databestand een missing value wordt. 5.2.3 ERROR-velden ERROR-velden zijn rood. Er zijn verschillende mogelijke fouten die aanleiding kunnen geven tot een ERROR-melding. Voor het doel van deze beknopte handleiding zijn echter volgende drie foutmeldingen van belang: ● ERROR #3000:
Het aantal rijen dat door Remark gelezen werd, komt niet overeen met het aantal rijen dat verwacht werd. ● ERROR #3001: Het aantal kolommen dat door Remark gelezen werd, komt niet overeen met het aantal kolommen dat verwacht werd. ● ERROR #3100: Het te herkennen veld werd niet gevonden op de enquête. De redenen voor deze verschillende foutmeldingen kunnen verscheiden zijn. Toch zijn er enkele het meest voorkomend. Soms heeft de respondent een bolletje met Tipp-Ex verwijderd. Aangezien Remark eerst bolletjes telt en dan vaststelt welk antwoord gegeven is, loopt het hier fout. Remark vindt minder bolletjes dan het verwacht en geeft een foutmelding. Het onderstaand voorbeeld kan dit illustreren. Het is duidelijk dat de respondent eerst het vierde antwoord had gekleurd, maar zich dan bedacht heeft en met Tipp-Ex correcties heeft aangebracht. Hij heeft echter niet alleen de inkleuring weggevaagd, maar het hele bolletje. Remark kan dit niet lezen, want er staat een bolletje minder dan het verwachtte. De onderzoeker moet dan zelf selecteren dat antwoord drie het juiste antwoord is.
Soms is het ook mogelijk dat de enquête iets verschoven is bij het inscannen zodat Remark geen veld met bolletjes vindt waar het er een verwacht. Ook hier wordt een foutmelding gegeven. De onderzoeker moet zelf het antwoord selecteren.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
50
Het is belangrijk op te merken dat wanneer er een fout wordt gesignaleerd bij een vraag, dit voor alle subvragen een foutmelding zal geven. Wanneer bijvoorbeeld bij een attitude-vraag met 14 items en 5 antwoordcategorieën één bolletje is weggevaagd, geeft dit een ERROR-melding bij alle 14 items. Dit gebeurt zelfs wanneer de respondent naar eigen vermogen heeft gepoogd het bolletje zelf opnieuw te tekenen. De onderzoeker moet dan de antwoorden op alle 14 vragen zelf lezen en selecteren uit de gegeven mogelijkheden. Een mogelijke oplossing waarbij dit soort problemen beperkt kan worden, is het aanbrengen van verschillende gelijkaardige OMR-velden. Zo kan men de eerste vier items definiëren in één veld, de volgende vijf in een tweede veld en de laatste vijf in een derde veld. Wanneer de respondent één bolletje met Tipp-Ex heeft verwijderd, zal dit enkel repercussies hebben voor één veld en niet voor alle 14 items.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
51
ERROR-velden die niet gecorrigeerd worden, zullen in het uiteindelijke bestand opgenomen worden als missing values. 5.2.4 Image-velden Het intypen van de antwoorden op de open vragen is misschien wel het meest tijdsintensieve werk bij het controleren van het Remark data-bestand. De imagevelden kleuren blauw. Wanneer de onderzoeker dubbelklikt op de blauwgekleurde datacel, krijgt hij een foto te zien van wat de respondent heeft neergeschreven in het tekstvak. De onderzoeker kan dan deze tekst overtypen in het oorspronkelijk blauwe vakje.
Er zijn bij het invoeren van antwoorden op de open vragen twee mogelijkheden. De eerste mogelijkheid betreft het gewoon overtypen van de antwoorden zonder meer. Het is echter eveneens mogelijk om in deze fase de latere datacleaning reeds te vergemakkelijken. Als de onderzoeker gelijkaardige antwoorden op een gelijke manier ingeeft, is hij eigenlijk al een beetje aan het coderen. Zo wint hij opnieuw tijd. Een voorbeeld kan dit verduidelijken. In een enquête wordt met een open vraag gepeild naar de redenen waarom respondenten beslissen om niet bij te verdienen. Verschillende antwoorden zijn hierop mogelijk, al zullen heel wat van deze antwoorden hetzelfde zeggen op een andere manier. Respondenten die aangeven dat ze geen tijd hebben voor een bijverdienste, kunnen bijvoorbeeld antwoorden: "Ik heb er geen tijd voor", "Ik kom nu al tijd te kort", "ik heb mijn tijd nodig voor andere zaken" of "dat past niet meer in mijn agenda". De onderzoeker kan het latere analyse-werk nu al wat verlichten door al deze antwoorden in te typen met bijvoorbeeld "geen tijd". In het latere databestand zullen al deze antwoorden bijgevolg eenvoudigweg tot eenzelfde categorie kunnen herleid worden en moeten niet alle antwoorden nog eens opnieuw ontleed worden.
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
52
Wanneer aangegeven is dat in een image-veld numerieke gegevens zouden staan, kunnen enkel numerieke gegevens ingevoerd worden. Bij het ingeven van postcodes kunnen enkel postcodes ingevoerd worden en geen namen van gemeenten. Wanneer een respondent bijvoorbeeld als postnummer 3140 opgeeft, zoals in onderstaand voorbeeld, dan kan de onderzoeker dit perfect overtypen.
Wanneer de respondent echter zoals in onderstaand voorbeeld "Keerbergen" had geschreven (mogelijk omdat hij zelf de postcode van deze gemeente niet kent) zal de onderzoeker eerst de postcode moeten opzoeken, aangezien hij "Keerbergen" niet kan typen in het numerieke veld.
Deze invoercorrectie kan dagen duren, zeker wanneer het grote bestanden betreft. Het is zeker aan te raden bij deze datacorrectie heel regelmatig het bestand op te slaan en gestructureerd te werk te gaan. Zo vermijdt men dat gegevens verloren gaan en men opnieuw moet beginnen en dat men bepaalde © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
53 cellen vergeet te corrigeren. Wanneer het uiteindelijke bestand klaar is, ziet het er ongeveer als volgt uit:
Er zullen BLANK- (en eventueel ook MULT-) cellen overblijven, maar dat is normaal. Er zijn altijd wel ontbrekende gegevens in een databestand. 6 Transformeren tot een SPSS-bestand 6.1 Procedure Remark kan gebruikt worden om de data te analyseren, maar het is beter om voor de data-analyse gebruik te maken van softwarepakketten als SPSS. Wanneer we de verdere analyse van deze data met SPSS willen doen, moeten we het Remark (.rmk) bestand eerst opslaan als een SPSS-databestand (.sav). Dit gaat heel eenvoudig. In het algemene databestand klikt men op File en vervolgens op Save Data As…. Vervolgens moet men een naam opgeven voor het bestand en kan men een format kiezen. Remark biedt verschillende formaten aan, zoals .asc (ASCII), .txt (Spreadsheet), .mdb (Access), .xls (Excel) en .sav (SPSS).
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
54
Wanneer dit bestand als een SPPS-bestand is opgeslagen, moeten we – wanneer we SPSS opstarten – dit bestand selecteren en kunnen we verder met de datacleaning en de uiteindelijke analyse. 6.2 Opmerkingen Er moeten een aantal opmerkingen gemaakt worden in verband met de omzetting van een Remark-bestand naar een SPSS-datafile. De namen van de kolommen (field names) in het Remark-bestand, worden omgezet in variabelennamen in SPSS. The Question Text (als die ingegeven is) wordt gehanteerd als labels van de variabelen. Remark zal de Labels en Values respectievelijk als value label en value number in het SPSS-bestand schrijven. Ontbrekende antwoorden, onjuiste antwoorden en onherkenbare antwoorden krijgen in SPSS de waarde -1. Deze missing value kan veranderd worden door de onderzoeker door in het Tools-menu Options aan te klikken en daar de Missing Values aan te passen.
Bij het opslaan als .sav bestand, kan men de optie Save Headers in het "Save Data File"-window aanklikken. Wanneer men dit doet, zullen de kolomnamen uit
© MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/
55 Remark gebruikt worden als eerste registratie in de SPSS data file. Als dit niet het geval is, zullen default namen gebruikt worden (zoals v1, v2, …). Er zijn enkele beperkingen te noteren bij het opslaan van een Remark-bestand als een SPSS-bestand. Zo mag één cel maximaal 255 karakters tellen. Remark zal bij het bewaren als SPSS-bestand cellen van meer dan 255 karakters automatisch inkorten. Labels (Value Labels in SPSS) mogen maximaal 60 karakters beslaan. Wanneer geen waarden toegekend werden toen de template aangemaakt werd, zal Remark automatisch waarden toekennen in sequentiële volgorde. Field names (Variable Names in SPSS) zijn maximaal 8 karakters groot en moeten uniek zijn. Question text (Variable Labels in SPSS) mag maximaal 120 karakters bedragen. Remark kan bovendien het bestand enkel opslaan als een uncompressed data file. De gebruiker kan dus best eerst het nieuw gecreëerde SPSS-bestand openen en opnieuw bewaren (in SPSS dit maal; compressed) om plaats te besparen. Tenslotte moet vermeld worden dat vragen die meer dan één antwoord mogelijk laten bij het bewaren als een SPSS-file in een string-variabele9 omgezet worden.
9
Het Binary-field vormt hierop een uitzondering. © MTSO–INFO / UA–FPSW - http://www.ua.ac.be/mtso/