Automatische clustering: ja of nee? Rombout de Wijs Aanleiding In 2010 en 2011 kwamen twee computerprogramma’s beschikbaar om broedvogelwaarnemingen te clusteren. Hiermee kan het uitvoeren van broedvogelonderzoek worden vereenvoudigd, maar vooral ook beter worden gestandaardiseerd. Omdat de resultaten ervan wellicht in enige mate afwijken van voordien uitgevoerd onderzoek, zou dit een trendbreuk in lange meetreeksen kunnen veroorzaken. Om uit te zoeken in welke mate dit voor mijn eigen onderzoek een rol speelt heb ik broedvogelgegevens op verschillende manieren uitgewerkt.
elkaar wisten. Het gaat hierbij om Broedvogelkartering.nl (Dirk Prop) en om Autoclustering (Sovon). In de loop der jaren zijn enkele aanpassingen in de regels gedaan om te bereiken dat ze zo goed mogelijk aansluiten bij de werkelijkheid. Een recente aanpassing heeft vooral betrekking op het vervroegen van datumgrenzen omdat vogels steeds eerder aan het broedseizoen beginnen vanwege klimaatverandering. Dit is in de programma’s verwerkt. Eerdere programma’s In het verleden zijn al eerder computerprogramma’s gemaakt voor dit doel. Op de Britse eilanden maakte Philip North zo’n programma om de gegevens van de toenmalige Common Bird Census te kunnen verwerken, die indertijd centraal werden verwerkt (North 1977). In Nederland maakte Marten Scheffer als student een dergelijk programma (Scheffer 1987) en ook Rien Reijnen van het toenmalige RIN (nu Alterra) maakte er een mbv. het programma Autocad 10 (geen referentie kunnen vinden). Ook al werkten deze programma’s vermoedelijk goed, ze konden toch niet door veel waarnemers worden benut o.a. omdat Internet nog niet bestond. Ook ecologisch adviesbureau Van der Goes en Groot maakte recenter (rond 2002) een dergelijk programma in ArcGis voor hun eigen medewerkers (Van der Goes en Groot 2011). Met de hier verder beschouwde twee programma’s, die voor eenieder benaderbaar zijn via Internet, komt dergelijke functionaliteit binnen bereik van veel grotere groepen veldonderzoekers.
Inleiding In Nederland gebeurt het tellen van broedvogels doorgaans met een of andere vorm van territoriumkartering. Een telgebied wordt daarbij enige keren per broedseizoen bezocht, waarbij alle waarnemingen van vogels op een kaart worden genoteerd. Hierbij ligt de nadruk op waarnemingen die te maken hebben met het al of niet broeden, zoals vogels die gepaard zijn, zingen, alarmeren en nestvondsten. Na afloop van het seizoen worden die waarnemingen overgezet op zgn. soortkaarten, waarbij de veldwaarnemingen worden overgenomen voorzien van een bezoeknummer. Vervolgens worden die waarnemingen gegroepeerd tot zgn. clusters, die bedoeld zijn als (benadering van een) territorium. Hiervoor gelden allerlei regels, die per soort verschillen, en elementen kennen als datumgrenzen (hierbinnen moeten 1 of 2 waarnemingen gedaan zijn), fusieafstanden (waarnemingen mogen niet verder dan die afstand uit elkaar liggen) en minimum aantal gedane waarnemingen. Die regels zijn vastgelegd in handleidingen van Sovon (bijv. Van Dijk en Boele 2011). De bedoeling was natuurlijk dat alle veldonderzoekers op min of meer dezelfde wijze die regels toepasten en dat ook van jaar op jaar gelijk hielden. De praktijk leerde echter dat dit niet altijd opging, er was altijd wel enige speelruimte in die regels, maar vooral ook in het toepassen ervan. Dit onderdeel van de tussentellervariatie zorgt voor verminderde nauwkeurigheid van de resultaten voor toepassingen als trendberekeningen. Om dit nu beter te standaardiseren zijn computerprogramma’s gemaakt die deze regels op consequente wijze toepassen en bovendien werk voor de waarnemers kunnen besparen. Toevalligerwijze gebeurde dit op twee verschillende plekken door mensen die dit oorspronkelijk niet van
Onderzoeksgebied Het onderzoeksgebied is 15 ha groot, ligt in het Naardermeer en bestaat grotendeels uit moerasbos. De meeste moerasbossen in het Naardermeer zijn (veel) jonger dan 120 jaar, maar het onderzoeksgebied is veel ouder en bleef ook buiten de inpoldering aan het eind van de 19e eeuw. In dit bos liggen de restanten van een oude eendenkooi, die al begin 19e eeuw in onbruik was geraakt. De zuidrand van deze zgn. Oude Kooi is dus al eeuwenlang bos, de noordrand raakte sinds 1935 bebost. Het geldt als het oudste en best ontwikkelde elzenbroekbos van Nederland, met enkele eiken erin. Het is ontoegankelijk, kent geen paden en is een slecht begaanbare rimboe zonder veel herkenningspunten.
1
2. Broedvogelkartering.nl (BVK). In dit online programma heb ik mij eerst als gebruiker aangemeld en is mijn telgebied gedefinieerd. Weliswaar kan de begrenzing daarvan worden aangegeven, maar het programma houdt daar verder geen rekening mee. Daarmee moet dus rekening gehouden worden tijdens het invoeren. Vervolgens worden de bezoekrondes ingevoerd (datum, tijd, dekkingspercentage, weer) en kunnen per bezoekronde per soort de waarnemingen op een kaartondergrond worden aangestipt. De soortnamen moeten uit een vrij lange soortenlijst worden gehaald. Bij het instippen maakt het programma onderscheid in een aantal typen waarnemingen, zoals volwassen individu, paar, territorium-indicatie, nestindicatie, nestvondst en niet-broedvogels. Als kaartondergrond wordt gebruik gemaakt van Google maps. Na invoer kunnen, naast de soortkaart per dag, enkele overzichten worden benut om te controleren of er geen soorten zijn overgeslagen. Als alles zo is ingevoerd en gecontroleerd kunnen de waarnemingen worden geclusterd. Hierbij worden de criteria toegepast die voor het betreffende jaar golden. Het berekenen moet soort voor soort gebeuren. Als eindresultaat krijgt men dan een overzicht van de waarneemdata, de normwaarden (of een bezoek voor die soort als volwaardig of anderszins wordt opgevat) en de overige criteria die voor die soort gelden. Vervolgens wordt het berekende aantal territoria gegeven en een kaartje met daarop de geclusterde waarnemingen. De clusters worden weergegeven met een eigen kleur en volgnummer. Het “zwaartepunt” van elk cluster (het punt dat doorgaans als punt wordt overgenomen op een zgn. stippenkaart, waarop clusters als punten worden weergegeven) wordt apart aangeduid en betreft altijd een reële waarneming. Er bestaat ook een optie om alleen die stippenkaart weer te geven. Op de site staan handleidingen hoe met de gegevens en het programma om te gaan. De resultaten van deze handelwijze staan ook in tabel 1. 3. Autoclustering (ACl). Omdat mijn telgebied al bij Sovon bekend was en al eerder gedigitaliseerd, hoefde ik me hiervoor niet apart aan te melden en zat het kaartje er ook al in. Dit programma houdt wel rekening met of waarnemingen binnen of buiten het telgebied zijn gedaan. Ook hierbij moeten eerst wat gegevens betreffende de waarneemdatum worden ingevoerd. Daarbij kan men ook opgeven hoe de telling moet worden opgevat, als zonsopgangbezoek, ochtendbezoek of anderszins. Dat
Vanaf 1978 werden hier door o.a. de auteur af en toe broedvogels geteld, wat in 1979 o.a. de eerste broedende havik opleverde, toen de eerste die in ons land de moerasbossen bevolkte. Sinds 1984 maakt het onderzoek deel uit van het Broedvogelmonitoringprogramma van Sovon dat in dat jaar startte. Het doel was om een beeld te krijgen van de ontwikkelingen in zo’n oud en tamelijk natuurlijk bos, waarin al lang geen enkele ingreep had plaatsgevonden. Zo betreft ongeveer 20% van de broedparen een holenbroeder, terwijl er geen nestkasten hangen. De meest ingrijpende recente verandering was het verhogen van het waterpeil in het hele Naardermeer sinds 1986, versterkt door de recentere invloed van de aangrenzende hoogwaterzone, waardoor in het voorjaar delen van de bosbodem wat langer onder water stonden dan voorheen. Er is zo een waardevolle meetreeks ontstaan, die het interessant maakt om eens nader te bestuderen, zeker in relatie tot de landelijke trend van Sovon. Veldmethode Voor de vergelijking zijn de gegevens benut van 2010 en 2011. Net als in de meeste voorgaande jaren werd het veldwerk door de auteur verricht, met uitzondering van het begin van 2010 toen een deel is uitgevoerd door Fred Vogelzang. Er werden in 2010 9 veldbezoeken gebracht en in 2011 7. In beide jaren is 1 avond/nachtbezoek gebracht, de overige waren in de vroege ochtend, startend net voor zonsopgang. De bezoeken duurden doorgaans 1.5 – 2 uur. De vogelwaarnemingen werden op kaart ingetekend als (Sovon)soortafkorting en voorzien van een aanduiding omtrent de aard van de waarneming. Uitwerking De verwerking van de veldgegevens gebeurde op drie manieren. 1. Handmatig (BMP). Dit is de vertrouwde manier waarop dit altijd gebeurde. Eerst werden lege soortkaarten aangemaakt en daarop werden alle waarnemingen per soort per bezoekronde overgenomen, voorzien van rondenummer en eventuele aanduidingen betreffende de aard van de waarneming. Daarna werden de waarnemingen gegroepeerd tot clusters volgens de op dat moment geldende criteria. Interessant is dat die criteria tussen beide onderzoeksjaren verschilden, omdat vanaf 2011 nieuwe criteria golden, met name betreffende vervroegde datumgrenzen. De clusters gelden dan als weerslag van territoria. De resultaten staan in tabel 1.
2
berekent hij ook automatisch en geeft het aan als hij het anders zou opvatten dan de waarnemer. Vervolgens kan je bij elk bezoek de waarnemingen invoeren. Hiertoe wordt een soortenlijst getoond waarop de te verwachten soorten staan. Die lijst kan je zelf korter of langer maken en sorteren op euring-code of alfabetisch. Door op een soort te klikken krijgt men een kaartje waarop de waarnemingen kunnen worden ingestipt. Als kaartondergrond kan gekozen worden voor een luchtfoto of een topografische kaart. Vervolgens kunnen de waarnemingen worden geplaatst waarbij ook weer gebruik kan worden gemaakt van verschillende typen waarnemingen. Als default wordt het voor die soort meest gangbare type weergegeven, als je wat anders wil kan dat makkelijk worden aangepast en opgeslagen. Daarbij worden de 16 veelgebruikte broedcodes gebruikt. Ook bij dit programma kan men overzichten opvragen per bezoek en voor het hele seizoen, als hulpmiddelen om te controleren of er geen soorten zijn overgeslagen. Als alle waarnemingen zijn ingevoerd kunnen die met het programma automatisch worden geclusterd. De criteria waarmee dat gebeurt worden eveneens automatisch gekozen, het werkt met de criteria die golden in het jaar van de waarnemingen. Dit clusteren kan voor alle soorten tegelijk of per soort apart. Ook alle soortkaartjes kunnen tegelijk (of apart) als pdf-document worden weggeschreven. De onderscheiden clusters worden weergegeven door alle waarnemingen daarvan met lijnen met het “zwaartepunt” te verbinden. Hierbij worden de (tel)rondenummers ook weergegeven, hoewel je daarvoor wel een leesbril moet opzetten. Het programma heeft eveneens een goed toegankelijke en begrijpelijke handleiding. Ook de resultaten met dit programma zijn terug te vinden in tabel 1.
het minst af, die van BVK wat meer. In twee gevallen waren de verschillen met BMP negatief. Voor de verschillen waren enkele factoren aanwijsbaar. 1. Strakke hantering van datumgrenzen. Er waren geldige waarnemingen van wilde eend gedaan zowel 1 dag voor de eerste datumgrens als 1 dag na de tweede datumgrens. Bij BMP ben ik geneigd deze waarnemingen toch tot een geldig territorium te rekenen, beide programma’s doen dat niet. 2. Strakke bepaling van normbezoeken. Omdat ACl blijkbaar strakke grenzen hanteert of iets een zonsopgang-bezoek of een ochtendbezoek was had dit invloed op het criterium van het aantal vereiste waarnemingen voor aanname van een territorium. Hierdoor kwam ACl bij één soort hoger uit dan BMP. Dit kan overigens binnen het programma handmatig worden aangepast. 3. Strakke hantering van fusieafstanden. In dit onderzoeksgebied ontbreken duidelijke landschapskenmerken die op een kaart zijn terug te vinden (het is een slecht begaanbare rimboe zonder paden). Zelf werk ik met kaarten waarop wat kenmerken zijn toegevoegd, maar veel zijn dat er niet en die zijn bovendien niet terug te vinden op de beschikbare ondergronden in ACl en BVK. Dat betekent dat een gedane waarneming soms niet helemaal op de juiste plek wordt ingetekend. Dat geldt helemaal bij het overzetten van die waarneming in ACl en BVK. Hierdoor kunnen waarnemingen soms wel 10-30 meter van de oorspronkelijke plaats terechtkomen. Bij de clustering volgens BMP hou ik daar zelf rekening mee en hanteer die afstanden wat ruimer. Maar de programma’s doen dat niet, waardoor die bij sommige soorten hoger uitkomen. 4. Notatie. De programma’s zijn erg gevoelig voor een juiste notatie. Als men in het veld een kleine bonte specht hoort roffelen en op twee plaatsen verderop een individu hoort roepen, ben ikzelf binnen BMP geneigd om die samen te nemen tot 1 territorium. Immers, een roffelend individu kan best verder zijn gevlogen en daar zijn gaan roepen. Dat geldt bovendien voor de partner van dat paar die op een andere plek riep. Beide programma’s tellen dit echter als 3 onafhankelijke uitsluitende waarnemingen en komen zodoende op 3 territoria uit. Dat impliceert dat je dus niet klakkeloos je veldwaarnemingen moet overzetten in die programma’s, maar al rekening moet houden met hoe die daarmee omgaan.
Resultaten Om de uitkomsten van de verschillende bewerkingen goed te kunnen vergelijken moesten eerst enkele fouten bij de invoer worden vereffend. Want die bleken er inderdaad te zijn, zowel bij het invoeren in de verschillende programma’s als het handmatig maken van de soortkaarten. Dat kon goed worden opgemerkt door de aantallen per soort per bezoek te vergelijken. Na het verbeteren daarvan konden de uitkomsten van de clusteringen worden vergeleken in tabel 1. Zoals te verwachten waren de uitkomsten vergelijkbaar, maar kwamen de automatische bewerkingen soms wat hoger uit dan de handmatige. De bewerkingen van ACl weken
3
5. Opvallend waren ook de verschillen tussen ACl en BVK, omdat beide pretenderen geheel volgens de BMP-normen te werken. Nu zullen er best wat verschillen optreden vanwege punt 3 (ik heb de gegevens in beide programma’s handmatig ingevoerd, waarbij verschillen in plaatsbepaling kunnen zijn ontstaan) en vanwege het omgaan met punt 2, maar desalniettemin lijken er ook daarnaast nog wat verschillen te ontstaan. BVK kwam regelmatig wat hoger uit dan ACl. Het werken met beide programma’s was overigens even simpel en duidelijk en er leek geen verschil te zijn in tijdsbesteding met invoeren. Bij ACl is het wel handig dat je alle soorten tegelijk kunt laten uitrekenen en uitprinten (op PDF), dat kan bij BVK niet. 6. Tijdwinst. Beide programma’s leveren zeker enige tijdwinst in vergelijking tot de handmatige BMP. Dat zit hem vooral in het clusteren, maar ook wel in lichte mate in het door elkaar kunnen invoeren van soorten. Het hangt er ook vanaf of je met invoeren de soortenlijst afwerkt of in een hoekje begint met de soorten die je vanaf daar tegenkomt. Dat laatste levert namelijk tijdwinst op, omdat je bij elke nieuwe soort die je vervolgens tegenkomt het stuk gebied dat je al hebt gedaan niet meer op die soort hoeft te controleren. Dus gaat het steeds wat sneller. Handmatig is dat minder efficiënt, omdat je de soorten niet eenvoudig (zonder te bladeren) door elkaar kunt invoeren. Bovendien moet je van te voren alle lege soortkaarten aanmaken.
komsten die kunnen ontstaan door verschuiving van datumgrenzen ook goed kunnen doorrekenen. 3. Minder papierwinkel. De gegevens hoeven niet meer in mappen te worden opgeslagen, wat papier en opslagruimte spaart. 4. Het is handig in die gevallen dat waarnemers in een groep werken. Als iedereen zijn waarnemingen direct invoert hoeven de notities en hun coderingen achteraf niet ontcijferd te worden en is de clustering aan het eind een peulenschil. Nadelen 5. Trendbreuk. Beide clusterprogramma’s leveren dus andere uitkomsten dan mijn handmatige BMP. Dit dreigt dus een extra trendbreuk in mijn lange meetreeks op te leveren, bovenop de trendbreuk door gewijzigde datumgrenzen. Daarom ben ik voornemens om dan toch maar met de handmatige BMP door te gaan. 6. Te strakke toepassing regels. De belangrijkste oorzaken van de afwijkingen t.o.v. handmatige BMP liggen in het feit dat ik dus zelf wat soepeler omga met die regels o.a. vanwege de bijzondere terreingesteldheid. Maar het soepeler omgaan met datumgrenzen zal toch ook voor meer waarnemers gelden. Immers, die datumgrenzen vallen vaak niet goed samen met de gelegenheden die waarnemers hebben om een veldbezoek te brengen (vrije tijd, weersomstandigheden). Dat zou kunnen leiden tot het sjoemelen met waarneemdata, wat ongewenst zou zijn (punt 2).
Discussie Toekomstige ontwikkelingen. Voordelen 7. Momenteel nemen de mogelijkheden om digitaal waarnemingen in het veld op te slaan sterk toe. Toch is het nog maar de vraag of dit ook voor broedvogelkarteringen zou kunnen gelden. Die veldapparatuur heeft dan vaak wel gps aan boord, maar de waargenomen vogels zitten vrijwel altijd nu juist niet op de plaats van de waarnemer maar elders. Dus is ook een kaartondergrond nodig. Pas op het moment dat er apparatuur beschikbaar komt die net zo handig werkt als een kaart (op een kaartentas) in het veld, de aangestipte waarnemingen van soorten en hun codes begrijpt, afleesbaar is in de zon en ook nog tegen een stootje en een drupje kan, kan dat een mooie aanvulling zijn. Ben benieuwd wanneer dat zal zijn……
1. Standaardisering. Het is onmiskenbaar een voordeel dat de deelnemers aan het BMP met ACl worden gestimuleerd om de uitwerking van hun veldgegevens (ook wel aangeduid als interpretatie) te standaardiseren. Niet iedereen is hierin even goed en/of consequent wat leidt tot extra variatie in de uitkomsten. Deze wordt hiermee beperkt, wat leidt tot (statistisch) bruikbaarder resultaten. 2. Gegevens beter ontsloten. Niet alleen is er sprake van enige tijdwinst (zie punt 6 hierboven), bovendien worden uiteindelijk een stippenbestand en soortkaarten gegenereerd die voor diverse gebruikers handig zijn. Naast de waarnemers zelf en SOVON, geldt dat ook voor terreinbeheerders en eventuele andere gebruikers. Door alle basisgegevens nu ook digitaal op te slaan zou men eventuele verschillen in uit-
4
Conclusies en aanbevelingen Het strakke hanteren van datumgrenzen zou de waarnemers in de verleiding kunnen brengen om met waarneemdata te gaan sjoemelen. Het is immers niet prettig als je een mooie waarneemdag voorbij moet laten gaan omdat pas een dag later een datumgrens van een of meer belangrijke soorten ingaat. Dan ligt sjoemelen bijna voor de hand. Dat maakt echter eventuele detailberekeningen met de gegevens minder betrouwbaar, omdat je niet van de nauwkeurigheid van de datum kunt uitgaan. Het is dus aan te bevelen om een clusterprogramma zodanig te programmeren dat deze een kleine marge hanteert van 1-2 dagen mbt. de datumgrenzen. Of dit ook zou moeten gelden voor de fusieafstanden is de vraag. Weliswaar hanteer ikzelf een wat ruimere marge, maar onnauwkeurig geplaatste waarnemingen kunnen natuurlijk zowel de ene kant als de andere kant op onjuist zijn. Het hangt er een beetje vanaf hoe de meeste andere waarnemers met zulke situaties bij het clusteren omgaan. Ook al zie ik zelf af van het toepassen van automatische clustering in dit speciale geval, toch wil ik de methode van harte aanbevelen. De verschillen in uitkomsten met handmatige verwerking zijn gering en vormen maar een geringe extra afwijking ten opzichte van de toch al gewijzigde afwijkingen door de aangepaste datumgrenzen. Bovendien levert het allerlei winst op voor zowel de waarnemer, Sovon als eventuele andere gebruikers. Ga in ieder geval door met tellen!
Literatuur van Dijk A.J. & Boele A. 2011. Handleiding SOVON Broedvogelonderzoek. SOVON Vogelonderzoek Nederland, Nijmegen. van der Goes en Groot, http://www.vandergoesengroot.nl/broedvogels _clusteren.html North, P.M. 1977. A novel clustering method for estimating numbers of bird territories. Appl Stat. 26:149-155. Scheffer, M., 1987. An automated method for estimating the number of bird territories from an observation map. Ardea 75: 231-236.
Rombout (WJR) de Wijs, Arminiushof 58, 1216 KG Hilversum,
[email protected] 27 maart 2012
Dank Rob Baars (als gebruiker van beide systemen) was zo vriendelijk om aanvullend commentaar te leveren.
5
0 1
1 1 3 1 1 6 1 15 1 2 3 1 1 1 2 10 15 14 1 1
1 1 3 3 1 8 1 17 1 2 3 1 1 1 2 11 20 16 1 1
1 1 3 3 1 7 1 15 1 2 3 1 1 1 2 10 15 15 1 1
1 7 7 1 3 2 1 10
1 1 7 7 8 7 1 1 4 4 2 2 1 1 11 10
1 1 1 12 14 13 9 0 6 2 2 1
11 0 5 2 2 1
9 0 6 2 3 1
3 3 3 11 13 11 13 15 16 13 13 14 3 3 3 1 1 1 1 1 1 6 6 6 9 9 9 0 0 0 4 4 4 1 1 1 2 2 2 16 18 16 2 2 2 2 4 4 1 1 1
2 0
2 0
2 0
Totaal afwijkingen aantal bezoeken
9
9
9
7
7
11 11
0 0 0 0 0 1
0 0 0 0 0 1 not
0 2
0 1
2
0
-1 0 0 0
0 0 1 0
0 2 2 0 0
0 0 3 1 0
0 0 0 0 0 0 0 0 2 0 2 0
0 0 0 0 0 0 0 0 0 0 2 not 0
14
f
f
? f
9
7
0 = soort wel waargenomen, maar onvoldoende voor aanname territorium
f nb dg not
verschillen door: strak hanteren van fusieafstand normbezoeken (dus criteria) strak hanteren van datumgrenzen notatiewijze
6
verschil door
0 1
AC-BMP
1 1
1 1 1 1 1 3
10 10
BVK-BMP
1 1 1 1 1 2
verschil door
Wilde Eend Havik Buizerd Houtsnip Koekoek Gr B Specht Kl B Specht Boompieper Winterkoning Heggemus Roodborst Gekr. Roodstaart Merel Zanglijster Rietzanger Kleine Karekiet Grasmus Tuinfluiter Zwartkop Tjiftjaf Fitis Gr Vliegenvanger Staartmees Glanskop Matkop Pimpelmees Koolmees Boomklever Boomkruiper Gaai Zwarte Kraai Vink Putter Goudvink Appelvink
AC-BMP
11 11
BVK-BMP
BVK
11
1 1 1 1 1 3
ACLUS
BMP
10 10 10
BVK
Jaartal + 2000
BMP
ACLUS
Tabel 1 Uitkomsten van verschillende manieren van territorium-clustering
-1 0
-1 0
0 0 0 2 0 2 0 2 0 0 0 0 0 0 0 1 5 2 0 0
0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0
0 0 1 0 1 0 0 1
0 0 0 0 1 0 0 0
0
0
18
4
dg
not nb
f, nb
f