Capita Selecta. Berekenen van Fokwaarden door middel van Machine Learning. Joan ter Weele. Augustus Versie 1.0

Capita Selecta Berekenen van Fokwaarden door middel van Machine Learning

Joan ter Weele Augustus 2009 Versie 1.0

Capita Selecta

Joan ter Weele

Inhoudsopgave Introductie............................................................................................................................................... 3 Opdracht.................................................................................................................................................. 4 De opdracht......................................................................................................................................... 4 Onderzoeksvragen................................................................................................................................. 4 Terminologie ........................................................................................................................................... 6 Dataset .................................................................................................................................................. 10 Interbull ............................................................................................................................................. 10 Rassenstandaarden ........................................................................................................................... 10 Welke Levensduurfokwaarde te gaan gebruiken.............................................................................. 11 Ruwe data.......................................................................................................................................... 11 Verdere verfijning van de data.......................................................................................................... 12 De verfijnde dataset .......................................................................................................................... 12 Correlatie........................................................................................................................................... 14 Nogmaals verfijnen............................................................................................................................ 16 De uiteindelijke dataset(s)................................................................................................................. 17 Regression Analasis .............................................................................................................................. 20 Fitting................................................................................................................................................. 20 Multiple Regression........................................................................................................................... 23 Regression trees .................................................................................................................................... 26 Pruning .............................................................................................................................................. 27 Neural Networks.................................................................................................................................... 37 NRS uitkomsten ..................................................................................................................................... 39 Conclusie ............................................................................................................................................... 40 Verder onderzoek.................................................................................................................................. 42 Bronnen................................................................................................................................................. 43 Bijlage .................................................................................................................................................... 44

Pagina 2 van 45

Capita Selecta

Joan ter Weele

Introductie Om een goede koe te fokken wordt er een goede stier bij een koe gezocht die alle minpunten van die koe kan verbeteren en de goede punten van de koe ook nog kan versterken en ondersteunen. Dit alles heeft als doen om de vaarskalfjes die hier uit geboren kunnen worden uiteindelijk nog betere koeien worden, liefst met het behalen van de predicaten, honderdduizend liter koe en tienduizend kilogram vet en eiwit. Van elke stamboek geregisterde koe wordt veel informatie bij gehouden zoals melksamenstelling, exterieur1, gezondheid kenmerken etc. Als van een stier veel dochter informatie beschikbaar is, is het mogelijk om te achterhalen hoe goed hij welke kenmerken overdraagt aan zijn dochters. Deze informatie wordt nog gecorrigeerd met de rasbasis. Elke 5 jaar worden er nieuwe rasbasissen berekend. Dieren die aan een set richtlijnen voldoen worden dan in de desbetreffende basis meegenomen, de basispopulatie. De gemiddelde fokwaarden van deze dieren wordt gelijk gesteld aan 100, bij melk, vetpercentage en eiwitpercentage is dit 0. Nadat de kenmerken van de stier zijn gecorrigeerd met de basis is bekend hoeveel beter, of slechter, de dochter van de stier het doen ten opzichte van de rasbasis. Hieruit kan dan een fokwaarde worden berekend. Het Nederlands Rundvee stamboek (NRS) heeft hier diverse methoden bedacht om deze fokwaarden te kunnen bereken, deze methoden staan uitgelegd in het handboek van het NRS. [NRS2008-2009] Kort samen gevat, een fokwaarde van een stier geeft aan hoe zijn dochter zich verhouden tot de basis populatie. In Nederland is in april 2008 de fokwaarde levensduur geïntroduceerd. Deze fokwaarde geeft het gemiddelde aantal dagen weer dat de dochter van die stier of koe langer blijft lopen op de boerderij dan de basispopulatie. Doordat de fokwaarde wordt gebaseerd op het aantal dagen dat een koe leeft, is het zeer lastig om jonge stieren hiervoor een betrouwbare fokwaarde te geven. Er zijn dan immers nog niet veel dochters afgevoerd2.

1

Exterieur: de uiterlijke kenmerken van runderen. Hoe is het dier gebouwd. Dit zijn kenmerken zoals de hoogte van het dier, stand van de poten, speenlengte, enzovoorts. 2 Afvoer: Een dier dat wordt afgevoerd gaat richting de slacht of het dier is dood gegaan. Als een dier verhuist naar een andere boerderij wordt ook soms afvoer genoemd maar dit telt niet mee in de fokwaarde.

Pagina 3 van 45

Capita Selecta

Joan ter Weele

Opdracht De levensduurfokwaarde kent een lage genetische aanleg [NRS2008-2009, hoofdstuk E19] en is mede daardoor zeer moeilijk te voorspelen. Mijn vermoeden is dat het toch te voorspellen valt door gebruik te maken van andere fokwaarden (met een hogere genetische aanleg). Er zijn diverse reden dat melkveehouder hun dieren afvoeren voor de slacht. Bij ons thuis op de boerderij zijn de drie belangrijkste reden van afvoer: te lage melkgift, vruchtbaarheid en celgetal/mastitis. Deze redenen zijn samen goed voor ruim 85 procent van de afgevoerde dieren in de laatste drie jaar. Omdat het per bedrijf kan verschillen heb ik de belangrijkste reden van afvoer ook aan andere melkveehouders gevraagd. De top drie is ongeveer bij alle bedrijven gelijk maar bij bedrijven die door blauwtong zijn getroffen is het aandeel vruchtbaarheid hoger. Dit kan onder andere verklaard worden doordat het aantal verwerpers3 bij blauwtongbedrijven4 veel groter is. Deze dieren worden moeilijker weer drachtig of ze worden direct afgevoerd. De andere manier van afvoer is als het dier is gestorven. De reden dat een dier sterft kunnen zeer uiteen lopen en door de lage aantalen dieren is over de sterfte niets te voorspellen. De drie eerder genoemde reden waarom een dier wordt afgevoerd hebben temaken met de fokwaarden Milk, Fertility en BV Somatic Cell Score. Mijn verwachting is dat een stier met een lage score voor deze fokwaarden een lagere levensduur heeft. Om te onderzoeken of het mogelijk is om de levensduur te voorspellen aan de hand van andere fokwaarden wordt er gebruik gemaakt van diverse Machine Learning technieken.

De opdracht Is er een verband / correlatie tussen de fokwaarde levensduur en de andere fokwaarden die van een stier worden berekend. Aan de hand van de mogelijk te vinden verbanden wordt, indien mogelijk, een nieuwe methode of formule samen gesteld waarmee de fokwaarde levensduur voor jonge stieren kan worden berekend. Op deze manier probeer ik nauwkeuriger en betrouwbaarder de fokwaarde te voorspellen dan huidige methode van het NRS.

Onderzoeksvragen Hier uit kunnen de volgende onderzoeksvragen worden gehaald. 1. welke fokwaarden hebben een verband met de fokwaarde levensduur. 2. welke fokwaarden zijn betrouwbaar genoeg om te gebruiken bij jonge stieren. 3. wat is de betrouwbaarheid van de nieuwe methode. 3

Verwerper: een dier dat tijdens de dracht de vrucht / kalfje verwerpt. Bedrijven met dieren die getroffen zijn door de dierziekte blauwtong. Runderen kunnen zeer ziek worden van deze ziekte en er zelfs aan bezwijken. 4

Pagina 4 van 45

Capita Selecta

Joan ter Weele

4. wat is de nauwkeurigheid van de nieuwe methode.

Pagina 5 van 45

Capita Selecta

Joan ter Weele

Terminologie Voor mensen die geen agrarische achtergrond hebben kan enige uitleg over fokwaarden handig zijn. In de tabel hieronder staan de fokwaarden genoemd die gebruikt gaan worden in deze capita selecta samen met een beknopte uitleg. De fokwaarden zijn onder gegroepeerd in vijf categorieën: • • • • •

Productie: Kenmerken die gaan over de productie drang die koeien hebben. Bovenbalk: Een bovenbalk kenmerk is een totaal waardering over een aantal onderbalk metingen. Onderbalk: De exterieuronderdelen die je kunt meten/constateren. Stier: De gebruikskenmerken van de directe nakomelingen van de stier. Dochters: De gebruikskenmerken van de dochters van de stier.

Bovenbalk

Productie

Voor alle behalve productie fokwaarden geldt. 100 is gemiddeld boven de 100 is verbetering ten opzichte van de basispopulatie en onder de 100 is een verslechtering t.o.v. de basispopulatie. Boven de 100 voldoet het dier meer aan het ideale uiterlijk waarop gekeurd wordt. Engels

Nederlands

Milk

Melk

Fat

Kg vet

Fat percentage

Vet %

Protein

Kg eiwit

Protein percentage

Eiwit %

Inet

Inet

Frame

Fame

Dairy strength

Robuustheid

UDDER

Uier

FEET and LEGS

Beenwerk

FINAL SCORE

Totaal exterieur

uitleg Het aantal kilogrammen melk dat de stier over erft De kilogrammen melkvet die de dochter meer of minder gemiddeld gaan geven. De verandering/verbetering van het vetpercentage in de melk De kg melkeiwit die de dochter gemiddeld meer of minder gaan geven De verandering in het eiwit gehalte van de melk Inet is een formule gebaseerd op de kilogrammen melk, vet en eiwit, hiermee wordt het extra melkgeld t.o.v. de basis aangegeven. De bouw van de frame/torso van de koe Of de koe er solide uitziet. Fokwaarde voor de waardering van het uier Fokwaarde voor de waardering van de benen en klauwen. Fokwaarde voor het gehele exterieur van de nakomelingen van de stier.

Pagina 6 van 45

Onderbalk

Capita Selecta

Joan ter Weele

Strature

Hoogtemaat

Chest width

Voorhand

Body depth

Inhoud

Angularity

Openheid

Condition score

Conditie score

Rump Angle

Kruisligging

Rump width

Kruisbreedte

Locomotion

Beengebruik

Rear Legs Rear View

Beenstand achter

Rear Legs side view

Beenstand zij

Foot angel Fore udder attachment Front teat placement Teat length

Klauwhoek Vooruieraanhechting Voorspeenplaatsing Speenlengte

Udder depth

Uierdiepte

Rear udder height

Achteruierhoogte

Rear teat placement

Achterspeenplaatsing

Udder support

Ophangband

De hoogte van het dier gemeten op het staartbot De breedte van de borst. De grootte (diepte en breedte) van de romp. De hoek van de ribben en de afstand tussen de ribben Hoe vet een dier is. Optimum is iets vet. En na kalveren iets schraal. De hellingsgraad van het kruis. (van heup naar zitbeen) De afstand tussen de zitbeenderen van het dier. De correctheid van het lopen van het dier. De stand van de klauwen (van achteren bekeken) De hoek van het spronggewicht (knie) De hoek van de klauwen De hoek tussen het uier en de romp Afstand tussen de voorspenen De lengte van spenen Hoe hoog het uier van de grond hangt. Hoe hoog het uier doorloop aan de achterkant van de koe. Afstand tussen de achterspenen De kracht van de spier die het uier vasthoudt. Deze spier zit aan de achterzijde van de koe.

Pagina 7 van 45

Stier

Capita Selecta

Joan ter Weele

BV Birth weight

Geboortegewicht

BV Calving ease

Geboortegemak

BV Gestation length

Drachtsduur Levensvatbaarheid (geboorte)

Vitality Heifer vitality Cow vitality Daughters Dead daughters CC BV Carcass weight CC BV Meat content CC BV Fat score VC BV Carcass weight VC BV Meat content VC BV Fat score VC BV Veal color BS BV Beef Merit BS BV Meat content BS BV Fat score

Wegen de kalveren van deze stier boven of onder het gemiddelde. Worden de kalveren van deze stier makkelijker (>100) of moeilijker (<100) geboren dan het populatiegemiddelde. Hoeveel dagen de dracht duurt. Blijft het kalf de eerste 24 uur leven

Blijf het dier leven tot aan de eerste maal afkalveren Fokwaarde die de Levensvatbaarheid Koe levensvatbaarheid van de dochters aangeeft. Het aantal dochters waarop de Dochters (levensduur) fokwaarde levensduur is berekend Het aantal dode dochters waarop Dode dochters de fokwaarde levensduur is (levensduur) berekend Het geslacht gewicht van de Koe karkasgewicht slachtkoeien De hoeveelheid vlees van de Koe Vleeshoeveelheid slachtkoeien Fokwaarde voor de vetscore van het Kalf Vet percentage vlees vlees van de slachtkoeien Het geslacht gewicht van Kalf karkasgewicht onvolwassen nakomelingen De hoeveelheid vlees van de Kalf Vleeshoeveelheid onvolwassen nakomelingen Fokwaarde voor de vetscore van het Kalf Vet percentage vlees vlees van de onvolwassen nakomelingen De kleur correctheid van het vlees Kalfsvlees kleur van de kalveren. Fokwaarde voor de kwaliteit van het Vleesstieren Vleesklasse vlees van vleesstieren Vleesstieren De hoeveelheid vlees van Vleeshoeveelheid vleesstieren Vleesstieren Vet Fokwaarde voor de vetscore van het percentage vlees vlees van vleesstieren Levensvatbaarheid Kalf

Pagina 8 van 45

Dochter

Capita Selecta

Joan ter Weele

Fertility

Vruchtbaarheid

BV Non Return 56

Non-Return 56 dagen

BV Interval calving first insemination BV calving Interval BV Maternal calving

Interval eerste inseminatie Tussenkalftijd Afkalfgemak Levensvatbaarheid afkalveren

Maternal Vitality Maternal Heifer vitality

Levensvatbaarheid Kalf

Maternal Cow vitality

Levensvatbaarheid Koe

BV Somatic Cell Score

Celgetal

BV Body weight

Gewicht

BV Persistency

Persistentie

BV Rate of Maturity

Laatrijpheid

BV Milking speed

Melksnelheid

BV Temperament

Karakter

BV Urea

Ureum

Hoeveel inseminaties dat het dier nodig heeft om drachtig te worden en hoeveel dagen ze daar over heeft gedaan. Het percentage dieren dat binnen 56 dagen na inseminatie opnieuw wordt aangeboden voor herinseminatie. (lager percentage is beter) Dagen tussen kalveren en eerste inseminatie. Aantal dagen tussen afkalven Hoe gemakkelijk kalven de dochters Blijven de kalveren van de dochters de eerste 24 uur in leven. Blijven de pinken van de dochters inleven tot aan de eerste maal afkalveren Fokwaarde die de levensvatbaarheid van de kleindochters van de stier aangeeft. Het aantal cellen dat er in de melk zit Het gewicht van het dier. Hoe persistent het dier de productie tijdens de lactatie volhoudt De tijd die het dier erover doet om optimaal te kunnen presteren Hoe makkelijk de hoe de melk laat lopen tijdens het melken Het karakter van de koe tijdens het melken. Het percentage ureum in de melk

Tabel 1, uitleg over de te gebruiken fokwaarden

Pagina 9 van 45

Capita Selecta

Joan ter Weele

Dataset De ruwe data is aangeleverd door het bedrijf CRV (Coöperatie Rundvee Verbetering) het moederbedrijf van het NRS, zij berekenen de fokwaarden voor de Nederlandse Veeverbetering Organisatie (NVO). De NVO is een stichting die beslist wat er berekend moet worden en velt een eindoordeel over het resultaat hiervan. Deze data bevat alle stiergegevens die beschikbaar zijn in Nederland. Bij een gedeelte van de stieren zijn de fokwaarden gebaseerd op Nederlandse dochterinformatie wat resulteert in een Nederlandse fokwaarde. Bij het overgrote merendeel van de data zijn de fokwaarden gebaseerd op de Interbull fokwaarden.

Interbull Interbull is een internationale organisatie voor het uitwisselen van fokwaarden voor rundvee. Aangezien elk land andere fokwaarden publiceert en berekend is het niet mogelijk om deze direct over te nemen. Ook de verschillen in leefomgeving kunnen er voor zorgen dat de fokwaarden niet goed te vergelijken zijn. Bijvoorbeeld in Australe krijgen de koeien veel gras en is het er zeer warm terwijl in Nederland de koeien meer maïs krijgen en minder aan extreme temperaturen worden blootgesteld. Doordat (goede) stieren ook in andere landen worden gebruikt is het bekend hoe die stieren zich verhouden in de verschillende landen. Hierdoor is het mogelijk om omreken formules te maken voor de buitenlandse fokwaarden naar nationale fokwaarden, ook dit wordt gedaan door Interbull. Deze omgerekende fokwaarden worden daarom Interbull fokwaarden genoemd. Doordat deze fokwaarden omgerekend zijn is de betrouwbaarheid lager dan van een nationale fokwaarde. Wanneer er voldoende dochters aan de melk zijn voor een betrouwbaardere nationale fokwaarde, dan wordt deze gepubliceerd in plaats van de Interbull fokwaarde. Niet voor alle gepubliceerde fokwaarden is het mogelijk om een omrekenformule te maken. Dit kan komen omdat in het buitenland die fokwaarde niet word berekend (bijvoorbeeld de fokwaarde melksnelheid) of omdat er niet voldoende stieren uit dat land zijn gebruikt om een betrouwbare Interbull fokwaarde te kunnen bereken (Bijvoorbeeld exterieur fokwaarden van Japan).

Rassenstandaarden De dataset bevat informatie voor diverse rassen. In Nederland worden de fokwaarden gepubliceerd op drie standaarden, Zwartbontbasis, Roodbontbasis en MRIJ-basis. Alle zwartbonte melkveerassen en het ras jersey worden toegekend aan de zwartbontbasis. Mrij en blaarkoppen horen bij de Mrijbasis en alle overige dieren worden toegerekend aan de roodbontbasis. [Overzicht van alle bases voor fokwaarden per 1 april 2008]

Pagina 10 van 45

Capita Selecta

Joan ter Weele

Interbull onderkent een aantal hoofdgroepen/rassen namelijk, Holstein (zwartbont en roodbont), Jersey, Brown Swiss, Simmental (met hierin Flecvieh en Montbéliarde), Guernsey en Rode melkveerassen (met hierin Ayrshire en Scandinavische rode rassen).

Welke Levensduurfokwaarde te gaan gebruiken De dataset bevat twee fokwaarden levensduur (longevity) namelijk, National proof with predictors en National proof without predictors. Deze namen zullen worden afgekort tot LONGEVITY without en LONGEVITY with. De eerste geeft de berekende fokwaarde aan de hand van de afvoer van de dochter van de stier. De tweede, LONGEVITY with, is ook gebaseerd op de afvoer van de dochter maar hierin zitten ook een aantal “voorspellers” van de levensduurfokwaarde. Deze voorspellers zijn Locomotion (beengebruik), BV Somatic Cell Score (celgetal) en Udder depth (uier diepte). In de tabellen van dit hoofdstuk zullen telkens beide fokwaarden worden weergegeven maar uiteindelijk zal alleen met de fokwaarde zonder voorspellers worden gebruikt in de diverse methodes. Deze fokwaarde is nog niet voorzien van voorspellers en

Ruwe data De geleverde dataset bestaat uit een groot tekst bestand met 147.514 regels, elke regel bestaat uit 530 velden met een totaal van 2568 karakters. Deze data bevat alle stiergegevens van alle stieren die aangemeld zijn bij Interbull. Om deze data te kunnen gebruiken is het aantal velden gereduceerd naar een goede tweehonderd. Dit is gedaan door alle tekst velden, niet gebruikte velden en informatie over het aantal buitenlandse dochters uit de dataset te halen. De volgende stap was om alle stieren uit de data te halen die niet tot het ras Holstein behoren. Holstein is het grootste ras in Nederland met bijna een miljoen stamboekgeregistreerde koeien. Alle Interbull fokwaarden zijn uit de lijst verwijderd en mocht een stier hierdoor geen fokwaarde meer overhouden dan werd deze ook verwijderd uit de data. Dit resulteerde uiteindelijk in een dataset van 9662 stieren met 64 fokwaarden en bijbehoorde betrouwbaarheid percentages, en een aantal velden zoals Interbull id, naam, ras etc. Elke berekende fokwaarde heeft een betrouwbaarheid. Hoe meer data er bekend is hoe kleiner de meet/schattingsfouten worden en dus wordt de betrouwbaarheid van de fokwaarde dan groter. Hiervoor is een formule beschikbaar. Betrouwbaarheid is een getal tussen 0.0 en 1.0

Wat houd dit getal precies in. Dit getal is een standaarddeviatie en hiermee wordt aangeven hoeveel de fokwaarde nog kan afwijken ten opzicht van de huidige fokwaarde. Bijvoorbeeld bij de fokwaarde levensduur. De genetische spreiding is daar 270 dagen. De stier Kian heeft een betrouwbaarheid van 99 procent wat resulteert in een schattingsfout van 27 dagen. De fokwaarde levensduur van Kian is 544 dagen. Dit betekent dat er 68,3% kans is dat de werkelijke fokwaarden tussen 517 en 571 dagen in ligt. En 95,4% kans dat de werkelijke fokwaarden tussen 490 en 528 dagen in ligt

Pagina 11 van 45

Capita Selecta

Joan ter Weele

Verdere verfijning van de data Er is gekozen voor een minimale betrouwbaarheid percentage van 70%. Dit is tweemaal het minimale betrouwbaarheidspercentage van stieren die voor de eerste maal gepubliceerd worden, NVO publiceert de fokwaarden pas bij 35 betrouwbaarheid. Vanaf een betrouwbaarheid van ongeveer 70% kiezen de ki verenigen of een proefstier een fokstier mag worden. In Nederland worden veel stieren getest (proefstier) en alleen de beste stieren worden gebruikt om mee te fokken (fokstier). Ki verenigen kijken dan naar de 70% grens van de productie en de exterieurfokwaarden. Door het hanteren van een 70% grens voor alle fokwaarden viel de fokwaarde BV Udder Health, in het Nederlands Uiergezondheid ¸ af omdat er geen enkele stier was die hier een betrouwbare fokwaarde voor had. Omdat er verschillende basissen worden gebruikt voor Roodbonte en Zwartbonte Holstein koeien is er besloten om alleen met de zwartbonte Holstein stieren te gaan werken, deze vormt de grootste groep Holstein stieren. De basissen staan kort uitgelegd in de paragraaf “Rassenstandaarden” op pagina 10,

De verfijnde dataset De dataset die overblijft bevat 63 fokwaarden van 6.327 stieren. In de figuur op de volgende pagina is te zien dat er voor een aantal fokwaarden zeer weinig stieren voldoen aan de eis van minimaal 70% betrouwbaarheid. Voor elke fokwaarde van een stier is immers de fokwaarde bekend alsook hoe betrouwbaar die waarde is.

Pagina 12 van 45

Capita Selecta

Joan ter Weele

Figuur 1, aantal stieren per fokwaarde, voor beide levensduur datasets

Pagina 13 van 45

Capita Selecta

Joan ter Weele

Correlatie In de onderstaande tabel en de afbeelding op de volgende pagina is de correlatie van de fokwaarden uitgezet ten opzichte van de fokwaarden levensduur. Hier is ook direct al een probleem te zien, de beste fokwaarde heeft een correlatie kleiner dan 0.5. De negatieve correlatie is ook net iets kleiner 0.3. Dat houdt in dat de overeenkomsten tussen de diverse fokwaarden en de levensduurfokwaarden zeer laag is.

Protein Milk Inet Fat BV Persistency UDDER FINAL SCORE Udder support FEET and LEGS Cow Maternal Vitality BV Somatic Cell Score BV Rate of Maturity Front teat placement Udder depth Rear udder height Vitality Locomotion Cow Vitality BV Calving ease BV Urea Maternal Vitality Fore udder attachment Rump Angle BV Maternal calving process Foot angle daughters Heifer vitality dead daughters Heifer Maternal Vitality BS BV Fat score Stature Rear teat placement

LONGEVITY LONGEVITY without with 0,4746 0,4697 0,4557 0,4493 0,4432 0,4391 0,4096 0,4043 0,3950 0,3935 0,3785 0,3929 0,3524 0,3697 0,2850 0,2935 0,2725 0,2906 0,2605 0,2615 0,2421 0,2847 0,2252 0,2326 0,2170 0,2283 0,2088 0,2309 0,1953 0,1955 0,1794 0,1889 0,1557 0,1812 0,1409 0,1514 0,1264 0,1278 0,1198 0,1119 0,1195 0,1208 0,1131 0,1325

Rear legs rear view BV Milking speed VC BV Meat content VC BV Fat score Rear legs side view FRAME Angularity CC BV Meat content DAIRY STRENGTH Teat length BV Temperament BS BV Meat content CC BV Fat score VC BV Veal color BV Gestation length Protein percentage BS BV Beef Merit VC BV Carcass weight BV Birth weight Condition score BV Non Return 56 BS BV Carcass weight

LONGEVITY LONGEVITY without with 0,0233 0,0433 0,0099 0,0014 0,0026 0,0098 -0,0043 -0,0071 -0,0077 -0,0216 -0,0102 -0,0169 -0,0118 -0,0237 -0,0180 -0,0039 -0,0228 -0,0126 -0,0270 -0,0305 -0,0315 -0,0278 -0,0429 -0,0429 -0,0474 -0,0599 -0,0535 -0,0598 -0,0944 -0,0931 -0,0996 -0,0950 -0,1162 -0,1086 -0,1269 -0,1167 -0,1331 -0,1344 -0,1337 -0,1166 -0,1602 -0,1664 -0,1638 -0,1620

0,1085 0,0865

0,1056 0,0906

Rump width CC BV Carcass weight

-0,1682 -0,1845

-0,1611 -0,1845

0,0677 0,0622

0,0806 0,0618

-0,1916 -0,2392

-0,1881 -0,2300

0,0472 0,0448 0,0365

0,0562 0,0443 0,0368

Fat percentage BV Interval calving first insemination Body depth BV Body weight Chest width

-0,2725 -0,2741 -0,2745

-0,2716 -0,2591 -0,2623

0,0363 0,0305 0,0268

0,0354 0,0385 0,0389

BV calving Interval Fertility

-0,3040 -0,3130

-0,2970 -0,3073

Tabel 2, correlaties van de fokwaarden t.o.v. de fokwaarde levensduur

Pagina 14 van 45

Capita Selecta

Figuur 2, correlatie van de fokwaarden met de levensduurfokwaarden

Joan ter Weele

Pagina 15 van 45

Capita Selecta

Joan ter Weele

Nogmaals verfijnen De dataset die overbleef na het verfijnen bevat een aantal fokwaarden die minder dan 1000 stieren met een betrouwbaar cijfer bevatten. Om met de data te kunnen rekenen wordt als ondergrens per fokwaarde 1000 stieren met een betrouwbaar cijfer genomen. Ook fokwaarden met een correlatie tussen de 0.1 en -0.1 worden niet meegenomen in de berekening. De correlaties van deze fokwaarden geven aan dat ze eigenlijk niets kunnen bijdragen aan de berekening. Dit leidt er toe dat het aantal fokwaarden met bijna de helft wordt gehalveerd, van 63 naar 34 fokwaarden. De correlaties van de overgebleven fokwaarden staan in de onderstaande grafiek.

Figuur 3, correlaties van de overgebleven fokwaarden

Pagina 16 van 45

Capita Selecta

Joan ter Weele

In de onderstaande grafiek staat per fokwaarde het aantal stieren dat hiervoor een betrouwbaar cijfer heeft.

Figuur 4, aantal stieren uitgezet tegen de fokwaarden voor beide datasets

De uiteindelijke dataset(s) Er zijn 6.151 stieren die een betrouwbare levensduur fokwaarde zonder voorspellers (longevity without) hebben. Alleen deze stieren zullen dus ook gebruikt worden. Voor informatie over de fokwaarden verwijs ik naar het hoofdstuk “Terminologie”op pagina 6. De uiteindelijke dataset is opgedeeld in 5 verschillende datasets. Alle fokwaarden die ook 6.151 betrouwbare stieren hebben komen in dataset 1. Deze dataset bestaat uit de fokwaarden: • Protein • Front teat placement • BV calving Interval • Milk • Udder depth • Fertility • Inet • Rump Angle • Fat • Fat percentage • UDDER • BV Interval calving first insemination • FINAL SCORE Dit levert een dataset op met de gegevens van 6.151 stieren.

Pagina 17 van 45

Capita Selecta

Joan ter Weele

Dataset 2 bestaat uit alle fokwaarden van Dataset 1 plus de volgende fokwaarden: • BV Persistency • BV Somatic Cell Score • BV Calving ease • Udder support • BV Rate of Maturity • BV Birth weight • BV Non Return 56 • FEET and LEGS • Rump width Het aantal stieren is iets gedaald door de toevoeging van de extra fokwaarden naar 4.813. Dataset 3 is een uitbreiding op dataset 2 met de volgende fokwaarden: • BV Body weight • Fore udder attachment • Body depth • Chest width Dataset3 bevat de fokwaarden van 3.498 stieren.

•

Rear udder height

Dataset 4 is weer een uitbreiding op dataset 3. De volgende fokwaarden zijn eraan toegevoegd: • CC BV Carcass weight • BS BV Beef Merit • Condition score • VC BV Carcass weight De toevoeging van deze 4 fokwaarden zorgen ervoor dat het aantal stieren in de dataset met iets meer dan duizend is gedaald naar 2.477. Dataset 5 bevat alle fokwaarden. De volgende fokwaarden moeten daarom nog worden toegevoegd aan de dataset 4: • BV Urea • Locomotion Dataset5 telt 924 stieren die voor alle 33 gebruikte fokwaarden een betrouwbare waarde hebben. Als de fokwaarde Maternal Vitality ook wordt gebruikt bleven er net iets meer dan 500 stieren over die voor alle 34 fokwaarden een betrouwbare waarde hebben. Het weglaten van deze fokwaarde verslechterde de resultaten van de diverse gebruikte methoden niet, dit kan komen om dat de correlatie met de levensduur maar 0,1195 bedraagt.

Op de volgende pagina staan twee plots van de data. In de eerste afbeelding is het eiwit uitgezet tegen de levensduur. Deze afbeelding is voorzien van een regressielijn van de derde orde. Hieraan is goed te zien dat het een positieve correlatie betreft. In de tweede afbeelding is de vruchtbaarheid uitgezet tegen de levensduur. Ook deze is voorzien van een regressielijn van de derde orde. Deze lijn loopt naar beneden, en dit klopt ook met de negatieve correlatie.

Pagina 18 van 45

Capita Selecta

Joan ter Weele

Figuur 5, levensduur tegen eiwit uitgezet. (inclusief regressie formule van de derde orde)

Figuur 6, levensduur tegen vruchtbaarheid uitgezet. (inclusief regressie formule van de derde orde)

Pagina 19 van 45

Capita Selecta

Joan ter Weele

Regression Analasis Regression Analasis is de eerste methode die gebruikt is om een fokwaarde levensduur te bereken aan de hand van de andere fokwaarden. Er zijn twee verschillende methoden gebruikt namelijk Multiple Regesssion en Fitting. Deze staan beide hieronder beschreven.

Fitting Bij fitting wordt een formule gemaakt die door zoveel mogelijk punten gaat of deze dichtbij benaderd. Op Figuur 5 en Figuur 6 is goed te zien dat het uitzetten van de fokwaarden tegen elkaar een soort van wolk met punten oplevert. Het is dus niet mogelijk om een lijn door alle punten te trekken, dus wordt de lijn berekend die het dichtst bij alle punten licht. Met deze methode zullen dus geen goede resultaten worden behaald maar kan wel dienen als referentie punt om te zien of de andere methoden veel verbetering bieden. In Tabel 4 tot en met Tabel 8 staan de resultaten van de regression berekening, de gemiddelde absolute afwijking. Dus hoeveel verschil zit er tussen de berekende waarde en de echte waarde, hier is het absolute gemiddelde van genomen. En op de rijen staan de resultaten van de testset. Boven elke kolommen staat bij tot welke orde de berekening horen. Bij de nulde macht is het dus alleen een getal. En bij de derde orde/macht komt er dus een formule uit die er als volgt uitziet. "

.

De beschrijving van de datasets staan in de paragraaf “De uiteindelijke dataset(s)” op pagina 17. Hoe is het berekend. Als eerste is er een trainingsset en een testset gemaakt. Dit is gedaan door de stieren op willekeurige volgorde te zetten en daarna de 3kwart voor de training te nemen en een kwart voor de testset. De volgorde van de stieren in de trainingsset is daarna weer door elkaar gezet en is deze opgesplitst in tweederde training en een derde validatie. Voor elke fokwaarde in de trainingsset is een aparte regressieformule berekend. Deze is daarna gevalideerd aan de validatie set. Dit levert per stier een aantal berekende levensduurcijfers op, hier is het gemiddelde van genomen. Per stier in de validatieset is er dan de echte levensduur bekend en een berekende versie door middel van de regressieformules. Het gemiddelde van het absolute verschil tussen beide waardes is het resultaat van deze methode. Vijfmaal wordt dit uitgevoerd, data door elkaar zetten, opdelen in een training en validatie set, en hier komt dan een resultaat uit. De beste wordt hiervan genomen die deze wordt vergeleken met de testset. Om het effect van een ongelukkig verkregen dataset tegen te gaan is alles vijf maal herhaald. Dus door elkaar zetten. Opdelen in training en test. Vijf maal alles berken, daarvan het beste resultaat vergelijken met de testset. Dit levert de tabel op die op de volgende pagina staat, tabel 3. De rijnamen geven aan met welke validatie ronde het betreft validation1 geeft dus de eerst maal berekend van de training/validation weer. Daaronder staat het beste validation resultaat en daar weer onder welke ronde het precies betrof. Met regressionformules van die ronde zijn over de

Pagina 20 van 45

Capita Selecta

Joan ter Weele

testset gehaald en het resultaat daarvan staat in de onderste rij. Dit geheel zou vijf maal herhaald worden. Dit is weergegeven door hiervoor telkens een kolom te gebruiken. De gebruikte dataset van deze tabel is dataset 1 voor de nulde orde.

validation1 validation2 validation3 validation4 validation5 beste Validatie ronde Testresultaat

test1 202,4769 208,7944 205,3025 199,8022 202,6383 199,8022 4 212,1339

test2 205,5647 201,1477 208,352 209,1822 206,3735 201,1477 2 215,5536

test3 207,7703 208,9564 205,6331 197,6181 205,6116 197,6181 4 203,5673

test4 201,1085 203,2963 205,6452 208,9194 212,2066 201,1085 1 203,1984

test5 208,6914 209,731 205,1105 206,026 201,9279 201,9279 5 208,2069

Tabel 3, Dataset 1, orde 0

Het gemiddelde van de testresultaten bedraagt 208,5320 met een standaardderivatie van 5,373029. Dit is gedaan voor elk e orde en elke dataset. Omdat het weergeven van alle resultaten van elke validation ronde veel ruimte kost in de onderstaande tabellen achterwegengelaten. (gem = gemiddelde, std = standaardderivatie) Dataset1: orde test1 test2 test3 test4 test5 gem std

0 212,13 215,55 203,57 203,20 208,21 173,78 5,3730

1 187,41 188,01 186,62 191,91 188,11 157,18 2,0444

2 185,40 189,84 187,75 184,99 186,20 156,03 1,9830

3 186,58 185,71 187,82 185,02 186,11 155,71 1,0481

4 185,08 185,65 187,77 184,81 186,01 155,55 1,1640

5 185,12 185,65 187,83 184,85 189,79 156,37 2,1123

6 185,11 187,63 189,86 187,80 184,48 156,81 2,1875

7 185,13 185,67 187,70 184,82 186,00 156,05 1,1248

8 185,03 186,37 184,84 185,98 189,77 156,67 1,9886

9 185,67 185,25 188,33 184,91 185,96 156,52 1,3504

10 185,67 185,50 184,35 184,94 190,56 156,84 2,4885

3 181,94 186,91 187,64 178,42 185,16 153,84 3,8237

4 178,33 181,88 187,67 178,41 185,18 152,58 4,1279

5 181,92 186,74 187,68 178,37 185,14 154,14 3,8217

6 178,57 181,85 186,48 187,71 178,32 153,16 4,3661

7 178,57 181,89 187,68 178,29 185,53 153,16 4,1677

8 178,54 181,98 187,46 187,64 185,72 154,89 3,9291

9 181,88 187,78 178,71 187,51 185,74 155,10 3,9240

10 181,90 180,15 187,76 178,70 188,70 154,53 4,5277

Tabel 4, Regression resultaten dataset 1

Dataset 2: orde test1 test2 test3 test4 test5 gem std

0 196,85 197,89 195,83 197,10 195,28 163,82 1,0380

1 178,84 182,29 187,25 190,87 188,18 154,74 4,8389

2 178,44 182,03 187,02 187,76 178,51 152,63 4,4836


Pagina 21 van 45

Capita Selecta

Joan ter Weele

Dataset 3 orde test1 test2 test3 test4 test5 gem std

0 186,40 192,36 189,54 190,54 188,41 157,87 2,2355

1 179,81 185,27 182,36 181,76 183,34 152,26 2,0086

2 179,74 182,34 181,57 183,25 184,49 152,23 1,7863

3 179,73 185,11 181,37 183,25 184,37 152,81 2,2050

4 179,73 185,11 182,42 181,48 183,27 152,67 2,0063

5 179,74 185,09 182,34 181,47 183,34 152,83 2,0036

6 179,78 185,18 182,53 181,43 183,34 153,04 2,0275

7 179,73 185,23 182,44 183,33 184,47 153,70 2,1331

8 179,89 185,65 182,37 181,37 183,89 153,53 2,2273

9 179,83 185,70 182,44 181,46 184,72 153,86 2,3892

10 180,31 186,07 181,21 185,69 184,28 154,59 2,6191

3 177,59 176,86 179,09 185,32 180,30 150,36 3,3458

4 176,88 179,12 185,18 180,16 188,36 152,28 4,7003

5 177,71 176,94 179,04 185,25 180,42 150,73 3,2874

6 177,68 176,93 179,43 185,28 188,25 152,26 4,9885

7 178,95 176,68 179,69 180,30 188,23 151,81 4,3889

8 179,06 180,14 176,66 185,50 181,95 151,89 3,3119

9 181,21 179,06 177,14 186,39 182,86 152,61 3,5604

10 179,86 177,12 183,22 181,07 188,04 153,22 4,0975

3 190,26 186,50 194,03 188,16 203,41 160,89 6,7294

4 190,26 186,35 193,92 201,66 187,19 160,56 6,2240

5 190,03 193,82 186,29 195,24 178,07 158,07 6,8844

6 189,88 186,14 194,19 189,49 196,02 160,29 3,9517

7 188,47 185,91 194,39 193,85 194,92 160,76 4,0615

8 191,50 193,90 187,07 194,72 189,25 160,74 3,1873

9 205,95 188,50 188,01 193,60 196,45 163,59 7,3115

10 193,60 204,45 208,98 197,11 203,08 169,54 6,1011



0 185,02 183,34 191,19 185,11 194,78 156,57 4,8735

1 177,84 176,93 185,44 188,62 180,37 151,70 5,0310

2 177,79 176,89 178,89 185,42 180,31 150,22 3,3631



0 195,77 200,04 193,08 210,07 203,35 167,05 6,6580

1 190,15 188,34 186,45 194,03 203,32 160,55 6,6868

2 190,38 186,43 188,28 194,07 203,40 160,76 6,7134


Voor de vergelijking aan het einde worde de derde orde genomen omdat deze over alle dataset heen goed presteerde. Zowel qua gemiddelde als de standaardderivatie. Regressie 3de orde Gemiddelde standaardderivatie

Dataset 1 155,71 1,0481

Dataset 2 153,84 3,8237

Dataset 3 152,81 2,2050

Dataset 4 150,36 3,3458

Dataset 5 160,89 6,7294

Tabel 9, resultaat 3de orde regression

Pagina 22 van 45

Capita Selecta

Joan ter Weele

Multiple Regression Bij Multiple Regesssion wordt alle data in een matrix gestopt om deze daarna een matrix vergelijking te doen om de onderstaande formule op te lossen. Waarbij N het aantal fokwaarden is waarmee vergeleken wordt.

Y is hier de fokwaarde levensduur.

is een basis getal dat er bij op dient te worden geteld.

is de eerste fokwaarde waarmee vergeleken wordt en

,

geeft aan hoeveel deze mag meetellen.

Als invoer zijn de genormaliseerd fokwaarden gebruikt. Deze is genormaliseerd tussen 0 en 1. Ook hierbij is de stierdata weer door elkaar gezet en opgedeeld in ¾ training en ¼ testset. Daarna is de training weer door elkaar gezet opgedeeld in 2/3 trainingset en 1/3 validatieset. Met deze training en validatie set is de formule berekend. Het opdelen en door elkaar zetten van de trainingvalidatieset is vijf maal gedaan, hierdoor zijn er vijf uitkomsten van de formule, deze uitkomsten zijn weer terug gerekend naar het aantal dagen. De formule die het beste scoorde op de validatie set is gebruikt om een performance meeting mee te doen. Hiervoor zijn de (genormaliseerde) fokwaarden uit de testset gebruikt en de uitkomsten zijn weer terug gerekend. Dit levert een gemiddelde absoluut verschil tussen de werkelijke fokwaarde en de berekende fokwaarde op, de performance meeting. Door het opdelen van training- en testset is vijf maal gedaan, data is eerst weer opnieuw door elkaar gezet. Per opdeling is het weer vijf maal opgedeeld in training- en validatieset, enzovoorts. Het levert dan in totaal 5 performance metingen op. Dit alles is per dataset herhaald. De resultaten staan in de onderstaande tabel.

performance 1 performance 2 performance 3 performance 4 performance 5 Gemiddelde standaardderivatie

dataset 1 169,0793 163,9965 163,9928 167,0118 170,0812 166,8323 2,81697

dataset 2 148,7967 143,2321 146,0125 147,0865 149,8409 146,9937 2,572854

dataset 3 138,6166 142,8773 140,5112 148,2479 137,4779 141,5462 4,268761

dataset 4 136,6216 135,5864 139,3622 141,3896 137,7536 138,1427 2,292881

dataset 5 137,4291 163,4546 135,8422 150,2851 138,4182 145,0858 11,7577

Tabel 10, resultaat multiple regression

De beste formule van dataset 1 is:

Hierbij valt goed op dat Protein, Milk en Inet de belangrijkste fokwaarden zijn, gevolgd op grootte afstand door Fat en Fertility. Hierbij dient wel opgemerkt te worden dat Protein negatief doorwerkt op het eindresultaat. Zelf had ik voorspeld dat Milk en fertility het goed zouden doen. Milk doet het goed maar fertility telt in verhouding maar een klein beetje mee. De formule van de beste performance meeting van dataset 2:

Pagina 23 van 45

Capita Selecta

Joan ter Weele

'Protein', 'Inet' en 'BV Interval calving first insemination' zijn in deze formule de belangrijkste invoer fokwaarden. Opvallend is ook dat een andere vruchtbaarheidsfokwaarde 'BV Non Return 56' ook zwaar mee telt. Terwijl 'Fertility' niet zo hoog scoort. Mijn andere voorspellers Milk en 'BV Somatic Cell Score' wel redelijk mee wegen in het eindresultaat. Dataset 3 heeft de volgende formule:

Protein Inet Milk en Fat zijn de fokwaarden die het zwaarst mee tellen in het eindresultaat. Op enige afstand komt de fokwaarde Fertitlity, deze telt negatief mee wat niet overeenkomt met mijn voorspelling. Mijn andere voorspeler 'BV Somatic Cell Score', draagt met +0.2275 niet zo heel erg veel bij aan het eindresultaat van deze formule. Protein telt voor het eerst positief mee in de formule.

Pagina 24 van 45

Capita Selecta

Joan ter Weele

Dataset 4 formule:

De vier fokwaarden die het zwaarste mee tellen in het eindresultaat zijn: 'Protein' (+0,5467), 'Fat' (0,5399), UDDER' (0,4637) 'BV Interval calving first insemination' (0,4432) en 'BV Non Return 56' (0,3672).Deze tellen allemaal positief mee in het eindresultaat. De fokwaarde die het zwaarst negatief meeweegt is 'Milk' (-0,3904). Mijn andere voorspeller 'BV Somatic Cell Score' is met een wegingsfactor van 0.2279 wel een van de fokwaarden die redelijk meetelt maar kan het eindresultaat niet heel erg veel beïnvloeden.

Dataset 5 levert de volgende formule:

Bij deze formule zijn er geen fokwaarden die er heel erg uitspringen. De drie fokwaarden die het zwaarst meewegen zijn 'Fertility' (+0,3824), 'Milk' (+0,3418) en 'BV Rate of Maturity' (+0,3090). De eerste twee zijn dan ook direct twee van de fokwaarden die ik voorspeld had. De andere voorspeller 'BV Somatic Cell Score' telt ongeveer half zo waar mee, +0,1499. Opvallend is dat 'Protein' eigenlijk helemaal niet meeweegt in het eindresultaat terwijl deze in de andere formules altijd zeer zwaar mee woog. De standaardafwijking van formule vijf is 11,7577. Er zit dus zeer veel variatie in de resultaten van deze dataset. Het getal wordt wel gebruikt om verder me te kunnen vergelijken maar met zo’n grootte afwijking is het niet geschikt om te gebruiken om de fokwaarde mee te voorspellen.

Pagina 25 van 45

Capita Selecta

Joan ter Weele

Regression trees De tweede methode is met regression trees. Het berekenen van de bomen is meerdere malen gedaan per dataset, dit is gedaan om het effect van “over-fitting” of “onder-fitting” op de dataset teniet te doen. De volgorde van de stieren is wederom door elkaar gehaald. Een kwart als testset en de rest als training. De training is daarna opnieuw door elkaar gehaald en opgesplitst in een validationset(een derde) en een trainingsset (tweederde). Met de trainingsset is een boom berekend, met deze boom en de validatieset is er een levensduur berekend. Het gemiddelde van het absolute verschil tussen de berekende waarde en de fokwaarden is de uitkomst. Het door elkaar zetten en opdelen in validationen trainingsset is vijf maal gedaan en de beste boom hiervan is gebruikt om de uitkomst van de testset mee te berekenen. Dit geeft een performance meeting van deze boom. Het randomizeren van de data en deze dan opdelen in test en training is ook vijf maal gedaan. Met die training zijn bomen berekend en hiermee zijn perfomance meetingen gedaan op de testsets. (het absolute verschil tussen de berekende waarden en de werkelijke waarde) De resultaten hiervan staan in de tabel hieronder. Dit alles is per dataset herhaald. Elke kolom is een van de datasets. Er is vijf maal een performance berekend per dataset en dat is weergegeven op de rijen (test resultaten).

Meeting 1 Meeting 2 Meeting3 Meeting 4 Meeting 5 gemiddelde standaarddeviatie

Dataset1: 223,2668 218,6656 224,3299 225,1757 221,0605 222,500 2,640

Dataset2: 205,5719 200,5395 203,1796 208,7132 209,1172 205,424 3,653

Dataset3: 207,5097 196,0731 201,2731 195,3189 196,2274 199,280 5,172

Dataset4: 204,6107 204,8805 201,7464 204,2391 197,7932 202,654 2,990

Dataset5: 219,9437 211,6753 242,8182 236,1861 209,0736 223,939 14,948

Tabel 11, Regression trees

Deze resultaten zijn behoorlijk slecht. Zelfs slechter dan Regression methode in het vorige hoofdstuk. Dit kan komen omdat er over-fit is.

Pagina 26 van 45

Capita Selecta

Joan ter Weele

Pruning Een manier om over-fitting dit te voorkomen is door gebruikt te maken van pruning. Pruning is het verwijderen van een subtree en deze te vervangen door een leaf met het gemiddelde van deze boom. Dat is niet gelijk aan het gemiddelde van de leaf van deze boom , maar het gemiddelde van de stieren van de trainingsset die op deze subtree uitgekomen zijn. Hoe is dit berekend. Allereerst is de volledige boom berekend en daarna is telkens het pruning level met een verhoogd tot het goed inzichtbaar was dat er geen verbeteringen meer mogelijk was. In de figuur op de volgende pagina is goed te zien dat het gemiddelde absolute verschil van de validatie set bij 0 levels/niet pruning bijna 230 bedraagt en na 481 pruninglevels bedraagt deze nog ongeveer 174. Dit figuur is gebaseerd op dataset 1, de 3de performance meting, en met de 3de validatieset ronde. Deze pruning tree scoort op de test set nog een gemiddelde absolute verschilt van 175,501 dagen. En dat wijkt niet veel af van het validatie resultaat van deze tree.

Figuur 7, Pruning effect (verticaal: gemiddelde v/d validatieset, horizontaal: pruning level)

Pagina 27 van 45

Capita Selecta

Joan ter Weele

In de onderstaand figuur staat de boom zonder pruning/level 0. Deze scoorde bijna 230 op de validatieset.

Figuur 8, dataset 1, performance meeting 3, validatie ronde 3, pruninglevel 0

In Figuur 9 is goed te zien dat na 447 pruning levels er een vrij simplistische boom overblijft. Deze behaalt op de validatiset een resultaat van ongeveer 174, en op de testset 175,501.


Pagina 28 van 45

Capita Selecta

Joan ter Weele

In deze boom is goed te zien welke variabelen belangrijk zijn om tot dit resultaat te komen. Deze staan hieronder opgesomd. Met alleen deze fokwaarden en deze boom zou kan de fokwaarde levensduur al voorspeld worden. X2 X3 X5 X8 X9

= = = = =

Fat Protein Inet Udder depth Udder

Van de voorspellers die ik vermoed staat er twee in deze dataset maar geen van beide wordt gebruikt. Wat inhoud dat ze bij deze boom niets konden toevoegen om het resultaat te verbeteren. Inet staat er wel tussen en in de inet formule wordt gebruik gemaakt van de melkfokwaarde. Dus melk is indirect wel van belang. De resultaten van de vijf performance metingen (testset) : Meeting 1 176,008

Meeting 2 182,269

Meeting 3 175,501

Meeting 4 178,522

Meeting 5 183,101

Gemiddeld Standaarddeviatie 179,08 3,496

Dataset 2 Milk Protein Inet Udder depth Final Score BV Birth weight X20 = BV Somatic Cell Score X21 = BV Persistency X22 = BV Rate of Maturity X1 X3 X5 X9 X13 X14

= = = = = =


Voor een goed resultaat zijn er bij dataset 2 meer verschillende variabelen benodigd. Hierbij zitten twee van de door mij verspelde variabelen namelijk; Milk en BV Somatic Cell Score. De variabelen die hier het meest gebruikt worden zijn Protein en BV Somatic Cell Score. De performance meeting van dataset 2 zijn: Meeting 1

Meeting 2

Meeting 3

Meeting 4

Meeting 5

Gemiddelde Standaarddeviatie

Pagina 29 van 45

Capita Selecta

Joan ter Weele

168,902 172,189 168,623 170,469 169,688 168,257 Gezien de lage standaarddeviatie is dit een relatief betrouwbare uitkomst.

1,633

Dataset 3 Milk Fat Protein Chest width BV Somatic Cell Score X25 = BV Body weight X27 = BV Rate of Maturity X1 X2 X3 X6 X24

= = = = =


In de bovenstaande boom wordt de beste pruned tree van dataset 3 weergegeven. De root van de boom splits op de variabele BV Rate of Maturity (Laatrijpheid). De BV Somatic Cell Score en Protein worden ieders drie maal gebruikt. Deze boom scoorde de beste resultaat voor dataset 3 met en gemiddelde absolute afwijking op de testset van 195,3189 dagen. De uitkomsten van dataset 3 zijn: Meeting 1 173,905

Meeting 2 172,96

Meeting 3 167,41

Meeting 4 166,629

Meeting 5 172,848

Gemiddelde Standaarddeviatie 170,75 3,442

Dataset 4 X2 X3 X6 X25 X26 X28

= = = =

Fat Protein Chest width BV Somatic Cell Score = BV Body weight = BV Persistency


Pagina 30 van 45

Capita Selecta

Joan ter Weele

De boom die het beste presteerde op de testset staat hierboven. Dit is een behoorlijk kleine boom die, in verhouding met de bomen van de andere dataset, wel goed scoort namelijk 166,629 dagen gemiddelde absolute afwijken tussen het resultaat van deze boom en de werkelijke waarden. De resultaten van dataset 4 zijn: Meeting 1 174,861

Meeting 2 174,276

Meeting 3 175,25

Meeting 4 166

Meeting 5 168,764


Dataset 5 X29

= BV Rate of Maturity


Dit is de allersimpelste boom die er bij zit. Het bestaat uit een knoop met twee bladeren. Er wordt gesplitst op de variabele BV Rate of Maturity (Laatrijpheid). Dieren met en laatrijpheid kleiner 9750 krijgen volgens deze boom een score van -69.62 en anders +107.51. Dit levert op de testset een score op van 170.255. Vergeleken met de complexiteit van de andere bomen is deze score opvallend. Een mogelijke oorzaak dat deze boom goed scoort zou de kleine testset kunnen zijn, deze bevat ongeveer 250 stieren om mee te vergelijken, of toch de mogelijkheid dat deze (daardoor) is over-fit. Gezien de hoge standaarddeviatie bij Dataset 5, 16,663 en het gemiddelde van 189,589 kun je haast concluderen dat deze score op een toevallig goed gekozen validatie- en dataset berust. Resultaten dataset 5 Meeting 1 198,199

Meeting 2 194,58

Meeting 3 174,831

Meeting 4 170.255

Meeting 5 210.082


In de onderstaande tabel staan de resultaten van alle dataset bij elkaar.

Meeting 1 Meeting 2 Meeting 3 Meeting 4 Meeting 5

Dataset1: Dataset2: Dataset3: Dataset4: Dataset5: 176,008 168,257 173,905 174,861 198,199 182,269 168,902 172,960 174,276 194,58 175,501 172,189 167,410 175,250 174,831 178,522 168,623 166,629 166,000 170.255 183,101 170,469 172,848 168,764 210.082

Pagina 31 van 45

Capita Selecta gemiddelde standaarddeviatie

Joan ter Weele 179,080 3,496

169,688 1,633

170,750 3,442

171,830 4,191

189,589 16,663

Tabel 12, regression trees pruned

In de tabel hier onder staat het verschil tussen wel of niet pruned. Door van deze techniek gebruik te maken is het resultaat van de regression trees aanzienlijk verbeterd. Maar deze kommen nog niet in de buurt van de Regression methode uit het vorige hoofdstuk. Gemiddelde Dataset1: Dataset2: Dataset3: Dataset4: Dataset5: Unpruned 222,500 205,424 199,280 202,654 223,939 Pruned 179,080 169,688 170,750 171,830 189,589 Tabel 13, vergelijking tussen de Regession trees met en zonder pruning

Pagina 32 van 45

Capita Selecta

Joan ter Weele

k-Nearest Neighbour De methode k-Nearest Neighbour worden k buren gezocht voor de stier waarmee vergeleken wordt. Het idee hierachter is dat stieren met gelijke fokwaarden ook een gelijke levensduurfokwaarden hebben. De vergelijking tussen de stieren wordt gedaan door middel van de Euclidean distance. Omdat er grootte verschil zit in de spreiding van de fokwaarden kunnen ze niet direct met elkaar vergeleken worden. Fokwaarden met een grootte spreiding worden dan te veel benadeeld. Alle fokwaarden worden daarom genormaliseerd naar een waarde tussen 0 en 1. De Euclidean distance worden berekend door de fokwaarden van twee stieren met elkaar te vergelijken. De k stieren met de kleinste afstand zijn de buren die gezocht worden. Het resultaat dat deze methode oplevert is het gemiddelde van de levensduurfokwaarde van deze buren. Ook hier zijn weer de training- test- en validatieset aangemaakt. Ook weer in dezelfde verhouding. Vijf maal is de validatie berekening uitgevoerd, de keer die het beste scoorde op de validatieset is gebruikt om met de testset te vergelijken, dit leverde een performance meting. Dit alles is vijf maal herhaald wat resulteert in vijf performance metingen. In de Figuur 14 tot en met Figuur 18 staat per dataset de vijf performance metingen uitgezet tegen het k aantal buren.

Figuur 14, Performance metingen dataset 1

Pagina 33 van 45

Capita Selecta

Joan ter Weele



Pagina 34 van 45

Capita Selecta

Joan ter Weele



Pagina 35 van 45

Capita Selecta

Joan ter Weele

Om de dataset onderling te kunnen vergelijken is het gemiddelde van de testset resultaten per dataset genomen, het resultaat staat in de onderstaande

figuur. Figuur 19, dataset performance

Bij k=20 vind er eigenlijk geen verbetering meer plaats (bij dataset 1 nog wel iets maar dat is marginaal). In de vergelijkingen met de andere methoden zal dus k=20 worden gebruikt. Wat tevens opvalt is dat dataset 2, 3 en 4 weer beter scoren dan de andere twee datasets. In de onderstaande tabel staan de resultaten van k=20 opgesomd.

k=20

Dataset 1 Dataset 2 Dataset 3 Dataset 4 Dataset 5 157,82 157,01 155,61 167,02 172,36

Tabel 14, knn resultaten

Pagina 36 van 45

Capita Selecta

Joan ter Weele

Neural Networks Neural Networks is de laatste methode die ik ga proberen en waarvan ik verwacht dat deze beter resultaten gaat geven dan de andere methoden. Als trainingsmethode was eerst de “Gradient descent backpropagation” methode gebruikt maar deze was zeer langzaam en is hierdoor vervangen door de methode “Levenberg-Marquardt”. Na een korte test bleek deze gelijke resultaten te geven maar in een vele kortere tijd. Nadeel van deze methode is wel dat het veel geheugen gebruikt. Maar de methode levert wel een goed netwerk op. Als hidden neuron wordt nu het type “Tansig”gebruikt en als output neuron “purelin”. Dit geeft goede resultaten. Als de data eerst wordt genormaliseerd en als hidden- en uitvoer neuron het type “Tansig” wordt gebruikt geeft dit nagenoeg dezelfde resultaten. De gemiddeldes weken niet meer dan 2 à 3 punten af dit is ongeveer gelijk met de standaardderivatie. Daardoor mag er aangenomen worden dat deze gelijk zijn aan elkaar. Net al bij alle voorgaande methoden is hier weer vijf maal de data gerandomiseerd en opgedeeld in training(3/4de)- en testset(1/4de). De training is daarna weer vijfmaal, door elkaar gezet en opgedeeld in een train(2/3de)- en validatieset(1/3de). Per trainingset zijn er een aantal netwerken getraind met telkens een ander aantal hidden neurons. Er wordt begonnen met één hidden neuron en er wordt er telkens een bij gevoegd. Het trainen van een netwerk stopte zodra er 15 epochs na de beste epoch nog geen verbetering optrad of tot er 100 epoch waren bereikt. Van de epoch die het beste scoorde op de validatieset wordt het netwerk gebruikt als uitgangspunt voor dit aantal neuronen. Daarna werd het volgend netwerk getraind maar nu met één hidden neuron meer. Ook het aantal hidden neurons is aan een maximum gebonden er wordt maximaal getraind tot twee maal het aantal inputvelden of tot er 10 of tot het duidelijk werd dat het toevoegen van extra hidden neurons geen verbetering meer opleverde. Dit is gedaan door te kijken bij welk aantal neuronen leverde het beste netwerk volgende de validatieset en dan mochten er nog maximaal 10 bij worden getraind, als er dan geen andere neuron was die beter presteerde werd gestopt met het toevoegen van het aantal hidden neuronen. Dit alles is vijf maal herhaald telkens met een andere trainen validatieset. Dit is gedaan door deze opnieuw door elkaar te halen en weer op te delen in een trainen validatieset. Hiermee wordt het effect van een gelukkig gekozen dataset getracht te niet te doen. Het beste netwerk van deze vijf is gebruikt om een performance meeting op te doen met de testset.

Pagina 37 van 45

Capita Selecta

Joan ter Weele

Door dit alles per dataset 5 maal te herhalen komen er vijf performance resultaten per dataset. Deze resultaten staan in de tabel hier onder

Performance meeting 1 Performance meeting 2 Performance meeting 3 Performance meeting 4 Performance meeting 5 Gemiddelde Standaardderivatie

Dataset 1 Dataset 2 Dataset 3 Dataset 4 Dataset 5 144,32 143,0419 133,8621 163,0455 149,0017 162,9591 140,4942 141,2949 136,1952 140,7328 166,2814 143,0532 134,1851 139,5016 141,2457 164,2333 144,1935 139,5029 144,1258 144,8276 160,7602 144,2375 142,7543 139,8 142,4741 163,4559 144,196 140,4114 140,5329 140,6284 2,016766 3,086488 3,909555 3,147257 4,09924

Tabel 15, resultaten Neurale Netwerken

Wat opvalled is dat dataset 1 veel slechter scoort dan de overige datasets. En dataset 5 die bij de andere methoden die gebruikt zijn altijd slechter scoort dan dataset 2,3 en 4 nu een bijna gelijke uitkomt met deze heeft. Door de lage standaarddeviaties kan er aangenomen worden dat deze uitkomsten redelijk constant zullen zijn.

Er is ook een analyse op de beste netwerken uitgevoerd om te achterhalen welke invoervariabelen de belangrijkste zijn. Voor dataset 1 zijn dat de fokwaarden Milk, Inet, Fertility en in minder mate de fokwaarde Protein. De belangrijkste fokwaarde voor dataset 2 is Protein en net iets minder de fokwaarden Fat en Inet. Dataset 3 heeft als belangrijkste fokwaarden Fat en Protein. Hierbij is het opvallen dat de fokwaarden Chest width, Rump width, Fore udder attachment en Udder support zo goed als niet bij dragen aan de berekening. Voor dataset 4 zijn de belangrijkste invoerfokwaarden Milk, Fat, Protein, Inet en BV Interval calving first insemination. Hierbij zijn er een stuk of 6 fokwaarden die weinig bijdragen aan het eindresultaat. Dataset 5 kent de meeste fokwaarden. De fokwaarden die het zwaarste meewegen in het eindresultaat zijn: Milk, Fat, Protein, Inet, UDDER, FEET and LEGS en Fertility. Wat hierbij opvalt is dat de productie fokwaarden Milk, Fat, Protein, Inet vaak voorkomen als de belangrijkste fokwaarden in de berekening. Bij de regression trees was de fokwaarde BV Rate of Maturity ook belangrijk maar deze sprong er bij Neurale Netwerken niet uit als een van de belangrijkste fokwaarden.

Pagina 38 van 45

Capita Selecta

Joan ter Weele

NRS uitkomsten Hoe verhouden al deze methoden zich in vergelijking met de resultaten die het NRS berekend. Voorproefstieren worden altijd de verwachtingswaarde weergegeven deze heeft een betrouwbaarheid van minder dan 35% procent. En voor stieren die net op de stierkaart komen te staan is dit kleiner dan 40%. Om de betrouwbaarheid van een methode aan te tonen gebruikt het NRS de formule

De genetische afwijking van levensduur is 270 dagen. En betrouwbaarheid is een getal tussen 0 en 1. Als de formule wordt ingevuld met een betrouwbaarheid van 0.35 levert dit een schattingsfout van ongeveer 218 dagen op. Bij een betrouwbaarheid van 0.4 is dit 209 dagen. De schattingsfout is een standaardderivatie. De werkelijke levensduurfokwaarde van een stier zal in 68% van de gevallen tussen de grenzen van een maal de schattingsfout liggen. Dus bij een beginnende fokstier met een levensduur van 500 dagen en 40% betrouwbaarheid, zal zijn uiteindelijke fokwaarde tussen de 291 en 709 dagen liggen. En dat is een behoorlijke afwijking. Van een stier waarbij de fokstierperiode dochter bijna aan de melk komen hebben de productie en exterieur kenmerken een betrouwbaarheid van 90% of hoger en heeft de levensduurfokwaarde ondertussen een betrouwbaarheid gekregen van ongeveer 65-70 %. De schattingsfout ligt dan tussen de 160 en 148 dagen. Hoe goed hebben de diverse methoden zich verhouden. Naast de gemiddelde afwijking is ook de standaardderivatie berekend. De standaarddeviaties van elke performance meeting staan in de bijlage achter in dit verslag. De gemiddeldes daarvan staan in de tabel hieronder

Fitting (3de orde) Multipele Regression Regression Trees (Unpruned) Regression Trees (Pruned) k-Nearest Neighbour (k=20) Neural Networks

Dataset1: Dataset2: Dataset3: Dataset4: Dataset5: 139,372 138,84 134,943 135,298 146,436 125,586 109,453 104,928 103,392 104,746 167,119 156,193 152,434 153,537 168,044 133,952 129,287 128,844 130,557 145,402 131,969 113,706 117,889 115,674 128,494 124,845 108,17 102,388 104,276 104,138

Tabel 16, Standaardderivaties van de verschillende technieken

Nadeel van deze methode zijn dat de invoer en hoge betrouwbaarheid dient te hebben, anders kan de uitvoer ook heel erg afwijken. Vandaar ook dat ik geen conclusie geeft of de gevonden methoden goed zullen werken bij invoer fokwaarden met een lage betrouwbaarheid. Voor stieren met invoer fokwaarden boven de 90% en een lage betrouwbaarheid van de levensduurfokwaarde , kan wel

Pagina 39 van 45

Capita Selecta

Joan ter Weele

gezegd worden dat een aantal van deze methoden (Multipele Regression en Neural Networks) een beter en betrouwbaarder resultaat leveren dan de methode die het NRS hanteert. Dit kan dus bij stieren waarvan de fokstierperiode dochter snel aan de melk zullen komen.

Conclusie Er zijn zes verschillende methoden gebuikt om op een goede manier de fokwaarde levensduur te voorspellen. Bij dataset 1 kan er het beste gekozen worden voor fitting in de derde orde. Deze levert voor deze dataset de beste resultaten op. Voordeel van deze methode is ook dat de berekeningstijd in verhouding met een aantal andere methoden zeer kort is. Voor dataset 2, 3 en 4 kan het best gekozen worden voor Multiple Regression of Neurale Netwerken. Deze resultaten wijken onderling zeer weinig af, iets minder dan eenmaal de standaardafwijking, waardoor de methode multiple regression of Neural Networks niet als beter aangewezen kan worden. Bij dataset 5 was de methode multiple regression niet betrouwbaar genoeg dus bij deze dataset kan het beste gekozen worden voor Neural Networks.


Dataset1: 155,71 166,83 222,500 179,080 172,36 163,456

Dataset2: 153,84 146,99 205,424 169,688 157,82 144,196

Dataset3: 152,81 141,55 199,280 170,750 157,01 140,411

Dataset4: 150,36 138,14 202,654 171,830 155,61 140,533

Dataset5: 160,89 145,09 223,939 189,589 167,02 140,628

Tabel 17, vergelijking tussen de diverse methoden

Mijn verwachting was dat de fokwaarden Milk, Fertility en BV Somatic Cell Score belangrijk zouden zijn in dit onderzoek. Deze hebben alle drie relatie een hoge correlatie met de fokwaarde levensduur namelijk, 0.4557 0.2421 en -0.3130. Bij Multiple regression bleek de fokwaarde melk wel vaak een van de belangrijkere fokwaarden om mee te nemen in de bereken. De fokwaarde celgetal telde wel iets mee maar niet veel. De fokwaarde vruchtbaarheid telde eigenlijk nooit mee behalve bij de laatste dataset, maar daarbij is er weer heelveel afwijken tussen de performance metingen geconstateerd en daarom raad ik af die te gebruiken. Bij de Pruned Regression trees bleken ook dat de fokwaarden BV Somatic Cell Score en in mindere mate Milk belangrijk zijn voor de opbouw van de bomen. De fokwaarde Fertility werd nooit benoemd en is waarschijnlijk niet belangrijk genoeg. Wat tevens nog meer opviel was dat bij de pruned regression trees de fokwaarden Protein, chest width en Fat, vaak gebruikt worden. Protein heeft de hoogste correlatie van allemaal en het lag in de

Pagina 40 van 45

Capita Selecta

Joan ter Weele

lijn der verwachting dat deze daardoor zeer belangrijk voor de fokwaarde voorspelling is. Fat Heef ook een hoge correlatie. Chest width heeft een negatieve correlatie met de levensduurfokwaarde van -0.2745. Dat deze belangrijk is vind ik zelf persoonlijk raar omdat ik deze fokwaarde niet in combinatie kan brengen met de afvoerfactoren op ons boerenbedrijf. Bij Neurale Netwerken blijkt dat vooral de fokwaarden Milk, Protein, Fat en Inet zeer belangrijk zijn om te bereken. Dit zijn ook de vier fokwaarden die de hoogste correlatie hebben met de fokwaarde levensduur, deze fokwaarden zijn allen productiefokwaarden. De Productie wordt zeer goed en veelvuldig in Nederland bijgehouden, door de grootte hoeveelheid beschikbare informatie lei d snel tot een betrouwbare fokwaard, zeker in verhouding met de andere fokwaarden.

Om antwoordt te geven op de vier vragen die aan het begin zijn gesteld Welke fokwaarden hebben een verband met de fokwaarde levensduur? Dit is te vinden in de correlatie Tabel 2 op 14. Welke fokwaarden zijn betrouwbaar genoeg om te gebruiken bij jonge stieren? Ik acht alle fokwaarden met een betrouwbaarheid van 70% betrouwbaar genoeg omdat dit algemeen gebruikt wordt in de sector om te beslissen of een stier fokstier mag worden of niet. Wat is de betrouwbaarheid van de nieuwe methode. Als alle invoerfokwaarden een betrouwbaarheid percentage hebben van 100%. Komt er in het beste geval een standaardfout uit die overeenkomt met een betrouwbaarheid tussen de 80% en de 85% afhankelijk van de dataset. Wat is de nauwkeurigheid van de nieuwe methode. Als alle invoerfokwaarden een betrouwbaarheidspercentage hebben van 100%. Komt er in het beste geval een standaardfout uit die licht tussen de 103 en de 125 dagen, afhankelijk van de dataset Heeft het NRS dan iets aan deze methode: er is een korte periode in de levensloop van een stier dat Neural Networks of multiple regression een beter resultaat geeft dan hun eigen methode.

Pagina 41 van 45

Capita Selecta

Joan ter Weele

Verder onderzoek Door het eerste bewerken van de data kan nog winst behaald worden. Bijvoorbeeld voor de fokwaarde conditiescore. Dunne koeien hebben een lage conditiscore waardoor ze de productie niet aan kunnen en dat kan een reden voor afvoer zijn. Of juist de dikke koeien met een ruime conditiescore, deze dieren hebben meer kans op onder andere leververvetting en produceren hierdoor minder, wat dan ook weer een reden voor afvoer is. Door deze fokwaarde logaritmisch te gebruiken, hierdoor wijken de dieren die een slechte fokwaarde hebben meer af van de overige stieren. Ook met andere technieken of door het clusteren kan mogelijk nog winst gehaald worden.

Pagina 42 van 45

Capita Selecta

Joan ter Weele

Bronnen [NRS2008-2009]

Handboek NRS, ©NRS 2008-2009. De hoofdstukken E8-E9, E14- E23, E25, E27 zijn online beschikbaar op: https://www.nvofokwaarden.nl onder menu item “fokwaarden en stieren” en klik dan op methodiek.

Pagina 43 van 45

Capita Selecta

Joan ter Weele

Bijlage In deze bijalge staan de standaarddeviaties van de diverse performance meetingen.

std1 std2 std3 std4 std5 Gemiddelde Standaardderivatie

dataset 1 dataset 2 dataset 3 dataset 4 dataset 5 127,370 109,707 105,574 101,531 99,0705 121,371 108,958 101,274 106,124 114,246 124,064 108,071 107,971 105,420 100,208 128,032 109,579 107,882 101,660 110,980 127,095 110,949 101,938 102,224 99,223 125,586 109,453 104,928 103,392 104,746 2,80744 1,05751 3,190 2,202 7,287

Tabel 18, Multiple regression

dataset dataset dataset dataset dataset 1 2 3 4 5 std1 140,447 136,434 132,383 134,856 145,601 std2 138,689 141,443 137,186 131,958 139,455 std3 140,949 143,290 133,403 135,652 151,327 std4 137,395 135,123 135,811 136,149 143,491 std5 139,378 137,908 135,930 137,876 152,307 Gemiddelde 139,372 138,840 134,943 135,298 146,436 Standaardderivatie 1,416 3,430 1,980 2,170 5,396 Tabel 19, fitting 3de orde

std1 std2 std3 std4 std5 Gemiddelde standaardderivatie


Tabel 20, trees unpruned

dataset 1 dataset 2 dataset 3 dataset 4 dataset 5 std1 133,084 127,767 132,326 130,119 146,339 std2 134,231 128,079 129,190 135,141 143,782 std3 131,722 128,828 122,962 134,510 144,157 std4 133,856 131,806 129,001 126,967 149,516 std5 136,865 129,954 130,740 126,046 143,218 Gemiddelde 133,952 129,287 128,844 130,557 145,402 standaardderivatie 1,891 1,641 3,552 4,185 2,586 Tabel 21, trees pruned

Pagina 44 van 45

Capita Selecta


Joan ter Weele

dataset 1 130,4512 137,7017 130,8596 135,3197 125,5143 131,9693 4,724627

dataset 2 119,6158 111,878 110,6622 112,1931 114,1819 113,7062 3,537211

dataset 3 107,75 121,9324 122,3483 116,7476 120,6686 117,8894 6,084073

dataset 4 119,4588 116,6064 114,678 111,1909 116,4393 115,6747 3,036043

dataset 5 138,7072 129,2032 124,6716 126,5553 123,3344 128,4943 6,119674

Tabel 22, k-Nearest Neighbour



Tabel 23, Neural Networks

In de onderstaande tabel staan de gemiddelde standaardafwijkingen met elkaar vergeleken.


Dataset1: Dataset2: Dataset3: Dataset4: Dataset5: 139,372 138,84 134,943 135,298 146,436 125,586 109,453 104,928 103,392 104,746 167,119 133,952

156,193 129,287

152,434 128,844

153,537 130,557

168,044 145,402

124,845

108,17

102,388

104,276

104,138

Tabel 24, vergelijking

Pagina 45 van 45

Capita Selecta. Berekenen van Fokwaarden door middel van Machine Learning. Joan ter Weele. Augustus Versie 1.0

Recommend Documents