GLI-2012 referentiewaarden voor de spirometrie
1
Pulmonaria officinalis Longkruid
GLI-2012 referentiewaarden voor de spirometrie Voordelen Consequenties
Philip H. Quanjer
GLI-2012 referentiewaarden voor de spirometrie
2
Interpretatie van spirometrische gegevens Philip H. Quanjer Inleiding
D
e introductie van het gebruik van de spirometer door Hutchinson in 1846 [1] bleef lange tijd zonder klinische toepassing. Voor zover klinisch toegepast ging het vooral om de bepaling van de “vitale” capaciteit (VC), op grond van huidige terminologie de langzaam uitgevoerde expiratoire vitale capaciteit (EVC). Figuur 1 toont de onderverdeling van de totale longcapaciteit in EVC and residuaal volume uit Hutchinson’s publicatie. Het is met name door het werk van de Franse onderzoekers Tiffeneau en Pinelli [2] een eeuw later dat het spirometrische onderzoek uitgroeide tot de huidige norm, waarbij het geforceerde expiratoire volume in 1 seconde (FEV1) en de inspiratoire of geforceerde expiratoire VC (IVC resp. FVC) de diagnostische mijlpalen vormen. De geschiedenis van het spirometrische onderzoek is door Yernault in een zeer leesbaar artikel gedocumenteerd [3]. Een belangrijk probleem is dat resultaten van spirometrisch onderzoek sterk worden bepaald door de medewerking van de onderzochte, en door technische factoren; onderzoek moet dus volgens een strikt protocol worden uitgevoerd. De eerste poging om tot standaardisering van spirometrisch onderzoek te komen leidde in 1960 tot een rapport van de Europese Gemeenschap voor Kolen en Staal (EGKS) [4]. Reeds in 1971 verscheen hiervan een vernieuwde versie [5], dat ook voorspelde waarden voor spirometrische indices, residuaal volume, totale longcapaciteit en functionele residuale capaciteit bevatte. Enkele jaren later werd in de Verenigde Staten standaardisering, die zich aanvankelijk beperkte tot spirometrisch onderzoek, ter hand genomen [6-7]. Door snelle technologische ontwikkelingen, sterk toegenomen inzicht in de pathofysiologie van longziekten, en de uitbreiding van het arsenaal van longfunctiemetingen, was een revisie van het EGKS rapport al spoedig noodzakelijk [8]. Daarna werden in de Verenigde Staten en Europa aangepaste aanbevelingen voor de standaardisering van het onderzoek gedaan; in Amerika beperkte dit zich tot de spirometrie, de Europese aanbevelingen hadden betrekking op een breed palet van longfunctietechnieken, en werden steeds vergezeld van referentiewaarden [9-11).
Referentiewaarden De oorspronkelijke referentiewaarden van de EGKS waren gebaseerd op mannen werkzaam in de kolenmijnen en de staalindustrie. Het was geen representatief gezelschap, en de voorspelde waarden werden in de praktijk als te hoog ervaren. Ofschoon er geen vrouwen waren onderzocht, waren
Fig. 1 - Onderverdeling van de totale longcapaciteit volgens Hutchinson (1846).
er voor hen wel voorspelde waarden, nl. 80% van die voor mannen. In 1983 werd geen financiele steun van de EGKS verkregen om nieuw onderzoek uit te voeren. Teneinde de technische aanbevelingen toch te vergezellen van voorspelde waarden, en omdat er geen materiaal beschikbaar was dat met geschikte methoden was verzameld, werd in arren moede besloten de techniek te gebruiken die Polgar [12] had toegepast voor het afleiden van referentiewaarden voor de kinderleeftijd. Daarbij werden, op basis van door verschillende onderzoekers gepubliceerde formules, aan de hand van leeftijd, lengte en geslacht voorspelde waarden gegenereerd en deze gegevens gebruikt om een nieuwe formule af te leiden. Aan deze procedure kleven grote bezwaren, maar de resulterende referentiewaarden vonden vrijwel zonder kritiek grote ingang. Een voor de EGKS commissie niet beschikbaar alternatief voor een nieuwe studie was het samenvoegen van eerder uitgevoerde onderzoeken van goede kwaliteit, om daarmee nieuwe referentievergelijkingen af te leiden. Deze methodiek werd voor het eerst toegepast [13] op 6 gegevensbestanden van kinderen. In deze studie kon worden aangetoond dat de referentiewaarden geldig waren voor 5 van de 6 bestanden; het zesde bestand had afwijkende waarden ten gevolge van een technisch mankement. Hiermee was deze methodiek gevalideerd, hetgeen leidde tot de aanbeveling aan American Thoracic Society (ATS) en European Respiratory Society (ERS) om met dezelfde benadering referentiewaarden voor grote groepen van verschillende leeftijd af te leiden [13]. In 2005 werd de Europese traditie om standaardiseringsrapporten te vergezellen van passende voorspelde waarden verbroken: een ATS/ERS commisie [14] deed aanbeveling
GLI-2012 referentiewaarden voor de spirometrie
3
en voor de Verenigde Staten en Canada, de rest van de wereld werd geacht zelf een oplossing te vinden. In 2006 besloot ik, na rijp beraad, in de lacune te voorzien, en een zo groot mogelijk leeftijdbereik en verschillende etnische groepen te dekken. In 2008 was ik begonnen een publicatie te schrijven gebaseerd op ruim 30.000 gegevens verkregen uit alle windstreken, maar liet mij overhalen om hiermee te wachten en toe te treden tot een ERS werkgroep, die vervolgens in 2010 de status van “Task Force” kreeg met steun van 6 grote internationale organisaties [15]. In 2008 verscheen ook de publicatie van Stanojevic [16], baanbrekend omdat voor het eerst op basis van een nieuwe methodiek voorspelde waarden voor de spirometrie bij gezonde blanken van 3-80 jaar werden afgeleid; hierbij was, net als in [13], gebruik gemaakt van samengevoegde gegevensbestanden. Het samenwerken in de groep die het “Global Lung Function Initiative” [15] genoemd zou worden was een voorrecht dankzij de vriendelijke en op wederzijds vertrouwen gebaseerde samenwerking met tientallen groepen over de hele wereld, en de kameraadschappelijke en professionele samenwerking met de leden van het “Analytical Team”: Prof. Janet Stocks, Sanja Stanojevic and Prof. Tim Cole (Fig. 2).
Situatie in 2006 Afbeelden van de voorspelde waarde voor FEV1 in blanke mannen volgens 30 verschillende auteurs (Fig. 3) illustreert een zorgwekkende toestand. Bij dezelfde lengte en leeftijd worden verschillen in voorspelde waarde van 1 liter of meer gevonden. De aansluiting van voorspelde waarden
Fig. 3 - Voorspelde waarden voor FEV1 bij blanke mannen. Ontleend aan software verkrijgbaar via www.spirxpert.com/GOLD.html.
voor kinderen en adolescenten op die voor volwassenen is deplorabel slecht. Op grond van deze voorspelde waarden werden wereldwijd diagnoses gesteld! Anno 2006 een volstrekt onaanvaandbare situatie.
Voorspellingsmodellen Tot zeer recent werden longfunctie-indices voorspeld met eenvoudige lineaire regressievergelijkingen. De verreweg
Fig. 2 - Het “Analytical Team” van het “Global Lung Function Initiative”. Van links naar rechts: Prof. Tim Cole, Prof. Janet Stocks, mijzelf, Sanja Stanojevic.
GLI-2012 referentiewaarden voor de spirometrie meest gebruikte modellen hebben de volgende gedaante: Y = a + b·Lengte + c·Leeftijd + fout (volwassenen) log(Y) = a + b·log(Lengte) + fout (kinderen) Y is de voorspelde waarde, bijv. FEV1. De “fout”, ook wel residu genoemd, is het verschil tussen gemeten en voorspelde waarde. Bij bovenstaande lineaire modellen wordt er van uitgegaan dat het residu hetzelfde is bij elke combinatie van lengte en leeftijd. Bij kinderen en adolescenten worden de indices meestal logaritmisch getransformeerd, en wordt zelden rekening gehouden met de leeftijd.
4 voorspelde waarde (residu) dient, als de voorspelling ideaal past, 0 liter te zijn. Uit figuur 5 blijkt dat er een systematisch verschil is: de gemeten FEV1 is gemiddeld 180 mL groter dan voorspeld. De door EGKS/ERS voorspelde waarde is dus systematisch te laag. Deze inleiding leidt tot de volgende conclusies: 1 Er is een kunstmatige scheiding tussen volwassenen en kinderen/adolescenten, waardoor bij de overgang naar volwassen leeftijd de aansluiting in voorspelde waarden slecht is. 2 De modellen passen slecht bij meetgegevens, vooral op de kinderleeftijd. 3 Er zijn grote verschillen tussen voorspellingsformules.
Gebruik van procent voorspelde waarde
Fig. 4 - Verband tussen leeftijd en FEV1 bij 28.690 blanke, gezonde vrouwen. Een belangrijk deel van de spreiding komt door verschillen in lengte.
In fig.4 is het verband te zien tussen leeftijd en FEV1 bij een groot aantal gezonde vrouwen van 3-95 jaar. Wat opvalt is dat: 1 Het verband nergens kan worden beschreven met rechte lijnen 2 De fout is niet constant 3 De fout is niet proportioneel met de voorspelde waarde 4 Niet-normale verdeling van de fout (van deze figuur niet af te leiden). We kunnen de voorspelde waarden voor FEV1 volgens de veel gebruikte EGKS/ERS referentiewaarden uitrekenen voor de vrouwen in fig. 4. Het verschil tussen gemeten en
Fig. 5 - Verschil tussen gemeten en voorspelde FEV1 bij blanke vrouwen op grond van de voorspellingsformules van EGKS/ERS.
Bij het beoordelen van de longfunctie is het in de longenwereld een wijdverspreide conventie om de gemeten waarde uit te drukken als procent van de voorspelde waarde. Deze gewoonte is waarschijnlijk ontstaan door de aanbeveling van Bates en Christie [17]: “a useful general rule is that a deviation of 20% from the predicted normal value probably is significant”. Daardoor wordt 80% van de voorspelde waarde beschouwd als de “ondergrens van normaal” (LLN). Deze aanbeveling is klakkeloos overgenomen. De regel kan alleen geldig zijn als de spreiding om de voorspelde waarde evenredig is met die voorspelde waarde, dus groot bij een grote, en klein bij een kleine voorspelde waarde. Zoals fig.4 toont is hiervan geen sprake en leidt het gebruik van %voorspeld onvermijdelijk tot beoordelingsfouten, zoals in talloze publicaties is aangetoond [10,16,18-23]. Sobol schreef hier over [19]: “Nowhere else in medicine is such a naïve view taken of the limit of normal”. In het GLI onderzoek kon worden beschikt over tienduizenden meetgegevens, en kon de LLN nauwkeurig worden vastgelegd (zie later). Uitdrukken van LLN als %voorspeld levert het beeld op in figuur 6. De ondergrens komt over een groot leeftijdsbereik duidelijk onder de grens van 80% van voorspeld.
Fig. 6 - De ondergrens van normaal (LLN) voor FEV1 and FVC uitgedrukt als percentage van de G:LI-2012 voorspelde waarde bij 3-95 jarigen.
GLI-2012 referentiewaarden voor de spirometrie
Fig. 7 - Percentage van gezonde mannen en vrouwen bij wie de gemeten FEV1 of FVC minder is dan 80% voorspeld.
We kunnen nagaan bij welk percentage van een gezonde, niet-rokende populatie (25.827 mannen, 31.568 vrouwen) de gemeten FEV1 en FVC lager is dan 80% van de voorspelde waarde (figuur 7). Duidelijk is dat vanwege de grote beoordelingsfouten, met name boven de 50 jaar, het gebruik van %voorspeld echt moet worden verlaten.
5
Fig. 8 - De “spline”, die als functie van de leeftijd een correctie aanbrengt op de leeftijdscoëfficiënt in de regressieformule. We werken met een logaritmische schaal.
Het verschil tussen de vergelijking zonder en met spline is te zien in figuur 9. De geel-groene lijn ontstaat als gebruik wordt gemaakt van de lineaire vergelijking zonder spline. Op de kinderleeftijd lijkt de lijn nog wel redelijk bij de gegevens te passen, maar bij volwassenen is daar geen sprake van. De zwarte lijn representeert de formule inclusief spline; nu past de lijn goed bij de metingen.
Global Lungs Initiative: wat is nieuw? Het in een formule vangen van het niet-lineaire verloop van de longfunctie met de leeftijd is met de standaard lineaire regressietechniek niet mogelijk. Een enkele keer is een oplossing gevonden door een vergelijking voor kinderen en adolescenten te maken en een voor volwassenen, zie bijv. Hankinson et al. [24]. Voor de kinderleeftijd werd eerder een complexer model gebruikt [13], resp. een groot aantal referentievergelijkingen afgeleid geldig voor één jaartraject [25]. Voor volwassenen werden ook complexere modellen gebruikt waarbij speciale aandacht werd besteed aan het zo goed mogelijk definiëren van de LLN [26-27]. Een elegante methode om niet-lineaire curven te beschrijven is door het toevoegen van een “spline”: log(Y) = a + b·log(Lengte) + c·log(Leeftijd) + spline + fout Dit werd eerder toegepast door Pistelli et al. [28-29], maar het statistisch pakket GAMLSS [30], eerder toegepast door Stanojevic et al. [16], levert veel verfijnder mogelijkheden om de longfunctie te modelleren. In de praktijk wordt een spline als functie van de leeftijd toegepast. U kunt zich dit voorstellen als een leeftijdsafhankelijke correctie in bovenstaande formule: voor elke leeftijd tussen de 3-95 jaar wordt een wisselende correctie uitgevoerd (figuur 8). We werken op een logaritmische schaal. Dit betekent dat bij een 20-jarige vrouw de op grond van de lineaire componenten van de vergelijking (coëfficiënten a, b en c) voorspelde waarde van FEV1 wordt vermenigvuldigd met circa exp(0,19) = 1,21, dus een toename met 21%. Bij een 85-jarige vrouw wordt vermenigvuldigd met circa exp(-0,40) = 0,67, een vermindering met 33%.
Fig. 9 - De voorspelde FEV1 zonder dat er een spline wordt gebruikt (geel-groene lijn) past slecht, die waarbij wel een spline is gebruikt (zwarte lijn) past goed bij de meetgegevens.
FEV1/FVC: een verrassing Het bewerken van de gegevens voor FEV1/FVC leverde een verrassing op. De voorspelde waarde vertoonde een zeer snelle daling van 3 tot ongeveer 10 jaar, dan een lichte stijging to circa 16 jaar, gevolgd door een geleidelijke niet-lineaire daling bij volwassenen (figuur 10). Omdat dit patroon nooit eerder was beschreven was de eerste gedachte dat het hier ging om een artefact. Dit zou kunnen worden veroorzaakt door het bijeenvoegen van zoveel gegevensbestanden. Immers, als een groep veel gegevens heeft bijgedragen van kinderen omstreeks 10 jaar waarbij FEV1/FVC veel lager uitvalt dan bij andere groepen, zou
GLI-2012 referentiewaarden voor de spirometrie
6 Fig. 12 - Relatie tussen standaard deviatie en percentage gegevens onder de curve bij een normale verdeling.
gevens. Bij zo’n normale verdeling (fig. 12) bevindt 68% van de waarnemingen zich binnen +1 en -1 standaard deviatie (SD), 90% binnen +1,64 en -1,64 SD, 95% binnen +1,96 en -1.96 SD, en 99,7% binnen +3 en -3 SD. Fig. 10 - Voorspelde FEV1/FVC bij blanke vrouwen.
zo’n patroon kunnen ontstaan. Er was echter geen groep met kinderen in dat nauwe leeftijdsbereik. Dat er geen sprake was van een artefact bleek uit het feit, dat hetzelfde patroon werd gevonden bij jongens en meisjes uit 15 verschillende centra, en van verschillende etnische afkomst (figuur 11, [31]). De determinanten van FEV1 en VC zijn niet dezelfde; na de geboorte groeit de vitale capaciteit sneller dan de FEV1, en dit patroon wordt tijdelijk omgedraaid tijdens de groeispurt van de adolescent [31].
Bij een gezonde persoon va rieren spirometrische gege vens met leeftijd, lengte, geslacht en etnische groep. Als we die in rekening hebben gebracht resteert het residu (gemeten - voorspelde waarde). Bij een normale verdeling is het gemiddelde van het residu 0. Delen van het residu door de standaard deviatie (SD) van dit residu {(gemeten voorspeld)/SD} levert een dimensieloos getal op, de z-score. Bij een normale distributie is het gemiddelde van al die z-scores 0 en de spreiding 1 (fig. 12). De SD (variatiecoëfficiënt: CoV, 100·SD/voorspeld) varieert met de leeftijd [16,23]. De CoV moet dus zodanig worden gemodelleerd dat we een normale verdeling krijgen onafhankelijk van de leeftijd. Ook hier kan weer van een spline gebruik worden gemaakt om optimaal te modelleren: log(CoV) = a + b·log(Leeftijd) + spline
Fig. 11 - Gegevens van 15 centra van verschillende etnische groepen vertoonden allemaal hetzelfde beeld: snelle daling van FEV1/FVC ratio tot begrin groeispurt, daarna lichte stijging gevolgd door daling.
“Ondergrens van normaal”
De variatiecoëfficiënt voor FEV1 bij blanke vrouwen varieert tussen 12½% en 25% (fig. 13). Wat betekent dit voor de LLN? Op de leeftijd van 3, 20 en 80 jaar is de CoV ongeveerd 16%, 12½% en 21%. De LLN wordt bepaald door waarnemingen die 1,64 maal de CoV onder de voorspelde waarde liggen. De LLN voor FEV1 bij een 3, 20 en 80 jarige gezonde blanke vrouw is dus 74%, 80% en 66% van de voorspelde waarde. Eens te meer een reden om géén gebruik te maken van een ondergrens van 80% voorspeld.
In de geneeskunde wordt de onder- en bovengrens van het normale bereik (LLN en ULN) zodanig bepaald dat 2½% van de waarnemingen valt onder resp. boven dat van een gezonde populatie. Dit betekent dat 95% van de gezonde populatie geacht wordt een “normaal” resultaat te hebben, 2½% te laag en 2½% te hoog, dus in totaal 5% fout-positieve beoordelingen. Spirometrisch onderzoek bij longaandoeningen levert niet zo zeer een te grote FEV1 en VC op, maar een te kleine waarde. Dat is waarschijnlijk de reden dat in de longgeneeskunde bij spirometrisch onderzoek alleen wordt gewerkt met de LLN die zodanig is gedefinieerd dat 5% van een gezonde bevolking een “te lage” waarde heeft. Voor het bepalen van die ondergrens zijn er verschillende methoden. Het meest elegant kan de LLN worden bepaald indien er sprake is van een “normale verdeling” van de ge-
Fig. 13 - De variatiecoëfficiënt voor FEV1 bij gezonde blanke vrouwen varieert sterk met de leeftijd.
GLI-2012 referentiewaarden voor de spirometrie
7
Om dit punt wat duidelijker te maken kunnen we de voorspelde waarde en de LLN voor FEV1 bij blanke vrouwen projecteren als functie van de leeftijd (fig. 14). Als we daarin 80% van de voorspelde waarde tekenen, dan is vooral bij volwassenen duidelijk dat deze lijn steeds verder in het normale gebied belandt, zodat het aantal fout-positieve beoordelingen van meetresultaten progressief zal toenemen.
Fig. 16 - FEV1/FVC ratio bij gezonde vrouwen van verschillende etnische origine.
Fig. 14 - Voorspelde FEV1 bij gezonde blanke vrouwen, LLN en 80% voorspeld als functie van de leeftijd.
Zoals boven uitgelegd moet de gevolgde procedure leiden tot een normale verdeling van de residuen, zodat de z-scores een gemiddelde 0 hebben en spreiding 1. Figuur 15 toont aan dat het statistische programma GAMLSS inderdaad zo’n normale verdeling tot stand brengt. De voordelen hiervan zijn enorm: de z-score is volledig onafhankelijk van leeftijd, lengte en geslacht. Is de z-score behorend bij een meting -1,64, dan betekent dit bij man, vrouw, kind of volwassene dat de gemeten grootheid zich bevindt op het 5de percentiel; bij longfunctiemetingen is dit de LLN.
nische origine, zodat etnische verschillen fundamenteler konden worden geanalyseerd. Fig. 16 toont een belangrijke waarneming: met uitzondering van zuid-oost Aziatische vrouwen (zuidelijk China, Thailand, Korea), is de FEV1/ FVC ratio dezelfde. Dat betekent dat verschillen in FEV1 en FVC tussen etnische groepen proportioneel zijn, en onafhankelijk van de leeftijd. Dit is ook wel begrijpelijk. Immers, alle etnische groepen behoren tot Homo sapiens, zoogdieren met subgroepen die zich aan lokale omstandigheden hebben aangepast en een verschillende socio-economische achtergrond hebben. In miljoenen jaren van evolutie zijn zoogdieren uitgerust met een longontwerp dat kleine en grote dieren in staat stelt optimaal te functioneren onder allerlei omstandigheden [32]. Verschillen tussen etnische groepen zijn dus niets anders dan schaalverschillen. Maar dat maakt het mogelijk om deze proportionele verschillen in ons model voor voorspelde waarden van de longfunctie in te bouwen, en wel als volgt: log(Y) = a + b·log(Lengte) + c·log(Leeftijd) + d·Etn + spline + fout Ethniciteit is nu een co-factor geworden. We werken met een logaritmische schaal. De coëfficiënt d voor FEV1 bij zwarte vrouwen is -0.14835. Dit betekent dat de FEV1 van zwarte vrouwen exp(-0.14835) = 0.86 maal zo groot is als van blanke vrouwen, dus 14% lager.
Fig. 15 - Verdeling van z-scores voor FEV1 bij gezonde blanke vrouwen.
Etniciteit Het is bekend dat de longfunctie verschilt tussen etnische groepen. In het verleden werd met etnische correcties gewerkt, waarbij de longfunctie van bijv. zwarte Afrikanen berekend werd als circa 15% lager dan van blanken. Deze “correctiefactor” was proefondervindelijk bepaald bij volwassenen. Het Global Lung Function Initative beschikte over longfunctiegegevens van 3-95 jarigen van diverse et-
We hebben nu een belangrijke vereenvoudiging aangebracht doordat alle etnische groepen in één en dezelfde vergelijking kunnen worden ondergebracht. Daarmee zijn niet alle problemen opgelost. Er blijken namelijk verschillen te zijn in de variabiliteit van de metingen. Dit betekent dat het eerder getoonde model voor de variatiecoëfficiënt moet worden aangepast, als volgt: log(CoV) = a + b·log(Leeftijd) + d·Etn + spline De FEV1/FVC ratio is de belangrijkste index voor de aanwezigheid van pathologische luchtwegobstructie. Ofschoon de voorspelde waarden nauwelijks etnische verschillen tonen, verschilt de LLN duidelijk voor verschillende etnische groepen (fig. 17). Door de GOLD groep werd bedacht dat het te ingewikkeld was om een LLN voor de FEV1/FVC ratio te berekenen, en dat het veel eenvoudiger was om een LLN van 0,70 aan te houden. Er is al veel kritiek gepubli-
GLI-2012 referentiewaarden voor de spirometrie
Fig. 17 - Voorspelde FEV1/FVC ratio en ondergrens van normaal (LLN) bij gezonde vrouwen van verschillende etnische origine.
ceerd over de onwetenschappelijke benadering en het ontbreken van enige aanwijzing dat aldus obstructieve longziekten goed kunnen worden gediagnostiseerd. Zie bijv. een Open Brief, ondertekend door een groot aantal vooraanstaande onderzoekers en clinici [33]. Wat figuur 17 ook toont is dat op basis van de GOLD aanbeveling gevonden kan worden dat COPD minder prevalent is bij Oost-Aziaten, die immers op latere leeftijd dan zwarten en blanken een LLN hebben die kleiner is dat 0,70.
Nogmaals de “ondergrens van normaal” Er bestaat geen twijfel over dat de verdeling van longfunctie-indices van gezonden en mensen met longpathologie overlapt. Het is dus gewaagd om op grond van het feit dat een meetresultaat > LLN pathologie uit te sluiten; vanzelfsprekend leggen klinische bevindingen gewicht in de schaal. Er is daarom gesuggereerd dat bij mensen bij wie FEV1/FVC < 0,70 maar > LLN, dus in het normale bereik, er toch sprake is van longpathologie. Aanwijzingen hiervoor ontbreken. Echter, indien deze mensen bij longitudinaal onderzoek toch ziekteverschijnselen gaan tonen, zou er steun voor deze redenering zijn. Die steun is er niet, want bij longitudinaal onderzoek is het volgende gevonden:
8
Fig. 18 - Cumulatieve frequentie distributie van de z-score voor FEV1 voor gezonde, niet-rokende blanke en zware ratio vrouwen.
Conclusie: De GOLD aanbeveling is onwetenschappelijk, niet klinisch gevalideerd, en het gebruik van FEV1/FVC < 0,70 als criterium om luchtwegobstructie vast te stellen moet in verband met de zeer grote overdiagnostiek bij ouderen en onderdiagnostiek bij jongeren [33] ten sterkste worden ontraden.
Etniciteit en z-score Het kan geen kwaad om het grote voordeel van het gebruik van de z-score vanuit een ander oogpunt toe te lichten. Als men in fig. 15 van links naar rechts gaat en het cumulatieve percentage van de populatie op de Y-as zet, verkrijgt men fig. 18. De schaal loopt van 0 (0 personen) tot 1 (alle personen, 100% van de populatie). De cumulatieve frequentieverdeling van blanke vrouwen is niet te onderscheiden van die van zwarte vrouwen. Dit illustreert ten overvloede dat de z-score op precies dezelfde wijze kan worden geïnterpreteerd bij verschillende etnische groepen.
GOLD stadium 1 (FEV1/FVC > LLN maar < 0,70 & FEV1 > 80%) gaat bij klachtenvrije mensen niet gepaard met • voortijdig overlijden [34-38] • Geen versnelde daling FEV1, ontwikkeling van respiratoire symptomen, beroep op zorg, afgenomen “quality of life” [39]. FEV1/FVC < LLN gaat wel gepaard met • Voortijdig overlijden [35,40] • Ontwikkeling van respiratoire symptomen [41].
Fig. 19 - Er is circadiane en seizoensgebonden ritmiek in het niveau van de longfunctie. Hier bepaald bij een gewone populatie die om de 3 jaar, tot een maximum van 12 jaar, werd onderzocht.
GLI-2012 referentiewaarden voor de spirometrie
9
Fig. 20 - De grote veelheid van getallen maakt de interpretatie van longfunctiegegevens onoverzichtelijk. Door gebruik te maken van pictogrammen (rechts onder) is beoordeling in een oogopslag mogelijk.
Interpretatie van meetgegevens Een longfunctiemeting levert een eenmalig resultaat. Dit hangt niet alleen af van de aan- of afwezigheid van ziekte, maar ook van het uur van meting, dagelijkse en seizoensgebonden variaties (fig. 19). Met zulke spontane variabiliteit moet rekening worden gehouden bij de interpretatie van meetgegevens [42]. De manier waarop resultaten van spirometrisch onderzoek worden gepresenteerd draagt er gewoonlijk toe bij om de interpretatie daarvan voor de niet-routinier moeilijk zo niet
ondoorgrondelijk te maken: gemeten waarden van FEV1, FVC, FEV1/FVC en vaak nog veel andere indices, al dan niet voor en na bronchusverwijding, voorspelde waarden, ondergrenzen, procent voorspeld: het gaat al gauw om ver over de 10 getallen. Heel onoverzichtelijk. Veel beter is het om gebruik te maken van pictogrammen waarbij z-scores worden afgebeeld en door kleuren wordt aangegeven wat buiten het normale bereik valt (fig. 20 en 21).
Vergelijking van voorspelde waarden Kinderartsen in Nederland gebruiken vrijwel uitsluitend de voorspelde waarden voor spirometrie van Zapletal [43]. Zij zijn gebaseerd op zeer weinig kinderen (111 jongens en meisjes), en in de formules wordt alleen rekening gehouden met de lengte, niet met de leeftijd (6-17 jaar). De vergelijking van Stanojevic [16] past redelijk tot goed, die van Zapletal slecht bij een populatie gezonde kinderen (fig. 22). Toepassing van voorspelde waarden voor FEV1/FVC volgens GLI-2012 en Zapletal op gegevens van jongens en meisjes behandeld in het Children’s Hospital of Pittsburgh, toonden met name verschillen in de prevalentie van luchtwegobstructie bij jongens, minder bij meisjes (tabel 1). Tabel 1 - Prevalentie van luchtwegobstructie volgens GLI-2012 of Zapletal.
FEV1/FVC < LLN
Fig, 21 - Verband tussen z-score en percentiel, en het gebruik daarvan bij de interpretatie van meetgegevens via een pictogram.
Jongens (n = 2492)
Meisjes (n= 2072)
Quanjer GLI-2012
15,0%
14,0%
Zapletal
23,1%
10,9%
GLI-2012 referentiewaarden voor de spirometrie
10
Fig. 22 - Vergelijking van voorspelde waarden voor FEV1 en FVC bij jongens en meisjes volgens GLI-2012 [23], Zapletal [43] en Stanojevic [16].
Bij volwassenen (fig. 23) zijn de FEV1/FVC ratios volgens EGKS/ERS [10] en NHANES [24] verschillend van die van GLI-2012 [23]. Dit komt grotendeels doordat bij GLI-2012 rekening wordt gehouden met het feit dat de ratio kleiner is naarmate de persoon groter is, terwijl bij de twee andere vergelijkingen alleen maar rekening wordt gehouden met de leeftijd. De voorspelde waarden voor FEV1 en FVC volgens NHANES komen goed overeen met die van GLI-2012, die volgens EGKS/ERS zijn duidelijk te laag (fig. 24). De EGKS/ERS voorspelde waarden, die op heel grote schaal in Europa worden gebruikt, dienen dus te worden verlaten.
Gegevens van patiënten uit twee ziekenhuizen in Australië en een ziekenhuis in Polen (fig. 25) toonden het volgende beeld (fig. 26). Er is goede overeenstemming in de prevalentie van luchtwegobstructie bij toepassing van GLI-2012 en NHANES voorspellingen, ofschoon NHANES bij vrouwen tot een systematisch iets hogere prevalentie leidt. De EGKS/ERS voorspelde waarden (fig. 27) leiden tot een wat lagere prevalentie van luchtwegobstructie bij mannen tot 60 jaar, en bij jonge vrouwen. In het algemeen gaat het om vrij beperkte verschillen, zodat er voor de klinische praktijk geen grote veranderingen hoeven te worden verwacht in de
Fig. 23 - Vergelijking van voorspelde waarden voor FEV1/FVC ratio bij jongens en meisjes volgens GLI-2012 [23], Zapletal [43] en Stanojevic [16].
GLI-2012 referentiewaarden voor de spirometrie
11
Fig. 24 - Vergelijking van voorspelde waarden voor FEV1, en FVC bij gezonde volwassenen volgens GLI-2012 [23], EGKS/ERS [10] en NHANES [24].
diagnostiek van luchtwegobstructie. Zoals eerder uitgelegd wordt GOLD stadium 1 niet als een longziekte beschouwd. Daarom is de analyse beperkt tot stadium 2-4 (fig. 27).
Fig. 25 - Leeftijdsverdeling van patiënten (Australië, Polen).
De prevalentie van GOLD stadia 2-4 vertoont het uit de literatuur bekende patroon voor GOLD stadium 1 (fig. 28): onderdiagnostiek (~20%) van luchtwegobstructie tot circa 55-60 jaar, en overdiagnostiek (~20%) boven die leeftijd. Deze percentages komen overeen met die uit een ander onderzoek van klinische patiënten [44]. Dit geeft aan dat er zelfs bij de diagnose van GOLD stadium 2 een bias insluipt. Deze is mede een gevolg van het feit dat een criterium is dat FEV1 kleiner moet zijn dan 80% van de voorspelde waarde.
Fig. 26 - Percentage patiënten met luchtwegobstructie (FEV1/FVC < LLN) op basis van GLI-2012 [23] en NHANES [24] voorspelde waarden.
GLI-2012 referentiewaarden voor de spirometrie
12
Fig. 27 - Percentage patiënten met luchtwegobstructie (FEV1/FVC < LLN) op basis van GLI-2012 [23] en EGKS/ERS [10] voorspelde waarden.
Fig. 28 - Percentage patiënten met luchtwegobstructie (FEV1/FVC < LLN) op basis van GLI-2012 voorspelde waarden, of met GOLD stadium 2-4.
We hebben immers gezien dat niet alleen FEV1/FVC < 0,70 (fig. 17), maar ook FEV1 < 80% tot een sterke leeftijdsbias leidt (fig. 6, 7 en 14).
Restrictief patroon In 1991 suggereerde een ATS-commissie dat het mogelijk was om een restrictief defect, een aandoening waarbij de totale longcapaciteit te klein is, op het spoor zou kunnen komen op basis van een te lage VC maar normale of hoge
FEV1/FVC ratio: “restrictief patroon” [21]. Sinds die tijd wordt een restrictief patroon regelmatig in de literatuur vermeld en blijkbaar als klinisch relevant patroon beschouwd. De prevalentie hiervan in de Australisch-Poolse patiëntenpopulatie (fig. 25) varieert met de leeftijd tussen 5 en 20% (fig. 29); boven de 80 jaar is het aantal waarnemingen erg klein, zodat aan het patroon na 80 jaar geen betekenis moet worden toegekend. De verschillen bij gebruik van de drie sets voorspellingen zijn aanzienlijk. Het algemene patroon is dat GLI-2012 leidt tot een toename van de prevalentie van een restrictief patroon ten opzichte van EGKS/ERS en
Fig. 29 - Percentage patiënten met een spirometrisch “restrictief patroon”: te klein VC maar normale of hoge FEV1/FVC ratio.
GLI-2012 referentiewaarden voor de spirometrie
13
NHANES. Dat is zorgwekkend, want het kan aanleiding geven tot een toename van het aantal aanvragen om de totale longcapaciteit te bepalen, en daarmee tot een toename van de kosten van gezondheidszorg. Er is immers bekend dat dit spirometrisch patroon een heel lage sensitiviteit heeft voor het correct diagnostiseren van longrestrictie: in de kliniek 50% of minder [45-47]. In een gewone bevolking is longrestrictie zeldzaam, zodat in de huisartsenpraktijk dit spirometrisch patroon het beste kan worden genegeerd. In het algemeen is het beter om dit patroon voor kennisgeving aan te nemen tenzij er klinische aanwijzingen zijn (longresectie, sterke kyphoscoliose, etc.) voor een restrictief syndroom en documentering hiervan tot klinisch relevant beleid leidt. Het algemene beleid zou moeten zijn: “behandel de patient, niet de getallen”.
Lengte en leeftijd Lengte De lengte moet worden gemeten, want de lengte die iemand bij navraag zelf meldt is onbetrouwbaar. Het verschil met de gemeten lengte kan tot 6,9 cm bedragen, met name bij ouderen [48-53]. De FEV1 en FVC zijn een functie van lengtek, waarbij k ~ 2,2. Bij een kind met een lengte van 110 cm, of een volwassene met een lengte van 180 cm, leidt een fout van 1 cm tot een fout in de voorspelde longfunctie-index van 2% resp. 1.2%. De lengte moet dus niet alleen worden gemeten, maar de meetlat moet elk jaar worden gecalibreerd, en voor het berekenen van voorspelde waarde dient de lengte met 1 cijfer achter de komma te worden ingevoerd [23, 54]. Leeftijd Het effect van een fout in de leeftijd op de voorspelde waarde is niet eenvoudig te berekenen doordat de leeftijdscoëfficiënt met de leeftijd varieert door de toegevoegde spline. Wordt de leeftijd door het afronden systematisch bijv. 0,75 jaar te laag genoteerd, dan is de procentuele fout in de voorspelde waarde: Tabel 2 - Het afronden van de leeftijd met 0,75 jaar leidt tot niet verwaarloosbare fouten in de voorspelde waarden. Mannen
Vrouwen
Leeftijd (afgerond)
FEV1 % fout
FVC % fout
FEV1 % fout
FVC %fout
3 vs 3,75
-2,8
-3,4
-2,9
-3,6
10 vs 10,75
-1,3
-1,4
-2,6
-2,7
15 vs 15,75
-3,4
-2,9
-3,4
-2,9
50 vs 50,75
+0,4
+0,4
+0,6
+0,7
De fouten zijn leeftijdsafhankelijk en het grootst op de kinderleeftijd. Bij het berekenen van voorspelde waarden dient de leeftijd dus met tenminste 1 decimaal te worden ingevoerd [23, 54].
Validatie De referentiewaarden zijn in 2 studies gevalideerd [55-56].
Software Er staan twee soorten software gratis ter beschikking om de Quanjer GLI-2012 voorspelde waarden voor spirometrie mee toe te passen: 1 Software om voorspelde waarden te berekenen. Deze is beschikbaar als programma voor Windows systemen, maar ook als Excel spreadsheet. 2 Software om grote bestanden om te zetten zodat voorspelde waarde, LLN en z-score worden toegevoegd Ook deze is aanwezig als programma geschikt voor Windows systemen, en als Excel spreadsheet. Deze software is te verkrijgen via http://www.lungfunction.org/tools.html Daarnaast hebben veel spirometerproducenten de GLI2012 formules geïmplementeerd in hun software, of zijn bezig dat te doen. Informatie hierover is te krijgen via http://www.lungfunction.org/manufacturers.html.
Flows Sommigen vragen zich af waarom er geen voorspelde waarden voor instantane flows, zoals FEF50, zijn gepubliceerd. Van deze flows is nooit aangetoond dat zij toegevoegde waarde hebben als men reeds beschikt over FEV1 en VC. Zij worden niet zelden beschouwd als index voor “small airways disease”, een syndroom dat geacht wordt op te treden zonder dat grote luchtwegen bij spirometrisch onderzoek aantoonbare pathologie vertonen; hiertegen werd al in 1991 stelling genomen [21]. Ook is de variatiecoëfficiënt van de voorstelde waarde zeer hoog, hetgeen mede verklaart waarom deze indices voor diagnostische doeleinden van uiterst beperkte waarde zijn. Gegevens voor en na bronchusverwijding zijn niet vergelijkbaar als er een verandering in de FVC optreedt, noch bij spontane variaties in de FVC. In overeenstemming hiermee wordt in standaardiseringsadviezen het gebruik van deze flows voor diagnostische doeleinden niet geadviseerd en maken zij geen deel uit van diagnostische schemas [10,14,21,57]. In de kindergeneeskunde wordt nog veel gebruik gemaakt van instantane flows. Op speciaal verzoek zijn daarom aan de GLI-2012 vergelijkingen voorspelde waarden voor FEF75% en FEF25-75% toegevoegd.
Transfer factor Door de GLI groep wordt gewerkt aan het afleiden van voorspelde waarden voor de transfer factor. Een groep onder leiding van Brian Graham en Graham Hall heeft daartoe “task force status” gekregen van de ATS. Transfer factor van de long wordt ook wel diffusiecapaciteit van de long genoemd. De long diffundeert echter niet. Ook is het gemeten resultaat geen capaciteit, want bijv. tijdens inspanning is de overdracht (“transfer”) van O2 of CO via de long veel groter dan tijdens rust. Transfer factor is daarom een betere benaming.
GLI-2012 referentiewaarden voor de spirometrie
14
Longvolumes Er bestaan op dit moment geen plannen om nieuwe referentievergelijkingen voor longvolumes (RV, TLC, FRC) af te leiden. Dat hangt o.m. samen met het feit dat er zo veel verschillende technieken zijn om deze volumes te meten, en er zo weinig onderzoeken van gezonde personen beschikbaar zijn. Daarnaast menen velen dat bepaling van longvolumes voor de klinische praktijk van zeer beperkte waarde is.
Conclusies 1 De studie van het Global Lung Function Initiative is gebaseerd op een zeer grote, representatieve steekproef uit de bevolking. 2 De aanbevelingen zijn aanvaard door 6 grote internationale organisaties van longartsen: ERS, ATS, Australian and New Zealand Society of Respiratory Science, Asian Pacific Society for Respirology, Thoracic Society of Australia and New Zealand, en de American College of Chest Physicians. 3 GLI-2012 verschaft vergelijkingen geldig van 3-95 jaar, en voor verschillende etnische groepen. 4 De leeftijdsafhankelijkheid van de LLN is in de voorspellingen verdisconteerd. 5 Z-scores bieden de mogelijkheid om metingen te interpreteren onafhankelijk van leeftijd, lengte, geslacht en etniciteit. 6 Het gebruik van procent van voorspelde waarde leidt tot een onaanvaardbare leeftijdsbias en dient te worden verlaten ten gunste van het gebruik van z-scores. 7 De GOLD doctrine respecteert niet de klinisch valide LLN en leidt daardoor tot aanzienlijke onder- en over diagnostiek van luchtwegobstructie. 8 Introductie van de Quanjer GLI-2012 vergelijkingen zal leiden tot een toename van het ‘restrictief patroon’: “behandel de patient, niet de getallen”.
Referenties 1 Hutchinson J. On the capacity of the lungs, and on the respiratory functions, with a view of establishing a precise and easy method of detecting disease by the spirometer. Med Chir Trans (London) 1846; 29: 137–252. 2 Tiffeneau R, Pinelli A. Air circulant et air captif dans l’exploration de la fonction ventilatrice pulmonaire. Paris Méd 1947; 37: 624–628. 3 Yernault JC. The birth and development of the forced expiratory manoeuvre: a tribute to Robert Tiffeneau (1910–1961). Eur Respir J 1997; 10: 2704–2710. 4 Jouasset D. Normalisation des épreuves fonctionnelles respiratoires dans les pays de la Communauté Européenne du Charbon et de l’Acier. Poumon Coeur 1960; 16: 1145–1159. 5 Cara M, Hentz P (1971). Aide-mémoire of spirographic practice for examining ventilatory function, 2nd edn. (Industrial Health and Medicine series, vol 11) pp. 1-130. 6 Ferris BC: Epidemiology Standardization Project. Am Rev Respir Dis 1978; 118 (Suppl, part 2): 1-120. 7 American Thoracic Society. 1979. Standardization of spirometry. Am Rev Respir Dis 1979; 119: 831–838. 8 Quanjer PH, ed. Standardized lung function testing. Report Working
Party Standardization of Lung Function Tests. European Community for Coal and Steel. Bull Eur Physiopathol Respir 1983; 19: Suppl. 5, 1–95. 9 American Thoracic Society. Standardization of spirometry: 1987 update. Am Rev Respir Dis 1987; 136: 1285–1298. 10 Quanjer PH, Tammeling GJ, Cotes JE, Pedersen OF, Peslin R, Yernault J-C. Lung volume and forced ventilatory flows. Report Working Party Standardization of Lung Function Tests, European Community for Steel and Coal. Official Statement of the European Respiratory Society. Eur Respir J 1993; 6: Suppl. 16, 5–40. Erratum Eur Respir J 1995; 8: 1629. 11 American Thoracic Society. Standardization of spirometry, 1994 update. Am J Respir Crit Care Med 1995; 152: 1107–1136. 12 Polgar, G, Promadhat V. Pulmonary function testing in children: techniques and standards. Philadelphia, WB Saunders C, 1971. 13 Quanjer PH, Borsboom GJ, Brunekreef B, Zach M, Forche G, Cotes JE, Sanchis J, Paoletti P. Spirometric reference values for white European children and adolescents: Polgar revisited. Pediatr Pulmonol 1995;19: 135-142. 14 Miller MR, Hankinson J, Brusasco V, et al. ATS/ERS Task Force. Standardisation of spirometry. Eur Respir J 2005; 26: 319-338. 15 http://www.lungfunction.org. 16 Stanojevic S, Wade A, Stocks J, et al. Reference ranges for spirometry across all ages. A new approach. Am J Respir Crit Care Med 2008; 177: 253–260. 17 Bates DV, Christie RV. (1964). Respiratory Function in Disease, p. 91. Saunders, Philadelphia and London. 18 Sobol BJ. Assessment of ventilatory abnormality in the asymptomatic subject: an exercise in futility. Thorax 1966; 2: 445-449. 19 Sobol BJ, Sobol PG. Editorial. Percent of predicted as the limit of normal in pulmonary function testing: a statistically valid approach. Thorax 1979; 34: 1-3. 20 Miller MR, Pincock AC. Predicted values: how should we use them? Thorax 1988; 43: 265-267. 21 ATS Statement. Lung function testing: selection of reference values and
GLI-2012 referentiewaarden voor de spirometrie interpretative strategies. Am Rev Resp Dis 1991; 144: 1202-1218. 22 Miller MR, Quanjer PH, Swanney MP, Ruppel G, Enright PL. Interpreting lung function data using 80% predicted and fixed thresholds misclassifies more than 20% of patients. Chest 2011; 139; 52-59. 23 Quanjer PH, Stanojevic S, Cole TJ et al. and the ERS Global Lung Function Initiative. Multi-ethnic reference values for spirometry for the 3-95 years age range: the Global Lung Function 2012 equations. Eur Respir J 2012; 40: 1324-1343. 24 Hankinson JL, Odencrantz JR, Fedan KB. Spirometric reference values from a sample of the general US population. Am J Respir Crit Care Med 1995; 152: 179–187. 25 Wang X, Dockery DW, Wypij D, Fay ME, Ferris BG Jr. Pulmonary function between 6 and 18 years of age. Pediatr Pulmonol 1993; 15: 75–88. 26 Falaschetti E, Laiho J, Primatesta P, Purdon S. Prediction equations for normal and low lung function from the Health Survey for England. Eur Respir J 2004; 23: 456-463. 27 Brändli O, Schindler Ch, Künzli N, Keller R, Perruchoud AP, and SAPALDIA team. Lung function in healthy never smoking adults: reference values and lower limits of normal of a Swiss population. Thorax 1996; 51: 277-283. 28 Pistelli F, Bottai M, Viegi G, et al. Smooth reference equations for slow vital capacity and flow-volume curve indexes. Am J Respir Crit Care Med 2000; 161: 899–905. Erratum in: Am J Respir Crit Care Med 2001; 164: 1740. 29 Pistelli F, Bottai M, Carrozzi L, et al. Reference equations for spirometry from a general population sample in central Italy. Respir Med 2007; 101: 814-825. 30 Rigby RA, Stasinopoulos DM. Generalized additive models for location, scale and shape (with discussion). Appl Statist 2005; 54: 507-554. 31 Quanjer PH, Stanojevic S, Stocks J et al., for and on behalf of the Global Lung Initiative. Changes in the FEV1/FVC ratio during childhood and adolescence: an intercontinental study. Eur Respir J 2010; 36: 13911399. 32 West GB, Brown JH, Enquist BJ. A general model for the origin of allometric scaling laws in biology. Science 1997; 276: 122-126. 33 Quanjer PH, Enright PL, Miller MR et al. Open Letter. The need to change the method for defining mild airway obstruction. Eur Respir J 2011; 37: 720-722. 34 Ekberg-Aronsson M, Pehrsson K, Nilsson JA, Nilsson PM, Löfdahl CG. Mortality in GOLD stages of COPD and its dependence on symptoms of chronic bronchitis. Respir Res 2005; 6: 98. 35 Vaz Fragoso CA, Concato J, McAvay G, et al. Chronic obstructive pulmonary disease in older persons: a comparison of two spirometric definitions. Respir Med 2010; 104: 1189 - 1196. 36 Pedone C, Scarlata S, Sorino C, Forastiere F, Bellia V, Antonelli Incalzi R. Does mild COPD affect prognosis in the elderly? BMC Pulm Med 2010; 10: 35. 37 Mannino DM, Doherty DE, Buist AS. Global Initiative on Obstructive Lung Disease (GOLD) classification of lung disease and mortality: findings from the Atherosclerosis Risk in Communities (ARIC) study. Respir Med 2006; 100: 115–122. 38 Vaz Fragoso C, Gill T, McAvay G, et al. Use of lambda-mu-sigma-derived Z score for evaluating respiratory impairment in middle-aged persons. Respir Care 2011; 56: 1771-1777. 39 Bridevaux P-O, Gerbase MW, Probst-Hensch NM, Schindler C, Gaspoz JM, Rochat T. Long-term decline in lung function, utilisation of care and quality of life in modified GOLD stage 1 COPD. Thorax 2008; 63: 768 - 774.
15 40 Mannino DM, Buist AS, Vollmer WM. Chronic obstructive pulmonary disease in the older adult: what defines abnormal lung function? Thorax 2007; 62: 37–241 41 Vaz Fragoso CA, Concato J, McAvay G, et al. The ratio of FEV1 to FVC as a basis for establishing chronic obstructive pulmonary disease. Am J Respir Crit Care Med 2010; 181: 446 - 451. 42 Borsboom GJJM, van Pelt W, van Houwelingen HC, van Vianen BG, Schouten JP, Quanjer PH. Diurnal variation in lung function in subgroups from two Dutch populations. Consequences for longitudinal analysis. Am J Respir Crit Care Med 1999; 159: 1163–1171. 43 Zapletal A, Paul T, Samanek N. Die Bedeutung heutiger Methoden der Lungen-funktionsdiagnostik zur Feststellung einer Obstruktion der Atemwege bei Kindern und Jugendlichen. Z Erkrank Atm-Org 1977; 149: 343-371. 44 Miller MR, Quanjer PH, Swanney MP, Ruppel G, Enright PL. Interpreting lung function data using 80% predicted and fixed thresholds misclassifies more than 20% of patients. Chest 2011; 139: 52-59. 45 Aaron SD, Dales RE, Cardinal P. How accurate is spirometry at predicting restrictive pulmonary impairment? Chest 1999; 115: 869–873. 46 Glady CA, Aaron SD, Lunau ML, et al. A spirometry-based algorithm to direct lung function testing in the pulmonary function laboratory. Chest 2003; 123: 1939–1946. 47 Swanney MP, Beckert LE, Frampton CM, et al. Validity of the American Thoracic Society and other spirometric algorithms using FVC and Forced Expiratory Volume at 6 s for predicting a reduced total lung capacity. Chest 2004; 126: 1861–1866. 48 Parker JM, Dillard TA, Phillips YY. Impact of using stated instead of measured height upon screening spirometry. Am J Respir Crit Care Med 1994; 150(6 Pt 1):1705-1708. 49 Brener ND, Mcmanus T, Galuska DA, Lowry R, Wechsler H. Reliability and validity of self-reported height and weight among high school students. J Adolesc Health 2003; 32: 281-287. 50 Braziuniene I, Wilson TA, Lane AH. Accuracy of self-reported height measurements in parents and its effect on mid-parental target height calculation. BMC Endocrine Disorders 2007; 7: 2. 51 Jansen W, van de Looij-Jansen P. M, Ferreira I, de Wilde EJ, Brug J. Differences in measured and self-reported height and weight in Dutch adolescents. Ann Nutr Metab 2006; 50: 339-346. 52 Lim LLY, Seubsman S-A, Sleigh A. Validity of self-reported weight, height, and body mass index among university students in Thailand: Implications for population studies of obesity in developing countries. Population Health Metrics 2009; 7: 15. 53 Wada K, Tamakoshi K, Tsunekawa T et al. Validity of self-reported height and weight in a Japanese workplace population. Intern J Obesity 2005; 29: 1093–1099. 54 Quanjer PH, Hall GL,Stanojevic S, Cole TJ, Stocks J, on behalf of the Global Lungs Initiative. Age- and height-based prediction bias in spirometry reference equations. Eur Respir J 2012; 40: 190–197. 55 Lum S, Bonner R, Kirkby J, Sonnappa S, Stocks J. S33 Validation of the GLI-2012 multi-ethnic spirometry reference equations in London school children. Thorax 2012;67:A18 (http://thorax.bmj.com/content/67/Suppl_2/A18.2). 56 Hall GL, Thompson BR, Stanojevic S, et al. The Global Lung Initiative 2012 reference values reflect contemporary Australasian spirometry. Respirology 2012; 17: 1150 - 1151. 57 Pellegrino R. Viegi G. Brusasco V, et al. ATS/ERS Task Force. Interpretative strategies for lung function tests. Eur Respir J 2005; 26: 948-968.