Eerste Round Table Big Data
21 januari, Utrecht
Dit rapport is uitsluitend bestemd voor gebruik door de cliënt. Niets uit dit rapport mag worden verspreid, geciteerd of gereproduceerd voor distributie buiten de eigen organisatie zonder voorafgaande schriftelijke toestemming van Gupta Strategists. Dit materiaal werd gebruikt door Gupta Strategists tijdens een mondelinge presentatie, het is niet het volledige verslag van de discussie.
Agenda voor vanmiddag
1
Introductie & Aanleiding
Anshu Gupta
Studies
Teams
Next steps
Gerhard Wullink
Agenda
Introductie & Aanleiding Studies Next steps
2
Data dwingen ons om kritisch te blijven naar ons wereldbeeld: data hielp Kepler te kiezen tussen drie modellen en een geloof
3
Zijn data middel of doel; de aanleiding of de oplossing?
4
In medicijnen kunnen we nog de wereld winnen met inzet van data: de weg naar verbanden en zekerheden is nog ver weg
Dx . Dp > h/2p h= 6,62*10-34 joules-sec
5
Er waren heel veel ideeën: we hebben rigoureuze doch zorgvuldige keuzes moeten maken om te focussen op 5 studies
150 60
50
10 5
Eerste lijst ideeën
Clustering
Top 10 rank: Rejected Belangrijk door jury + Big data als tool
5
Gekozen op basis van pitch
6
The ambition is to publish five studies on ways to use data to improve healthcare Working title
On benches & beds
Project description and goals • Categorize medical publications (~7 million) by disease categories using text mining and link to burden of disease • Enhance the value of research by identifying paucity and abundance: better allocation of resources
Healthcare leader as champion M. Levi (AMC)
Predicting failure
• Algorithms to anticipate complex patient needs on basis of data that is available in the early stages of the care cycle • By identifying the complex patients their care can be delivered in the settings(infrastructure and capability) that reduce risks
E. de Jonge (LUMC)
Learning on the go
• Make data and analyses from Electronic health records available to physicians (matching care choices and outcomes to their individual patient characteristics and distill guidelines • Accelerate identification and adaption of best practices
O. Suttorp (Amphia Hospital)
• Trawl supply and demand characteristics to understand why patients and doctors have certain preferences • Portfolio strategy for hospitals and patient empowerment to deliver better and cheaper care
J. van de Heuvel (RdGG)
Geography is destiny
The cure for elderly care
• Analyze business models for elderly care to understand what works and what does not • Present the most effective blueprint for elderly care in an aging population
J. de Blok (Buurtzorg)
7
Agenda
Introductie & Aanleiding Studies • Predicting Failure • Learning on the go
• Geography is destiny • The cure for elderly care • On benches and beds Next steps
9
Met EUR 850 miljoen kosten per jaar vormen IC-dagen 3,4% van de uitgaven aan de Nederlandse ziekenhuiszorg en 0,14% van het BBP Illustratieve weergave van de kosten aan de Nederlandse ziekenhuiszorg en intensive care
EUR 600 miljard Bruto Binnenlands Product
EUR 24,8 miljard kosten ‘ziekenhuiszorg’
4,1% van BBP zijn ziekenhuiskosten
EUR 850 miljoen Kosten intensive care
3,4% van ziekenhuiskosten zijn kosten voor intensive care
0,14% van BBP zijn kosten voor intensive care
10
Leegstand intensive care vormt 0,3% tot 0,7% ziekenhuiskosten en biedt daarmee kansen voor doelmatigheidsverbetering Illustratieve weergave van de IC-bezetting en daaraan gerelateerde kosten van leegstand 28% leegstand gemiddeld in 2013
0,3%-0,7% van ziekenhuiskosten Veroorzaakt door ‘leegstand’ EUR mln Totale ziekenhuiskosten NL
24.800
Totale IC-kosten NL
1) 2)
Gebaseerd op de IC-bezetting van 28 Nederlandse ziekenhuizen uit Gupta dataset Bron: Nice jaarrapportage 2013
850
Kosten leegstand bij 10% meeschalen personeel
170 (0,7%)
Kosten leegstand bij 20% meeschalen personeel
85 (0,3%)
11
De IC-bezetting voor een gemiddeld ziekenhuis varieert sterk van dag tot dag, met ook variatie in werkdruk tot gevolg IC-benutting ziekenhuis X [aantal gerealiseerde IC-verpleegdagen per dag, 2013] aantal IC verpleegdagen 22 20
Verdeling IC-benutting naar bezettingsgraad zkh X [% ic-dagen met betreffende bezettingsgraad, 2013]
2 patienten op 1 dag Aantal beddagen
>100%
7%
18: # IC-bedden
18 16 14
73,8%: Ø bedbezetting
75% <> 100%
44%
12 10 8 6
50% <> 75%
33%
4,9: Ø a 25% <> 50%
4
15%
2 0
jan feb mrt apr mei jun jul aug sep okt nov dec dagen
0% <> 25%
1%
12
In ziekenhuizen spelen discussies over IC-capaciteit vooral bij fusieambities, nieuwbouwplannen en bij langdurige leegstand Aanleidingen voor discussie over IC-capaciteit ziekenhuizen
Fusies en samenwerking
Nieuwbouw
Leegstand
•
Bij fusies of samenwerkingen spelen vraagstukken over concentratie en lateralisatie van operatieve zorg tussen locaties. Behoud van (omvang van) IC-capaciteit is hierin meestal een hoofdvraagstuk
•
Bij nieuwbouw speelt discussie over omvang van IC-capaciteit een belangrijke rol en bepaalt mede de profielkeuze van de locatie
•
Bij (landurige) leegstand start de discussie over reduceren kosten door sluiten bedden en op structurele wijziging personeelsplanning
13
Vraagstelling: Kunnen BIG-data technieken bijdragen aan het verhogen en stabiliseren van de bezetting op de IC? Illustratieve weergaven van de vraagstelling van de studie
Nu Arts
Planning
Toekomst ?
Datamining
Planning
}
Bedbezetting
Variatie
14
Van onbewerkte data naar een model dat de kans op IC-opname voorspeld
I. Prepareren dataset
Verzamelen, ordenen en aanvullen dataset om voorspellend model mee af te kunnen leiden
Gupta Database Server
Bron: Gupta Strategists
II. Afleiden voorspellend model
III. Bepalen waarde voorspellend model
Afleiden van een voorspellend model met behulp van WEKA
Valideren of het model daadwerkelijk een betere voorspellende waarde heeft dan bestaande methoden
PC
PC
15
Uit veel verschillende variabelen selecteert het algoritme de variabele die de grootste voorspellende waarde hebben Variabelen beschikbaar voor analyse Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD),[1] an interdisciplinary subfield of computer science,[2][3][4] is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.[2]
Ziekenhuiseigenschappen • Type ziekenhuis • IC-level Patiëntkenmerken • Leeftijd • Geslacht • Sociaal-economische status Medische kenmerken van de patiënt • Chronische aandoeningen (COPD, hartfalen, diabetes, obesitas, etc.) • Specialisme
• • • • •
Diagnose Aantal bezoeken tot een jaar vooraf Aantal opnamen tot een jaar vooraf Type operatieve activiteit Via SEH of niet
Omgevingskenmerken op dag van opname • Buitentemperatuur • Feestdag • Weekdeel
16
Gebruik van datamining technieken icm basale patientinformatie kan aanzienlijk bijdragen aan een betere benutting van de IC Correlatie werkelijke en voorspelde IC-bezetting per dag obv diagnose en datamining [%] Diagnose 87
97
94
Zkh 1
93
98
92
Zkh 2
86
90
81
Zkh 3
89
95
84
Zkh 4
96
99
Zkh 5
88
Zkh 6
62
89 53
97 85 78
Zkh 7
95
98
97
Zkh 8
94
96
92
Zkh 9
92
97
92
Zkh 10
57
Afwijking tussen werkelijk en voorspeld aantal ICopnames per dag per algoritme [aantal]
NBU algoritme J48 algoritme
Gemiddeld
42
59
Zkh 11
95
98
95
Zkh 12
88
93
88
17
Diagnose 0 <> 1 1 <> 2 2 <> 3 3 <> 4 4 <> 5 5 <> 6 6 <> 7 7 <> 8 8 <> 9 9 <> 10 10 <> 11 11 <> 12 12 <> 13 13 <> 14 14 <> 15 15 <> 16 16 <> 17 17 <> 18 18 <> 19 19 <> 20 20 <> 21 21 <> 22 22 <> 23 23 <> 24 24 <> 25 25 >
NBU algoritme J48 algoritme 238
122 115 87 63 51 28 20 23 14 16 6 12 2 5 4 2 3 1 3 3 4 5 4 4 12
315 245 121 56 28 25 10 12 13 11 7 2 0 1 1 0 0 0 0 0 0 0 0 0 0 0
275 151 105 101 64 27 24 20 13 12 13 8 6 3 5 5 6 1 4 1 3 0 0 0 0 0
Agenda
Introductie & Aanleiding Studies • Predicting Failure • Learning on the go
• Geography is destiny • The cure for elderly care • On benches and beds Next steps
18
Deze studie onderzoekt de haalbaarheid van het geven van live spiegelinformatie aan artsen als input voor medische beslissingen CONCEPT
Drie manieren waarop feedback het medisch handelen kan sturen ‘On the go’ richtlijn generatie
Klassieke feedbackcyclus Studies / trials en richtlijnen
Live spiegelinformatie Datamining
‘On the go’ richtlijn Medisch handelen
Datamining Medisch handelen
Medisch handelen
Voordelen
•
Hoge betrouwbaarheid door wetenschappelijke toetsing
• •
Cyclusduur: maanden Kan leiden tot richtlijnen op instituut niveau
• •
Cyclusduur: direct Mogelijkheid meewegen individuele patiënt karakeristieken
Nadelen
• •
Cyclusduur: jaren Weinig ruimte voor variatie o.b.v. geografie, instituut of behandelaar
•
Minder wetenschappelijke toetsing
• •
Geen ‘filter’ Uitkomst informatie moeilijk mee te nemen door snelle cyclus
Gebruik
•
Medische beslissingen met grote impact, zoals type operatie of dosering van chemokuur
•
Beslissingen waarvoor geen richtlijnen bestaan Zowel proces- als medisch inhoudelijke sturing
•
Inzage geven in praktijk variatie als extra datapunt voor medisch handelen
•
19
Hypothese: live spiegelinformatie over historisch handelen is waardevolle aanvullende informatie bij medische besluitvorming CONCEPT
Voorbeeld van potentiële live spiegelinformatie
• • •
Meegenomen patiëntkarakteristieken Man, 54 jaar VG/ Hypertensie, Roken Diagnose STEMI, bevestigd via ECG en lab
Voorgestelde uitgangspunten spiegelinformatie
Fungeert als extra datapunt om beslissing te nemen
Historische vervolgstappen bij vergelijkbare patiënten (2012-2014, n=261, gemiddelde similarity score = 99%)
• • • •
PCI Thrombolyse Verdere diagnostiek Observatie
Zelf
Collega’s
65% 30% 3% 2%
45% 50% 1% 0%
Vink aan als deze informatie in stuurgroep besproken moet worden
Doet geen uitspraak over ‘de beste’ vervolgstap
Biedt waar gewenst mogelijkheid voor gestructureerde discussie
20
Op termijn kan via on-the-go richtlijn generatie een continue verbetercyclus ontstaan, waarbij gericht op uitkomst gestuurd wordt CONCEPT
‘On the go’ richtlijn generatie Live spiegelinformatie • Relevante suggesties voor vervolgstappen o.b.v. historisch handelen • Eventueel ook meenemen van richtlijn afgesproken in stuurgroep Doel: verschuiven μ verkleinen σ
Periodieke datamining • Legt link tussen variatie en uitkomst • Produceert lijst van variabelen en patronen die correleren met x% beste en x% slechtste uitkomsten
uitkomstmaat
Bespreking correlaties in stuurgroep • Stuurgroep neemt beslissing: • Direct implementeren • Kandidaat voor studie • Negeren
21
Studie opzet en timing
22
Retrospectieve analyse
Aanpak •
• •
Selecteren van chronologische reeks patiënten over bijv. afgelopen 5 jaar, die op moment van eerste polibezoek > 70jr waren Bepalen van keuzemomenten Analyse van gemaakte keuzes voor soortgelijke patiënten
Bespreking met artsen
• • • •
Nog geen koppeling met uitkomst
Impact en algoritme
Welke waarde heeft dergelijke feedback? Kan het een andere manier zijn om sneller van elkaars keuzes te leren? Hoe kan deze feedback het best gegeven worden? Gezamenlijk vaststellen eventuele verbeterdoelen, en wenselijkheid om analyse te herhalen om verbetering te monitoren
•
•
(eventueel) koppeling gemaakte keuzes aan uitkomsten (eventueel) op basis van leerervaringen uit retrospectieve analyse opstellen van algoritme als basis voor ‘live’ feedback tool
Inputs •
EPD gegevens Amphia ziekenhuis
•
Interviews artsen
•
EPD gegevens Amphia ziekenhuis
Timing •
~ Feb – Apr 2015
•
~ Apr – Mei 2015
•
~ Mei – Okt 2015
Agenda
Introductie & Aanleiding Studies • Predicting Failure • Learning on the go
• Geography is destiny • The cure for elderly care • On benches and beds Next steps
23
Geldt ‘Geography is destiny’ ook binnen Nederland, waar zo goed als iedereen onafhankelijk van inkomen toegang tot zorg heeft?
Iedereen verplicht verzekerd van een groot basispakket
0 tot 18 jaar
0,0%
18 tot 35 jaar
0,3%
0,1%
50 tot 65 jaar
0,1%
0,0%
Percentage onverzekerden 2012
Bron: CBS, zorgatlas, vektis
Ruim 90% van de patienten <15 mins tot een polikliniek
6% 0%
35 tot 50 jaar
65 jaar en ouder
Zo goed als iedereen binnen 10 minuten bij een huisarts
94%
Reistijd tot ziekenhuis
0-15 mins 15-25 mins >25 mins
24
Eerste analyse op reistijd laat zien dat er flinke afname van ziekenhuis consumptie is, naarmate reistijd toeneemt
25
Verschil werkelijk/verwacht aantal ZH patienten ten opzicht van reistijd naar ZH [verwacht naar leeftijd en geslacht, 2011]
Omvang bol is geschaald met aantal patiënten
Werkelijke aantal patiënten/ Verwacht obv demografie
Correlatie = - 97%
1,10
Meer patiënten naar het ZH 1,05 1,00
Minder patiënten naar het ZH 0,95 0,90 0,85
0-5 ZH dichtbij
5-10
10-15 15-20 Reistijd naar dichtstbijzijnd ZH
Om te bepalen of mensen méér of minder naar het ziekenhuis gaan bepalen we het verschil tussen de werkelijke prevalentie in een postcode, gebaseerd op de Gupta database en prevalentie op basis van de demografie Bron: Gupta Strategists
20-25
>25 ZH ver weg
Per postcode zien we veel variatie in ziekenhuis consumptie
Verschil werkelijk/verwacht aantal ZH patienten ten opzicht van reistijd naar ZH per poscode3 gebied [verwacht naar leeftijd en geslacht, 2011] Pc3 gebied
Werkelijke aantal patiënten/ Verwacht obv demografie
Correlatie = - 40%
1,4
Meer patiënten naar het ZH
1,3 1,2 1,1 1,0 0,9 0,8 0,7
Minder patiënten naar het ZH
0,6 0
1
2
ZH dichtbij
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Reistijd naar ZH ver weg dichtstbijzijnd ZH
Om te bepalen of mensen méér of minder naar het ziekenhuis gaan bepalen we het verschil tussen de werkelijke prevalentie in een postcode, gebaseerd op de Gupta database en prevalentie op basis van de demografie Bron: Gupta Strategists
26
Het verband tussen reistijd en consumptie verschilt per specialisme Correlatie van reistijd en verschil prevalenties [correlatiefactor; 2011] Kindergeneeskunde Chirurgie Cardiologie Gastro-enterologie Allergologie Urologie Revalidatie geneeskunde Orthopedie Interne geneeskunde Longgeneeskunde Audiologie Neurologie Consultatieve psychiatrie Keel- neus- en oorheelkunde Radiotherapie Oogheelkunde Gynaecologie Interventie radiologie Cardio-pulmonale chirurgie Anaesthesiologie Reumatologie Neurochirurgie Klinische genetica Plastische chirurgie Klinische geriatrie -
-0,78 -0,76 -0,73 -0,69 -0,67 -0,66 -0,64 -0,64 -0,64 -0,61 -0,60 -0,59 -0,57 -0,54 -0,46 -0,44 -0,33 -0,28 -0,21 -0,19 -0,19
Grote (negatieve) correlatie betekent een sterk verband tussen reistijd en aantal patiënten dat het ZH bezoekt. Hoe langer de reistijd hoe minder de ziekenhuiszorgconsumptie
0,08 0,12 0,19
In analyse is nog niet gecorrigeerd voor aanbod. Niet elk ZH biedt neurochirurgie en KG aan dus zal dit effect mogelijk anders zijn dan hier is berekend. 0,40
27
Grote verschillen in type behandeling bortskanker geven aanleiding te verwachten dat ‘keuze’ ziekenhuis effect heeft op behandeling Percentage borstsparende operaties vs amputatie per ziekenhuis [verwacht naar leeftijd en geslacht, 2011] Ablatie
MST
22%
73%
78%
27%
Ziekenhuizen
Bron: zichtbare zorg 2011
28
Bezoek aan de huisarts verschilt aanzienlijk per provincie
29
Werkelijke huisartsenconsumptie vergeleken met verwachte consumptie per gemeente per provincie [Werkelijk en verwachte kosten op basis van leeftijd geslacht, 2011] HA werkelijk/verwacht 1,5 1,4 1,3 1,2 1,1 1,0 0,9 0,8 0,7 0,6
LB
N-B
Z-H
FL
GR
DR
N-H
Provincie Bron: Vektis
GL
UT
OV
FR
ZL
Geography is destiny?
• Geography heeft invloed op hoeveelheid ziekenhuiszorg?
• Geography heeft invloed op type behandeling?
• Geography heeft invloed op toegang tot de zorg?
30
Hypothese: het effect van geography neemt af en steeds meer andere factoren spelen een wenselijk of onwenselijke rol
Hypotheses: - Stijgend eigen risico gaat meer en meer een drempel voor toegang tot zorg vormen
- Toenemende mate van inzicht in kwaliteit leidt tot meer keuzegedrag door patiënten en minder afhankelijkheid van locatie van wonen en zorgaanbod - Toenemende toegankelijkheid tot informatie in combinatie met toenemende mobiliteit leidt tot afname effect van ‘geography’
- Steed meer specialisatie door zorginstellingen op aandoeningen / behandelingen leidt tot hogere drempels voor toegang
- Drempels kunnen enerzijds gunstig zijn (beperken van ‘overbodige zorg’), maar treden ook op bij aandoeningen waarbij drempels niet wenselijk zijn (bijvoorbeeld late diagnose kanker)
31
We kijken naar de samenhang tussen eigenschappen van de vraag met prevalentie en keuze gedrag Analyse aanpak
Eigenschappen van de patient - Leeftijd-geslacht - Regio / verstedelijking - Reisafstand tot aanbod - Sociaal economische status - (Type) aandoening - Eigen risico verzekering - Zorghistorie - …
Beleidsimplicaties
Prevalentie van zorgconsumptie: - Diagnostiek - Behandeling - Expert behandeling - Nazorg
Daar waar mogelijk evalueren effecten aan de hand van data, zo niet aan de hand van kwalitatieve criteria. Bijvoorbeeld conclusies: Hoog eigen risico leidt tot drempel in toegang tot diagnostiek van kanker en daarmee tot hogere mortaliteit
Keuzegedrag van patienten - Wel of niet naar dichtstbijzijnde ziekenhuis - Doorverwezen in traject naar meer gespecialiseerde aanbieders of niet
Of Concentratie van hartchirurgie is geen risico voor toegang
32
Agenda
Introductie & Aanleiding Studies • Predicting Failure • Learning on the go
• Geography is destiny • The cure for elderly care • On benches and beds Next steps
33
Big data in de thuiszorg maakt sturing op uitkomsten mogelijk
Huidige situatie in de thuiszorg
Kans voor de toekomst
•
Digitale informatie gericht op declaratie en proces, niet op zorginhoud en effecten van interventies geen basis voor verbeteren
•
Algemene structuur voor classificatie zorginhoudelijke dossiers, bijvoorbeeld volgens Omaha systematiek: probleem interventie uitkomst
•
De informatie over zorgvraag en interventies staat veelal ongestructureerd op papier nauwelijks te analyseren
•
Effectieve digitalisering van deze structuur in ICT die werkt in het dagelijkse proces van zorgverlening
•
Open analytisch platform om deze data om te zetten in waardevolle inzichten
Ondertussen: een grote opgave om de kwaliteit en doelmatigheid van zorg te verbeteren
Kans om sturing op uitkomsten werkelijk inhoud te geven en daarin wereldwijd voorop te lopen
34
Er zijn vele concrete toepassingen van big data in de thuiszorg
1. Wijkverpleegkundige Hoe kan ik mijn cliënt het best helpen? inzicht in de meeste effectieve interventies o.b.v. acties en resultaten bij vergelijkbare cliënten
3. Lokale gemeenschap Ontvangen mensen goede zorg? inzicht in resultaten van de zorg en waar hiaten zitten. Kan op maat: per regio, per wijk, etc.
2. Zorgorganisatie Hoe kan de zorg beter? interventies die werken, kenmerken cliënten waar resultaten juist niet goed zijn, resultaten per team, etc.
Gegevens thuiszorgcliënten in Nederland
4. Cliëntgroep Hoe is de zorg voor een bepaalde cliëntgroep? op landelijke schaal inzoomen en waarde van interventies beoordelen.
35
Gestructureerde zorginhoudelijke registratie van interventies en uitkomsten door Buurtzorg is unieke databron Digitale registratie van alle cliëntdossiers Buurtzorg volgens Omaha systematiek
Probleem
• Welke problemen heeft de cliënt? • Classificatie in 4 domeinen: omgeving, psychosociaal, omgeving, gezondheid • Bijv. sociaal contact, gehoor, verzorging, etc.
Interventie
• Welke interventies zijn ingezet? Gebieden: instructie/voorlichting advies, behandeling/procedures, casemanagement en monitoring / bewaking • Per acties registratie van categorie en doel
Uitkomst
• Hoe scoort de cliënt per probleem (vijfpuntsschaal)? • Score op kennis, gedrag en status (periodiek meten) • Bijv. cliënt heeft basaal begrip van probleem (score 3), toont geen gepast gedrag (score 1) en heeft lichte symptomen (score 4)
Bron: ICT-standaarden in de zorg (Nictiz), www.omahasystem.org, Gupta Strategists
36
Studie geeft wenkend perspectief, concrete voorbeelden en schets van begaanbare route
1
Wenkend perspectief
• Hoe kan ouderenzorg van de toekomst eruit zien? • Waarom is inzet big data unieke kans voor verbetering kwaliteit van ouderenzorg?
Concrete voorbeelden
• Hoe ziet de cliëntpopulatie thuiszorg eruit, met zicht op problemen, interventies en resultaten (i.p.v. huidige indicaties en uren)? • Hoe zorg verbeteren voor specifieke cliëntgroepen? - Case studie van interessante voorbeelden
Route naar doel
• Wat is de weg naar effectieve inzet big data voor betere zorg, met goed schaalbare zorginfrastructuur? • Met welke partijen kunnen we dit mogelijk maken?
2
3
Bron: Gupta Strategists
37
Agenda
Introductie & Aanleiding Studies • Predicting Failure • Learning on the go
• Geography is destiny • The cure for elderly care • On benches and beds Next steps
38
What we research, what we fund and what we suffer from appear to be separate matters rather than all the same thing
39
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
40
The goal of medical research is to eradicate burden of disease
41
A review of global research efforts needs a new, disease-specific perspective that lacks in current rankings of medical research
42
Using a big-data classification method we aim to evaluate the performance of disease-specific medical research Goals of ‘On benches and beds’ • • • •
Compare research portfolios of countries and institutions Identify changes over time in medical research output Uncover the alignment of medical research output and burden of disease Evaluate funding of disease specific research Output of medical research
Burden of disease
Funding of medical research
43
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
47
Mapping the medical research output by disease: a combination of two methods was used to link research papers to disease groups
Paper
Method A
Journal
Text mining the abstract and title for synonyms of diseases
Title
Abstract Keywords
Bron: Gupta Strategists
Disease A Disease B
Authors Affiliation
Diagnosis groups, based on ICD-10 nomenclature
Disease C Method B
Cluster papers based on link between author keywords and disease groups
48
We used a quantity and a quality measure for research output
Output measure
Definition
Rationale
Total volume - by institute - by country
Total volume of peer reviewed papers about the disease group
Quantity measure • A high number of papers is an indication that much research is conducted about this topic • High volume does not necessary equal high impact • Total volume is highly influenced by topic, and therefore unsuitable for comparison between diseases
Volume of top papers - by institute - by country
Number of peer reviewed papers that belong to the top 10% most cited papers about the disease group worldwide
Quality measure • Number of citations is a common used measure for quality of research • Classification of top papers as being in the 10% most cited papers on the topic worldwide allows comparison between diseases, since it corrects for variation between research fields in citation habits and total paper volume
49
We baseren ons huidige onderzoek op alle 6,8 mln biomedische publicaties sinds 2000
Sinds we in juni met dit project begonnen hebben we:
1)
•
De ‘biomedische literatuur’ afgebakend: 85 Web of Science vakgebieden1.
•
De onderzoeksdatabase samengesteld: 6,8 miljoen peer reviewed publicaties uit de periode 2000 t/m 2014
•
De koppelingsmethode uitgebreid met de auteurskeywords die internationaal het meest gebruikt worden (eerder keken we alleen binnen Nederlandse umc’s)
•
Alle Nederlandse affiliaties die auteurs noemen opgeruimd en gerubriceerd, zodat we umc’s kunnen vergelijken met andere instellingen binnen Nederland
Van de 250 Web of Science vakgebieden. Betreft alle vakgebieden waar aandeel van Nederlandse umc’s in totaal aantal publicaties 0,5% of meer is.
50
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
51
The bulk of the most cited papers per disease worldwide is generated by just ten countries
52
Share of disease-specific top papers by country [Share in 10% most cited peer reviewed papers within each disease category, 2000-2014] Total Top 10 United States of America United Kingdom Germany Canada France Italy Netherlands Japan Australia China Top 10-20 Switzerland Spain Sweden Belgium Denmark Austria Finland Israel Republic of Korea Brazil Other
100% 77% 35% 9%
6% 5% 4% 4% 4% 3% 3% 2% 14%
9%
Source: Gupta Strategists, CWTS, analysis based on Web of Science
Disease-specific research output has more than doubled in the past twelve years Global change in total disease-specific research output [number of peer reviewed papers x1.000]
+121 % 809
366
2000
Source: Gupta Strategists, CWTS, analysis based on Web of Science
2012
53
Some countries grow faster than others: the new world is picking up
Growth in disease-specific research output by country [Growth in number of peer reviewed papers between 2000 and 2012, width represents total # papers] Increasing share in output Iran China Brazil India Australia Spain Netherlands Canada Italy
Decreasing share in output
BRIC
USA
UK Germany France Japan 0%
100%
200%
Naar Tableau Average growth: 121% Source: Gupta Strategists, CWTS, analysis based on Web of Science
300%
400%
500%
600%
700%
3.200%
54
Research output on lifestyle diseases, mental disorders, and cancer has grown much more than output on other diseases Growth in disease-specific research output by disease [Growth in number of peer reviewed papers between 2000 and 2012, width represents total # papers] Increasing share in output
Decreasing share in output
Obesity Misc. mental disorders Diabetes Anxiety disorders Lung cancer Prostate cancer Breast cancer Mood disorders incl. depression
HIV Infectious diseases (exl. HIV) Leukemia Congenital diseases Anemia
0%
100%
200%
Average growth: 121% Source: Gupta Strategists, CWTS, analysis based on Web of Science
300%
400%
55
Dutch institutes differ in their research portfolios: for some diseases research is highly concentrated, but not for all
56
Extent of concentration of research per disease group in the Netherlands [y-axis: HHI1,2, x-axis: # Dutch papers3, 2000-2014] High
Psoriasis Cleft palate
Extent of concentration
Palliative care Occlusion of carotid artery Hearing impairment Other nervous diseases Multiple Sclerose Prostate cancer Dementia HIV Ø=0,09 Coronary heart diseases Depression Breast cancer Diabetes
Aneurysm
Other infectious diseases
Low 0k 1)
2)
3)
2k
4k
6k
8k
10k
The Herfindahl Index is a measure of the size of firms in relation to the industry and an indicator of the amount of competition among them. It is an economic concept widely applied in competition law, antitrust and also technology management. The HHI is defined as the sum of the squares of the market shares of the 50 largest firms within the industry, where the market shares are expressed as fractions. Only the market shares of the 50 institutes with the highest number of papers per disease were included in our calculations. Only disease groups with >50 publications were included
12k
14k
16k
18k
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
58
US universities have the widest high quality research portfolio’s; they belong to the top 10 most cited institutes for many diseases Institutes with the most top 10 positions in disease specific research [Number of DRGs in which a university scores a top 10 position on top paper volume (y), ranked (x), 2000-2014] 220
Harvard University
200 180
United States of America Canada United Kingdom Netherlands
Belgium Germany Australia Italy
Sweden Switzerland fds
160 140
Johns Hopkins University UCSF
120 100 80
UCLA
University of Toronto University of Washington, Seattle University College London
60 40
Erasmus Medisch Centrum 20
Karolinska Institute Katholieke Universiteit Leuven AMC VU Medisch Centrum University of Sydney UMCU LUMC Milan
0
Source: Gupta Strategists, CWTS, analysis based on Web of Science
Humboldt University of Berlin
Radboudumc
59
All Dutch universities have a prominent position in Europe
European institutes with the most top 10 positions in disease specific research [Number of DRGs for which a university scores a top 10 position on top paper volume (y), ranked (x), 2000-2014] 130 120
University College London ErasmusMC
110 100 90 80
Karolinska Institute Humboldt University of Berlin AMC
Katholieke Universiteit Leuven UMCU
United Kingdom Netherlands Sweden Germany Belgium Switzerland
Italy Finland France Denmark Spain Austria Greece
70 60 50 40 30 20
radboudumc VUmc University of Zurich University of Milan LUMC MUMC+ University of Helsinki University of Copenhagen Medical University of Vienna Paris Descartes University UMCG
10 0
Source: Gupta Strategists, CWTS, analysis based on Web of Science
University of Barcelona
60
AMC is a world player on HIV research, in a field dominated by US institutes # peer reviewed papers within disease category [2000-2014] 5000
Harvard University 4500
Johns Hopkins University
4000
University of California, San Francisco
3500
University of California, Los Angeles Emory University University of Washington, Seattle
3000 2500
University of Cape Town
2000
AMC
1500 1000
HIV Netherlands France Other USA United Kingdom Canada Germany Italy
Columbia University University of North Carolina, Chapel Hill University of California, San Diego University College London University of Pennsylvania
500 0
0
5
10 15 20 25 30 35 40 45 Share in top 10% most cited papers within the disease category [%]→
Naar Tableau Source: Gupta Strategists, CWTS, analysis based on Web of Science
61
1
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
62
Burden of disease is quantified by DALY’s: the amount of years lost due to ill-health or early death WHO-method of calculating burden of disease
Disability-adjusted life years (DALY’s)
Years Lost due to Disability: Average amount of years spend in ill-health, weighted with severity of disability
Years of Life Lost: Difference between life expectancy at birth1 and age at moment of death
Expected life years Healthy years
Years with disease or disability
Years of Life Lost
Life expectancy used is the global ‘maximum’ life expectancy at birth: the life expectancy of Japanese women (92,5 years) Source: Global Burden of Disease, WHO 1)
63
Global burden of disease is dominated by birth-related complications Global burden of disease [DALY’s per 1.000 inhabitants, 2012]
Share in global burden of disease, by disease group [% of global DALY-total, 2012]
390
Birth-related complications 9%
Coron. heart diseases 6%
Rest
5% 41%
Lower resp. tract diseases
5% Misc. inf. diseases 5% Stroke
4%
2012
Source: Gupta Strategists, Global Burden of Disease by WHO
Asthma-COPD Gastoenteritis HIV Cancers Depression Addiction Diabetes Anemia Lower back pain
64
Comparison between research output and burden of disease shows pinnacles and research gaps
65
Example of distribution of share in burden of disease and research output Share of disease in total research output [%]
10,00%
Pinnacle: Low burden, high output
Disease C Fully correlated research profile is directly proportional to burden of disease
Disease A Disease E
Disease B
1,00%
Disease H Disease D Disease F
0,10%
Disease G Disease I 0,01% 0,01%
Gap: High burden, low output 0,10%
1,00%
Share of disease in the total burden of disease [%]
10,00%
Global research output does not match global burden of disease
68
Global distribution of research output versus burden of disease by disease category [DALY’s 2012, # publications 2000-2014] Share of disease in total research output [%]
100,00%
10x higher in research
Pinnacles
Prostate cancer
10,00%
Coron. heart disease
Behav disorders
Extrapyr disorders
HIV
Asthma-COPD Birth Lower resp inf
Arthritis Fertility
1,00%
Skin cancer Multiple sclerosis
Lower back pain 0,10%
10x higher in burden
Osteoarthritis Cleft palate Dyspepsia Research gaps
0,01% 0,01%
0,10%
1,00%
10,00%
Share of disease in total burden of disease [%] DALY = Disability Adjusted Life Year Source: Gupta Strategists, CWTS, analysis based on Web of Science, and Global Burden of Disease by WHO
100,00%
Gupta big data study ‘On benches and beds’
The need to link research output to burden of disease A big data approach New perspectives on medical research output a) Country comparison on research output b) Institute profiles on disease specific research c) Alignment of medical research and burden Next steps Discussion
69
Agenda
Introductie & Aanleiding Studies Next steps
• Publicatie • Privacy issues • Volgende bijeenkomsten
71
We kunnen met deze studies op verschillende manieren naar buiten treden, hoe willen jullie hierbij worden betrokken?
Studies
Wetenschap
Serie van vijf rapporten met compleet overzicht studie
Wetenschappelijke publicatie(s)
Website
Health Data website met studies, interviews en overkoepelende studie
Spin-offs
Commerciële spin-off van de studies
Overkoepelend
Gezamenlijk uit te brengen overkoepelende studie
72
Agenda
Introductie & Aanleiding Studies Next steps
• Publicatie • Privacy issues • Volgende bijeenkomsten
73
Zijn er issues met betrekking tot privacy of delen van data en wat moeten we daar over afspreken
Concurrentie gevoelige data
We gaan met elkaar data analyseren, interpreteren en presenteren. Daar zitten in sommige gevallen data bij die bedrijfskritisch is. Hoe gaan we daar mee om?
Privacy en perceptie rondom dit onderwerp
Rondom het thema big data kan de sfeer ontstaan dat slordig met privacy van persoonsgegevens wordt omgegaan. Speelt dat een rol bij onze studies?
…
…
74
Agenda
Introductie & Aanleiding Studies Next steps
• Publicatie • Privacy issues • Volgende bijeenkomsten
75
Voorstel is het komende jaar aan iedere studie een round table te wijden
2015 Studie
Q1
Q2
Q3
2016 Q1
Q4
On benches and Beds Nu Predicting Failure Voorjaar 2015 Learning on the go Begin 2016 Geography is destiny Najaar 2015 Business models for elderly care Zomer 2015
Tijdens iedere round table bespreken we vanzelfsprekend de status van alle studies
76