FAIR-data op de rails

Geen opmerkingen

Midden in de COVID-19-pandemie komt de uitwisseling van onderzoeks-data eindelijk in een stroomversnelling, stelt biosemanticus Barend Mons opgelucht vast. ‘Bij een tweede golf kunnen we wellicht meer levens redden.’

In de jaren negentig verbaasde Barend Mons (63), van oorsprong malariaonderzoeker, zich al over begrippen in de levenswetenschappen met verschillende schrijfwijzen. De eencellige die malaria veroorzaakt, heeft namelijk zes synoniemen. Ook zijn er afkortingen met allerlei mogelijke betekenissen. Zo verwijst PSA naar meer dan tweehonderd genen, eiwitten en andere begrippen. ‘Voor ons is dat al lastig, maar de computer begrijpt daar helemaal niets van. In 2005 zei ik daarom al dat we onze data beter machine readable konden publiceren, met het oog op AI-algoritmes.’

‘Er gaat miljarden aan onderzoeksgeld verloren en het kost mensenlevens’

Inmiddels is Mons hoogleraar biosemantiek aan het Leids Universitair Medisch Centrum (LUMC) en grondlegger en ambassadeur van de FAIR-principes. Die gaan ervan uit dat gegevens uit verschillende onderzoeken vindbaar (Findable), toegankelijk (Accessible), interoperabel (Interoperable) en herbruikbaar (Reusable) moeten zijn voor computer en mens. Mons: ‘De samenvatting van FAIR is eigenlijk: ”The machine knows what I mean”. En dat is toepasbaar van chemie tot sociale wetenschappen.’

Is die brede toepasbaarheid ook meteen het doel achter FAIR-data?

‘Ja, het moet mogelijk zijn om data te matchen tussen disciplines. Neem klimaatverandering, dat is onder meer chemie, ecologie en sociologie. Heb je data uit verschillende disciplines nodig, dan is dat vaak een ramp, want iedereen gebruikt andere termen voor hetzelfde. Soms worden er vastgestelde woordenboeken gebruikt, thesauri, maar die verschillen dan per vakgebied. Die moet je onderling ook correleren.

FAIR-data is gebaseerd op het gebruik van goede semantiek en ontologieën. Dat zijn structuren van de onderlinge relaties en eigenschappen van begrippen. Die vormen vaak een ingewikkeld web. Een eenvoudig voorbeeld is de taxonomie van soorten in de biologie. Om te zoeken naar data en datasets is het handig als ook de computer weet dat mensen en muizen allebei behoren tot de zoogdieren. De chemische eigenschappen van verschillende stoffen vormen eveneens zo’n web. De computer kan zo veel makkelijker relevante koppelingen vinden tussen data en datasets. Wanneer de computer associatief met data uit de levenswetenschappen kan omgaan, noemen we dat biosemantiek, het vakgebied van Mons. ‘Veel ruwe data kun je FAIR maken. Plaatjes en tekst niet, maar zolang die goede metadata hebben, hoeft dat geen probleem te zijn.’

Wat zijn de grootste uitdagingen op dit moment, technisch of anderzijds?

‘De techniek is volgens mij de uitdaging niet. Alle technische mogelijkheden om de infrastructuur te realiseren, bestonden jaren geleden al. Het is vooral een cultuuromslag. Eigenlijk moeten we ervan af om wetenschappers te beoordelen op hun h-index. Zolang die bepaalt of onderzoekers een baan krijgen, denken ze wel twee keer na voordat ze hun data beschikbaar stellen. Je kunt onderzoekers beter beoordelen op hun werkelijke impact in de wetenschap, dus ook kijken hoeveel anderen jouw data hergebruiken. Maar helaas zit het onderzoek nog te veel in dat oude keurslijf.

Daarom is het ook een uitdaging om de benodigde infrastructuur financieel te realiseren. Het wordt als vanzelfsprekend gezien dat die infrastructuur er komt, maar niemand staat vooraan om te betalen. Daardoor is 90 % van de onderzoeksdata niet herbruikbaar, ofwel doordat goede metadata ontbreken, ofwel doordat ze niet eens te vinden zijn. Op die manier gaat er miljarden aan onderzoeksgeld verloren en kost het simpelweg mensenlevens.’

Op Europees niveau staat de European Open Science Cloud in de steigers. In 2015 werd je de eerste voorzitter van de expertgroep hiervoor. Wat is er sindsdien gebeurd?

‘Wij hebben destijds de contouren geschetst voor een systeem volledig gebaseerd op de FAIR-principes, dat je niet alleen in Europa, maar ook wereldwijd zou kunnen gebruiken. Inmiddels zijn de FAIR-principes overal geaccepteerd, van China tot de VS. Het is niet zo dat iedereen hetzelfde systeem moet gebruiken. In principe kunnen onderzoeksinstellingen verschillende systemen bouwen, zolang er aan de basis FAIR digital objects staan. Het idee werkt, net als bij het huidige internet, als een zandloper. Minimale afspraken in het centrum en aan de kant van zowel infrastuctuur als applicaties, maximale vrijheid van implementatie. Een chemische structuur die een identifier heeft of een artikel met een DOI (digital object identifier, red.) is zo’n FAIR digital object. Daaraan is dan metadata gekoppeld. De computer kan vervolgens drie vragen stellen aan zo’n object: wat is het, wat kan ik ermee en wat mag ik ermee? Die laatste is belangrijk, want “open” betekent niet automatisch dat iedereen erbij moet kunnen.’

‘Gevestigde belangen staan snelle implementatie van FAIR-data in de weg’

Dat is precies wat mensen soms wel denken bij data delen.

‘Daarom noem ik in lezingen over FAIR ook wel het concept ”the end of data sharing”. Veel mensen zijn terughoudend als het gaat om data delen. Neem de huidige COVID-19-pandemie. Chinese onderzoekers zijn echt niet geneigd om hun data met de Amerikanen te delen en andersom ook niet. Dat ligt politiek heel gevoelig. Bovendien moeten we bij veel onderzoeksgegevens de privacy waarborgen. Dan vragen onderzoekers zich af: moet ik dan mijn dataset opsturen en zelf afspraken maken over wat degene ermee mag doen? Nee, dat mag helemaal niet bij bijvoorbeeld ziekenhuizen. We kunnen echter wel bepaalde algoritmes rondsturen naar plekken waar ze van data leren; dat concept noemen we data visiting. De data blijven op hun plek, terwijl het leeralgoritme de benodigde informatie meeneemt.’

Dan komen we bij de Personal Health Train, een Nederlandse vinding. Hoe gaat die dan met data om?

‘Stel, er komt bij ons in het LUMC een zogeheten treintje binnen, een virtual machine – VM – met een algoritme erin en die komt ”leren” op onze data. Die VM zegt bijvoorbeeld: ik ben software van de Universiteit Utrecht en ik wil weten hoeveel kankerpatiënten jullie hebben behandeld met een bepaald geneesmiddel, of inderdaad 30% niet reageerde, en of die patiënten deze bepaalde mutatie hebben. Het treintje neemt dan alleen de conclusies mee. Zo kan dat treintje wereldwijd honderden ziekenhuizen bezoeken. Uiteindelijk krijgen ze in Utrecht het antwoord op hun vraag, zonder dat er ooit persoonlijke data zijn meegenomen. Die blijven gewoon staan in de deelnemende ziekenhuizen. Met het treintje kun je ook eisen meesturen, zoals een citatie of mede-auteurschap.

Een ander probleem dat we hiermee oplossen, brengt ons naar Afrika. Tijdens de laatste grote ebola-epidemie werd van alle kanten hulp ingevlogen om de uitbraak te stoppen. De data die daarbij zijn verzameld, staan nu op servers in de VS en Europa. Afrikaanse onderzoekers kunnen er vaak zelf niet meer bij. Dat willen onderzoekers in het vervolg natuurlijk voorkomen. Data over COVID-19 blijven daarom steeds vaker in het land of instituut waar ze zijn gegenereerd. Vervolgens komen die data in een FAIR data point te staan en bepaalt het instituut zelf wie er bij mag. Een van de eerste COVID-19 FAIR data points is in Oeganda. Ook een paar Nederlandse en Duitse ziekenhuizen hebben al zo’n FAIR data point. Dankzij COVID-19 is iedereen nu keihard de rails en de poortjes voor de datatreintjes aan het bouwen.’

‘De samenvatting van FAIR is eigenlijk: ”The machine knows what I mean”’

Het proces begon al vijf jaar geleden en komt nu pas in een stroomversnelling. Is het te traag gegaan?

‘Jazeker! We zien dat in ons eigen onderzoek naar de behandeling van de groep COVID-19-patiënten die uiteindelijk ernstig ziek wordt. Met alle verbanden die we nu zien, is op basis van allerlei biomarkers beter te voorspellen welke patiënten gaan vallen in de categorie ernstig ziek en bij welke behandeling zij in een vroeg stadium baat zouden hebben. Als we vanaf de eerste maand van de uitbraak onder meer bij alle CT-scans hadden gekund, hadden we dit al veel eerder kunnen uitzoeken. Nu moest alles eerst worden gepubliceerd. Dat gaat wel razendsnel vergeleken met vroeger, maar die snelle publicatie lijdt vaak ook tot onjuiste claims. Er zijn alsnog kostbare maanden verloren gegaan. We hadden levens kunnen sparen als al die data meteen doorzoekbaar waren geweest. Artsen staan niet altijd direct te springen om een behandeling op basis van big data te kiezen, maar ik denk dat we daar wel naartoe gaan. Dan moeten de gebruikte algoritmes natuurlijk geen black box zijn. Volgens mij staan de gevestigde belangen een snelle implementatie van het FAIR- en gedistribueerde analyseprincipe in de weg. Dat staat los van de techniek.’

Ook bedrijven verzamelen veel data. Zijn zij wel geneigd om mee te doen?

‘Natuurlijk willen bedrijven sommige data voor zichzelf houden uit commercieel oogpunt, maar andere data delen zij graag. Wij werken samen met bedrijven in publiek-private onderzoeksprojecten. Daarbinnen moet je alles delen. Als bedrijven toch iets geheim willen houden en wel gebruikmaken van de data van andere partners, dan kan dat, maar daar betalen ze wel voor. Ik merk dat bedrijven sneller de voordelen van FAIR-data zien. Zij maken een rekensommetje welke manier van werken het meest oplevert. Bovendien worden ze niet tegengehouden door h-factoren. Mijn voorspelling is dat de farmaceutische industrie en andere data-intensieve sectoren de academie voor zullen zijn en de European Open Science Cloud naar eigen inzicht vorm zullen geven en als eerste de principes echt omarmen.’

CV Barend Mons

2018-heden: president CODATA
2017-heden: wetenschappelijk directeur GO FAIR International Support and Coordination Office
2015-2017: voorzitter High Level Expert Group voor de European Open Science Cloud
2013-heden: hoogleraar Leids Universitair Medisch Centrum
2011-2017: Nederlands vertegenwoordiger ELIXIR, Europese infrastructuur voor big data in levenswetenschappen
2009-2016: wetenschappelijk directeur NBIC