Nee, die data zijn niet van jou

Data zijn het nieuwe goud. Veel bedrijven verdienen hun geld louter door het verkopen van data. Daar kunnen we vanalles van vinden, maar in ieder geval bekostigt het bedrijfsleven de dataverzameling zelf. In de wetenschap wordt dataverzameling grotendeels betaald uit belastingcenten – denk aan het elektronisch patiënten dossier – of door subsidieverstrekkers, vaak goede doelen. Uiteindelijk dus door ons allemaal. Prima toch, want daar worden nuttige dingen mee gedaan. Helemaal waar, maar helaas schermt menig wetenschapper dit nieuwe goud angstvallig goed af. Met deze post deel ik mijn zorgen en frustraties over deze praktijken, en stel ook een oplossing voor.

Frustratie
Een frustratie van menig onderzoeker is hetvolgende zinnetje, vaak in wetenschappelijke artikelen vermeld: “Data are available upon request”. Dit betekent: “We willen de data helemaal niet delen, maar het tijdschrift eist een dergelijk statement. Als u de data echt wilt hebben, reageren we eerst twee maanden niet op uw e-mails. Daarna laten we u vijf formulieren invullen waar overal de handtekening van de hoogste baas op moet. Tenslotte, als we de data dan al met u delen, dan doen we dat in een zodanig format dat het u nog minimaal een maand kost om deze te ontcijferen.” Tja, laat dan maar. Hieronder prik ik drie veelgenoemde smoezen om data niet te delen door.

Smoes 1: “Maar dan word ik gescoopt.”
Wetenschappers zijn vaak bang dat anderen eerder interessante informatie uit hun data weten te vissen dan zijzelf. Ja, so what? We zijn toch geen boulevardpers? Veel wetenschappers zijn echt vergeten waar het om draait in de wetenschap: het vergaren en delen van kennis. Als je de data hebt verzameld en de ideeën ook, heb je een enorme voorsprong op de rest van de wereld. Die voorsprong mag je uiteraard uitbuiten. Als je dat niet lukt, dan is het waarschijnlijk beter dat de rest van de wereld misschien wel iets waardevols met de data doet.

Smoes 2: “Ik doe al het werk, en de ander gaat ermee vandoor”
A. Je wordt ervoor betaald. Dat is een heel valide reden om werk te doen, maar dat lijken wetenschappers soms te vergeten.
B. Als je het slim doet, leveren data een karrevracht aan citaties op, de ‘likes’ van de wetenschap.
C. Je vergeet dat een goede analyse van de data niet zelden net zoveel werk is als het genereren ervan.

Smoes 3: Privacy
Privacy is de grootste smoes die gebruikt wordt om data niet te delen. Oké, niet helemaal een smoes, want de Europese regels zijn behoorlijk strict op dit vlak. Maar voor 95 procent van de medische data is de identiteit van de persoon niet te achterhalen als deze verstandig is geanonimiseerd. Voor die andere 5procent zijn er trucjes om de traceerbaarheid te verhinderen. Maar ik begrijp wel dat niet alle data zo maar met Jan-en-alleman gedeeld kan worden. Geeft niet, ik wil best één formuliertje invullen waarmee men de legitimiteit van mij als onderzoeker kan verifiëren. En waarin ik verklaar de data slechts voor wetenschappelijk onderzoek te gebruiken. Als jij dan binnen één week accordeert, is dat helemaal prima. Twee sloten op de deur – anonimiseren en legitimeren – moet genoeg zijn, toch?

Scandinavische statistici
Delen leidt tot kennisvermeerdering leidt tot expertise. Zo simpel is het. Scandinavische statistici behoren al decennia lang tot de wereldtop als het gaat om survivalanalyse. Survivalanalyse beoogt overleving (of juist dood) van mensen te voorspellen en te verklaren met behulp gegevens van die mensen. Je kunt hierbij denken aan leeftijd, geslacht en, in een medische setting, ernst van de ziekte. Waarom zijn die Scandinaviërs zo goed in survivalanalyse? Vanwege hun lange traditie om overlevingsdata zeer nauwgezet te registreren. Interessant voor verzekeraars, dat ook, maar daarnaast gingen ook de statistici ermee aan de haal om zo een enorme impuls te geven aan de methodieken om dit soort lastige data te analyseren. En tot op de dag van vandaag willen wetenschappers vanuit de hele wereld samenwerken met hen.

Oplossing
De oplossing ligt, zoals meestal, bij diegene met macht: de subsidieverstrekker. Als, zeg, KWF een subsidie verstrekt aan een kankeronderzoeker lijkt het me eenvoudig daar een voorwaarde aan te verbinden. Prima, u krijgt het geld, maar na die-en-die datum wordt de data ook beschikbaar voor andere onderzoekers in Nederland. En bij publicatie ook voor de rest van de wereld, en wel in een FAIR1 format. Als subsidieverstrekker bereik je daarmee veel meer voor je goede doel dan wanneer je die ene wetenschapper ondersteunt wiens idee misschien wel niet werkt. Data is het nieuwe goud, maar laten we er met zijn allen voor zorgen dat dit goud ook echt waardevol wordt.

1FAIR = Findable, Accessible, Interoperable, Reusable
2Figuur: wannapik.com & pixabay.com

Eén opmerking over 'Nee, die data zijn niet van jou'

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

%d bloggers liken dit: