Hoe wetenschappers in de toekomst gegevens willen delen – Wikiwand
Geschreven door Christian J. Meyer
In experimenteerhal L05-03 van de Technische Universiteit van Darmstadt toont Grigorios Hatzissawidis een video die hij opnam met een hogesnelheidscamera: water stroomt rond de vorm van een draagvleugelboot, er ontstaan draaikolken en bellen. “De camera maakt tot 20.000 foto’s per seconde”, zegt de onderzoeksassistent – een voorbeeld van hoe data-intensief onderzoek kan zijn. Bij het Institute for Fluid Systems Technology willen Hatzisawidis en zijn collega’s deze stroom aan gegevens toegankelijker maken voor anderen.
Want onderzoeksdata kunnen niet alleen ten goede komen aan degenen die ze verzamelen. Anderen kunnen het gebruiken, vergelijken met hun resultaten en er zelfs jaren later nieuwe conclusies uit trekken. Gegevens van de hogesnelheidscamera kunnen bijvoorbeeld een kunstmatige intelligentie trainen die bellenvorming voorspelt. Hiermee analyseer je opnames van eenvoudige camera’s die op normale snelheid opnemen.
Deze verfijning van onderzoeksdata tot algemene kennis van de wetenschap is het idee achter de Nationale Research Data Infrastructuur (NFDI). Momenteel bouwen zo’n duizend onderzoekers uit verschillende disciplines aan dit netwerk.
“Het mag niet zomaar een flits in de pan zijn.”
York Sure-Vetter, directeur van de NFDI, beschrijft de situatie als volgt: “We worden overspoeld met gegevens, maar we kunnen ze niet vinden.” Er is een gebrek aan onderling verbonden datarooms voor de wetenschap, zegt hij, en daarmee bedoelt hij beschermde virtuele ruimtes die de uitwisseling van gegevens tussen disciplines vergemakkelijken. Als kunsthistorici bijvoorbeeld de ouderdom van een afbeelding willen weten op basis van de kleur, kunnen ze natuurwetenschappelijke gegevens vinden over de daar gebruikte pigmenten.
Sinds 2020 zijn deze datarooms ingericht, in eerste instantie binnen afzonderlijke domeinen, en zijn er 26 consortia gevormd. Ze zijn minder bezig met hardware dan met data en de efficiënte afhandeling ervan. Sure-Vetter zegt dat de gegevens een soort ID-tag krijgen. Naast het unieke identificatienummer is er de zogenaamde beschrijvende informatie. “Data hebben een context zonder welke een andere onderzoeker het niet kan begrijpen”, zegt Sure-Vetter. Vergelijkbaar met een Excel-kolom zonder kop. Metadata beschrijft deze context met aanvullende informatie, zoals het type en serienummer van het meettoestel, de onzekerheid van de gemeten waarden of het doel van de sociale enquête.
De realiteit is verre van dat. Labboeken zijn bijvoorbeeld vaak met de hand geschreven. Ze bevatten belangrijke informatie zonder welke de resultaten van het experiment niet begrepen kunnen worden. Voor chemici heeft het “NFDI4Chem”-consortium een elektronisch laboratoriumnotitieboekje ontwikkeld waarin experimentele gegevens worden aangevuld met commentaar, foto’s, diagrammen of monstersamenstelling.
Hoewel de voordelen duidelijk zijn, is het voor wetenschappers op dit moment niet aantrekkelijk om hun data te delen, waardoor ze deze hier nauwelijks op voorbereiden. De reputatie van een onderzoeker hangt vooral af van publicaties in klassieke vaktijdschriften. Onderzoekers leren ook hun gegevens kennen en noemen het vaak ‘hun eigen gedachten’ of ‘hart en ziel’, zei socioloog Eva Barlusius van de Universiteit van Hannover op een NFDI-conferentie in april. Dit voorkomt ook de wens om gegevens te delen.
Sure-Fitter noemt de bereidheid om dit te doen “de grootste hindernis”. Het moet de cultuur veranderen. Daarbij hoort ook dat een gezamenlijke dataset net zo bijdraagt aan de reputatie van een onderzoeker als een traditionele vakpublicatie.
Maar ook gegevensbeveiliging, gegevensbescherming, licentie- en auteursrechtaspecten zijn essentieel, zodat onderzoekers vertrouwen kunnen krijgen in de nieuwe infrastructuur, benadrukt Kanan Hasek, onderzoeksdata-expert aan de TU Darmstadt. “Het principe van zoekvrijheid vereist dat niemand met een commercieel belang bij de data kan”, zegt de datamanager, die betrokken is bij twee NFDI-consortia. Hastick legt uit dat persoonlijke gegevens, bijvoorbeeld uit sociaalwetenschappelijke enquêtes, alleen beschikbaar zullen zijn via “geavanceerde toegangsmodellen” die rekening houden met anonimiteit en andere richtlijnen voor gegevensbescherming.
Sure-Vetter benadrukt dat het ook belangrijk is om onderzoekers de digitale vaardigheden aan te reiken om onderzoeksdata vindbaar te maken. Bij TU Darmstadt beginnen ze met bacheloropleidingen. In de Digitaliseringstraining bouwen leerlingen een 3D digitaal model van een Lego-auto. Elk digitaal onderdeel is verrijkt met data: wat kost het, hoeveel weegt het, welke kleur heeft het? “Studenten leren hoe ze meerwaarde kunnen genereren door deze data met elkaar in verband te brengen”, legt onderzoeksassistent Philip Wittrich uit. Bijvoorbeeld hoe je een voertuig in elkaar zet dat zo licht en goedkoop mogelijk is.
Maar de culturele verandering is ingrijpend en zal niet binnen een paar jaar plaatsvinden. Dit kan een probleem worden voor NFDI. Omdat de federale en deelstaatregeringen het project aanvankelijk slechts tot 2028 financieren. Onderzoekers die de infrastructuur bouwen, maken zich zorgen over de voortzetting. “De allianties hebben in de eerste drie jaar enorm veel ontwikkelingswerk verricht”, zegt Sure-Vetter. “Het mag niet zomaar een flits in de pan zijn.”
“Analist. Schepper. Zombiefanaat. Fervente reisjunkie. Popcultuurexpert. Alcoholfan.”