FOS 55 Das BERD Data Portal
LINKS UND HINTERGRÜNDE:
The Future is Open Science – Folge 55: Das BERD Data Portal
Dr. Doreen Siegfried
Leitung Marketing und Public Relations, ZBW – Leibniz-Informationszentrum Wirtschaft
Janne Jensen
Softwarearchitekt und -entwickler für Forschungsdateninfrastrukturen, ZBW – Leibniz-Informationszentrum Wirtschaft
[00:00:00] Intro
[00:00:03] Janne Jensen:
Also wir brauchen Systeme, die es ermöglichen, dass wir Forschungsdaten miteinander vernetzen. Wir brauchen Systeme, die es ermöglichen, dass wir Forschungsdaten einen persistenten Identifier hinzufügen. Wir brauchen auch Systeme, die die Registrierung von persistenten Identifiern möglich machen usw. usw. Also und das ist glaube ich zentral.
[00:00:23] Janne Jensen:
Das kann ich jetzt dir hier auch eigentlich gut hier erzählen. Wir haben jetzt eben seit gerade mal knapp drei Wochen die Möglichkeit, dass Forschende tatsächlich auch bei uns eine produktive DOI registrieren können. Und insofern… Eine Herausforderung, die wir lange hatten, dass wir so ein gewisses Henne-Ei-Problem hatten, in der Adoption unseres Systems, eigentlich auflösen konnten.
[00:00:48] Janne Jensen:
Wenn wir es schaffen, dieses Web of FAIR Data zu bauen, dass ich als Forschende vielleicht, dem Vertrauen, dass ich diesen Ressourcen und Datensätzen und Papern entgegenbringe, auf eine ganz andere Weise hinterfragen und überprüfen kann. Weil die Verknüpfungen qualifiziert sind. Also weil ich weiß, dieser Datensatz basiert auf einem anderen Datensatz, beispielsweise, oder die Provenienz der Datengenerierung und Prozessierung transparent ist und das ganz andere Möglichkeiten der Replizierbarkeit beispielsweise auch schafft.
[00:01:32] Doreen Siegfried:
Hallo und herzlich willkommen zu einer neuen Folge von „The Future is Open Science“, dem Podcast der ZBW. Mein Name ist Doreen Siegfried und ich treffe mich hier mit ganz unterschiedlichen Leuten aus dem Wissenschaftsbetrieb, die Ihnen verraten, wie sie in ihrer täglichen Arbeit Open Science voranbringen. Heute sprechen wir über ein Thema, das auf den ersten Blick vielleicht etwas technisch klingt, aber für die Wissenschaft und auch für die Gesellschaft eine große Bedeutung hat. Es geht um Forschungsdateninfrastrukturen. Wir sprechen darüber, was die nationale Forschungsdateninfrastruktur ist, wie die Anbindung dieser nationalen Lösung an die European Open Science Cloud funktioniert und was Forschende, insbesondere in der Wirtschaftswissenschaft, letztlich davon haben. Und dazu eingeladen habe ich mir heute einen Softwareentwickler, der sich sehr gut mit dem Thema auskennt. Janne Jensen arbeitet im BERD Data Portal, einem Projekt innerhalb der NFDI, also der Nationalen Forschungsdateninfrastruktur. Herzlich willkommen, Janne.
[00:02:38] Janne Jensen:
Hallo Doreen. Danke für die Einladung.
[00:02:42] Doreen Siegfried:
Sehr gern. Vielleicht stellst Du Dich einmal ganz kurz vor. Was ist so Dein Hintergrund und wie bist Du zu diesem Projekt gekommen?
[00:02:52] Janne Jensen:
Ja. Also ich komme eigentlich ursprünglich aus einem ganz anderen Bereich. In meinem ersten Leben habe ich Kulturwissenschaften studiert und bin dann über eine kurze Station im Museum im Sammlungsmanagement so ein bisschen an das Thema Metadaten geraten und habe da eigentlich das Interesse… Da wurde das Interesse geweckt. Und das habe ich vertieft, jetzt in den letzten drei Jahren ganz viel, vor allem durch einen berufsbegleitenden Masterstudiengang an der FH Potsdam und der HU Berlin „Digitales Datenmanagement“. Und habe dann ein Jahr an der Hochschule Bremen im FDM, also im Forschungsdatenmanagement, gearbeitet und bin jetzt seit fast anderthalb Jahren an der ZBW in dem BERD-Projekt. Genau. Und die Programmiertätigkeit das war eigentlich lange Zeit etwas, was ich neben der Arbeit oder in Projekten gemacht habe. Genau. Aber da kam dann vieles sehr passend zusammen für mich und darum bin ich sehr froh heute.
[00:03:52] Doreen Siegfried:
Ja, sehr schön. Du bist, ich habe dich anmoderiert, Du bist Softwareentwickler im BERD Data Portal. Was genau machst Du da? Vielleicht kannst Du das mal kurz für unsere Zuhörer:innen erklären?
[00:04:01] Janne Jensen:
Ja. Also das BERD Data Portal ist… Eigentlich sollte man besser sagen, der fachliche Begriff wäre jetzt, das ist ein Forschungsdatenrepositorium. Also ein Ort, in dem Forschende ihre Forschungsdaten ablegen können, natürlich auch Forschungsdaten anderer Forschenden finden können. Und was wir… Wir entwickeln das als Team hier an der ZBW mit drei bis vier Leuten. Genau. Und das umfasst dann praktisch also die Entwicklung oder die Analyse, die Erhebung von Anforderungen, die Konzeption von neuen Features, aber auch die Implementierung und das Deployment und den ganzen Betrieb. Also im Grunde ein breites… großen Blumenstrauß, kann man sagen, an Tätigkeiten, die das dann umfasst. Ja.
[00:04:46] Doreen Siegfried:
Ja okay. Für alle, die jetzt mit diesem Kürzel NFDI oder mit dem Begriff Nationale Forschungsdateninfrastruktur vielleicht noch nicht so viel anfangen können: Was genau ist das BERD Data Portal oder das Repository? Also, was genau ist das und wie ist es letztlich in diese NFDI eingebettet? Vielleicht kannst Du das noch mal erklären.
[00:05:09] Janne Jensen:
Ja, also die NFDI ist ja erstmal so der Versuch auf nationaler Ebene in Deutschland eine Forschungsdateninfrastruktur zu schaffen, die mehr oder weniger bottom up sich entwickeln soll. Das heißt, wir haben 27 Konsortien, die alle fachspezifisch sind. Und wir haben in BERD eben den Auftrag, besonders für Business Economics and Related Data, daher das RD in BERD, solcherlei Services, also ein Forschungsdatenrepositorium, aber auch andere Services. Wir haben eine BERD-Akademie zum Beispiel, wo Training und Schulung stattfinden, um dann junge Forschende insbesondere, natürlich auch fit zu machen für die Arbeit mit Daten. Genau. Und da sind wir jetzt als BERD natürlich erstmal nur ein Teil von vielen Konsortien. Die große Vision am Ende ist natürlich aber daraus auch “one NFDI“ zu machen, also diese verschiedenen Konsortien zusammenzuführen und auch auf Dauer zu stellen.
[00:06:11] Doreen Siegfried:
Ja, ja, okay. Du hast jetzt gesagt, okay, es geht um Economics, Business Research und das BERD Data Portal ist so eine Art Archiv für Forschungsdaten aus diesem Bereich. Also welche Art von Daten findet man denn da im Speziellen?
[00:06:30] Janne Jensen:
Ja, das ist so. Also es gibt im Grunde unter den Konsortien der NFDI zwei Konsortien, die sich um… also die sich mit um die Belange von Wirtschaftswissenschaften kümmern. Da ist zum einen die NFDI4Society, früher KonsortSWD, und auf der anderen Seite eben BERD@NFDI. Und was uns auszeichnet, ist, dass wir sagen, wir kümmern uns vornehmlich um unstrukturierte Daten. Also Daten, die viel Text enthalten, beispielsweise Sammlungen aus Social Media, von Social-Media-Posts. Das heißt, genau, eben unstrukturierte Daten. Das ist im Grunde das Alleinstellungsmerkmal, was wir mit BERD in diesen Konsortien und insbesondere dann im Hinblick auf die Wirtschaftswissenschaften haben.
[00:07:20] Doreen Siegfried:
Und sind das große Datenmengen, die da drin sind, oder sind das irgendwie spezielle kuratierte Formate? Kannst Du das noch vielleicht ein bisschen erläutern?
[00:07:29] Janne Jensen:
Genau. Wir haben zwei Sammlungen in diesem Repository. Das eine nennen wir Open Big Data oder Open Big Datasets. Das ist im Grunde eine präkuratierte Sammlung an Forschungsdaten, die out there in anderen Systemen auch vorhanden sind. Die werden bei uns indiziert und sind dann für die spezifische Community, die wir hier im Blick haben, an einer Stelle einsehbar und findbar. Und die Frage, ob das dann, also was dann wirklich Big Data ist, dass… Da haben Leute sehr unterschiedliche Meinungen zu.
[00:08:02] Doreen Siegfried:
Wo Big anfängt. [lacht] Ja.
[00:08:04] Janne Jensen:
Ja, ja, genau. Und auf der anderen Seite sind es eben aber auch Einreichungen, die dann von Forschenden selbst kommen. Das ist ganz wichtig. Also Forschende können eben auch zu uns kommen und ihre Forschungsdaten, die in ihren Projekten angefallen sind, die sie erstellt haben, mit denen sie gearbeitet haben, bei uns ablegen und registrieren und bekommen dann dafür eine DOI. Also so einen Identifier, den sie dann beispielsweise in Ihrem Paper verlinken können oder beim Publisher mit angeben können.
[00:08:32] Doreen Siegfried:
Wenn wir jetzt mal gucken, ist das… Diese Datensammlung, die da jetzt schon drin ist, also das, was Du jetzt gerade Open Big Data genannt hast. Für wen ist es gedacht? Ist es nur für einzelne Forschende für Projekte oder ist das für Universitäten für Projekte? Oder können Lehrende das auch nutzen? Also wer kommt da ran an die Sachen?
[00:08:58] Janne Jensen:
Ja. Ja, Du hattest ja gesagt, das ist so ähnlich wie ein Archivsystem. Und das ist vielleicht ein entscheidender Unterschied eigentlich an so einem Repository. Dass die Daten, die bei uns dann liegen, in der Regel, so das möglich ist, dann auch frei verfügbar sind. Also die allermeisten sind frei lizenziert und auch das System auf infrastruktureller Seite ist so gebaut, dass Nutzende da rankommen. Insofern steht das prinzipiell erstmal allen offen. Und das umfasst dann eben auch natürlich auch Lehrende, die für ihr Seminar was weiß ich… Also gerade diese Open-Dataset-Sammlung beispielsweise ist, glaube ich, sehr gut dazu geeignet, auch einfach Inspiration zu finden oder vielleicht Forschungsdatensets zu finden, die man vielleicht in einem Seminarkontext, beispielsweise, auch einfach mal… an denen man mal explorieren kann, was denn so geht.
[00:09:47] Doreen Siegfried:
Ja, okay. Nun haben wir ja… sind ja… ich sag mal so, sind ja jetzt Endnutzer:innen verwöhnt, wenn es so um Usability geht. Und das ist ja letztlich auch so ein bisschen Deine Kernaufgabe, wenn ich es verstanden habe, tatsächlich die Infrastruktur so zu bauen, dass es irgendwie auch Spaß macht. Auch gerade vielleicht für Leute, die jetzt nicht jeden Tag Daten suchen. Welche Rückmeldungen hast Du denn so bislang von Nutzenden bekommen? Auch so bei der Entwicklung?
[00:10:19] Janne Jensen:
Ja. Ja, wir haben uns tatsächlich im letzten Jahr jetzt ganz viel auch mit dem Thema Usability beschäftigt, haben da so eine kleine Usabilitystudie gemacht. Also das läuft dann so ab, dass wir Forschende oder allgemein Nutzer/Nutzer:innen einladen für so Speak-out-loud Sessions. Dann bekommen sie eine kleine Aufgabe an diesem System, dass wir beispielsweise sagen, „Finde einen Datensatz zu einem bestimmten Thema“ oder so kleine Aufgaben, die sich sozusagen in kurzer Zeit dann auch lösen lassen. Und dann sind die Nutzenden gefragt, einfach in dieser Session live zu berichten, was sie da tun und uns als Beobachtenden die Rückmeldung zu geben, wie sie das tun und warum sie bestimmte Entscheidungen treffen. Und das ist total wertvolles Feedback und das ist auch in der Regel sehr positiv. Da kommen natürlich auch Hinweise, die wir dann einbauen können. Aber auch das ist natürlich unglaublich wichtig. Also wir als Softwareentwickler:innen leben am Ende auch davon, dass wir oder andere uns Tickets oder Issues schreiben. Von daher… Und das ist dann toll, wenn wir diese Usability Studies machen und dann kommt da tatsächlich sozusagen actionable auch was raus. Also die Dinge, die man unmittelbar umsetzen kann, das ist sehr dankbar. Und genau, im Großen und Ganzen ist, sofern die Leute bei uns landen, ist das Feedback dann eigentlich sehr positiv. Also ich glaube, das ist auch… wir setzen da auf einer Software auf, die heißt InvenioRDM, die liefert ganz viel mit an… Also da haben sich auch viele andere Leute im Vorhinein schon viele Gedanken gemacht zur Usability. Von daher ist das eigentlich recht dankbar. Gleichzeitig ist es natürlich, bleibt es eine Herausforderung. Wenn Forschende ihre Forschungsdaten beispielsweise einstellen, dann sind sie zwangsläufig konfrontiert mit einem Formular, in dem sie ihre Forschungsdaten dann möglichst detailliert beschreiben sollen. Letztlich aus dem Grund, weil sie die einzigen Träger dieser Kontextinformationen sind zu dem Datensatz, den sie da gerade einstellen. Das ist vielleicht ein entscheidender Unterschied auch zu anderen Systemen, also zu einem Katalogsystem, wo es jetzt in der Bibliothek beispielsweise dann Fachleute gibt, die diese Metadatenpflege übernehmen usw. Oder die Beschreibung der Einträge. Das ist eine besondere Herausforderung, glaube ich, in dem, was wir da tun, weil wir da sehr nah dran sind und unmittelbar abhängig davon, was dann auch von den Forschenden kommt. Das beeinflusst natürlich im Umkehrschluss dann auch die Datenqualität oder die Metadatenqualität mindestens von dem, was im Repository landet. Es gibt auf der anderen Seite – jetzt sind wir schon ein bisschen weiter weg vom Usability Thema – es gibt dann aber auch noch einen Kurationsschritt. Also jeder Forschungsdatensatz, der bei uns veröffentlicht wird, der wird zumindest auf die Vollständigkeit und die, sozusagen, die Qualität der Metadaten geprüft.
[00:13:15] Doreen Siegfried:
Ja, okay. Aber wenn wir noch mal zurückgehen. Du hattest ja gesagt, auch Lehrende können das nutzen. Also wenn ich jetzt tatsächlich jetzt kein Experte bin für Metadatenerstellung, kann ich tatsächlich, wenn ich für mein Seminar mal so einen Datensatz brauche, um vielleicht Replikationsübungen zu machen, komme ich da sozusagen voran in dem BERD Data Portal?
[00:13:41] Janne Jensen:
Das hoffe ich sehr. Ja, so ist es gedacht. Ja, ja.
[00:13:44] Doreen Siegfried:
[lacht] Okay. Soweit der Plan. Vielleicht kleiner Exkurs an unsere Zuhörerinnen. Sollten Sie begeistert sein, melden Sie sich. Sollten Sie irgendwie noch einen Wunsch haben, bitte auch melden, dann kann das noch mal angepasst werden.
[00:13:55] Janne Jensen:
Unbedingt.
[00:13:56] Doreen Siegfried:
Sehr schön. Ein Teil Deiner Arbeit besteht ja auch darin, dieses BERD Data Portal an der European Open Science Cloud anzubinden. Also wir haben hier in diesem Podcast schon oft über die European Open Science Cloud gesprochen. Aber vielleicht noch mal so zum Refresh. Kannst Du ganz kurz sagen, was die EOSC ist und was das dann letztlich auch bedeutet, so eine technische Anbindung in der Praxis?
[00:14:27] Janne Jensen:
Ja, also die EOSC steht erstmal für European Open Science Cloud. Das heißt dann in der Praxis, es soll eine so eine Art Föderation entstehen an Daten und Datendiensten auf europäischer Ebene. Und da ist jetzt in den letzten Monaten mit dem EOSC EU Node so ein Pilotknoten an den Start gegangen und wir sind jetzt konkret mit BERD und auch mit anderen Partnern innerhalb der NFDI dabei, einen weiteren Knoten hinzuzufügen und das sozusagen auch technisch zu integrieren. Ganz praktisch in dem Teil, den wir da bearbeiten, bedeutet das, dass wir die Records, die Ressourcen, die bei uns im Repository liegen, in diesem aggregierenden Meta Knowledge Graph, der dann einer EOSC-Suche vorangestellt ist… Also man muss sich vorstellen EOSC, die EOSC oder dieser EOSC-Knoten bietet dann so einen Suchschlitz an, wo dann global alle oder europäisch, aber sozusagen auf höchster Ebene, die verschiedenen Ressourcen aus dezentral verteilten Repositories und anderen Services verfügbar und auffindbar sind. Und um das möglich zu machen, gibt es zwischengeschaltete Services. In dem konkreten Fall jetzt läuft das Ganze über OpenAIRE. Also, OpenAIRE ist ein Service, der unter anderem so ein Meta Knowledge Graph entwickelt und pflegt. Und das bedeutet dann für uns konkret, dass wir unsere und die Records, die bei uns im System liegen, so aufbereiten, aber auch die Schnittstellen entsprechend entwickeln oder konfigurieren, dass dann OpenAIRE diese, wir sagen dann „harvesten“, also das OpenAIRE dann zu uns kommen kann und sagt: „Wir möchten gerne diese bestimmte Sammlung an Datasets, die es bei Euch gibt, haben und bei uns in diesen Meta Knowledge Graph aufnehmen“, sodass sie dann am Ende auch in der EOSC-Suche zur Verfügung stehen.
[00:16:16] Doreen Siegfried:
Und gibt es da besondere Herausforderungen? Bei diesem, ich sag mal, ran flanschen von dem BERD Data Portal in die European Open Science Cloud?
[00:16:28] Janne Jensen:
Also natürlich gibt es immer praktische Herausforderungen, was die Zeitlichkeit angeht, dass es einen Haufen Abhängigkeiten gibt und Kaskaden von Dingen, die nacheinander oder miteinander gleichzeitig ineinandergreifen müssen. Manchmal haben wir zu viel, manchmal zu wenig Dokumentation. Solche Dinge gibt es natürlich. Und das dahinter… Also das interessantere Problem, sage ich mal, ist aber eigentlich, dass wir immer, wenn wir von den dezentral verteilten Systemen abstrahieren, also unsere Daten dann einspeisen in diesen darüberliegenden oder auf einer Ebene höher liegenden aggregierenden Knowledge Graph, dass es immer natürlich so ein bisschen zu Reibungsverlusten kommt, was die Information anbetrifft. Das ist jetzt in dem konkreten Fall relativ gering. Also, Du musst dir vorstellen, wir haben… wir können sozusagen in den dezentralen Systemen höhere oder bessere Metadaten Richness – also mehr Expressivität, sag ich mal, in der Beschreibung unserer Datensätze anbieten, als das auf den höher liegenden Ebenen faktischerweise möglich ist. Und das ist natürlich was, was… Das ist einfach eine Challenge, die uns begleiten wird. Also das ist jetzt… das läuft jetzt in der Integration mit EOSC ziemlich gut. Da haben wir eine relativ hohe Übereinstimmung, was das Schema angeht, da wird das glatt gehen. Aber das ist sozusagen ein grundsätzliches Problem.
[00:17:51] Doreen Siegfried:
Ja.
[00:17:52] Janne Jensen:
Und das wird es auch noch… Genau. Ja.
[00:17:55] Doreen Siegfried:
Jetzt gehört ja das BERD Data Portal oder BERD generell als Konsortium zur gesamten NFDI. Warum ist es denn jetzt wichtig, dass gerade dieses BERD Data Portal Teil der EOSC wird?
[00:18:10] Janne Jensen:
Gut, ich meine, das bedeutet natürlich für diejenigen, die ihre Datensätze in BERD veröffentlichen, zunächst mal einfach Sichtbarkeit auch auf europäischer Ebene. Also das ist ja nun erstmal ein Projekt, ein Projekt unter vielen in dieser NFDI in Deutschland.
[00:18:28] Doreen Siegfried:
Ja.
[00:18:28] Janne Jensen:
Und wenn Du Dir vorstellst, eine Forschende aus Spanien, die wird erst recht von dem BERD Data Portal oder wird schlechte Chancen haben davon, von sich aus gehört zu haben. Wenn sie aber dann zur EOSC geht und dort sucht und unsere Daten eben auch da auffindbar sind, dann hat zum einen die Person aus Spanien etwas davon, weil sie Daten findet, die in anderen Systemen ihren Ursprung haben. Und auf der anderen Seite haben die Leute, die bei uns als Forschende ihre Daten einstellen, Sichtbarkeit gewonnen, auch über den Kontext von diesem einen Portal hinaus. Das ist natürlich ein ganz entscheidender Vorteil. Und auf der anderen Seite entstehen jetzt auch in der Anbindung ganz praktisch Kooperation zwischen verschiedenen Services, von denen dann am Ende hoffentlich alle profitieren.
[00:19:21] Doreen Siegfried:
Das heißt, wenn Du sagst, am Ende können da alle von profitieren… Also, gibt es da irgendwie so ein, ich sag mal, so einen Onboarding Prozess der einzelnen Konsortien oder seid Ihr jetzt die ersten, die da jetzt Euch an die EOSC… also die jetzt in die EOSC reingehen? Oder hast Du Kooperationen mit anderen NFDI-Konsortien. Wie muss ich mir das vorstellen?
[00:19:48] Janne Jensen:
Ja, in dem konkreten Fall jetzt ist es so, dass wir das mit unserem BERD Portal für einen bestimmten Anwendungsfall, also die Anbindung von auf InvenioRDM basierten Forschungsdatenrepositorien an diesen EOSC-Datenraum pilotieren für die NFDI.
[00:20:08] Doreen Siegfried:
Ah, okay.
[00:20:09] Janne Jensen:
Und… Genau. Das ist, das ist superspannend. Und was wir dann eben tun, ist, dass wir im Grunde so eine Art Blaupause erstellen.
[00:20:16] Doreen Siegfried:
Ja.
[00:20:16] Janne Jensen:
Die dann hoffentlich eben auch für weitere folgende Repositorien von Hilfe ist oder eine Hilfe ist.
[00:20:25] Doreen Siegfried:
Okay. Das heißt, Du bist sozusagen der erste in dieser Reihe der Softwareentwickler, der sich jetzt da quasi mit der Machete durch den Dschungel schlägt und dann den anderen den Weg frei macht und sagt: „Okay, hier geht Ihr besser mal lang und hier geht Ihr vielleicht besser mal nicht lang. Das hat bei mir nicht funktioniert.“ Also, so kann ich mir das vorstellen, wenn Du sagst, Ihr seid Pilot.
[00:20:46] Janne Jensen:
Ja, das hast Du jetzt so gesagt.
[00:20:48] Doreen Siegfried:
[lacht]
[00:20:49] Janne Jensen:
Es ist natürlich immer so, dass das auch… Also, ich glaube, man muss da auch einigermaßen humble sein. Wir stehen da immer auf den Schultern, sage ich mal, von Riesen, wenn wir das tun, was wir tun. Also, von daher da jetzt irgendwelche… Ich würde da jetzt von mir aus keine großen Firsts sozusagen…
[00:21:07] Doreen Siegfried:
Du würdest…
[00:21:07] Janne Jensen:
…aufmachen wollen. Aber, ja klar, im Grunde kann man… Also es geht in die Richtung. Ja.
[00:21:13] Doreen Siegfried:
Ja, okay. Ja, cool. Wenn wir jetzt sozusagen mal ein bisschen die Flughöhe erhöhen und sagen, okay, Open Science ist ja letztlich für den ganzen Wissenschaftsbetrieb ein essentielles Thema. Du bist Softwareentwickler in diesem Kontext. Was bedeutet Open Science für Dich konkret im Alltag als Entwickler?
[00:21:34] Janne Jensen:
Ja. Also, ich denke, zum einen ist das etwas… Ich glaube, Open Science ist etwas, wo wir auch als Softwareentwickler erstmal auf der Werteseite viel von teilen. Also es gibt eine breite Basis und ein gutes Selbstverständnis für die Wichtigkeit und die Bedeutung von Open Source Software, beispielsweise, dass wir das einsetzen, dass wir aber auch daran mitwirken. Solche Dinge. Das ist ein Thema. Ein bisschen breiter gefasst kann man vielleicht auch sagen, dass jetzt im Fahrwasser von Open Science sicher auch das Selbstverständnis sich ändert für solche Tätigkeiten. Also, dass ich als Softwareentwickler, aber auch meine Kollegen und Kolleginnen als Softwareentwickler, in diesem Wissenschaftsbetrieb vielleicht in gewisser Weise sozusagen andere Wertschätzung erfahren. Oder eine andere, auch ein anderes Selbstverständnis sich entwickelt, dass das eben ein sozusagen dezidierter Beitrag dann auch ist zum Wissenschaftsbetrieb. Das ist das eine. Und auf der anderen Seite, ja, wie gesagt, also ist das sozusagen das Motto Open Science natürlich, aber auch irgendwo Motivator, denke ich.
[00:22:48] Doreen Siegfried:
Ja. Ja.
[00:22:48] Janne Jensen:
Also, für viele, die in diesem Bereich unterwegs sind. Weil es natürlich als… Man kann als Softwareentwickler auch in anderen Tätigkeiten oder in anderen Feldern unterwegs sein, die einem auf der Werteseite vielleicht weniger wohlgesonnen sind oder einem weniger zurückgeben, sage ich mal.
[00:23:09] Doreen Siegfried:
Ja, verstehe. Ja, okay. Sehr schön. Was mich noch interessiert, welche Rolle spielen denn eigentlich hier diese FAIR- Prinzipien? Also findable, accessible, interoperable, reusable in Eurer Arbeit als Softwareentwickler? Ist es wichtig? Und wenn ja, wie spielt es da rein?
[00:23:29] Janne Jensen:
Ja, wir haben ja am Anfang schon ein bisschen geredet über die Anforderungen, die wir von Userseite bekommen, und die Rolle oder die Wichtigkeit, die das auch hat, dass wir uns um Usability kümmern. Und FAIR ist vielleicht etwas, was womöglich mittlerweile auch viele schon mal gehört haben. Aber was vielleicht ein Stück weit weiter weg ist von den Anforderungen, die jetzt unmittelbar von Nutzenden kämen. Sondern FAIR ist im Grunde für uns immer wieder auch die Erinnerung an diese, an die infrastrukturelle Basis, auf der wir diese Systeme bauen. Also wenn wir ein, jetzt im Sinne der NFDI aber auch im Sinne der EOSC und auch noch allgemeiner, daran interessiert sind, dass wir ein Netz an oder ein Web of FAIR Data bauen, dann sind diese Prinzipien immer wieder die Basis für das, was wir da tun. Also, viele denken, okay, ich soll meinen Datensatz jetzt FAIR aufbereiten. Und was heißt das eigentlich? Und wenn wir dann damit zu tun haben, dann ist man eigentlich schnell dabei, auch den Leuten sagen zu müssen, dass Fairness ist ja nun kein genuines Property von einem Datensatz, sondern es braucht dazu eigentlich immer diese infrastrukturelle Komponente. Also, wir brauchen Systeme, die es ermöglichen, dass wir Forschungsdaten miteinander vernetzen. Wir brauchen Systeme, die es ermöglichen, dass wir Forschungsdaten einen persistenten Identifier hinzufügen. Wir brauchen auch Systeme, die die Registrierung von persistenten Identifiern möglich machen usw. usw. Also… und das ist glaube ich zentral. Und auf der anderen Seite natürlich auch, wenn es um die Infrastruktur geht, das Thema Maschinenlesbarkeit. Ja, das ist immer wieder wichtig, sich daran zu erinnern und von daher, ohne dass wir uns jetzt täglich diese FAIR-Prinzipien vorlesen, sage ich mal…
[00:25:30] Doreen Siegfried:
Ja.
[00:25:30] Janne Jensen:
… ist es dann doch irgendwo ziemlich zentral. Ja. Und es ist ja auf jeden Fall auch hilfreich, sich damit auseinanderzusetzen, dass ja… Auch wenn unsere tatsächliche Tätigkeit natürlich manchmal viel, viel konkreter ist, als sich jetzt mit relativ immer noch relativ abstrakten Prinzipien zu beschäftigen, so ist es dann doch immer wieder irgendwie der Rahmen.
[00:25:57] Doreen Siegfried:
Ja, okay, ja. Also ich verstehe, dass das so eine Art Leitstern ist, der letztlich so ein bisschen da drübersteht. Okay, wenn Du jetzt sozusagen… Du hast jetzt mit BERD zu tun, Du hast mit EOSC zutun, mit dieser ganzen Verknüpfung usw. Gibt es dann in diesem Kontext vielleicht schon irgendwelche Pilotprojekte oder erste Anwendungen, wo Du sagen würdest, das finde ich richtig superspannend?
[00:26:21] Janne Jensen:
Ja, ich hatte ja vorhin kurz erwähnt, was wir jetzt gerade konkret machen. Und da gibt es noch eine Sache mehr, die jetzt ganz jüngst eigentlich bei uns auf dem Tisch ist. Und dass… da geht es darum, dass wir ein Use Case… an einem Use Case arbeiten, der auch unmittelbar von Communityseite eingebracht wurde. Und das ist eigentlich dann auch oft so, dass wir auf der einen Seite von unserer Seite, die infrastrukturelle, die infrastrukturellen Anforderungen mitbringen und dafür Sorge tragen und dann auf der anderen Seite eben die die Anforderungen von Nutzenden und von Forschenden kommen. Und was wir da jetzt machen ist… Also, es geht in diesem konkreten Anwendungsfall dann darum, dass unstrukturierte Bebauungspläne aufbereitet werden sollen und eben annotiert werden sollen. Und dazu werden sie dann erstmal jetzt bei uns im BERD Repository veröffentlicht und dann gibt es einen externen Service Galaxy. Ich weiß nicht, ob wir Shownotes haben, Doreen?
[00:27:20] Doreen Siegfried:
Ja, wir haben Shownotes.
[00:27:21] Janne Jensen:
Sonst müssen wir es in die Shownotes tun.
[00:27:22] Doreen Siegfried:
Wir packen das in die Shownotes. Auf jeden Fall. [lacht]
[00:27:24] Janne Jensen:
Perfekt. Perfekt.
[00:27:26] Doreen Siegfried:
Also Galaxy. Ja, okay.
[00:27:28] Janne Jensen:
Genau. Galaxy. Und das ist dann. Das ist so eine Art Computerumgebung, wo dann Daten prozessiert und analysiert werden können und ich mir meine wissenschaftlichen Analyseworkflows zusammenbauen kann und dann von dort aus wieder auch veröffentlichen kann. Und in dem konkreten Fall machen wir das und das Ergebnis landet am Ende wieder bei BERD.
[00:27:47] Doreen Siegfried:
Und?
[00:27:48] Janne Jensen:
Also, wir haben dann auf der einen Seite einen unstrukturierten… Ja.
[00:27:50] Doreen Siegfried:
Entschuldigung, wenn ich unterbreche. Dieses Galaxy, das ist schon live. Also das kann man schon tatsächlich anwenden.
[00:27:57] Janne Jensen:
Ja, genau, das ist live. Da gibt es jetzt eine sehr populäre Instanz, die entwickeln die Kollegen in Freiburg und die ist live und auch… Ja. Genau. Mit denen machen wir das zusammen.
[00:28:09] Doreen Siegfried:
Okay. Wenn wir jetzt vielleicht ein bisschen in die Zukunft schauen. Bist du jetzt fertig mit dem BERD Data Portal oder gibt es noch irgendwie nächste Schritte, wo Du sagen würdest: „Das will ich noch unbedingt machen.“ bzw. „Das steht sowieso noch auf der Agenda.“ Also, wie geht es gerade voran?
[00:28:27] Janne Jensen:
Also es geht gut voran. Wir haben jetzt ganz entscheidende Schritte, auch gerade jüngst, erst gemacht. Genau. Das kann ich jetzt dir auch eigentlich gut hier erzählen. Wir haben jetzt eben seit gerade mal knapp drei Wochen die Möglichkeit, dass Forschende tatsächlich auch bei uns eine produktive DOI registrieren können. Und insofern wir eine Herausforderung, die wir lange hatten, dass wir so ein gewisses Henne-Ei-Problem hatten, in der Adoption unseres Systems, eigentlich auflösen konnten. Das ist das eine. Und was jetzt ansteht, ist zum einen, dass wir… Erstmal muss man sagen, das hört dann nicht auf. Also die Vorstellung, man baut das und stellt das hin und dann gehen wir alle nach Hause und dann ist das fertig…
[00:29:08] Doreen Siegfried:
[lacht]
[00:29:09] Janne Jensen:
… und niemand… Das ist leider nicht so, sondern es braucht einfach auch kontinuierlich Arbeit und Pflege und Weiterentwicklung. Das ist so. Das ist in diesem Bereich nicht anders möglich. Also, es kann irgendwie jeden Tag passieren, dass eine Abhängigkeit irgendwo zerbricht und dann ist man einen Tag beschäftigt mit etwas, was überhaupt nicht voraussehbar war, um deine Frage zu beantworten.
[00:29:27] Doreen Siegfried:
Ja. Okay. Aber ich habe es…
[00:29:29] Janne Jensen:
Was wir jetzt noch machen, ist, dass wir gerade ganz akut damit beschäftigt sind, eine neue Sign-In-Infrastruktur einzubinden. Also auch die NFDI, da gibt es so einen IAM4NFDI Base Service. Und in deren Inkubator-Projekt sind wir jetzt gerade involviert, um eben auch dafür zu sorgen, dass sich Nutzende dann in Zukunft mit mit den Accounts ihrer Homeorganisation einloggen können bei uns. Also bislang läuft das über ORCID allein und das ist jetzt hoffentlich ganz bald soweit, dass wir das dann auch in unser Produktivsystem aufnehmen können. Das ist zum Beispiel eine Sache, die jetzt gerade noch ansteht.
[00:30:10] Doreen Siegfried:
Okay. Du hast es jetzt so in so einem Nebensatz gesagt, aber wenn ich es jetzt richtig verstanden habe, Trommelwirbel, BERD hat jetzt ganz frisch die DOI-Vergabe fertig.
[00:30:23] Janne Jensen:
Ja, so ist es.
[00:30:24] Doreen Siegfried:
Ja, so ist es.
[00:30:25] Doreen Siegfried:
Sehr schön. Das ist doch supercool. Okay, wenn wir jetzt mal generell auf das große Thema Forschungsdateninfrastrukturen schauen, welche Entwicklung erwartest du so generell in diesem Bereich in den nächsten Jahren?
[00:30:40] Janne Jensen:
Also jetzt, wenn wir auf die NFDI gucken, dann wird natürlich in den kommenden Jahren da irgendwie eine ganze Menge an Konsolidierung stattfinden müssen. Das hat ja diese Strukturevaluation gegeben und die Ergebnisse wurden publiziert. Und da ist jetzt so ein bisschen absehbar, wie sich das entwickeln wird. Und das wird sicher spannend und herausfordernd. Sicher auch, daran mitzuwirken und das auch mit zu beobachten. Denn es geht am Ende darum, wie kriegen wir das hin, dass diese Services, die dann da jetzt in den letzten Jahren entstanden sind oder im Entstehen begriffen sind, auch auf Dauer zu stellen und dann den Forschenden tatsächlich auch dieses Versprechen einer Forschungsdateninfrastruktur vielleicht erfüllen zu können.
[00:31:23] Doreen Siegfried:
Okay. Aber das hört sich an, wie ein langes Nüsseknacken mit dieser Konsolidierung. Ja. Okay. Zum Schluss vielleicht noch eine Frage. Wenn jetzt Forschende jetzt aus dem Bereich Wirtschaftswissenschaft Dich fragen: Welche Chancen ergeben sich gerade vielleicht für junge Forschende, die schon heute tatsächlich mit solchen Infrastrukturen arbeiten?
[00:31:49] Janne Jensen:
Ja, also zum einen, da ist natürlich das Thema Vertrauen, Trust und das betrifft gar nicht mal nur die jungen Forschenden. Aber das ist natürlich das große Versprechen. Wenn wir es schaffen, dieses Web of FAIR Data zu bauen, dass ich als Forschende vielleicht, dem Vertrauen, dass ich diesen Ressourcen und Datensätzen und Papern entgegenbringe, auf eine ganz andere Weise hinterfragen und überprüfen kann. Weil die Verknüpfungen qualifiziert sind. Also weil ich weiß, dieser Datensatz basiert auf einem anderen Datensatz, beispielsweise, oder die Provenienz der Datengenerierung und Prozessierung transparent ist und das ganz andere Möglichkeiten der Replizierbarkeit beispielsweise auch schafft. Von daher würde ich sagen, das ist eine große Chance. Und wie gesagt, das betrifft nicht nur die jüngeren Forschenden. Ich glaube, was ich wahrnehme unter den jüngeren Forschenden ist, das ist da und das auch aus den Wirtschaftswissenschaften, dass dort zunehmend so ausgebildet wird, dass die jüngeren Forschenden mit Systemen, wie wir sie jetzt bereitstellen, auch umgehen können. Und das es da eine gewisse Kompetenz, aber auch Neugier, gibt beispielsweise dann das BERD Data Portal auch maschinell skriptbasiert anzusprechen. Also gar nicht mal in diesem intendierten Sinne unbedingt. Wir bauen diese Schnittstellen in erster Linie, damit die Maschine damit umgehen kann oder damit wir als Entwickler mit dem System arbeiten können. Aber wenn wir dann sehen, dass die Kompetenz auch auf Forschendenseite steigt, was sozusagen diese Superpowers angeht, mit denen man sich da ausstatten kann, dann ist das schon irgendwie schön zu sehen.
[00:33:38] Doreen Siegfried:
Ja, okay. Also das heißt, du hast ja gerade gesagt, durch diese Verknüpfung der unterschiedlichen Items, also durch diese semantischen Beziehungen könnte man da letztlich so ein bisschen als Überschrift drüber packen: „Finding the right data“ sozusagen.
[00:33:54] Janne Jensen:
Genau. Das ist natürlich ein großes Versprechen, was …
[00:33:57] Doreen Siegfried:
Ja.
[00:33:58] Janne Jensen:
…was, an dem in diesem Feld gearbeitet wird. Wenn wir es schaffen, die die Forschungsdaten so detailliert zu beschreiben, dass wir beispielsweise nach bestimmten Konzepten in diesen Systemen dann suchen können. Dann haben wir viel gewonnen. Ja.
[00:34:19] Doreen Siegfried:
Ja. Super. Ja, das ist doch ein schönes Schlusswort mit „Da haben wir viel gewonnen.“ Super! Vielen Dank, Janne für das Gespräch und die spannenden Einblicke. Und ich glaube, wir haben heute viel gelernt, dass sich letztlich so hinter Begriffen wie NFDI und EOSC usw. nicht nur Technik verbirgt und Superpower, sondern eben auch ein Versprechen. Nämlich dass Daten und Wissen am Ende des Tages besser zugänglich und besser nutzbar werden für die Wissenschaft, aber auch am Ende des Tages darüber hinaus.
[00:34:53] Janne Jensen:
Ja.
[00:34:54] Doreen Siegfried:
Also, vielen Dank Janne. Vielen Dank auch an Sie an den Kopfhörern. Ich hoffe, es hat Ihnen gefallen. Lassen Sie uns gerne Lob oder Kritik da, via E-Mail, Mastodon, YouTube oder LinkedIn und wir freuen uns natürlich auch, wenn Sie uns abonnieren. Und ich freue mich aufs nächste Mal.
