Folge 49: BERD@NFDI

The Future is Open Science – Folge 49: BERD@NFDI

Audio

Dr. Doreen Siegfried
Leitung Marketing und Public Relations, ZBW – Leibniz-Informationszentrum Wirtschaft

Veronica Haas
Referentin für Communication and Dissemination, Universitätsbibliothek Mannheim

[00:00:00] Intro

[00:00:02] Veronica Haas:
Also während viele Infrastrukturen primär auf akademische Forschung konzentriert sind, legt BERD Wert auf die Zusammenarbeit zwischen Wissenschaft und Wirtschaft. Ich denke, das ist ein Alleinstellungsmerkmal.

[00:00:19] Veronica Haas:
Die Entwicklung von KI, vor allem seit 2022 hilft immens bei der Extraktion und der Kategorisierung relevanter Informationen aus unstrukturierten Daten. Und vor allem die Entwicklung von LLMS, also Large Language Models, hat einen Paradigmenwechsel in der wirtschaftswissenschaftlichen Forschung ermöglicht.

[00:00:48] Veronica Haas:
Im Kontext zu LLMs hatten wir kurz Prognosemodelle und Sentiment Analysis angesprochen, also Forschungsfragen, die in Richtung Prognose von Markttrends, Insolvenzrisiken und Investitionsmöglichkeiten gehen. Diese Forschungsfragen können mithilfe von BERD einfacher bewältigt werden.

[00:01:14] Doreen Siegfried:
Hallo und herzlich willkommen zu einer neuen Folge von „The Future is Open Science“, dem Podcast der ZBW. Mein Name ist Doreen Siegfried und ich treffe mich hier mit ganz unterschiedlichen Leuten aus dem Wissenschaftsbetrieb, die Ihnen verraten, wie sie in ihrer täglichen Arbeit Open Science voranbringen. Heute sprechen wir über die Zukunft der Forschungsdateninfrastruktur in den Wirtschaftswissenschaften, insbesondere in der BWL. Unstrukturierte Daten, wie Texte, Bilder und Videos bieten neue Erkenntnismöglichkeiten, stellen Forschende aber auch vor große Herausforderungen. Und BERD@NFDI, wir erklären gleich, was es heißt, entwickelt seit 2022 eine Serviceplattform, die Datenmanagement, Analyse und Open Science vereint. Welche Fortschritte wurden gemacht? Welche neuen Services gibt es jetzt und wie verändert sich auch die Forschung dadurch? Dazu begrüßen wir die Kommunikationschefin, um diese Fragen zu beantworten, von BERD, die uns alle diese Fragen hoffentlich charmant beantwortet. Herzlich willkommen, Veronica Haas.

[00:02:26] Veronica Haas:
Hallo, auch von meiner Seite. Danke für die Einladung.

[00:02:30] Doreen Siegfried:
Veronica, wir fangen mal an mit der Frage, wie erklärst Du Forschenden, die noch gar nichts, oder vielleicht auch nur wenig, von der NFDI wissen, ─ vielleicht so im Vorbeigehen, im Fahrstuhl, beim Kaffee ─ was eigentlich BERD ist?

[00:02:48] Veronica Haas:
Da würde ich bei der NFDI anfangen. Das ist die Nationale Forschungsdateninfrastruktur. Das Ziel der NFDI ist es, Forschungsdaten langfristig verfügbar zu machen, miteinander verknüpft und nachhaltig nutzbar zu machen. Es handelt sich um einen gemeinnützigen Verein mit Sitz in Karlsruhe, der 2020 gegründet wurde und der gewisse Schirmfunktionen zur Koordination von insgesamt 27 Konsortien übernimmt. Jedes Konsortium deckt eine Wissenschaftsdisziplin ab. Und das Akronym BERD steht für Business Economics and Related Data. BERD versteht sich als Anlaufstelle für unstrukturierte Daten in den Wirtschafts- und Sozialwissenschaften. Das Projekt unterstützt Forschende mit Schulungen, Diensten und Tools, um Forschungsdaten effizient zu finden, zu analysieren und zu managen.

[00:03:43] Doreen Siegfried:
Dann seid Ihr bis dahin wahrscheinlich schon in den 27. Stock gefahren, wenn wir von einem Fahrstuhl ausgehen. Wie erklärst Du denn Leuten auf einer Party oder beim Spazierengehen, die jetzt nicht aus dem Universitätskontext kommen, das Wort Infrastruktur oder Infrastrukturdienstleister? Das ist ja ein ein bisschen sperriger Ausdruck.

[00:04:07] Veronica Haas:
[lacht] Ja, Infrastrukturdienstleister, das schafft auch nur die deutsche Sprache. Ein Infrastrukturdienstleister ist ein Anbieter, der wichtige Grundlagen zur Verfügung stellt, damit andere darauf aufbauen können. Also wichtige Grundlagen sind technisch oder organisatorisch. Also so stellt zum Beispiel unsere Universitätsbibliothek in Mannheim, wo BERD übrigens unter anderen Standorten als Forschungsprojekt ansässig ist, Bücher bereit, damit Studierende Wissen nutzen können. Für BERD im Spezifischen bedeutet das, dass wir zum Beispiel Datenportale und andere wichtige Dienste bereitstellen, damit Forschende effizient Daten managen und analysieren können.

[00:04:52] Doreen Siegfried:
Ja, okay. BERD ist jetzt 2022 mit dem Ziel an den Start gegangen, eine Forschungsdateninfrastruktur für wirtschaftsbezogene und unstrukturierte Daten zu schaffen, so wie Du es eingangs auch schon erklärt hast. Welche Meilensteine wurden jetzt in den letzten drei Jahren erreicht?

[00:05:14] Veronica Haas:
Da würde ich auf jeden Fall als erstes die BERD Academy nennen, weil es auch unser erster Service war. Die BERD Academy bietet praxisorientierte Kurse in unterschiedlichen Formaten, also online, hybrid vor Ort oder self paced an, die offen und kostenfrei für alle Interessenten sind. Das zentrale Thema ist Datenwissenschaft und Datenmanagement für Studierende und Fachleute. Also es werden unterschiedliche Erfahrungsniveaus angesprochen und besonders stark gefördert wird der dynamische, kollegiale Austausch. Dann ist da natürlich unser BERD Data Portal zu nennen, das letztes Jahr im März gelauncht wurde. Und das auf langfristige, reproduzierbare Datennutzung ausgelegt ist. Neben dem Data Portal wurden vor allem, ja vor allem letztes Jahr noch viele weitere Dienste, auf die wir im Laufe des Gesprächs bestimmt noch zu sprechen kommen, veröffentlicht. Sie werden auch alle auf unserer Webseite berd-nfdi.de gelistet und verlinkt oder implementiert. Außerdem würde ich noch die Kollaborationen mit anderen Konsortien nennen. Also die Vernetzung spielt in der NFDI die eine große Rolle. Und BERD engagiert sich aktiv in Konsortien übergreifenden Initiativen der NFDI, um Synergien zu schaffen, um gemeinsame Ziele voranzutreiben. Und so hat BERD also zum Beispiel die Arbeitsgruppe Industry Engagement mitbegründet, die den Dialog zwischen Wissenschaft und Industrie fördert. Ja, das auch 2023.

[00:06:56] Doreen Siegfried:
Ja, spannend.

[00:06:59] Doreen Siegfried:
Ja, okay. Du hast ja jetzt gesagt, BERD ist letztlich eine Struktur, Dateninfrastruktur für Wirtschaftsbeziehungen und unstrukturierte Daten. Wer ist denn genau die Zielgruppe von BERD und wie erreicht Ihr die?

[00:07:13] Veronica Haas:
Unsere Zielgruppe setzt sich aus zwei Hauptgruppen zusammen. Das sind zum einen forschungsgetriebene Wissenschaftler aus den Bereichen Betriebswirtschaft, Volkswirtschaft und verwandten Sozialwissenschaften. Verwandte Sozialwissenschaften sind Wirtschaftsinformatik, Wirtschaftsgeschichte, Soziologie, Wirtschaftspsychologie. Zum anderen besteht die Zielgruppe aus Praktikern, die in der Datenanalyse tätig sind, wie NLP- Spezialisten oder Data Scientists. Diese Übergänge zwischen akademischen Forschern und Datenpraktikern sind natürlich fließend und viele Akteure gehören in beide Kategorien. Die Unterscheidung hilft aber, verschiedene Bedürfnisse innerhalb der BERD-Community gezielt anzusprechen. Zum Beispiel durch akademische Publikationen für Forscher oder praxisnahe Trainings für Datenpraktiker. Und wie erreichen wir unsere Zielgruppe? Durch den Dialog mit Schlüsselakteuren, BERD arbeitet eng mit wissenschaftlichen Fachgesellschaften wie dem Verband der Hochschullehrer:innen für Betriebswirtschaft, dem VHB oder dem Verein für Sozialpolitik, VfS, zusammen. Diese Kooperationen tragen dazu bei, die spezifischen Bedürfnisse der Fachgemeinschaften zu adressieren und deren aktive Teilnahme in der Konsortialarbeit zu fördern. Außerdem erreichen wir die Zielgruppe durch Veranstaltungen. Also neben den Schulungen der BERD Academy haben wir letztes Jahr im Rahmen unserer Konferenz ein Young Researchers Kolloquium angeboten, wo junge Wissenschaftler ihre Projekte vorstellen konnten und von unseren Experten direktes Feedback bekommen haben. Solche Veranstaltungen ermöglichen natürlich den direkten Austausch mit der Zielgruppe und da veranstaltet BERD bzw. finanziert BERD ziemlich coole Sachen. Da wären noch alljährliche Veranstaltungen wie Women Data, Women in Data Science Munich, Data Science for Social Good Munich oder das DataFest zu nennen. Die letzten beiden sind Hackathons, die immer wieder wirklich beeindruckende Ergebnisse mit nachhaltiger Wirkung voranbringen. Und dann haben wir einen monatlichen BERD Newsletter, der viel erreicht. Und auf Social Media sind wir aktiv auf LinkedIn, Mastodon und BlueSky.

[00:09:36] Doreen Siegfried:
Ja, okay, wow. Das ist ja sehr umfangreich. Vielleicht noch mal so ein bisschen zu BERD und der Zielgruppe. Du hattest ja eingangs gesagt, BERD richtet sich an Forschende aus den Wirtschaftswissenschaften / auch den Sozialwissenschaften. Wie unterscheidet sich jetzt BERD von beispielsweise anderen NFDI-Konsortien, wie KonsortSWD?

[00:10:01] Veronica Haas:
Sozialwissenschaften sind ein sehr weitreichender Bereich. Unser Fokus liegt definitiv auf dem wirtschaftswissenschaftlichen Bereich BWL, VWL. KonsortSWD, das deckt die Sozialwissenschaften wesentlich breitgefächerter ab und beschäftigt sich mit strukturierten Daten. Wir hingegen beschäftigen uns mit unstrukturierten Daten. Das heißt große Daten, wie Texte, Bilder, Video- und Audiodateien. Und andere Infrastrukturen legen den Schwerpunkt oft auf reine Datenbereitstellung. BERD hingegen definiert sich als Servicelandschaft. Das heißt, wir bieten auch rechtliche Unterstützung an oder OCR-Tools. Wichtig ist hier der Praxisbezug. Forschungsdatenmanagement mit Praxisbezug.

Und dann spielt hier auch die enge Vernetzung mit Unternehmen eine zentrale Rolle. Also während viele Infrastrukturen primär auf akademische Forschung konzentriert sind, legt BERD Wert auf die Zusammenarbeit zwischen Wissenschaft und Wirtschaft. Ich denke, das ist ein Alleinstellungsmerkmal. Aber es ist sicher nicht Teil der NFDI-Philosophie, in Konkurrenz zu treten. Also, so sollte, meiner Meinung nach, auch Wissenschaft im Allgemeinen nicht funktionieren. Das Zusammenarbeiten, der Vernetzungsgedanke, der Referenzgedanke sollten da tragend sein.

[00:11:35] Doreen Siegfried:
Ja, das ist natürlich klar. Aber sozusagen, man kann es ja vielleicht so erklären: Okay, Ihr habt den Fokus auf den unstrukturierten Daten und KonsortSWD eher auf den strukturierten Daten. Sodass sich da beide Seiten, sozusagen beide Konsortien, auch ergänzen.

[00:11:49] Veronica Haas:
Genau.

[00:11:50] Doreen Siegfried:
Wenn wir mal auf die unstrukturierten Daten schauen, welche Fortschritte gab es denn jetzt im Bereich der Analyse dieser unstrukturierten Daten seit 2022? Und welche Technologien haben sich hier vielleicht sogar als besonders nützlich erwiesen?

[00:12:03] Veronica Haas:
Also, wenn jeder einmal an sein eigenes Konsumverhalten denkt. Welche Apps wir jeden Tag öffnen und verwenden: Spotify, Audible, Amazon, YouTube… Das sind alles Streamingdienste, die tagtäglich Unmengen von unstrukturierten Daten generieren. Und solche Daten enthalten wertvolle Informationen für die Wirtschaftswissenschaften, zum Beispiel über Konsumverhalten, soziale Interaktionen und Markttrends. Die Herausforderung besteht nun darin, diese Daten in eine strukturierte und analysierbare Form zu überführen. Weil traditionell basieren empirische Forschungsmethoden auf strukturierten und standardisierten Daten. Das heißt, unstrukturierte Daten brauchen neue methodische Ansätze, um sie für wissenschaftliche Analysen nutzbar zu machen. Und da hat sich natürlich in den letzten Jahren viel getan. Und da kommt BERD ins Spiel. Die Entwicklung von KI, vor allem seit 2022, hilft immens bei der Extraktion und der Kategorisierung relevanter Informationen aus unstrukturierten Daten. Und vor allem die Entwicklung von LLMS, also Large Language Models, hat einen Paradigmenwechsel in der wirtschaftswissenschaftlichen Forschung ermöglicht. Sie vereinfachen und automatisieren viele Schritte, die früher nur begrenzt mit NLP-Methoden oder sogar manuell durchgeführt wurden. Konkret können jetzt zum Beispiel große Mengen an Wirtschaftsdaten nach Branchen oder Unternehmensarten klassifiziert werden. Das heißt, man kann jetzt viel besser bestimmte Muster erkennen, zum Beispiel in Geschäfts- und Finanzdaten. Und das hilft wiederum immens bei der Prognose von Markttrends oder bei der Einschätzung von Insolvenzrisiken oder Investitionschancen.

[00:14:04] Doreen Siegfried:
Dabei hilft BERD bei diesen Strukturierungsgeschichten?

[00:14:08] Veronica Haas:
Die unstrukturierten Daten in eine strukturierte Form zu bringen.

[00:14:13i] Doreen Siegfried:
Wie geht das dann konkret? Also, wie unterstützt denn BERD, ich muss das mal so laienhaft fragen, konkret dabei aus unstrukturierten Daten verwertbare Erkenntnisse zu gewinnen? Habt Ihr da irgendwie einen bestimmten Button, den ich klicken muss, ein bestimmtes Tool? Also wie genau geht das?

[00:14:32] Veronica Haas:
Ja, ganz viele verschiedene Tools. Also, ganz allgemein erstmal erleichtert BERD den Zugang zu, die Analyse und den Austausch von unstrukturierten Daten. Der Zugang zu Daten wird durch unsere Datenportale ─ da gibt es das BERD Data Portal, Open Big Data oder das Long Term Company Portal ─ ermöglicht. In Austausch von Daten kommt man zum Beispiel über den Research Data Marketplace, der ermöglicht, dass Forschende ausgewählte Unternehmen über ein Formular kontaktieren und mit den Organisationen Daten austauschen kann und zusammenarbeiten kann. Dann gibt es die BERD Academy, die lehrt mit Machine Learning umzugehen. Also die Schulungen geben einem die notwendigen ML-Methoden an die Hand. Überhaupt vermittelt BERD Wissen auch über unsere wissenschaftlichen Mitarbeiter, die stetig Publikationen zu Methoden und Anwendungsfällen der Datenanalyse veröffentlichen und Vorträge halten. Also als Kommunikationsreferentin ist mein Teller zu allzu spezifischen Themen jetzt leider nicht besonders tief. Wir sprechen die ganze Zeit von Künstlicher Intelligenz, aber hinter BERD stehen auch viele verbindliche Menschen. Unsere wissenschaftlichen Mitarbeiter sind alle hochmotiviert und freuen sich immer, ihre Expertise teilen zu können oder überhaupt in Austausch zu kommen. Viele Forschende stehen vor der Frage, welche KI-Methoden überhaupt am besten zu ihrem Anwendungsfall passen. Dafür gibt es ein generatives KI-Verzeichnis „Getting Stuff Done“ heißt das. Wo KI-Tools kuratiert verzeichnet sind. Womit man sich also einen guten Überblick verschaffen kann, welche Tools für welche Anwendungen es überhaupt gibt. Und außerdem hat BERD eine Pipeline entwickelt, die es ermöglicht, aus renommierten Publikationen die angewandten Methoden zu extrahieren. Diese Informationen werden über das Analytics Portal bereitgestellt. Dieser Service ist jetzt noch nicht veröffentlicht. Es wird aber Forschenden immens dabei helfen, die effektivsten Methoden für ihre spezifische Forschungsfrage zu identifizieren.

[00:16:56] Doreen Siegfried:
Das hört sich reichlich komplex an für mich, auch mit den unterschiedlichen Portalen, die Du jetzt schon erwähnt hast. Wir gehen ja vielleicht in Folge gleich ein bisschen detaillierter darauf ein. Vielleicht vorab noch die Frage, welche Herausforderungen bestehen denn bei der Nutzung und Analyse von Unstrukturierten derzeit noch in der Wirtschaftsforschung?

[00:17:19] Veronica Haas:
Ich habe vorher schon den Research Data Marketplace angesprochen, der die Zusammenarbeit zwischen Unternehmen und Forschenden ermöglicht. Die Idee solcher Partnerschaften zwischen Industrie und Wissenschaft ist natürlich großartig, aber in der Praxis extrem schwierig umzusetzen, weil viele Unternehmensdaten personenbezogene Informationen enthalten, zum Beispiel Kundendaten, die natürlich unter Datenschutzgesetze fallen. Außerdem fürchten Unternehmen, dass durch das Teilen ihrer Daten, dass sie dadurch Wettbewerbsnachteile haben. Aber sie profitieren natürlich auch davon, also indem sie zum Beispiel Zugang zu innovativen Analysemethoden erhalten, ihnen bessere Entscheidungsgrundlagen serviert werden oder schlichtweg ihre Reputation im Bereich Open Science gestärkt wird. Aber ja, oft stellt sich den Unternehmen die Frage, welchen konkreten Mehrwert sie aus der Kooperation überhaupt ziehen. Das heißt, hier muss BERD viel Überzeugungsarbeit leisten und Kontrolle und rechtliche Absicherung über die Nutzen der Unternehmensdaten sicherstellen. Und die Freigabe von Daten erfordert oft Abstimmungen zwischen mehreren Abteilungen: Recht, IT-Management. Und bei diesem zähen Prozess hilft BERD.

[00:18:45] Doreen Siegfried:
Das heißt, ─ wenn ich kurz zwischen fragen darf ─ das heißt, wenn ich jetzt, mal angenommen, ich wäre jetzt Forscherin und würde mich für die Daten von dem Unternehmen X interessieren, müsste ich jetzt gar nicht selbst diese ganzen Verhandlungen machen und Verschwiegenheitserklärung usw. ausfüllen, sondern ich könnte Euch ins Boot holen und Ihr würdet es dann machen? Oder Ihr macht das sowieso vorab…

[00:19:08] Veronica Haas:
Du würdest…

[00:19:09] Doreen Siegfried:
…und ich gehe sozusagen, wie in einem Supermarkt, und sage „Perfekt, hier ist ja alles schon da, ich muss nur noch zugreifen.“ Also, ist das so zu verstehen?

[00:19:18] Veronica Haas:
BERD schließt Verträge mit Unternehmen und über das Research Data Marketplace füllst du ein Formular aus, das an das ausgewählte Unternehmen geht. Und dann kann es zur Kooperation kommen, wenn das Unternehmen zustimmt. Aber eben, da dieser Vertrag schon mit BERD geschlossen ist, sind diese Unternehmen prinzipiell dazu geneigt, ihre Daten auch zu teilen.

[00:19:50] Doreen Siegfried:
Okay, das heißt, Ihr habt den Boden schon bereitet. Ihr wisst, okay, wenn man an die Tür klopft, geht sie wahrscheinlich eher auf, als wenn man an die andere Tür klopft.

[00:19:58] Veronica Haas:
Ja.

[00:19:59] Doreen Siegfried:
Ja, okay. Ja, das ist natürlich Wahnsinn, wahnsinniger Komfort. Gerade bei der Akquise von Daten, Unterstützung zu bekommen von BERD. Okay, noch ist ja die ganze NFDI so ein bisschen Zukunftsmusik für Forschende, die empirisch arbeiten und auch Support benötigen und Forschungsdatenmanagement. Du hattest jetzt ja schon verschiedene Sachen dieser riesigen Servicelandschaft von BERD erwähnt. Vielleicht gucken wir da mal ein bisschen detaillierter rein. Also vielleicht noch mal, wenn wir auf den Ist-Stand gucken. Also wir haben heute, den 5. März 2025. Welche konkreten Vorteile bietet BERD oder das BERD Data Portal Forschenden gegenüber anderen Datenplattformen?

[00:20:50] Veronica Haas:
Das Data, das BERD Data Portal hat einen fachlichen Schwerpunkt. Es konzentriert sich auf unstrukturierte wirtschafts- und sozialwissenschaftliche Daten. Es handelt sich um eine kuratierte Datensammlung. Das heißt, es werden nur qualitativ hochwertige Datensätze aufgenommen. Außerdem werden alle wichtigen Metadaten bereitgestellt, darunter Details zur Datenstruktur und Angaben zu Nutzungsrechten und Lizenzen. Es werden weitere Versionen des Papers angezeigt, was die Nachverfolgbarkeit wissenschaftlicher Entwicklungen erleichtert. Und zusätzlich, das ist ein cooles Plus, werden auch verwandte Paper vorgeschlagen. All das kann man nutzen, ohne registriert zu sein. Aber wenn man sich registriert, kann man auch eigene Daten hochladen, die natürlich vor der Veröffentlichung von unseren Data Stewards kontrolliert werden und hat dann auch Zugang zu allen anderen Services wie dem Research Data Marketplace oder dem Analytics Portal.

Außerdem hat das Portal einen Nachhaltigkeitsfokus. Die technische Infrastruktur bietet das Open Source Framework Invenio. Das wird von der ZBW finanziert, die zu BERD gehört. Und diese Cloud garantiert, dass zum Beispiel zusätzlicher Speicher und Rechenkapazitäten bei Bedarf skaliert werden können. Sie garantiert die Cybersicherheit, weil sie in professionell verwalteten Rechenzentren betrieben wird. Also Invenio wurde von CERN entwickelt, da sind Daten alle mal in sicheren Händen.

[00:22:28] Doreen Siegfried:
Jetzt hast Du gesagt ─ also noch mal nachgefragt zu diesem Data Portal: Es hat den fachlichen Schwerpunkt auf kuratierten Datensätzen aus der Wirtschaftsforschung. Kannst Du diese Daten noch vielleicht ein bisschen mehr beschreiben? Also, was finde ich da genau vor? Was sind, was liegt da genau drin, momentan?

[00:22:46] Veronica Haas:
Ich kann Beispiele nennen für Datensätze, die vielleicht besonders bekannt sind. Instagram Influencer-Posts and Image Data Set, das Stanford Natural Language Inference Corpus, der Corpus. Oder YouTube 8M-Dataset. Ja, das sind bekannte Datasets, die in den Wirtschaftswissenschaften oft verwendet werden.

[00:23:20] Doreen Siegfried:
Wie funktioniert denn letztlich die Qualitätssicherung für die Daten? Weil, Du hattest gesagt, dass ist kuratiert und so weiter. Also wie funktioniert die Qualitätssicherung für die Daten und auch für die Algorithmen, die letztlich über BERD bereitgestellt werden?

[00:23:33] Veronica Haas:
Zum einen ist das Konsortium als Teil der NFDI zur Bereitstellung von fairen Daten verpflichtet. Dadurch werden höchste wissenschaftliche Standards gewährleistet. Und das sichert langfristig die Nachhaltigkeit der Daten. Fair heißt nämlich, dass Daten findable, accessible, interoperable und reproducible sein sollen. Neben der ZBW ist GESIS auch ein bedeutender Partner von BERD, der, wie die ZBW, umfangreiche Sachleistungen zur Sicherstellung der Datenqualität, der Sichtbarkeit, der Weiterentwicklung und dem Betrieb der Systeme unterstützt. Und Qualitätskriterien sind, neben klassischen Datenqualitätsmerk-malen wie Vollständigkeit, Konsistenz und Aktualität, die Relevanz für akademische, für die akademische Forschung. Denn die Nutzung der Datensätze in renommierten wissenschaftlichen Zeitschriften dient als Indikator für ihre wissenschaftliche Bedeutung. Das heißt, ein weiteres wichtiges Element in diesem Zusammenhang wird das bevorstehende Analytics Portal sein, das nämlich aufzeigt, welche Methoden zur Datenverarbeitung in welchen Journal Rankings besonders populär sind.

[00:24:57] Doreen Siegfried:
Ah, okay. Ja, das hört sich ja auch spannend an. Okay. Also wir packen ganz viele Sachen in die Shownotes, auf jeden Fall. Da muss man sich, glaube ich, mal einen ganzen Nachmittag mit einer großen Thermoskanne mal hinsetzen und das alles mal durchgucken. Welche Rolle, vielleicht noch mal zu diesen ganzen Datensätzen… Welche Rolle spielen denn Metadaten in der Forschungsarbeit mit den von BERD angebotenen Daten?

[00:25:22] Veronica Haas:
Metadaten sind natürlich eminent für die Arbeit von BERD. Sie enthalten alle wichtigen Informationen. Was steckt in den Daten? Woher kommen sie? Wie wurden sie erhoben und wie dürfen sie genutzt werden? Metadaten machen Forschungsdaten also ─ ganz im Sinne der FAIR-Prinzipien ─ auffindbar, verständlich und nutzbar und helfen Forschenden ganz immens dabei, die passenden Datensätze schnell zu identifizieren und richtig zu interpretieren. BERD setzt auf bewährte Metadatenstandards, um sicherzustellen, dass die Daten gut verwaltet und leicht zugänglich sind. Zum Stichwort Interoperabilität, also die Möglichkeit, Daten über verschiedene Systeme und Disziplinen hinweg zu verknüpfen: Dafür benutzt BERD standardisierte Metadatenformate wie DataCite, damit unsere Daten nahtlos auch in andere Forschungsumgebungen integriert werden können.

[00:26:23] Doreen Siegfried:
Noch mal vielleicht aus der Perspektive einer potenziellen Wirtschaftsforscherin gefragt: Welche spezifischen Forschungsfragen können durch die Infrastruktur von BERD gegebenenfalls besser adressiert werden als durch bestehende Infrastrukturen? Also gibt es jetzt mit BERD zusätzliche Analysemöglichkeiten oder auch Zugangsmöglichkeiten oder Verknüpfungen, die vielleicht besonders relevant sind für Wirtschaftswissenschaften?

[00:26:52] Veronica Haas:
Im Kontext zu LLMs hatten wir kurz Prognosemodelle und Sentiment Analysis angesprochen, also Forschungsfragen, die in Richtung Prognose von Markttrends, Insolvenzrisiken und Investitionsmöglichkeiten gehen. Diese Forschungsfragen können mithilfe von BERD einfacher bewältigt werden, wenn man beispielsweise mit Hilfe des Research Data Marketplace an Kundendaten von Unternehmen herankommt. Dann kann man Forschungsfragen zur Kundenzufriedenheit stellen. BERD bietet auch OCR-Dienste an. Damit werden ─ also OCR ist Optical Character Recognition ─ damit werden analoge Daten digitalisiert. Das spricht vielleicht eher die Wirtschaftshistoriker an, wenn damit historische Berichte und Dokumente in analysierbare Daten umgewandelt werden. Das eröffnet aber sicher neue Analysemöglichkeiten. Historische und moderne Daten können beispielsweise kombiniert werden und man kann die Unternehmensstrategien über mehr als ein Jahrhundert hinweg untersuchen. Und eben bei der Frage, wie sich Unternehmen über die Zeit entwickelt haben, da hilft auch der von BERD entwickelte ─ um jetzt noch ein Tool zu nennen ─ …

[00:28:14]
[beide lachen]

[00:28:17] Veronica Haas:
…der von BERD entwickelte Aktienführer Knowledge Graph, der im Zeitraum von 1956 bis 2018 detaillierte Informationen über deutsche Unternehmen enthält, die an der Börse in Deutschland gehandelt haben. Ich bin da wirklich nicht die Richtige, um im wirtschaftlichen Bereich spezifische Forschungsfragen formulieren zu können. Dafür sind unsere wissenschaftlichen Mitarbeiter da. Die freuen sich immer, Tipps und Tricks zu geben.

[00:28:44] Doreen Siegfried:
Ja, okay. Jetzt verstehe ich auch, warum eure BERD Academy so ein Renner ist. Weil es doch recht komplex ist, sich hier durch diese Servicelandschaft zu arbeiten. Zumindest für mich als Laien sieht es sehr komplex aus. Wenn wir noch mal auf BERD gucken. BERD ist ja national ausgerichtet als Teil der NFDI, also der Nationalen Forschungsdateninfrastruktur. Während Forschende in der Wirtschaftswissenschaft ja oft eher auch international vernetzt sind, auch bei internationalen Anbietern nach Forschungsdaten recherchieren. Wie stärkt denn jetzt BERD die Wettbewerbsfähigkeit der deutschen Wirtschaftsforschung in diesem internationalen Vergleich? Kannst Du da vielleicht noch was zu sagen?

[00:29:29] Veronica Haas:
BERD bzw. die ganze NFDI, aber BERD ganz aktiv über die ZBW, ist in die European Open Science Cloud, die EOSC eingebunden. Sie steuert die europaweite Entwicklung im Bereich Open Science. Außerdem sind ZBW und GESIS Teil des FAIR Digital Open Forums. Das ist eine Plattform, die international ausgerichtet ist, auf der sich Fachleute und Forscher austauschen, um digitale Objekte gemäß der FAIR-Prinzipien zu gestalten und zu managen. Und dadurch fließen internationale Best Practices direkt in die BERD-Infrastrukturen ein. BERD arbeitet außerdem eng mit dem Wharton Data Research Services der University of Pennsylvania zusammen. Das ist die größte Plattform für lizenzierte Wirtschaftsdaten. BERD-Mitglieder vertreten das Konsortium regelmäßig auf renommierten internationalen Konferenzen. Also ja, in den Wirtschaftswissenschaften müssen die neuesten wissenschaftlichen und technischen Entwicklungen kontinuierlich adaptiert werden. Daher brauchen wir den internationalen Vergleich. Und durch diese enge Vernetzung mit führenden internationalen Akteuren stellt BERD sicher, dass deutsche Wirtschaftsforschende Zugang zu wettbewerbsfähigen Forschungsdaten, innovativen Analysemethoden und einer global vernetzten Infrastruktur haben.

[00:31:08] Doreen Siegfried:
Also vielleicht ein kleiner Exkurs, wer was zu EOSC wissen will. Ich hatte hier vor einiger Zeit Klaus Tochtermann zu Gast, wir verlinken noch mal die Folge zu EOSC und auf dem EOSC EU Node nochmal in den Shownotes. Vielleicht noch eine Frage. Du hattest ja gesagt, okay, bei diesen ganzen unstrukturierten Daten gibt es halt auch viele rechtliche Herausforderungen. Wie oder welchen rechtlichen Herausforderungen begegnen denn Forschende bei der Nutzung dieser großen Mengen auch wirtschaftsbezogener Daten? Und wie unterstützt BERD sie konkret dabei?

[00:31:48] Veronica Haas:
Das sind besonders Herausforderungen, was Urheberrechte anbelangt, Datenschutz, Lizenzen und ethische Fragen. Und das während des gesamten Forschungsprozesses. Das heißt eine allgemeine Einführung ins Forschungsdatenmanagement hilft Forschenden, die Grundlagen zu verstehen. Und das ist sicher immer empfehlenswert. Doch weil diese Themen oft sehr komplex sind, braucht es in vielen Fällen eine individuelle Beratung. Und hierfür bietet BERD allen Forschenden umfassende rechtliche Unterstützung bei Forschungsdatenmanagementfragen. Neben individuellen Gesprächen, die auf spezifische Fragestellungen eingehen und die Einhaltung rechtlicher Vorgaben, Forschungsstandards und guter wissenschaftlicher Praxis sicherstellen, umfasst das Angebot auch verschiedene Schulungen und Workshops. Dazu gehören beispielsweise die Train the Trainer-Workshops oder die Data Literacy- Kurse. Da stehen besonders urheberrechtliche Fragestellungen im Fokus wie Scraping, Text und Data Mining sowie Lizenzfragen, datenschutzrechtliche Aspekte im Zusammenhang mit den Anforderungen der Datenschutzgrundverordnung und ethische Prinzipien, die eine gute wissenschaftliche Praxis gewährleisten sollen. Ein besonders hilfreiches Angebot ist außerdem der interaktive virtuelle Assistent iVA von BERD, der Forschenden bei datenschutzrechtlichen Fragen Orientierung bietet. So. Es gibt drei Module, die jeweils Antwort auf folgende Fragen geben: in welchen Fällen findet die Datenschutzgrundverordnung Anwendung? Was sind die Voraussetzungen für eine wirksame datenschutzrechtliche Einwilligung? Und auf welche anderen Rechtsgrundlagen können sich Forschende bei Datenverarbeitung im Rahmen ihres Forschungsvorhabens stützen?

[00:33:57] Doreen Siegfried:
Das hört sich doch super an. Ich glaube tatsächlich, dass das Thema immer wieder auftaucht, gerade auch mit verändernden Rechtssituationen, auch im Kontext mit KI usw. Also, wenn Ihr da tatsächlich diese ganzen Angebote habt und auch eine Individualberatung es sogar gibt, das ist ja großer Luxus. Letzte Frage Veronica: Wo siehst Du BERD in fünf bis zehn Jahren? Also welche langfristigen Ziele verfolgt das Konsortium?

[00:34:30] Veronica Haas:
Wir werden sicher unsere Infrastrukturen und Dienste weiterhin konsolidieren, verstetigen und vernetzen. Die NFDI wird sicher auch mithilfe der EOSC noch internationaler. KI wird sich weiter entwickeln und BERD wird seine Dienste entsprechend adaptieren. Aber schon fünf Jahre ist eine große Zeitspanne. Wenn wir daran denken, dass zum Beispiel ChatGPT Ende 2022 veröffentlicht wurde und was dadurch innerhalb von weniger als drei Jahren in der Wissenschaft alles möglich gemacht wurde. Deswegen, eine Vision braucht man sicher. Aber wir haben jetzt keinen festgefahrenen Plan. Und das ist vor allem in diesem Bereich, der sich so schnell weiterentwickelt, auch gut so, damit man flexibel reagieren kann. Vor allem letztes Jahr mussten wir merken, dass wir mit unserer ursprünglichen Idee ─ wir wollten eine einheitliche Plattform, auf der alle Services implementiert sind ─  dass wir damit nicht so schnell und effektiv vorankamen wie gewünscht. Statt also rigide an unserem ursprünglichen Plan, der langfristig gesehen sinnvoll ist, aber uns im Moment daran hindert, an die Community heranzutreten… Statt daran festzuhalten, sind wir flexibel und blitzschnell davon abgewichen und haben innerhalb kürzester Zeit eine Servicelandschaft aufgebaut. Also, das hat mich wirklich sehr beeindruckt. Das war so cool, weil dadurch können wir jetzt schnell Feedback von Usern einsammeln und umsetzen. Das ist eminent für uns, um voranzukommen. Und daher, diese Flexibilität, was unsere Strategie anbelangt, was die Toolauswahl angeht, diese sehr dynamische Infrastrukturanpassung, haben sich als Schlüsselfaktoren für das Erreichen und für die Wegebnung zum Erreichen unserer Mission erwiesen.

[00:36:28] Doreen Siegfried:
Ja, ja. Diese Entwicklung, die ich auch ein bisschen beobachtet habe, also seit den letzten Jahren… Also es ist so ein bisschen tatsächlich weg von dem großen AIDA-Traumschiff mit allen möglichen Services an einem Ort, hin zu verschiedenen Speedbooten, die auch unterschiedlich agieren können und anpassbar sind. Ja, super. Sehr spannend. Ich glaube, die Liste der Shownotes wird sehr lang.

[00:36:54]
[beide lachen]

[00:36:56] Doreen Siegfried:
Aber ich glaube, ich werde als erstes diese BERD Academy verlinken. Vielen Dank, Veronica. Vielen Dank auch an Sie, liebe Zuhörer:innen. Wir hoffen, die Episode hat Ihnen gefallen, Sie sind jetzt geflasht und inspiriert und nutzen die BERD-Plattform. Teilen Sie uns gerne Ihre Meinung mit. Ob Lob oder auch gern konstruktive Kritik per E-Mail auf Mastodon, YouTube, BlueSky oder LinkedIn. Und wenn Ihnen unser Podcast gefällt, freuen wir uns natürlich auch, wenn Sie uns abonnieren. Ich freue mich auf die nächste Folge und hoffentlich, hören wir uns bald wieder.