Folge 16: BERD@NFDI: Neue Infrastrukturen für die BWL

The Future is Open Science – Folge 16: BERD@NFDI: Neue Infrastrukturen für die BWL

Dr. Doreen Siegfried
Leitung Marketing und Public Relations, ZBW – Leibniz-Informationszentrum Wirtschaft

Prof. Dr. Florian Stahl
Professor für Marketing, Universität Mannheim und Sprecher des Konsortiums BERD der Nationalen Forschungsdateninfrastruktur NFDI

[00:00:03] Doreen Siegfried:
Willkommen bei „The Future is Open Science“, dem Podcast der ZBW. Hier verraten Ihnen interessante Menschen aus dem Wissenschaftsbetrieb, wie sie in Ihrer täglichen Arbeit Open Science voranbringen. Wir tauchen ein in die Tiefen der Wissenschaftskommunikation im digitalen Zeitalter und verraten Ihnen handfeste Tipps und Tricks zu Open Science in der Praxis. Ich bin Doreen Siegfried und freue mich sehr, Host dieses Podcast zu sein.

[00:00:32] Doreen Siegfried:
Ja, hallo und herzlich willkommen zu einer neuen Folge von „The Future is Open Science“, dem Podcast der ZBW. Ich freue mich, dass Sie wieder eingeschaltet haben. Heute sitze ich hier nämlich zusammen mit Professor Dr. Florian Stahl von der Universität Mannheim. Herzlich Willkommen.

[00:00:51] Florian Stahl:
Hallo.

[00:00:52:] Doreen Siegfried:
Hallo.

[00:00:52] Florian Stahl:
Herzlich willkommen auch von meiner Seite.

[00:00:53] Doreen Siegfried:
Florian Stahl ist Professor für Marketing an der Universität Mannheim, Experte für Big Data und Sprecher des Konsortiums BERD der Nationalen Forschungsdaten-infrastruktur NFDI. Kurz, für alle, die noch nicht von BERD gehört haben, das Kürzel steht für Business, Economic and Related Data. Und die Partner des Konsortiums wollen in den nächsten Jahren eine digitale Plattform schaffen, auf der Wirtschaftsforschende die ganze Datenflut von Geschäfts-, Wirtschafts- und verwandten Daten sammeln, sortieren und anschließend analysieren können. Und ein besonderer Schwerpunkt liegt auf unstrukturierten Daten. Herr Professor Stahl, was sind unstrukturierte Daten eigentlich?

[00:01:43] Florian Stahl:
Unstrukturierte Daten ist ein recht breiter Begriff. Darunter fallen eigentlich alle Daten, die nicht eine vordefinierte Struktur haben und wir zählen dazu Bilder, Texte, Videos, aber auch neuere Datentypen wie IoT-Daten können durchaus dazu gezählt werden. In manchen Definitionen werden auch noch ganz viele andere Datentypen, wie Soziale Netzwerk-Daten, dazu gezählt, aber die natürlich in gewisser Weise schon eine Struktur aufweisen.

[00:02:11] Doreen Siegfried:
Und haben Sie vielleicht so ein, zwei Beispiele für unsere Hörerinnen und Hörer?

[00:02:16] Florian Stahl:
Insbesondere durch die Digitalisierung unseres Lebens werden natürlich immer mehr Dinge festgehalten in Form von Bildern, in Form von Texten, in Form von auch Videos. Und stellen Sie sich mal die ganzen Bewertungen, die wir heute auf Amazon oder anderen eCommerce Shops finden, vor. Da finden Sie unter diesen Bewertungen Texte, da finden Sie sogar Fotos. Darüber hinaus finden Sie natürlich heute auch in den sozialen Medien unglaublich viele Fotos und auch sehr viele Texte, die auch ein Stück weit die Wahrnehmung und auch Verhalten von einzelnen Nutzern oder auch im Geschäftskontext da widerspiegeln.

[00:03:01] Doreen Siegfried:
Ja, okay, verstanden. Und warum spielen jetzt gerade in der BWL unstrukturierte Daten so eine große Rolle?

[00:03:13] Florian Stahl:
Ich vermute, dass unstrukturierte Daten in ganz vielen Disziplinen und Wissenschaften über kurz oder lang eine große Rolle spielen. In der BWL ist es sicher, hängt es damit zusammen, dass auch in der BWL vieles häufig aufgrund von auch Unternehmensgeheimnissen und dergleichen auch schwer erfassbar war und man hat natürlich alles in Form von strukturierten Daten bislang erfasst. Aber das war dann doch in gewisser Weise auch immer wieder limitiert. Und heute gibt es gerade für Bereiche, die auch jetzt in der Vergangenheit eher qualitativ dann erforscht wurden, aber die Möglichkeit, über unstrukturierte Daten, jetzt hier auch quantitativere empirische Forschung zu machen. Also gerade, ich kann es vielleicht auch an einem Beispiel erläutern.

[00:03:55] Doreen Siegfried:
Ja, gerne.

[00:03:55] Florian Stahl:
Es gibt durchaus sehr viele, ja sag ich mal intangible Themen in der BWL. Stellen Sie sich mal die Markenwahrnehmung vor. Die Marke, das ist in der BWL und auch im Marketing natürlich schon seit langem klar, dass die eine ganz große Rolle spielt. In vielerlei Hinsicht, also nicht nur im Konsum, auch in welchem Arbeitgeber-, Arbeitnehmerverhältnis Sie sich befinden und so weiter. Aber das Problem war bei der Markenwahrnehmung, dass man die einfach sehr, sehr schwierig in strukturierten Daten quantitativ erfassen konnte. Und das ändert sich jetzt gerade durch diese unstrukturierten Daten, weil jetzt durch Bilder, durch Texte, wie Menschen auch Emotionen ausdrücken oder auch ihr Verhältnis zu Marken in Form von Bildern oder Videos sogar zum Ausdruck bringen, natürlich jetzt ganz neue Möglichkeiten bietet, diese intangiblen Themen der BWL jetzt auch sehr viel systematischer und quantitativer zu erforschen.

[00:04:54] Doreen Siegfried:
Ja, okay. Das heißt, solche Daten wachsen, also die Menge der Daten wächst natürlich dann an. Haben Sie da vielleicht irgendwie so eine Einschätzung, wie viel oder wie groß dieses Wachstum ist?

[00:05:10] Florian Stahl:
Also es ist natürlich gibt es Einschätzungen im Sinne von Terabytes und Zettabytes, aber ich glaube, auf das kommt es gar nicht drauf an. Ich glaube, das Wesentliche ist für uns, dass die Daten in ihrer Vielfalt vor allem anwachsen und wir auch immer mehr Bereiche der BWL, die bislang einfach eine Blackbox waren, auch für die Wissenschaft eine Blackbox waren, einen Einblick bekommen. Das heißt, es geht gar nicht unbedingt um Terabytes oder Zettabytes im Datenwachstum, sondern vor allem auch im Wachstum, dass ich jetzt auch durch die Digitalisierung des Lebens, sage ich mal, das also nicht nur des Konsumentenlebens, sondern auch des unternehmerischen Unternehmertums oder der Wirtschaft als Ganzes natürlich immer mehr Bereiche auch digitalisiert werden und dadurch in diesen Bereichen auch jetzt Daten entstehen, die dann eben eine ganz neue Möglichkeit den Forschenden bieten. Auch Dinge, die man davor einfach sagen musste: „Ja, das ist wichtig, aber wir wissen nicht, wie man es erfassen soll“, dann also erforschen.

[00:06:12] Doreen Siegfried:
Ja, okay. Wie, mit welchen Methoden wird denn diese Datenflut, die ja auch sehr heterogen ist, überhaupt bewältigt oder erforscht?

[00:06:22] Florian Stahl:
Gut, ich mein gerade das Thema der unstrukturierten Daten erfordert eben im Unterschied zu den strukturierten Daten, dass man die jetzt nicht, wie in der Vergangenheit bei den strukturierten Daten, einfach mit statistischen Auswertungsmethoden, statistischer Software sehr schnell erfassen und auswerten konnte, sondern gewisser Weise braucht es hier weitere Schritte. Das heißt, wir müssen eigentlich aus diesen unstrukturierten Daten zuerst mal gewisse Strukturen herausarbeiten oder ermitteln, aus diesen unstrukturierten Daten, die uns dann helfen, in der weiteren empirischen Analyse ja Erkenntnisse zu gewinnen. Das heißt, konkret gesagt, werden wir neben dem klassischen Methodensatz, der vor allem in Bezug auf Statistik in der BWL natürlich eine große Rolle spielt, werden wir auch in der Zukunft sehr, sehr viel maschinelles Lernen, also Methoden des maschinellen Lernens, der künstlichen Intelligenz in der BWL finden. Aber vor allem dazu, um eben aus diesen, sage ich mal, unstrukturierten Daten gewisse Patterns heraus zu lesen und heraus zu extrahieren, die eben gerade für diese Forschung notwendig ist.

[00:07:31] Doreen Siegfried:
Okay. Und welche Rolle – Sie sind ja auch Experte für Big Data, da schwingt natürlich gleich immer auch der Begriff Künstliche Intelligenz mit dabei. Welche Rolle spielt denn generell die Künstliche Intelligenz in der BWL?

[00:07:46] Florian Stahl:
Also in der Vergangenheit kann man ganz offen sagen, hat sie gar keine Rolle gespielt, also außer vielleicht in kleinen Nebenthemen. Allerdings, das hat sich jetzt in den letzten fünf Jahren, wie wir auch nachweisen können, stark geändert. Das heißt auch, das hängt natürlich mit den neuen Datentypen zusammen, die eben sich jetzt nicht mehr so, wie sie erhoben wurden oder so, wie sie vorliegen, direkt auswerten lassen. Und dadurch wird jetzt Künstliche Intelligenz eine immer größere Rolle in der Forschung der BWL einnehmen. Natürlich spielt Künstliche Intelligenz darüber hinaus, kann man sagen, in der Betriebswirtschaftslehre auch eine Rolle. Da Unternehmen natürlich auch immer mehr künstliche Intelligenz für die Produktion oder auch fürs Marketing oder für alle anderen Bereiche im Unternehmen einsetzen. Also, das heißt, die Künstliche Intelligenz gewinnt sowohl für die Forschung als auch für die Unternehmen an massiver Bedeutung. Und daher wird diese Expertise auch jetzt, wie wir ja schon seit geraumer Zeit beobachten können, immer mehr in der Forschung und in einem in der Unternehmenspraxis nachgefragt. Und ich denke, es geht ein bisschen Hand in Hand. Das heißt auch die Digitalisierung und die Künstliche, der Einsatz von Künstlicher Intelligenz, das wird immer eine größere Rolle spielen, je mehr auch in Unternehmen digitalisiert wird.

[00:09:00] Doreen Siegfried:
Und welche Rolle spielt, das letztlich dann für BERD, also wenn es sozusagen diese große Menge von unstrukturierten Daten gibt und dann ja auch eine Menge von Algorithmen, um mit diesen Daten überhaupt arbeiten zu können. Also welche Anforderungen stellt diese Situation, die Sie gerade geschildert haben, an eine große Forschungsdateninfrastruktur?

[00:09:24] Florian Stahl:
Gut, ich meine, die, wie ich es gerade auch schon geschildert habe, die BWL ist ja keine Disziplin, die jetzt statisch in gewisser Weise immer die gleichen Methoden auf die ähnlichen Datentypen anwendet, sondern die BWL, das ist auch sicher was ihren Reiz ausmacht, verändert sich, so wie die Unternehmen, fortlaufend. Und dadurch haben wir heute halt einfach die Erfordernis, dass wir als Wissenschaftler auch nicht mehr die Methoden, wie vor zehn Jahren anwenden können, sondern uns auch als Wissenschaftler weiterentwickeln müssen. Und auch diese neueren Verfahren und Methoden, gerade insbesondere der Künstlichen Intelligenz, maschinellen Lernens, haben uns aneignen müssen und die auch haben dann in der Forschung direkt anwenden müssen oder sollten oder können. Und dazu aber ist halt natürlich klar, dass es Wissenschaftler vor große Herausforderungen stellt. Und dazu haben wir auch jetzt haben gesagt, braucht‘s jetzt auch eine neue Art von Infrastruktur. Letztendlich mit der Infrastruktur wie den Wissenschaftlern vor zehn Jahren gearbeitet haben, mit gerade insbesondere strukturierten Daten aus Umfragen oder auch strukturierten Daten aus qualitativer Forschung, das ist sozusagen, die ist nicht mehr ausreichend. Und gerade für diese neuen Anforderungen, wie sich auch die Forschung, wie die Unternehmen auch verändern, braucht’s eine Infrastruktur, die jetzt nicht nur auf die großen Datenmengen ausgerichtet ist. Sprich, dass jeder Wissenschaftler hier auch die Möglichkeit hat, mehrere Terabytes seiner Forschungsdaten zu lagern, zu speichern, zu archivieren und auch zu teilen, sondern dass es auch darüber hinaus die Wissenschaftler auch hier gewisser Weise in der Forschung noch mal auf methodischer Ebene zusammenarbeiten. Sprich das letztendlich ja nicht jeder Wissenschaftler das Rad der Künstlichen Intelligenz neu erfinden muss, was er in BWL sowieso so nicht tun. Aber dass wir dann sozusagen hier zusammenarbeiten können und eben auch hier in den Methoden, in der Anwendung der Methoden auf bestimmte Datentypen uns sozusagen besser vernetzen und austauschen können und dann auch gemeinsame Ressourcen nutzen können. Das ist glaube ich ein ganz wesentlicher Unterschied. Und es macht auch, vielleicht kann ich es an einem Beispiel nochmal konkretisieren, sehr viel mehr Sinn. Wenn Sie jetzt ein statistisches Verfahren anwenden, dann ist das eigentlich, natürlich da kann man sich auch vernetzen und austauschen, welches das beste Verfahren für welche Fragestellung ist. Allerdings, wenn Sie jetzt bei sich eine Regression laufen lassen und nicht bei mir, kommt völlig unabhängig immer, wenn wir den gleichen Datensatz haben, das gleiche raus. Das ist aber bei der Künstlichen Intelligenz, insbesondere mit neuronalen Netzen, nicht der Fall. Das heißt auch hier, wenn ich ein neuronales Netz zum Beispiel auf gewisse Bilder von Instagram trainiere, so ist es natürlich von Vorteil, wenn ich dieses neuronale Netz, wenn ich nicht nur die Daten, die ich verwendet habe, am Schluss teile, sondern auch das neuronale Netz. Sprich, wenn Sie eines Tages in ein, zwei Jahren auch beginnen wollen, Bilder von Instagram zu analysieren, vielleicht mit einer anderen Forschungsfrage, dann ist es für Sie von Vorteil, wenn Sie mein, nicht nur meine Instagram Daten verwenden können, sondern darüber hinaus auch noch mein neuronales Netz.

[00:12:31] Doreen Siegfried:
Ja, okay.

[00:12:32] Florian Stahl:
Und das ist eben der Unterschied, sage ich mal, zur Vergangenheit, wo man eigentlich nur die Daten teilen musste. Weil eine Regression können Sie auch ohne meine Hilfe rechnen. Während jetzt ein neuronales Netz für Sie einen Wert darstellt, wenn ich das über die Daten hinaus auch mit Ihnen teilen würde.

[00:12:50] Doreen Siegfried:
Ja, okay. Das heißt, ich finde dann sozusagen in BERD, wenn das Konsortium, also wenn die Struktur steht, nicht nur die Daten, sondern auch die entsprechenden Algorithmen, …

[00:12:59] Florian Stahl:
Genau.

[00:13:00] Doreen Siegfried:
… mit denen ich dann auch selbst arbeiten kann.

[00:13:02] Florian Stahl:
Und die trainierten Netze dazu.

[00:13:049 Doreen Siegfried:
Ja.

[00:13:04] Florian Stahl:
Das ist eben genau das, dass wir sagen, in der Zukunft braucht es auch nicht nur eine Archivierung der Daten oder auch der Teilen der Daten und all die Dinge, die mit dem Datenlebenszyklus zusammenhängen, sondern eben der Algorithmus, der jetzt auch eine immer größere Rolle spielt, braucht‘s noch hinzu. Und weil sonst ist auch, und das ist ein weiteres Problem, möglicherweise auch die Replizierbarkeit gar nicht mehr gewährleistet.

[00:13:26] Doreen Siegfried:
Ja, ja, das ist nachzuvollziehen. Okay. Das heißt, welche Anforderungen stellen sich dann letztlich an so einen Gigant, also eine gigantische Forschungsdaten-Infrastruktur, wie ich sie mir jetzt als Laie so vorstelle. Also brauche ich da ganz viel Speicher oder was sind so die besonderen Anforderungen, die Sie jetzt schon vor sich sehen?

[00:13:49] Florian Stahl:
Also ich glaube, es braucht Speicher, aber es braucht vor allem auch Rechenkapazitäten. Aber jetzt nicht nur generell Rechenkapazitäten. Es braucht natürlich insbesondere auch in Bezug auf zum Beispiel grafiktechnische Kapazitäten, weil natürlich gerade unterschiedliche unstrukturierte Daten, jetzt auch mit verschiedenen Prozessoren sozusagen ausgewertet werden. Das ist aber jetzt mehr die von der Hardware her gedacht. Ich glaube, das Wesentliche, worunter die heutige betriebswirtschaftliche Betriebswirtschaftslehre leidet, ist vor allem auch die Tatsache, dass wir uns Richtung Open Science hier entwickeln müssen, da momentan sehr, sehr viele Wissenschaftler, sag ich mal, vorgefertigte Lösungen von großen amerikanischen Konzernen verwenden, wie die Google API oder auch andere Amazon AWS-Dienste, die durchaus bequem sind für solche Fragestellungen, die aber genau das Kernproblem natürlich nicht lösen, dass ich am Schluss neben den Daten auch den Algorithmus mit speichern kann oder auch das neuronale Netz mit speichern kann und auch dadurch, es nicht nur zu archivieren oder zu teilen, sondern dass ich auch dadurch die Replizierbarkeit meiner Forschung überhaupt in der Zukunft gewährleisten kann. Momentan wird nach wie vor sehr, sehr viel mit diesen, sag ich mal, bequemen vorgefertigten Lösungen gearbeitet, die aber am Schluss wissenschaftlichen Standards nicht entsprechen.

[00:15:10] Doreen Siegfried:
Okay. Und wenn wir uns jetzt vorstellen, wir sind jetzt nicht im Jahre 2022, sondern fünf Jahre später im Jahre 2027, die Forschungsdateninfrastruktur steht. Könnten Sie sich vorstellen, dass diese als solche auch adaptierbar ist für andere Disziplinen?

[00:15:30] Florian Stahl:
Also definitiv, ich glaube unstrukturierte Daten sind da oder Bilder wie ich gesagt habe, Videos sind ja jetzt nicht nur Themen der Betriebswirtschaftslehre, sondern die werden natürlich auch, wir werden durch die Plattform auch allein in der Betriebswirtschaft schon so ein breites Spektrum sehen an Methoden. Also maschinelles Lernen und künstliche Intelligenz sind ja mehr Sammelbegriffe. Dass wir sozusagen hier auch durchaus da eine Kompetenz haben, die wir anderen Wissenschaftsdisziplinen auch anbieten können, die ebenso den Bedarf haben, Bilder oder auch Videos oder andere unstrukturierte Daten in Zukunft auszuwerten. Also wenn ich nur an die Medizin denke, die auch mit sehr viel Bildern arbeitet oder auch Life Science. Und ich denke, wir können aber auch in eine ganz andere Richtung denken, also auch die Rechtswissenschaften oder auch andere Bereiche, wo es um Texte geht. Da denke ich, da werden wir dann durchaus sehr viel auch Transfer leisten können aus unserer Erfahrung bis dahin.

[00:16:31] Doreen Siegfried:
Ja, okay. Vielleicht noch die letzte Frage. Die ZBW ist ja auch eine der Partner:innen von BERD und für uns ist das beispielsweise immer ganz wichtig, wie sind die Sachen auffindbar später. Also wie kann man sie möglichst so strukturieren, aufbereiten, organisieren, dass auch Laien, die jetzt keine Rechercheexpert:innen sind, genau das am Ende des Tages finden, was sie suchen und das auch möglichst schnell. Wie löst man diese Frage auch der Findbarkeit in einem Konsortium, wo, wie Sie gerade dargestellt haben, Videos, Bilder, Social Media-Informationen und so weiter, also wo wir wirklich eine große Menge an Material haben?

[00:17:22] Florian Stahl:
Ich denke, wie immer geht es natürlich zu einem starken Kontext über auch Metadaten, das heißt, wir werden natürlich die bestehenden Metadata Schema müssen wir aufbrechen und noch erweitern. Es geht natürlich aber darüber hinaus auch, dass wir jetzt nicht nur auf Daten sogar erweitern, sondern auch auf Algorithmen. Und auch Algorithmen muss man natürlich wiederfinden bzw. auch deren Qualität oder auch deren Fähigkeiten bewerten können. Also ein Algorithmus, es gibt, um es nur zu verdeutlichen, mehrere hunderte Algorithmen für Texte. All diese Algorithmen sind alle in einem sehr guten Status und trotzdem ist da jeder Algorithmus nur für bestimmte Arten von Texten geeignet. Wie finde ich jetzt den richtigen Algorithmus für meine Art von Texte, die ich analysieren möchte? Und deswegen, aber wir werden ganz klar natürlich auch bei den anderen Arten von Big Data für die anderen unstrukturierten Daten, müssen wir auch uns überlegen, wie wir diese Metadaten erweitern und dann auch basierend auf dem, was die Wissenschaftler machen, letztendlich die Strukturen auch dazu verwenden. Also, sprich, wenn ich jetzt Instagram-Fotos auswerten sollte, in Bezug auf gewisse Objekte, die mich interessieren oder eine bestimmte was auch immer Art, dann müssten diese Informationen, die ich ermittelt habe, auch natürlich wieder zurückgespielt werden und auch für die Auffindbarkeit dieser Instagram-Fotos natürlich genutzt werden.

[00:18:51] Doreen Siegfried:
Ja, okay.

[00:18:51] Florian Stahl:
In gewisser Weise ist es ja eine endogene Geschichte, die sich auch über die Forschung dann ergibt, dass man die Daten dann auch leichter wiederfinden kann, wenn auch die, sage ich mal, extrahierten Patterns aus den Daten auch zurückgespielt werden und für Metadaten verwendet werden kann.

[00:19:05] Doreen Siegfried:
Ja, super. Vielen Dank Herr Stahl. Vielen Dank auch da draußen. Ich hoffe, es hat Ihnen gefallen. Lassen Sie uns gern Feedback da. Abonnieren Sie uns fleißig auf iTunes oder Spotify. Und ich freue mich auf das nächste Mal. Auf Wiederhören.