Folge 10: Data Policies

The Future is Open Science – Folge 10: Data Policies

Audio

Hinweis: Diese Folge wurde bereits im August 2020 aufgezeichnet.

Dr. Doreen Siegfried
Leitung Marketing und Public Relations, ZBW – Leibniz-Informationszentrum Wirtschaft

Sven Vlaeminck
Projektmanager im Kontext Forschungsdaten, Produktmanager des ZBW Journal Data Archives, ZBW – Leibniz-Informationszentrum Wirtschaft

[00:00:03] Doreen Siegfried:
Willkommen bei „The Future is Open Science“, dem Podcast der ZBW. Hier verraten Ihnen interessante Menschen aus dem Wissenschaftsbetrieb, wie sie in Ihrer täglichen Arbeit Open Science voranbringen. Wir tauchen ein in die Tiefen der Wissenschaftskommunikation im digitalen Zeitalter und verraten Ihnen handfeste Tipps und Tricks zur Open Science in der Praxis. Ich bin Doreen Siegfried und freue mich sehr, Host dieses Podcast zu sein.

[00:00:33] Doreen Siegfried:
Hallo und herzlich willkommen zu einer neuen Folge von „The Future is Open Science“, dem Podcast der ZBW. Ich freue mich sehr, dass Sie eingeschaltet haben. Wir reden nämlich heute über Data Policies und die Ausbildung von Ökonomie-Doktoranden und Doktorandinnen im Umgang mit Forschungsdaten. Und zu Gast habe ich heute hier Sven Vlaeminck. Ich freue mich, dass wir hier zusammensitzen Sven.

[00:00:59] Sven Vlaeminck:
Ja, vielen herzlichen Dank für die Einladung.

[00:01:02] Doreen Siegfried:
Ich stelle dich erst einmal vor. Du bist Politikwissenschaftler, Projektmanager im Kontext Forschungsdaten, vor allem sozial- und wirtschaftswissenschaftliche Forschungsdaten, zeitgleich Produktmanager des ZBW Journal Data Archives. Das Journal Data Archive ist ein Data Repository für wirtschaftswissenschaftliche Fachzeitschriften. Und diese Fachzeitschriften können dort in diesem Repository Forschungsdaten zu Artikeln speichern und bereitstellen. Sven Vlaeminck ist außerdem einer der Autoren der Handreichung „Auffinden, Zitieren, Dokumentieren – Forschungsdaten in den Sozial- und Wirtschaftswissenschaften“. Also wer von Ihnen, liebe Zuhörerinnen, liebe Zuhörer, das noch nicht kennt, Sie finden es ganz einfach. Ganz einfach googeln bzw. wir packen es auch in die Shownotes. Eine Handreichung, die uns seit vielen Jahren hier aus den Händen quasi gerissen wird. Also herzlich willkommen, Sven!

[00:02:02] [beide lachen]

[00:02:04] Doreen Siegfried:
Sven, du hast dich lange Zeit mit der Analyse von Data Policies von wirtschaftswissenschaftlichen Fachzeitschriften befasst. Wie ist die Lage?

[00:02:13] Sven Vlaeminck:
Ja, da kann man eine Menge zu sagen. Vielleicht fangen wir mal erst einmal ganz vorne damit an und sagen erst mal, was sind überhaupt solche Data Policies? Das ist ja vielleicht nicht allen so direkt klar. Also, das sind Richtlinien, die Fachzeitschriften haben, und die darauf abzielen, dass, sage ich mal, bei empirischen ökonometrischen experimentellen Forschungen, die publiziert werden, auch die Daten zu diesen Forschungen mit eingereicht werden. Also nicht nur das Manuskript. Und alle diese Richtlinien zielen eigentlich darauf ab, die Ergebnisse, die im Paper publiziert werden, nachvollziehbar, also reproduzierbar zu machen. Das ist sozusagen das große Ziel dieser Policies. Ja, ansonsten, die Lage im Moment ist ziemlich interessant. Also die wirtschaftswissenschaftlichen Fachzeitschriften machen seit einiger Zeit auch eine bemerkenswerte Entwicklung durch. Das scheint mir eigentlich so, dass gerade diese ganzen Debatten um Open Science, die ja in den verschiedenen Kontexten jetzt auch schon längere Zeit geführt werden, inzwischen auch die großen und mittel oder großen und mittelgroßen Verlage erreicht haben und darüber auch die Fachzeitschriften sich zunehmend mehr mit dem Thema befassen. Inzwischen kann man auch sagen, unter den Fachzeitschriften mit Impact Factor, die ja als die relevantesten gelten, sag ich mal so, hat inzwischen auch die Mehrheit eine wie auch immer geartete Data Policy.

[00:03:44] Doreen Siegfried:
Ah ja, okay. Also gehört es quasi zum guten Ton mittlerweile?

[00:03:46] Sven Vlaeminck:
Ja, man könnte sagen, es ist der gute Ton. Man könnte vielleicht aber auch darüber hinausgehen und sagen ja, es wird allgemein anerkannt, dass das Ganze eine Bedeutung hat und dass es wichtig ist, auch für Wissenschaft, Wissenschafts-prozesse. Und genau. Ich glaube, die Verlage sind hier schon sehr große Driver in dieser Entwicklung. Und ich hatte ja gesagt, es sind vor allen Dingen die großen und mittelgroßen Verlage, die da vor allen Dingen ein Auge draufhaben. Und ich glaube, das kommt auch nicht von ungefähr, dass es gerade die sind sozusagen, die hier ein bisschen vorangehen.

[00:04:16] Doreen Siegfried:
Ja, okay. Und du hast ja diese Data Policies untersucht: wie sieht denn da so die Bandbreite aus? Also gibt es da so Typen von Policies oder lassen sich Cluster bilden?

[00:04:27] Sven Vlaeminck:
Ja, das ist möglich. Also die Bandbreite ist erstmal also wirklich riesig, muss man sagen. Wir finden da Richtlinien vor, die mehrere A4-Seiten lang sind, sehr granular, sehr detailliert. Passend sag ich mal für die verschiedenen methodischen Herangehensweisen. Also sozusagen, was brauche ich, wenn ich ein Experiment gemacht habe, was muss ich da entsprechend einreichen, um Reproduzierbarkeit möglichst sicherzustellen. Wie ist es bei Simulationen, die ich mache oder wie ist es bei ganz normalen anderen ökonometrischen Verfahren. Also da gibt’s teilweise sehr ausführliche Policies. Aber es gibt auch Policies, die gerade mal zwei Seiten oder zwei Sätze, Entschuldigung, gerade mal zwei Sätze lang sind.

[00:05:11] Doreen Siegfried:
Zwei Sätze?

[00:05:12] Sven Vlaeminck:
Also, was noch gerade, also man muss schon fast ein Auge zu machen, um zu sagen, das ist noch eine wirkliche Policy. Aber so kann man das dennoch bewerten. Die Mehrheit der Policies muss man auch sagen, die ich gefunden habe, sind eher knapp gehalten. Also ich sage mal so, zwei Absätze vielleicht von der Länge her und auch nicht unbedingt immer sehr detailliert. Häufig eher generisch. Also was bei mir den Eindruck erweckt hat, okay, diese Richtlinien sind quasi von den Verlagen eigentlich, werden allen Fachzeitschriften angeboten.

[00:05:48] Doreen Siegfried:
So ein Standardtext ja.

[00:05:49] Sven Vlaeminck:
Ja genau. Das klingt jetzt etwas negativ, aber ja. Also sagen wir mal, es ist so eine Muster-Policy, könnte man sagen. Zum Thema irgendwie Daten, was dann vielleicht auch für die Naturwissenschaften genauso passt oder sowas. Genau.

[00:06:03] Doreen Siegfried:
Und hast du hier eine Entwicklung im Laufe der Zeit beobachtet? Also du hast ja gesagt, jetzt gerade vor kurzem sind da nochmal mehr dieser Data Policies entstanden. Wie kannst du diese Entwicklung oder gibt’s eine Entwicklung und wenn ja, wie kannst du die beschreiben?

[00:06:25] Sven Vlaeminck:
Ja, also vielleicht kann man nochmal ganz generell sagen zur Clusterung erst einmal: es lassen sich zwei grobe Typen von Policies ausmachen. Also das gilt eigentlich jetzt für die gesamte Zeit schon. Das eine sind sogenannte Data Availability Policies und das andere habe ich mal Author Responsibility Policies getauft. Der Unterschied zwischen diesen beiden Arten von Policies ist, dass eine Data Availability Policy für gewöhnlich aussagt: „Lieber Autor, liebe Autorin, wenn du hier einen Artikel veröffentlichst, erklärst du dich dazu bereit, mit dem Manuskript oder spätestens mit der Annahme deines Beitrages auch die verwendeten Daten, sofern rechtlich möglich, plus die Dokumentation deines, deiner Forschung und auch vielleicht dem Programmcode, wenn es um ökonometrische Analysen geht, zum Beispiel, mit einzureichen“. Diese Daten werden dann veröffentlicht durch die Redaktion oder die Autorinnen und Autoren tun das selber in einem Data Repository, dem Journal Data Archive der ZBW beispielsweise. Und was die Entwicklung angeht, da ist wirklich sehr viel passiert. Ich habe die erste Studie zum Thema hab‘ ich vor ungefähr acht Jahren gemacht. Da war das Thema Data Policies noch ein recht übersichtliches Feld. Ich hatte mir damals so rund 140 Fachzeitschriften angeschaut und habe mal geguckt na, wer hat denn eigentlich da irgendwie sowas, was man so eine Data Policy nennen könnte? 28 Prozent hatten da so eine Date Policy, also beide Typen sozusagen zusammengezählt. Vor sechs Jahren habe ich dann nochmal eine aktualisierte Studie dazu gemacht, mit diesmal fast 350 Journals, also deutlich mehr. Da waren es sogar nur 20,5 Prozent der Journals, …

[00:08:15] Doreen Siegfried:
Okay.

[00:08:16] Sven Vlaeminck:
… die eine entsprechende Richtlinie hatten. Heute ist das anders. Also ich hab‘ mir im letzten Jahr die Policies aus einem Sample von auch ungefähr 340 Zeitschriften angesehen und davon hatten inzwischen, von denen zumindest die empirische Beiträge veröffentlichen, ansonsten haben wir ja sozusagen, dann ist die Grundgesamtheit nicht in Ordnung, weil rein theoretische Zeitschriften, die nur theoretische Beiträge veröffentlichen, brauchen auch keine Data Policy. Wenn ich die ins Sample mit einbeziehen würde, hätten wir natürlich entsprechend …

[00:08:51] Doreen Siegfried:
Verzerrte Ergebnisse.

[00:08:51] Sven Vlaeminck:
Ja, exakt, genau. Und genau, von denen also, die solche Beiträge annehmen und publizieren, hatten mehr als zwei Drittel inzwischen eine wie auch immer geartete Richtlinie. Also das ist ein erheblicher Aufwuchs, muss man sagen, den ich auch tatsächlich so nicht erwartet hatte. Wenn man dann so schaut, okay, was macht denn aber eigentlich die Qualität dieser Policies? Ich hatte ja gesagt, es gibt sehr lange, die sind dann meist auch sehr gut, sag ich mal. Und es gibt sehr kurze und es ist dann auch häufig so, dass diese sehr kurzen jetzt auch, sag ich mal begrenzt hilfreich sind.

[00:09:26] Doreen Siegfried:
Okay. Das heißt, das heißt was?

[00:09:27] Sven Vlaeminck:
Dass sie begrenzt hilfreich sind?

[00:09:28] Doreen Siegfried:
Ja.

[00:09:29] Sven Vlaeminck:
Naja, ich sage mal, eine Standardformulierung, die man so häufig findet ist: „Autorinnen und Autoren sollten im Methodenkapitel ausreichend beschreiben, wie sie die Daten erhoben, bereinigt haben und ansonsten auch alle Informationen mitliefern, die dazu nötig sind, um die Ergebnisse dieses Papers zu replizieren“. Schreibt man schnell und gerne mal so. Ist aber natürlich in der Praxis schlechterdings gar nicht umsetzbar, weil diese Informationen, die z.B. mein Duval enthält, also der Programmcode, den ich irgendwie an… Das ist natürlich in der Länge und Ausführlichkeit keinesfalls in einem Paper überhaupt unterzubringen. Genauso wie die Dokumentation eines Datensatzes, der auch häufig, ich sag mal, die Codebücher umfassen ja teilweise Dutzende von Seiten oder noch mehr, also das ist insofern einfach illusorisch. Und genau. Ich glaube, man muss sehr häufig diese Policies auch eigentlich quasi in so einer Entwicklung betrachten. Das heißt, jetzt gerade haben wir dann eigentlich eher einen Punkt, dass die Autorinnen und Autoren mal freundlich drauf aufmerksam gemacht werden, dass das Thema Daten ja auch nicht so ganz unwichtig ist und dass man da sozusagen auch ein Augenmerk draufhaben sollte. So lese ich die meisten Dinge. Und die Frage ist dann eigentlich, ob in der Zukunft hier möglicherweise diese Policies auch a) detaillierter werden und b) verpflichtender. Weil der Verpflichtungsgrad ist bislang sehr gering. Das sind weniger als 25 Prozent dieser Policies, die verpflichtend sind für Autorinnen und Autoren. Ansonsten ist es meist eine Empfehlung, eine Bitte, ein freundlich formulierter Hinweis.

[00:11:09] Doreen Siegfried:
Okay. Das heißt, es gibt noch nicht eine Checkliste, so wie beim, ich sag mal beim Einwohnermeldeamt, wo dann steht zwei Passbilder mitbringen und die Hochzeitsurkunde und die Geburtsurkunde. Check, check, check, check. Ansonsten kriege ich das nicht. So ist es nicht?

[00:11:28] Sven Vlaeminck:
Es gibt auch genau das.

[00:11:30] Doreen Siegfried:
Ach, das gibt es auch?

[00:11:31] Sven Vlaeminck:
Das gibt es auch. Es gibt einige hervorragende Policies, beispielsweise die Data and Code Availability Policy der American Economic Association. Beinhaltet mehr oder minder genau das. Es ist eine detaillierte Auflistung, was mitgeliefert werden muss und auch wann. Genau. Und da könnte man tatsächlich so vorgehen quasi und eine Checkliste entsprechend abkreuzen. Bei vielen der Policies ist es nicht so, sondern da muss man selber auf jeden Fall anfangen zu interpretieren, was sich hinter diesen Begriffen, vielleicht diesen eher abstrakten Begriffen, ich hatte ja gesagt, diese Policies sind häufig generisch, da ist dann die Rede von Software Data oder other materials sufficient to permit replication, something like that.

[00:12:19] Doreen Siegfried:
Okay. Und da ist dann wahrscheinlich auch keine Deadline oder so mit verbunden, oder das es heißt, bis zu x, y, z Tagen muss das spätestens eingereicht sein.

[00:12:32] Sven Vlaeminck:
Im Regelfall ist es so, dass zumindest in der Praxis, außer bei den wirklichen Top Top Journals, könnte man sagen, die das auch mit der Einreichung auch direkt fordern. Oder meist ist es so, glaube ich, in der Praxis, dass mit Annahme eines Artikels diese Daten entsprechend eingestellt werden. Das hat insofern eine gewisse Problematik, als dass die Daten dann natürlich nicht Teil des Peer Review Prozesses sind, was natürlich wünschenswert wäre.

[00:13:01] Doreen Siegfried:
Ja okay, verstehe.

[00:13:04] Sven Vlaeminck:
Insofern, genau, könnte man sagen, dadurch, dass die Daten dann aber nachträglich zur Verfügung stehen, ist durch die Community natürlich prinzipiell ein solcher nachträglicher Peer Review Prozess möglich. Und das unterscheidet natürlich solche Forschung von Forschung, wo die Daten gar nicht zur Verfügung stehen. Insofern ist zumindest dann durch die Wissenschaftscommunity selber bei entsprechender Relevanz eine solche Prüfung auf Robustheit et cetera möglich.

[00:13:33] Doreen Siegfried:
Ja okay, verstehe. Gibt es denn, wenn man sich so die Policies anschaut, du hast ja gesagt, du hast jetzt über 300 Fachzeitschriften im letzten, in der letzten Welle untersucht. Gibt es da bestimmte Präferenzen bei den Fachzeitschriften?

[00:13:50] Sven Vlaeminck:
Verkürzt könnte man auch da sagen, es kommt ein bisschen auf den Verlag an oder sehr erheblich auf den Verlag an. Weil das, was ich schon sehr stark gefunden habe, ist, die Verlage scheinen ja die Taktgeber zu sein. In den älteren Untersuchungen haben auch sehr stark noch individuelle Policies, quasi wo Herausgebergremien selber Dinge ausgetüftelt haben oder, sag ich mal, beispielsweise die Policy der American Economic Association nachgenutzt haben und vielleicht nochmal angepasst haben. Jetzt scheint das eher so zu sein, dass wie gesagt, die Verlage da etwas vorgeben und die Fachzeitschriften das entsprechend dann auch übernehmen, um vielleicht mal erste Eindrücke davon zu bekommen, wie das Ganze eigentlich funktioniert. Und bei diesen Verlagen diese Policies sind wirklich auch sehr gleich gestaltet. Das ist dann gerade bei den Großen so, bei Elsevier, Springer Nature, Taylor & Francis und so. Da hat man wirklich sehr häufig sehr gleichlautende Abfolgen.

[00:14:50] Doreen Siegfried:
Ja okay. Gibt es Wissen, was die Herausgeber Herausgeberinnen haben müssen. Wenn du sagst okay, die Policies werden jetzt von den Verlagen vorgegeben. Was, wie gehen die Herausgeber damit um?

[00:15:06] Sven Vlaeminck:
Das ist natürlich auch von Journal zu Journal, glaub ich, recht unterschiedlich. Wir hatten auch mal vor einigen Jahren eine Befragung gemacht unter den Herausgeberinnen und Herausgebern und da haben uns auch einige Journals geantwortet, dass die tatsächlich diese Policies ausgesprochen ernst nehmen und auch die Daten in den Peer Review-Prozess mit einbringen. Und auch selber quasi prüfen irgendwie, ob diese Ergebnisse, die da eigentlich eingesandt wurden, reproduzierbar sind. Das ist aber eher die Ausnahme und das hat auch sehr viel mit Ressourcen zu tun, die Fachzeitschriften zur Verfügung haben. Meist, bis auf die wirklichen Top Journals, sind es ja häufig doch recht kleine Journals, wo man dann sozusagen den Herausgeberkreis hat und vielleicht noch ein, zwei Hiwis. Und das ist natürlich ein gewisses Problem dann, sag ich mal, einen Peer Review der Daten auch tatsächlich vorzunehmen. Zumal es da nicht nur um methodische Abhängigkeiten geht, sondern auch softwaretechnische. Also das ist, und natürlich Reviewer allgemein sehr gefragt sind und sehr viel zu tun haben, gerade jetzt. Wir haben Publikationen, so viel wie noch nie, quasi. Es wird unglaublich viel publiziert und da ist es für viele auch eine Herausforderung und eine Hürde, auch ein Peer Review der Daten tatsächlich mit vorzunehmen. Weil das ist schon nochmal eine Nummer komplizierter, gerade wenn dann häufig dann doch mal Dokumentationen und Beschreibungen fehlen, als es beispielsweise ist, dann einfach „nur“ den Artikel zu reviewen.

[00:16:42] Doreen Siegfried:
Ja, okay, verstehe. Du hattest ja eingangs gesagt, dass jetzt bei der letzten Untersuchung ungefähr zwei Drittel der Fachzeitschriften Data Policies haben. Gab’s noch irgendein Ergebnis, was dich besonders überrascht hat?

[00:17:00] Sven Vlaeminck:
Ja, also neben dem erheblichen Zuwachs, war es vor allen Dingen dieses, dass diese Policies halt eben so gleichlautend formuliert sind. Also das hat mich tatsächlich überrascht, dass ich die wirklich sehr einfach gruppieren konnte. Teilweise ist es dann auch so gewesen, dass zwischen verpflichtenden und freiwilligen Policies oftmals einfach nur ein Verb ausgetauscht wurde. Da wird man dann halt eben nicht mehr darum gebeten, die Daten einzureichen, sondern es wird halt eben gesagt, es ist eine Bedingung für die Veröffentlichung. Das Prinzip ist die Policy aber komplett gleich. Also das sind aber auch schon die besseren, wo sozusagen eigentlich nur ein sehr kleiner Anteil irgendwie gedreht wurde und gleich aber natürlich ein anderer Verpflichtungsgrad irgendwie dabei herauskommt. Man sollte aber auch dadurch, dass sozusagen die Verlage diese Policies halt eben strukturieren, nicht davon ausgehen, dass es sich da um einen Standard handelt, der da entwickelt wird. Sondern von Verlag zu Verlag ist, was in diesen Policies drinsteht, oftmals nicht sehr deckungsgleich. Die einen betonen halt eben nur die Daten, die anderen sagen auch ganz klar hier der Programmcode, so alle Details irgendwie, die zu den Ergebnissen und mit der Programmierung der Ergebnisse zu tun haben, müssen eingereicht werden. Die anderen vergessen das sozusagen oder betonen das nicht so massiv. Andere sagen auch wieder einfach nur „Ja, lieber Autor, lieber Autorin, wenn du bei uns publizierst, gehen wir davon aus, dass du im Falle von Anfragen nach den Daten deine Daten halt eben auch bereitstellst“. Und da haben verschiedene Studien auch gezeigt, dass solche Policies, das sind nämlich genau die sogenannten Author Responsibility Policies, also wo der Autor, die Autorin die Verantwortung dafür hat, dass die Ergebnisse reproduziert werden können. Das funktioniert in der Praxis einfach nicht, weil, ich sage mal ganz salopp, die Leute haben auch andere Dinge zu tun und haben auch eigentlich kein Interesse daran, irgendwie noch Arbeit und Zeit zu investieren, damit andere die von ihnen längst publizierten Ergebnisse reproduzieren können. Da haben die nichts von. Und darum sind solche Policies eher immer recht ungünstig. Sie funktionieren nicht gut. Aber es gibt nach wie vor einen gar nicht so kleinen Anteil an Zeitschriften, die immer noch diese Policy verwendet.

[00:19:29] Doreen Siegfried:
Das finde ich jetzt spannend. Welcher Anteil ist dann größer oder kannst du das irgendwie quantifizieren: die verpflichtenden Data Policies, wo drinsteht, es muss abgeliefert werden und die eher mahnenden, nenne ich sie mal, du sagtest jetzt hier von, wie hast du es genannt? Author…

[00:19:49] Sven Vlaeminck:
Author Responsibility

[00:19:50] Doreen Siegfrid:
Author Responsibility, genau. Also welche Art von Policy überwiegt?

[00:19:59] Sven Vlaeminck:
Also wir haben sozusagen sowohl Data Availability Policies, die verpflichtend sind, als auch Author Responsibility Policies, die verpflichtend sind.

[00:20:08] Doreen Siegfried:
Okay, wenn wir da mal sortieren in verpflichtend und nicht verpflichtend, sondern nur wenn, dann mach doch bitte und sei so nett, wie nennen wir die mal „höfliche“, keine Ahnung, Policies. Also welcher Anteil ist größer?

[00:20:26] Sven Vlaeminck:
Also insgesamt überwiegt auf jeden Fall die Freiwilligkeit.

[00:20:29] Doreen Siegfried:
Ja.

[00:20:29] Sven Vlaeminck:
Durchgängig. Also man kann sagen, je höher quasi eine Zeitschrift gerankt ist. Also so ganz trifft es nicht zu, aber in die Richtung gehend auf jeden Fall. Je höher eine Zeitschrift gerankt ist, desto wahrscheinlicher ist es, dass die Policy auch verpflichtend wird. Insgesamt, wie gesagt, über beide Arten von Policies hinweg quasi ist nur ein Viertel verpflichtend, weniger als ein Viertel. Und ich glaube, der Anteil bei diesen Author Responsibility Policies ist, wenn ich mich richtig erinnere, sogar noch ein wenig höher als die der Data Availabilty Policies. Das macht auch sozusagen aus so einer Herausgebersicht auch durchaus Sinn. Man sagt okay, du musst deine Daten gar nicht einreichen, aber wenn du dann hier publizierst, dann verlangen wir von dir auch ganz ausdrücklich, dass du mit anderen Forschenden zusammenarbeitest und deine Daten auch tatsächlich dann herausgibt. Nur muss man natürlich auch sagen, in den Fällen, wo das nicht passiert, gibt’s natürlich auch keine Sanktionsmöglichkeiten.

[00:21:25] Doreen Siegfried:
Ja, da kommt da niemand und sagt „jetzt reißen wir die Seite raus, weil du hast es nicht gemacht“ [lacht].

[00:21:29] Sven Vlaeminck
Ja oder was sehr gerne passiert, ein Datenverlust: „Ich habe die Daten gelöscht“. Also es gibt da sehr – findet man in der Literatur auch – sehr viele kreative Gründe, warum die Daten halt eben nicht mehr da sind.

[00:21:42] Doreen Siegfried:
Ja, ja, okay. Und sag mal, du sagtest, die Verlage sind jetzt schon sehr bemüht, Data Policies an die Fachzeitschriften abzugeben. Würdest du sagen, da gibt’s demnächst mal eine Harmonisierung, was diese Data Policies betrifft? Oder wird es eher nochmal eine weitere Diversifizierung geben?

[00:22:05] Sven Vlaeminck:
Ja. Also das ist eine sehr spannende Frage. Ich glaube, die Frage ist eigentlich eher: Werden die Policies eher in die Richtung gehen, dass sie fachspezifisch erlassen werden oder bleibt man auf so einem generischen Level? Sobald das sozusagen stärker fachspezifisch wird, denke ich. Also da gibt es Standards sozusagen, da gibt’s den Goldstandard. Und man muss ganz einfach sagen, das ist der der American Economic Association, das ist völlig sinnvoll. Ich war vor ein paar Jahren auch der festen Auffassung, dass das quasi sich zu einem quasi Standard entwickelt, weil da sozusagen diese Policy wirklich sehr dominant war. Diese jüngeren Entwicklungen jetzt mit diesen generischen Policies der Verlage weisen in eine andere Richtung. Insofern, ich glaube, es wird da einfach ein Nebeneinander auch weiterhin geben, sag ich mal. Generische allgemeine Formulierungen dazu, könnte ich mir auch gut vorstellen, werden auch noch längere Zeit überwiegen. Und es ist glaube ich dann eher, es liegt glaube ich wahrscheinlich eher nochmal sehr viel stärker dann an den Herausgeberinnen und Herausgebern zu sagen, dieser Bereich ist uns wichtig. Hier wollen wir auf jeden Fall eine genauere Spezifizierung dessen haben. Ich glaube, das ist was, da wird sich auch kein Verlag dem entgegenstellen und sagen, nee, nee, nee.

[00:23:17] Doreen Siegfried:
Ja. Okay, verstehe. Nochmal was Anderes: du gibst ja auch zusammen mit einer Kollegin, mit Martina Grunow, Kurse für den wissenschaftlichen Nachwuchs. Ich sag mal so, grob um das Thema Forschungsdaten. Was macht ihr da genau?

[00:23:36] Sven Vlaeminck:
Ja, also das Thema oder sozusagen der Kurs heißt ja „Gute wissenschaftliche Praxis und reproduzierbare Forschung mit STATA“. Damit ist sozusagen dann schon ein bisschen was umrissen, was wir da so konkret machen. Insgesamt ist es so, dass wir thematisch bei den Aspekten der guten wissenschaftlichen Praxis beginnen, weil es sehr zentral ist, auch insgesamt für die ganzen Fragen von Open Science, aber Reproduzierbarkeit auch. Dann geht es weiter über Bereiche wie Datendokumentation, Datenorganisation haben wir mit dabei. Und wir reden aber auch über die Anforderungen an reproduzierbare Forschung und Replikation. Und, last but not least, erzählen wir auch noch ein bisschen was zu den Anforderungen, die Fachzeitschriften und Forschungsförderer haben, nämlich genau an den Stellen, wenn ich einen Artikel einreichen möchte oder aber ein Projektantrag z.B. auch schreibe, was ich da auch beachten sollte, so wie ich mit diesen Herausforderungen umgehe.

[00:24:35] Doreen Siegfried:
Und wie würdest du hier den Bezug zu Open Science konkret beschreiben?

[00:24:41] Sven Vlaeminck:
Man kann sagen, also wenn man die gute wissenschaftliche Praxis ernst nimmt, dann, die gute wissenschaftliche Praxis ist in den allermeisten Punkten eigentlich aus meiner Sicht vielleicht etwas zugespitzt formuliert, aber ist das Open Science. Das heißt, wenn ich eigentlich Reproduzierbarkeit von Ergebnissen oder die Robustheit von Ergebnissen auch prüfen möchte, brauche ich natürlich sozusagen die Methodik, die verwendet wurde, also den Programmcode, sag ich mal jetzt bei einer ökonometrischen Analyse. Die Methodik muss also offen sein. Die Daten benötige ich ebenfalls, so dies unter rechtlichen Aspekten möglich ist, und natürlich auch die Dokumentation der Daten selber oder eine Dokumentation des Forschungsprozesses. Insofern da gibt’s einen sehr, sehr engen und unmittelbaren Zusammenhang zu Open Science-Praktiken sozusagen. Ja, genau. Und damit, dass diese Daten und die Methoden quasi auch vorliegen, eröffne ich natürlich in gewisser Art und Weise auch oder ermögliche ich überhaupt eine wissenschaftliche Diskussion auch in der Community. Weil sonst kann ich mich natürlich über das Paper und die Schlussfolgerungen davon unterhalten, aber das Bild wird doch nochmal gerade im Bereich, sag ich mal, oder von Fragen von Robustheit, ist das verallgemeinerbar, was da jetzt drinsteht. Da brauche ich ein bisschen mehr als das Paper.

[00:25:55] Doreen Siegfried:
Ja, okay, verstehe. Die Studierenden Schrägstrich Doktorand:innen, ich glaube, es sind in erster Linie Nachwuchswissenschaftler, die da in diese Workshops kommen. Genau. Also wo lernen die denn, wenn sie jetzt gerade nicht in den Workshop kommen, wo lernen die denn dieses ganze Thema Umgang mit Forschungsdaten momentan?

[00:26:19] Sven Vlaeminck:
Ja, also da ist natürlich prinzipiell ist es natürlich das Studium, in dem das Ganze vorkommt. Das heißt, da gibt’s natürlich die grundsätzliche wissenschaftliche und statistische Ausbildung, die das zumindest in Teilen auch abdeckt. Aber meistens ist es, sag ich mal, kein sehr starker Schwerpunkt eigentlich in der Ausbildung. Es ist vor allen Dingen auch häufig so, dass es ohne konkrete Anwendung halt eben auch gelehrt wird und dass zu wenig konkret mit Daten tatsächlich auch gearbeitet wird. Und auch das Thema Reproduzierbarkeitserfordernisse das taucht mal so auf, genauso wie die gute wissenschaftliche Praxis auch mal so auftaucht. Aber da ist es wahrscheinlich so, dass dort ein etwas stärkerer Schwerpunkt draufgelegt werden müsste, damit dieses Wissen sozusagen etwas breiter eigentlich an der Stelle ankommt. Weil vieles auch sozusagen von den Sachen, das machen Leute learning by doing oder im Austausch halt eben mit ihrer Peergroup oder mit anderen Promovierenden. Und da werden sich dann die Kenntnisse auch so nach und nach angeeignet. Also eine Mischung aus beidem, denke ich ja.

[00:27:28] Doreen Siegfried:
Ja, okay, also es ist ja eigentlich Methodenkompetenz, ne?

[00:27:31] Sven Vlaeminck:
Ja.

[00:27:31] Doreen Siegfried:
Ja, okay. Wo kommen die Leute her, die eure Workshops besuchen?

[00:27:38] Sven Vlaeminck:
Ja, das ist ganz interessant. Also die kommen wirklich aus ganz Deutschland, aus dem Osten so ein bisschen weniger, aber ansonsten quer durch die gesamte Republik. Wir hatten schon Teilnehmende aus Österreich, die ja quasi extra aus Österreich nach Hamburg angereist sind, um an diesem eintägigen Workshop teilzunehmen. Wir hatten auch schon Teilnehmer aus den Niederlanden, also das ist schon wirklich, die Anmeldungen kommen quasi von überall her so. Und das ist natürlich hervorragend.

[00:28:08] Doreen Siegfried:
Ja, okay. Also liebe Zuhörerinnen, liebe Zuhörer, wenn auch Sie mal so einen richtigen, so einen richtig guten Workshop brauchen zum Thema Umgang mit Forschungsdaten, dann gucken Sie doch mal auf unserer Webseite, wann der nächste Termin mal wieder startet. Ja, Werbeblock zu Ende an dieser Stelle.

[00:28:29] [beide lachen]

[00:28:31] Doreen Siegfried:
Welche Erfahrungen, ihr macht das jetzt schon eine ganze Weile, welche Erfahrungen habt ihr da gesammelt?

[00:28:37] Sven Vlaeminck:
Ja, also es ist ganz interessant. Erst einmal sozusagen vom Spektrum, wo die Leute so herkommen. Also wir haben da Leute von den FHs, von vielen Universitäten und vielen wirtschaftswissenschaftlichen Forschungsinstituten, gerade auch aus der Leibniz-Gemeinschaft. Und so die Erfahrungen, die wir, aber auch die Teilnehmende gemacht haben, sind eigentlich durch die Bank sehr gut, muss man sagen. Wir haben da wirklich extrem motivierte Leute sitzen. Und das führt natürlich auch dazu, dass wir dann eine ziemlich gute Atmosphäre haben, eine gute Arbeitsatmosphäre und wo glaube ich auch die kleinen Gruppen, wir haben ja im Regelfall immer unter 20 Teilnehmende an diesen Kursen, und das führt natürlich dazu, dass man zu einem sehr intensiven Austausch auch miteinander kommt. Und das ist auch von uns beabsichtigt. Also mit diesem eintägigen Format haben wir auch festgestellt, dass funktioniert hervorragend. Das ist ein sehr intensiver Tag für die Teilnehmenden und auch für uns, muss man auch sagen. [lacht]. Aber ich glaube, das Herzstück ist immer so ein bisschen dieser hohe Praxisanteil, den wir auch haben. Fast 50 Prozent, wo dann halt eben in Kleingruppen von so drei Leuten, vier Leuten quasi halt eben Fragestellungen bearbeitet werden und wo Leute tatsächlich auch was von mitnehmen und ein Aha-Erlebnis auch haben, denke ich. Also hören wir jedenfalls auch häufig.

[00:29:53] Doreen Siegfried:
Okay. Was geben die Teilnehmer, Teilnehmerinnen euch so für Feedback?

[00:29:59] Sven Vlaeminck:
Ja, wir machen immer so einerseits eine Abschlussrunde, wo wir so ein bisschen hören, aber dann geben wir auch tatsächlich nochmal quasi Selbstevaluierungsfragebögen aus. Das eine ist natürlich, dass man sozusagen offen was äußert, aber wir wollen natürlich wissen, sozusagen, wie finden die Leute das eigentlich wirklich. So, weil das ist ja manchmal ein bisschen schwierig, dann vielleicht in so einer Runde irgendwie zu sagen „Nee, fand ich jetzt irgendwie doof.“ oder „Ihr hattet irgendwie keine Ahnung.“ oder so und darum machen wir das auch schriftlich. Eine der Fragen dabei z.B. ist, welche Schulnote man dieser Veranstaltung geben würde. Und da ist die Durchschnittsnote, die wir haben, eine solide 1,5.

[00:30:37] Doreen Siegfried:
Respekt.

[00:30:37] Sven Vlaeminck:
Da sind wir also sehr froh und es scheint also auch sehr gut anzukommen. Und was wir auch quasi mitbekommen ist, dass die Teilnehmenden halt eben anderen, ihren Kommilitonen oder anderen Promovierenden auch Bescheid geben. Das heißt, man merkt auch, okay, es sind halt eben auch häufig dieselben Institute, wo die Leute dann auch sagen „Ja, ich habe jetzt hier irgendwie von einem Kollegen nur irgendwie gehört, irgendwie, das hier ist voll der coole Kurs. Und darum wollte ich den jetzt auch mal machen“. Und ja und also das spricht sozusagen sich auch rum. Das ist natürlich auch sehr schön und freut uns sehr.

[00:31:10] Doreen Siegfried:
Ja, sehr schön. Ist das Ganze, also, wenn du sagst, es gibt so viel Nachfrage und die Leute kommen aus Österreich und aus den Niederlanden und aus der ganzen Republik und aus Süddeutschland und so weiter, ist es irgendwie skalierbar?

[00:31:25] Sven Vlaeminck:
Schwierig, muss man sagen. Und das hängt vor allen Dingen eigentlich damit zusammen, dass immer nur eine bestimmte Anzahl an Doktorandinnen und Doktoranden eigentlich pro Jahr anfängt. Das ist sozusagen insofern ein, sag ich mal, überblickbares Feld. Und man muss natürlich auch dazusagen, dass die Leute, die anfangen, auch nicht unbedingt sich alle mit diesen Methoden und Fragen befassen oder befassen müssen in ihrer Promotion. Daher also, ich glaube, es ist sozusagen schon noch ein bisschen ausdehnbar. Beispielsweise indem wir uns auch auf andere Software beziehen, also jetzt ist sozusagen STATA. Wir lehren das sozusagen in Bezug auf STATA und hier sind natürlich auch andere Softwareprogramme sozusagen denkbar irgendwie, mit denen wir das Ganze eigentlich ähnlich, wo wir ähnlich verfahren können. Insofern an der Stelle ist es sicher skalierbar, aber die reine Anzahl an Doktorandinnen und Doktoranden pro Jahr ist halt eben, die steigt ja auch nicht unendlich an. Sondern ist relativ gleich.

[00:32:28] Doreen Siegfried:
Ja. Und was würdest du sagen, muss sich dann die Doktorandenausbildung vielleicht ändern, anpassen? Was glaubst du, was wird da so in der nächsten Zeit notwendig sein?

[00:32:40] Sven Vlaeminck:
Also wenn wir sozusagen über unseren Kurs reden und die Dinge, die wir vermitteln, und für die es ja offenbar auch schon einen massiven Bedarf gibt, irgendwie in der Community, würde ich  vielleicht sagen, das ganze Thema Open Science Praktiken und Reproduzierbarkeit sollte eigentlich in der wissenschaftlichen Ausbildung etwas mehr Raum erhalten. Das hatte ich ja vorhin auch schon einmal entsprechend angedeutet. Replikationen beispielsweise werden sehr wenig, in der wissenschaftlichen Ausbildung zum Beispiel, durchgeführt. Dabei ist gerade eigentlich das Durchführen von Replikationen unter Umständen sehr, sehr hilfreich und kann auch durchaus einige Erkenntnisprozesse nicht nur in Hinsicht auf die Dokumentation sozusagen des eigenen Forschungsprozesses auslösen, sondern auch allgemein für das Verständnis, wie wurde sich komplexen ökonomischen Problemen eigentlich angenommen? Wie haben andere Forscher das eigentlich gelöst? So, und das sind natürlich sehr, sehr hilfreiche Wege sozusagen, die man da beschreiten kann, wenn man sozusagen den wissenschaftlichen Nachwuchs in die Richtung bringen möchte, also wie solche Probleme eigentlich gelöst werden können.

[00:33:46] Doreen Siegfried:
Ja, okay, müsste man sozusagen feste, ja, fest mit in die Curricula mit aufnehmen, dass man sagt okay,

[00:33:57] Sven Vlaeminck:
Ja, das wäre sozusagen…

[00:33:58] Doreen Siegfried:
einmal müssen alle durch so einen Replikationsworkshop durch oder -seminar. Genau.

[00:34:02] Sven Vlaeminck:
Ja. Das wäre insofern auch, man könnte fast sagen, sowas wie unsere Vision für die Zukunft. Wo man so sagen würde, ja, eigentlich, die Fachgesellschaften sollten sich stärker darum bemühen, dass diese ganzen Themen stärker in die Curricula auch hereinzubringen. Weil das Beste eigentlich, was unserem Kurs passieren kann, ist, dass er sich überflüssig macht. So, das wäre eigentlich sozusagen, das wäre die beste Vision, die wir haben, irgendwie, weil dieses Wissen sozusagen breit vermittelt wird auf Ebene der universitären Aus- und Fortbildung. Das wäre hervorragend.

[00:34:37] Doreen Siegfried:
Ja, okay. Letzte Frage Sven, wenn unsere Hörerinnen und Hörer sich jetzt für dieses Thema interessieren bzw. dieses Thema für sich entdeckt haben. Was wären so deine drei Tipps für die tägliche Praxis?

[00:34:53] Sven Vlaeminck:
Ja, drei Tipps. Hau, ja. Vielleicht erst einmal recht allgemein gesagt, es macht auf jeden Fall Sinn, sich sehr frühzeitig, also einerseits sozusagen in der eigenen wissenschaftlichen Aus- und Fortbildung mit dem Thema Reproduzierbarkeit und reproduzierbare Forschung zu befassen und dies in der Praxis auch einzuüben und zu leben. Das ist nicht unbedingt nur deswegen der Fall, weil es sozusagen gute wissenschaftliche Praxis ist, sondern weil es tatsächlich auch einen erheblichen Benefit bietet für die eigene wissenschaftliche Arbeit. Weil, ich sage mal so, der Klassiker ist ja, man arbeitet an einem Paper oder sowas, macht da seine methodischen Berechnungen, hat diese unterschiedlichen Arten von Daten, am besten, in einem Ordner verschiedene Testversionen dabei, wo man eigentlich nur mal Dinge ausprobiert, und zack, dann kommt der Anruf vom Professor. Jetzt gibt es gerade mal die nächsten zwei Wochen was ganz anderes zu tun und nach einer ganzen Weile schaue ich dann wieder auf meine Daten, frage mich „Was ist hier eigentlich die aktuellste Version und was hab ich hier eigentlich gemacht?“ Also eine gute Dokumentation, ein Kommentieren eigentlich dessen, was man da tut, ist sozusagen auch für einen selber sehr, sehr, sehr hilfreich, damit man nicht erst wieder zwei, drei Stunden braucht, um sich einzuarbeiten in die Daten und herauszufinden, was habe ich da eigentlich veranstaltet als erstes und warum. Also das ist auf jeden Fall hilfreich, das gleich mit einzuüben. Also immer beispielsweise den Analysecode oder sowas durchkommentieren, Überschriften machen, was passiert hier? Warum tu ich es hier? Quasi oder auch ein Logfile. Was habe ich wann und wann in diesem Code eigentlich gemacht und warum. Sehr, sehr hilfreich, auf jeden Fall. Das würde ich auf jeden Fall empfehlen. Oder noch stärker ist es natürlich, wenn ich ein Paper irgendwo einreiche und es dann erst nach einem dreiviertel Jahr aus einem Review wiederkommt und ich noch Dinge verändern soll und dann ist es also wirklich sehr aufwendig.

[00:36:54] Doreen Siegfried:
Das ist dann wirklich eine lange Zeit.

[00:36:56] Sven Vlaeminck:
Ja, ja, ja, auf jeden Fall genau. Ansonsten würde ich auch immer empfehlen, einfach mal zu Übungszwecken Replikationen oder Reproduktionen auch einfach mal selber durchzuführen, weil man auch hier etwas dabei lernt. Einerseits darüber, welche Informationen und welche Daten eigentlich wichtig sind, um Ergebnisse zu reproduzieren. Das heißt, auch da kriegt man einen kleinen Aha-Effekt und stellt fest, okay, also ohne Programmcode werde ich beispielsweise, selbst wenn die Daten vorliegen, nicht zu den Ergebnissen kommen, weil dann muss ich nämlich einen ganz anderen, also was Eigenes schreiben. Und ob das das ist, was der Autor oder die Autorin sich dabei gedacht hat, steht auf einem ganz anderen Blatt Papier. Und auch vielleicht noch als dritter Tipp, wenn man selber Daten erhebt, was ja auch gar nicht so selten vorkommt. Ich mein gerade in der BWL ist es ja auch Usus, selber Daten zu erheben. Sollte man gleich zu Beginn eigentlich schon die Nachnutzung der Daten, gegebenenfalls die Veröffentlichung mitdenken. Weil wenn ich beispielsweise mit Probanden irgendetwas mache oder auch bei Experimenten ist es beispielsweise so, sollte ich diese informierte Einwilligung z.B. nicht einholen im Vorfeld, wird es mir nicht möglich sein, aus rechtlichen Gründen diese Daten bereitzustellen. Genauso auch solche Fragen wie Lizenzen. Lizenzen sind natürlich sehr, sehr wichtig, damit ich auch weiß, was darf ich eigentlich mit diesen Daten machen. Da beispielsweise ist die CCBY 4.0 Lizenz immer, im Moment zumindest, eine sehr gute Lösung. Aber es macht immer Sinn, sich all diese Dinge zu Anfang zu überlegen, weil am Ende ist es meist eigentlich schon zu spät, dass man Dinge noch so umsetzen kann. Man hat Stress und hat Abgabedruck und so weiter und so fort. Insofern ja am Anfang am besten alles einmal auf sich wirken lassen und das ist sehr hilfreich.

[00:38:44] Doreen Siegfried:
Ja, okay, super. Ja, das waren tolle Tipps, vielen Dank Sven. Und vielen Dank auch da draußen. Ich hoffe, es hat Ihnen gefallen. Lassen Sie uns gerne Feedback da und abonnieren Sie uns fleißig auf iTunes oder Spotify. Ich freue mich aufs nächste Mal.