Folge 21: Replikation und Transparenz

The Future is Open Science – Folge 21: Replikation und Transparenz

Audio

Dr. Doreen Siegfried
Leitung Marketing und Public Relations, ZBW – Leibniz-Informationszentrum Wirtschaft

Lars Vilhuber
Data Editor der American Economic Association, Direktor des Labor Dynamics Institute, Cornell University

[00:00:03] Doreen Siegfried:
Willkommen bei “The Future is Open Science”, dem Podcast der ZBW. Hier verraten Ihnen interessante Menschen aus dem Wissenschaftsbetrieb, wie sie in ihrer täglichen Arbeit Open Science voranbringen. Wir tauchen ein, in die Tiefen der Wissenschaftskommunikation im digitalen Zeitalter und verraten Ihnen handfeste Tipps und Tricks zu Open Science in der Praxis. Ich bin Doreen Siegfried und freue mich sehr, Host dieses Podcast zu sein.

[00:00:33] Doreen Siegfried:
Hallo und herzlich willkommen zu einer neuen Folge von „The Future is Open Science“, dem Podcast der ZBW. Heute zu Gast der Ökonom und Data Editor der American Economic Association und Direktor des Labor Dynamics Institute an der Cornell University. Das Labor Dynamics Institute mit seinem Replication Lab führt die Reproduzierbarkeitsüberprüfung für die acht Zeitschriften der AEA durch. Herzlich willkommen, Lars Vilhuber.

[00:01:05] Lars Vilhuber:
Danke für die Einladung.

[00:01:06] Doreen Siegfried:
Wir sprechen über Reproduzierbarkeit und Replizierbarkeit in den Wirtschaftswissenschaften. Herr Vilhuber, Sie leben und arbeiten seit vielen Jahren in den USA. Wie erleben Sie dort die innerwissenschaftliche Diskussion rund um das Thema Reproduzierbarkeit?

[00:01:26] Lars Vilhuber:
Ich krieg da nicht unbedingt den komplett repräsentativen Überblick natürlich in der Position, in der ich bin. Aber die Tatsache, dass ich dazu ausgesucht wurde, um Data Editor zu werden, sagt mir, da ist sehr viel Diskussion. Einer der Hintergründe, warum ich mich denn überhaupt bereit erklärte, war, dass ich in einer Konferenz der AEA vor ein paar Jahren saß und es Leute gab, die monierten, wirtschaftswissenschaftliche Studien seien nicht replizierbar. Und insbesondere zeigten sie mit dem Finger auf die, die Daten haben, die nicht frei zugänglich sind, was in der Volkswirtschaft in der Wissenschaft sehr häufig vorkommt. In empirischen Studien sind es 40 bis 50 % aller Studien, die Daten haben, die nicht frei zugänglich sind. Und das wurde einfach pauschal abgesagt. Mein Hintergrund ist, dass ich als Arbeitsökonom lange Zeit mit solchen Daten gearbeitet habe und eigentlich sehr genau weiß, dass wenn man sich in einen Raum setzen muss, der auf der anderen Seite vom Campus ist und dann nur dort abgekapselt vom Internet arbeiten muss, man macht das sehr konzentriert, man will keine Zeit verschwenden und man achtet sehr auf Reproduzierbarkeit. Aber wie kann man das weitergeben an die Gemeinschaft im Allgemeinen? Also stand ich damals auf und sagte „Das ist nicht wahr. Wir wissen nicht, wie reproduzierbar das ist, aber die sind nicht von vornherein nicht reproduzierbar. Es reduziert nur die Anzahl der Leute, die das machen können.“ Und das entwickelte sich dann zu einem Statement, was dann die AEA ja umgesetzt hat, um zu sagen, du bist jetzt Data Editor. Und im Allgemeinen kommt es sehr gut an. Es kriegt also in der Regel sehr wenig Beschwerden über dieses als zu viel Arbeit, das ist es nicht wert, das ist es eigentlich immer wert. Und das sagen alle. Es ist sehr offen. Es ist sehr respektvoll für die Schwierigkeiten, das zu machen. Jeder sagt, es ist mehr Arbeit, als sie gedacht haben, aber dass das Endresultat es wert ist. Also im Allgemeinen sehr positiv.

[00:03:39] Doreen Siegfried:
Ja, okay. Nun ist es ja so, dass es in den Wirtschaftswissenschaften, laut meiner Wahrnehmung, ja diese Beschwerden ja schon seit den Siebzigern gibt, also und auch die Kritik daran, dass empirische Forschungsergebnisse nicht repliziert bzw. reproduziert werden können. Also die 70er Jahre sind jetzt schon 50 Jahre her, also quasi ein halbes Jahrhundert. Was ist denn seitdem passiert?

[00:04:04] Lars Vilhuber:
So wie ich das sehe, hat sich sowohl der Frust aufgebaut, sodass dann irgendwann mal auch was gemacht wurde. Aber vor allen Dingen die Technologie hat geholfen, es einfacher zu machen. Selbst in den Anfang der Zwotausender war es noch sehr schwierig, überhaupt Daten oder Code robust weiterzugeben. Das ging dann über „Ich schick dir mal eine Floppy oder ich tu das mal auf meine Website“, weil nirgendwo anders ist was, wo man das machen kann. Das ist mittlerweile anders. Es gibt robuste Archive in allen Ländern der Welt für alle Gegebenheiten, die kosten heutzutage für die meisten Verbraucher nichts, für die meisten Wissenschaftler ist es gratis. Die meisten Studien sind mittlerweile laufen sehr viel schneller, so dass man das Ganze dann auch in Minuten und nicht in Wochen machen kann. Das heißt nicht, dass alle Studien das machen. Es gibt noch sehr, sehr intensiv von der Computerverwendung her Studien und das letzte ist auch, dass von der Computer Science dann Techniken reinkamen, wie man das Ganze dann auch besser aufzieht. Es hilft, dass mit den Jahren auch weniger Software benutzt wurde, weniger Varianten von Software. Also in gewissen Bereichen der volkswirtschaftlichen Studien ist STATA im Prinzip dominierend. Und das ist zwar keine freie Software, aber jeder hat Zugang zu dem Wissen, wie man das laufen lassen muss. Das ist anders als in den 70er, 80er Jahren, wo dann mein spezial Fortran-Programm oder das andere Spezialprogramm dann nicht komplett reproduzierbar war mit verschiedenen Leuten. Das kam dann alles zusammen. Zudem kam dann eben der allgemeine wissenschaftliche Hintergrund Data Citation Principles, dass man also auch Daten besser archivieren kann, dass man sie dann auch besser zitieren kann. Das ist auch eine Reaktion auf die Tatsache, dass das oftmals ein Problem war, was es eben … Und dann haben sich halt diese Archive entwickelt, dann haben sich Techniken entwickelt, wie man das besser macht. Ich glaube, da ist Frust und Technologie zusammengekommen, um zu sagen, jetzt ist es möglich, also machen wir es jetzt.

[00:06:25] Doreen Siegfried:
Ja, okay. Das heißt, der Traum in den Wirtschaftswissenschaften doch noch eine, nennen wir es mal Kultur der Replikation zu etablieren, ist realistischer geworden. Oder wie ist Ihre Einschätzung?

[00:06:38] Lars Vilhuber:
Ich sehe eigentlich in der Arbeit, die wir für die AEA machen und mittlerweile – ich habe es gerade gestern nachgeschaut, haben wir 1.300 Artikel bisher analysiert – großartige Probleme sind da nie, kleine Probleme sind da immer. Und insofern sind wir noch entfernt von, was man vereinfacht Push Button Replicability sagt. Aber im Großen und Ganzen wissen Forscher zumindest in allgemeinen Gegenden der Volkswirtschaft, dass andere die Forschung versuchen werden, zu replizieren. Was, wo es noch hapert, ist im gewissem Sinne Kenntnis unter den Wissenschaftlern, wie man das machen muss. Auf Englisch nenne ich das computational Empathy.

[00:07:27] Doreen Siegfried:
Ja.

[00:07:27] Lars Vilhuber:
Dass man sich in die Schuhe des anderen hineinsetzt und sagt, „Was muss der jetzt machen, um das zu machen, was ich schon gemacht habe?“

[00:07:34] Doreen Siegfried:
Ja, verstehe.

[00:07:34] Lars Vilhuber:
Das machen wir, wenn wir schreiben, das machen wir nicht unbedingt, wenn wir Code schreiben. Und das ist eigentlich meines Erachtens das größte Problem. Wenn wir das lösen, dann ist das eigentlich relativ gut im Verhältnis zu der Zeit.

[00:07:48] Doreen Siegfried:
Okay. Ja, super. Immer mehr wirtschaftswissenschaftliche Fachzeitschriften haben ja ihre Data Policies verschärft so in den letzten Jahren. Wie werden diese eigentlich in der Praxis durchgesetzt? Also wird das alles nachgerechnet oder reicht allein die Existenz von Daten und Code? Und die Zeitschriften sind schon ganz glücklich?

[00:08:11] Lars Vilhuber:
Die Tatsache, dass ich diese Position bei der AEA habe, ist Beweis dafür, dass einfach eine Policy zu haben nicht ausreicht. Denn die hatte die AEA ja seit 2004. Und das stellte sich dann immer noch als sehr problematisch heraus. In der Pilotstudie, die ich mit ein paar Studenten gemacht hatte für eine der Zeitschriften der AEA, waren etwa von dem, wo wir Daten hatten, nur die Hälfte, so dass man mit minimalen Änderungen da was machen konnte. Die andere Hälfte war problematisch, dass es einfach nicht lief. Das heißt nicht, dass die falsche Resultate gaben, sondern sie liefen einfach nicht auf unseren Computern, wenn es da nicht ging. Also einfach eine Policy haben reicht nicht. Nachdem ich dann die Stelle übernommen habe, stellte ich noch andere Sachen fest, die auch relevant sind für das. Nämlich die Datenverfügbarkeit ist meistens sehr schlecht beschrieben. Auch das muss man erst lernen und das hat zeigt Bedarf für einen Editor, der dann damit reingeht und sagt, „Ist deine Beschreibung auch so, dass jemand anders das nachvollziehen kann?“, wenn es nicht ein klick drauf und lad runter ist, was ja die meisten Daten sind. Also sind da zwei Sachen, die darauf hinweisen, dass eine Überprüfung der Pakete notwendig ist. Allerdings muss diese Prüfung nicht unbedingt vor der Veröffentlichung stattfinden. In meinem Falle für die AEA findet das vor Veröffentlichung statt. Aber nicht jeder hat die Ressourcen einen Data Editor zu haben. Was in anderen Disziplinen, aber nicht in der Volkswirtschaft, gang und gäbe ist, ist, dass wenn was schiefgeht, dass dann auch das Risiko ist, dass ein Papier wieder runtergenommen wird von der Zeitschrift, eine Retraction. Und damit im Prinzip eine Bestrafung besteht, wenn der Code nicht replizierbar ist. Das ist aber auch eine Politik, die eine Zeitschrift machen muss. Nicht alle Zeitschriften sind so radikal, dass sie das dann machen. Also muss irgendwo muss ein Mechanismus sein, um das dann tatsächlich auch zu überprüfen.

[00:10:12] Doreen Siegfried:
Das heißt, bei den Zeitschriften, die Sie jetzt gerade genannt haben, wo vorab keine Prüfung durchgeführt wird, sondern sozusagen erst im Nachhinein, das ist dann aber sozusagen eine Überprüfung nicht durch die Zeitschrift selbst, sondern durch die Peers, durch die Community?

[00:10:29] Lars Vilhuber:
Ja, aber wir wissen auch, dass Überprüfung durch die Peers, das keine Konsequenzen hat, nicht besonders effektiv ist. Das muss also irgendwo, bloß, weil da ein oder zwei Leute gesagt haben, gegebenenfalls mit Beweisen, dass das nicht funktioniert, führt in der Regel zu wenig, im Sinne von „die werden dann nicht mehr zitiert“ oder etc. Eine Retraction ist da sehr effektiv, weil dann ist kein Artikel mehr da, der ein falsches Archiv hat, dass zitiert werden könnte. Für die AEA war es halt wichtiger zu sagen, das können wir vorher korrigieren und dann finden wir solche Probleme vorher, bevor wir dann etwas veröffentlichen, das da passiert. Da gibt es Grauzonen dazwischen, die kann man beispielsweise wie Peer Review effektiver machen. Da gibt es unterschiedliche Methoden. Das Replication Wiki versucht das seit Jahren zu machen. Ich bin mit einem neuen Projekt – wir haben gerade vor einer Woche in Kanada ein Pilotprojekt gemacht, wo wir bereits veröffentlichte Artikel von der Canadian Journal of Economics, die auch so eine Politik hat, die eben, die hat einen Data Editor, sie hat aber keinen, der tatsächlich die Codes laufen lässt. Also haben wir es mit Unterstützung von der Zeitung im Nachhinein gemacht. Und das wird jetzt in den nächsten Wochen, Monaten von dem Data Editor zu Emails führen, zu den Autoren, um zu sagen, „Hey, hier ist ein kleiner Fehler in dem Programm. Das müssen wir abändern“ oder „Hier ist die Beschreibung der Daten nicht richtig. Das müsste abgeändert werden“. Da werden dann nach Veröffentlichung aber Korrekturen in den Programmen dann gemacht. Das ist auch eine Möglichkeit. Es ist relativ billiger im Sinne von, wir haben den Studenten einen finanziellen Anreiz gegeben, der nicht enorm ist, aber die waren auch selber daran interessiert und das lässt sich auch punktuell machen. Auch das ist eine konstruktive anstatt einer Retraction da vorzugehen, auch das funktioniert. Das sind, da gibt es Varianten, wo man das alles machen kann, auch im Nachhinein. Nur muss es dann gemacht werden.

[00:12:35] Doreen Siegfried:
Ja, okay.

[00:12:35] Lars Vilhuber:
Es ist wirklich möglich, das zu machen. Das war halt vorher nicht immer so einfach.

[00:12:38] Doreen Siegfried:
Ah ja, okay. Und wie ist Ihre Einschätzung? Also wie verbreitet ist tatsächlich diese Überprüfung? Also sei es jetzt durch einen Data Editor oder durch ein studentisches Team oder wie auch immer. Also wie viele Zeitschriften oder sagen wir mal, wie viele der relevanten Zeitschriften in der VWL überprüfen dann tatsächlich die Daten?

[00:12:59] Lars Vilhuber:
Nicht sehr viele. Also in der Volkswirtschaft, ich ziehe jetzt mal beispielsweise eine Marketing-Zeitschrift rein, „Managerial Science“ hat auch ein Data Editing Team, das in Wien sitzt, beispielsweise. In der Volkswirtschaft sind das vier oder fünf. Also, ich bin für acht verantwortlich, aber ich zähle das mal als eins, sind vier oder fünf Data Editors, die diese Sachen laufen lassen. Ich glaube, ich kenne die meisten. Und wenn ich die persönlich kenne, heißt es, dass es ein relativ kleiner Kreis ist. In Political Science ist es ein bisschen weiterverbreitet, aber ob das, da sind mehr Zeitschriften mit weniger Artikeln, glaube ich. Das ist also auch nicht so gang und gäbe. Sagen wir mal, Soziologie weiß ich von keiner Zeitschrift, die das macht. Da weiß ich von einigen Zeitschriften, die das vielleicht mal anfangen wollen, aber da, das ist auch nicht meine Domäne, da kann es ein paar geben, die es schon machen. Aber was mir meine Soziologen-Freunde sagen, ist, dass ist längst nicht so gut akzeptiert, wie es in der Volkswirtschaft ist.

[00:14:08] Doreen Siegfried:
Ja, okay, verstehe. Wenn wir jetzt noch mal so zurück auf die Volkswirtschaft gucken und auf die Data Policies der Fachzeitschriften und Verbände. Hat das irgendwelche Effekte? Also wirkt das, wirken diese Data Policies? Also sprich, werden heute noch mehr Daten hinterlegt als beispielsweise vor zehn Jahren?

[00:14:26] Lars Vilhuber:
Auf alle Fälle.

[00:14:27] Doreen Siegfried:
Auf alle Fälle. Okay.

[00:14:29] Lars Vilhuber:
Teil der Arbeit, die ich als Data Editor mache, ist auch mit Autoren zu reden, um zu sagen, „Versteck deine Daten nicht unbedingt als ein STATA-File irgendwo im Unterordner in deinem Replication Package, sondern, das ist interessant, veröffentliche die Daten doch mal separat, so dass mehr Leute mehr Einsicht haben in diese Daten. Nicht nur durch den Artikel, sondern auch durch die Daten selber.“ Ich habe etliche Autoren, mit denen ich längere Unterhaltung gehabt habe, die dann halt separat dann auch diese Daten, die vielleicht vorher in einem Team waren, jetzt halt veröffentlicht werden.

[00:15:05] Doreen Siegfried:
Ja, okay.

[00:15:06] Lars Vilhuber:
Das sind also Unterhaltungen, die ich auch habe. Ich sehe auch, dass das andere dann auch machen. Ich sehe auch, dass wir öfters mal in unseren Berichten mit den Autoren reinschreiben, diese Daten, die existieren derzeit, werden sie in fünf Jahren noch existieren, wissen wir nicht. Sie haben die Rechte, sie hier rein zu tun, also tun sie die mal rein. Also in dem Sinne werden mehr Daten veröffentlicht auf eine Art und Weise, die auch garantiert, dass es in 20, 30 Jahren noch verfügbar ist.

[00:15:38] Doreen Siegfried:
Ja, okay. Und dann natürlich anschließend die Frage, verbessert sich dadurch die Reproduzierbarkeit? Also sei es jetzt durch Replikationsstudien oder auch durch einen Data Steward? Wird es besser?

[00:15:51] Lars Vilhuber:
Also, ich bilde mir ein, dass ich einen gewissen Effekt habe, denn die meisten Autoren veröffentlichen in ihrer Lebenszeit nur zwei, drei Mal in unseren Zeitschriften. Aber ich habe von etlichen schon gehört, dass sie dann, was sie für uns machen mussten, jetzt auch für ihren nächsten Artikel für eine andere Zeitschrift gemacht haben, die kein Data Editor haben, die vielleicht noch nicht mal eine Policy haben. Aber das ist einfach, macht Sinn. Also ich bilde mir aber ein, dass da ein gewisser Effekt ist, auch in anderen Zeitschriften, in wie Leute das auch angehen, in wie sie das auch ihren Studenten dann weitergeben. Das ist nicht explosiv, das ist langsam, aber es wird besser.

[00:16:34] Doreen Siegfried:
Es wird besser. Okay, das hört sich ja schon mal gut an. Wie werden denn bei Ihnen eigentlich die Forscherinnen und Forscher unterstützt, Replikationspakete überhaupt erst mal zu erstellen? Müssen sie sich das Wissen selbst aneignen oder haben Sie da irgendwelche Trainings für die und zählt das dann tatsächlich auch als wissenschaftliche Leistung, die entsprechend anerkannt wird? Also, solche Replikationspakete zu entwerfen?

[00:17:00] Lars Vilhuber:
Die letzte Frage ist wahrscheinlich einfacher zu beantworten: Weiß ich nicht. Die Zukunft wird das zeigen, ob Artikel, die bessere Replication Packages haben, da mehr Zitate bekommen, mehr wieder benutzt werden etc. Was ich in diesem Jahr zufällig beobachtet habe, ist momentan habe ich etliche Replication Packages, die selber Replications gemacht haben.

[00:17:24] Doreen Siegfried:
Ah, okay.

[00:17:24] Lars Vilhuber:
Die das halt benutzt haben, um zu sagen: „Sind diese Instrumental Wearable Tests, robust über etliche Studien hinweg? Und hier sind 15 Studien.“ Und viele von diesen Studien kommen von unseren Zeitschriften. Also die Verfügbarkeit von Replication Packages ermöglicht neue Wissenschaft. Genau deshalb wollen wir so was dann haben.

[00:17:45] Doreen Siegfried:
Ja.

[00:17:46] Lars Vilhuber:
Um auf die erste Frage zurückzukommen, was wir da an Unterstützung haben. Ich möchte eigentlich nicht ein AEA spezifisches Paketformat haben. Da koordiniere ich mich also schon mit den aktiven Data Editors in anderen Zeitschriften, dass wir gemeinsame Richtlinien herausgeben, wie sowas aussehen will. Wir sind da auch wenig deskriptiv, es muss halt nur verständlich sein für andere.

[00:18:10] Doreen Siegfried:
Ja.

[00:18:10] Lars Vilhuber:
Wir haben da schon, also auf der AEA Website für den Data Editor haben wir da schon Richtlinien, was man machen sollte. Und mittlerweile sind da natürlich auch viele Randfälle. Was sollte ich machen, wenn ich 10.000 Dateien habe? Das ist auch schwer zu greifen, wenn man das erklären muss. Was kann man da besser machen? Was soll ich machen, wenn ich etliche confidential data habe, die ich da beschreiben sollte, die ich benutzen sollte, wo ich Programme schreiben muss, die irgendwo in einem Forschungszentrum sitzen, wo ich reinkam, als ich Student war und wie soll ich das anderen beschreiben? Da haben wir schon helfen. Ich glaube, das hilft auch, dass Leute das dann besser machen. Wir haben als Data Editors von den verschiedenen Zeitschriften zusammen haben wir ein, was wir ein Template Readme nennen, aufgestellt. Was im Prinzip auch einen Forscher da durchführt: Was sollte ich beschreiben? Wie sollte eine Datenbeschreibung aussehen? Was soll ich beschreiben über meinen Computer? Wieso interessiert das jemand? Ja weil und hier sind ein paar Beispiele, wie sollte ich beschreiben, was die nächsten Etappen sind, die jemand durchgehen muss? Und das ist das gleiche Format für alle unserer Zeitschriften. Das ist nicht AEA spezifisch. Das hilft, so viel wir wissen, dass Leute auch bessere Pakete vorbereiten.

[00:19:30] Doreen Siegfried:
Ja, okay.

[00:19:30] Lars Vilhuber:
Wir haben alle, wenn wir uns da unterhalten, über diese verschiedenen Zeitschriften hinweg, mittlerweile eine Verbesserung der Pakete von vornherein, wenn sie uns schon zugeschickt werden, festgestellt. Und das ist meines Erachtens, weil wir eben diese verschiedenen Richtlinien herausgegeben haben.

[00:19:47] Doreen Siegfried:
Ja, ja, verstehe.

[00:19:48] Lars Vilhuber:
Ein Problem besteht noch, dass dies meistens im Nachhinein ein besseres Paket gemacht wird. Das sollte man eigentlich von vornherein machen, wenn man überhaupt ein Projekt anfängt, wenn man überhaupt ein Paper anfängt. Das ist natürlich viel schwieriger, weil dann sagt nicht irgendjemand, ich fange jetzt ein neues Projekt an und das werde ich dann der AEA schicken, dann gehe ich mal da schauen, was die für Richtlinien haben, sondern das ist ein bisschen unklarer, wo dann Leute ihre Richtlinien suchen. Aber da gibt es auch gute Beispiele im Allgemeinen, nicht nur von der Zeitschrift, wie man das Ganze dann macht. Und da sollte im Prinzip jeder Wissenschaftler, der da ein Paket mit Code vorbereitet, sollte sich mal eines dieser Beispiele raussuchen und dann weitermachen.

[00:20:31] Doreen Siegfried:
Ja, okay. Das macht ja sicherlich auch Sinn, das gleich von Anfang an zu machen, bevor man sich dann irgendwie nach all den Jahren gar nicht mehr so recht erinnert, wie man das irgendwie mal 2013 irgendwie gemacht hat oder programmiert hat.

[00:20:42] Lars Vilhuber:
Ich meine gegeben wie lange es dauert, einen Artikel in der Volkswirtschaft zu veröffentlichen und wie lange Projekte laufen, sage ich eigentlich immer, der erste Replikator bin ich selber in fünf Jahren.

[00:20:55] Doreen Siegfried:
Ja, ja, genau. [lacht]

[00:20:56] Lars Vilhuber:
Ich muss verstehen, was ich da gemacht habe und ich sollte nicht drei Tage brauchen, um das alles wieder zu verstehen, sondern ich sollte mein eigenes Readme lesen und das sofort beispielsweise an meinen neuen Forschungs-assistenten weitergeben können, aber auch selber einfach verstehen, was ich da habe. Also ich bin mein erster Prüfredner.

[00:21:12] Doreen Siegfried:
Ja, ja, absolut. Was halten Sie von Replikationsstudien?

[00:21:18] Lars Vilhuber:
Ich glaube, die sind sehr wichtig. Das Problem ist, dass man nicht unbedingt weiß, wo die veröffentlicht werden können und ob das sinnvoll belohnt wird in der Wissenschaft. Also eine Replikationsstudie wird im Allgemeinen, wenn sie das gleiche Resultat findet, als uninteressant empfunden. Es ist aber ein wichtiger Bestandteil des wissenschaftlichen Korpusses. Das heißt, da muss man halt versuchen, auf verschiedene Art und Weise, die dann zu veröffentlichen. Ihr Institut hat ja da ein Sponsoring von einer Zeitschrift, wo man solche Sachen reintun kann als eine Veröffentlichung. Ob die gewürdigt wird, das wird sich rausstellen. Ich hoffe, ja. Aber die sind wichtig. Wenn sie negative Resultate finden, ist das auch wichtig. Das sollte man immer als eine Unterhaltung, nicht als eine Blamierung sehen, denn oftmals ist es sehr einfach, dann auch Korrekturen zu machen. Aber die sind auf alle Fälle wichtig.

[00:22:19] Doreen Siegfried:
Ja. Na ja, ich meine, wenn es positiv ist und das Gleiche noch mal belegt, das ist ja fast wie so ein Gütesiegel, dass es dann zumindest einmal repliziert werden konnte, oder?

[00:22:29] Lars Vilhuber:
So sollte es empfunden werden.

[00:22:30] Doreen Siegfried:
[lacht]

[00:22:30] Lars Vilhuber:
Es wird allerdings nicht so gewürdigt. Also wir haben ein Projekt, wo ich mit drin bin, wo wir eben diese Art von Gütesiegel versuchen aufzubauen, indem wir einfach aufnehmen, wie viel positive und wie viele negative Replication Studies gemacht wurden.

[00:22:35] Doreen Siegfried:
Ah, ja.

[00:22:35] Lars Vilhuber:
Vor allen Dingen von Studenten oder sowas. Und dann hofft man, dass man auch sagen kann, ja, da, hier sind fünf, die das Gleiche sagen. Aber selbst für einen Studenten ist es relativ uninteressant, wenn da zwei andere schon gesagt haben, das funktioniert, warum soll ich mich drum kümmern, warum soll ich das noch mal machen? Mach ich doch lieber was Neues. Dass man da überhaupt sagen kann, drei oder vier haben das gleiche Resultat gefunden, ist nicht ganz klar, wie man da hinkommt.

[00:23:08] Doreen Siegfried:
Ja, okay, das kann ich nachvollziehen. Wie entwickelt sich denn in Ihren Augen der Schulungsmarkt für Replikation? Gibt es hier große Treiber, die Sie irgendwie hervorheben können?

[00:23:19] Lars Vilhuber:
In welchem Sinne?

[00:23:21] Doreen Siegfried:
Also, dass man sagt okay, das Replizieren zu lernen oder Reproduktion zu lernen, findet entweder schon im Studium statt oder es gibt bestimmte Anbieter, die das sozusagen für ein Fach ganz spezifisch anbieten und sich da spezialisiert haben. Oder es findet erst in der Doktorandenausbildung statt. Also, wo werden die Leute geschult? Oder es ist einfach total dezentral und man lernt es so wie Lesen und Schreiben irgendwo nebenbei.

[00:23:51] Lars Vilhuber:
Es ist derzeit ziemlich dezentral. Ich sehe als eine meiner Aufgaben als Data Editor der AEA zu sagen, das sollte man frühestmöglich lernen. Man sollte es lernen, so wie man in der Biologie lernt, wie man eine Pipette bedient. Das ist bei uns schreibt man halt Code, der dann reproduzierbar sein sollte. Und das sollte schon beim Grundstudium anfangen, das sollte schon bei den Bachelors drin sein. Die Studenten, die in meinem Replikation Lab arbeiten, sind alles Studenten, die ihre Bachelors noch nicht zu Ende gemacht haben. Das heißt, die können das machen, die lernen auch was davon. Und die sagen mir in der Regel, dass sie das interessant finden, das zu lernen. Die haben sich natürlich selber beworben, also ist das nicht ein representative Sample. Das sollte auf alle Fälle im Doktorandenstudium beigebracht werden, als integraler Teil der Forschungsmethoden, die man wissen muss, wenn man Studien macht. Und selbst als Theoretiker – wie viele Theoretiker irgendwann machen wir dann doch mal eine empirische Arbeit – sollten auch wissen, wie das ganze abgeht. Gibt es da jetzt ein Standard-Curriculum oder gibt es da Standard-Anbieter? Nein, gibt es nicht.

[00:25:00] Doreen Siegfried:
Ja, okay.

[00:25:01] Lars Vilhuber:
Was man meistens sieht, im Sinne von, dass man das als Data Science, nicht als Replication Science bekommt, dass man dann lernt, was ist Git, wie macht man R und was weiß ich nicht alles, was macht man mit Python. Das ist aber nicht unbedingt replizierbar. Das sind die Werkzeuge um das replizierbar zu machen. Aber selber von alleine wird kein R-Code replizierbar. Im Gegenteil. Von alleine wird kein Python-Code reproduzierbar. Und selbst wenn ich weiß, wie Git funktioniert, heißt das nicht, dass ich Git richtig anwende oder dass ich das benutze, um meine Arbeit replizierbar zu machen. Also das ist dann immer noch eine nächste Stufe, die oftmals nicht angeboten wird. Also für die ganz dienlichen Sachen Python, R etc. gibt es sehr gute Standardstudien. Da gibt es auch, ich weiß nicht, ob sie die auf Deutsch übersetzt haben, aber die Carpentries haben sehr, sehr gute Tutorials für all diese Sachen, die hervorragend sind, die man einfach runterziehen kann und selbst machen kann oder einfach mal einen Workshop auf dem Campus machen kann. Sollte jeder mal machen, ist aber nicht das gleiche wie ein Replication Package aufbauen.

[00:26:09] Doreen Siegfried:
Ja, ja, schon klar. Okay. Wie sehen Sie die Entwicklung der verschiedenen Replication Networks? Also, die wachsen ja für sich. Also, gehen die zusammen, ist da Zugkraft dahinter? Gibt es da irgendwie eine Kollaboration? Wie ist da Ihre Einschätzung?

[00:26:26] Lars Vilhuber:
Die werden voneinander lernen, wie alle anderen Networks, die auch in Makro- oder Arbeitsökonomie und was weiß ich nicht alles Kontakte miteinander haben und dann intensivere Kerne haben. Ich meine, in dem was wir machen, haben wir einfach eine Art und Weise, das zu machen. Das ist aber nicht die einzige Art und Weise, das zu machen. Solange das Endziel dann ist, dass das Ganze transparenter wird, müssen die nicht miteinander kommunizieren. Wir lernen alle voneinander und manchmal dann auch von entfernteren Netzwerken oder so was. Also ich, ich lerne auch jedes Mal wieder, wenn ich ein neues Papier sehe. Ich lerne von den Papieren. Die lernen, von meinen Reports, die dann kommen und die kommen aus allen möglichen Ecken der Volkswirtschaft. Das ist halt ein normaler Lernprozess. Ich weiß, glaube nicht, dass da irgendwie ein zentrales Netzwerk dann irgendwann mal auftaucht für Replications. Das muss dezentral sein …

[00:27:23] Doreen Siegfried:
Ja.

[00:27:23] Lars Vilhuber:
… denn es ist viel dabei. Das kanadische Projekt, dass wir vor einer Woche gemacht haben – war’s vor einer Woche? Vielleicht, war‘s vor zwei Wochen – hat davon viel. Viele der Interaktionen kamen eben dadurch, dass man 15 Studenten in einem Saal hatte und die voneinander dann auch lernten und voneinander auch lernten, wenn einer ein Problem hatte, das wo dann eine Lösung bereitgestellt wurde, dass die anderen gar nicht hatten, die kamen gar nicht auf das Problem. Und trotzdem wissen sie jetzt, dass es ein Problem sein könnte und in der Zukunft dann vielleicht relevant ist. Also das ist, das ist ein sehr lokales Netzwerk. Wie kann man das größer machen? Dafür geht man immer noch an eine Uni und hat dann ein lokales Netzwerk.

[00:28:09] Doreen Siegfried:
Ja, okay, verstehe. In der Wirtschaftsforschung wird ja zunehmend mit Daten mit eher eingeschränktem Zugang gearbeitet. Was macht ein Data Editor der AEA damit? Haben Sie neue Verfahren und Methoden entwickelt, um damit umzugehen?

[00:28:27] Lars Vilhuber:
Zum einen sind da diese Netzwerke wichtig, denn eine der Sachen, die ich mache, wenn ich selber mit meinem Team nicht an die Daten schnell genug rankomme, ist, dass ich mal durch die verschiedenen Netzwerke, auch durch meine anderen Kollegen bei anderen Zeitschriften mal nachfrage. Kann denn jemand an diese Daten kurzfristig ran? Und das heißt dann, dass es dann schon gegebenenfalls ein Peer Review wird, das von mir überprüft wird nach gewissen Kriterien. Was nicht anders ist, als wenn wir einen Artikel, den Text begutachten. Also ich komme im Laufe eines Jahres an etwa 20 % der Daten, die restriktiv sind, irgendwie ran. Nicht unbedingt immer selber, aber ich komm da ran. Ich unterschreibe auch viele der Use Agreements, um eben Replications zu machen, wenn das möglich ist. Es ist nicht immer möglich. GDPR hat beispielsweise gewisse Barrieren reingemacht. Ich habe das deutsche Social Economic Panel für meine Doktorarbeit selber benutzt, aber momentan komme ich nicht ran, weil die sich nicht einigen können, über was sie unterschreiben müssen. Das ist nicht unbedingt ein restriktiver Datensatz, wenn man in Europa ist, da unterschreibt man einfach was und dann hat man zwei Stunden später die Daten. Ich habe, warte schon seit 15 Monaten drauf, weil momentan da eben gewisse gesetzliche Barrieren sind, die ich nicht machen kann.

[00:29:54] Doreen Siegfried:
Ah ja, okay.

[00:29:55] Lars Vilhuber:
Also wir kommen da schon ran. Da gibt es auch, wir haben ein Projekt, was jetzt gerade startet, wo wir dann auch versuchen werden, mal Prozedere und Algorithmen zu entwickeln, dass man beweisen kann, dass die Daten tatsächlich auch benutzt wurden, so wie es der Code beschreibt…

[00:30:17] Doreen Siegfried:
Aha, okay.

[00:30:17] Lars Vilhuber:
… oder impliziert. Sodass man also praktisch sagen kann, sagen wir mal in einem ein Forschungszentrum: Hier ist ein Computer, wenn ich das jetzt abschicke an den Computer, kann ich nichts mehr daran rum machen während das läuft. Und der Computer und die Universität, in der der Computer ist, bescheinigt mir, dass das so gelaufen ist. Hier ist das, was rein geschickt wurde, hier ist das, was rauskommt. Hier ist unser Siegel. Wir unterzeichnen da, dass das so war und der Forscher gibt uns jetzt einfach das Ganze. Dann muss ich das nicht laufen lassen, denn ich muss das nicht noch mal laufen lassen. Hier habe ich einen Beweis, dass das komplett ist, dass das gemacht wurde, dass da nicht dran rum gepfuscht wurde. Das sind Methoden, die theoretisch möglich sind. Die aber eigentlich derzeit in den Sozialwissenschaften nie angewandt werden. Es gibt in anderen Bereichen schon, wo das angewandt wird. Ich würde gerne in der Zukunft nicht mehr all diese Sachen laufen lassen, sondern einfach den Beweis haben, dass das geht. Und da hilft es, wenn die Daten restriktiv sind, denn da ist man meistens gezwungen, in solche Forschungszentren zu gehen. Während der Forscher, der das auf seinem Laptop hat, kann das nie beweisen, dass er da nicht rum gepfuscht hat. Also werden wir die Sachen dann noch mal laufen lassen.

[00:31:30] Doreen Siegfried:
Okay. Wenn das sozusagen das Zukunftsmodell ist, das hört sich ja sehr interessant an, könnten Sie sich vorstellen, dass das tatsächlich mehr Raum greift auch für andere Disziplinen, jetzt außerhalb der VWL?

[00:31:42] Lars Vilhuber:
Ja. Ich meine, das ist ein allgemeines allgemeine Methode. Und viele der Daten, die wir benutzen, sagen wir mal beim IAB oder beim CASD in Frankreich oder so was, werden auch von Gesundheitsforschern, von Soziologen, von Demographen werden die … alle benutzen ähnliche Daten in ähnlichen Forschungszentren und die können davon alle dann auch Vorteile mittragen.

[00:32:09] Doreen Siegfried:
Ja, okay. Ich würde gerne noch mal über das Thema Transparenz von Forschungspraktiken sprechen. Also welche Rolle spielen Fachgesellschaften, Geldgeber wie beispielsweise National Science Foundation oder auch die Wissenschaftler, Wissenschaftlerinnen selbst wenn es um die Transparenz von Forschungspraktiken geht?

[00:32:29] Lars Vilhuber:
Wir haben eine Webinar Series, die wir momentan planen und das sind zwei der Sessions, die wir haben da drin.

[00:32:35] Doreen Siegfried:
Ah, okay.

[00:32:35] Lars Vilhuber:
Da kann ich dann vielleicht in sechs Monaten ein bisschen mehr sagen, weil ich dann die Experten interviewt habe darüber. Meine Meinung ist, dass die Gesellschaften selber, wenn sie demokratisch sind, reflektieren sie die Gemeinschaft selber, zumindest die Mehrheit. Und in dem Sinne muss das vor allen Dingen von den Forschern selber kommen. Da ist natürlich ein Hin und Her von „Was sind denn eigentlich Standards, die man machen sollte?“. Aber die werden selten diktiert. Für einen Verband oder eine Gesellschaft wie die AEA oder sonstige. Also, da ist ein Hin und Her zwischen was will die Mitgliedschaft, was sagt die derzeitige Führung von der Gesellschaft und wie wird das Ganze dann rausdestilliert und dann in Zeitschriften beispielsweise, die der Gesellschaft gehören, implementiert.  Eine Beobachtung ist, dass die meisten Zeitschriften in der Volkswirtschaft, die einen guten Ruf haben, nicht von kommerziellen Häusern wie Elsevier oder sowas kommen. Mit wenigen Ausnahmen. Aber die AER ist eine Gesellschaftszeitschrift, Econometrica ist eine Gesellschaftszeitung. Die QJE und JPE gehören zu Universitätshäusern. Die sind also auch in dem Sinne unabhängig. Also, das kommt zumindest in der Volkswirtschaft notgedrungen von der Mitgliedschaft, von der Gemeinschaft selber.

[00:34:09] Doreen Siegfried:
Ah, ja.

[00:34:11] Lars Vilhuber:
Also der individuelle Forscher, wenn er wissenschaftliche Arbeit macht, sollte wissen, dass Transparenz da eben das wichtige Element ist und das Ganze dann hoch macht. Wie das Ganze dann umgesetzt wird, da können natürlich dann Gesellschaften sagen, hier ist der Konsensus. Also jetzt bringen wir mal alle, die vielleicht an den Grenzen von dem Konsensus waren, rein und dann machen wir das jetzt auf diese Art und Weise und nicht auf eine andere Art und Weise. Die Geldgeber selber, die DFG oder NSF oder SSHRC oder wie immer die auch heißen, haben meines Erachtens auch eine Rolle darein zu spielen. Ich würde es sehr gerne sehen, wenn sie sagen, „Ja, also, wenn da empirische Arbeiten drin sind, dann am Ende wenn das Projekt zu Ende ist, dann solltet ihr auch mal den Beweis bringen, dass das Ganze denn auch läuft.“ Denn wenn das die darauf auf die Zeitschriften beispielsweise abgewälzt wird, das kommt viel zu spät. Das sind dann längst die Gelder raus und das kann man auch vorher beweisen. Ich kenne allerdings keinen der großen Geldgeber, die so was verlangen. Sie verlangen oftmals Datentransparenz oder Datenverfügbarkeit, aber nicht unbedingt rechnerische Transparenz. Es gibt ein paar kleine Geldgeber, die halten – 3ie ist eine kleinere Gesellschaft in der Entwicklungsökonomie und die halten Geld zurück, bis der Beweis erbracht wird, dass das Ganze auch läuft. Die haben auch ein internes Team, die das Ganze dann auch überprüft. Wenn das größere Geldgeber machen würden, dann gäbe es vermutlich auch mehr von solchen Teams, die das machen würden und dann müsste man das nicht mehr als Data Editor in der Zeitschrift machen. Also da ist schon ein Hin und Her zwischen „Wo sollte das idealerweise liegen?“. Universitäten haben da auch eine Rolle zu tragen oder Forschungsinstitute im Allgemeinen, beispielsweise Zentralbanken oder so was. Denn eigentlich tragen die ein Risiko für ihre Reputation. Wenn da Studien rauskommen, die sagen systematisch, man stelle sich vor, es kämen Studien raus, die sagten, „Systematisch sei die Zentralbank von XYZ nicht replizierbar.“ Das hat was mit der Kredibilität der der Wirtschaftspolitik zu tun, mit der Zentralbankpolitik. Die hätten also rein theoretisch ein Interesse daran, zu beweisen, dass das alles replizierbar ist. Die könnten dann beispielsweise interne oder externe Teams aufsetzen, um das Ganze dann zu überprüfen. Da ist also schon ein Interesse dran und das wird hin und wieder besprochen. Ich kenn da momentan noch kein Forschungsinstitut, das das systematisch macht. Ein paar Universitäten in den USA haben ein Service, der den Forschern anbietet, „Wir überprüfen für Sie, ob das replizierbar ist“ und das dann eben auch mit dem Siegel dann beweisen. Aber das ist längst noch nicht gang und gäbe, das wäre auch eine Möglichkeit. Also Universitäten haben da eine Rolle zu tragen.

[00:37:13] Doreen Siegfried:
Aber wenn Sie sagen, die Zentralbanken müssten eigentlich theoretisch um ihre Reputation fürchten, wenn herauskommt, dass bestimmte Studien nicht replizierbar sind: das gleiche gilt ja dann aber auch für Universitäten. Also die sind ja auch alle im Wettbewerb. Wenn da herauskommt, die Universität XYZ hat einen Anteil von, keine Ahnung, 20 % von Studien, die nicht replizierbar sind, das fällt ja dann letztlich auch auf diese Einrichtung zurück.

[00:37:37] Lars Vilhuber:
Das ist richtig. Und da, wo dann tatsächlich auch mal wissenschaftlicher Missbrauch gemacht wurde an Universitäten, wird oft auch die Universität blamiert. Nicht replizierbar ist nicht wissenschaftlicher Missbrauch von vornherein. Also es ist längst nicht mehr so schlimm. Aber ob das, wenn das nun systematisch wäre, wäre das natürlich auch ein Problem, wenn man das so sehen würde.

[00:38:00] Doreen Siegfried:
Okay.

[00:38:02] Lars Vilhuber:
Andererseits ist das auch eine Gelegenheit, beispielsweise Studenten damit rein zu bringen. Man kann sich vorstellen, dass man das jetzt als einen bestehenden Kurs hat, dass dann also volkswirtschaftliche Studenten mit einem gewissen Training am Ende des Semesters einen Haufen Studien der eigenen Fakultät auf die Art und Weise getestet haben und dann ein Feedback geben, wie das denn jetzt ging. Wir haben bei dem Pilotprojekt letzte Woche mit 15 Studenten haben wir 18 Studien in zwei Tagen gemacht. Das lässt sich also schon umsetzen. Das finden Studenten interessant und das hätte interessante Auswirkungen. Das sind Projekte für die Zukunft.

[00:38:42] Doreen Siegfried:
Ja, auf jeden Fall. Wie ändert sich dann die Datenveröffentlichungspolitik so in der US-amerikanischen Wirtschaftsforschung generell?

[00:38:52] Lars Vilhuber:
Im Sinne von Daten verfügbar machen?

[00:38:57] Doreen Siegfried:
Ja.

[00:39:00] Lars Vilhuber:
Die USA sind da so ein komisches Tier im Sinne von es ist seit sehr Langem gang und gäbe, dass viele der öffentlichen Daten sehr frei verfügbar sind. Da ist momentan eine Diskussion, ob die so frei verfügbar sein sollten. Denn man stellt fest, dass da schon, was man mit nach heutigem Stand als sensible Daten begutachten könnte, veröffentlicht wurden oder immer noch werden. Da ist also vielleicht eine Bewegung, das ein bisschen weniger freizügig zu machen. Im Allgemeinen ist aber dann immer noch mehr …. Es werden mehr Daten von Agenturen, von Regierungen veröffentlicht, auch auf dem lokalen, auf der lokalen Ebene, die dann eben von mehr Forschern immer mehr benutzt werden. Das heißt nicht unbedingt, dass die Daten immer nützlich sind für die Forschung. Das ist noch ein separates Gebiet. Dass die Daten beispielsweise in zwei Wochen dann wieder verschwunden sind, ist auch möglich. Aber im Allgemeinen ist das sehr, sehr großzügig. Ich sehe da eigentlich mehr Bewegung woanders.

[00:40:18] Doreen Siegfried:
Okay.

[00:40:18] Lars Vilhuber:
Wo eben traditionell nicht unbedingt diese Open Data Policy war. Also beispielsweise Kanada und Großbritannien, wo ich das ein bisschen besser kenne, haben in den letzten Jahren systematisch ihre neueren Datenveröffentlichungen unter einer Open Data Licence gesetzt. Das war vorher nicht da, das war vorher viel restriktiver. Andererseits in Europa sind die meisten Scientific Use Files so, dass Universitäten rankommen, die aber nicht einfach freizügig irgendwo veröffentlicht werden. Und wahrscheinlich zu Recht. Aber der Zugang zu diesen Daten wird ein bisschen breiter, mehr Leute kriegen dazu Zugang. Da sind dann so Aktivitäten wie vom FDZ des IABs, dass man da im Prinzip über das über ein Webinterface dann rein kann oder in Frankreich mit einem speziellen Thin Client, den mittlerweile tausende von Forschern auf ihrem Büro stehen haben, ist viel besser als vorher. Ist nicht, immer noch nicht so, dass ich das einfach auf meinem Laptop haben kann, das ist vielleicht auch richtig so. Zugang ist nicht einfach, dass man es frei runterladen kann, aber dass Zugang relativ billig sein sollte für den Forscher, dass es relativ großzügig sein sollte. Vielleicht nicht nur Universitätsforscher – Journalisten brauchen auch Datenzugang. Das sind nicht einfache Fragen, die von Land zu Land unterschiedlich gelöst werden.

[00:41:40] Doreen Siegfried:
Ja, okay. Ja, ich meine, das muss ja nicht alles immer frei für jedermann im Web zur Verfügung stehen. Aber wenn ich sozusagen mein Forschungsinteresse legitimieren kann, dass ich dann eben die Möglichkeit habe oder auch meinetwegen mein journalistisches Interesse darlegen kann, dass ich dann den Zugang bekomme, das wäre ja irgendwie ganz gut.

[00:41:56] Lars Vilhuber:
Genau. Ich glaube, von dem Sinne her beispielsweise das, was im IAB ist, ist hervorragend, denn es ist sehr, ja, es gibt so viele Möglichkeiten, die Daten zu benutzen. Von Testdaten, die Studenten benutzen können, bis hin zu den eigentlichen Daten, die man dann über Antrag und so weiter benutzen kann. Das hat sich in den letzten Jahren allgemein global verbessert. Da sind dann immer noch Barrieren wie beispielsweise, ich kann eben nicht an alle europäischen Daten von Nordamerika herankommen. Ich kann nicht unbedingt an koreanische Daten rankommen, wo in Korea jeder ran kann. Da müsste ich also nach Korea reisen. Oder ich müsste persönlich in die EU reisen, um an viele der deutschen Daten oder französische Daten heranzukommen. Das heißt aber nicht, dass das schlecht ist, denn dann sind immer noch Tausende von Volkswirten und anderen Forschern, die in Europa oder Korea oder Nordamerika an diese Daten rankommen. Nur weil ich nicht rankomme, das ist per se kein Problem, solange viele drankommen.

[00:43:01] Doreen Siegfried:
Ja, ja, verstehe.

[00:43:02] Lars Vilhuber:
Und viele mit unterschiedlichen Meinungen und Methoden, die Daten zu analysieren, sodass man auch eine Vielfalt der Forschungsergebnisse haben kann, die dann sagen, Studie A hat das so gemacht, Studie B das so gemacht und Studie C ist der Konsensus und darauf kann man dann irgendwas dann aufbauen. Es sollte also schon großzügig sein. Aber nicht unbedingt frei.

[00:43:27] Doreen Siegfried:
Ja, okay. In der Data and Code Ability Policy der AEA heißt es, ich lese mal vor: „Die American Economic Association veröffentlicht Beiträge nur, wenn die in der Analyse verwendeten Daten und der Code klar und präzise dokumentiert sind und der Zugang zu den Daten und dem Code nicht ausschließlich den Autoren vorbehalten ist.“ Hat dieses, ich nenne es mal Drohszenario seit 2018, hat das funktioniert? Also werden jetzt wirklich ordentliche Replikationspakete eingereicht, werden die qualitativ besser die Pakete?

[00:44:03] Lars Vilhuber:
Wir haben vorhin schon mal darüber gesprochen, dass diese Richtlinien, die wir rausgegeben haben, schon funktionieren. Wir haben gerade über Datenzugang gesprochen. Also auch die Beschreibung des Datenzugangs ist mittlerweile viel besser geworden. Ich kann mich in den 1.300 Artikeln, die wir bisher gesehen haben, eigentlich nicht an viele Daten erinnern. Also Ausnahmen werden gemacht. Sie sind aber sehr, sehr selten, wenn es wirklich Daten sind, an die der Forscher nur einmal rankam. Andere könnten theoretisch rankommen, aber die Daten existieren vielleicht nicht mehr oder so was. Also das ist dann wo wir etwas in der Grauzone sind. Aber solange das beschrieben ist, ist das dann schon richtig. Selten ist es der Fall, dass ein Forscher sagt: „Nur ich darf an die Daten ran. Das ist so im Vertrag geschrieben.“ Es könnte aber allerdings schwer sein, an neue Verträge ranzukommen. Aber einfach das auch hin und wieder mal testen, ob denn Daten tatsächlich so restriktiv sind, wie die Forscher das gesagt haben. Oder dass man dann auch mal kompliziertere Verträge abschließt, die dann den Überprüfungsprozess sehr langwierig machen. Aber das testen wir auch hin und wieder mal, nicht systematisch, das können wir nicht. Das würde dann zu viel verlängern. Aber ich bin an Daten rangekommen von Ebay, weil ich dann halt einen Vertrag mit Ebay abgeschlossen habe. Und der hing nicht davon ab, dass einer von den Forschern sagen musste „Der Lars darf das“, sondern da war ein System und das haben wir dann in deren Beschreibung reingenommen. Wird das jetzt jeder machen? Glaube ich nicht. Aber ein oder zwei werden es vielleicht in der Zukunft machen.

[00:45:49] Doreen Siegfried:
Ja, das…

[00:45:50] Lars Vilhuber:
Wir haben auch Forscher darauf hingewiesen, dass Daten, die sie meinten, exklusiv Zugang bekommen zu haben, dass die allgemein verfügbar sind. Oder wir haben gesagt, „Ihr habt einen Antrag geschrieben, dann veröffentlicht doch als Teil des Replikation Package den Antrag selber, so dass dann jemand anders den Antrag noch mal machen kann.“

[00:46:07] Doreen Siegfried:
Das, ich wollte nämlich gerade sagen, das wäre jetzt meine nächste Frage gewesen, bevor wir gleich zum Ende kommen: Dieses, was ich jetzt mal so ein bisschen flapsig „Drohszenario“ genannt habe, führt das gegebenenfalls auch zu einer Art Selbstselektion der Autoren/Autorinnen, also, dass die sozusagen gar nicht die Sachen einreichen wollen?

[00:46:28] Lars Vilhuber:
Vielleicht. Ich wurde ja Data Editor und habe sofort übernommen alle Artikel, die derzeit im Gange waren. Und also die Tatsache, dass die das gut beschreiben mussten, habe ich sofort implementiert. Die hatten ihren Artikel allerdings Jahre vorher an die Zeitschrift geschickt. Also von der Warte habe ich ein paar Indikatoren, dass da keine Selektion ist, dass es schon vorher eigentlich relativ großzügig war, bevor die neue neuere Politik so auch überprüft wurde. Dass da schon eine Selektion ist, dass wenn man einen Artikel hat, der auf Daten basiert, an die nur ich zufällig mal rankam und die niemand anders haben kann, kann sein. Das ist vielleicht auch Sinn der Sache. Es gibt Zeitschriften, die sagen, wir veröffentlichen nichts, wenn die Daten nicht öffentlich zugänglich sind. Und da ist natürlich auch Selektion und das ist vielleicht auch Sinn der Sache. Im Endeffekt ist für mich das Wichtigste Transparenz. Es kann ja sein, dass ich der Einzige bin, der an einen super interessanten Datensatz rangekommen bin und daraus einen Artikel schreibe, der interessante Punkte macht. Das ist ein Datenpunkt im wissenschaftlichen Gebilde und man sollte wissen, dass das nur ein Datenpunkt ist und dass niemand anders den Datenpunkt noch mal wiederholen kann. Aber vielleicht kann man ja sagen, was war denn an den Daten so richtig wichtig oder so einzigartig, so dass ich dann vielleicht mal zu einer anderen Firma gehen kann und sagen kann: „Ihr habt auch solche Daten. Können wir vielleicht mal ein zweites Paper darüber schreiben?“, weil ich da genug Informationen hatte über diese Daten. Also solange da die Transparenz ist, ist mir das eigentlich okay.

[00:48:11] Doreen Siegfried:
Ja, verstehe. Okay.

[00:48:14] Lars Vilhuber:
Wenn ich da grad noch hinzufügen kann, das ist auch mit Daten, die Leute nicht unbedingt als so restriktiv oder einzigartig betrachten und dennoch ist es der Fall. Wenn ich Analysen mache von Twitter – und das machen viele -, dann ist der Auszug der Twitter-Daten, den ich gerade bekommen habe – es sei denn, jemand macht genau in dem gleichen Augenblick den gleichen Auszug – ist der einzigartig. Weil morgen hat jemand garantiert in diesen Daten seine Daten von Twitter gelöscht und das dürfen die auch. Und die Daten darf ich nicht weitergeben mit den nun gelöschten Daten. Das heißt, wenn jemand morgen kommt und macht den gleichen Extrakt, kriegt er nicht die gleichen Daten. Das ist vielen Leuten nicht so bekannt, aber so Streamingdaten sind genauso einzigartig, weil sie in dem Zeitpunkt nur gemacht wurden.

[00:48:57] Doreen Siegfried:
Ja, verstehe. Okay, gut. Ja, ich habe noch eine letzte Frage aus der Abteilung, aus der Rubrik Tipps und Tricks. Also wenn Sie sozusagen mal an Wirtschaftsforschende in Deutschland denken. Also welche, sagen wir mal, drei Tipps haben Sie, wenn es um das Thema Replikation geht? Also wo lernt man das? Wo kann man sich vielleicht mit Gleichgesinnten austauschen? Wo kann man vielleicht sogar seine Replikationsstudien austauschen, veröffentlichen, meine ich? Also was wären so Ihre drei Tipps?

[00:49:30] Lars Vilhuber:
Ich würde mal sagen, immer mal anfangen, einen Artikel rausnehmen und einfach mal zu versuchen zu replizieren. Die Erfahrung, die man damit lernt, geht über das Resultat, was man da hat, hinaus. Man sieht zumindest ein Beispiel, wie es entweder funktioniert oder nicht funktioniert. Wenn man, wir können uns danach austauschen, ich rede jetzt hier nicht in Worten über Websites, wo man so was dann hinkriegen kann. Aber es gibt Zeitschriften, die Zeitschrift, die in Ihrem Institut gesponsert wird. Es gibt Websites, wo man solche Replikationen registrieren kann, so dass sie dann auch öffentlich werden. Das ist einmal das Lernen durch Beispiele. Wenn man dann selber seine sein Projekt aufbauen will auf eine Art und Weise, die replizierbar ist, gibt es ein paar Startpunkte. Die Website, die ich aufgebaut habe für die AEA, hat ein paar Indikatoren, woran man dann denken sollte. Und das hat nichts mit unseren Zeitschriften zu tun. Da sollte man sofort dran denken, wenn man ein Projekt anfängt. Und einer der wichtigen Tipps ist, dass man jedes Projekt mit gutem Willen anfängt. Und dann nach einem Jahr sollte man aber zurückkommen und das Ganze dann korrigieren, bevor es dann soweit von dem guten Willen abgekommen ist, dass es dann nicht mehr replizierbar ist. Das passiert jedem. Das sollte man also dann ständig dann auch begutachten. Und dann der letzte Tipp ist im Prinzip, wie kann man rausfinden, ob das verständlich ist. Da kommt dann die lokale Gemeinschaft hinzu, denn der erste Replikator, außer ich selber fünf Jahre von nun, ist der Kommilitone, ist der Kollege im nächsten Büro. Lasst den das mal laufen, ohne jegliche verbale Instruktion, nur mit dem, was geschrieben wurde im Readme, nur mit den Materialien, die da drin sind. Das müsste ausreichen, um das Ganze laufen zu lassen.

[00:51:30] Doreen Siegfried:
Ja.

[00:51:31] Lars Vilhuber:
Das ist ein Test, den man sehr einfach, sehr schnell machen kann. Man verspricht: „Ich rede jetzt nichts und du liest es jetzt alles und entweder es klappt oder es klappt nicht. Und wenn es nicht klappt, erklär mir, warum es nicht klappt.“

[00:51:44] Doreen Siegfried:
Ja.

[00:51:45] Lars Vilhuber:
Für die Person, die das macht, ist das auch wieder Nummer eins. Wie sieht eine Replikation eigentlich aus und wie kommuniziert man auch zum anderen, was schiefgegangen ist? Denn Fehler zu kommunizieren ist nicht ganz einfach. Das muss man dann auch lernen. Und das sollte man dann einfach mal ausprobieren und lernen und selber machen. Da gibt es dann auch technische Möglichkeiten, das zu machen. Funktioniert mein Code auch bei jemand anders auf einem neuen Computer, indem man da in irgendwelche Cloud Services reingeht? Und da habe ich auch einige Blogposts als Data Editor, wo man das mal ausprobieren kann. Das wird sehr schnell technischer. Das sollten junge Doktoranden sollten auf alle Fälle da mal reinschauen, denn das hilft auch gleichzeitig, die Forschung selber effizienter zu machen. Das ist aber keine Bedingung dafür, dass ein Paket replizierbar sein soll. Es sollte vor allen Dingen von Menschen verstanden werden. Und das ist der Kommilitone, der Kollege etc.

[00:52:34] Doreen Siegfried:
Ja, okay. Ja da lassen sich ja ganz schnell irgendwelche, ich sag mal, studentischen Selbsthilfegruppen, Arbeitsgruppen bilden. Das irgendwie montags kontrolliert der eine von dem anderen und dienstags andersrum. Das ist ja sozusagen für beide dann so eine win-win-situation.

Ja, super, dann bedanke ich mich ganz herzlich für die vielen Antworten. Vielen Dank auch an unsere Hörerinnen und Hörer. Ich hoffe, es hat Ihnen gefallen. Lassen Sie uns gern Feedback da, sei es über Email oder Kommentare oder wie auch immer. Abonnieren Sie uns fleißig überall da, wo man Podcasts hören kann. Auf iTunes, Spotify und so weiter. Und ich freue mich auf unsere nächste Sendung. Vielen Dank.

[00:53:13] Lars Vilhuber:
Danke auch.