Datenmanagementpläne: Eine typische Erwartung bei Projektanträgen
Wissenschaftsförderungsorganisationen wie DFG, BMBF, EU (Horizon 2020) erwarten, dass man sich dazu äußert, wie man mit Forschungsdaten, die in einem Projekt entstehen, umgeht; sie über 10 Jahre oder länger archiviert und zugänglich macht. Hintergrund ist – neben der Sicherung der guten wissenschaftlichen Praxis – auch das Bestreben nach Open Science, also der Transparenz von Ergebnissen, die eine Reproduzierbarkeit und ein Nachnutzen von Daten in anderen Kontexten ermöglicht.
Das klingt im ersten Augenblick trivial, aber wenn man einen Moment innehält merkt man, dass das ziemlich komplex werden kann: was passiert, wenn ein Projekt ausläuft und die Beteiligten die Forschung verlassen oder in Rente gehen? Was, wenn der Computer, der die Daten speichert, kaputtgeht? Die Speichermedien nicht mehr lesbar sind (welcher neue Computer hat schon noch DVD-Laufwerke oder gar Disketten)? Wem gehören die Daten überhaupt und darf jeder sie lesen? Ist irgendwie klar, mit welchem Programm sie geöffnet werden können? Was kostet der Umgang mit den Daten und wer soll das bezahlen? Wie findet man die Daten nach Jahren wieder? Ein Datenmanagementplan soll daher genau beschreiben, was man tut, um die Archivierung und Bereitstellung zu ermöglichen. Mit dem Werkzeug DMPTY hat CLARIN-D einen interaktiven Fragebogen bereitgestellt, mit dem man einen Datenmanagementplan erstellen kann. Wer den Fragebogen öffnet und sieht, wie viele Fragen er enthält, fragt sich unweigerlich, wie groß der Aufwand für einen Datenmanagementplan tatsächlich ist. In diesem Artikel soll versucht werden, darauf eine Antwort zu geben. Die Antwort für Eilige: wenn man mit einem Datenmanagementexperten zusammen den Plan erstellt und schon recht konkrete Vorstellungen vom Projekt hat, kann man das in 2-3 Stunden erledigen. Aber Achtung, hier sind einige Voraussetzungen, die man dafür erfüllen muss:
- Jemand, der sich bereits mit Datenmanagement auseinandergesetzt hat, muss verfügbar sein (CLARIN-D stellt im Bereich der sprachbasiert arbeitenden Geistes- und Sozialwissenschaften gerne einen Kontakt zu Experten her).
- Es muss ein Archiv geben, das bereit und in der Lage ist, die Daten auch entgegen zu nehmen und das die Speicherung für einen längeren Zeitraum vornimmt.
- Man muss selbst schon eine Vorstellung haben, welche Daten in einem Projekt verwendet werden sollen oder dort entstehen.
- Wenn man vor der Deadline noch etwas Zeit hat, wird der Plan aussagekräftiger und besser – und falls man Kostenbeiträge leisten muss, kann man die noch ins Projektbudget einpflegen, ohne den Kostenrahmen zu sprengen.
Erfahrungen bei der Erstellung des Datenmanagementplans für die zweite Phase des Graduiertenkollegs 1808 „Ambiguität: Produktion und Rezeption“
Ausgangssituation:
Im Rahmen des Antrags auf die zweite Förderperiode des Graduiertenkollegs 1808 sollte ein Datenmanagementplan erstellt werden. Graduiertenkollegs haben die Eigenart, dass man zum Zeitpunkt der Antragsstellung zwar gewisse Rahmenthemen benennt, die auch mehr oder weniger unmittelbar zu Themen von Einzelprojekten führen, die aber in Abhängigkeit von Vorstellungen der Betreuenden und Promotionsstudierenden noch erhebliche Varianten erlauben bzw. durch individuelle Projekte, die im Verlauf der Förderperiode hinzu kommen, ergänzt werden. Im Bereich des GRK 1808 sind so verschiedenste Datentypen denkbar, von Textsammlungen in verschiedenen Formaten bis zu EEG-Studien (richtig, das sind Messungen von Gehirnaktivitäten), von lexikalischen Ressourcen bis zu Reaktionszeitexperimenten. Natürlich kann es auch Audio- und Videodaten geben, zusammen mit ihren Transkriptionen, dazu Annotationen der untersuchten Phänomene. Neben der Art der Daten ist auch die Größe der Daten und die Anzahl der zu erwartenden Dateien unklar. Aber man kann trotzdem bereits mit einem Datenmanagementplan beginnen, der eigentlich für definiertere Projekte vorgesehen ist, in denen man diese Informationen bereits kennt.
Der Plan muss entsprechend der Bedürfnisse eines Graduiertenkollegs angepasst sein. Dazu gehört, dass man bei den Fragen im Template für Datenamanagementpläne, für die man keine konkreten Angaben machen kann, das Vorgehen beschreibt, wie man im Nachgang das Datenmanagement realisieren kann. In diesem Fall ist es so, dass das Thema Datenmanagement, Größe und Art der Daten bereits im Auswahlverfahren der Teilnehmenden angesprochen wird – nicht als Kriterium, sondern als Teil der Planung des einzelnen Projekts. Dadurch wird auch gewährleistet, dass die vorgesehenen Ressourcen zur Archivierung auch ausreichen und nicht zusätzliche Mittel und Kompetenzen bereitgestellt werden müssen. Außerdem kann so von vornherein sichergestellt werden, dass klar ist, wer die Veröffentlichungsrechte an Daten besitzt, ob sie gegebenenfalls anonymisiert werden müssen und ab wann sie der wissenschaftlichen Öffentlichkeit frei zur Verfügung gestellt werden können. Zur Bestimmung der Ressourcen, die zur Archivierung vorgehalten werden, kann auf die Erfahrungen aus vorherigen Projekten und den zu erwartenden Datentypen zurückgegriffen werden, auch wenn man von einer Flexibilität ausgehen muss. Je konkreter die Vorstellungen der Antragstellenden zu den Projekten sind, desto besser können sie einschätzen, mit welchen Datentypen zu rechnen ist und wie das Verhältnis der unterschiedlichen Datentypen zueinander ist.
Konkretes Vorgehen
Im Laufe der Erstellung des Antrags zum GRK 1808, also nachdem inhaltliche Ideen und Rahmen beschrieben wurden, haben wir uns zusammengesetzt, um einen Datenmanagementplan mit Hilfe von DMPTY zu entwickeln. Wir, das waren in diesem Fall Angelika Zirker als Expertin für Ambiguität und an der Koordination des GRK Beteiligte und ich, Thorsten Trippel, als Vertreter des CLARIN-D-Zentrums an der Universität Tübingen. CLARIN-D sollte die Infrastruktur für die Archivierung in einem zertifizierten Repositorium zur Verfügung stellen und so dafür sorgen, dass mit Hilfe von beschreibenden Metadaten der zu archivierenden Daten alle notwendigen Informationen zum späteren Auffinden von Daten und ein Überblick über die Daten vorliegen. Angelika Zirker hatte dagegen eine Vorstellung davon, welche Art von Daten entstehen würde, so dass Abschätzungen zum Aufwand möglich wurden. Dadurch, dass wir den Fragebogen zusammen ausgefüllt haben, konnten Unklarheiten direkt besprochen und gleichzeitig auch den Unbestimmtheiten Rechnung getragen werden. Um sich darüber zu verständigen, worum es in den Projekten gehen wird, aber auch, warum bestimmte Fragen für ein Datenmanagement relevant sind und was damit gemeint ist, musste auch eine gemeinsame Sprache gefunden werden, das heißt, es musste sichergestellt werden, dass die Begrifflichkeiten rund um die Daten gleich verwendet werden. Das Ausfüllen des Fragebogens dauerte zusammen ungefähr 1,5 Stunden, anschließend wurde noch nachgearbeitet, da der Fragebogen zu einem Text geführt hatte, der noch anzupassen war. Die Nacharbeit dauerte dabei nochmal ca. 1,5 Stunden und beinhaltete, neben sprachlichen Glättungen, auch eine Layoutanpassung, um den Datenmanagementplan in den Anhang des Antrages einfügen zu können. Der Plan umfasste anschließend insgesamt 5 Seiten mit detaillierten Angaben zu Kontaktmöglichkeiten, Kooperationen, Unklarheiten und Datentypen, aber auch Pläne dazu, wie in jedem einzelnen Promotionsprojekt für ein Datenmanagement im Rahmen dieses GRKs gesorgt werden kann.
Report
My comments