Standardisierung eines Standards: Warum und wie ein Best-Practice-Guide für das Metadatenschema DataCite entstand

Version:
Zitation:
  1. Referenz auf den gesamten Beitrag:
    Julian Schulz & Sonja Kümmet & Stephan Lücke & Martin Spenger & Tobias Weber (2020): Standardisierung eines Standards: Warum und wie ein Best-Practice-Guide für das Metadatenschema DataCite entstand, Version 1 (20.01.2020, 13:49). In: Korpus im Text. url: http://www.kit.gwi.uni-muenchen.de/?p=42800&v=1.
    Diese URL enthält einen Hinweis auf die unveränderliche Version (…v=nn)
  2. Referenz auf einen Abschnitt oder Nachweis eines Zitats: http://www.kit.gwi.uni-muenchen.de/?p=42800&v=1#p:1
    Diese URL enthält einen Hinweis auf einen spezifischen Abschnitt (…p:1). In diesem Fall ist sie mit dem ersten Absatz verknüpft. Eine vollständige Referenz kann jeweils mit dem Zitationssymbol zu Beginn jedes Absatzes abgegriffen werden.
Abstract

Um die Auffindbarkeit und Nachnutzung und damit den Mehrwert von Forschungsdaten zu befördern, empfiehlt sich zur Beschreibung der Daten die Verwendung eines verbreiteten Metadatenschemas. Das vom gleichnamigen Konsortium herausgegebene DataCite Metadata Schema hat sich inzwischen als weltweit eingesetztes Modell etabliert. Bei der Evaluation von DataCite-XML-Dateien, die von Projektverantwortlichen an der IT-Gruppe Geisteswissenschaften der LMU München und am Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften erstellt worden waren, zeigte sich jedoch der Bedarf, den Standard zu erweitern. Vor diesem Hintergrund beteiligten sich Akteure aus den Bereichen Datengenerierung, Datenkuratierung und Datenaggregation an der Ausarbeitung eines Best-Practice-Guides für DataCite, um durch eine stärkere Normierung der Eingaben die Interoperabilität von (Meta-)Daten zu erhöhen. Der vorliegende Beitrag beschreibt den Entstehungsprozess hin zu dem inzwischen veröffentlichten Best-Practice-Guide, erörtert die Gründe für seine Erarbeitung, stellt die wesentlichen Merkmale des Leitfadens vor und den potentiellen Mehrwert durch seine künftige Anwendung dar.

1. Einleitung

Bei der Beschreibung von Forschungsdaten hat sich das Metadatenschema DataCite zu einem weit verbreiteten Standard entwickelt. DataCite kommt bei zahlreichen Forschungsdateninfrastrukturen und -repositorien zur Anwendung.1Neben der von DataCite selbst betriebenen Metadata Search beispielsweise bei Zenodo, GeRDI und dem Forschungsdatenrepositorium der Ludwig-Maximilians-Universität München, Open Data LMU. Jedoch zeigt sich, dass der Konsens über die Verwendung eines einheitlichen Metadatenschemas zur Erfassung von Metainformationen allein nicht ausreicht, um Interoperabilität zu gewährleisten: Fehlende Regeln zur Erfassung von Metadaten führen zu Variabilität und damit zu einer erschwerten wenn nicht gar unmöglichen automatisierten Verarbeitung der Informationen durch Forschungsdateninfrastrukturen – zum Nachteil der wissenschaftlichen Endnutzer/innen.2Brase u.a. 2015, 4.

Damit Daten den FAIR-Prinzipien3(Wilkinson u.a. 2016) entsprechend auffindbar, erreichbar, interoperabel und nachnutzbar sind, kommt der strukturierten und möglichst normierten Erfassung ihrer Metadaten eine entscheidende Rolle zu.4Brase u.a. 2015. Der hier vorgestellte Best-Practice-Guide für das Metadatenschema DataCite hat dies zum Ziel:5Und folgt damit den Empfehlungen des Positionspapiers der DHd-Arbeitsgruppe Datenzentren (DHd AG Datenzentren 2018, 25f.). Wissenschaftlerinnen und Wissenschaftlern möge er bei der Beschreibung ihrer Forschungsdaten eine praktische Unterstützung sein. Betreibern von Datenrepositorien kann er als Anregung für eine bewusstere Art der Metadaten-Integration dienen. Nicht zuletzt erhoffen wir uns, durch seine Veröffentlichung zu einem FAIReren Umgang mit Forschungsdaten beizutragen und das Bewusstsein der Forschungscommunity für die Bedeutung einer auf einander abgestimmten Vergabe von Metadaten speziell im Hinblick auf Interoperabilität zu schärfen.

Im vorliegenden Beitrag wird zunächst auf aktuelle Entwicklungen im Hinblick auf DataCite verwiesen (Abschnitt 2). Anschließend (Abschnitt 3) werden verschiedene Arten von Metadatenschemata vorgestellt und ihr Mehrwert für die Forschung dargelegt. Der 4. Abschnitt rückt das Metadatenschema DataCite in den Fokus, für das der Best-Practice-Guide konzipiert wurde. Über die Ausgangssituation  (Abschnitt 5), vor deren Hintergrund die Erarbeitung des Guides erfolgte, werden die Gründe für diese Unternehmung erörtert (Abschnitt 6). Die beiden darauffolgenden Abschnitte (7 und 8) widmen sich dem Ausarbeitungsprozess einschließlich der daran beteiligten Akteure und der konzeptionellen und inhaltlichen Gestaltung des Leitfadens.

2. DataCite im Kontext aktueller Entwicklungen

Seit seiner Gründung im Jahr 2009 ist das internationale DataCite-Konsortium maßgeblich daran beteiligt, die Anliegen des Forschungsdatenmanagements in den Wissenschaften voranzubringen. Besonders die Veröffentlichungen zum gleichnamigen Metadatenschema, dem DataCite Metadata Schema (DataCite Metadata Working Group 2019), ebenso wie Empfehlungen und Erfahrungsberichte zu seiner Verwendung, beispielsweise bezüglich des Einsatzes von persistenten Identifikatoren für Forschungsdaten (Rueda u.a. 2016) sind Beispiele für die Bedeutung von DataCite. Nicht zuletzt steht die Webinar-Reihe zur Vorstellung des Metadatenschemas für die aktive Ansprache der Forschenden (Rueda 2016). Dabei wird stets die gewinnbringende Zusammenarbeit von Forschenden, Wissenschaftlerinnen und Wissenschaftlern, Bibliothekarinnen und Bibliothekaren hervorgehoben (Müller 2019), wie sich bei einer Rückschau auf fünf Jahre DataCite und zehn Jahre Digital Object Identifier (DOI) zeigt (Brase u.a. 2015).

DataCite wird weltweit als gängiger Standard eingesetzt. Das Metadatenschema ist mittlerweile international anerkannt, wofür die Verbreitung von DataCite in Japan (Takeda 2015) und Korea (Kim u.a. 2017) spricht, aber auch seine Verwendung in einer an der University of Michigan eingerichteten Task-Force (Álvarez u.a. 2013). Es haben sich zudem nationale Konsortien gegründet, zum Beispiel das DataCite Estonia Consortium, DataCite Netherlands oder DataCite UK. Neben der Berücksichtigung regionaler Aspekte bei der Vergabe von DOIs wirken diese zugleich auf eine Vereinheitlichung der verwendeten Metadaten hin. Auch die Community im deutschsprachigen Raum setzt verstärkt auf DataCite, was aus Berichten und Tätigkeiten von da|ra (Helbig u.a. 2015) und der ETH Zürich hervorgeht (Hirschmann 2015). DataCite wird gleichzeitig als wichtiger Baustein für das Forschungsdatenmanagement (FDM) an wissenschaftlichen Bibliotheken gesehen (Pletsch u.a. 2018).

Als primäre Grundlage für den Best-Practice-Guide dienen die Metadatenschemata von DataCite (DataCite Metadata Working Group 2019) und CrossRef (CrossRef 2019) sowie das DOI-Handbook (International DOI Foundation 2017). Die umfangreiche, über 70 Seiten umfassende Dokumentation des DataCite-Schemas liefert zwar eine detaillierte Anleitung für die Befüllung der Metadatenfelder. Diese hat sich allerdings als nicht hinreichend erwiesen, um in allen Belangen interoperable Metadaten zu generieren. Maßgeblich zur Entstehung des Guides trugen auch die oben genannten, internationalen DataCite-Erfahrungsberichte bei. Von zentraler Bedeutung ist die Tatsache, dass das Metadatenschema ständig weiterentwickelt wird (Starr/Gastl 2011). Durch die Arbeitsgruppen Metadata Working Group und Policy and Best Practices Working Group (diese ist mittlerweile inaktiv) wurde bereits eine Vielzahl an Entwicklungen am Metadatenschema vorangetrieben. Der nun vorgelegte Best-Practice-Guide knüpft an diese Praxis an und richtet sich vor allem an Datenproduzenten, aber auch an Infrastrukturanbieter.

Für Themen rund um persistente Identifikatoren (PID) hat sich das PID-Forum zu einer Austauschplattform etabliert. Es wartet nicht nur mit Erfahrungsberichten und konkreten Fallbeispielen auf, sondern fördert zugleich die Vernetzung von Institutionen auf diesem Gebiet. Auch diese Sammlung bot sich als Quelle für die Erarbeitung des Best-Practice-Guides an, da der Leitfaden die Verwendung etablierter PID-Systeme für die zuverlässige Verknüpfung verteilter Datenbestände empfiehlt.

3. Bedeutung von Metadaten für die Forschung

Um Forschungsdaten zur Verfügung zu stellen, gibt es für Wissenschaftlerinnen und Wissenschaftler fachspezifische und fachübergreifende Angebote:6Zu den unterschiedlichen Organisationsformen vgl. DHd AG Datenzentren 2018, 20-23. Fachspezifische Repositorien bieten die Möglichkeit, Daten der Community einer bestimmten Fachdomäne zugänglich zu machen (z.B. GESIS für die Sozialwissenschaften, OstData für Ost-, Ostmittel und Südosteuropastudien). Fachübergreifende Repositorien unterteilen sich in standortgebundene Angebote, beispielsweise für die Angehörigen einer Universität (z.B. Open Data LMU) und standortübergreifende Forschungsdateninfrastrukturen. Unter diesem Begriff werden sowohl Dienste zur selbständigen Publikation von Forschungsdaten verstanden (z.B. Zenodo, DARIAH-DE Repositorium7Aktuell in einer fortgeschrittenen Betaversion verfügbar.), als auch Meta-Suchmaschinen, die über die Grenzen von Repositorien hinweg operieren (z.B. Generic Research Data Infrastructure (GeRDI)8Bode u.a. (2017-); vgl. Grunzke u.a. 2017.).

Trotz oder gerade wegen dieser Diversität an Möglichkeiten zur Veröffentlichung von Forschungsdaten gilt für alle Angebote gleichermaßen: Um Forschungsdaten nachhaltig, d.h. über einen langen Zeitraum hinweg für eine breite (wissenschaftliche) Öffentlichkeit verwertbar zu halten und für die automatisierte Verarbeitung durch technische Systeme zugänglich zu machen, ist die Verwendung von Metadaten unverzichtbar. Metadaten ermöglichen durch ihren erhöhten Abstraktionsgrad, Forschungsdaten unabhängig von ihrer spezifischen Strukturierung und ihrem physischen Speicherort auffindbar, referenzierbar und nachnutzbar zu machen. Als maschinenlesbare Beschreibung von Daten spielen sie eine wichtige Rolle bei der Erschließung von Datenbeständen und tragen grundlegend zur Effizienzsteigerung von Forschung bei.9Grunzke 2016, 2.

Metadaten unterstützen das selektive Auffinden von relevanten Datenquellen für aktuelle oder künftige Forschungsprojekte. In manchen Fällen werden neue Forschungsfragen dadurch erst möglich gemacht.10Franzke 2017, 5. Angaben zu verwendeter Software, Methoden und Modellen können Anhaltspunkte für die Auswahl eines Datenbestandes für die eigene Arbeit liefern. Nicht zuletzt trägt ein Hinweis auf das zugrundeliegende Lizenzmodell in den Metadaten zu einer Rechtssicherheit in der Wissenschaft und darüber hinaus bei. Um das Potential für die Forschung bestmöglich zu entfalten, spielt neben der Wahl eines weit verbreiteten Metadatenstandards die Konsistenz der Metadaten eine entscheidende Rolle.11Vgl. Anm. 1. Nur so können mit Hilfe von Semantic Web-Technologien und Linked Open Data-Verfahren heterogene Ressourcen miteinander verknüpft und innovative Nutzungsszenarien ermöglicht werden.12Pohl/Danowski, 392-408, bes. 393f.

Metadaten helfen auch dabei, Forschungsdaten in herkömmliche Bibliothekskataloge (OPAC) einzubinden; gerade diese Möglichkeit führt zu einer gesteigerten Sichtbarmachung wissenschaftlicher Ergebnisse durch eine erweiterte Öffentlichkeit und damit – dem Open-Access-Gedanken entsprechend – zu einer Demokratisierung von Wissen.

Es gibt verschiedene Arten von Metadaten,13Vgl. Rühle 2012. bei denen im Folgenden der Blick auf die deskriptiven Metadaten gerichtet wird. Diese lassen sich wiederum in generische und inhaltserschließende Metadaten unterteilen:

  • Generische Metadaten dienen der formalen Erschließung von Forschungsdaten. Sie enthalten beispielsweise den Titel, Angaben zur Datenautorschaft, zum zeitlichen Entstehungskontext, der institutionellen Anbindung des zugrundeliegenden Forschungsprojekts. Bekannte Vertreter sind das seit 1994 von der Dublin Core Metadata Initiative (DCMI) konzipierte Dublin Core-Format sowie das umfangreichere Metadatenschema DataCite.
  • Inhaltserschließende Metadaten enthalten Informationen, welche durch die Analyse der Beziehungen innerhalb der zu beschreibenden Ressource gewonnen werden. Beispielsweise kann modelliert werden, wann eine antike Stätte von einem Herrscher unter Beteiligung verschiedener Architekten mit welchem Baumaterial an einem bestimmten Ort errichtet wurde. Durch eine umfassende Inhaltserschließung werden solch dezidierte, fachspezifische Angaben durchsuchbar. Eine bekannte und wirkmächtige Ontologie für Begriffe des kulturellen Erbes ist CIDOC CRM, einschließlich inzwischen vielfältiger Erweiterungen für bestimmte Subdisziplinen.14Für eine Auflistung der mit CIDOC CRM kompatiblen Erweiterungen siehe: http://www.cidoc-crm.org/collaborations. Auch das Europeana Data Model (EDM) hat sich inzwischen als Standard für die inhaltliche Erschließung von Kulturdaten etabliert.

Für eine bestmögliche Erschließung von Forschungsdaten empfiehlt sich die Kombination generischer und inhaltserschließender Metadatenmodelle. Dadurch ergeben sich Sucheinstiege für unterschiedliche Zielgruppen.15Gradl u.a. 2015, bes. Abschnitt 2.

Der vorliegende Beitrag richtet den Fokus auf das DataCite-Schema und damit auf die generische Komponente der Metadatenerschließung. DataCite weist als relativ ausdifferenziertes Metadatenschema ansatzweise bereits inhaltserschließende Charakteristika auf. Dies macht eine zusätzliche Verwendung inhaltserschließender Modelle selbstverständlich nicht obsolet. Jedoch ermöglicht die sorgfältige Erfassung der Forschungsdaten in DataCite, dass Repositorien, die (aktuell noch) keine inhaltserschließenden Modelle unterstützen, zumindest grundlegende Informationen zum Inhalt der Daten offerieren können. Zudem kann bereits eine basale Form der Inhaltserschließung dazu führen, dass Angehörige anderer Wissenschaftsdomänen auf Datenbestände aufmerksam gemacht werden, deren Relevanz ohne Angaben zum Inhalt nicht ersichtlich gewesen wäre.16Pempe 2012, 138.

Das Metadatenmodell DataCite bietet gute Vernetzungsoptionen, insbesondere wenn keine inhaltliche Tiefenerschließung der Daten vorhanden ist, und befördert dadurch eine interdisziplinäre Kontextualisierung von Forschungsergebnissen. DataCite bietet gegenüber anderen generischen Metadatenmodellen weitere Vorteile, die im folgenden Abschnitt kurz dargelegt werden.

4. Das Metadatenschema DataCite

Die Bereitstellung des DataCite Metadata Schema ist eine der Kernaufgaben von DataCite und der Metadata Working Group. Die bisherige Entwicklung des Metadatenschemas lässt sich über die DataCite-Webseite gut nachvollziehen: Die Version 2.0 des Metadatenschemas vom Januar 2011 wurde im Juli 2013 von Version 3.0 abgelöst. Momentan werden alle Versionen ab 3.0 unterstützt. Für den Best-Practice-Guide wurde mit Version 4.3 der aktuellste Stand berücksichtigt. Die Metadata Working Group arbeitet momentan an einer Version 5.0, nach deren Veröffentlichung eine entsprechende Anpassung des Best-Practice-Guides vorzunehmen sein wird.

Ein Schlüsselfaktor der Services von DataCite liegt im Konzept des persistenten Identifikators. Dafür werden ausschließlich DOIs verwendet, die eine eindeutige und URL-unabhängige Zuordnung einer digitalen Ressource erlauben. Neben CrossRef ist DataCite eine der reichweitenstärksten Institutionen zur Registrierung von DOIs. Die Rolle, welche die DOI-Registrierung für die Verbreitung des Standards spielt, wird durch die Zahl an registrierten Metadatensätzen deutlich: Im Herbst 2019 waren es insgesamt mehr als 19 Millionen Registrierungen über DataCite,17Vgl. die Angabe bei „completeListSize“ unter: https://oai.datacite.org/oai?verb=ListIdentifiers&metadataPrefix=oai_dc die Nutzerinnen und Nutzern, Repositorienbetreibern und Datenaggreatoren die Möglichkeit geben, die Zitation von wissenschaftlichen Arbeiten und Ergebnissen dauerhaft zu gewährleisten.

In Deutschland gibt es mehrere große Registrierungsagenturen, die einen DOI-Service anbieten. Zusätzlich besteht für Institutionen die Möglichkeit einer direkten Mitgliedschaft bei DataCite, die eine eigenständige Verwaltung der DOI-Vergabe beinhaltet und die direkte Mitarbeit in der DataCite-Community ermöglicht.18Von den am Best-Practice-Guide beteiligten Institutionen ist die Universitätsbibliothek der LMU seit Juli 2019 eigenständiges Mitglied bei DataCite und registriert DOIs unter dem Präfix 10.5282. Zuvor nutzte sie über mehrere Jahre hinweg den DOI-Service der Technische Informationsbibliothek Hannover (TIB).

DOIs können entweder über das Registrierungsformular DOI Fabrica19Für Informationen zu DOI Fabrica vgl. DataCite Roadmap: https://datacite.org/roadmap.html. Allerdings werden hier nicht alle Metadatenfelder berücksichtigt (siehe Ticket: „Support all metadata fields in the DOI registration form“)., oder über eine entsprechende Schnittstelle registriert werden. Grundvoraussetzung hierfür ist die Einhaltung der Schemastruktur und eine konsistente Befüllung der Felder. Letztere unterteilt DataCite in folgende Kategorien:20Vgl. Abschnitt „DataCite-Best-Practice-Guide“.

  • Pflichtelemente
  • empfohlene Elemente
  • optionale Elemente

DataCite verfolgt mit dem gleichnamigen Metadatenschema folgende Ziele:21Vgl. 1.2 in https://schema.datacite.org/archive/kernel-2.2/doc/DataCite-MetadataKernel_v2.2.pdf

  • Empfehlung eines Zitationsformats als Standard für Datensets, basierend auf einer geringen Anzahl obligatorischer Felder für die Registrierung von Identifikatoren;
  • Bereitstellung der Grundlage für Interoperabilität mit weiteren Metadatenschemata;
  • Förderung der Auffindbarkeit von Daten mit optionalen Feldern, die eine flexible Beschreibung der Ressource erlauben und die Verknüpfung mit weiteren Ressourcen beinhalten;
  • Grundsteinlegung für zukünftige Angebote (z.B. Discovery-Systeme) durch den Einsatz von kontrollierten Vokabularen.

Ein weiterer Grund für den Einsatz von DataCite liegt in der Weiterentwicklung des Standards durch die Community. Auch die an dem hier vorgestellten Best-Practice-Guide beteiligten Institutionen bringen sich in die Diskussion ein. Dies erfolgt einerseits über den kontinuierlichen Austausch mit Forschenden und Infrastrukturanbietern, andererseits über das eingangs erwähnte PID-Forum und im direkten Kontakt mit dem DataCite-Konsortium.

Eine weitere Stärke von DataCite ist die stetige Verbesserung der Interoperabilität zwischen verschiedenen Modellen. Während CrossRef weiterhin in der Verlagswelt Verbreitung findet, wird DataCite überwiegend für institutionelle Repositorien verwendet. Schnittstellen wie die CrossRef API und die DataCite API bieten die Möglichkeit, Informationen zu Zitationsregeln und -empfehlungen von Daten-Publikationen zu geben.22Vgl. https://www.crossref.org/blog/data-citation-what-and-how-for-publishers/ Zudem gibt es Mappings zu Standards wie Dublin Core, IDF, OECD und DDI.23Vgl. 21-32: http://schema.datacite.org/meta/kernel-2.2/doc/DataCite-MetadataKernel_v2.2_de.pdf

Da die Anzahl der im Wissenschaftsbereich produzierten Datensätze stetig wächst, ist auch die Kommunikation und Vernetzung ein wichtiger Bestandteil des Forschungsdatenmanagements. Durch die Einhaltung der Vorgaben eines Metadatenschemas, die Verwendung von DOIs und die „ganzheitliche Integration und flächendeckende Nutzung“24Dreyer u.a. 2019, 120. zusätzlicher PIDs wird die Sichtbarkeit der Daten optimiert. Durch die Förderung der Darstellung von Zitationsnetzwerken und der Messung des Outputs von Institutionen wird zudem die Effizienz von Wissenschaftskommunikation gesteigert.25Beispielsweise wird im Zuge der Einbindung des ROR-Identifikators in DataCite 4.3 die Möglichkeit eröffnet, in der DataCite Search nach den Forschungsergebnissen einer bestimmten Institution zu suchen. Vgl. den Blogbeitrag: Dasler 2019.

5. Ausgangssituation

Ausgangspunkt für die Überlegungen zur Entwicklung eines Best-Practice-Guides war die Erschließung unterschiedlicher Datenbestände aus verschiedenen Forschungsprojekten unter Verwendung generischer Metadaten. Die entsprechende Notwendigkeit ergab sich nahezu simultan sowohl an der IT-Gruppe Geisteswissenschaften (ITG) der LMU sowie im Kontext des High Performance Computing (HPC) am LRZ. Während es sich bei der ITG um Forschungsdaten aus dem Bereich der Geisteswissenschaften handelt,26An der ITG ist im Lauf der vergangenen Jahrzehnte ein beachtlicher Bestand an Forschungsdaten zusammengekommen. Das älteste an der ITG beheimatete DH-Projekt ist die Biblia Hebraica transcripta (BHt) (Richter/Rechenmacher/Riepl 1986-), deren Anfänge bis in die 1980er Jahre zurückreichen. Vergleichsweise rezent sind die Projekte VerbaAlpina (Krefeld/Lücke 2014-), ein lexikalisch ausgerichtetes Vorhaben, das den Sprach- und Kulturraum der Alpen zum Gegenstand hat, und die Personendatenbank „Kaiser und Höfe“ (Hengerer/Schön 2014-), die die Höflinge der österreichischen Habsburger des 16. und 17. Jahrhunderts enthält. Der von der ITG verwaltete Datenbestand stammt aus einer Vielzahl geisteswissenschaftlicher Einzeldisziplinen und Fächer; neben der Sprach- und Geschichtswissenschaft zählen dazu vor allem die Ägyptologie, die Theaterwissenschaft, die Kunstgeschichte, die Musikwissenschaft, die Theologie sowie die Archäologie. stammen die am LRZ beheimateten und betreuten Daten z. B. aus den Umweltwissenschaften, den Lebenswissenschaften oder der Astrophysik. Sowohl an der ITG wie auch am LRZ stellte sich zunehmend die Frage, wie auch große Mengen von Forschungsdaten nicht nur existenzgesichert, sondern darüberhinaus auch generisch erschlossen und somit auffindbar und nachnutzbar gemacht werden können. 

2016 startete unter Beteiligung des LRZ als Projektpartner das DFG-geförderte Projekt GeRDI, das eine disziplinübergreifende und transparente Integration von Forschungsdaten zum Ziel hat. Im Jahr darauf, 2017, ergab sich für die ITG und die UB der LMU die Gelegenheit, sich am vom Bayerischen Wissenschaftsministerium geförderten FDM-Projekt „eHumanities – interdisziplinär“27Söllner/Riepl/Weiß 2018-. zu beteiligen und auf diese Weise einschlägige Expertise zu erwerben. Von beiden Projekten wurde VerbaAlpina als Pilotprojekt ausgewählt, dessen strukturierte Forschungsdaten in enger Kooperation mit den Projektverantwortlichen und der UB der LMU exemplarisch mit generischen Metadaten angereichert und in das Datenrepositorium der LMU übertragen werden sollten. Im Zuge dieses Anwendungsfalles kristallisierte sich eine klare Rollenverteilung heraus, in der der ITG die Funktion eines disziplinnahen Komptenzzentrums, der UB die Rolle eines Datenzentrums und GeRDI die eines fachübergreifenden universalen Datenaggregators zukommt.

Es zeigte sich, dass das hier behandelte Metadatenschema von DataCite eine geeignete Grundlage für die operative Umsetzung darstellt.28Zur Bewertung von DataCite siehe Abschnitt „Das Metadatenschema DataCite“. Zur Abdeckung eines möglichst breiten Szenarios wurden neben dem sprachwissenschaftlich ausgerichteten Projekt VerbaAlpina exemplarisch weitere an der ITG beheimatete Projekte mit möglichst komplementärer fachlicher Ausrichtung ausgewählt. Am LRZ wurde die Metadatenanreicherung exemplarisch am umweltwissenschaftlichen ClimEx-Projekt29Ludwig 2015-2019; vgl. Leduc u.a. 2019 durchgeführt. Die jeweiligen Projektverantwortlichen wurden darum gebeten, ihre Forschungsdaten ebenfalls mit DataCite-Metadaten anzureichern. Für die Erfassung der Metadaten stand mit dem DataCite-Generator für die ITG-Anwendungsfälle ein Hilfsmittel zur Verfügung, das parallel zum Leitfaden funktional weiterentwickelt wurde.30Für die Anpassungen im Detail vgl. Abschnitt 8.

Die Evaluierung der durch die Projektverantwortlichen vorgelegten DataCite-XML-Dateien ergab den Befund, dass trotz der Verwendung eines einheitlichen Metadatenschemas zu wenig Standardisierung existierte. Der identifizierte Bedarf, den Standard zu spezifizieren und zu erweitern stand am Beginn des mehrmonatigen Ausarbeitungsprozesses, der schließlich in der Veröffentlichung des hier behandelten DataCite-Best-Practice-Guides mündete.

6. Gründe für einen Best-Practice-Guide

Die Erstellung des Best-Practice-Guides ist vor diesem Hintergrund zweifach motiviert: Angestrebt wurde zum einen eine Art Werkzeugkasten zur Unterstützung von Forschenden bei der Befüllung des DataCite-Formats, zum anderen eine stärkere Normierung der Eingaben, um die Metadatenqualität zu verbessern und damit die Nachnutzung der (Meta-)Daten zu befördern.31Vgl. hierzu Abschnitt 2.

Zielgruppe des DataCite-Best-Practice-Guides sind in erster Linie Forschende, die ihre Forschungsdaten eigenständig in ein Repositorium hochladen und zu diesem Zweck mit DataCite-Metadaten versehen wollen. Dieser Gruppe ist gemein, dass sie in aller Regel am Ende eines Projekts nicht mehr Zeit als nötig in die Erschließung ihrer produzierten Daten investieren wollen und dass sie keine bis wenig Erfahrung im Umgang mit Metadaten haben. Der Best-Practice-Guide möchte hier ansetzen und als eine Art Handreichung fungieren, die gegenüber der offiziellen DataCite-Dokumentation nicht nur den Vorteil der deutlich knapperen Seitenzahl, sondern auch einen an die Zielgruppe angepassten niedrigschwelligen Zugang bietet. Ziel ist es, Forschende dabei zu unterstützen, ihre Forschungsergebnisse selbstständig mit qualitativ hochwertigen Metadaten auszustatten – eine stärkere Einbindung des Datenproduzenten in den Erschließungsprozess bringt schließlich für alle Akteure Vorteile: Die Qualität der im Repositorium veröffentlichten Daten wird verbessert,
wenn die Fachkenntnis der Forschenden in die Erstellung der Metadaten einfließt, die auch für die methodische Erzeugung der Daten selbst wesentlich war. Eine spezifische Beschreibung der Daten wiederum erleichtert den Repositoriumsnutzern die Recherche und Relevanzentscheidung; von einem stärkeren Impact profitiert letztlich auch die Datenproduzentin bzw. der Datenproduzent.

Auf längere Sicht soll der Best-Practice-Guide außerdem dazu beitragen, das Bewusstsein der Forschenden für Metadatenqualität und deren Einfluss auf die Auffindbarkeit und Nachnutzbarkeit von Daten zu stärken. Dazu gehört nicht zuletzt ein sensiblerer Umgang mit Daten, beginnend bei der Modellierung der Forschungsdaten und endend mit ihrer Beschreibung in Form von Metadaten.  

Die Verbesserung der Metadatenqualität ist denn auch das übergeordnete Anliegen dieses Leitfadens. Standardisierung der Metadaten kann zu erhöhter Sichtbarkeit führen, insbesondere vor dem Hintergrund von Maschinen-unterstützten Evaluierungsmethoden (Weber/Kranzlmüller 2018). Die oben beschriebene Sichtung der testweise erstellten DataCite-Metadaten hat gezeigt, dass der Rahmen, der vom DataCite-Schema gespannt wird, weiter ist, als zu Anfang vermutet: Obwohl alle Test-Dateien valide gegen das Schema geprüft werden konnten, sind ihre Inhalte mitunter sehr heterogen, was ihre maschinelle Verarbeitung erschwert. Ein Beispiel: Die Strings bzw. Literale „LMU“ und „Ludwig-Maximilians-Universität München“ bezeichnen dieselbe Entität, bzw. dasselbe real existierende Objekt, können aber von einer Maschine nicht einfach disambiguiert werden.

Um hier Abhilfe zu schaffen, „zurrt“ der Best-Practice-Guide den vom Schema vorgegebenen Rahmen bewusst enger und macht konkrete Vorgaben. Besonders relevant ist dies für ansonsten wenig normierte Felder, insbesondere Freitextfelder. Indem der Best-Practice-Guide in solchen Fällen eine Liste von potenziellen Eingabemöglichkeiten bereitstellt, erleichtert er nicht nur der Benutzerin bzw. dem Benutzer die Eingabe, sondern stellt auch eine optimale Nachnutzbarkeit der eingetragenen Information sicher.32Ein vollständiger Verzicht auf die Möglichkeit, Freitext einzugeben, geht damit nicht einher. Dieser wäre seitens der wissenschaftlichen Community auch nicht gewünscht. Vgl. hierzu die ausdifferenzierten Ergebnisse in: Zhang u.a. 2015. Eine weitere Einschränkung besteht darin, Felder und Attribute auf eine kleinere Auswahlmöglichkeit zu beschränken als dies im DataCite-Standard vorgesehen ist. Diese kleinere Auswahl wird durch kanonische Beispiele weiter konkretisiert, um eine einheitliche Verwendung zu erreichen.

Bessere d.h. homogenere Metadaten erleichtern nicht nur den Repositoriums- und Suchmaschinenbetreibern die Aggregation der Daten, sie verbessern auch in ganz entscheidendem Maße das Information Retrieval: Die berechtigte Erwartungshaltung einer Nutzerin bzw. eines Nutzers, die bzw. der nach Forschungsdaten aus einem bestimmten Sachbereich recherchiert, ist, dass durch eine entsprechende Suchanfrage alle relevanten Treffer geliefert werden. Dies setzt voraus, dass die Information über die Fachzugehörigkeit eines Forschungsdatums in den in Frage kommenden Metadaten nicht nur enthalten, sondern auch eindeutig für eine Maschine identifizierbar ist. Besonders die für inhaltliche Recherchen essenziellen Schlagwortfelder sollten daher, wenn möglich, nicht mit (heterogenen) Stichwörtern, sondern mit Schlagwörtern aus normierten Vokabularen, wie z.B. der Gemeinsamen Normdatei (GND) und Wikidata, oder, im Falle von Fachzugehörigkeiten, mit Dewey-Dezimalklassifikations-Notationen (DDC), befüllt werden. Aufgrund ihrer nicht zu unterschätzenden Bedeutung für den Recall und die Präzision von Suchanfragen, v.a. aber auch für die Interoperabilität der Daten, fördert der Best-Practice-Guide den Einsatz von global identifizierten Normdaten: Neben Hinweisen auf besonders relevante Vokabulare für verschiedene Entitäten (Person, Organisation, Fördereinrichtung usw.), enthält er auch Tipps und Tools für deren Verwendung.

7. Ausarbeitung des Best-Practice-Guides

Wesentlich für die Qualität eines Best-Practice-Guides ist die Einbeziehung aller relevanten Perspektiven. Diese Perspektiven haben sich einerseits durch die beteiligten Institutionen ergeben, andererseits durch die unterschiedlichen Rollen im Datenfluss von der Erzeugung, über die Aufbereitung und Kuration der Forschungsdaten, bis hin zur Aggregation der entsprechenden Metadaten über die Grenzen von Repositorien hinweg. Die folgenden Perspektiven waren vertreten:

  • Das Forschungsprojekt VerbaAlpina bringt die Perspektive der Daten-Erzeuger (data producer) ein. VerbaAlpina ist ein von der DFG finanziertes Langfristvorhaben, das seit 2014 als interdisziplinäres Projekt gemeinsam von der Romanischen Sprachwissenschaft der LMU und der ITG betrieben wird. Forschungsgegenstand von VerbaAlpina sind die Sprache und Kultur des Alpenraums. Herzstück des Projekts ist ein strukturierter Datenbestand, der die georeferenzierten Bezeichnungen alpenspezifischer Konzepte, etwa aus dem Bereich der Almwirtschaft, dokumentiert. Im Zuge der bereits erwähnten Kooperation mit der UB der LMU erfolgt derzeit die Erschließung des Datenbestands mittels generischer und inhaltlicher Metadaten. Ziel ist es, die Informationen im Forschungsdatenrepositorium der UB zu archivieren und sie – im Sinne der FAIR-Prinzipien – dauerhaft auffindbar, allgemein zugänglich, interoperabel und nachnutzbar zu machen. Dies impliziert nach Auffassung der Projektmitarbeiter eine feingranulare Betrachtung der Forschungsdaten.33Die Verfasser verfolgen die Diskussion darüber, wie granular Forschungsdaten beschrieben werden sollten, und planen, in einer gesonderten Publikation zu diesem Thema Stellung zu beziehen. Konkret werden nicht nur das Gesamtprojekt, sondern auch die zentralen Datenkategorien von VerbaAlpina (Morpho-lexikalischer Typ, Herkunftsgemeinde, Konzept, Einzelbeleg)34Siehe dazu Krefeld/Lücke 2018c und Krefeld 2018ae. mit DataCite erschlossen und per DOI identifiziert.
  • Die IT-Gruppe Geisteswissenschaften (ITG) der LMU bedient die Perspektive der Daten-Spezialisten (data consultant). Die Institution existiert an der LMU seit dem Jahr 2000. Die Einrichtung wird gemeinschaftlich von den sechs geisteswissenschaftlichen Fakultäten getragen. Während anfänglich die Planung, Realisierung und Betreuung der IT-Infrastruktur sowie der User-Support den Hauptanteil ihrer Aktivitäten ausmachte und die Unterstützung der Wissenschaftlerinnen und Wissenschaftler bei der Durchführung von Forschungsprojekten mit IT-Komponente eher eine Randerscheinung darstellte, nahm letzterer Sektor im Lauf der Jahre im Aufgabenspektrum der ITG signifikant an Bedeutung zu. Das Aufkommen des Labels „Digital Humanities“ (DH)35Vgl. grundlegend: Jannidis u.a. 2017c. kann als Indikator für den nicht mehr nur marginalen Einsatz von digitalen Methoden auch im Bereich der Geisteswissenschaften angesehen werden. Es entspricht ganz der allgemeinen Entwicklung, dass sich die Anzahl der von der ITG unterstützten einschlägigen Forschungsprojekte gerade seit dem Jahr 2013 vervielfacht hat.
    Die Rolle der ITG bei der Durchführung von DH-Projekten reicht von der Beratung bei der Antragstellung über die Bereitstellung und Pflege der erforderlichen IT-Infrastruktur bis hin zur Entwicklung und Umsetzung von Konzepten zur nachhaltigen Verfügbarkeit der in einem DH-Projekt zusammengetragenen Forschungsdaten. Die meisten an der ITG beheimateten Datenbestände sind in strukturierter Form in MySQL-Datenbanken auf ausfallsicheren Serverclustern abgelegt und werden regelmäßig auf Backup-Servern gesichert.
  • Die Universitätsbibliothek der LMU bringt die Perspektiven der Daten-Verleger und Daten-Spezialisten (data publisher/data consultant) in den Best-Practice-Guide mit ein. Mit Open Data LMU betreibt sie seit 2011 ein Forschungsdatenrepositorium, über das Angehörige der LMU ihre Forschungsdaten per Self-Upload publizieren und archivieren können. Zusätzlich werden die Publikationsdienste Open Access LMU und Open Journals LMU angeboten, für deren Inhalte ebenfalls DOIs vergeben werden. Darüber hinaus werden die bestehenden Angebote stetig weiterentwickelt und es ist geplant, mit Fedora Commons und Project Blacklight ein neues System für die Bereitstellung von Forschungsdaten anzubieten. Die Services der ITG ergänzt sie um die Bereiche Datenmanagement und Langzeitverfügbarkeit. Ihre Kernkompetenz liegt in der Erschließung und Verbreitung von (Meta-)Daten; So fungiert sie u.a. als Aggregator für GeRDI.
  • Beide vorgenannten Institutionen kooperieren im Rahmen des FDM-Projekts „eHumanities – interdisziplinär“, das unter Federführung der Universitätsbibliothek der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) das Ziel verfolgt, sowohl technische Lösungen und Services im Bereich des FDM zu evaluieren und weiterzuentwickeln, als auch neue Angebote zu schaffen.36Folgende Studie gibt Einblicke in die Zusammenarbeit zwischen Forschenden im Bereich „Digitale Geisteswissenschaften“ und Bibliotheken: Wagner Webster 2019. Das Projekt gliedert sich in fünf Arbeitspakete (AP), von denen im vorliegenden Kontext insbesondere AP 1 (Metadaten), nachgelagert aber auch den AP 2 (Datenmanagementpläne) und 4 (Etablierung von Services) eine wichtige Rolle zukommt. ITG und UB LMU bilden im Rahmen des Projekts gemeinsam ein Zentrum für FDM37Gemäß der Definition im Positionspapier der AG Datenzentren DHd AG Datenzentren 2018, 20f. (mit UB als Datenzentrum und ITG als domänenspezifisches Kompetenzzentrum), das Fachwissenschaftlerinnen und Fachwissenschaftlern bei der Realisierung von DH-Projekten beratend zur Seite steht und dabei im Rahmen eines standardisierten Workflows auch auf die Einhaltung von Metadatenstandards achtet, wodurch letztlich wesentliche Aspekte der FAIR-Postulate berücksichtigt werden.
    Mittelfristig zeichnet sich für die DH an der LMU die Perspektive ab, wenigstens große Teile der im Lauf der Zeit an der ITG versammelten Forschungsdaten auch noch nachträglich mit Metadaten zu versehen und auf diese Weise deren Auffindbarkeit, Nachnutzbarkeit und Interoperabilität entscheidend zu verbessern. In wieweit eine solche rückwärtsgerichtete Aktion tatsächlich durchführbar ist, wird sich zeigen und hängt natürlich entscheidend von den verfügbaren personellen Ressourcen ab. Für die Zukunft jedoch werden gerade im Rahmen des Projekts Standardverfahren für die Anreicherung mit Metadaten und deren nachgelagerte Verwaltung entwickelt, die bei der Realisierung künftiger Projekte obligatorisch in den Workflow eingebaut werden können.
  • Das Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften vertritt die Perspektive der Daten-Infrastuktur-Dienstleister (data infrastructure provider). Das Service-Portfolio richtet sich schwerpunktmäßig an Nutzer/innen der HPC-Systeme (SuperMUC-NG, Linux-Cluster) und konzentriert sich momentan auf klassisches Datenmanagement, also die effiziente Anbindung, Speicherung und Übertragung von Daten. Mit der LTDS-Architektur38Götz u.a. 2019. soll hierbei eine Disseminationsschicht hinzugefügt werden. Außerhalb des HPC-Bereichs bietet das LRZ mit Gitlab und Sync&Share zudem niederschwellige Angebote zum Austausch von Forschungsdaten und Software an.
  • Das Forschungsprojekt Generic Research Data Infrastructure (GeRDI) nahm in der Ausarbeitung des Guides die Perspektive der (Meta-)Daten-Aggregatoren (data aggregator) ein. Ziel des Projektes ist es, Forschende in Deutschland bei Aufgaben der Daten-Integration zu unterstützen, insbesondere in Gebieten die zum „Long Tail“ der Wissenschaften gerechnet werden, also jene Fächer, deren Datenaufkommen mittel bis klein im Vergleich zu klassischen Daten-intensiven Wissenschaften wie der Astrophysik ist. Wesentlicher Output des Projektes sind die organisatorischen und technischen Grundlagen, um Dienste anbieten zu können, die Daten-Repositorien miteinander verknüpfen.

Die Ausarbeitung des Best-Practice-Guides erfolgte in einem mehrmonatigen, kontinuierlichen Austausch und orientierte sich an der Gliederung des offiziellen DataCite-Standards. Grundlage der Diskussion waren die Anforderungen von drei konkreten Datenprojekten:

  • VerbaAlpina (Romanistische Linguistik)
  • Bayerische Musiker-Lexikon Online (Musikwissenschaften)39Focht 2004-.
  • ClimEx (Meteorologie und Hydrologie)

Mit dieser Auswahl konnten unterschiedliche Fächerperspektiven bei der Ausarbeitung berücksichtigt werden. Diese Projekte stehen exemplarisch für eine weit größere Anzahl an Projekten an der ITG und dem LRZ, deren Perspektiven ebenfalls in die Ausarbeitung eingeflossen sind.

Entwicklungen, wie die Aktualisierung des DataCite-Standards von der Version 4.2 auf 4.3 und neu-etablierte Normdatenangebote, wie ROR oder ORCID 40Vgl. Haak u.a. 2012., wurden bei den Diskussionen sukzessive eingearbeitet. Das Ergebnis wurde anschließend in Forschungsdaten-Arbeitsgruppen (rdmuc – Münchner Arbeitskreis für Forschungsdaten), Projekten („eHumanities –interdisziplinär“) und Expertenverbänden (DataCite-Konsortium, RDA) vorgestellt und diskutiert.

Begleitend zur Ausarbeitung des Best-Practice-Guides wurden Anpassungen am DataCite-Generator vorgenommen. In einem ersten Schritt wurde das unter einer freien Lizenz verfügbare Werkzeug zur Metadaten-Generierung von Version 4.0 auf 4.3 aktualisiert. Anschließend lag der Fokus auf der Anpassung der Funktionsweise und Gliederung an die Vorgaben des Best-Practice-Guides. Zur besseren Orientierung bei der Befüllung der einzelnen Felder erfolgt eine unmittelbare Verlinkung auf die entsprechenden Abschnitte im Leitfaden. Im Zuge dessen wurde auch die Übersichtlichkeit und Benutzerfreundlichkeit des Werkzeugs verbessert. Beispielsweise ist es nun möglich, bestehende DataCite-XML-Dateien für Aktualisierungen in den Generator zu importieren. Parallel zum DataCite-Generator wird am LRZ die Entwicklung der Software-Architektur „Let The Data Sing“ zur FAIRen Erschließung großer Datensätze vorangetrieben.41Primärer Anwendungsfall ist die automatisierte Erzeugung und Dissemination von Metadaten basierend auf großen Datenmengen. Siehe: Götz u.a. 2019. Diese Architektur basiert ebenfalls auf DataCite und legt den Schwerpunkt auf automatisierte Abläufe.

Nach dem Entwurf des Best-Practice-Guides und der Anpassung des DataCite-Generators erfolgte ein erster Pre-Test durch die an der Ausarbeitung beteiligten Akteure auf Basis der oben genannten Projekte. Anschließend  wurden Forschende gebeten, ihre Datensammlungen unter Verwendung des Leitfadens erneut im Generator zu beschreiben. Nach Abschluss dieses umfassenden Evaluationsprozesses können beide Angebote nun erstmals für die wissenschaftliche Community zur Verfügung gestellt werden.

8. Wesentliche Merkmale des DataCite-Best-Practice-Guides

Der Guide stellt ein klar strukturiertes, konzises Arbeitsinstrument dar, das überdies mit einer Reihe von Beispielen aus der Praxis unterlegt ist. Der Guide gliedert sich in drei Teile:

  1. Allgemeine Grundlagen, im Stile von Fragen und Antworten (F&A)
  2. Detaillierte Hinweise zu allen 19 DataCite-Feldern mit kurzen Beispielen aus der Praxis
  3. Verlinkungen auf vier vollständige Beispiel-Metadatensätze; der fachliche Hintergrund der entsprechenden Daten-Projekte wird kurz erläutert. Zwei der Beispiele entfallen auf das Pilotprojekt VerbaAlpina, um ein Beispiel für die oben skizzierte granularen Auszeichnung von Forschungsdaten (hier: Gesamtprojekt, Einzelbeleg) zu liefern und die möglichen Potentiale dieser Erschließungsform aufzuzeigen.

Der Best-Practice-Guide stellt eine Einschränkung im Sinne einer Präzisierung des DataCite-Standards dar: Der Guide schreibt eine striktere Handhabung von optionalen bzw. empfohlenen Feldern/Attributen vor und spezifiziert Konventionen, wenn der DataCite-Standard eine mehrdeutige Eingabe zulässt. Damit bleiben Metadaten, die nach dem vorgestellten Guide erzeugt bzw. modifiziert wurden, DataCite-konform.

Neben den sechs Feldern, die im DataCite-Standard selbst als mandatorisch vorgesehen sind, schreibt der Guide die folgenden drei Felder zusätzlich vor:

  • Subject: Qualifizierte Verweise auf zentrale Begriffe, Einordung des Faches, Spezifikation des Ortes (falls anwendbar) erhöhen die Auffindbarkeit des Datensatzes und lassen sich mit den Quellen, die im Guide angegeben sind, rasch spezifizieren. Dabei ist es wichtig, kontrollierte Vokabularien oder Ontologien (z.B. Wikidata, GND oder GeoNames) zu verwenden.
  • Description: Auffindbar sind vor allem solche Datensätze, die konzise im Stile eines Abstracts beschrieben sind. Daher ist gemäß dem Best-Practice-Guide ein beschreibender Freitext mit maximal 300 Wörtern Pflicht (mindestens in englischer Sprache, optional auch in anderen Sprachen).
  • Rights: Die Angabe einer Lizenz ist unbedingt notwendig, um Klarheit für Akteure zu schaffen, die Interesse an einer Nachnutzung der Forschungsdaten besitzen. Wenn die gewählte Lizenz nicht-frei ist, d.h. wenn die Nachnutzung der Forschungsdaten nicht ohne Interaktion mit dem Rechteinhaber möglich ist (z.B. Erlaubnis zur kommerziellen Nutzung), muss mindestens ein Contributor vom Typ „RightsHolder“ angegeben werden.

Einschränkungen sind auch bei Attributen von optionalen oder mandatorischen Feldern im Best-Practice-Guide vorgesehen. Dies betrifft v.a. das Feld RelatedIdentifier: Die gemäß Standard möglichen Werte des relationType-Attributs sind auf klar voneinander abgegrenzte Optionen reduziert, die in Form von kanonischen Anwendungsbeispielen kontextualisiert werden.

Folgende Konventionen umgehen momentane Ambiguitäten im Standard:

  • Date: Spezifikation von Datums- und Zeitangaben, die nicht die Versionsgeschichte der Daten selbst betreffen, sondern Phänomene, die von den Daten beschrieben werden (Coverage).
  • Subject: Zweifelsfreie Identifikation von Orten unter Einbindung von Normdaten eines externen Dienstes (GeoNames).
  • Description: Neben dem inhaltlichen Abstract bietet DataCite auch die Möglichkeit, Angaben zur technischen und methodischen Realisierung zu machen. Eine kontrollierte Liste, welche Begrifflichkeiten sich hierfür anbieten, hängt dem Best-Practice-Guide als Vorschlag an.
  • Freitext-Felder aller Art: Jedes Freitextfeld muss zumindest in englischer Sprache vorhanden sein, andere Sprachen sind zusätzlich möglich (Eigennamen müssen nicht übersetzt werden). Die Spezifikation der genutzten Sprache erfolgt gemäß ISO-Standard 639-1.42Die Verwendung des ISO-Standards 639-3 anstelle 639-1 wäre vorzuziehen, da ersterer eine größere Spannbreite an Sprachen abdeckt. Bis zur Beurteilung dieses Vorschlages durch das DataCite-Konsortium wird aus Gründen der Interoperabilität weiterhin auf die Variante 639-1 zurückgegriffen.

Diese und weitere Konventionen wurden als Vorschläge an das DataCite-Konsortium übermittelt und liegen dort zur Prüfung auf Übernahme in künftige Versionen des Metadatenschemas vor. Bereits umgesetzt wurde die Option zur eindeutigen Identifikation von Institutionen mittels ROR-Identifikator sowie eine Spezifizierung der Angaben zu der in Anspruch genommenen Forschungsförderung.

9. Resümee und Ausblick

Das generische Metadatenschema DataCite kommt weltweit in Forschungsdateninfrastrukturen und -repositorien zur Anwendung und kann auf eine große Community bauen, die sich in seine Weiterentwicklung einbringt. Ausgangspunkt für die Entwicklung des Best-Practice-Guide und damit gleichsam Motivation für vorliegenden Beitrag war die Erkenntnis, dass die Verwendung eines einheitlichen Metadatenschemas allein nicht ausreichend ist, um Interoperabilität zu ermöglichen.

Der Veröffentlichung des Guides vorausgegangen ist ein umfassender Erarbeitungsprozess, an dem Akteure aus den Bereichen Datengenerierung, -aufbereitung und -kuratierung, bis hin zur (Meta-)Datenaggregation beteiligt waren, um alle relevanten Perspektiven zu berücksichtigen. Als Quellenbasis dienten die offizielle DataCite-Dokumentation, DataCite-Erfahrungsberichte und die äußerst heterogenen DataCite-XML-Dateien verschiedener Forschungsprojekte, die an der ITG und dem LRZ angesiedelt sind. Darauf aufbauend wurde ein Leitfaden erarbeitet, der Forschende bei der Beschreibung ihrer Forschungsdaten unterstützen und durch die stärkere Normierung der Eingaben die Interoperabilität zwischen Forschungsdateninfrastrukturen befördern soll. Damit wird ein Beitrag zur besseren Auffindbarkeit und Nachnutzbarkeit von Forschungsdaten im Sinne der FAIR-Prinzipien geleistet.

Neben dem Best-Practice-Guide wurde ein DataCite-Generator zur strukturierten Beschreibung von Projekten an die Vorgaben und Empfehlungen des Leitfadens angepasst und besser auf die Bedürfnisse der Forschenden ausgerichtet. Schließlich wurden die im Rahmen des Ausarbeitungsprozesses identifizierten Verbesserungsbedarfe als Vorschläge für künftige Versionen des Metadatenschemas an das DataCite-Konsortium übermittelt.

Nicht zuletzt leistet der Guide einen Beitrag zur Entfaltung des Potentials von DataCite als neue Quelle für bibliometrische Auswertungen43Robinson-Garcia u.a. 2017. im Rahmen von EU-Projekten wie MakeDataCount44Lowenberg 2017-2019. und FREYA45Lambert/Fenner 2017-2020.. Letzteres untersucht darüber hinaus die Verbreitung und Vernetzung von PIDs46Ferguson u.a. 2018.. DataCite spielt dabei eine zentrale Rolle für den Aufbau eines PID-Graphen47Fenner/Aryani 2019.. Dieser soll dazu beitragen, die etablierten PID-Systeme zu verbinden und eine bessere Informationsversorgung sicherzustellen.

Der Best-Practice-Guide für DataCite soll in regelmäßigen Abständen an neue Versionen und Entwicklungen angepasst werden. Der Leitfaden sowie alle damit verbundenen Dateien befinden sich in einem Git-Repositorium und stehen der Community für eine Mitarbeit offen zur Verfügung. Die Autoren des vorliegenden Beitrages erhoffen sich, dass der Best-Practice-Guide eine breite Akzeptanz bei Forschenden und Infrastrukturpartnern gleichermaßen finden und eine Verwendung über den Forschungsstandort München hinaus erfahren wird.

 

 

Anmerkung: Für die Zitation von (Online-)Projekten existieren derzeit noch keine einheitlichen Richtlinien. Eine nicht unerhebliche Zahl an Projekten liefert zudem keinen Zitiervorschlag. In vorliegendem Beitrag wurde – sofern kein Zitiervorschlag vorhanden – auf Projektinformationen zurückgegriffen, die sich über die entsprechende Projektwebseite oder einschlägige Portale (z.B. DFG GEPRIS) ermitteln ließen.

Bibliographie

  • Álvarez u.a. 2013 = Álvarez, Bárbara / Campbell, Emily / Colman, Jason / Grochowski, Paul F. / Knott, Martin / MacEachern, Mark P. / Martin, Scott T. / Oehrli, Angela / Price, Rebecca H. / Sears, JoAnn / Sferdean, Fe C. / Turkel, Susan Beckwitt (2013): DataCite Implementation Recommendations: A Report of the DataCite Task Force, Ann Arbor (Link) .
  • Bode u.a. (2017-) = Bode, Arndt / Grimm, Christian / Hasselbring, Wilhelm / Nagel, Wolfgang / Tochtermann, Klaus (Hrsgg.) (2017-): GeRDI: Generic Research Data Infrastructure, Hamburg/Kiel (Link) .
  • Brase u.a. 2015 = Brase, Jan / Sens, Irina / Lautenschlager, Michael (2015): The tenth anniversary of assigning DOI names to scientific data and a five year history of DataCite, in: D-Lib magazine, vol. 21, 1/2, Corporation for National Research Initiatives (Link) .
  • Braun 2011 = Braun, Jürgen (2011): Report: Analyse der Metadatenqualität und Interoperabilität, Kompetenzzentrum Interoperable Metadaten (KIM) (Link) .
  • CrossRef 2019 = CrossRef (2019): Metadata deposit schema 4.4.2, CrossRef (Link) .
  • Dasler 2019 = Dasler, Robin (2019): Affiliation Facet - New in DataCite Search, DataCite Blog, DataCite (Link) .
  • DataCite Metadata Working Group 2019 = DataCite Metadata Working Group (2019): DataCite Metadata Schema Documentation for the Publication and Citation of Research Data v4.3, DataCite (Link) .
  • DHd AG Datenzentren 2018 = DHd AG Datenzentren (2018): Geisteswissenschaftliche Datenzentren im deutschsprachigen Raum - Grundsatzpapier zur Sicherung der langfristigen Verfügbarkeit von Forschungsdaten, Zenodo (Link) .
  • Dreyer u.a. 2019 = Dreyer, Britta / Hagemann-Wilholt, Stephanie / Vierkant, Paul / Strecker, Dorothea / Glagla-Dietz, Stephanie / Summann, Friedrich / Pampel, Heinz / Burger, Marleen (2019): Die Rolle der ORCID iD in der Wissenschaftskommunikation: Der Beitrag des ORCID-Deutschland-Konsortiums und das ORCID-DE-Projekt, in: ABI Technik, vol. 39, 2, De Gruyter, 112-121 (Link) .
  • Fenner/Aryani 2019 = Fenner, Martin / Aryani, Amir (2019): Introducing the PID Graph, DataCite (Link) .
  • Ferguson u.a. 2018 = Ferguson, Christine / McEntrye, J / Bunakov, V / Lambert, S / van der Sandt, S / Kotarski, R (2018): D3.1 Survey of Current PID Services Landscape , FREYA Project (Link) .
  • Focht 2004- = Focht, Josef (Hrsg.) (2004-): Bayerisches Musiker-Lexikon Online, München (Link) .
  • Franzke 2017 = Franzke, Cordula (2017): Repositorien für Forschungsdaten am Beispiel der Digital Humanities im nationalen und internationalen Vergleich-Potentiale und Grenzen, in: Perspektive Bibliothek 6.1 (2017), S. 2-33 (Link) .
  • Götz u.a. 2019 = Götz, Alexander / Weber, Tobias / Hachinger, Stephan (2019): Let The Data Sing - A Scalable Architecture to Make Data Silos FAIR, Zenodo (Link) .
  • Gradl u.a. 2015 = Gradl, Tobias / Henrich, Andreas / Plutte, Christoph (2015): Heterogene Daten in den Digital Humanities: Eine Architektur zur forschungsorientierten Föderation von Kollektionen, in: Constanze Baum und Thomas Stäcker (Hg.), Grenzen und Möglichkeiten der Digital Humanities (= Sonderband der Zeitschrift für digitale Geisteswissenschaften, 1), Wolfenbüttel 2015 (Link) .
  • Grunzke 2016 = Grunzke, Richard (2016): Generic Metadata handling in Scientific Data Life Cycles - Kurzfassung, TU Dresden, Dissertation (Link) .
  • Grunzke u.a. 2017 = Grunzke, Richard / Adolph, Tobias / Biardzki, Christoph / Bode, Arndt / Borst, Timo / Bungartz, Hans-Joachim / Busch, Anja / Frank, Anton / Grimm, Christian / Hasselbring, Wilhelm u.a. (2017): Challenges in creating a sustainable generic research data infrastructure, in: Softwaretechnik-Trends, vol. 37, 2, 74-77 (Link) .
  • Haak u.a. 2012 = Haak, Laurel L / Fenner, Martin / Paglione, Laura / Pentz, Ed / Ratner, Howard (2012): ORCID: a system to uniquely identify researchers, in: Learned Publishing, vol. 25, 4, Wiley Online Library, 259-264 (Link) .
  • Helbig u.a. 2015 = Helbig, Kerstin / Hausstein, Brigitte / Toepfer, Ralf (2015): Supporting Data Citation: Experiences and Best Practices of a DOI Allocation Agency for Social Sciences., in: Journal of Librarianship & Scholarly Communication, vol. 3, 2 (Link) .
  • Hengerer/Schön 2014- = Hengerer, Mark / Schön, Gerhard (Hrsgg.) (2014-): Kaiser und Höfe. Personendatenbank der Höflinge der Österreichischen Habsburger des 16. und 17. Jahrhunderts, München (Link) .
  • Hirschmann 2015 = Hirschmann, Barbara (2015): Entwicklung von Standards und Best Practices im Bereich der Forschungsdatenpublikation: ein Blick auf die Arbeit von DataCite, ETH Zurich, (Präsentation bei Open-Access-Tagen, 8.9.2015) (Link) .
  • International DOI Foundation 2017 = International DOI Foundation (2017): DOI Handbook (Link) .
  • Jannidis u.a. 2017c = Jannidis, Fotis / Kohle, Hubertus / Rehbein, Malte (Hrsgg.) (2017): Digital Humanities: Eine Einführung, Stuttgart, J.B. Metzler.
  • Kim u.a. 2017 = Kim, Jihyun / Chung, EunKyung / Yoon, JungWon / Lee, Jae Yun (2017): The current state and recommendations for data citation, in: Journal of the Korean Society for information Management, vol. 34, 1, Korean Society for Information Management, 7-29 (Link) .
  • Krefeld 2018ae = Krefeld, Thomas (2018): Konzept, in: Methodologie, VerbaAlpina-de 19/1 (Link) .
  • Krefeld/Lücke 2014- = Krefeld, Thomas / Lücke, Stephan (Hrsgg.) (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München, online, LMU (Link) .
  • Krefeld/Lücke 2018c = Krefeld, Thomas / Lücke, Stephan (2018): Typisierung, in: Methodologie, VerbaAlpina-de 19/1 (Link) .
  • Lambert/Fenner 2017-2020 = Lambert, Simon / Fenner, Martin (Hrsgg.) (2017-): FREYA (Link) .
  • Leduc u.a. 2019 = Leduc, Martin / Mailhot, Alain / Frigon, Anne / Martel, Jean-Luc / Ludwig, Ralf / Brietzke, Gilbert B / Giguère, Michel / Brissette, François / Turcotte, Richard / Braun, Marco u.a. (2019): The ClimEx Project: a 50-member ensemble of climate change projections at 12-km resolution over Europe and Northeastern North America with the Canadian regional climate model (CRCM5), in: Journal of Applied Meteorology and Climatology, vol. 58, 4, 663-693 (Link) .
  • Lowenberg 2017-2019 = Lowenberg, Daniella (Hrsg.) (2017-2019): Make Data Count (Link) .
  • Ludwig 2015-2019 = Ludwig, Ralf (Hrsg.) (2015-2019): KlimEx (engl. ClimEx). Klimawandel und Hydrologische Extremereignisse – Risiken und Perspektiven für die Wasserwirtschaft in Bayern, München (Link) .
  • Müller 2019 = Müller, Lars (2019): Kooperatives Management geisteswissenschaftlicher Forschungsdaten, in: ABI Technik, vol. 39, 3, De Gruyter, 194-201 (Link) .
  • Pempe 2012 = Pempe, Wolfgang (2012): Geisteswissenschaften, in: Heike Neuroth u.a. (Hrsg.): Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme. Boizenburg 2012, 138-160 (Link) .
  • Pletsch u.a. 2018 = Pletsch, Katja / Hausstein, Brigitte / Dreyer, Britta (2018): DataCite Services als Baustein des Forschungsdatenmanagements in wissenschaftlichen Bibliotheken, in: (Präsentation als Hands-On-Lab beim 107. Deutschen Bibliothekartag, 14.6.2019) (Link) .
  • Pohl/Danowski = Pohl, Adrian / Danowski, Patrick: 5.4 Linked Open Data in der Bibliothekswelt - Überblick und Herausforderungen, in: Griebel, Rolf u.a. (Hrsg.): Praxishandbuch Bibliotheksmanagement. Berlin 2014, 392–409 (Link) .
  • Richter/Rechenmacher/Riepl 1986- = Richter, Wolfgang / Rechenmacher, Hans / Riepl, Christian (Hrsgg.) (1986-): Biblia Hebraica transcripta (Forschungsdatenbank 3.0), München (Link) .
  • Robinson-Garcia u.a. 2017 = Robinson-Garcia, Nicolas / Mongeon, Philippe / Jeng, Wei / Costas, Rodrigo (2017): DataCite as a novel bibliometric source: Coverage, strengths and limitations, in: Journal of Informetrics, vol. 11, 3, Elsevier, 841-854 (Link) .
  • Rueda 2016 = Rueda, Laura (2016): DataCite Metadata Schema 4.0 Webinar, DataCite (Link) .
  • Rueda u.a. 2016 = Rueda, Laura / Fenner, Martin / Cruse, Patricia (2016): DataCite: Lessons Learned on Persistent Identifiers for Research Data., in: International Journal of Digital Curation Vol 11 No 2 (2016), 39-47, vol. 11, 2, 39-47 (Link) .
  • Rühle 2012 = Rühle, Stefanie (2012): Kleines Handbuch Metadaten – Metadaten, Kompetenzzentrum Interoperable Metadaten (KIM) (Link) .
  • Söllner/Riepl/Weiß 2018- = Söllner, Konstanze / Riepl, Christian / Weiß, Alexander (Hrsgg.) (2018-): eHumanities - interdisziplinär, Erlangen/München (Link) .
  • Starr/Gastl 2011 = Starr, Joan / Gastl, Angela (2011): isCitedBy: A Metadata Scheme for DataCite, in: D-Lib Magazine, vol. 17, 1/2, CNRI Acct (Link) .
  • Takeda 2015 = Takeda, Hideaki (2015): Research Data-DOI Experiment in Japanese DOI Registration Agency, Japan Link Center, JaLC, (Präsentation bei CODATA-ICSTI Data Citatation Workshop, 29.10.2015) (Link) .
  • Wagner Webster 2019 = Wagner Webster, Jessica (2019): Digital Collaborations: A Survey Analysis of Digital Humanities Partnerships Between Librarians and Other Academics, in: Digital Humanities Quarterly (DHQ), vol. 13, 4, Boston, MA, Alliance of Digital Humanities Organizations (Link) .
  • Weber/Kranzlmüller 2018 = Weber, T. / Kranzlmüller, D. (2018): How FAIR Can you Get? Image Retrieval as a Use Case to Calculate FAIR Metrics, in: 2018 IEEE 14th International Conference on e-Science (e-Science), 114-124 (Link) .
  • Wilkinson u.a. 2016 = Wilkinson, Mark D. / Dumontier, Michel / Aalbersberg, IJsbrand Jan / Appleton, Gabrielle / Axton, Myles / Baak, Arie / Blomberg, Niklas / Boiten, Jan-Willem / da Silva Santos, Luiz Bonino / Bourne, Philip E u.a. (2016): The FAIR Guiding Principles for scientific data management and stewardship, in: Scientific data, vol. 3, Nature Publishing Group (Link) .
  • Zhang u.a. 2015 = Zhang, Yue / Ogletree, Adrian / Greenberg, Jane / Rowell, Chelcie (2015): Controlled vocabularies for scientific data: users and desired functionalities, in: Proceedings of the 78th ASIS&T Annual Meeting: Information Science with Impact: Research in and for the Community, 54 (Link) .