Modul: Was braucht es für eine Datenpublikation?

Website: ORCA.nrw
Kurs: Grundwissen: Datenmanagement in Studium & wissenschaftlicher Praxis
Buch: Modul: Was braucht es für eine Datenpublikation?
Gedruckt von: Gast
Datum: Freitag, 27. September 2024, 11:19

Über dieses Modul

Hier erfahren Sie etwas über den Weg zu einer Datenpublikation und über wichtige Konzepte, die man dazu kennen sollte.

  • Repositorien
  • FAIR-Prinzipien
  • Persistente Identifikatoren
  • Metadaten


Lernziel (Wissen): Die Studentinnen und Studenten kennen Speicherorte für die Veröffentlichung von Forschungsdaten.
Lernziel (Verstehen): Die Studentinnen und Studenten können die Grundzüge der FAIR-Prinzipien wiedergeben.
Lernziel (Wissen): Die Studentinnen und Studenten kennen Konzepte zur Auffindbarkeit und Beschreibung digitaler Daten.

Bearbeitungsdauer: ≈ 35 Min.

Vor einer Datenpublikation


 Professor Dr. Durchblick und sein Team haben beträchtliche Fortschritte in ihrem Forschungsprojekt erzielt. Ein erster Fachartikel, welchen Sie bereits mit einem kleinen Datensatz im Rohdaten veröffentlichten, erzeugte bei Fachkolleginnen und -kollegen bereits positive Resonanz. Derzeit befinden sie sich in den Vorbereitungen für eine eigenständige Veröffentlichung ihrer Forschungsdaten.                                                                                                                           









                                                               


                   
          
Was bisher geschah
                                                    
                                                                                 
   Bereits in der Planungsphase des Forschungsprojekts haben sie einen Datenmanagementplan erstellt, der festlegt, wie die entstehenden Forschungsdaten gesammelt, verarbeitet, analysiert, archiviert und veröffentlicht werden sollen.    
Während der Erhebungsphase haben sie mit großer Sorgfalt darauf geachtet, die Richtigkeit der Daten zu gewährleisten, und gleichzeitig die Schritte zur Herstellung der Daten detailliert dokumentiert.
In der Analysephase haben sie übliche fachliche Standards und anerkannte Methoden verwendet.  Im Projektteam legten sie besonderen Wert auf eine einheitliche Dokumentation hinsichtlich der Daten- und Dateibenennung und sie hielten die einzelnen Schritte ihrer Vorgehensweise bei der Analyse fest.
Dank ihrer frühzeitigen Überlegungen zur langfristigen Aufbewahrung ihrer Forschungsergebnisse und der Auswahl archivfähiger Dateiformate war die Archivierung der Rohdaten in ihrer Einrichtung unproblematisch.


Ausschlusskriterien für eine Veröffentlichung



Die Einhaltung rechtlicher Regelungen obliegt den Wissenschaftlerinnen und Wissenschaftlern. So prüfen sie, ob es Gründe gibt, die gegen eine Veröffentlichung sprechen, wie z. B. diese:




Personenbezogene Daten
Manchmal dürfen Forschende persönliche Daten nur speichern, nicht aber veröffentlichen, z. B. wenn die Teilnehmerinnen und Teilnehmer von Studien nur der Speicherung zugestimmt haben.


Urheberrechtlich geschützte Daten
Daten, die durch das Urheberrecht geschützt sind, dürfen oft nicht veröffentlicht werden, z. B., wenn die Urheberinnen oder Urheber der Nutzung und Veröffentlichung von Archivmaterial nicht zugestimmt haben.


Vertragsklauseln mit Partnern
Forschende können z. B. Verträge mit Industriepartnern haben, welche die Datenveröffentlichung ausschließen, um z. B. Firmengeheimnisse zu schützen.



Beurteilung durch Ethikkommission
Eine Ethikkommission kann aus besonderen Sicherheitsgründen von der Veröffentlichung abraten, zum Beispiel bei Bauanleitungen für Waffen oder Rezepturen für Kampfstoffe.




DFG Leitlinie 10 zur Guten Wissenschaftlichen Praxis  „Rechtliche und ethische Rahmenbedingungen, Nutzungsrechte“, weist neben dem verantwortungsvollen Umgang mit Forschungsdaten u. a. daraufhin, dass zu den rechtlichen Rahmenbedingungen eines Forschungsvorhabens auch „dokumentierte Vereinbarungen über die Nutzungsrechte an aus ihm hervorgehenden Forschungsdaten und Forschungsergebnissen“ zählen. Siehe hierzu die entsprechende Leitlinie im Kodex der DFG [https://wissenschaftliche-integritaet.de/kodex/rechtliche-und-ethische-rahmenbedingungen-nutzungsrechte].
Dieser Text wurde übernommen aus auf dem Kapitel Einführung in das Forschungsdatenmanagement (Hessische Forschungsdateninfrastruktur, 2022)

Wo werden Daten publiziert?

Repositorien

Digitale Daten werden üblicherweise in Repositorien publiziert. Ein Repositorium ist ein digitaler Speicherort für verschiedene Arten von digitalen Informationsobjekten, wie zum Beispiel Publikationen oder Forschungsdaten. Es ermöglicht den Zugang zu diesen Informationsobjekten für die Öffentlichkeit oder einen bestimmten Nutzerkreis. In einigen Fällen prüfen Kuratorinnen und Kuratoren die Daten vor der Aufnahme in das Repositorium auf ihre Qualität und die Einhaltung rechtlicher Bedingungen, um sicherzustellen, dass sie in der vorliegenden Form von Dritten genutzt werden können. (Vgl. Universität Konstanz, o. J.c ) Häufiger erfolgt eine technische Qualitätssicherung, sowie die Prüfung auf Virenfreiheit der digitalen Informationsobjekte.

Forschungsgrundlagen und -ergebnisse verfügbar machen
Dr. Durchblick und sein Team veröffentlichen einen umfangreichen Teil ihrer Forschungsdaten in einem öffentlich zugänglichem Repositorium. Hierdurch teilen sie Grundlagen und Ergebnisse ihrer Arbeit und ermöglichen es der Fachgemeinschaft, die Zuverlässigkeit sowie Güte ihrer Forschungsarbeit zu beurteilen und die Forschungsdaten für weitere Forschung zu nutzen.




Merke! Repositorien sind eine spezielle Art von Datenbanksystemen, die für die Speicherung, Organisation, Verwaltung und Bereitstellung digitaler Informationsobjekte verwendet werden und über das WWW zugänglich sind.

Auswahl eines Repositoriums

 

Bereits in der Planungsphase ihres Forschungsprojekts hatte sich die Forschergruppe für ein fachspezifische Repositorium entschieden, da sie hierdurch die größtmögliche Reichweite innerhalb ihrer Fachgemeinschaft erzielen.




Drei Arten von Repositorien

Repositorien lassen sich nach verschiedenen Kategorien unterteilen. In der Regel differenziert man in:




fachspezifisches Repositorium      multidisziplinäres Repositorium institutionelles Repositorium
Bündeln thematisch zu einem speziellen Fachgebiet und verwenden häufig fachspezifische Standards zur Datenbeschreibung oder Dateiformaten.


Sind thematisch breit aufgestellt und fördern den Informationsaustausch zwischen verschiedenen Disziplinen.



Beinhaltet die Forschungsdaten einer Einrichtung und beachtet deren Richtlinien. Eignen sich besonders gut, um die öffentliche Sichtbarkeit der Forschung einer Einrichtung zu fördern.

Beispiel:

Portal für medizinische Datenmodelle [https://medical-data-models.org]
Beispiel:

Zenodo [https://zenodo.org]

Beispiel:

Repositorium Universität Würzburg [https://wuedata.uni-wuerzburg.de]


Add-On! Bei der Auswahl des Repositoriums achtete die Forschergruppe zudem darauf, dass das Repositorium hinsichtlich der Qualität geprüft wurde und dies durch eine Zertifizierung, wie zum Beispiel mit dem CoreTrustSeal oder dem nestor-Siegel, bestätigt ist.

Beachtung der FAIR Prinzipien



Die Beschreibung von Datensätzen und digitalen Suchsystemen, um Forschungsdaten langfristig zugänglich zu machen, erfolgt unter Berücksichtigung der FAIR-Prinzipien, die die technischen Anforderungen beschreiben. Dr. Durchblick und seine Team haben das natürlich im Griff.

Qualitätskriterien für digitale Datenaustausch

Das Akronym FAIR beschreibt folgende vier Kriterien, die Forschungsdaten erfüllen sollen:




Findable
Accessible Interoperable Reusable
Daten sind
leicht auffindbar
Daten sind
zugänglich
Daten sind zwischen verschiedenen technischen Systemen verwendbar Daten
sind nachnutzbar


Die Daten verfügen über ausreichende Beschreibungen mit relevanten Metadaten und werden mittels eines klaren, dauerhaften Identifikatoren referenziert.


Die Daten sind sowohl für menschliche als auch maschinelle Lesbarkeit ausgelegt und werden in einem zuverlässigen Repositorium aufbewahrt.

Verbreitete, offene Dateiformate, die Einhaltung fachlicher Standards und ein einheitliches Vokabular erleichtern die Nachnutzung.


Die Daten sind durch eine klare Lizenz geschützt, enthalten präzise Information zur Herkunft und sind umfassend dokumentiert

Konkreter zu Identifikatoren und Metadaten wird es in den folgenden Abschnitten.


DFG Leitlinie 13 zur Guten Wissenschaftlichen Praxis  „Herstellung von öffentlichem Zugang zu Forschungsergebnissen“, fordert den Weg der Forschung hin zu Open Access, auch in Bezug auf die verwendeten Forschungsdaten. „Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrundeliegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien folgend – zugänglich in anerkannten Archiven und Repositorien.“ (DFG 2019, 19) Die DFG weist allerdings auch ausdrücklich darauf hin, dass es in manchen Fällen auch sein kann, dass eine Open Access-Publikation der Daten nicht möglich ist (z. B. im Falle von Patentrechten Dritter). Es sollte mit Blick auf Open Access daher immer folgender Grundsatz gelten: So offen wie möglich, so geschlossen wie nötig. Siehe hierzu die entsprechende Leitline im Kodex der DFG [https://wissenschaftliche-integritaet.de/kodex/herstellung-von-offentlichem-zugang-zu-forschungsergebnissen]

Dieser Text wurde übernommen aus auf dem Kapitel Einführung in das Forschungsdatenmanagement (Hessische Forschungsdateninfrastruktur, 2022)

To Do: FAIR vs. OPEN

Das unten gezeigte Video The FAIR principles explained (Maastricht University, 2020) erklärt kurz die FAIR-Prinzipien und stellt den Unterschied zwischen offenen Daten und FAIRen Daten heraus.

Schauen Sie sich das Video an und finden Sie heraus, worin der Unterschied zwischen 'Open' und 'FAIR' besteht.

Sammeln Sie Ihre Notizen hierzu im gemeinsamen Notizpad zu dieser Lerneinheit.

Bitte beachten Sie, dass es sich hier um eine Einbettung eines externen Seiteninhalts [https://blogs.tib.eu/wp/tib/2017/09/12/die-fair-data-prinzipien-fuer-forschungsdaten/] handelt.

  (Maastricht University, 2020)

Tipp! Der Artikel Die FAIR Data Prinzipien für Forschungsdaten (Technischen Informationsbibliothek, 2017 ) erklärt die FAIR-Prinzipien detailiert und ordnet die Bedeutung sowie die Aufgaben für Wissenschaflterinnen und Wissenschaftler gut ein. Sehr lesenswert! [https://blogs.tib.eu/wp/tib/2017/09/12/die-fair-data-prinzipien-fuer-forschungsdaten/]

Detail: Was sind Persistente Identifikatoren?

Als Persistente Identifikatoren (PID) werden dauerhafte, eindeutige Benennungen für digitale Informationsobjekte oder Entitäten bezeichnet. Ähnlich einer Matrikelnummer besteht ein Persistenter Identifikator aus einem Code von Ziffern und alphanumerischen Zeichen, wie zum Beispiel dieser hier: urn:nbn:de:hbz:468-20110509-151022-7



Im Gegensatz zu einer URL, also einer Webadresse, verweisen Persistente Identifikatoren nicht auf einen Ort, sondern auf eine bestimmte Ressource, die an verschiedenen Orten beheimatet sein kann. Die Grundidee dahinter ist, die Identifikation eines Objekts von dessen Standort zu trennen. Es verhält sich also ähnlich wie mit Ihrem Wohnort und Ihrem persönlichen Namen, wenn Sie umziehen, ändert sich Ihr Wohnort, Ihren Namen behalten Sie.

Funktionsprinzip PID Systeme

Alle PID-Systeme funktionieren nach einem ähnlichen Prinzip. Wichtig hierbei sind die sogenannten Resolver, die eine PID in die aktuelle URL "auflösen" können. Ein Resolver ist eine Software, die in einer Adressdatenbank für persistente Identifikatoren, den aktuellen Standort und die mit der PID gespeicherten Metadaten abfragen kann.

Schritte des Resolvings

Zunächst wird der aktuelle Standort über eine resolver-adresse abgefragt (1), es erfolgt eine Rückmeldung über die URL-Adresse des aktuellen Standorts mit dem Präfix "Location:" (2), "Location:" löst eine automatische Anforderung des Informationsobjekts aus (3), abschließend wird der Zugang zum angeforderten Informationsobjekt zurückgegeben (4).






To Do: PID Resolving




Probieren Sie das Resolving selbst aus. Nutzen Sie diese Adresse [https://nbn-resolving.org/urn:nbn:de:hbz:468-20110509-151022-7] und ermitteln Sie, auf welches Dokument Sie verwiesen werden.

  • Untersuchen Sie die gegebene und die zurückgemeldete Webadressen?
    • Worin unterscheiden sich diese?
  • Welche Institution verbirgt sich hinter dem genutzten Resolving Dienst?
    • Welche Bezeichnung haben die Identifikatoren, die dort vergeben werden?
Sammeln Sie Ihre Notizen hierzu im gemeinsamen Notizpad zu dieser Lerneinheit.

Normdaten

Identifikation von Personen, Institutionen, usw. ..

Es gibt verschiedene Arten von Identifikatoren, die innerhalb des Wissenschaftsbetriebs üblich sind. So gibt es beispielsweise Identifikatoren für Publikationen oder Personen, aber auch solche für Sachbegriffe, Geografika und Institutionen, wie beispielsweise die Codes der Gemeinsame Normdatei. Normdaten sind besonders wichtig für die Strukturierung von Information, erleichtern die Suche und Vernetzung von Wissen sowie die langfristige Verweisbarkeit wissenschaftlicher Ressourcen.

Das folgende Video Was sind Normdaten? (Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, 2023) erklärt Normdaten sehr anschaulich:

(Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden, 2023)

Add-On! Neben der Gemeinsamen Normdatei (GND) der Deutschen Nationalbibliothek gibt es weitere Normdateien. Z. B. den International Standard Name Identifier (ISNI) oder die Virtual International Authority File (VIAF).

DOI (Digital Objekt Identifier)



Identifikation von Publikationen

Ein DOI ist ein weit verbreiteter Persistenter Identifikator für wissenschaftliche Publikationen, damit diese gut gefunden und zitiert werden können. Die DOIs werden auf oberster Ebene durch zentrale Vergabestellen verwaltet, wie zum Beispiel CrossRef für wissenschaftliche Artikel und E-Books, sowie DataCite für Forschungsdaten. Die meisten Forschungsdatenrepositorien verfügen über die Möglichkeit DOIs zu vergeben. Bei vielen Repositorien wird der DOI sogar automatisch beim Hochladen der Daten erzeugt.

Da Dr. Durchblick ein Repositorium mit automatischer DOI-Vergabe gewählt hat, brauchen er und sein Team also nichts weiter tun, als ihre Forschungsdaten über das gewählte Repositorium hochzuladen.


Tipp! Sie können den Standort einer Publikation auch direkt über eine Suche bei der DOI Foundation abfragen. Sie benötigen hierzu den DOI mit Organisationskennung, wie diese '10.5281/zenodo.6472827'. Probieren Sie es aus: [https://dx.doi.org].

ToDo: Resolving URL DOI




ORCID (Open Researcher and Contributor ID)

Identifikation von Autorinnen und Autoren

Die ORCID iD fungiert als standardisierter und weitverbreiteter Persistenter Identifikator für die Personenkennung von wissenschaftlichen Autorinnen und Autoren. Sie dient z. B. zur treffsicheren Zuordnung von Publikationen und Personen. ORCID-IDs werden zentral durch die Organisation ORCID verwaltet. Jede Wissenschaftlerinnen und jeder Wissenschaftler kann sich selbsttätig eine ORCID-ID anlegen und auch Sie als Studierende können sich bereits registrieren.



Dr. Durchblick hat selbstverständlich eine ORCID-ID [0009-0009-1202-9242], schon allein, um Verwechslungen zwischen ihm, 'Dietmar', und einem anderen Forscher namens 'Dydmaar Durchblick' zu vermeiden. Zusätzlich ermöglicht sie ihm, sein wissenschaftliches Profil über die ORCID-ID zu verwalten, und sie lässt sich problemlos in verschiedene digitale Plattformen integrieren.

ToDo: Recherche ORCID

Schauen Sie sich ein wenig auf der ORCID Seite (Open Researcher and Contributor ID, o. J.) um:

  • Suchen Sie z. B. nach Ihren Professorinnen und Professoren, oder nach Forscherinnen und Forschern, deren Arbeiten Sie gerade beschäftigen.
  • Welche Information wird in den Profilen der Personen aufgeführt?
  • Oder suchen Sie gezielt nach der Person mit der ORCID-ID [0000-0002-1335-4022]. Sie hat etwas mit Marie Curie gemeinsam und gehört damit zu einem sehr exklusiven Kreis. Finden Sie die Gemeinsamkeit heraus.

Klick Sie auf die Grafik, um die Internetseite in einem neue Tab zu öffen.


Detail: Was sind Metadaten?

Metadaten sind strukturierte Daten, die verwendet werden, um Objekte, Konzepte und Daten systematisch zu beschreiben. Sie dienen dazu, umfassende Informationen über die Merkmale anderer Daten oder Datensätze zu vermitteln. Sie sind sozusagen "Daten über Daten".

Wozu sind sie wichtig?

Metadaten sind wichtig, für die inhaltserschließende Beschreibung und Dokumentation von Daten und Datensätzen, sowie für die maschinell und automatisiert Verarbeitung. Metadaten geben z. B. Information über Inhalt, Herkunft oder Format einer Ressource und lassen sich anhand solcher Information in digitalen Suchsystemen finden. 

Wie werden sie verzeichnet?
Metadaten werden in der Regel manuell während des Erstellungsprozesses von Datensätzen produziert und an den entsprechenden Stellen im Datensatz, in der Regel im Datei-Header, angefügt. Ebenso werden Datensätze beim Hochladen in ein Forschungsdatenrepositorium mit Metadaten versehen. Beim Hochladen in das Repositorium werden z. B. Angaben zu Urheberinnen und Urhebern, Titel und Nutzungslizenz, Schlagworte zur Inhaltsbeschreibung sowie eine Kurzzusammenfassung des Datensatzes vermerkt.

Differenzierung von Metadaten

Metadaten lassen sich ihrer Funktion nach differenzieren in:

deskriptiv inhaltliche Beschreibung, z. B. Angabe zu Urheberinnen und Urhebern
strukturell Beschreibung der Struktur eines Datensatzes, z. B. Spaltenbezeichnung in Tabellen
administrativ Angabe zur Verwaltung, z. B. Datum- oder Versionsangabe
rechtlich Angabe zu rechtlichen Aspekten, z. B. Lizenzinformation
technisch Verarbeitungsparametern zur digitalen Verarbeitung, z. B. Dateiformat oder Dateigröße

Standards und Normierung


Die Verwendung von Standards in der Beschreibung und Dokumentation von Metadaten ist entscheidend, da sie eine einheitliche Struktur und gemeinsame Sprache schafft. Nur durch die Festlegung von Normen für die Erfassung, Organisation und Bereitstellung von Metadaten, können Forschungsdaten in Suchsystemen gefunden, miteinander kombiniert und effektiv genutzt werden. Standardisierte Metadaten bilden somit die Grundlage für eine gute Auffindbarkeit und Interoperabilität von Forschungsdaten.


Beispielszenario


Stellen Sie sich vor, zwei Forschergruppen haben bei ihren Experimenten zu einem gleichen Setting unter anderem Werte zur Raumtemperatur erhoben. Forschergruppe A bezeichnet die ermittelten Werte in ihren tabellarischen Daten mit 'temp' Forschergruppe B mit 'Rtem'. Dass es sich bei beiden Forschergruppen um die Angabe der Raumtemperatur handelt, kann weder von einem Computersystem, noch von Dritten eindeutig identifiziert werden, damit reduziert sich der Nutzen, der aus den Forschungsdaten gewonnen werden kann.

Dieses Beispiel wurde in gekürzter Form entnommen aus Was sind Metadatenstandards und warum sind sie wichtig? (Hessische Forschungsdateninfrastruktur, 2022)


Verwendung von Metadatenstandards


Dr. Durchblick und sein Forscherteam haben sich sowohl in der Erhebungs- als auch in der Analysephase ihrer Forschungsarbeit an die Vorgaben fachspezifischer Metadatenstandards zur Datenbeschreibung gehalten. So kann jeder Ihre Auswertung nachvollziehen und die Ergebnisse auf eine fundierte und transparente Datengrundlage stützen.

Beispiele

Disziplin  Standards
fachübergreifend https://schema.datacite.org/, https://www.dublincore.org/,
https://wiki.dnb.de/page/viewpage.action?pageId=131991608, https://www.radar-service.eu/de/ueber-uns
Geisteswissenschaften https://www.loc.gov/ead,
https://tei-c.org/guidelines/p5
,
https://dariah-eric.github.io/lexicalresources/pages/TEILex0/TEILex0.html
Geowissenschaften http://aims.fao.org/standards/agmes, https://www.fgdc.gov/metadata/csdgm-standard
Klimawissenschaften http://cfconventions.org
Kunst- & Kulturwissenschaften http://www.getty.edu/research/publications/electronic_publications/cdwa/index.html, http://www.heritage-standards.org.uk/midas-heritage
Naturwissenschaften https://www.iucr.org/resources/cif/spec, http://icatproject-contrib.github.io, https://dwc.tdwg.org
Sozial- und Wirtschaftswissenschaften https://ddialliance.org
Diese Tabelle wurde aus Was sind Metadatenstandards und warum sind sie wichtig?, Tab. 4.1: Metadatenstandards sortiert nach Wissenschaftsdisziplin in gekürzter Form übernommen (Hessische Forschungsdateninfrastruktur, 2022


Add-On! Zur inhaltlichen Beschreibung und Dokumentation von Forschungsdaten werden neben Metadatenstandards auch kontrollierte Vokabulare und Thesauri verwendet, was die Auffindbarkeit von Datensätzen in digitalen Suchsystemen wesentlich erhöht.

Beispiele für Thesauri sind
Art & Architekture Thesaurus [https://www.getty.edu/research/tools/vocabularies/aat/]
Standard Thesaurus Wirtschaft
[https://www.zbw.eu/stw/version/latest/about.de.html]