Unterstützung von Enhanced Publications in CLARIN: Zitation, Archivierung und Zugang zu Forschungsdaten

Der Nachweis von Forschungsergebnissen erfordert zunehmend auch, dass die zugrundeliegenden Daten zur Überprüfung der Ergebnisse verfügbar sind. Diese Daten werden in enhanced Publications zitiert, wozu ein eindeutiger Identifikator, häufig nach dem Handle-System, verwendet wird. Diese Identifiatoren zeigen auf die Daten in Repositorien, die unter bestimmten Bedingungen heruntergeladen werden können. Die Daten, die dadurch sichtbar sind,  können dadurch auch nachgenutzt werden und Datenersteller können sie vergleichbar zu Publikationen angeben. Die Zugänge zu den Forschungsdaten unterscheiden sich von Repositorium zu Repositorium.

Besonders interessant für Forschende aus den

  • Geisteswissenschaften, die mit empirischen Sprachdaten arbeiten möchten
  • Sprachtechnologen

Ausgangslage:

In einer Publikation sind Daten referenziert mittels PID eines Korpus' gesprochener Sprache PD2: 11858/00-1779-0000-001F-88A9-6

Ziel:

Verifikation des Forschungsergebnisses oder Nachnutzung der Daten durch eigene Untersuchung des zitierten Korpus' gesprochener Sprache

Lösung:

Die Daten zu einem Identifator werden in eine Repositorium lokalisiert, man meldet sich an und lädt das Korpus herunter

Verwandte CLARIN-D-Werkzeuge und -Dienste

Eine Kurzanleitung wie man einen Korpus gesprochener Sprache herunterlädt

  1. Öffnen Sie einen Browser, entweder Chrome oder Firefox und geben Sie folgende Adresse ein: http://hdl.handle.net/11858/00-1779-0000-001F-88A9-6. http://hdl.handle.net/ ist dabei der allgemeine Teil, 11858/00-1779-0000-001F-88A9-6 der nicht ausführbare Teil des Identifkators.
  2. Es erscheint eine sogenannte Landing-Page des CLARIN-Repositoriums am BAS; schauen Sie sich die Beschreibung aus den Metadaten an, um sicherzustellen, dass es sich wirklich um das gesuchte Korpus gesprochener Sprache PD handelt und ob es die richtige Version ist. Sie sehen, dass unter 'Access' steht, dass die Ressource 'free for science' ist, also für die akademische Forschung kostenlos verfügbar ist. Wenn Sie nach unten scrollen sehen Sie Links zu alen Aufnahmesessions dieses Korpus'
  3. Um die Daten aus dem CLARIN-Repositorium des BAS herunterzuladen muss man sich als akademischer Nutzer ausweisen. Dies geschieht folgendermaßen:
    • Klicken Sie auf den Link 'Login via your institution' unterhalb des CLARIN-Logos.
    • Es erscheint eine Seite, die europäische akademische Forschungseinrichtungen auflistet.
    • Suchen Sie Ihre Forschungseinrichtung, falls Sie kein AAI-fähiges Konto Ihrer Heimatintitution haben, wählen Sie 'clarin.eu website account'.
    • Es erscheint eine Login-Seite Ihrer Forschungseinrichtung.
    • Melden Sie sich an mit Ihren üblichen Angaben, in der Regel ist dies Ihr Universitätskonto.
    • Anschließend erscheint wieder die Seite des CLARIN-Repositoriums am BAS; unterhalb des BAS Logos sollten Sie folgendes sehen: 'You are authentified to have full access to the BAS repository'.
  1. Scrollen Sie nach unten zum PD2 Sprachkorpus und klicken Sie auf den Link 'PD2'
  2. Die Landing-Page des PD2-Korpus erscheint wieder, aber diesmal ist unten ein Abschnitt 'Download'. Beachten Sie, dass Sie überprüfen können, ob es sich um die gleiche Version des Sprachkorpus' handelt. Wenn nicht, suchen Sie den Link zur richtigen Version
  3. Falls Ihre E-Mail-Adresse noch nicht eingetragen ist, füllen Sie das Feld mit der E-Mail-Adresse aus, an die das Repositorium einen Download-Link schicken kann, stimmen Sie den Nutzungsbedingungen "Terms of usage" zu und klicken Sie auf 'create and download .tar archive' (.tar-Archiv erstellen und herunterladen).
  4. Nach wenigen Sekunden erscheint die Meldung, dass Ihre Anfrage eingegangen und Sie sehen die Meldung: 'An email containing the download link will be sent to: (your email address)' (Eine E-Mail mit dem Download-Link wird an folgende Adresse gesandt: (Ihre E-Mail-Adresse)
  5. Im Hintergrund wird das Download-Packet zusammengestellt. Sobald verfügbar wird Ihnen der Download-Link geschickt. Die E-Mail sieht etwa folgendermaßen aus:
    "The requested tar archive has been created on 2015-12-14T14:54:13.000Z.
    Please follow this download link:
    [....]
    The archive will be available for 24 hours from now on."
  6. Klicken Sie auf den Link oder kopieren Sie die Adresse (URL [....]) in die Adresszeile Ihres Browsers.
  7. Das heruntergeladene Archiv mit der Endung *.tgz enthält ein Unterverzeichnis mit dem Namen des Sprachkorpus'. In diesem Unterverzeichnis befindet sich die Dokumentation und ein gesondertes Unterverzeichnis für jede Aufnahmesession.