CLARIN-D Blog

Förderung Fachlichen Lernens - Prof. Dr. Kristin Bührig - Forum CA3

https://youtu.be/NZGA07NsmlY

Prof. Dr. Kristin Bührig spricht auf dem Forum CA3 in Hamburg über das Projekt ProFaLe, die Professionalisierung von Lehrerhandlung mit Hinblick auf sprachliche und kulturelle Diversität. Der Schwerpunkt des Projekts liegt auf der Optimierung von Hochschullehre sowie Unterrichtsdiskursen unter dem Gesichtspunkt der sich verändernden gesellschaftlichen Bedingungen. 

Ziel von ProFaLe ist es im Rahmen dieser sich verändernden Bedingungen wie Demographiewandel und Einfluss digitaler Medien fachliches Lernen zu fördern, Unterricht und Interaktion mit Schülern und Schülerinnen zu optimieren und sicherzustellen, dass das nötige Wissen bei diesen ankommt. Als ein Beispiel um dieses Ziel zu erreichen nennt Frau Bührig die gemeinsame Annotation authentischer Unterrichtsinteraktionen von Lehramtsstudierenden und Masterstudierenden linguistischer Fächer, um so überfachlich Wissen zu kombinieren. Hierfür nutzt Dr. Bührig mit ihren Studierenden das CLARIN Tool Exmaralda, in dem unterschiedliche Annotationsebenen wie die Transkription des Gesagten oder Kommentare zu Mimik und Gestik gemeinsam mit der entsprechenden Audio- oder Videodatei dargestellt werden können. Auch ist es den Studierenden möglich weitere Annotationsebenen hinzuzufügen. Hierfür werden Tandems zwischen den Studierenden gebildet, sodass jeweils Lehramtsstudierende gemeinsam mit Masterstudierenden linguistischer Fächer eine Unterrichtseinheit annotieren und das jeweilige inter-annotator-agreement (sowie auch das intra-annotator-agreement) berechnet wird. 

Mit dieser Arbeitsweise können Studierende ihr Wissen über bestimmte Sachverhalte verbessern und differenziert über die Unterrichtsinhalte kommunizieren. Hieraus kann die Lehrkraft wiederum Schlüsse über den Umgang der Studierenden mit dem Material sowie deren Wissensstand ziehen. 

Read more

Auswerten in CLARIN-D - Dr. Thomas Gloning - Forum CA3

https://youtu.be/SoLt7wnZJgY

Am Beispiel von Fragestellungen aus der germanistischen Sprachwissenschaft erläuterte Dr. Thomas Gloning von der Universität Giessen auf dem Forum CA3 2016 in Hamburg die Aufgabe des Auswertens mittels CLARIN Ressourcen. 

Zum Auswerten von Daten müssen wissenschaftliche Fragestellungen und digitale Angebote wie Werkzeuge oder Metadaten miteinander verknüpft, sowie unterschiedliche Ressourcen wie DTA und GermaNet verbunden werden.

CLARIN stellt drei Wege der Dokumentation der Auswertungen zur Verfügung

  • in gedruckter Form
  • in Form eines Screencasts
  • in Videoform als Experteninterview 

Das Dokumentationsschema besteht aus den immer gleichen Schritten:

  • Formulierung einer wissenschaftlichen Fragestellung
  • Beschreibung der dafür nutzbaren digitalen Daten und Werkzeugen mit der jeweiligen CLARIN URL
  • Beschreibung der nötigen Vorgehens- und Anwendungsweisen 
  • Hinweise auf bereits durchgeführte Forschungsarbeiten, bei denen die gewählte Prozedur erfolgreich eingesetzt werden konnten

Konkrete Anwendungsbeispiele sind in diesem Video zu finden.

Read more

Auffinden in CLARIN-D - Dr. Alexander Geyken - Forum CA3

https://youtu.be/HCXjWryIxZY

Dr. Alexander Geyken von der Berlin Brandenburgischen Akademie der Wissenschaften spricht auf dem Forum CA3 2016 in Hamburg über die Aufgabe des Auffindens innerhalb unserer Forschungsinfrastruktur. Als Beispielressource verwendet er hierfür historische Texte. 

Für die Datensuche gibt es über CLARIN-D drei Möglichkeiten:

  • Metadatensuche mittels des Virtual Language Observatorys (VLO)
    Das VLO ermöglicht innerhalb aller CLARIN Ressourcen zu suchen. Die Suche kann hierbei präzisiert werden, indem direkt nach speziellen Sprachen, Kollektionen, Ressourcentypen, Modalitäten, Genre und mehr gesucht wird
  • Volltextsuche sowie
  • über die CLARIN Zentren 

Je nachdem welche Art Texte gesucht werden soll, stehen unterschiedliche Ressourcen zu Verfügung. Für historische Texte aus dem 17., 18. und 19. Jahrhundert beispielsweise sind es Texte aus den Bereichen der Wissenschaft, Belletristik und Gebrauchsliteratur. Sie sind aus dem Deutschen Textarchiv, CLARIN Kooperationsprojekten, Texten von Forschenden sowie Texttauschvereinbarungen (das heißt Texte und Kollektionen die nachträglich an das CLARIN Format angepasst wurden) entnommen. Für Texte aus dem 19. Jahrhundert ist die Ressource das DDR-Presseportal, bestehend aus Texten der Zeitungen Neues Deutschland, Berliner Zeitung sowie Neue Zeit. Um eine reibungslose und einheitliche Suche in den Ressourcen zu gewährleisten, werden sämtliche Texte im CLARIN-eigenen DTA-Basisformat bereitgestellt. 

Read more

Die Reform des Deutschen Urheberrechtsgesetzes 2017 – welche Konsequenzen hat sie für DH-Forschende?

Die Reform des Deutschen Urheberrechtsgesetzes 2017 – welche Konsequenzen hat sie für DH-Forschende?

Die Reform des Deutschen Urheberrechtsgesetzes 2017 – welche Konsequenzen hat sie für DH-Forschende?

Es ist allseits bekannt, dass Sprachdaten (und Sprachressourcen) oft urheberrechtlich oder vom sui-generis-Recht für Datenbanken geschützt sind. Deswegen ist ihre Erhebung, Nutzung und Verbreitung nur mit Zustimmung des Rechtsinhabers oder bei Eingreifen einer gesetzlichen Schrankenregelung zulässig. Die Zustimmung der jeweiligen Rechtsinhaber einzuholen, ist häufig sehr zeit- und kostenintensiv und mit großen Schwierigkeiten für Forscher verbunden. Deswegen führten in den letzten Jahren die meisten nationalen Gesetzgeber gesetzliche Schrankenregelungen speziell für Forschungszwecke ein

Auf EU-Ebene erlaubt die (Urheberrechts-)Richtlinie 2001/29/EG den nationalen Gesetzgebern, Ausnahmeregelungen für die Vervielfältigung von Werken (was notwendiger Teil jeder computerbasierten Analyse ist) und die öffentliche Zugänglichmachung (Verbreitung) zu nicht-kommerziellen Zwecken einzuführen – allerdings nur unter der Voraussetzung, dass die jeweilige Quelle anzugeben ist. Die (Datenbank-)Richtline 96/9/EG sieht in ihrem Art. 9b eine ähnliche Forschungsausnahme vor, erlaubt allerdings nur die Entnahme (im Wesentlichen handelt es sich dabei um Vervielfältigungen) von Daten aus einer geschützten Datenbank, nicht die Wiederverwendung, z.B. keine öffentliche Zugänglichmachung.

Diese EU-Richtlinien müssen, um in den Mitgliedsstaaten Geltung zu erlangen, in nationale Gesetze umgesetzt werden. Beide Richtlinien belassen den nationalen Gesetzgebern aber einen erheblichen Umsetzungsspielraum (insbesondere dürfen die Ausnahmen eingeführt werden, müssen es aber nicht). Um einen angemessenen Interessenausgleich zwischen den Forschern und den Rechteinhabern (insbesondere den Verlagen) zu erreichen, entscheiden sich die nationalen Gesetzgeber häufig dazu, Schrankenregelungen sehr eng zu fassen. So ist beispielsweise in Deutschland gem. § 52a UrhG lediglich die Nutzung von veröffentlichten “kleinen Teilen” eines Werkes (also - richterrechtlich festgelegt - bis zu 25 % eines Werkes bis max. 100 Seiten) bzw. Werken “geringen Umfangs” (also Werke mit weniger als 25 Seiten, einzelne Bilder und Musikstücke) für nicht-kommerzielle Forschungszwecke erlaubt. Damit

Read more

Aufbewahren in CLARIN-D - Dr. Thorsten Trippel - Forum CA3

https://youtu.be/Msqm1EFybM4

Dr. Thorsten Trippel von der Universität Tübingen, Liaison Koordinator des Projektverbunds CLARIN-D, spricht auf dem Forum CA3 2016 in Hamburg über die Aufgabe des Aufbewahrens von Daten innerhalb der Forschungsinfrastruktur CLARIN-D.

Gründe für Datenaufbewahrung sind

  1.  Sicherung der guten wissenschaftlichen Praxis
  2.  Nachnutzung von Forschungsdaten und
  3.  Attribution andersartiger wissenschaftlicher Leistung

Im Detail bedeutet das

  1. dass Forschungsergebnisse mitsamt der zugehörigen Beschreibung, Auswertung, und somit der Möglichkeit sie zu überprüfen und reproduzieren abgelegt werden können. 
  2. neue Forschungsfragestellungen vorangetrieben werden können und die Kombination von Daten aus unterschiedlichen Quellen ermöglicht wird. Auch die Möglichkeit auf die Ausgangsdaten verweisen zu können ist für Veröffentlichungen und wissenschaftliche Lebensläufe von Vorteil. So können nicht nur Publikationen über Daten, sondern auch die Daten selbst zitiert und weiterverwendet werden.
  3. der Empfehlung der Deutschen Forschugnsgesellschaft, Primärdaten aus Veröffentlichungen für mindestens 10 Jahre auf gesicherten Trägern aufzubewahren, nachzukommen.

Die Deutsche Forschungsgesellschaft empfiehlt Primärdaten aus Veröffentlichungen für mindestens 10 Jahre auf gesicherten Trägern aufzuheben. Der in die CLARIN-D integrierte Datenmanagementplan bietet die hierfür nötige Unterstützung. 

 

Read more

Forum CA3 - CLARIN-D im Überblick

  https://youtu.be/5nuUYbQBNXM

Am 07. und 08.07.2016 fand in der Staats- und Universitätsbibliothek Hamburg das Forum CA3 statt. In Keynotepräsentationen, Überblicksvorträgen und einer Hands-on Session wurde der Einsatz digitaler Sprachressourcen in der Lehrerausbildung, historischen Forschung und im multilingualen europäischen Kontext veranschaulicht. Als wissenschaftlicher Koordinator des Projektverbundes CLARIN-D eröffnete Prof. Dr. Erhard Hinrichs von der Universität Tübingen die Vortragsreihe mit Informationen über Organisation und Aufgaben unserer Forschungsinfrastuktur.  

"Ob man die Digitalisierung aller Lebensbereiche persönlich gutheißt oder nicht: Sie findet mit großer Geschwindigkeit statt. Wir müssen aus der Bedrohungsdiskussion eine Chancendiskussion machen"
Olaf Scholz, 1. Bürgermeister der Freien und Hansestadt Hamburg 

Wie das von Prof. Hinrichs genutze Zitat des ersten Hamburger Bürgermeisters schon vor Jahren darlegte, befindet sich unsere Welt immerzu in technischem Wandel und Fortschritt. Auch in den Geistes- und Sozialwissenschaften wirkt dieser Fortschritt und führte zur Bildung eines neuen Forschungsgebietes, das unter den Namen Digitale Geisteswissenschaften, Digital Humanities (DH) oder auch e-Humanities bekannt ist. CLARIN-D hat es sich zum Ziel gesetzt diesen Bereich mittels Bereitstellung digitaler Sprachressourcen sowie Verarbeitungswerkzeuge zum Auffinden, Analysieren und Archivieren dieser voranzutreiben. 

Die neun CLARIN-D Zentren die den Projektverbund bilden setzten sich aus Instituten der Max-Planck-Gesellschaft, der Leibniz Gemeinschaft, der Berlin Brandenburgischen Akademie der Wissenschaften sowie 6 deutschen Universitäten mit Digitalen Geistes- und Sozialwissenschaften als Forschungs- und Lehrschwerpunkt zusammen. Insgesamt wirken über 200 Fachwissenschaftler und Fachwissenschaftlerinnen aus ganz Deutschland in 10 Facharbeitsgruppen im Projektverbund mit. Diese Facharbeitsgruppen beschäftigen sich mit einzelnen Philologien, Sozial- und Politikwissenschaften, Geschichtswissenschaften, Linguistik und Kognitionswisenschaften. In den Kurationsprojekten haben die Facharbeitsgruppen sich eigene individuelle Schwerpunkte gesetzt, die vor dem Hintergrund ihrer Forschungsdisziplin von Relevanz sind, und haben diese in die CLARIN Infrastruktur integriert. 

Die Angebote von CLARIN-D sind in erster Linie für Forschende von Relevanz. Aber auch Förderung wissenschaftlichen Nachwuchses, universitäre Lehre

Read more

CLARIN Federated Content Search: Suche in verteilten Sprachressourcen

https://youtu.be/SaUJVdfz1CA

In diesem Screencast stellen wir unser Werkzeug CLARIN Federated Content Search (FCS) vor. Es ermöglicht eine Suche nach unterschiedlichen Verwendungen eines Wortes in verteilten Sprachressourcen. Hierfür kann ein beliebiger Begriff in die Suchmaske eingegeben werden. um ihn entweder Sprachunabhängig oder in einer bestimmten Sprache darzustellen. Auch die Art der Darstellung lässt sich manuell festlegen.  

Eine dieser Darstellungsformen, die auch in diesem Screencast gezeigt wird, ist KWIC - also Keyword in Context. Hierbei wird das Wort in verschiedenen möglichen Kontexten dargestellt. 

Bei der Suche werden die unterschiedlichen CLARIN Ressourcen getrennt voneinander durchsucht und aufgelistet. Die Daten lassen sich entweder online betrachten, in verschiedenen Formaten herunterladen oder über WebLicht abrufen. Hierfür muss sich lediglich über die Institutionsmail angemeldet und die entsprechende Datei hochgeladen werden. Als nächste Schritte kann nun wie bei WebLicht gewohnt eine Prozesskette zusammengestellt werden, um weitere Analysen mit den Daten durchzuführen. Auch die hier gewonnenen Resultate können einfach und in unterschiedlichen Formaten heruntergeladen werden. 

Interessenten anderer Anwendungsmöglichkeiten von WebLicht klicken einfach auf den entsprechenden Tag in der Tag Cloud um zu weiteren Blogposts zu diesem Thema zu gelangen.

Read more

Wo sagt man ... ?

  https://youtu.be/gJo_eGbEQ0I

Besonders interessant für Dialektforschende und RegionalhistorikerInnen ist das in diesem Screencast vorgestellte Werkzeug "Wo sagt man?". Es ermöglicht Nutzenden nach Ausdrücken zu suchen und visualisiert die Bereiche auf einer Karte, in denen dieser Ausdruck verwendet wird, beziehungsweise wo er aufgenommen wurde und liefert weitere Informationen dazu. 

Hierfür müssen Nutzende lediglich das gesuchte Wort in die Suchmaske eingeben und das gewünschte Korpus auswählen. Zur Auswahl stehen das Pfeffer-Korpus und das Zwirner-Korpus. Beide Korpora werden vom Institut für Deutsche Sprache (IDS) gepflegt und bieten Sammlungen von Mundarten beziehungsweise Umgangssprache. Nachdem das Wort eingegeben und der Prozess gestartet wurde werden auf einer Karte die Regionen angezeigt, in denen das gesuchte Wort genutzt wird. Klickt man nun auf einen dieser Bereiche, lassen sich weitere Informationen abrufen. Diese beruhen auf einer externen Datenbank der Datenbank für Gesprochenes Deutsch

Auf diese Weise lässt sich herausfinden, welche Mundartlichen Worte in welchen Regionen Deutschlands Verwendung finden. Interessant ist es hierbei beispielsweise zu sehen, dass es Worte gibt die nur in vereinzelten Regionen Deutschlands genutzt werden, andere deren Verwendungsgebiet sehr groß ist und wieder andere, die in verschiedenen, nicht angrenzenden Gebieten verwendet werden. 

Read more

Die Dimensionen des Allgemeinen Persönlichkeitsrechts – insbesondere Urheberpersönlichkeitsrechte

Die Dimensionen des Allgemeinen Persönlichkeitsrechts – insbesondere Urheberpersönlichkeitsrechte

Jeder hat grundsätzlich das Recht auf freie Entfaltung seiner Persönlichkeit – dies statuiert seit 1949 Art. 2 Abs. 1 des Deutschen Grundgesetzes (GG). Umfasst ist nicht nur die Freiheit des Einzelnen, das zu tun und zu lassen, was er möchte und anderen nicht schadet[1](d.h. die allgemeine Handlungsfreiheit), sondern in Verbindung mit der Menschenwürdegarantie (Art. 1 Abs. 1 GG) auch ein umfassender Persönlichkeitsschutz in allen Beziehungen eines Menschen.[2] Diese Rechte sind auch beim Umgang mit Forschungsdaten zu beachten, die sowohl das allgemeine Persöhnlichkeitsrecht als auch das Urheberpersönlichkeitsrecht tangieren können. 

Ähnliche Postulationen finden sich im internationalen Bereich (Art. 7 GRCh[3], Art. 8 EMRK[4] und Art. 12 AEMR[5]).

Bereits vor Verkündung des Grundgesetzes schützte die deutsche Rechtsordnung besondere Ausprägungen und Konkretisierungen durch einfachgesetzliche Persönlichkeitsrechte wie das Namensrecht in § 12 BGB oder einzelne Gehalte des Rechts am eigenen Bild in §§ 22, 23 KUG[6].[7]

Ferner schützt das Urheberrecht seit jeher das sog. „Urheberpersönlichkeitsrecht“ (inzwischen im vierten Abschnitt des UrhG[8] geregelt), d.h. alle Rechtsbeziehungen des Urhebers zu seinem Werk, die nicht vermögensrechtlicher Natur sind.[9] Auch andere Vorschriften des UrhG garantieren persönlichkeitsrechtliche Elemente (vgl. §§ 11 S. 1, 25 Abs. 1, 29 Abs. 1, 39 Abs. 1, 42 Abs. 1 S. 1, 63, 97 Abs. 2 S. 4 UrhG).

Doch worin besteht dieses „Persönlichkeitsrecht“ eigentlich konkret? Kann es einer objektiven Rechtsordnung überhaupt gelingen, darüber zu entscheiden, ob und wenn ja, welche Facetten der Persönlichkeit des Einzelnen rechtlichen Schutz verdienen? Wie ist dieser Schutz tatsächlich rechtlich durchsetzbar? All diese Fragen sollen im folgenden Blogbeitrag beantwortet werden. Dazu werden nach einer Darstellung zum Schutz des Allgemeinen Persönlichkeitsrechts insbesondere die

Read more

Rechtliche Fragen in Bezug auf einen Data Management Plan

Rechtliche Fragen in Bezug auf einen Data Management Plan

In den letzten Jahren war der „Data Management Plan“ in der Sprachressourcen-Community in aller Munde. Dies ist teilweise auch der Ausweitung des Open Research Data Pilots auf alle Bereiche des Horizon 2020 Programm zu verdanken. Demzufolge sind alle Forschungsdaten der von H2020-geförderten Projekte ab 2017 standardmäßig frei zugänglich („open“; ein Ausstieg ist aber immer noch möglich); Projekte müssen folglich einen Data Management Plan (DMP) ausarbeiten, der die Fragen der Auffindbarkeit (findability), des Zugangs (accessibility), der Interoperabilität (interoperability) und der Wiederverwendbarkeit (re-usability; gemeinsam: FAIR) der Daten beantwortet (vgl. Art 29.3 des H2020 Model Grant Agreement: http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/amga/h2020-amga_en.pdf). Eine Mustervorlage für einen DMP ist auf der Website des Europäischen Kommission abrufbar (http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf).

Allerdings ist die Bedeutung eines DMP nicht auf H2020-Projekte beschränkt – tatsächlich haben bereits vor der Ausweitung des Open Research Data Pilots viele andere Projekte und Institutionen DMPs ausgearbeitet. Zum Beispiel verlangt die National Science Foundation (NSF) in den USA, dass alle Förderanträge einen DMP beinhalten, der allerdings nicht mehr als zwei Seiten umfassen darf.

Was aber ist ein Data Management Plan?

Die H2020-Leitlinien definieren ihn als ein kurzes Dokument, das den Datenmanagement-Zyklus für die zu erhebenden, zu verarbeitenden und/oder zu generierenden Daten eines Projekts beschreibt. Weiter führt das Dokument aus, dass ein DMP Informationen zu folgenden Themen enthalten sollte: der Umfang mit Forschungsdaten während und nach dem Projekt, die Art der erhobenen, verarbeiteten und/oder generierten Daten, die angewendete Methode und die angewendeten Standards, die Angabe, ob die Daten freigegeben werden bzw. unter Open Access zu Verfügung gestellt werden und wie die Daten betreut und bewahrt werden (insbesondere auch in der Phase nach dem Projekt).

Der DMP ist daher

Read more