Beispiele für die Verwendung der CLARIN-D-Infrastruktur
WebMAUS-Basic: Automatisches phonetisches Labelling und Segmentieren einer einzelnen deutschen Aufnahme mit Text
Interviews und Gespräche werden häufig aufgenommen und anschließend verschriftlicht, also transkribiert. Der Werkzeugsatz WebMAUS, der in der CLARIN-Infrastruktur zur Verfügung steht, erlaubt es, die Audioaufnahmen und Transkriptionen miteinander zu verknüpfen.
Besonders interessant für
Alle diejenigen, die Sprachaufnahmen und Transkriptionen haben, darunter Forschende aus:
- Linguistik
- Phonetik
- Sprachtechnologie
- Anthropologie
- Ethnologie
- Medien-Informatik
- Konversationsanalyse
- Bildungsforschung
- Politikwissenschaften
WebMAUS Pipeline: Chunk-Vorbereitung langer Video-Interviews
Es ist eine Herausforderung mehrstündige Videoaufnahmen zeitlich zu alignieren. Hierfür bietet das BAS einen Webservice an, welcher die Aufnahmen automatisch in so genannte Chunks aufteilt, und diese wiederum in einem gemeinsamen File speichert. Dies wird im Folgenden Anwendungsszenario demonstriert.
Besonders interessant für Forschende der:
- Linguisten
- Phonetiker
- Antropologen
- Ethnologen
Automatische phonemische Transkription von textuellen Daten
Die Aussprache einer Aussage wird in der Orthographie vieler Sprachen oft nicht genau enkodiert. In solchen Fällen ist es hilfreich einen Text automatisch in seine entsprechende Phonologische Enkodierung zu überführen (z.B. für Sprachsynthese). Der CLARIN Webservice G2P bietet ein solches Werkzeug für eine ganze Reihe an Sprachen an.
Besonders interessant für Forschende der
- Linguistik
- Phonetik
- Antropologie
- Ethnologie
WebMAUS Basic: Automatische phonetische Kennzeichnung & Segmentierung mehrfacher Aufnahmen des Ungarischen
Interviews und Gespräche werden häufig aufgenommen und anschließend verschriftlicht, also transkribiert.Der Werkzeugsatz WebMAUS, der in der CLARIN-Infrastruktur zur Verfügung steht, erlaubt es, die Audioaufnahmen und Transkriptionen miteinander zu verknüpfen.
Besonders interessant für Forschende der
- Linguistik
- Phonetik
- Sprachtechnologie
- Anthropologie
- Ethnologie
- Medien-Informatik
Zugang zu einer Auswahl von Sprachaufnahmen und -annotationen per autorisiertem Download
Große Sammlungen von Sprachaufnahmen und -annotationen enthalten verschiedene Teilkorpora. Innerhalb der CLARIN-Infrastruktur sind viele Datensätze für die akademische Forschung zugänglich, dies erfordert jedoch, dass man sich als Mitglied der akademischen Gemeinschaft authentifiziert.
Besonders interessant für Forschende der
- Geisteswissenschaften, die sich für empirische Studien der gesprochenen Sprache interessieren
- Sprachtechnologie
Unterstützung von Enhanced Publications in CLARIN: Zitation, Archivierung und Zugang zu Forschungsdaten
Der Nachweis von Forschungsergebnissen erfordert zunehmend auch, dass die zugrundeliegenden Daten zur Überprüfung der Ergebnisse verfügbar sind. Diese Daten werden in enhanced Publications zitiert, wozu ein eindeutiger Identifikator, häufig nach dem Handle-System, verwendet wird. Die Zugänge zu den Forschungsdaten unterscheiden sich von Repositorium zu Repositorium.
Besonders interessant für Forschende der
- Geisteswissenschaften, die mit empirischen Sprachdaten arbeiten möchten
- Sprachtechnologie
DiaCollo. Kollokationsanalyse in diachroner Perspektive
Der Bedeutungswandel von Wörtern lässt sich oftmals an typischen Wortverbindungen erkennen (also an den Wörtern, mit welchen ein Wort typischerweise zusammensteht, den Kollokationen). In DiaCollo werden typische Wortverbindungen auf Grundlage verschiedener Korpora in einem bestimmten Zeitraum und vergleichend über verschiedene Zeiträume hinweg ermittelt.
Besonders interessant für Forschende der
- Geschichtswissenschaften
- Politikwissenschaften
- Philologien
- Linguistik
Automatische Annotation von Transkriptionsdateien
Der EXMARaLDA Partitur-Editor bietet eine Anbindung an die über WebLicht und die CLARIN-D-Infrastruktur zur Verfügung gestellten Webservices. WebLicht as a Service erlaubt, einen vollständigen Workflow zu definieren und per Knopfdruck auszuführen.
Besonders interessant für Forschende
die ihre Daten mit dem EXMARaLDA Partitur-Editor erstellen oder bearbeiten und diese automatisch mit WebLicht weiterverarbeiten, beziehungsweise analysieren wollen, darunter die Bereiche:
- Sprachwissenschaften
- Anthropologie
- Politikwissenschaften (Analyse von Video- oder Audiodaten)
Wo sagt man....?
Viele linguistische Ressourcen enthalten geografische Informationen, zum Beispiel wo eine Aufnahme stattfand und wo ein Sprecher geboren wurde. Das Werkzeug Wo sagt man verwendet die externen Daten aus der Datenbank für Gesprochenes Deutsch (DGD) und visualisiert diese.
Besonders interessant für Forschende der
- Sprachvariäteten (Dialekte)
- Regionalgeschichte
- Philologie
Kontext-Suche für Wörter in verteilten Korpora
Der CLARIN Federated Content Search (CLARIN FCS) ermöglicht eine parallele Suche in Sprachressourcen, die in verschiedenen Repositorien archiviert sind. Der Aggregator wandelt die Ergebnisse um, so dass sie als Eingabedaten in WebLicht weiterverarbeitet werden können, um zum Beispiel Namenserkennung (Named Entity Recognition) durchzuführen.
Besonders interessant für Forschende der
- Sprachwissenschaften
- Computerlinguistik
Vergleichende Textanalyse auf Wortebene
Viele Fragestellungen der Geisteswissenschaften lassen sich auf die Analyse der Wortebene zurückführen. Besonders der Vergleich dieser Wörter ist hierbei von zentralem Interesse. CLARIN ermöglicht mit den bereitgestellten Ressourcen und Web-Werkzeugen auf einfache Weise die Durchführung solcher komparativer Analysen.
Besonders interessant für Forschende,
die Vergleiche von verwendetem Vokabular betrachten, darunter aus den Bereichen:
- Geschichtswissenschaften
- Politikwissenschaften
- Philologien
Computerlinguistisch unterstütze Inhaltsanalyse biographischer Daten
Unsere Webanwendung „Textuelle Emigrationsanalyse“ ist ein Beispiel dafür, wie Fakten über Emigrationen exploriert werden können, die durch computerlinguistische Verarbeitung mittels der CLARIN Infrastruktur aus großen Textkorpora extrahiert wurden. Die Ergebnisse können tabellarisch aggregiert, geographisch auf einer Karte oder personenzentriert betrachtet werden.
Besonders interessant für Forschende der
- Geschichtswissenschaften
- Politikwissenschaften
- Literaturwissenschaften
Automatisches Markup von Personen- und Ortsnamen in textuellen Quellen
Bücher, Artikel, Manuskripte und andere Textgrundlagen enthalten oft Angaben zu Personen, geographischen Orten und Organisationen. Diese können über eine automatische Namenserkennung markiert werden.
Besonders interessant für Forschende der
- Geschichtswissenschaften
- Politikwissenschaften
- Literaturwissenschaften