Datenbank für Gesprochenes Deutsch (DGD)

Thomas Schmidt, Institut für Deutsche Sprache, Mannheim (i. A.: Julia Kaiser, IDS Mannheim)

Die Datenbank für Gesprochenes Deutsch (DGD, Schmidt 2014 a) ist die zentrale Plattform für den Zugriff auf Daten des Archivs für Gesprochenes Deutsch (AGD). Über die DGD werden über 20 mündliche Korpora des Deutschen im Gesamtumfang von mehr als 3.000 Stunden Audio angeboten. Der Bestand umfasst mehrere große Variationskorpora des Deutschen und verschiedene Gesprächskorpora. Mit dem Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK, Schmidt 2014b) wird im AGD ein großes, breit stratifiziertes Gesprächskorpus des Deutschen aufgebaut, das technisch und  methodisch auf dem Stand aktueller bester Praktiken ist und der wissenschaftlichen Gemeinschaft über die DGD zur Verfügung steht. Die DGD erlaubt zum einen ein exploratives Browsen auf diesen Daten. Korpus-, Sprecher- und Ereignisdokumentationen können eingesehen und die zugehörigen Audiodateien online abgespielt werden. Mit dem Audio alignierte Transkripte werden dem Benutzer in einer HTML 5-basierten Darstellung präsentiert. Diese Form des Zugangs dient dem Einstieg in die qualitative Analyse. Für die gezielte Auswertung der Daten in quantitativer Hinsicht bietet die DGD zum anderen mehrere Recherchefunktionen. Über eine strukturierte Metadatensuche können nach flexibel spezifizierbaren Kriterien Teilmengen des Gesamtbestands ausgewählt und als virtuelle Korpora gespeichert werden. Die strukturierte Tokensuche erlaubt korpuslinguistische Anfragen über mehrere Annotationsebenen, deren Ergebnisse in vielfältiger Hinsicht kontextualisiert werden können. Bei allen Funktionen zum Browsen und Durchsuchen der Daten legt die DGD Wert darauf, korpusgesteuerte Analysemethoden zu ermöglichen, in denen Hypothesen aus den Daten selbst generiert und in einer interaktiven Auseinandersetzung mit selbigen verfeinert werden können. Die DGD ist seit Ende 2012 online und hat mittlerweile knapp 5000 registrierte Nutzer aus Forschung und Lehre. Datenbestände und Funktionalität werden kontinuierlich erweitert. Ein Transfer der in der DGD erprobten Methoden auf andere Forschungsdatenzentren, die mit mündlichen Daten arbeiten, ist grundsätzlich denkbar.

Literatur

Schmidt, Thomas. 2014.
The Database for Spoken German – DGD 2. In: Proceedings of the Ninth conference on International Language Resources and Evaluation (LREC’14), Reykjavik, Iceland: European Language Resources Association (ELRA).
Schmidt, Thomas. 2014.
The Research and Teaching Corpus of Spoken German – FOLK. In: Proceedings of the Ninth conference on International Language Resources and Evaluation (LREC’14), Reykjavik, Iceland: European Language Resources Association (ELRA ).