Das Old Bailey Corpus 2.0 - ein Resource nicht nur für Sprachwissenschaftler

Magnus Nissel, Universität Gießen

Das Old Bailey Corpus (OBC) basiert auf Gerichtsverfahren aus den Jahren 1720 bis 1913. Die Protokolle des Zentralen Strafgerichtshofes in London wurden in einem anderen Projekt von Sozialhistorikern digitalisiert und strukturell annotiert (http://www.oldbaileyonline.org). Im Rahmen des Old Bailey Corpus Projektes wurden dann Passagen mit wörtlicher Rede innerhalb der Texte identifiziert, die Sprechpassagen den Sprechern zugeordnet, und Informationen über die einzelnen Sprecher (u.a. Gender, soziale Klasse, Rolle im Gerichtsverfahren) gesammelt. Die erste Version des OBC wurde 2013 veröffentlicht und enthielt nur die annotierten Sprechpassagen (ca. 14 Millionen Wörter in der nach Grundversion; 18,5 Millionen Wörtern in einer erweiterten Fassung). Die im Mai 2016 veröffentliche Version 2.0 des OBC behält den Kontext der Dokumente bei und enthält zudem nun fast 24,5 Millionen Wörter an direkter Rede.

Durch die hohe Zahl an Sprechern und die reichhaltigen Sprecherinformationen ist der OBC eine wichtige Resource für die diachrone Sprachforschung, insbesondere für multifaktorielle Analysen mit soziolinguistischen und pragmatischen Schwerpunkten. Dadurch, dass in dieser Version der Kontext der Gerichtsverfahren erhalten bleibt, erhöht sich zudem der Wert für andere Bereiche der (digitalen) Geisteswissenschaften, da nun z.B. strafrechtliche Informationen (Urteil, Art der Straftat etc.) leicht ersichtlich sind und zusammen mit den sprachlichen Daten ausgewertet werden können.

Das OBC 2.0 wird im Fedora Commons Repositorium des CLARIN-D-Zentrums an der Universität des Saarlandes gehosted und kann online durchsucht werden. Für die XML Version des Korpus existiert zudem eine angepasste  Konkordanzsoftware (OBC2Conc). Das Korpus ist unter einer Creative Commons (BY-NC-SA 4.0) Lizenz verfügbar, die es anderen Projekten ermöglicht den Korpus zu modifizieren und unter der selben Lizenz weiterzuveröffentlichen.

Auf dem Poster werde ich genauer auf die einzelnen Sprechergruppen und Dekaden eingehen sowie Beispiele zeigen, wie der Korpus für sprach- und kulturwissenschaftliche Zwecke genutzt werden kann.