Korpora

Im Folgenden werden die Korpora der CLARIN-D-Zentren vorgestellt.

Ein Korpus ist eine maschinenlesbare Sammlung von Texten, die zu dem Zweck zusammengestellt wurde, den Gebrauch einer Sprache in einem bestimmten Zeitabschnitt oder in einer bestimmten Varietät zu beschreiben und zu dokumentieren.

Ein multimodales Korpus ist eine maschinenlesbare Sammlung von sprachbezogenen Daten, in welchem Daten aus mehr als einem wahrnehmungsbezogenen oder produktionsbezogenen Sinneskanal vereingt sind - z.B. aufgezeichnete Gesten oder Daten zu Blickbewegungen beim Lesen - und welches mit dem Zweck zusammengestellt wurde, den Gebrauch einer Sprache in einem bestimmten Zeitabschnitt oder in einer bestimmten Varietät zu beschreiben und zu dokumentieren.

Sie können zwischen verscheidenen CLARIN-D Zentren wählen:

Bayrisches Archiv für Sprachsignale, München
Digitales Wörterbuch der deutschen Sprache
Englische Sprach- und Übersetzungswissenschaft, Saarbrücken
Das Hamburger Zentrum für Sprachkorpora
Das Institut der deutschen Sprache Mannheim
Institut für Informatik, Abteilung automatische Sprachverarbeitung, Leipzig
Institut für automatische Sprachverarbeitung, Stuttgart
Seminar für Sprachwissenschaft, Abteilung Computerlinguistik, Tübingen

Bayerisches Archiv für Sprachsignale, München

Liste der in CLARIN-D verfügbaren Sprachkorpora des BAS:

ALC
Das ALC Korpus enthält Aufnahmen von 162 Sprechern in nüchternem und alkoholisiertem Zustand.
AsiCa
Das AsiCa-Korpus ist eine Dokumentation des süditalienischen Dialekts Calabrese. Die Hauptziele bei der Erstellung dieses Corpus waren die Analyse syntaktischer Strukturen sowie deren geolinguistische Abbildung mittels interaktiver webbasierter Kartographie. Das Korpus besteht aus mehreren Audio-Dateien mit Aufnahmen von etwa sechzig Sprechern des Calabrese, eine Hälfte mit Migrationserfahrungen in Deutschland, die andere Hälfte fast ausschließlich in Kalabrien lebend. Die Ergebnisse der syntaktischen Analyse (Karten und Text) können auf der Projekt-Website eingesehen werden.
HEMPEL
Hempels Sofa ist eine Sammlung von mehr als 3900 spontansprachlichen Äußerungen, die als zusätzliches Material im Laufe des deutschen SpeechDat-II-Projekts aufgenommen wurden. Die Sprecher wurden zum Abschluss jeder Aufnahmesession in entspannter Atmosphäre gebeten zu berichten, was sie während der letzten Stunde getan hatten. Dies führte zu recht natürlicher Umgangssprache, manchmal mit starker regionaler Färbung.
PD1
Das Korpus enthält 21587 gelesene Äußerungen von 201 verschiedenen Sprechern. Jeder Sprecher las einen Teilkorpus von 450 unterschiedlichen Sätzen (einschließlich Ziffernfolgen und zwei kürzeren Passagen Prosatext). Die Sprecher wurden an vier verschiedenen Orten in Deutschland aufgenommen (Universität Kiel, Universität Bonn, Universität Bochum und Universität München). Die Sprache ist Deutsch.
PD2
Das Korpus enthält 3200 gelesene Äußerungen von 16 verschiedenen Sprechern, 6 Frauen und 10 Männern. Jeder Sprecher las 200 verschiedenen Sätze von einer Bahnabfrage-Aufgabe. Sie wurden an drei verschiedenen Standorten in Deutschland aufgenommen (Universität Kiel, Universität Bonn und Universität München). Die Sprache ist Deutsch.
SHC
Die SMARTWEB UMTS Datensammlung wurde im Rahmen des öffentlich geförderten deutschen SmartWeb-Projekt in den Jahren 2004 bis 2006 erstellt. Sie umfasst eine Sammlung von Nutzer-Anfragen an eine natürlichsprachliche Webschnittstelle mit dem Schwerpunkt auf der Fußball-Weltmeisterschaft 2006. Die Aufnahmen beinhalten Feldaufnahmen mit einem tragbaren UMTS-Gerät (Corpus SHC), Feldaufnahmen mit Videomitschnitt des ersten Sprechers und eines zweiten Sprechers (Corpus SVC), sowie mobile Aufnahmen auf einem Motorrad (ein Sprecher, SmartWeb Motorboke Corpus SMC).
SIGNUM
Die SIGNUM Datenbank enthält isolierte und kontinuierliche Äußerungen von 25 Gebärdensprachlern, die auf Video aufgezeichnet wurden. Zum schnellen Zugriff auf einzelne Frames ist jeder Videoclip als Bildsequenz gespeichert. Der Wortschatz umfasst 450 Grundzeichen in Deutscher Gebärdensprache (DGS). Basierend auf diesem Wortschatz wurden insgesamt 780 Sätze gebildet. Die SIGNUM-Datenbank wurde im Rahmen eines Forschungsprojektes am Institut für Mensch-Maschine-Interaktion an RWTH Aachen erstellt.
SK Home
Das Korpus SK Home enthält multi-modale Aufnahmen von 65 Benutzern des SmartKom Systems (SK Home). SK Home ist ein Forschungsprototyp für einen intelligenten Assistenten im häuslichen Bereich. Die aufgezeichneten Benutzer wurden gebeten, den Prototyopen für eine 'Marktstudie' zu testen. In Wirklichkeit wurde der Prototyp in einem Wizard-of-Oz Experiment von menschlichen Operatoren kontrolliert. Jeder Benutzer sollte ohne Beisein des Versuchleiters zwei Aufgaben mit dem Prototypen lösen (je 4,5min). Es gab praktisch sonst keine Instruktion; der Benutzer wusste lediglich, dass das System Sprache, Gesten und Mimik erkennen kann, und dass die Kommunikation wie mit einer Person erfolgen sollte.
SK Mobil
Das Korpus SK Mobil enthält multi-modale Aufnahmen von 73 Benutzern des SmartKom Systems. SK Mobil ist ein portabler Forschungsprototyp für einen intelligenten Assistenten für Kommunikations und Navigationsaufgaben. Die aufgezeichneten Benutzer wurden gebeten, den Prototyopen für eine 'Marktstudie' zu testen. In Wirklichkeit wurde der Prototyp in einem Wizard-of-Oz Experiment von menschlichen Operatoren kontrolliert. Jeder Benutzer sollte ohne Beisein des Versuchleiters zwei Aufgaben mit dem Prototypen lösen (je 4,5min). Es gab praktisch sonst keine Instruktion; der Benutzer wusste lediglich, dass das System Sprache, Gesten und Mimik erkennen kann, und dass die Kommunikation wie mit einer Person erfolgen sollte. Aufnahmen wurden nicht im Feld sondern in kontrollierter Umgebung mit eingespieltem Hintergrundgeräusch und Headset durchgeführt.
SK Public
Das Korpus SK Public enthält multi-modale Aufnahmen von 86 Benutzern des SmartKom Systems. SK Public ist ein Forschungsprototyp für einen intelligenten Assistenten im öffentlichen Bereich (Informationskiosk). Die aufgezeichneten Benutzer wurden gebeten, den Prototyopen für eine 'Marktstudie' zu testen. In Wirklichkeit wurde der Prototyp in einem Wizard-of-Oz Experiment von menschlichen Operatoren kontrolliert. Jeder Benutzer sollte ohne Beisein des Versuchleiters zwei Aufgaben mit dem Prototypen lösen (je 4,5min). Es gab praktisch sonst keine Instruktion; der Benutzer wusste lediglich, dass das System Sprache, Gesten und Mimik erkennen kann, und dass die Kommunikation wie mit einer Person erfolgen sollte.
SVC
Die SMARTKOM UMTS Sprachdatensammlung wurde im Rahmen des BMB+F Projektes SmartWeb in den Jahren 2004 - 2006 aufgenommen. Sie enthält natürlich-sprachliche Anfragen an ein Web-Interface mit dem thematischen Fokus auf die Fußballweltmeisterschaft 2006. 99 Aufnahmen wurden im Feld mit einem SmartPhone und zwei Benutzern durchgeführt; erfasst wurden Sprache und Video (Gesicht). Neben der natürlich-sprachlichen Interaktion wurden Daten zur On/Off Talk bzw. On/Off View Detektion aufgenommen und annotiert. SVC enthält außerdem zusätzliche Annotationsdaten zur Gesichtsdetektion und On/Off Erkennung der FAU Erlangen.
TAXI
Der TAXI Dialogkorpus wurde im Juni 2001 in Zusammenarbeit mit dem DFKI Saarbrücken aufgezeichnet. Er enthält 86 aufgezeichnete Dialoge zwischen einer Taxi-Hotline und Kunde, welche über Standard-Telefonverbindungen (Festnetz und GSM) aufgezeichnet wurden. Der Taxi-Unternehmer spricht dabei Deutsch und der Kunde immer Englisch. Die Annotation enthält außer dem orthographischen Transkript auch eine Übersetzung in die jeweils andere Sprache.
VM1
Das Verbmobil 1 Korpus enthält aufgezeichnete Dialoge (Studio) im Bereich Terminvereinbarung von deutschen, amerikanischen und japanischen Sprecherpaaren. Die Aufzeichnungen stammen aus der ersten Phase (1993 - 1996) des vom BMBF geförderten deutschen Verbmobil Projekts. 885 Sprecher wurden in 1422 Dialogen aufgezeichnet; insgesamt ergibt das ein Datenvolumen von 9GB mit 23750 Dialogbeiträgen.
VM2
Das Verbmobil 2 Korpus enthält 810 Aufnahmen von Dialogen (Studio, Telefon) mit insgesamt 401 verschiedenenen Sprechern in Deutsch, Englisch, Japanisch oder gemischten Dialogen (mit und ohne Übersetzer). Datenvolumen ist 17.6GB mit 56961 Dialogbeiträgen. Die Domäne ist Terminvereinbarung, Reiseplanung und IT-Helpdesk. Die emotional annotierten Aufnahmen von VM2 wurden in einem gesonderten Korpus 'BAS VMEmo' veröffentlicht.
VMEmo
Das Korpus VMEmo (Teil von Verbmobil 2) enthält Sprachaufnahmen mit einem simulierten Übersetzungssystem in der Verbmobil Domäne. Der simulierte Übersetzer erzeugte absichtliche Fehler, welche emotionale Reaktionen bei den Versuchspersonen hervorrufen sollten. Außer der orthographischen Verschriftung existiert für die Daten eine Annotation in Basis-Emotionen.
ZIPTEL
Die ZipTel Telefonsprachdatenbank enthält Aufnahmen von Personen, die telefonisch ein SpeechDat Prompt-Blatt anfordern. Die Anrufe wurden von einem Telefon-Server aufgezeichnet; Anrufer wurden gebeten, Namen, Adresse und Telefonnummer anzugeben. Die ZipTel Telefonsprachdatenbank besteht aus 1957 Aufnahmesessions mit insgesamt 7746 Signaldateien. Aus Gründen des Datenschutzes ist nur eine Teilmenge der aufgezeichneten Signale in den Datenbanken enthalten: Straßennamen (z2), Postleitzahlen (z3), Städtenamen (z4) und Telefonnummern (z5).

Zurück zur Auswahl

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), Berlin

Digitales Wörterbuch der Deutschen Sprache (DWDS)

DWDS: logo Die DWDS-Korpora bestehen aus einem nach Textsorten und Dekaden ausgewogenen Kernkorpus des 20. Jahrhunderts (DWDS-Kernkorpus, 100 Millionen Token) sowie einem opportunistischen Ergänzungskorpus (u.a. die Zeitungskorpora). Beide Korpora zusammen umfassen ca. 2,5 Milliarden Token. Allerdings sind verschiedene Nutzungseinschränkungen zu beachten, so dass wir für alle Teilkorpora unterschiedliche Zugriffsrechte festlegen müssen. Diese können im Einzelfall bei uns erfragt werden: dwds@bbaw.de.

Referenzkorpora

Das Kernkorpus des 20. Jahrhunderts ist ein zeitlich und nach Textsorten (Belletristik, Gebrauchsliteratur, Wissenschaft, Journalistische Prosa) ausgewogenes Korpus des gesamten 20. Jahrhunderts.

Umfang: ca. 100 Millionen Textwörter (nimmt man auch Interpunktionen und alphanumerische Zeichenketten hinzu, kommt man auf über 120 Millionen Tokens) in 79.830 Dokumenten.
Die Annotation der Daten und Metadaten erfolgt in XML nach den TEI-Richtlinien.
Die meisten Texte des DWDS-Kernkorpus sind urheberrechtlich geschützt. Die Suche in diesen Texten erfordert eine Anmeldung auf der Seite, ist aber kostenlos.

Das Kernkorpus des 21. Jahrhunderts wird nach den gleichen Prinzipien zusammengestellt. Es befindet sich momentan im Aufbau. In den belletristischen Texten und den Zeitungstexten kann bereits recherchiert werden.

Das "Juilland-D"-Korpus ist ein zeitlich und nach Textsorten ausgewogenes Korpus aus der Zeit von 1920-1939 nach den Vorgaben von Juilland. Umfang: 500.000 Textwörter (tokens) in 392 Dokumenten.

Das DDR-Korpus umfasst 9 Millionen Textwörter in 1150 Texten aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden.

Das C4-Korpus ist ein gemeinsames Projekt der BBAW, der Österreichischen Akademie der Wissenschaften, der Universität Basel und der Freien Universität Bozen - Bolzano. Das Korpus besteht zurzeit aus 20 Millionen Tokens für das Standardhochdeutsche, 4.1 Millionen Tokens österreichisches Deutsch, 20 Millionen Tokens Schweizerdeutsch und 1,7 Millionen Tokens der Südtiroler Varietät des Deutschen. Es kann über die DDC-Suchmaschine auf der DWDS-Webseite oder über das von der Unversität Basel errichtete Portal abgefragt werden.

Zeitungskorpora

Das Korpus Berliner Zeitung umfasst alle online erschienenen Artikel der Berliner Zeitung aus der Zeit vom Januar 1994 bis Dezember 2005. Umfang: 252 Millionen Textwörter (Tokens) in 869.000 Artikeln.

Das Korpus Der Tagesspiegel enthält alle online erschienenen Artikel zwischen 1996 und Juni 2005. Umfang: 170 Millionen Textwörter (Tokens) in 350.000 Artikeln.

Potsdamer Neueste Nachrichten: Dieses Korpus enthält alle online erschienenen Artikel zwischen 2003 und Juni 2005. Umfang: ca. 15 Millionen Textwörter (Tokens) in ca. 42.000 Artikeln.

Das ZEIT-Korpus umfasst alle Ausgaben von 1946 bis 2009. Der Umfang des Korpus beträgt ca. 460 Millionen Textwörter (Tokens).

Das BILD-Korpus umfasst alle erschienenen Artikel der Bildzeitung aus der Zeit vom 02.05.1997 - 29.04.2006. Umfang: 121 Millionen Textwörter (Tokens) in 550.000 Artikeln.

Das Korpus der WELT umfasst alle erschienenen Artikel der WELT aus der Zeit vom 01.03.1999 - 29.04.2006. Umfang: 240 Millionen Textwörter (Tokens) in 600.000 Artikeln.

Beide Korpora stehen aufgrund von Nutzungsvereinbarungen mit dem Axel-Springer Verlag nur für interne Recherchezwecke bzw. für die Auswertungen im DWDS-Wortprofil und den Guten-Beispielen ausschnittsweise zur Verfügung.

Dieses Korpus umfasst alle erschienenen Artikel der Süddeutschen Zeitung aus der Zeit vom 01.01.1994 - 31.12.2004. Umfang: 453 Millionen Textwörter (Tokens) in 1.100.000 Artikeln. Das Korpus steht aufgrund von Nutzungsvereinbarungen mit dem Verlag nur für interne, lexikographische Recherchezwecke bzw. für die Auswertungen im DWDS-Wortprofil und den Guten-Beispielen zur Verfügung.

Spezialkorpora

Das Korpus jüdischer Periodika entstand durch eine Kooperation mit dem Projekt Compactmemory. Es umfasst gut 26 Millionen Textwörter (Tokens) auf ca. 50.000 Seiten. Die Textgrundlage bilden 8 komplette Zeitschriften aus der Zeit von 1887 bis 1938.

Das "Berliner Wendekorpus" umfasst 77 Interviews mit Ost- und Westberlinern zu deren persönlichen Wendeereignissen. Das Projekt wurde, unterstützt von der DFG, an der Freien Universität Berlin unter der Leitung von Norbert Dittmar durchgeführt. Das Korpus umfasst ca. 250.000 Tokens.

Das Korpus Gesprochene Sprache umfasst Transkripte von Reden, Parlamentsprotokollen und Interviews aus dem gesamten 20. Jahrhundert im Umfang von ca. 2,5 Millionen Tokens.

Deutsches Textarchiv (DTA)

Die Korpora des Deutschen Textarchivs (DTA) beinhalten gedruckte Werke der deutschen Sprache aus der Zeit des 17. bis 19. Jahrhunderts. Das DTA-Kernkorpus ist dabei ausgewogen hinsichtlich Textsorten, Disziplinen und Entstehungszeiträumen, um so die Grundlage für ein Referenzkorpus der neuhochdeutschen Sprache zu bilden. Die XML-Annotation der Volltexte folgt konsequent dem DTA-Basisformat (DTABf), einem TEI P5-subset für die Reprästentation gedruckter (historischer) Korpusdaten. Das DTABf wird im CLARIN-D Nutzerhandbuch als Best-Practice-Format für die Erfassung und Auszeichnung (historischer) geschriebener Korpora empfohlen. Die elektronischen Volltexte des DTA werden mit automatisch erstellten linguistischen Informationen angereichert, was beispielsweise die Tokenisierung, Lemmatisierung und Wortarten-Analyse umfasst; zudem werden die historischen Schreibweisen auf ihre moderne Entsprechung abgebildet, was eine schreibweisentolerante Suche über das gesamte Korpus ermöglicht. Das DTA wird laufend erweitert und umfasst derzeit (März 2014) die digitalisierten und strukturell sowie linguistisch aufbereiteten Volltexte von 1304 Bänden mit 419 284 Druckseiten (ca. 100 Millionen Tokens).

Das DTA-Kernkorpus wird mit Hilfe des Moduls DTA-Erweiterungen (DTAE) und im Rahmen eines CLARIN-D-Kurationsprojekts kontinuierlich um Spezialkorpora und einzelne Texte ergänzt, die in externen Projektkontexten entstanden sind. Diese externen Ressourcen werden entsprechend den Richtlinien des DTA (DTABf) aufbereitet, integriert und ebenfalls linguistisch erschlossen. Die Erweiterungskorpora des DTA umfassen derzeit (März 2014) 587 Texte (85 535 Seiten).

Sämtliche Werke des DTA sind in Text und Bild über die Qualitätssicherungsplattform DTAQ und, im Anschluss an die Qualitätssicherung, über die DTA-Webseite zugänglich. In DTAQ ist es jedem Nutzer/jeder Nutzerin möglich, verschiedene Instanzen der Korpustexte (XML, HTML, linguistisch analysierte Fassung) zu kontrollieren und mit Anmerkungen oder Korrekturvorschlägen zu versehen.

Das DTA-Korpus steht in verschiedenen Formaten unter einer Creative-Commons-Lizenz zum Download für die Nutzung sowie zum Harvesting über eine OAI/PMH-Schnittstelle zur Verfügung.
Das DTA bietet außerdem seine Unterstützung bei der Erstellung, Pflege und Qualitätssicherung von sprachhistorischen Korpora des Deutschen für diesen Zeitraum an.

dlexDB (dlexDB)

dlexDB: logo Forschungen im Bereich der Psycholinguistik, der experimentellen Linguistik und der kognitiven Linguistik bewegen sich bereits seit einiger Zeit weg von der Untersuchung einfacher Worthäufigkeiten und hin zu kompelexeren Variablen und linguistischen Merkmalen. Solche Normdaten sind ohne angemessene Textkorpora und linguistische Analysewerkzeuge schwer zu akquirieren. dlexDB stellt deshalb reichhaltigere Informationen zu Wörtern, deren Grundformen (Lemmata) und linguistischen Kategorien, sowie zu N-Gramme von Wörtern und zu sublexikalischen Einheiten (etwa zu Silben und zu n-Grammen von Buchstaben) bereit. Die Daten sind über einen Webservice verfügbar und mit Hilfe eines gängigen Browsers abrufbar. Siehe auch die Projektbeschreibung auf der dlexDB-Homepage.

Zurück zur Auswahl

Englische Sprach- und Übersetzungswissenschaft, Saarbrücken

Liste der in CLARIN-D verfügbaren Korpora, Baumbanken und Datenbanken (geplant; Stand: Mai 2012):

Das Version 2 besteht aus 355.096 Token (20.602 Sätzen) deutschen Zeitungstextes aus der Frankfurter Rundschau. Die Texte sind der CD "Multilingual Corpus 1" der European Corpus Initiative entnommen. Es basiert auf ca. 60.000 Token, die am Institut für Maschinelle Sprachverarbeitung, Stuttgart, mit Part-of-Speech-Tags annotiert wurden. Dieses Korpus wurde erweitert, ebenfalls mit Part-of-Speech-Information versehen und vollständig mit syntaktischen Strukturen annotiert. Der Aufbau des Korpus wurde in den Projekten NEGRA (DFG Sonderforschungsbereich 378, Projekt C3) und LINC (Universität des Saarlandes) in Saarbrücken durchgeführt.

Salsa screenshot

Das SALSA-Korpus basiert auf dem Tiger-Korpus. Letzteres besteht aus ca. 900.000 Token (50.000 Sätzen) deutschen Zeitungstextes aus der Frankfurter Rundschau. Das Korpus wurde semi-automatisch syntaktisch annotiert und enthält außerdem POS, Lemma und morphologische Information. (s.a. TIGER-Korpus-Webseite) SALSA fügt der TIGER-Annotation eine weitere Annotationsebene mit semantischen Rollen (FrameNet) hinzu.

Das CroCo-Korpus ist ein bidirektionales Korpus bestehend aus deutschen (GO) und englischen (EO) Texten aus 8 Registern (populärwissenschaftliche Texte, Tourismus-Flyer, Reden, politische Essays über Wirtschaft, fiktionale Texte, Firmenkommunikation, Handbücher, Webseiten) mit den jeweiligen Englischen (ETrans) und Deutschen (GTrans) Übersetzungen. Das Korpus ist mit Lemma, POS, morphologischer Information, phrasalen Chunks und grammatischen Funktionen annotiert. Die parallelen Subkorpora (EO-GTrans und GO-ETrans) sind auf verschiedenen Ebenen alligniert: Wort, Chunk, Clause, Satz.

Das Darmstadt Corpus of Scientific Texts (DaSciTex) besteht aus Vollversionen englischer wissenschaftlicher Zeitschriftenartikel aus 23 Quellen und umfasst 9 verschiedene wissenschaftliche Domänen. Der Aufbau des Korpus ist dreigliedrig: (1) eine zentrale Disziplin (Informatik); (2) vier 'reine' Kontaktdisziplinen (Linguistik, Biologie, Maschinenbau, Elektrotechnik); (3) vier dazugehörige Mischdisziplinen (Computerlinguistik, Bioinformatik, Datenverarbeitung in der Konstruktion, Mikroelektronik). Es gibt zwei Versionen des Korpus: ein kleines manuell korrigiertes Korpus (ca. eine Million Wörter) und ein großes Korpus (17 Millionen Wörter)

Die Saarbrücker Stimmdatenbank ist eine Sammlung von Sprachaufnahmen von über 2000 Personen. Die Aufnahmen wurden anhand der akustischen und elektroglottographischen Signale klassifiziert in gesunde und pathologische Sprachprofile. Das Sprachsignal und das EGG Signal sind in separaten Dateien gespeichert. Eventuelle Kommentare sind in einer Textdatei gespeichert. Die Datenbank kann über ein Webinterface abgefragt werden, ausgewählte Audiodateien können exportiert werden.

Das Korpus GENIE: GEsprochenes NIEdersorbisch/Wendisch macht das Niedersorbische/Wendische in seinen gesprochenen Varietäten durch eine Datenbank mit Webanwendung im Netz zugänglich. Es präsentiert in akustischer Form eine der beiden einzigen autochthonen slavischen Minderheitssprachen in Deutschland, die in der Lausitz von weniger als 10.000 Personen auf muttersprachlichem Niveau gesprochen wird. Es enthält über 62 Stunden ausgewählte niedersorbische Sprachaufnahmen aus verschiedenen Quellen und Epochen in knapp 350 Audiodateien verfügbar in mp3 und vaw Formaten. Es liefert zu allen Aufnahmen ausführliche Informationen, über die gezielt nach Aufnahmen mit bestimmten Eigenschaften gesucht werden kann.

Die GRUG Parallel Baumbank besteht aus vier einsprachige Baumbanken (Deutsch, Georgisch, Russisch und Ukrainisch), und vier parallele Baumbanken (Deutsch-Georgisch, Deutsch-Russisch, Deutsch-Ukrainisch, Georgisch-Ukrainisch). Das Korpus wurde mit POS, morphologischen und syntaktischen Informationen annotiert. Die Annotation folgt die TIGER Richtlinien, und das Ergebnis wird im TIGER-XML Format geliefert. Die einsprachige Baumbanken können entweder mit TIGERSearch oder SALTO untersucht werden. Bezüglich der parallelen Datenbanken ist das Stockholm TreeAligner das geeignete Werkzeug.

Das "Saarbrücker Cookbook Corpus" ist ein diachrones Korpus aus Kochrezepten, das ein historisches und ein modernes Subkorpus beinhaltet. Das historische Subkorpus umfaßt einen Zeitraum von 200 Jahren (1569-1729) und enthält 430 Rezepte aus 14 historischen deutschen Kochbüchern (ca. 45.000 Tokens). Die Rezepte des modernen Subkorpus stammen aus Internetquellen und umfassen einen Zeitraum von fünf Jahren (2007-2012), Auswahlkriterien für die Rezepte waren Vergleichbarkeit mit dem historischen Subkorpus sowie die geographische Information (Rezepte aus Deutschland). Das moderne Subkorpus enthält 1500 Rezepte und ca. 500.000 Tokens.

Zurück zur Auswahl

Hamburger Zentrum für Sprachkorpora

Das Hamburger Zentrum für Sprachkorpora hostet multilinguale Spracherwerbs-, Spracherosions- und Soziolinguistische Korpora verschiedener Designs und Sprachkombinationen, insbesondere aus den Beständen des SFB 538 „Mehrsprachigkeit”. Der Gesamtumfang der gesprochensprachlichen Daten beläuft sich auf etwa 2000 Stunden Audio- oder Videoaufnahmen bzw. 6 Millionen transkribierte Wörter. Aus diesem Gesamtbestand werden sukzessive unseren Qualitätsanforderungen genügende Korpora in die CLARIN-D-Infrastruktur integriert. Bisher wurden die folgenden sechs Korpora entsprechend aufbereitet (weitere werden folgen):

Das Hamburg Map Task Corpus (HAMATAC) erweitert die Daten des “Deutsch heute”-Korpus (IDS) um L2-Deutsch-Daten von 24 erwachsenen Deutschlernern mit variierenden L1 und L2-Kompetenz. Orthographische Transkiption (vereinfachtes HIAT, automatische und teilweise manuell korrigierte POS- und Lemmaannotationen (TreeTagger, STTS), sowie manuelle Disfluency-Annotationen). Die verwendeten Map Tasks sind verfügbar. Umfang: 24 Kommunikationen, 3:17 Stunden, 21.400 Wörter.

Das Korpus Dolmetschen im Krankenhaus (DiK) basiert auf Arzt-Patienten-Kommunikation zwischen deutschen Ärzten oder Pflegepersonal und Türkisch oder Portugiesisch sprechenden Patienten, die jeweils von Laien (Pflegepersonal, Angehörigen) gedolmetscht wurden. Als Vergleichsdaten enthält das Korpus außerdem monolinguale Arzt-Patienten-Kommunikation aus Deutschland, Portugal und der Türkei. HIAT-Transkription und deutsche Übersetzung. Umfang: 91 Kommunikationen, 23:01 Stunden, 165.700 Wörter.

Das Korpus Hamburg Adult Bilingual Language (HABLA) enthält semispontane Interviews mit bilingualen, erwachsenen Sprechern, die ihre Sprachen (Deutsch und jeweils Französisch oder Italienisch) entweder simultan (2L1) oder sukzessiv (L2) erworben haben. Die L2-Sprecher haben Deutsch entweder als L1 oder L2 und wurden in Ihrer L2 aufgenommen, die 2L1-Sprecher wurden in ihren beiden Sprachen aufgenommen. Transkription nach CHAT, detaillierte Sprechermetadaten zum Spracherwerb und -gebrauch. Umfang: 169 Kommunikationen, 79:08 Stunden, 737.800 Wörter.

Hamburg Corpus of Argentinean Spanish (HaCASpa) erfasst durch gelesene, elizitierte, semispontane und spontane Sprachdaten zwei Varietäten des argentinischen Spanisch mit Fokus auf der Intonation. Dabei nehmen 50 Sprecher an fünf verschiedenen Aufgaben Teil, zusätzlich wurden Map Tasks und Interviews mit weiteren Sprechern aufgenommen, einige davon mit Video. Die Sprecher sind nach zwei Generationen und zwei Gebieten (Buenos Aires (Porteño-Spanisch) oder Nequén/Comahue) aufgeteilt. Orthographische Transkription mit Referenzen zum verwendeten und im Korpus verfügbaren Elizitazionsmaterial. Umfang: 259 Kommunikationen, 18:24 Stunden, 141.300 Wörter.

Das Hamburg Corpus of Polish in Germany (HamCoPoliG) zeigt anhand (semi-)spontaner Daten das Polnisch von Polnisch-Deutsch bilingualen Sprechern - jeweils entweder nach Deutschland emigrierte L2-Sprecher des Deutschen oder sogenannte “heritage speaker”, die in Deutschland aufgewachsen sind und Polnisch nur aus der Familie kennen. Das Korpus enthält auch Aufnahmen mit einer Vergleichssgruppe polnischer Sprecher ohne Kontakt zum Deutschen. Orthographische Transkription, außerdem sehr umfangreicher Fragebogen zu Sprachgebrauch und -kenntnissen sowie Grammaticality Judgement Tests vorhanden. Umfang: 359 Kommunikationen, 37:50 Stunden, 294.700 Wörter.

Das EXMARaLDA Demokorpus schließlich dient der Demonstration des EXMARaLDA-Systems und enthält kurze Audio- und Videoaufnahmen in elf verschiedenen Sprachen. Orthographische Transkription (vereinfachtes HIAT), deutsche Übersetzung, beispielhafte Metadaten. Umfang: 20 Kommunikationen, 15.400 Wörter.

Die Korpora stehen innerhalb der CLARIN Infrastruktur zur Verfügung, für einige müssen schriftliche Einverständniserklärungen der Korpusersteller eingeholt werden, um sie nutzen zu können.

Zurück zur Auswahl

Institut für Deutsche Sprache, Mannheim

Das Deutsche Referenzkorpus (DeReKo) ist eine der größten elektronischen Sammlungen aus Zeitungen, Sach-, Fach- sowie schöngeistiger Literatur aus Deutschland, Österreich und der Schweiz von 1772 bis heute zur deutschen Gegenwartssprache. Das stetig wachsende Korpus umfasst derzeit über 5 Milliarden laufender Wortformen. Dabei nimmt der Aufwuchs rund um eine Million neue Wörter täglich zu, so dass pro Jahr mit durchschnittlich 300 Millionen Neueinträgen zu rechnen ist. Abgesehen von Primärdaten umfassen Textsammlungen eine große Zahl von Annotationen und Metadateninformationen. Dazu biete das am IDS entwickelte COSMAS II (Corpus Search and Analysis System) die Möglichkeit die Daten in DeReKo zu recherchieren und auszuwerten.

Zurück zur Auswahl

Institut für Informatik, Abteilung Automatische Sprachverarbeitung, Leipzig

Logo Wortschatz, Uni Leipzig Das Projekt Deutscher Wortschatz hat es sich zur Aufgabe gemacht, den Gebrauch der deutschen Sprache zu dokumentieren. Die Inhalte des Wortschatzportals haben den Charakter einer Sammlung. Seit 1999 werden dazu automatisiert die Texte großer Nachrichtenportale, der Wikipedia und einiger weiterer Quellen gesammelt und in einzelne Sätze zerlegt. Anschließend werden verschiedene, meist sprachunabhängige, statistikbasierte Verfahren genutzt, um Angaben wie Wortfrequenz und Frequenzklasse, Satz- und Nachbarschaftskookkurrenzen abzuleiten. In Ergänzung zu dem sich auf die deutsche Sprache konzentrierenden Wortschatzportal erlaubt das englischsprachige, internationale Portal den Zugriff auf monolinguale Wörterbücher im Stil der Daten des Wortschatz-Projektes in über 90 verschiedenen Sprachen.

Tagesaktuelle Begriffe - die Wörter des Tages - werden aus verschiedenen, ausgewählten Tageszeitungen und Newsdiensten extrahiert. Die „Aktualität“ eines Begriffs ergibt sich dabei aus der Häufigkeit zum Beobachtungszeitpunkt, verglichen mit der durchschnittlichen Häufigkeit über längere Zeit hinweg. Der Datenbestand reicht für Deutsch bis in den April 2002 und für Norwegisch bis in den März 2006 zurück.

Zurück zur Auswahl

Institut für Maschinelle Sprachverarbeitung, Stuttgart

Sie sind an empirischen linguistischen Fragestellungen oder aber am Training bzw. der Evaluation computerlinguistischer Werkzeuge interessiert? Dann dürften Baumbanken für sie von besonderem Interesse sein. Sie enthalten neben den eigentlichen sprachlichen Daten eine Auszeichnung der syntaktischen Struktur, oft werden auch weitere linguistische Informationsebenen (Morphologie, Semantik) annotiert.

Die TIGER-Baumbank (Version 2.1) ist eine der großen Baumbanken des Deutschen und beruht auf etwa 900,000 Token (ca. 50,000 Sätzen), die der Zeitung "Frankfurter Rundschau" entnommen und semi-automatisch aufbereitet wurden. Hierzu gehörte POS-Tagging und Annotation der syntaktischen Struktur. Darüberhinaus wurde an den terminalen Elementen morphologische und Lemmainformation verzeichnet.

Die Baumbank wird in zwei Formaten vorgehalten: textuell als NEGRA-Export-Format und XML-basiert als TIGER-XML. Beide Versionen können u.a. mittels des Tools TIGERSearch (Lezius 2002) abgefragt werden, das ebenfalls innerhalb des TIGER-Projekts (Saarbrücken, Stuttgart, Potsdam) entstand.

Des Weiteren sind einige aus der TIGER-Baumbank abgeleitete Ressourcen verfügbar: TiGer-DependenzBank (Goldstandard für Sätze 8001 bis 10000), TIGER-basierte Dependenz-Tripletts einschließlich der im CoNLL-X Shared Task für Dependenzparsing verwendeten Datenmenge, sowie die TIGER 700 RMRS-Bank.

Das DIRNDL-Korpus ist eine (D)iskurs(I)nformations-(R)adio(N)achrichten-(D)atenbank für (L)inguistische Analysen. Sie basiert auf stündlich gesendeten Radionachrichten. Die textuelle Version der Nachrichten wurde mit syntaktischen Strukturen und darauf aufbauendem Informationsstatus annotiert. Auf Basis der gesprochenen Version wurden Akzente und prosodische Phrasengrenzen annotiert. Da textuelle und gesprochene Version leicht voneinander abweichen (Versprecher, kleinere Modifikationen) wurde in der Datenbank eine Verbindung der beiden Versionen (semi-automatisch) hinzugefügt. Durch diese Verbindung können nun Zusammenhänge zwischen den einzelnen annotierten Ebenen (Prosodie und Syntax, Informationsstatus und Prosodie, etc.) untersucht werden.

Das "Huge German Corpus" (HGC) ist eine Sammlung deutschsprachiger Texte (Zeitungsartikel und Rechtstexte), das für die Nutzung mit der IMS Corpus Workbench (CWB) aufbereitet ist. Es umfasst ca. 204 Millionen Token inklusive Satzzeichen (davon ca. 180 Millionen "richtige" Textwörter) in 12,2 Millionen Sätzen. Das Korpus wurde automatische mithilfe des TreeTaggers (Schmid 1994) in Sätze segmentiert und mit Lemma und Wortarteninformationen angereichert (STTS-Tagset, Schiller et al. 1999). Die Rohdaten basieren teilweise auf der Kollektion des "European Corpus Initiative Multilingual Corpus I" (ECI/MCI).

SdeWaC basiert auf dem deWaC-Webkorpus der WaCky-Initative. Für SdeWaC wurden Sätze aus deWaC ausgewählt, die von Webseiten der .de-Domain stammen und von einem Parser verarbeitet werden können. SdeWaC beschränkt sich auf den Satzkontext. Bei der Aufbereitung wurden die Sätze sortiert und Satz-Duplikate innerhalb desselben Domain-Namens entfernt. Des Weiteren wurden Heuristiken nach Quasthoff et al. 2006: "Corpus Portal for Search in Monolingual Corpora" in die Aufbereitung mit einbezogen. Zur Feststellung der Verarbeitbarkeit wurde der Dependenzparser FSPar verwendet. SdeWaC-v3 wird über die WaCky-Initiative zur Verfügung gestellt und liegt in zwei Formaten vor:

ein Satz pro Zeile
ein Token pro Zeile mit Part-of-Speech- und Lemma-Annotationen (prozessiert mit Tokenizer und TreeTagger von H.Schmid)

In beiden Formaten sind als zusätzliche Metadaten der Domain-Name und
die "error-rate" des Parsers encodiert.

Zurück zur Auswahl

Seminar für Sprachwissenschaft, Abteilung Computerlinguistik, Tübingen

TüBa-D/Z

Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist eine Sammlung manuell annotierter Texte der deutschen Zeitung „die tageszeitung“ (taz). Die Baumbank wird im Seminar für Sprachwissenschaft laufend fortentwickelt und ist seit 2003 mit jedem neuen Release umfangreicher geworden. Gegenwärtig umfasst sie 75.408 Sätze beziehungsweise 1.365.642 Tokens.

Die Annotationsebenen enthalten Informationen über

Morphologie
Lemmas
syntaktische Dependenz und Konstituenz
grammatische Funktionen
Named Entities
Anaphern und Koreferenz-Relationen

Das syntaktische Annotationsschema der TüBa-D-Z basiert auf Annahmen, die den meisten Syntaxtheorien zugrunde liegen, und stellt verschiedene Herangehensweisen an die deutsche Grammatik dar, einschließlich der Dependenz und Konstituenz. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Relationen: die lexikalische Ebene, die phrasale Ebene, die Ebene der topologischen Felder und die Satzebene.

TüPP-D/Z

Das Tübinger partiell geparstes Korpus des Deutschen / Zeitungskorpus (TüPP-D/Z) ist eine Sammlung von Artikeln aus der Zeitung "die tageszeitung" (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert worden sind. Die automatische Annotation erstreckt sich auch auf Wortformen und auf morphologische Klassen sowie auf die Markierung möglicher Ambiguitätsklassen.

Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz aus dem Jahr 1999. Es enthält mehr als 200 Millionen Wörter.

Tübinger Verbmobil Baumbanken Spontansprachen

Das Seminar für Sprachwissenschaft in Tübingen gibt drei Baumbanken transkribierter Spontansprachen heraus, die im Projekt Verbmobil (1993-2000) erstellt wurden.

Die Tübinger Baumbank des Deutschen / Spontansprache (TüBa-D/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transkribiert wurden. Sie umfasst ca. 38.000 Sätze bzw. 360.000 Wörter.

Die Tübinger Baumbank des Englischen / Spontansprache (TüBa-E/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transkribiert wurden. Sie umfasst ca. 30.000 Sätze bzw. 310.000 Wörter.

Die Tübinger Baumbank des Japanischen / Spontansprache (TüBa-J/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transkribiert wurden. Sie umfasst ca. 18.000 Sätze bzw. 160.000 Wörter.