Multi-CAST - Prof. Dr. Geoffrey Haig - Forum CA3

 https://youtu.be/kxezf9VQdWU

Prof. Dr. Geoffrey Haig von der Universität Bamberg stellte auf dem Forum CA3 in Hamburg das in der CLARIN F-AG 3 "Linguistische Feldforschung, Ethnologie, Sprachtypologie" entstandene Multilingual Corpus of Annotated Spoken Text, kurz Multi-CAST vor. Der Forschungskontext innerhalb dessen Multi-CAST entstanden ist, ist Korpusbasierte Sprachtypologie. Was genau das heißt ist im Video und in diesem Blogpost zu sehen. 

Mit Sprachtypologie beziehen sich die Entwickler auf die Untersuchung der Gesamtheit aller möglicher menschlicher Sprachen, und das Identifizieren der Grenzen ihrer Variationen. Da es nicht möglich, ist alle Sprachen zu untersuchen, werden die Untersuchungen an einer möglichst ausgewogenen Stichprobe gemacht. Ausgewogen heißt hierbei, dass idealerweise möglichst weit entfernte Sprachen auszuwählen sind.

Beispielsweise werden grammatische Merkmale wie der Gebrauch des grammatischen Genus untersucht. Hierbei werden dann Sprachen ohne Genus mit solchen mit 2 oder 3 möglichen Genusrealisationen und solchen mit 9 oder 10 verglichen. So gelangt man zu diskreten Kategorien, zwischen denen wiederum Korrelationen festgestellt werden können. Grammatik wird also in der Sprachtypologie als statisches Phänomen mit einem Regelsatz und einem Inventar an Formen und Paradigmen gesehen. 

Korpusbasierte Forschung soll in Abgrenzung zur konventionellen Forschungsmethodik gesehen werden. Konventionell bedeutet hierbei zum Beispiel die Untersuchung von Pro-Drop vs. Nicht-Pro-Drop vs. Diskurs-Pro-Drop Sprachen, wo klare Kategorisierungen vorgenommen werden. In korpusbasierter Forschung hingegen könnte nicht nur nach Ja - Nein untersucht werden, sondern nach dem prozentualen Anteil der tatsächlich vorgekommenen Pro-Drops (oder nicht Pro-Drops) aus echten Sprachgebrauchsausschnitten. Diese Forschungsweise ufert also eher in probabilistischen, quantitativen Daten und fließenden Übergängen, als in klar abzugrenzenden Kategorien. 

Der Fokus der Forschung die zu Multi-CAST führte wird durch Fragen nach Informationsfluss zusammnhängender gesprochener Sprache, Einführung neuer Informationseinheiten, Tracken bereits bestehender Informationseinheiten und Persistenzfragen gebildet. Wichtig war es für die Entwickler von Multi-CAST im Sinne der Open Science zu arbeiten. Im Detail bedeutet das, dass der gesamte Entwicklungsprozess explizit dokumentiert und uneingeschränkt nutz- und einsehbar ist. Als ein Forschungstool für korpusbasierte Typologie beinhaltet das Multi-CAST Korpus 7 Sprachen, welche fortlaufend ausgebaut werden. Wichtig ist hierbei, dass aus oben genannten Gründen möglichst unterschiedliche gesprochene Sprachdaten gesammelt und auf verschiedenen Ebenen, einheitlich und manuell annotiert werden. Ein typisches Datenset besteht dabei aus mindestens 1.000 clause units, also minimalen Satzeinheiten. Insgesamt besteht Multi-CAST aus 17.000 clause units und 40 - 50.000 Wörtern. Für die Annotation der Daten wurde ELAN genutzt, Metadaten wurden mit IMDI annotiert. Annotiert wurde hauptsächlich syntaktisch, ein Referent Indexing und die Annotation von Prädikatstypen, also eine semantische Annotation, ist in Planung. So bietet Multi-CAST ein sehr vielfältiges Werkzeug für verschiedenste Anfragen, deren Analyse über einen Export der Annotationszahlen von ELAN erfolgt.  

Written by : Sarah Schneider

1000 Characters left