Werkzeugkasten für Sprachressourcen: WebLicht und Tündra

Alexandr Chernov, Marie Hinrichs, Wei Qiu, Universität Tübingen

Viele Werkzeuge für die Verarbeitung von Sprachressourcen sind für die digitalen Geisteswissenschaft relevant und interessant. Mit WebLicht gibt es innerhalb von CLARIN eine Umgebung, um automatisiert Texte zu analysieren und zu annotieren. Dazu gehören klassische Werkzeuge der Computerlinguistik wie Part-of-Speech-Tagger, Parser, Named-Entity-Recognizer, etc. Die Ergebnisse werden visualisiert, z.B. als Bäume, die wiederum durchsuchbar und gemäß spezialisierter Fragestellungen weiterverarbeitbar.

In WebLicht gibt es viele Werkzeuge, die zuvor als Desktop-Programme verfügbar waren und deren Installation als forschungsnahe Software sich teilweise aufwendig gestaltete. Diese Werkzeuge liegen nun als Webservice vor. WebLicht bietet daher für Nutzende eine einfache Möglichkeit, Werkzeuge zur automatischen Analyse zu verwenden und die Auswahl der Werkzeuge den eigenen Bedürfnissen anzupassen. Da teilweise große Ergebnismengen produziert werden können – Webservices eignen sich auch für die automatische Verarbeitung großer Datenmengen – steht mit Tündra ein Werkzeug zur Verfügung, um die Strukturen der automatischen Verarbeitung gemäß eigener Fragestellungen weiter zu analysieren und abzufragen.

Für die Abfrage von linguistischen Strukturen eignet sich nicht zuletzt Tündra, ein mächtiges und flexibles Werkzeug, dass nicht nur für Linguisten sondern auch für Forschende aus anderen Bereichen erstellt wurde. Mit Tündra können Statistiken von interessanten sprachlichen Phänomenen untersucht werden, z.B. bestimmte Phrasen oder nach aufgabenorientierten Anforderungen. Tündra ermöglicht es, interaktiv Daten zu visualisieren, die in benötigten Formaten für die Verwendung in anderen Publikationsformen (JPEG, PNG, SVG) gespeichert werden können.

Zusammen mit dem Werkzeug Tündra zum Durchsuchen von Ergebnissen können eigene Daten bedarfsorientiert analysiert und abgefragt werden. Dadurch wird WebLicht mit Tündra zu einer virtuellen Forschungsumgebung, um eigene Sprachressourcen oder nachgenutzte Ressourcen nach Bedarf auswerten zu können.