CLARIN-D Blog

Empirische Grundlagen Der Linguistik - Dr. Marc Kupietz - Forum CA3

https://youtu.be/5aaqnj_DXI8

Dr. Marc Kupietz vom Mannheimer Institut für Deutsche Sprache (IDS) präsentiert auf dem Forum CA3 2016 in Hamburg DeReKo- das Deutsche Referenz Korpus, sowie die Korpus Analyse Platform KoRaP.

Seit 2004 wird am IDS das DeReKo aufgebaut und erweitert. Es soll als eine Art Ur-Stichprobe gegenwärtigen Sprachgebrauchs gelten und bietet unter anderem die Möglichkeit virtuelle Korpora zu definieren. Wichtig sind beim DeReKo nicht die relativen Größenverhältnisse einzelner Strata, sondern die ausreichende Streuung und Besetzung dieser. Zu den vorhandenen Strata gehören Texte aus der Belletristik, populärwissenschaftliche Texte wie Zeitschriften, konzeptuelle Schriften wie Polmine-Plenarprotokolle, sowie konzeptuelle Mündlichkeit im Bereich internetbasierter Kommunikation.

Weiterlesen

Automatische Annotation von Namen

https://youtu.be/OtDTtpMnzdk

Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".   

Weiterlesen

Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Weiterlesen