Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.
Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".
In diesem Screencast zur automatischen Annotation von Namen haben wir die Prozesskette folgendermaßen zusammengestellt:
SfS to TCF Converter - SfS: Tokenizer Sentences - SfS: POS tagger OpenNLP - SfS: German Named Entity
Innerhalb dieser Auswahl haben wir die Standardeinstellungen beibehalten- es ist jedoch auch hier möglich personalisierte Einstellungen vorzunehmen. Sie können die Prozesskette nun starten und haben nach einigen Sekunden die Möglichkeit im letzten WebService (German NamedEntity) den Baum auszuwählen um dann unter Highlighted view - NamedEntities Ihre Personen- Orts- und Organisationangaben farblich hervorgehoben anzusehen oder die Datei zur Weiterverarbeitung herunterzuladen.
Report
My comments