Automatisches Markup von Personen- und Ortsnamen in textuellen Quellen

Symbolbild Named Entity in WebLicht

Bücher, Artikel, Manuskripte enthalten oft Angaben zu Personen, geographischen Orten und Organisationen. Will man sich einen schnellen Überblick verschaffen, welche Namen, geographischen Einheiten und Institutionen in diesen Schriften vorhanden sind, ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Besonders interessant für

  • Historiker
  • Politikwissenschaftler
  • Literaturwissenschaftler

Ausgangslage:

deutschsprachige Texte.

Ziel:

Markieren von Personen- und Ortsnamen sowie Institutionen und Darstellen des Textes.

Lösung:

Named-Entity-Recognizer innerhalb der CLARIN-D-Arbeitsumgebung WebLicht verwenden.

Verwandte CLARIN-D-Werkzeuge und -Dienste

Eine kurze Anleitung wie man Personen und Orte in textuellen Quellen mit WebLicht findet

  1. Rufen Sie WebLicht auf
  2. Starten Sie WebLicht durch einen Klick auf "Start WebLicht"
  3. Es erscheint das Fenster 'Sign in via the CLARIN Service Provider Federation', das europäische akademische Forschungseinrichtungen auflistet. In der Regel können Sie sich über Ihre Heimatinstitution anmelden:
    1. Suchen Sie Ihre Forschungseinrichtung
    2. Falls Ihre Forschungseinrichtung nicht gefunden wird oder sie nicht aufgeführt ist, wählen Sie 'clarin.eu website account'.
    3. Es erscheint eine Login-Seite der gewählten Forschungseinrichtung.
    4. Melden Sie sich mit Ihren üblichen Angaben an, in der Regel ist dies Ihr Universitätskonto.
    5. Sie werden zur WebLicht-Arbeitsumgebung weitergeleitet
  4. Klicken Sie auf die Schaltfläche "Start"
  5. In der folgenden Maske gibt es drei verschiedene Möglichkeiten, Texte einzugeben.
    • Fügen Sie per Copy&Paste einen Text in das linke Feld ein, ODER
    • Laden Sie eine Datei  mit Hilfe des rechten Feldes hoch, akzeptiert werden z.B. die Formate Word, OpenDocument, RTF oder PDF:
  6. Klicken Sie auf OK
  1. Wählen Sie die Schaltfläche Advanced Mode
  2. Stellen Sie sich Ihre Prozesskette zusammen, indem Sie im oberen Bereich die Webservices durch Doppelklick auswählen oder den Service nach unten ziehen; wählen Sie zum Beispiel folgende Webservices in dieser Reihenfolge:
    1. SFS: To TCF Convertor
    2. SFS: Tokenizer/Sentences (die Option können Sie auf der Standardeinstellung lassen)
    3. SFS: POS Tagger - OpenNLP
    4. SFS: German Named Entity (die Option können Sie auf der Standardeinstellung lassen)
  3. Klicken Sie auf Run Tools
  4. Beachten Sie den Prozessfortschritt
    • Unterhalb der Webservices sehen Sie eine Fortschrittsanzeige - der Balken färbt sich weiter ein.
    • Wenn ein Webservice abgeschlossen ist, erscheinen im Feld des jeweiligen Webservice weitere Icons: ein Pfeil nach unten (zum herunterladen des Zwischenergebnisses) und eine Strichzeichnung (ein "Baum").
    • Wenn der letzte Webservice abgeschlossen ist, erscheint im Feld SFS: German Named Entity ein Baum
  5. Klicken Sie auf den Baum im Feld SFS: German Named Entity
  6. Es öffnet sich ein neuer TAB im Browser. Wenn nicht schon geschehen, wechseln Sie in diesen TAB
  7. Wählen Sie links unter Highlighted view namedEntities
  8. In der Anzeige sehen Sie dann markiert Personennamen (PER), Orte(LOC), Organisationen(ORG) und Verschiedenes( (MISC) farblich unterschieden.
  9. Mit den Pfeilen unten können Sie durch das Ergebnis navigieren.