Vergleichende Textanalyse auf Wortebene

Viele Fragestellungen der Geisteswissenschaften, die sich auf spezifische Textressourcen beziehen, lassen sich die Analyse des Vokabulars zurückführen. Besonders der Vergleich dieses Vokabulars ist hierbei von zentralem Interesse. Dabei kann es sich um den Vergleich zweier eigener Textressourcen, aber auch einer Textressource mit einem Referenzkorpus handeln. CLARIN ermöglicht mit den bereitgestellten Ressourcen und Web-Tools auf einfache Weise die Durchführung solcher komparativer Analysen. Die folgende Anleitung wird dies anhand eines einfachen Arbeitsbeispiels zeigen. Dabei umfasst der Ablauf das Auffinden und die Auswahl von Ressourcen, deren Verarbeitung und schließlich die Analyse. Ziel ist die Beantwortung eigener wissenschaftlicher Fragestellungen mittels vergleichender Textanalyse.

Besonders interessant für

Alle diejenigen, die Vergleiche von verwendetem Vokabular betrachten, darunter:

  • Forschende aus den Geschichtswissenschaften
  • Forschende aus den Politikwissenschaften
  • Forschende aus den Philologien

Ausgangslage:

Mindestens zwei Texte liegen vor.

Ziel:

Das verwendete Vokabular soll verglichen werden, um zu sehen, ob es sich grundlegend unterscheidet.

Lösung:

Mit Hilfe der CLARIN-D-Infrastruktur kann eine komparative Analyse des Vokabulars der zu vergleichenden Texte leicht hergestellt werden.

Verwandte CLARIN-D Angebote

Eine kurze Anleitung zur Komparative Analyse von Vokabular

Suche nach Textressourcen + Verarbeitung:

Textressourcen für die Analyse auswählen

  1. Einstiegspunkt zur Ressourcensuche: VLO, die CLARIN-Spezialsuchmaschine nach Sprachressourcen.

  2. Suche nach: "German Newspaper" im Suchfeld
  3. Verfeinerung der Suche: in "Resource Type" Auswahl von "Written Corpus". 

    VLO Beispielsuche

  4. Beispielauswahl: erster Treffer, deutsches Nachrichtenkorpus des Jahres 2012 mit 3 Millionen Sätzen

     

Thematische Einschränkung der Ressource

  1. Durchsuchen des Inhalts der Textressource: Klick auf "Plain text search via Federated Content Search".

  2. Beispieleingabe: "Europa"
  3. Beispielauswahl: Anzeige von 250 Hits

    FCS-Suchbeispiel

Verarbeitung der Textressource

  1. Verarbeitung der Ausgabe mit WebLicht aus den Ergebnissen der Suche heraus:

    1. Click auf "View"
    2. Click auf "Use WebLicht"
    3. Click auf "Send To WebLicht"

     

  2. Einloggen in WebLiCHT
    • Es erscheint eine Seite, die europäische akademische Forschungseinrichtungen auflistet.
    • Suchen Sie Ihre Forschungseinrichtung, falls Sie kein AAI-fähiges Konto Ihrer Heimatintitution haben, wählen Sie 'clarin.eu website account'.
    • Es erscheint eine Login-Seite Ihrer Forschungseinrichtung.
    • Melden Sie sich an mit Ihren üblichen Angaben, in der Regel ist dies Ihr Universitätskonto.
    • Anschließend sehen Sie die WebLicht-Oberfläche.
  3. Überprüfen der zu verwendenden Daten: Im "Upload" Bereich sehen Sie einen Dateinamen, der mit einem Datum und einer Ziffernfolge versehen ist. Klicken Sie auf "Upload"
  4. Analyse des Vokabulars der Texte durch Doppelklicken der Webservices:
    • Tokenisierung: IMS:Tokenizer (Stuttgart)
    • POS-Tagging: SfS: POS Tagger - OpenNLP (Tübingen)
    • Klicken Sie auf "Run Tools"
    • Sichern der Ergebnisse "Save Result"
      • Gehen Sie zum letzten Webservice in der Liste unten
      • Sie sehen vier Icons unterhalb der Linie auf der rechten Seite
      • Klicken Sie auf den Pfeil nach unten, um das Ergebnis herunterzuladen

    WebLICHT Prozesskette

Komparative Analyse

Die eigentliche Analyse der Daten erfolgt mittels der Webanwendung CorpusDiff. Die Applikation erlaubt den Vergleich des Vokabulars zweier oder mehrerer Textressourcen.

Import der Ressource

  1. Klicken Sie auf: "Upload Own Corpus"

  2. Datei laden, die zuvor von WebLicht erstellt wurde.
    • Klicken Sie auf "Select a file on your computer or drop it here"
    • Wählen Sie die zuvor erstellte Datei zum Upload aus
    • Alternativ: Je nach Browser und Betriebssystem ziehen Sie eine Datei aus Ihrem Dateiverwaltungsprogramm auf diese Fläche
    • Klicken Sie auf "Upload"
  3. Stellen Sie sicher, dass unter "Filetype" TCF (Text Corpus Format) ausgewählt ist, dem Ausgabeformat von WebLicht.
  4. Wenn Sie eine Beispieldatei für die vergleichende Analyse verwenden möchten, können Sie diese herunterladen

    Hochladen einer eigenen Datei

Eigene Analyse durchführen

  1. Unter "Configuration"

    • Wählen Sie die importierte Datei
    • Wählen sie ein Referenzkorpus (z.B. ein Nachrichtenkorpus oder ein Wikipedia-Korpus desselben Jahres)
    • Nach Belieben können andere oder mehrere Korpora ausgewählt werden, die paarweise verglichen werden.
  2. Unter "Job title" vergeben Sie einen Titel für Ihre Analyse
  3. Betätigen Sie die Schaltfläche "Compute".

    Verarbeiten des Vergleichs

Auswertung

  1. Unter "Job Selection" klicken Sie auf die fertige Analyse

  2. Die Matrixdarstellung zeigt die die paarweisen Ähnlichkeiten zwischen Textressourcen mit Werte zwischen 0 (maximal unähnliche Korpora) und 1 (identische Korpora) 

    Ergebnis des Vergleichs

  3. Klicken Sie auf ein Feld der Matrix um weiterführende Ergebnisse zu sehen, die den unterschiedlichen Gebrauch von Vokabular in den Texten beschreiben.

    • Listen von Wörtern, die deutlich häufiger (relativ) in einer der beiden Textressourcen auftreten
    • Anzeige des Vokabulars, das nur in einem der Texte auftritt.
    • Schränken Sie nach Wunsch die Anzeige auf einzelne Wortarten ein, z.B. Nomen (noun) oder Eigennamen (proper noun)
    • Beispielvergleich: Beim Vergleich der europabezogenen Texte mit den Inhalten der Wikipedia fallen Wörter wie Banken, Risiken oder Griechenland auf, die den thematischen Fokus der zuvor erzeugten Textressource verdeutlichen.

    Tabelle mit Ergebnissen

  4. An dieser Stelle sind auch andere Analysen denkbar. Möglich wäre der Vergleich von Texten verschiedener Autoren, verschiedener Quellen (Nachrichten und Wikipedia) oder von Korpora einzelner Jahre, um jeweils typisches Vokabular bzw. Themen zu ermitteln.