Sprach-Analysen der Wikipedia-Korpora im DeReKo mithilfe von COSMAS II

https://youtu.be/bKw1yaf_imk

In diesem Screencast zeigt Dr. Eva Gredel von der Universität Mannheim, wie die Wikipedia-Korpora im Deutschen Referenzkorpus (DeReKo) mithilfe von COSMAS II für Sprachanalysen genutzt werden können. 

Ganz konkret geht es um eine von ihr durchgeführte Fallstudie zu itis-Kombinationen als Wortbildungsprodukte auf den Diskussionsseiten der Wikipedia.

Das Phänomen
Das Morphem itis, das in medizinischer Fachsprache für Wortbildungsprodukte zum Einsatz kommt, hat als Basiskonstituente üblicherweise Bezeichnungen für Körperteile oder Organe. Seit dem 19. und 20. Jahrhundert kamen dann weitere, gemeinssprachliche itis-Kombinationen wie Telefonitis hinzu. Auch in der Wikipedia, dass sich im 21. Jahrhundert entwickelte, tauchen in bestimmten Kontexten gemeinsprachliche itis-Kombinationen auf. 

Als Beispiele führt Dr. Gredel folgende itis-Kombinationen auf: 

-itisMFS (seit der Antike)   Rach-itis           (Nortmeyer 1987)

-itisBS (19.Jhdt.)                Dichter-itis        (Hoppe 2010)

-itisWikipedia (21.Jhdt.)    Abkürzer-itis     (Gredel 2018)
                                    Newsticker-itis
                                    Zitier-itis

Die Fragestellung

  • Welche Wikipedia-spezifischen Kombinationen lassen sich auf den Diskussionsseiten der Wikipedia finden?

  • Welche Vorkommenshäufigkeit weisen diese Kombinationen auf? 
  • Welche Funktionen erfüllen diese Bildungen auf den Wikipedia Diskussionsseiten?

Die Vorgehensweise

Nach einem Login bei COSMAS II kann die Datenerhebung starten. Innerhalb der COSMAS II Archive gibt es die Wikipedia-Korpora, welche ein eigenes Archiv bilden. Nach der Auswahl des Wikipedia-Archivs können weitere Teilkorpora ausgewählt werden. Da die gesuchten itis-Kombinationen vor allem auf den Wikipedia Diskussionsseiten zu finden sind, wurde für die vorliegende Fallstudie das Korpus wdd15 ausgewählt. Es enhält alle Wikipedia Diskussionen zu Artikeln aus dem Jahr 2015. Nach der Auswahl des Teilkorpus gelangt man direkt zum Suchfenster, in dem der Suchstring *itis eingegeben werden kann. Der Asterisk (*) steht hierbei für eine beliebige Anzahl an vor itis stehenden Buchstaben. Dies stellt sicher, dass unterschiedliche und auch lange itis-Kombinationen gefunden werden. 


Die Ergebnisse 

Nun kann der SUCHEN Button angeklickt werden, und es werden die 964 gefundenen Wortformen angezeigt. Diese können einzeln angeschaut und bei Bedarf abgewählt werden. Über klicken auf den Reiter ERGEBNISSE werden alle 4764 Treffer angezeigt, welche beispielsweise nach Ländern, Jahren oder Tagen sortiert werden können. Es ist auch möglich, die Ergebnisse als KeyWord In Context (KWIC) oder im Volltext anzeigen zu lassen. Die gewonnenen Ergebnisse können über den Reiter EXPORT im rtf. Dateiformat exportiert und heruntergeladen werden. Die Datei kann nun zum Beispiel in Word oder Excel geöffnet und weiterverarbeitet werden. Über eine pivot-Tabelle hat Dr. Gredel ausgewertet, wie oft welche itis-Kombination im wdd15 Korpus vorkommt und in Excel schließlich die medizinsprachlichen von den gemeinsprachlichen Kombinationen getrennt. Das Endergebnis zeigt, dass sich gemeinsprachliche itis-Kombinationen auf den Diskussionsseiten der Wikipedia finden lassen und diese genutzt werden um sich metasprachlich zu äußern und ganz konkret um das Verhalten anderer Autoren und Autorinnen in der kollaborativen Textproduktion zu kritisieren. 


Wichtige Links



Zugehörige Publikationen

Zur vorgestellten Beispiel-Analyse:

Gredel, Eva (2018): Itis-Kombinatorik auf den Diskussionsseiten der Wikipedia: Ein Wortbildungsmuster zur diskursiven Normierung in der kollaborativen Wissenskonstruktion. In: Zeitschrift für Angewandte Linguistik 1/2018, S. 35-72. 

Zu den Wikipedia-Korpora:

Eliza Margaretha, Harald Lüngen (2014): Building linguistic corpora from Wikipedia articles and discussions. In: Journal for Language Technologie and Computational Linguistics (JLCL) 2/2014 

Zur itis-Kombinatorik allgemein:

Hoppe, Gabriele. 2010. „Reinigung und Fixierung“ – Etablierung neoklassischer Lehn-Wortbildung. Etymologisch-korrekte Wiederherstellung von fachsprachlichen |itis|- Lehnwörtern und ihren Ableitungen seit der Frühen Neuzeit. Herausbildung einer fachsprachlichen Lehn-Wortbildungseinheit - itis. Mannheim: Institut für Deutsche Sprache.

Geschrieben von : Sarah Schneider

1000 Buchstaben übrig