Die Zeichen der Zeit – sind digital

Ein Bericht von Anja Maria Hamann und Kai Richarz über das Seminar zur digitalen Edition von Briefen und Manuskripten von Daniel Sanders, im Sommersemester 2018 an der Humboldt-Universität zu Berlin

Eine gegenwärtige Herausforderung für geisteswissenschaftliche Disziplinen ist das Arbeiten in einer digitalen Welt. Dabei müssen sie dem Anstieg digitaler Quellen – ob durch Retrodigitalisierung oder die zunehmende Zahl an ‚digital born‘-Quellen – mit adäquaten Methoden, Strukturen und Werkzeugen begegnen. Vor dem Hintergrund dieser Herausforderung versucht das aufstrebende Forschungsfeld der Digital Humanities jene Brücke zwischen der alten, analogen Wissenschaft und der neuen, digitalen Welt zu schlagen: Einerseits, indem sie Sammlungen von Literatur und Quellen digital erschließt und für die Anwendung geisteswissenschaftlicher Arbeitsmethoden Verfahren zugänglich macht; andererseits, indem sie eine intelligente Vernetzung von Inhalten innerhalb einer zunehmend digitalen Wissenschaftskultur ermöglicht.1

Die Digital History als ein Teil der Digital Humanities eröffnet mittels digitaler Methoden neue Möglichkeiten für die historische Forschung und Lehre, um Quellen, Dokumente, Artefakte und Wissen über die Vergangenheit aufzuzeichnen, zu bewahren, zu vermitteln und vor allem zu untersuchen. Für Personen aus der Geschichtswissenschaft, die sich diesem neuen Feld gegenüber öffnen, bieten sich „zahlreiche Tools zur zeit- und ortsunabhängigen Arbeit mit Quellen und Texten“, die „beispielsweise für Erstellung digitaler Editionen bisher noch nicht annähernd ausgeschöpfte Möglichkeiten bieten.“2 Digital erschlossene Editionen bieten durch ihre unterschiedlichen Rechercheoptionen und ihre prinzipiell unbegrenzten Möglichkeiten zur Annotation und Verlinkung einen deutlichen Mehrwert gegenüber gedruckten Editionen.

Aber das Erstellen digitaler Quellenkorpora erfordert fachspezifische Kenntnisse. Das in diesem Beitrag beschriebene Editionsseminar lässt erahnen, wie künftige Veranstaltungen aussehen könnten. Beispielsweise bei Seminaren des ab dem Wintersemester 2018/19 eingeführten Studienschwerpunkts „Digital History“ am Institut für Geschichtswissenschaften der Humboldt-Universität zu Berlin.3

Die Rahmenbedingungen

Im Sommersemester 2018 fanden sich fünfzehn Student*innen aus unterschiedlichen Fachrichtungen der Humboldt-Universität zusammen, um sich in Sachen „Transkription, Annotation, Vernetzung am Beispiel der Sammlung ‚Daniel Sanders‘ (1819–1897)“ im Rahmen eines Seminars „Digitale Edition von Briefen und Manuskripten“ schulen zu lassen. Angeboten wurde es von zwei Mitarbeitern der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), Sebastian Göttel und Christian Thomas. Hintergrund war die Arbeit beider im Zentrum Sprache der BBAW, wo mit dem Deutschen Textarchiv (DTA), dem Digitalen Wörterbuch der deutschen Sprache (DWDS) sowie dem ebenfalls dort beheimateten CLARIN-Servicezentrum der BBAW 4 eine umfassende digitale Infrastruktur gepflegt und ständig ausgebaut wird.

Als praxisorientierte Lehrveranstaltungen wurden Student*innen der Studiengänge Geschichts-, Sprach- und Kulturwissenschaften angesprochen, sodass die Teilnehmer*innen auch die Möglichkeit zum interdisziplinären Austausches bekamen. Sebastian Göttel und Christian Thomas führten, im Bestreben sowohl das Transkribieren als auch die Digitalisierung zu lehren, durch die 14-wöchige Übung. Als Arbeitsgrundlage diente die bisher unveröffentlichte Korrespondenz des Lexikographen Daniel Sanders mit Gelehrten unterschiedlichster Fachrichtungen, die über die letzten Jahre von Sebastian Göttel zusammengetragen wurde. Mit insgesamt 413 verzeichneten Briefen entstand dabei die bislang vollständigste Übersicht dieser Korrespondenz, die am DTA gehostet und fortlaufend um neue Funde erweitert wird.5

Leben, Werk und Wirkung des Sprachforschers und (neben den Gebrüdern Grimm) wohl bedeutendsten Lexikographen des 19. Jahrhunderts spielten im Seminar zwar eine untergeordnete Rolle. Jedoch weckte die schrittweise ‚Entschlüsselung‘ der Briefe einerseits durchaus Neugierde, andererseits zeigte es sich teilweise als unerlässlich, weiterführende Recherchen anzustellen. Denn als erstes Problem stellte sich den Teilnehmer*innen die für das 19. Jahrhundert typische deutsche Kurrentschrift.

Transkription

Bevor es an die Digitalisierung der Quellen gehen konnte, galt es die zumeist ein- bis zweiseitigen Briefe in die lateinische Schrift zu transkribieren. Ein hilfreiches Online-Tool für das Training von Transkriptionen bietet das TRANSKRIBUS-Team der Universität Innsbruck an.

Unter https://learn.transkribus.eu ist es nach kostenfreier Anmeldung möglich, anhand eines selbst ausgewählten Textes einzelne Wörter einer Zeile zu transkribieren, sich dabei helfen zu lassen und eine unmittelbare Auswertung dazu zu bekommen. Aber auch analoge Hilfsmittel, wie vergleichende Übersichten zum Alphabet in Kurrent-Schrift und lateinischer Schrift sind für Anfänger*innen eine hilfreiche Orientierung.6 Äußerst dienlich beim Entziffern unleserlicher Begriffe ist ein online Tool mit dem Namen WordMine.7

Hier ermöglicht ein simples Webangebot die Auflistung aller Wörter z.B. einer bekannten Buchstabenanzahl und spezifiziert die Ergebnisliste, sofern einzelne Buchstaben bereits erkannt oder vermutet wurden.

Doch nicht nur das Entschlüsseln von Schriftbild und Sinnzusammenhängen, auch das Nebeneinander von individuellen Handschriften, Schreibweisen und teils auch der Gebrauch mittlerweile antiquierter Wörter, machte den Student*innen häufig Schwierigkeiten.

Technische Grundlagen und Hilfsmittel

Parallel zu den fortdauernden Transkriptionsarbeiten gab es inhaltliche Einblicke in die grundlegenden Themen der digitalen Editorik – schließlich geht es um die technischen Voraussetzungen zur Erstellung einer digitalen Edition, welche in der Volltextdatenbank des Deutschen Textarchivs8 zur freien Verwendung9 bereit gestellt wird. Sanders’ Korrespondenz soll sukzessive in das mehr als 3 800 Werke umfassende elektronische Korpus des DTA integriert werden. Damit wird diese nicht nur über das Internet frei zugänglich sein, sondern Dank der qualitativ hochwertigen Aufbereitung durch (computer-)linguistische Methoden schreibweisentolerant zusammen mit dem gesamten jeweils verfügbaren Bestand des DTA durchsuchbar sein.

Damit alle Volltexte einheitlich erschlossen werden, wurde an der BBAW ein Standard als Grundlage für alle Annotationen im DTA entwickelt, das DTA-Basisformat (DTABf).10Technische Grundlage hierfür ist die erweiterbare Auszeichnungssprache XML (Extensible Markup Language),11 deren Anwendung zur Auszeichnung von Texten innerhalb der Geisteswissenschaften durch die Richtlinien der Text Encoding Initiative (TEI)12 spezifiziert werden. Das DTABf ist eine echte Untermenge des TEI: P5 Guidelines, welche auf die Strukturierungsbedürfnisse innerhalb des DTA-Korpus abgestimmt ist, mit dem Ziel „sämtliche strukturelle […] Phänomene bis hin zu einer einheitlichen Erschließungstiefe abzudecken (ein Tag für jedes Phänomen) und dabei Ambiguitäten bei der Textstrukturierung zu vermeiden (ein identisches Tag für gleichartige Phänomene)“.13

Vorgehen

Zur Annotation der grob transkribierten Inhalte nutzten wir einen XML-Editor als Hilfsmittel, genauer den oXygen XML Editor, den wir über die Lizenzen der HU benutzen konnten.14Hieran lernten wir zunächst die Grundstruktur eines XML-Dokuments kennen, mit „Header“ und „Body“. Während der „Body“ aus den Inhalten unserer Transkription, verpackt in eine XML/TEI-Struktur, besteht, enthält der „Header“ eine Vielzahl standardisierter Metainformationen zum jeweiligen Dokument und seinem Kontext. Je nach eigenen Vorkenntnissen und dem jeweiligen Verwendungszweck lassen sich für die Erstellung von XML-Dokumenten z.B. Vorlagen von oXygen verwenden. Für unseren Zweck konnten wir unsere „Header“ mittels einer für das Sanders-Projekt im DTA erarbeiteten Vorlage erstellen und mussten in dieser jeweils nur geringfügige Anpassungen vornehmen.

Wer sich tiefer mit den Strukturen eines XML/TEI-Dokuments beschäftigen möchte, findet auf der Webseite des DTABf eine gut strukturierte und durchsuchbare Dokumentation mit einfachen Erläuterungen und konkreten Code-Beispielen.15 Sogar die etwas komplexe, selbstständige Erstellung der TEI-Header-Struktur wird den Nutzer*innen des DTA wesentlich erleichtert: Denn die Plattform bietet hierfür mit dem CLARIN-Metadatenformular zur Aufnahme einzelner Ressourcen eine komfortable Lösung, mit der man die „Metadaten bequem über das Webformular erfassen und daraus automatisiert einen DTABf-konformen TEI-Header erstellen lassen“ kann.16

Im übrigen lässt sich ein XML-Dokument auch ohne oXygen erstellen und bearbeiten. Im Grunde ist dafür lediglich ein beliebiger Texteditor von Nöten.17 Je weniger komplex der Editor, desto leichter fällt wahrscheinlich die Konzentration auf die Auszeichnungssprache.

Allerdings bieten komplexere Editoren wie oXygen die Möglichkeit, syntaktische und Schema-spezifische Fehler im Code zu erkennen und weisen diese entsprechend aus. Selbst bei der Eingabe von Code-Elementen werden Hilfestellungen gegeben. Indem ein XSLT-Stylesheet eingebunden werden kann, bietet sich hier auch die Möglichkeit einer Ergebnis-Ausgabe an den eigenen Browser, womit nicht nur die gewünschte Visualität überprüft, sondern auch eine generelle Qualitätssicherung erfolgen kann.

Nachdem wir im oXygen XML Editor die grundlegende Anwendung von XML-Codierung trainiert und dabei XML-Dokumente erzeugt sowie gleichzeitig unsere zunächst teils lückenhaften Transkriptionen verbessert hatten, folgte im nächsten Schritt das Hochladen unserer XML-Dokumente in die Arbeitsumgebung von DTAQ.18

Sanders, Daniel: Brief an Julius Rodenberg. Altstrelitz, 2. Dezember 1889, Bl. [1r]. In: Deutsches Textarchiv – Qualitätssicherung <http://www.deutschestextarchiv.de/dtaq/book/view/sanders_rodenberg_1889?p=1> (Ansicht: XML-Editor), abgerufen am 05.11.2018.

Mit diesem Angebot wurde eine partielle Alternative zu eigenständigen XML-Editoren geschaffen, um ein hohes Niveau an Qualitätssicherung zu erarbeiten. Denn mit der webbasierten, kollaborativen Qualitätssicherungsumgebung stellt das DTA ein Werkzeug zur Verfügung, welches die Nachkontrolle sämtlicher Texte und die online Fehlerkorrektur unterstützt.19 Der deutliche Vorteil des kollaborativen Arbeitens besteht darin, dass zur Qualitätsicherung eine theoretisch unbegrenzt große Community beitragen kann, zu der alle Interessierten nach der Registrierung in DTAQ gehören können. Dieses Gemeinschaftsprinzip, welches mit der Online-Enzyklopädie Wikipedia weltweiten Erfolg feiert, ermöglicht es, die wissenschaftlichen Kompetenzen vieler zu bündeln und gleichzeitig die Ergebnisse davon potentiell allen Menschen bereitzustellen.

In der Onlineumgebung DTAQ komplettierten wir unsere Transkriptionen und perfektionierten unsere praktischen XML-Kenntnisse samt Annotationen. Dazu gehören beispielsweise das Setzen von Verweisen auf Orte, Ereignisse, bekannte Personen und Werke. Aber auch unterschiedliche historische Schreibweisen, unleserliche Textstellen und weitere typographische Besonderheiten können so aufgezeigt werden. Zuletzt, nach diesem Schritt der (kollaborativen) Qualitätssicherung, wurden die Briefe auf der DTA-Webseite ‚freigeschaltet‘, wo nun die einzelnen Arbeitsergebnisse des Seminars auch ohne Passwort zugänglich sind.

Sanders, Daniel: Brief an Wachs. Altstrelitz, 29. April 1886, Bl. [1v]. In: Deutsches Textarchiv <http://www.deutschestextarchiv.de/sanders_wachs_1886/2>, abgerufen am 05.11.2018.

Fazit und Ausblick

Insgesamt erlangten wir umfangreiche Einblicke in das Erstellen einer digitalen Quellenedition – vor allem, dass mehr dazu gehört, als das bloße Scannen und Hochladen. Das Zusammenkommen von Recherche, Transkription und elektronischer Datenverarbeitung stellte jedoch die meisten vor eine große Herausforderung. Für zukünftige Lehrveranstaltungsformate dieser Art könnte es daher von Vorteil sein, Vorkenntnisse in zumindest einem der Bereiche mitzubringen. So wäre ein Vorkurs zur Transkription der Deutschen Kurrentschrift eine Möglichkeit, die EDV-Kenntnisse strukturierter zu vermitteln und die Daten effektiver mit den jeweiligen Annotationen und Verlinkungen zu versehen.20

Darüber hinaus sollten die technischen Voraussetzungen geprüft werden, da die veraltete und mangelhafte Technik des PC-Pools häufig Schwierigkeiten bereitete. Einerseits waren die PCs den Anforderungen der Programme nicht gewachsen, andererseits sorgte der Ausfall der Klimaanlage für teils tropische Temperaturen.

Allen Problemen zum Trotz danken wir unseren Dozenten für ihr Engagement und die unerschütterliche Geduld und freuen uns über diese (vorerst) einmalige Gelegenheit, uns im Rahmen unseres Studiums den praktischen Herausforderungen der Geisteswissenschaften im digitalen Zeitalter stellen zu können.

Zitierempfehlung: hamannricharz: „Die Zeichen der Zeit – sind digital.“ In: Im Zentrum Sprache, 5. November 2018, https://sprache.hypotheses.org/950 (Abgerufen am 8. November 2018).
  1. Vgl. z.B. Rüdiger Hohls, Digital Humanities und digitale Geschichtswissenschaften, in: Clio Guide – Ein Handbuch zu digitalen Ressourcen für die Geschichtswissenschaften, Hrsg. von Laura Busse, Wilfried Enderle, Rüdiger Hohls, Thomas Meyer, Jens Prellwitz, Annette Schuhmann, 2. erw. und aktualisierte Aufl., Berlin 2018 (=Historisches Forum, Bd. 23), S. A.1-1 – B.1-34, DOI: 10.18452/19244 sowie Marcus Schröter, Historische Volltextdatenbanken, in: Clio Guide – Ein Handbuch zu digitalen Ressourcen für die Geschichtswissenschaften, Hrsg. von Laura Busse, Wilfried Enderle, Rüdiger Hohls, Gregor Horstkemper, Thomas Meyer, Jens Prellwitz, Annette Schuhmann, 2. erw. und aktualisierte Aufl., Berlin 2018 (=Historisches Forum, Bd. 23), S.B.4-1 – B.4-47, DOI: 10.18452/19244.
  2. Schröter, Historische Volltextdatenbanken.
  3. Schwerpunkt „Digital History Digital History im Masterstudiengang Geschichtswissenschaften“ (HU Berlin), 01.10.2018 Berlin, in: H-Soz-Kult, 27.06.2018, www.hsozkult.de/studyprogramme/id/studiengaenge-16746.
  4. Das Servicezentrum der BBAW ist wiederum Teil der web- und zentrenbasierten Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften CLARIN-D , https://www.clarin-d.net/; die BBAW ist unter anderem mit den Schwerpunkten der Erschließung digitaler Textkorpora, digitale Editionen und Texterfassungsmethoden (OCR) befasst.
  5. Vgl. http://www.deutschestextarchiv.de/sanders-briefe/. Gegenwärtig (Stand 22. Oktober 2018) sind 112 der 413 Briefe im DTA frei zugänglich. Vgl. zur Sammlung und zum Projektkontext auch Sebastian Göttel: „Nur im Wörterbuch steht ‚Erfolg‘ vor ‚Fleiß‘: Briefwechsel Daniel Sanders.“ In: Im Zentrum Sprache, 1. November 2017, https://sprache.hypotheses.org/478 (Abgerufen am 22. Oktober 2018).
  6. Siehe beispielsweise die dritte Seite in der PDF-Datei vom Schreiblehrgang Kurrentschrift (um 1900) von Margarete Mücke, http://www.kurrent-lernen-muecke.de/pdf/Schreiblehrgang%20Kurrentschrift%20%20neu%202014X.pdf.
  7. Vgl. https://www.wordmine.info/de/.
  8. Das DTA ist ein dynamisch erweiterbares Referenzkorpus historischer Texte, welches an der BBAW beheimatetet ist. Der Aufbau des Korpus und der Infrastruktur wurde von 2007 bis 2016 von der Deutschen Forschungsgemeinschaft (DFG) gefördert; seitdem wird die Korpusinfrastruktur in Kooperation mit CLARIN-D weiter betrieben, gepflegt und das Korpus v.a. um externe Textressourcen erweitert. Vgl. dazu Alexander Geyken, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand: Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN. In: Henning Lobin, Roman Schneider, Andreas Witt (Hgg.): Digitale Infrastrukturen für die germanistische Forschung (= Germanistische Sprachwissenschaft um 2020, Bd. 6). Berlin/Boston, 2018, S. 219–248. Online-Version, DOI: 10.1515/9783110538663-011.
  9. Das DTA-Kernkorpus steht jeder Nutzerin und jedem Nutzer über das Internet und zum freien Download unter der Creative Commons-Lizenz CC BY-NC 3.0 zur Verfügung, vgl. http://www.deutschestextarchiv.de/doku/ueberblick sowie http://www.deutschestextarchiv.de/doku/nutzungsbedingungen. Die weiteren Korpustexte außerhalb des Kernkorpus stehen i.d.R. unter noch weniger restriktiven Lizenzen bereit, so auch das hier besprochene Subkorpus Briefwechsel Daniel Sanders, das wie zahlreiche weitere Textressourcen zur Kategorie der Erweiterungen des Deutschen Textarchivs (DTAE) gehört. Vgl. die Textquellenbeschreibung zum Briefwechsel Daniel Sanders unter: http://www.deutschestextarchiv.de/doku/textquellen#sanders-briefe; zu DTAE siehe http://www.deutschestextarchiv.de/dtae.
  10. Vgl. http://www.deutschestextarchiv.de/doku/basisformat/ sowie Susanne Haaf, Alexander Geyken, Frank Wiegand: The DTA “Base Format”: A TEI Subset for the Compilation of a Large Reference Corpus of Printed Text from Multiple Sources. In: Journal of the Text Encoding Initiative 8, 2014/15. Online-Version, DOI: 10.4000/jtei.1114 und, zum Spezial-Tagset des DTABf für Manuskripte (DTABf-M), Susanne Haaf, Christian Thomas: Enabling the Encoding of Manuscripts within the DTABf: Extension and Modularization of the Format. In: Journal of the Text Encoding Initiative (jTEI) 10 | 2016: Selected Papers from the 2015 TEI Conference. Online since 08 August 2017, connection on 27 September 2017. URL: https://journals.openedition.org/jtei/1650; DOI: 10.4000/jtei.1650.
  11. Vgl. https://www.w3.org/TR/2008/REC-xml-20081126/; siehe zum Erlernen von XML auch das XML Tutorial unter: https://www.w3schools.com/xml/.
  12. Vgl. http://www.tei-c.org/; siehe zum Erlernen von TEI auch: http://www.tei-c.org/support/learn/.
  13. http://www.deutschestextarchiv.de/doku/ueberblick#standardisierun.
  14. Zum lizenzpflichtigen oXygen XML Editor vgl. die offizielle Webseite des Anbieters: https://www.oxygenxml.com/.
  15. Siehe die Reiter „Formal“, „Inhaltlich“, „Spezial“ und „Übersichten“ unter
    http://www.deutschestextarchiv.de/doku/basisformat/.
  16. http://www.deutschestextarchiv.de/doku/basisformat/hilfreicheTools.html?hl=header.
  17. Ein komfortabler und kostenfreier (XML-)Editor ist bespielsweise Notepad++: https://notepad-plus-plus.org/.
  18. Dieser Schritt wurde durch die Dozenten initiiert und durch die mit entsprechender Berechtigung ausgestatteten Admins des DTA vorgenommen. DTAQ ist erreichbar unter http://www.deutschestextarchiv.de/dtaq/ und nach Anmeldung mit einem persönlichem Account frei zugänglich.
  19. Vgl. http://www.deutschestextarchiv.de/dtaq/about.
  20. Z.B. in Veranstaltungen wie dem von der Historischen Kommission zu Berlin angebotenen Workshop „Alles nur Krähenfüße? Quellenlektüre leichtgemacht. Ein Paläographie-Workshop für Studierende und Doktoranden.“: https://www.hiko-berlin.de/fileadmin/redakteur/02_Projekte/HiKo21/Kraehenfuesse/Flyer.pdf.

 

Dieser Artikel ist zuerst hier erschienen.

Geschrieben von : Sarah Schneider

1000 Buchstaben übrig