Automatische phonemische Transkription von textuellen Daten
In vielen Sprachen ist der orthographische Text nicht gleichbedeutend mit der Aussprache. Es ist daher für viele Aufgaben nützlich, eine automatische Umsetzung von Text in eine phonologische Repräsentation ausführen zu können. Der CLARIN Webdienst G2P leistet diese Aufgabe für eine Vielzahl von Sprachen. In diesem Use-Case wird ein ungarischer Text in seine wahrscheinlichste Aussprache überführt.
Besonders interessant für Forschende der:
- Linguistik
- Phonetik
- Phonologie
- Sprachtechnologie
Ausgangslage:
Man hat einen Text (*.txt) in einer bestimmten Sprache
Ziel:
Eine kanonische Transkription der Dateneingabe enkodiert in SAM-PA und gespeichert in TCF geeignet für Weblicht Bearbeitungen
Lösung:
Die BAS G2P Web-Schnittstelle oder den BAS G2P Web-Service von der Kommandozeile aufrufen
Verwandte CLARIN-D Angebote
- WebMAUS-Basic: Automatisches phonetisches Labelling und Segmentieren einer einzelnen deutschen Aufnahme mit Text
- ELAN: Editor für die Annotation multimodaler Sprachaufnahmen
Eine kurze Anleitung zur Nutzung von BAS G2P
Vorbereitung:
- Herunterladen des ZIP-Pakets ftp://ftp.phonetik.uni-muenchen.de/pub/BAS/CLARIN/USE_CASES/hungarianG2P.zipp
- Entpacken Sie es auf Ihrem lokalen Desktop Ordner; es müsste ein Ordner mit dem Namen 'hungarianG2P' auf Ihrem Desktop erscheinen.
Webinterface:
- Starten Sie Chrome oder Firefox und gehen Sie auf http://clarin.phonetik.uni-muenchen.de/BASWebServices
- Wählen Sie den Service 'G2P' aus
- (drag&) Verschieben sie die Datei 01_1.txt aus dem Ordner 'hungarianG2P' auf den gekennzeichnete Bereich
- Drücken Sie die Taste 'Upload'; Sie können jetzt die hochgeladene Textdatei untersuchen, indem Sie die Datei in dem gekennzeichneten Bereich anklicken
- Führen Sie die Graphem-zu-Phonem Konversion mit den folgenden Optionen aus:
- Language = Hungarian
- Output format = tcf
- Bestätigen Sie die Nutzungsbedingungen und drücken Sie die Taste 'Run Web Service'
- Nach wenigen Sekunden taucht unten ein Link zur Ergebnisdatei '01_1.g2p.tcf' auf; abhängig von Ihrem Browser können Sie diesen anklicken, um das Ergebnis anzusehen (oder es mit einem Rechtsclick und "Link speichern unter" herunterzuladen); in der Ergebnisdatei XML sind die Wörter der Datei in Tokens übersetzt und die korrespondierenden einzelnen phonetischen Symbole durch ein Leerzeichen getrennt.
- Mehr über die SAM-PA phonetische Enkodierung: http://www.phon.ucl.ac.uk/home/sampa/
Per Web-Service (zum Beispiel auf Linux/Unix system):
- Starten Sie einen Terminal und gehen Sie auf den Ordner 'hungarianG2P' auf Ihrem Desktop, z.B.
cd /home/user/Desktop/hungarianG2P
- Rufen Sie den folgenden Curl auf:
curl -v -X POST -H 'Inhaltstyp: multipart/form-data' -Fi=@01_1.txt -F iform=txt -F oform=tcf -F lng=hun-HU 'https://clarin.phonetik.uni-muenchen.de/BASWebServices/services/runG2P'
- Die Rückmeldung sollte in etwa so aussehen: <WebServiceResponseLink><success>true</success><downloadLink>https://clarin.phonetik.uni-muenchen.de:443/BASWebServices/data/2015.12.08_11.09.12_97D67C6035DBF0E705891B0E44756CBE/01_1.g2p.tcf</downloadLink><output></output><warnings></warnings></WebServiceResponseLink>
- (copy&paste) Fügen Sie die URL in den <downloadlink>; Ziehen Sie es auf Ihren Webbrowser und das Ergebnis erscheint, oder
- Laden Sie die Ergebnisdatei durch den Link in "downloadLink" herunter mit wget:
wget https://clarin.phonetik.uni-muenchen.de/BASWebServices/data/[...] -O 01_1.tcf