Swantje Westpfahl

POS-Tagging für Transkripte gesprochener Sprache

Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK)
ab 0,00 € inkl. MwSt.
Der Band stellt die Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des größten Korpus für gesprochenes Deutsch (FOLK) dar. Er ist als eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit zu lesen. Viele Beispiele geben Einblicke in die Korpusaufbereitung von Transkripten gesprochener Sprache und stellen diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.

Die Autorin hat für ihre Arbeit 2020 den Peter-Roschy-Preis des Vereins der Freunde des Leibniz-Instituts für Deutsche Sprache erhalten.
Die Arbeit leistet eine theoretisch begründete und empirisch validierte Entwicklung einer automatisierten Wortartenannotation (Part-of-Speech-Tagging) für Transkripte spontansprachlicher Daten des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK), das über die Datenbank für Gesprochenes Deutsch der Forschungsgemeinschaft öffentlich zugänglich ist. Die Arbeit hat zwei Schwerpunkte: erstens die theoretische Aufarbeitung von Unterschieden von Transkripten gesprochener Sprache zu schriftsprachlichen Daten in Hinblick auf die Entwicklung eines Tagsets für das gesprochene Deutsch und zweitens die Darstellung der empirischen Arbeitsschritte zur Erstellung des automatisierten Part-of-Speech-Taggings, d. h. die Implementierung und Evaluierung für die Annotation des FOLK-Korpus. Diese Arbeit ist als eine kritische Reflexion der Wortartentheorien im Spannungsfeld zwischen Theorie und datengeleiteter Arbeit zu lesen. Sie gibt Einblicke über die Korpusaufbereitung von Transkripten gesprochener Sprache und stellt diese in Bezug zu Theorien über die Eigenheiten gesprochener Sprache.

Die Autorin hat für ihre Arbeit 2020 den Peter-Roschy-Preis des Vereins der Freunde des Leibniz-Instituts für Deutsche Sprache erhalten.

Inhalt:
1. Einleitung
1.1 Was ist Part-of-Speech-Tagging?
1.2 Inhalt und Aufbau der Untersuchung
1.3 Datengrundlage FOLK
1.4 Related Work
1.5 Pilotstudie
1.6 Zielsetzung der Untersuchung
2. Theoretische Grundlagen
2.1 Grammatik der gesprochenen Sprache
2.2 Segmentierung von Transkripten gesprochener Sprache
2.3 Kontext und Multimodalität in der Face-to-Face-
2.4 Wortarten in der gesprochenen Sprache
2.5 Weitere Klassifikationsprobleme
3. Empirischer Teil
3.1 Zielsetzung der empirischen Arbeit
3.2 Überblick über die empirische Vorgehensweise
3.3 Auswahl des Taggers und des Tagsets
3.4 Funktionsweise des Taggers
3.5 Möglichkeiten der Anpassung des Taggers und des Tagsets
3.6 Erstellen des Goldstandards
3.7 Erste Anpassung des Tagsets und der Guidelines
3.8 Manuelle Korrektur des Development-Sets
3.9 Inter-Annotator-Agreement zur manuellen Korrektur des
Development-Sets
3.10 Einführung eines Post-Processings
3.11 Zweite Anpassung der Guidelines
3.12 Entwicklung eines automatisierten Taggings anhand des Development-Sets
3.13 Manuelle Korrektur des Goldstandard-Sets
3.14 Entwicklung eines automatisierten Taggings anhand des Goldstandards
3.15 Evaluation des POS-Taggings für spontansprachliche Daten
3.16 Fazit
4. Abschließende Diskussion und Ausblick
5. Literatur
6. Anhang

Autor:inneninformation:
Frau Swantje Westpfahl war wissenschaftliche Mitarbeiterin am Leibniz-Institut für Deutsche Sprache und E-Learning-Projektleiterin bei der Intelligent Media Systems in Karlsruhe. Derzeit ist sie als Leiterin des Institute for Security and Safety in Potsdam tätig.
Mehr Informationen
ISBN 978-3-8233-8361-1
EAN 9783823383611
Bibliographie 1. Auflage
Seiten 418
Format kartoniert
Ausgabename 18361-1
Auflagenname -11
Autor:in Swantje Westpfahl
Erscheinungsdatum 30.03.2020
Lieferzeit 2-4 Tage