Auf diesen Webseiten befinden sich die im Text verwendeten Audio- und Videobeispiele, Lösungen zu Aufgaben, Verweise auf Software und weitere Sprachdaten sowie Korrekturen.

Seite Beschreibung Link
Audiobeispiele
S. 43 Signaldatei "Ich bin mit dem Wagen nach Bonn gefahren.", normal gesprochen WAVE-Datei
Segmentation dazu als Praat TextGrid-Datei
S. 43 Signaldatei "Ich bin mit dem Wagen nach Bonn gefahren.", schnell gesprochen WAVE-Datei
Segmentation dazu als Praat TextGrid-Datei
S. 43 Signaldatei "Ich bin mit dem Wagen nach Bonn gefahren.", langsam gesprochen WAVE-Datei
Segmentation dazu als Praat TextGrid-Datei
S. 99 Signaldatei "Ich bin mit dem Wagen nach Bonn gefahren.", normal gesprochen gzip-komprimierte Audiodatei
flac-komprimierte Audiodatei
vorbis-komprimierte Audiodatei
MP3-komprimierte Audiodatei
AC3-komprimierte Audiodatei
AAC-komprimierte Audiodatei
gzip-komprimierte Audiodatei (mit Rauschen)
flac-komprimierte Audiodatei (mit Rauschen)
vorbis-komprimierte Audiodatei (mit Rauschen)
MP3-komprimierte Audiodatei (mit Rauschen)
AC3-komprimierte Audiodatei (mit Rauschen)
AAC-komprimierte Audiodatei (mit Rauschen)
Videobeispiele
S. 12 Röntgenfilm "It's ten below outside" eines männlichen Sprechers in verschiedenen Videoformaten. Der Film enthält einen Vorspann von ca. 15 Sekunden mit Informationen zu den Filmen und ihrer weiteren Verarbeitung.
Quelle: Phil Hoole, Institut für Phonetik und Sprachverarbeitung, Ludwig-Maximilians-Universität München.
MPEG-4 Datei (.m4v) für Arbeitsplatzrechner (ca. 1 MB)
iPhone Datei (.m4v) für das iPhone oder andere SmartPhones mit einer Bildschirmgröße von mind. 240 x 320 Pixeln (ca. 700 KB)
3GP Datei (.3gp) für videotaugliche Mobiltelefone mit einer Bildschirmgröß von mind. 130 x 144 Pixeln (ca. 170 KB)
Quicktime Referenz-Datei (.mov) (Anm: Diese Datei muss im selben Verzeichnis stehen wie die MPEG-4 Datei für Arbeitsplatzrechner.)
Windows Media Datei (.wmv) für Windows (ca. 600 KB)
S. 74 EMA-Animation des Satzes "Der tote Däne hatte sieben junge Töchter".
Quelle: Phil Hoole, Institut für Phonetik und Sprachverarbeitung, Ludwig-Maximilians-Universität München.
MPEG-4 Datei (.m4v) für Arbeitsplatzrechner (ca. 110 KB)
iPhone Datei (.m4v) für das iPhone oder andere SmartPhones mit einer Bildschirmgröße von mind. 240 x 320 Pixeln (ca. 80 KB)
3GP Datei (.3gp) für videotaugliche Mobiltelefone mit einer Bildschirmgröß von mind. 130 x 144 Pixeln (ca. 40 KB)
Quicktime Referenz-Datei (.mov) (Anm: Diese Datei muss im selben Verzeichnis stehen wie die MPEG-4 Datei für Arbeitsplatzrechner.)
Windows Media Datei (.wmv)
S. 74 EMA-Animation des Wortes "tote". Deutlich zu erkennen ist die aus den Positionen der Sensoren errechnete Zungenkontur.
Quelle: Phil Hoole, Institut für Phonetik und Sprachverarbeitung, Ludwig-Maximilians-Universität München.
MPEG-4 Datei (.m4v) für Arbeitsplatzrechner (ca. 110 KB)
iPhone Datei (.m4v) für das iPhone oder andere SmartPhones mit einer Bildschirmgröße von mind. 240 x 320 Pixeln (ca. 80 KB)
3GP Datei (.3gp) für videotaugliche Mobiltelefone mit einer Bildschirmgröß von mind. 130 x 144 Pixeln (ca. 40 KB)
Quicktime Referenz-Datei (.mov) (Anm: Diese Datei muss im selben Verzeichnis stehen wie die MPEG-4 Datei für Arbeitsplatzrechner.)
Windows Media Datei (.wmv)
S. 76 Laryngoskopie-Film der Stimmlippen bei konstanter Schwingung.
Quelle: Dirk Deuster, Klinik und Poliklinik für Phoniatrie und Pädaudiologie der Universität Münster.
MPEG-4 Datei (.m4v) für Arbeitsplatzrechner (ca. 110 KB)
iPhone Datei (.m4v) für das iPhone oder andere SmartPhones mit einer Bildschirmgröße von mind. 240 x 320 Pixeln (ca. 80 KB)
3GP Datei (.3gp) für videotaugliche Mobiltelefone mit einer Bildschirmgröß von mind. 130 x 144 Pixeln (ca. 40 KB)
Quicktime Referenz-Datei (.mov) (Anm: Diese Datei muss im selben Verzeichnis stehen wie die MPEG-4 Datei für Arbeitsplatzrechner.)
Dokumente
S. 245 Checkliste für Sprachaufnahmen Checkliste als PDF-Datei
S. 253 IPA Alphabet Webseite der IPA mit der IPA-Tabelle als PDF-Datei
S. 255 Kombi-Formular für Sprachaufnahmen Kombi-Formular als PDF-Datei
Software
S. 17 MAUS automatisches Segmentationsprogramm www.bas.uni-muenchen.de/Bas/software/
S. 60 Praat Annotationseditor www.praat.org
S. 83 HTK Hidden Markov Toolkit zur Entwicklung von Spracherkennungs-Systemen htk.eng.cam.ac.uk
S. 117 EMU Annotationseditor emu.sourceforge.net
S. 226 SpeechRecorder Aufnahmeprogramm www.speechrecorder.org
S. 99 SoundExchange sox, ein Kommandozeilen-basierter Audiokonverter sox.sourceforge.net
S. 117 R, ein freies Statistik-Paket zur Auswertung von Daten www.r-system.org
  Audacity Audioeditor audacity.sourceforge.net
  IMDI Metadaten-Editor und Browser www.lat-mpi.eu/tools/
Links Institutionen, Projekte
Kap. 10 Ph@ttSessionz Projekt Ph@ttSessionz
S. 243 BAS, Bayerisches Archiv für Sprachsignale am Institut für Phonetik und Sprachverarbeitung, LMU München www.bas.uni-muenchen.de
S. 243 ELRA, European Language Resources Association, Paris www.elda.org
S. 243 IDS, Institut für Deutsche Sprache, Mannheim www.ids-mannheim.de
S. 243 LDC, Linguistic Data Consortium, Philadelphia www.ldc.upenn.edu
S. 243 MPI, Max-Planck-Institut für Psycholinguistik, Nijmegen www.mpi.nl
Links Standards
S. 243 Homepage der Internationalen Phonetischen Assoziation IPA an der Universität Glasgow www.arts.gla.ac.uk/IPA/
S. 243 SAMPA-Homepage am University College, London www.phon.ucl.ac.uk/home/sampa/
S. 181 SAMPA-IPA Abbildungen aus Wikipedia http://de.wikipedia.org/wiki/SAMPA-Transkribierungscodes (deutsch) und http://en.wikipedia.org/wiki/SAMPA_chart (englisch).
S. 243 Unicode-Konsortium www.unicode.org
S. 243 WWW-Konsortium, verantwortlich für Standards für das World Wide Web wie HTML, XML und viele damit verbundene Technologien www.w3c.org
Links Firmen
S. 243 AKG, Mikrofone und Zubehör www.akg.com
S. 243 Audio-Technica, Mikrofone und Zubehör www.audio-technica.com
S. 243 Beyerdynamic, Mikrofone und Zubehör www.beyerdynamic.de
S. 243 M-Audio, FireWire und USB A/D Wandler www.m-audio.de
S. 243 Sennheiser, Mikrofone und Zubehör www.sennheiser.de
S. 243 Sennheiser Communications, Headsets www.sennheisercommunications.com
S. 243 Studiobox Akustikkabinen www.studiobox.de
S. 243 Zoom Portable Recorder www.zoom.co.jp
Korrigenda
S. 36 Abb. 12: unterer Rand beschnitten Die Abbildung sollte auch die unteren Kästchen mit unterem Rand zeigen.
S. 83 drittletzter Absatz: falsche Trennung "Audi-odaten" Es muss heißen: "Audio-daten" oder keine Trennung
S. 87 zweiter Absatz: "Die Zugriff" Es muss heißen: "Der Zugriff"
S. 93 Auch wenn der Text nicht ganz ernst zu nehmen ist, sollte er doch korrekt wiedergegeben werden. Es muss heißen: "wertfole arbeitskräfte könen der wirtsaft sugefürt werden."
S. 98 Abb. 50 links Die linke Abbildung sollte wie die rechte keinen äußeren Rahmen haben.
S. 155 Abb. 75: unterer Rand beschnitten Die Abbildung sollte auch grau dargestellte Tischfläche mit vollständigem Rand zeigen.
S. 156 Abb. 12: rechter und unterer Rand beschnitten Die Abbildung sollte auch die Verbindungskabel zwischen den Raummikrofonen und dem Mischpult zeigen.
S. 174 1. und 2. Absatz nach den englischen Zitaten Trennfehler: statt "Si-gnaldaten", "Signa-leigenschaften" und "Sprachsi-gnalen" muss es korrekt heißen "Signaldaten", "Sig-naleigenschaften" und "Sprach-signalen"
S. 243 Link auf das BAS In der Webadresse des BAS muss die Endung ".de" verwendet werden: www.bas.uni-muenchen.de
S. 243 Link auf die IPA In der Webadresse der IPA muss IPA groß geschrieben werden: www.arts.glas.ac.uk/IPA/
Lösungen zu den Aufgaben
Kap. 2 Aufgabe 1

Diskret

  1. Herdschalter
  2. Lichtschalter
  3. Fahrrad-Schalthebel

Kontinuierlich

  1. Dimmer
  2. Thermostatregler
  3. Gaspedal
Kap. 2 Aufgabe 2

Periodisch

  1. Zeitschaltuhr
  2. Metronom
  3. Stimmgabel

Aperiodisch

  1. Fußgängerampel mit Drückschalter
  2. Fahrgeschwindigkeit
Kap. 2 Aufgabe 3a Die maximale Amplitude beträgt 1 bzw. -1; dieser Wert wird bei x = n/8 π mit n ∈ {1,...,} erreicht. Sinusschwingung PDF-Datei
Kap. 2 Aufgabe 3b Die maximale Amplitude beträgt 3 bzw. -3; dieser Wert wird bei x = n/2 π mit n ∈ {1,...,} erreicht. Sinusschwingung PDF-Datei
Kap. 2 Aufgabe 4 Die maximale Amplitude beträgt knapp unter 5/7 bzw. -5/7. Die maximale Amplitude der ersten Schwingung beträgt 1/7, die der zweiten 4/7. Die erste Schwingung erreicht ihre Maximalamplitude zum Zeitpunkt n/2 π, die zweite Schwingung n/4 π. Damit erreichen beide Schwingungen nie zum selben Zeitpunkt ihr Maximum. Sinusschwingungdie beiden Sinusschwingungen in Einzeldarstellung als PDF-Datei
Sinusschwingungzusammengesetzte Sinusschwingung als PDF-Datei
Kap. 2 Aufgabe 5 a) 75 Hz, b) 20 Hz
Kap. 2 Aufgabe 6 a) ja, 75 Hz ist Bestandteil der zusammengesetzten Schwingung
b) nein, 20 Hz ist nicht Bestandteil der zusammengesetzten Schwingung, aber der größte gemeinsame Teiler der drei Frequenzen 80 Hz, 100 Hz, 640 Hz.
Darstellung der zusammengesetzten Schwingung a) in Praat als PDF-Datei
Darstellung der zusammengesetzten Schwingung b) in Praat als PDF-Datei
Kap. 2 Aufgabe 7 Im Idealfall sehen die beiden zusammengesetzten Schwingungen wie folgt aus:
Ideale Darstellung der zusammengesetzten Schwingung im Frequenzbereich
Erzeugt man diese Schwingungen z. B. in Praat und berechnet davon ein Spektrum, dann ergibt sich (je nach Einstellung der Parameter) folgendes Bild:
Frequenzdarstellung der zusammengesetzten Schwingungen
Ideale Darstellung als PDF-Datei
Reale Darstellung als PDF-Datei
Kap. 2 Aufgabe 8 Ein Spektrum ist die Darstellung der Frequenzanteile einer stationären zusammengesetzten Schwingung (S. 38).
Kap. 2 Aufgabe 9 Zur Berechnung der Energie einer Schwingung summiert man das Quadrat der einzelnen Werte der Schwingung, bildet daraus den Mittelwert und zieht daraus die Wurzel (S. 20). Dieses Verfahren ist als "Root Mean Square" bekannt.
Kap. 2 Aufgabe 10 a) alle Frequenzanteile über 800 Hz.
b) die Hintereinanderschaltung eines Hoch- und eines Tiefpassfilters wirkt wie ein Bandpassfilter. Hier lässt das Bandpassfilter alle Frequenzen über 400 Hz und unter 1200 Hz passieren, d. h. die tiefen und die hohen Frequenzen werden aus dem Signal entfernt.
Die grafische Darstellung sollte ähnlich aussehen wie in Abb. 12 (S. 36) das dritte Filter von oben.
Das Telefonnetz wirkt wie ein Bandpassfilter mit den Eckfrequenzen 300 bis 3000 Hz. Die folgende Abbildung (in PDF-Format) zeigt die Wirkung eines solchen Bandpassfilters auf gesprochene Sprache, hier auf den Satz "Ich bin mit dem Wagen nach Bonn gefahren.". Sie können sich diese Audiodatei auch herunterladen oder anhören.
Kap. 3 Aufgabe 1 Schall ist eine Veränderung des Luftdrucks. Diese Veränderung wird in Pascal (Abkürzung Pa) gemessen. Die Veränderung des atmosphärischen (meteorologischen) Luftdrucks wird ebenfalls in Pascal gemessen, wobei meist das Hektopascal (= 100 Pascal) verwendet wird.
Kap. 3 Aufgabe 2 Gemäß dem Nyquist-Theorem muss die Abtastrate mindestens höher sein als das Doppelte der abzutastenden Frequenz.
In der Hörfläche in Abb. 20 geht der Frequenzbereich von Sprache von ca. 50 bis 5000 Hz, es ist also eine Abtastrate von > 10000 notwendig.
Der Frequenzbereich von Musik geht bis 10 kHz (oder noch höher), d. h. hier ist eine Abtastrate von > 20000 notwendig.
Mit der Abtastrate von 44.1 kHz, wie er für Audio-CDs verwendet wird, kann der gesamte Hörbereich des Menschen abgedeckt werden.
Kap. 3 Aufgabe 3 Das Quelle-Filter-Modell beschreibt die menschliche Artikulation als ein System aus zwei hintereinandergeschalteten Komponenten. Die Quelle regt das System zu Schwingungen an, das Filter modifiziert diese Schwingungen. Übertragen auf die menschliche Artikulation erfolgt die Anregung durch die Schwingungen der Stimmlippen im Kehlkopf, die den Luftstrom wiederholt blockieren und freigeben. Dieser pulsierende Luftstrom wird im Vokaltrakt, d. h. im Rachen, Mund- und Nasenraum, durch gezielte Bewegungen der Artikulatoren, so modifiziert, dass Sprachlaute entstehen.
Kap. 3 Aufgabe 4 Formanten sind Resonanzen des Vokaltrakts. Die Formanten sind durchnummeriert, von F1 aufsteigend. Jeder Vokal ist durch charakteristische Werte der ersten drei Formanten beschrieben.
Kap. 3 Aufgabe 5 Bei Vokalen ist der Vokaltrakt weitgehend frei, so dass die Luft ohne Turbulenzen strömen kann. Bei Konsonanten wird im Vokaltrakt entweder ein Verschluss gebildet, der den Luftstrom unterbricht, oder eine Engstelle, die Turbulenzen im Luftstrom erzeugt.
Kap. 3 Aufgabe 6 Die IPA klassifizert Vokale und Konsonanten unter artikulatorischen Gesichtspunkten. Vokale sind durch Angabe von Zungenlage (vorne bzw. hinten), Zungenhöhe (hoch bzw. tief) und der Lippenrundung (gerundet bzw. ungerundet) charakterisiert.
Konsonanten durch Artikulationsstelle (von labial bis glottal), Artikulationsart (plosiv, frikativ, usw.) und Stimmhaftigkeit (stimmhaft bzw. stimmlos). Bei Konsonanten unterscheidet die IPA außerdem pulmonale und nicht-pulmonale Konsonanten. Bei letzteren ströt die Atemluft nicht aus den Lungen, sondern wird z. B. eingeatmet.
Kap. 3 Aufgabe 7 Das Vokalviereck der IPA stellt die Position der Zunge in einem zweidimensionalen Diagramm dar. Die sog. Eckvokale sind durch die Extrempositionen der Zunge bestimmt.
Das Vokalviereck kann man auch als zweidimensionales Diagramm mit F1 als y-Achse und F2 als x-Achse betrachten - eine sog. Formantkarte (vgl. Abb. 25 S. 51).
Kap. 3 Aufgabe 8
Wort IPA SAMPA (deutsch)
Bienen b iː n ə n b i: n @ n
Binsen b ı n z ə n b I n z @ n
Firmung f ıɐ m ʊ ŋ f I6 m U N
Schlauch ʃ l aʊ x S l aU x
Kap. 3 Aufgabe 9
Beschreibung IPA SAMPA Beispielwort (Standarddeutsch)
vorderer oberer gerundeter Vokal y y: Tür
stimmhafter alveolarer Nasal n n nein
stimmhafter uvularer Trill ʀ R reich
stimmloser dentaler Frikativ θ T (engl.) thing
siehe hierzu auch die folgenden Links auf Wikipedia-Einträge: SAMPA-IPA (deutsch) und SAMPA-IPA (englisch).
Kap. 3 Aufgabe 10 Der Laut /a/ ist ein Vokal, d. h. man kann ihn als eine zusammengesetzte Schwingung betrachten.
Aus der Anzahl Perioden n der zusammengesetzten Schwingung in einem Signalausschnitt mit der Länge l (in ms) kann man die Grundfrequenz F0 wie folgt berechnen: F0 = (n * 1000 / l).
Für Abbildung 24 ist die Länge des Signalausschnitt n mit "ca. 70 ms" angegeben. Die Berechnung der Grundfrequenz ist daher recht ungenau, da die exakte Breite des Fensters nicht bekannt ist.
Abbildung n Grundfrequenz F0
a) 16 16 * 1000 / 70 = 229
b) 13 13 * 1000 / 70 = 185
c) 7 7 * 1000 / 70 = 100
d) 13 13 * 1000 / 70 = 185
Kap. 3 Aufgabe 11
  1. Speichern Sie die Audiodatei auf Ihrem Rechner.
  2. Öffnen Sie die Audiodatei in Praat.
  3. Legen Sie zu dieser Audiodatei ein TextGrid an. Dazu wählen Sie die Audiodatei im Fenster Praat objects aus und klicken auf die Schaltfläche Annotate und dort auf to TextGrid....
  4. Geben Sie die Ebenenbezeichnungen in das Textfeld All tier names ein: ORTHOGRAPHY CANONICAL PHONETIC und löschen Sie den Inhalt des Textfelds Which of these are point tiers?. Bestätigen Sie die Eingabe mit OK.
  5. Im Fenster Praat objects steht nun ein Eintrag für das TextGrid.
  6. Wählen Sie die Audiodatei und das TextGrid aus und klicken Sie auf Edit.
  7. Es erscheint ein Fenster mit oben dem Signal und unten drei Annotationsebenen. Davon ist eine ausgewählt (dies wird durch einen gelben Hintergrund angezeigt). Wählen Sie im Signal einen Ausschnitt aus. Zu Beginn ist das normalerweise das gesamte Signal ohne die Pausen am Anfang bzw. Ende.
  8. Hören Sie sich das Signal an. Dazu klicken Sie entweder in den obersten der drei grauen Balken am unteren Bildschirmrand, oder Sie drücken die Tabulatortaste.
  9. Praat spielt nun den ausgewählten Signalabschnitt ab.
  10. Wenn Sie mit der Auswahl zufrieden sind, dann setzen Sie die linke Grenze des Segments. Dazu klicken Sie auf Boundary und dort auf Add on selected tier oder Sie drücken die Eingabetaste. In der Ebene mit gelbem Hintergrund wird eine rote Grenze gezeichnet.
  11. Auf den anderen Ebenen erscheinen grüne Grenzen (das sind Vorschläge) und schwarze Kreise an deren oberem Ende. Wenn Sie in die schwarzen Kreise klicken, dann wird die Grenze für die entsprechende Ebene übernommen.
  12. Tragen Sie ganz oben im Fenster in das Textfeld das Segmentlabel für die ausgewählte Annotationsebene ein.
Audiosignal Kap3Satz1.wav
Musterlösung in Form einer TextGrid-Datei dazu Kap3Satz1.TextGrid
Audiosignal Kap3Satz2.wav. Diese Datei wurde freundlicherweise von Dr. Briony Williams (Language Technologies at Bangor University) zur Verfügung gestellt .
Musterlösung in Form einer TextGrid-Datei dazu Kap3Satz2.TextGrid
Kap. 4 Aufgabe 1 Ein Oszillogramm gibt die Luftdruckschwankungen, die durch Schall hervorgerufen werden, wieder. Ein Mikrofon wandelt diese Schwankungen in ein elektrisches Signal um, und dieses wird in Form eines Oszillogramms dargestellt. vgl. Abb. 34 auf S. 67
Kap. 4 Aufgabe 2 Ein Sonagramm gibt die zeitliche Veränderung der Anteile einzelner Frequenzen im Schall wieder. Ein Spektrum gibt die Frequenzanteile für einen (kurzen) Signalausschnitt wieder; für ein Sonagramm werden viele Spektren für aufeinanderfolgende Signalausschnitte berechnet und in einem Diagramm dargestellt. vgl. Abb. 34 auf S. 67
Kap. 4 Aufgabe 3 Der grundlegende Unterschied ist die Länge des Signalabschnitts, für den die Spektren berechnet werden. Bei einem Breitband-Sonagramm ist der Signalabschnitt ca. 5-10 ms lang, bei einem Schmalband-Sonagramm > 40 ms.
Je kürzer die verwendeten Signalabschnitte sind, umso feiner ist die zeitliche Auflösung des Sonagramms, da mehr Spektren pro Zeiteinheit berechnet werden. Beim Breitband-Sonagramm ist diese Auflösung also deutlich besser als beim Schmalband-Sonagramm, was man an den deutlicheren Kanten und vertikalen Strukturen im Sonagramm erkennen kann.
Je länger die verwendeten Signalabschnitte sind, desto längere Perioden können erfasst werden. Damit ist eine Unterscheidung von Frequenzen, die nah beieinander liegen, möglich. Ein Schmalband-Sonagramm kann noch Frequenzunterschiede von 25 Hz erfassen, ein Breitband-Sonagramm nur solche von 100-200 Hz.
Im vertikalen Muster eines Breitband-Sonagramms erkennt man die Bewegungen der Stimmlippen: helle Streifen (kein Luftstrom) bei geschlossenen Stimmlippen, dunklere (Luftstrom) bei geöffneten Stimmlippen.
vgl. Abb. 35 auf S. 68
Kap. 4 Aufgabe 4 Gemäß dem Nyquist-Theorem muss die Abtastrate mindestens höher als doppelt so hoch sein wie die höchste abzutastende Frequenz. Bei einer Abtastrate von 16 kHz muss die höchste Frequenz im Signal damit unter 8 kHz liegen - das Sonagramm kann nur den Frequenzbereich von 0 bis < 8000 Hz darstellen. vgl. S. 37 Abschnitt 4.1
Kap. 4 Aufgabe 5 Diese Schwärzungen treten hauptsächlich in vokalischen Abschnitten einer Äußerung auf und ihre Stärkung entspricht dem Anteil dieser Frequenz am Gesamtsignal.
Diese besonders ausgeprägten Frequenzen sind sog. Formanten, das sind Resonanzen im Vokalraum. Für jeden Vokal gibt es eine charakteristische Verteilung dieser Formanten.
vgl. Abb. 25 auf S. 51 und S. 60 Abschnitt 3.1.3 unten.
Kap. 4 Aufgabe 6 a) stimmlose Plosive, z. B. /t/ zeigen im Sonagramm eine mehr oder weniger lange Pause, gefolgt von einem Burst, d. h. einem plötzlich einsetzenden kurzen Knall.
b) stimmhafte Frikative, z. B. /v/, zeigen eine geringe und nur wenig strukturierte Schwärzung in den hohen Frequenzen, und etwas deutlichere horizontale Schwärzungen in den niedrigen Frequenzbereichen.
Kap. 4 Aufgabe 7 Mit dem Elektropalatographen kann man die Laute gut erkennen, bei denen die Zungenoberfläche den Gaumen berührt und damit die Elektroden. Dies sind meist Konsonanten mit Engebildung oder Verschluss. Bei Vokalen dagegen berührt die Zunge den Gaumen nicht.
Kap. 4 Aufgabe 8 Bei der elektromagnetischen Artikulographie misst man die Bewegung der Zunge im Mundraum (genauer: die Bewegung der auf der Zunge befestigten Sensoren in einem magnetischen Feld). Aus den bekannten Positionen der Sensoren auf der Zunge kann die Kontur der Zungenoberfläche berechnet werden. EMA-Film des Satzes "Der tote Däne hatte sieben junge Töchter" in QuickTime bzw. Windows Media Format.
Die Filme wurden freundlicherweise von Phil Hoole vom Institut für Phonetik der LMU München zur Verfügung gestellt.
Kap. 4 Aufgabe 9 /p/ und /x/ sind stimmlose Konsonanten. Ein Laryngograph misst die Schwingungen der Stimmlippen, und diese sind bei stimmlosen Lauten geöffnet und schwingen nicht.
Kap. 5 Aufgabe 1 Eine lineare gemischte Binärdatei besteht aus einem Kopf und einem Rumpf, die sequentiell angeordnet sind. Der Kopf enthält beschreibende Information, der Rumpf die eigentlichen Signaldaten.
Eine hierarchische gemischte Binärdatei besteht aus einem Wurzelknoten und mehreren mit dem Wurzelknoten verbundenen Knoten, die entweder wiederum Knoten sind, oder aus einem Kopf und einem Rumpf bestehen.
Abb. 45 S. 82
Kap. 5 Aufgabe 2 Ein Containerformat speichert verschiedene Datenarten in einem einheitlichen Dateiformat. vgl. S. 84 Abschnitt 1.1
Kap. 5 Aufgabe 3 WAV-Audiodateien erkennt man üblicherweise an der Dateiextension .wav. Wenn man die Datei mit einem Texteditor öffnet (Achtung! Der Texteditor betrachtet auch die Signaldaten als Text und gibt dabei alle druckbaren Zeichen aus.) oder sich z. B. die ersten Bytes mit einem Hexadezimaleditor anschaut, dann steht in den ersten vier Bytes die Zeichenfolge 'RIFF', in den Bytes 8-12 die Zeichenfolge 'WAVE'.
Alternativ kann man versuchen, die Datei mit einem Audioeditor zu öffnen - dann sollte das Signal zu sehen und abzuspielen sein.
Kap. 5 Aufgabe 4 Bei der Datenkompression wird der Speicherbedarf von Daten verringert. Dies erfolgt durch das Weglassen redundanter bzw. das Löschen irrelevanter Information.
Man unterscheidet verlustfreie von verlustbehafteter Kompression. Erstere erlaubt die Wiederherstellung des Originals. Bei der verlustbehafteten Kompression wird Information gelöscht, so dass das Original nicht wiederhergestellt werden kann.
Die Leistung verlustfreier Kompression hängt vom gewählten Kompressionsverfahren und von den Ausgangsdaten ab. Bei verlustbehafteten Kompressionsverfahren kann man entweder die Kompressionsleistung vorgeben oder die gewünschte Qualität.
S. 88 ff.
Kap. 5 Aufgabe 5 Digitale Audiodaten mit fester Samplerate und Quantisierung lassen sich recht gut komprimieren, da sie a) redundant sind und b) die menschliche Audiowahrnehmung für einige Signalanteile weniger empfindlich ist.
Die verlustfreie Kompression entfernt redundante Information z. B. durch Reduktion der Abtastrate auf das Doppelte der tatsächlich im Signal vorkommenden hächsten Frequenz und die Anpassung der Quantisierung an die tatsächliche Dynamik im Signal.
Bei verlustbehafteter Kompression werden über die effiziente Kodierung hinaus zusätzlich nicht wahrnehmbare Signalantele aus dem Signal entfernt.
Kap. 5 Aufgabe 6 Der Begriff "Generationsverlust" stammt aus der Zeit der analogen Medien, z. B. Tonband oder Compact Cassette. Damit bezeichnet man die zunehmend schlechter werdende Qualität der Daten, wenn man von bereits kopierten Daten weitere Kopien erstellt.
Bei digitalen Medien tritt der Generationsverlust auf, wenn man verlustbehaftet komprimierte Daten ein weiteres Mal verlustbehaftet komprimiert.
Kap. 5 Aufgabe 7 Die drei wesentlichen Verfahren sind die Einzelbildkompression, Differenzverfahren und Bewegungskompensation. S. 101
Kap. 5 Aufgabe 8 Die Datenrate von Audiodaten ist zwar hoch, kann aber von modernen Rechnern, Festplatten und auch optischen Speichermedien problemlos verarbeitet werden. Da Audiosignale maschinell weiterverarbeitet werden und sie auch nachträglich komprimiert werden können, ist es notwendig, sie stets in voller Qualität, d. h. unkomprimiert aufzunehmen und zu speichern und sie erst nachträglich, und zwar unter Beibehaltung des Originals, zu komprimieren.
Die Datenrate von Video ist so hoch, dass auch moderne Festplatten nicht groß und sogar teilweise nicht schnell genug sind, um Videodaten unkomprimiert zu speichern.
S. 105
Kap. 5 Aufgabe 9 Im Oszillogramm erkennt man das weiße Rauschen daran, dass auch in den Sprechpausen im Signal ein deutlicher Ausschlag zu sehen ist. Bei näherer Betrachtung erkennt man, dass das Rauschen aus Zufallswerten in einem bestimmten Wertebereich besteht.
Im Sonagramm erkennt man das weiße Rauschen daran, dass im Frequenzbereich oberhalb ca. 400 Hz eine deutliche, nicht weiter strukturierte Schwärzung das Sprachsignal überlagert und auch in den Sprechpausen sichtbar ist.
Kap. 5 Aufgabe 10 Perzeptionsexperiment
Beurteilen Sie die Qualität des Audiosignals. Achten Sie auf insbesondere bei den Sprachaufnahmen auf die Verständlichkeit, bei den Audioaufnahmen auf den Klangeindruck.
Zum Experiment
Kap. 6 Aufgabe 1
Kap. 6 Aufgabe 2
Kap. 6 Aufgabe 3 ISO-8859 ist eine 8-Bit Zeichentabelle, d. h. sie kann 256 unterschiedliche Zeichen enthalten. Diese reichen nicht für alle Zeichen aller Sprachen aus, und daher wurden mehrere ISO-8859 Tabellen spezifiziert, die jeweils für eine einzelne Sprache oder Gruppen von Sprachen gelten. Wikipedia Artikel zu ISO 8859
Kap. 6 Aufgabe 4 Unicode hat zum Ziel, alle Zeichen aller bekannten Alphabete in eine Zeichentabelle aufzunehmen. Jedes Zeichen bekommt eine Nummer (engl. code point), eine eindeutige Beschreibung, eine zugeordnete Glyphe sowie Angaben zur Kombination mit anderen Zeichen. Unicode Webseiten
Kap. 6 Aufgabe 5 Unicode nummeriert seine Zeichen einfach durch. Da es potentiell beliebig viele Zeichen geben kann, macht eine Beschränkung auf eine Zeichentabelle mit einer festen Anzahl Positionen keinen Sinn.
Zur Verarbeitung und Speicherung von Unicode-Zeichen ist eine Abbildung auf eine Datenstruktur im Rechner notwendig. Dazu wurden eine Reihe von Kodierverfahren entwickelt, bei denen ein Unicodezeichen durch eine Folge von Einzelbytes (UTF-8), Bytepaaren (UTF-16) oder Vierergruppen (UTF-24) kodiert wird.
Jedes Kodierverfahren hat Vor- und Nachteile: Vorteil bei UTF-8 ist, dass Texte, die in ASCII kodiert sind, automatisch in UTF-8 sind, und dass ein Byte aus 8 Bit die kleinste Speichereinheit im Rechner ist; UTF-8 erfordert einige Kodier- und Dekodierarbeit, da die Nummer des Zeichens aus mehreren Bytes extrahiert werden muss. Außerdem kann das Verfahren maximal knapp 1,14 Mio. verschiedene Zeichen kodieren.
Der Vorteil von UTF-16 ist, dass es weitaus mehr Zeichen kodieren kann als UTF-8, Nachteile sind die Prozessorabhängigkeit sowie die Inkompatibilität zu bisherigen Zeichensätzen wie ASCII und ISO-8859.
Wikipedia Artikel zu UTF-8 und UTF-16
Kap. 6 Aufgabe 6 XML ist eine Auszeichnungssprache. Mit ihr können Texte explizit strukturiert werden. XML erlaubt die Definition von Dokumenttypen. In einer solchen Dokumenttyp-Definition (DTD) werden die zulässigen Marken (oder Tags) und ihre Beziehungen zueinander festgelegt. S. 119 Abschnitt 3
Kap. 6 Aufgabe 7 Ein XML Dokument ist wohlgeformt, wenn es die Regeln der XML-Syntax einhält. Darüberhinaus ist es wohlgeformt, wenn es einer vorgegebenen Dokumenttyp-Definition entspreicht. Die Gültigkeit ist also ein stärkeres Kriterium als die Wohlgeformtheit.
Kap. 6 Aufgabe 8 Ein Segment (vgl. Kap. 3 S. 57) besteht aus einem Label und einer Signaladresse, üblicherweise einem durch Beginn- und Endzeitpunkt begrenzten Intervall im Audiosignal. Ein Segment ordnet einem Signalabschnitt ein Label zu, das Signal wird damit annotiert. Ein Segment bezieht sich immer auf genau eine Aufnahme, während eine Aufnahme durch viele Segmente annotiert werden kann - es handelt sich also um eine 1:n Beziehung. Erweitertes ER-Diagramm mit Entität "Segment" und Beziehung "annotieren"
Kap. 6 Aufgabe 9 Die Entität Segment bnötigt mindestens die Attribute Label und Signaladresse, üblicherweise ein Tupel mit Beginn- und Endzeitpunkt. Alternativ kann auch Beginnzeitpunkt und Dauer verwendet werden. Darüberhinaus sind weitere Attribute denkbar, z. B. die Angabe der Annotationsebene, Verweise auf das Vorgänger- oder Nachfolgersegment, usw.
Kap. 6 Aufgabe 10 Die erste Abfrage kann wie folgt formuliert werden:
select *
from aufnahme a
inner join sitzung si on a.resultieren = si.id
where s1.raum = 'Studio_1'
Die Abfrage setzt voraus, dass die Relation Aufnahme ein Fremdschlüsselattribut resultieren hat, das auf das Schlüsselattribut id der Relation Sitzung verweist.
Mit einer Erweiterung der join-Klausel kann man auch auf die Relation Sprecher einbeziehen:
select a.dateiname, si.raum, spr.geschlecht
from aufnahme a
inner join sitzung si on a.resultieren = si.id
inner join sprecher spr on si.teilnehmen = spr.id
where s1.raum = 'Studio_1'
Kap. 7 Aufgabe 1 ungerichtet oder Kugelcharakteristik, bidirektional oder 8-Charakteristik (oder Nierencharakteristik), gerichtet oder Keulencharakteristik
Kap. 7 Aufgabe 2 Das Diagramm stellt die Empfindlichkeit eines Mikrofons bei verschiedenen Frequenzen dar. Im linken unteren Teil des Diagramms sind die Frequenzen 250, 500 und 1000 Hz zusammengefasst, im rechten Teil die Frequenzen 1000 und 2000 Hz. Das bedeutet, dass die Richtcharakteristik des Mikrofons für die Frequenzen in diesem Bereich im Wesentlichen gleich ist. Ein Pfeil verbindet diese Frequenzangaben mit einer dicken Linie, die den oberen Teil des Diagramms nierenförmig eingrenzt - in Richtung 30° - 0° - 330° ist die maximale Empfindlichkeit, in Richtung 210° - 180° - 150° die minimale.
Bei der Frequenz 8000 Hz zeigt der Pfeil auf eine Linie, die sich bei ca. 60° von der dicken Linie löst, bei 90° und 120° immer weiter von dieser Linie entfernt und zwischen 120° und 150° einen ganz anderen Verlauf nimmt. Das Mikrofon nimmt also Frequenzen im Bereich von 8000 Hz nicht nur von vorne, sondern auch von hinten auf - die Richtcharakteristik verändert sich in Richtung Kugelcharakteristik.
Kap. 7 Aufgabe 3 Ein Mikrofonarray kann die Richtung, aus der ein Schall eintrifft, erkennen. Trifft der Schall frontal auf ein Mikrofonarray, dann erreicht er alle Mikrofone gleichzeitig; trifft er von der Seite auf, dann erreicht er die näher an der Schallquelle liegenden Mikrofone früher als die weiter entfernten. Aus dieser zeitlichen Differenz kann der Winkel, aus dem der Schall eintrifft, berechnet werden.
Kap. 7 Aufgabe 4 Aus zwei Gründen: 1) befindet sich das Nahbesprechungsmikrofon direkt vor dem Mund, dann befindet es sich im Luftstrom, was zu Störgeräuschen führt. 2) Ein Mikrofon direkt vor dem Mund ist ständig im Blickfeld der Gesprächspartner und kann damit die Natürlichkeit des Dialogs beeinträchtigen.
Kap. 7 Aufgabe 5 Der 6,35 mm Klinkenstecker wird für ein elektrisch leitendes Kabel verwendet, der TOSLink Stecker für ein optisch leitendes.
Kap. 7 Aufgabe 6 Ein A/D-Wandler digitalisiert ein analoges Signal. Im Kontext von Sprachdatenbanken digitalisiert der A/D-Wandler das vom Mikrofon (oder einer anderen Audioquelle stammende) analoge elektrische Signal und gibt es als Folge von digitalen Samplewerten weiter.
Ein externer A/D-Wandler ist durch die räumliche Entfernung und u. U. einer elektrischen Entkoppelung weitgehend frei von störenden Einstrahlungen, wie sie innerhalb eines Rechnergehäuses und auf der Hauptplatine des Rechners vorkommen.
Kap. 7 Aufgabe 7 Die Nachhallzeit gibt an, wie lange es braucht, bis der Schalldruckpegel bis auf ein vorgegebenes Niveau, üblicherweise um 60 dB, abgesunken ist.
Die Nachhallzeit hängt von den akustischen Reflexionseigenschaften des Bodens, der Decke und der Wände, der Möblierung und der Frequenz des Schalls ab.
Kap. 7 Aufgabe 8 Ein Aufnahmeskript legt die Aufnahmeparameter für einzelne Aufnahmen sowie die Reihenfolge und den Inhalt der einzelnen Aufnahmen fest. Zu den Aufnahmeparametern gehören Aufnahmezeit, Dateiname, Audioformat und weitere Angaben.
Kap. 7 Aufgabe 9 Mit der WOZ-Technik kann man das Systemverhalten von sprachgesteuerten Diensten simulieren.
Kap. 7 Aufgabe 10 Bei Internet-basierten Sprachaufnahmen werden die eigentlichen Sprachaufnahmen auf dem Client durchgeführt und die Audiodaten auf einen Server hochgeladen. Auf diese Weise können geographisch verteilte Sprachaufnahmen in hoher technischer Qualität realisiert werden.
Für eine Internet-Sprachaufnahme meldet sich ein Benutzer über seinen Webbrowser beim Server an. Der Server erstellt ein Aufnahmeskript aus Stimuli und übermittelt dieses an den Client. Der Client arbeitet das Skript ab, führ eine elementare Signalverarbeitung (z. B. verlustfreie Kompression) durch und überträgt die aufgenommenen Audiodaten bereits während der Aufnahme an den Server.
Kap. 7 Aufgabe 11 Die Quittung dient als Nachweis, dass der Sprecher an einer Sprachaufnahme teilgenommen und dafür eine Gegenleistung erhalten hat. Die Quittung enthält nur die persönlichen Daten, die für die Auszahlung eines Geldbetrages notwendig sind.
Mit der Einverständniserklärung erklärt der Sprecher, dass er freiwillig an einer Sprachaufnahme teilgenommen hat, dass er über das Aufnahmeverfahren und die spätere Verwendung der Daten informiert wurde und dass er damit einverstanden ist bzw. unter welchen Einschränkungen die aufgenommenen Sprachdaten verwendet werden dürfen.
Der Personenbogen enthält in anonymer Form alle Angaben zur Person, die für die Sprachdatenbank notwendig sind.
Kap. 8 Aufgabe 1 Zwei Beispiele für eine analytische Beziehung sind a) Licht an/aus und die Beschreibung "0/1" sowie b) die Wassertemperatur und der Wertebereich "10° bis 60°" eines thermostatgesteuerten Wasserreglers.
Zwei Beispiele für eine empirische Beziehung sind a) die Beziehung zwischen dem grafischen Muster einer Handschrift und den Wörtern einer Sprache sowie b)
Kap. 8 Aufgabe 2 Eine Annotation beschreibt ein Signal in einem vorgegebenen kategorialen System. Eine Annotationsebene fasst alle Annotationen, die nach dem gleichen Verfahren und die dasselbe kategoriale System verwenden, zusammen und grenzt sie von anderen Annotationen ab.
Kap. 8 Aufgabe 3 Eine 1:n Beziehung zwischen zwei Annotationsebenen A1 und A2 bedeutet, dass ein Element E1 der Ebene A1 mit einem oder mehreren Elementen der Ebene A2 verknüpft ist.
Beispiel: zwischen der Ebene Satz und Lexem besteht eine 1:n Beziehung, ebenso zwischen der Ebene Lexem und Phonem.
Kap. 8 Aufgabe 4 Bei einer zeitalinierten Annotation ist ein Label durch eine Zeitangabe einem Signalausschnitt zugeordnet.
Kap. 8 Aufgabe 5 Ein Phonem ist die kleinste bedeutungsunterscheidende Einheit einer Sprache, d. h. die Klassifikation der Phoneme ist sprachabhängig. Eine phonemische Annotation verwendet die Symbole des Phoneminventars einer Sprache. So hat z. B. im Deutschen der Unterschied zwischen Zungen- und Zäpfchen-R keine bedeutungsunterscheidende Funktion, so dass für das Deutsche nur ein Symbol für das entsprechende Phonem verwendet wird (in SAMPA ist es /R/).
Bei der phonetischen Annotation wird die tatsächliche Aussprache annotiert. Dazu kann das gesamte Inventar aller Sprachlaute, wie es z. B. von der IPA definiert wurde, verwendet werden. In einer phonetischen Annotation wird daher sehr wohl zwischen Zungen- und Zäpfen-R unterschieden, auch wenn dieser Unterschied in der Sprache nicht relevant ist.
Kap. 8 Aufgabe 6 Bei der Umschrift wird ein Zeichen über einen Code eingegeben. Beispiele dafür sind a) die SMS-Texteingabe über die Mobiltelefontastatur, bei der das schnelle Tippen des Codes "111" den Buchstaben "C" eingibt und b) die Eingabe von Zeichen mit besonderer Bedeutung in HTML-Dokumenten, z. B. die Eingabe der Sequenz &lt; für das Zeichen <, mit dem HTML-Tags beginnen.
Kap. 8 Aufgabe 7 Annotationsgraphen sind ein formales System, mit dem alle anderen Annotationsnotationen und -formate für die Annotation gesprochener Sprache dargestellt werden können.
Kap. 8 Aufgabe 8 Die IPA empfiehlt die Annotation auf drei Ebenen: a) Orthographie, b) kanonische Aussprache (Phonem) und c) phonetisch einge Transkription.
Die orthographische Annoation dient dem schnellen Auffinden bestimmter Texte, die kanonische Aussprache gibt den erwarteten Lautkontext an. Mit der phonetisch engen Transkription wird die tatsächliche Aussprache festgehalten.
Kap. 9 Aufgabe 1 20 Sprecher * ((3 Minuten * 10) + 45 Minuten + 15 Minuten + 5 Minuten + 5 Minuten) = 100 Minuten * 20 = 2.000 Minuten = 33,3 Stunden für Rekrutierung und Aufnahmen
Kap. 9 Aufgabe 2 20 * 45 Minuten = 900 Minuten = 54.000 Sekunden Signaldaten.
Pro Sekunde fallen 22.050 * 16 Bit * 2 = 22.050 * 2 Byte * 2 = 88.200 Byte an.
54.000 * 88.200 Byte = 4.762.800.000 Byte = 4.7628 GByte
Kap. 9 Aufgabe 3 20 * 20 Minuten = 400 Minuten Sprachdaten.
Der Echtzeitfaktor für eine phonemische Annotation beträgt 100, d. h. die Annotation der Aufnahmen benötigt 40.000 Minuten = 666,6 Stunden = 83 Arbeitstage à 8 Stunden.
667 Stunden Annotation kosten bei 10 €/h 6670 €, dazu kommen 33 Stunden Rekrutierung und Aufnahme mit 330 € und 200 € für die Sprecher, insgesamt also 7200 €.