Prof. H.G. Tillmann, Dr.-Ing. F. Schiel
Die zentrale Frage der Akustischen Phonetik - die wir bereits ganz zu Beginn formuliert haben - war jedoch auf das Funktionieren der akustischen Informationsübertragung der menschlichen Sprache gerichtet.
Damit wir diesen zentralen Aspekt nicht aus den Augen verlieren, soll in diesem abschließenden, sehr viel kürzeren Abschnitt auf die Aspekte eingegangen werden, die es dem Sprecher und Hörer erlauben, Information mit Hilfe des Sprachsignals zu übermitteln.
Die Ausdrücke mein Geld, dein Geld, kein Geld
unterscheiden sich akustisch nur im vorderen Teil des ersten Wortes.
Trotzdem sind nach der Dekodierung beim Hörer drei semantisch völlig
verschiedene, eindeutige Bedeutungen empfangen worden.
Wir haben gesehen, wie Sprachlaute geformt, und z.T. auch, wie sie gebildet
werden. Wir könnten jetzt mit diesem Wissen eine Kette von
Sprachlauten erzeugen, indem wir diese beliebig aneinanderreihen,
und würden trotzdem nichts verstehen.
Warum ist das so?
Weil wir bisher nur die Dynamik in einem sehr kleinen Kontext
(sog. C Prosodie) behandelt, jedoch den zeitlichen
Ablauf bei der Artikulation von größeren Einheiten (wie Silben oder Wörtern)
vernachlässigt haben.
Die Sprechbewegungen - z.B. die Abfolge von stimmhaft und
stimmlosen Abschnitten - müssen prosodisch wohlartikuliert
sein.
Zu diesen Parametern gehören u.a.
Entfernt man alle Elemente der A Prosodie aus einem Sprachsignal,
entsteht beim Hörer der Eindruck einer Computerstimme,
die nicht mehr als menschliche Rede klassifiziert wird.
Symbolisch kann man die rhythmische Abfolge von stimmhaften und stimmlosen Bereichen als
'CVCVCVCVC...' darstellen, wobei 'V' einen vokalischen, also stimmhaften Bereich und 'C'
einen konsonantischen, also stimmlosen Bereich markiert.
Die B und vor allem die C Prosodie enthalten die semantische Information, welche
Wörter übermittelt werden sollen. Dies läßt
sich in folgendem Experiment belegen:
Wir bilden ein akustisches Modell des Vokaltrakts und bestimmen mit
dessen Hilfe die Modellparameter für eine gegebene
Äußerung. Anschließend regen wir dieses Modell
mit weißem Rauschen anstatt der Glottisphonation an.
Das auditive Ergebniss ist, daß wir den Inhalt der
Äußerung problemlos verstehen können.
Befragt man den Hörer aber nach seinem Eindruck, wird er sagen,
daß es sich nicht um eine normale menschliche Stimme handelt.
Umgekehrt können wir auch die C Prosodie vollständig aus dem Sprachsignal
entfernen, so dass nur die prosodischen Strukturen der A und B Prosodie
verbleiben:
Mit anderen Worten: wir wissen jetzt, wie der zeitliche Ablauf des
Sprachsignals z.B. innerhalb eines Plosivs aussieht, aber
verständliche oder wohlartikulierte Sprache entsteht
erst, wenn auch der zeitliche Ablauf in größeren Maßstab
so ist, wie wir es bei menschlicher Sprache erwarten.
Nach Tillmann (1980) unterscheiden wir dabei drei verschiedene Arten
der Dynamik im Sprachsignal: die A-, B- und C-Prosodie.
Die mit Hilfe dieser drei Parameter erzeugte Struktur der Äußerung
nennen wir A Prosodie (Tillmann(1980)).
Die A Prosodie kann von Sprecher mehr oder weniger willkürlich
gesteuert werden.
(Aus Haskins Labs Pattern Playback)
Diese Modulation der A Prosodie wird gemeinhin Silbenfolge oder
Silbenrhythmus genannt und stellt die B Prosodie dar. Orginalton
Mit Rauschen als Anregung
Orginalton
C Prosodie entfernt
http://www.phonetik.uni-muenchen.de/AP/APKap1.html
Beachten Sie, daß alle Audio-Demonstrationen natürlich nur
mit dem Orginal Dokument möglich sind.
Fragen
Sollten Sie diese Seite als Papierausdruck vorliegen haben, finden
Sie das Orginal Hypertext-Dokument unter folgender URL:
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'AP'
im Filenamen
dürfen kopiert, gedruckt und an Dritte weitergegeben werden,
unter der Bedingung, daß jede Seite vollständig bleibt.
Weitergabe von Auszügen nur mit Erlaubnis der Urheber.
Florian Schiel