Akustische Phonetik

Akustische Phonetik - Kapitel III
Wie wird aus Sprachschall echte Sprache?

Prof. H.G. Tillmann, Dr.-Ing. F. Schiel

Inhalt:

Einleitende Bemerkung
Phonetische Information
A Prosodie - Intonation, Akzente, Pausen
B Prosodie - Silbenrhythmus
C Prosodie - Intrinsische Struktur der Laute
Zusammenfassung
Dritte Beantwortung der Hauptfrage
Fragen

Einleitende Bemerkung

Wir haben in den vorangegangenen Kapiteln erfahren, mit dem generellen Begriff Schall umzugehen und diesen auf den spezielleren Fall des menschlichen Sprachschalls einzugrenzen.

Die zentrale Frage der Akustischen Phonetik - die wir bereits ganz zu Beginn formuliert haben - war jedoch auf das Funktionieren der akustischen Informationsübertragung der menschlichen Sprache gerichtet.

Damit wir diesen zentralen Aspekt nicht aus den Augen verlieren, soll in diesem abschließenden, sehr viel kürzeren Abschnitt auf die Aspekte eingegangen werden, die es dem Sprecher und Hörer erlauben, Information mit Hilfe des Sprachsignals zu übermitteln.

Phonetische Information

Sprache dient letztendlich dazu, Information - mehr oder weniger vollständig und fehlerfrei - vom Sprecher zum Hörer zu übertragen. Die Akustik dient uns dabei, kodierte Information von der Oberfläche des Sprechers (Phonation, Artikulationstrakt) auf die Oberfläche des Hörers (Basilarmembran) zu leiten (

signalphonetisches Band).

Beispiel:

Die Ausdrücke mein Geld, dein Geld, kein Geld unterscheiden sich akustisch nur im vorderen Teil des ersten Wortes. Trotzdem sind nach der Dekodierung beim Hörer drei semantisch völlig verschiedene, eindeutige Bedeutungen empfangen worden.

Wir haben gesehen, wie Sprachlaute geformt, und z.T. auch, wie sie gebildet werden. Wir könnten jetzt mit diesem Wissen eine Kette von Sprachlauten erzeugen, indem wir diese beliebig aneinanderreihen, und würden trotzdem nichts verstehen.

Warum ist das so?

Weil wir bisher nur die Dynamik in einem sehr kleinen Kontext (sog. C Prosodie) behandelt, jedoch den zeitlichen Ablauf bei der Artikulation von größeren Einheiten (wie Silben oder Wörtern) vernachlässigt haben.
Mit anderen Worten: wir wissen jetzt, wie der zeitliche Ablauf des Sprachsignals z.B. innerhalb eines Plosivs aussieht, aber verständliche oder wohlartikulierte Sprache entsteht erst, wenn auch der zeitliche Ablauf in größeren Maßstab so ist, wie wir es bei menschlicher Sprache erwarten.

Die Sprechbewegungen - z.B. die Abfolge von stimmhaft und stimmlosen Abschnitten - müssen prosodisch wohlartikuliert sein.
Nach Tillmann (1980) unterscheiden wir dabei drei verschiedene Arten der Dynamik im Sprachsignal: die A-, B- und C-Prosodie.

A Prosodie - Intonation, Akzente, Pausen

In der zusammenhängenden Rede (z.T. auch in Einzelwörtern) beobachtet man, daß sich einige Parameter des Sprachsignals über längere Zeitabschnitte kontinuierlich ändern. Diese geben der Sprachäußerung quasi eine globale Struktur.

Zu diesen Parametern gehören u.a.

die Intonation, d.h. der Verlauf der Grundfrequenz in den stimmhaften Abschnitten des Sprachsignals.

Pausen, d.h. das Fehlen des Sprachsignals.

relative Lautstärke, d.h. lokale Anstiege der Energie.

Die mit Hilfe dieser drei Parameter erzeugte Struktur der Äußerung nennen wir A Prosodie (Tillmann(1980)).

Wie wir inzwischen wissen, werden diese Parameter nicht so sehr durch die Stellung des Artikulationstraktes, als vielmehr durch die Art der Phonation bestimmt. Auf die detailierte Behandlung der prosodischen Parameter kann im Rahmen dieses Dokuments nicht eingegangen werden. Für uns genügt es hier festzustellen, welche Arten der Information mit Hilfe der A Prosodie übermittelt werden können. Es sind dies unter anderem:

Satzintention (Aussage-, Frage-, Befehlssatz).

Betonung: grammatisch (durch Regeln der Sprache festgelegt) oder semantisch (Aufmerksamkeit auf bestimmte Inhalte lenken, sog. Fokus).

Auflösung von syntaktischen oder semantischen Ambiguitäten.

Gefühle des Sprechers.

Körperliche Verfassung.

und mehr.

Die A Prosodie kann von Sprecher mehr oder weniger willkürlich gesteuert werden.

Wichtig aber ist zu bemerken, daß auch abgesehen von den Möglichkeiten, Information mit Hilfe der A Prosodie zu übermitteln, diese auch Bedingung für wohlartikulierte Sprache ist.

Entfernt man alle Elemente der A Prosodie aus einem Sprachsignal, entsteht beim Hörer der Eindruck einer Computerstimme, die nicht mehr als menschliche Rede klassifiziert wird.

'Computerstimme' ohne A Prosodie

(Aus Haskins Labs Pattern Playback)

B Prosodie - Silbenrhythmus

Die A Prosodie ist nochmal überlagert durch eine Struktur mit kleinerem zeitlichen Maßstab: die rhythmische Abfolge von stimmhaften und stimmlosen Abschnitten.
Diese Modulation der A Prosodie wird gemeinhin Silbenfolge oder Silbenrhythmus genannt und stellt die B Prosodie dar.

Betrachtet man das Sonagramm oder das Zeitsignal eines längeren Abschnitts, kann man die B Prosodie gut an der geordneten Abfolge von stimmhaften, energiereichen und stimmlosen, energieschwachen Abschnitten erkennen.

Die B Prosodie wird unwillkürlich erzeugt. Sie ist - noch mehr als die A Prosodie - notwendig, um ein Signal als Sprache zu erkennen.

Symbolisch kann man die rhythmische Abfolge von stimmhaften und stimmlosen Bereichen als 'CVCVCVCVC...' darstellen, wobei 'V' einen vokalischen, also stimmhaften Bereich und 'C' einen konsonantischen, also stimmlosen Bereich markiert.

C Prosodie - Intrinsische Struktur der Laute

Die Einheiten der B Prosodie schließlich setzen sich aus den Sprachlauten zusammen, die wir im vorangegangenen Abschnitt kennengelernt haben. Die innere, intrinsische dynamische Struktur der Sprachlaute bezeichnen wir auch als C Prosodie.

Die C Prosodie regelt also beispielsweise die korrekten Formatübergänge zwischen benachbarten Lauten, die Abfolge von Pause, Burst und Aspiration bei Plosiven, das Zusammenspiel von stimmhafter Anregung und Friktion bei stimmhaften Frikativen, die koordinierte Absenkung des Velums und der Verschluss des vorderen Vokaltrakts bei Nasalen etc.

Die B und vor allem die C Prosodie enthalten die semantische Information, welche Wörter übermittelt werden sollen. Dies läßt sich in folgendem Experiment belegen:

Wir bilden ein akustisches Modell des Vokaltrakts und bestimmen mit dessen Hilfe die Modellparameter für eine gegebene Äußerung. Anschließend regen wir dieses Modell mit weißem Rauschen anstatt der Glottisphonation an. Das auditive Ergebniss ist, daß wir den Inhalt der Äußerung problemlos verstehen können.

Orginalton Mit Rauschen als Anregung

Befragt man den Hörer aber nach seinem Eindruck, wird er sagen, daß es sich nicht um eine normale menschliche Stimme handelt.

Umgekehrt können wir auch die C Prosodie vollständig aus dem Sprachsignal entfernen, so dass nur die prosodischen Strukturen der A und B Prosodie verbleiben:

Orginalton C Prosodie entfernt

Zusammenfassung

Damit aus Schall Sprachschall entsteht, genügt es nicht, einfach Sprachlaute hintereinander zu hängen. Damit beim Hörer der Eindruck von wohlartikulierter Sprache entsteht, die - scheinbar mühelos - zu dekodieren ist, bedarf es dem Zusammenspiel von A, B und C Prosodie. Alle diese phonetischen Informationen sind im Sprachsignal kodiert vorhanden.
Aus Sprachschall wird also erst Sprache, indem man dem Schall prosodisch wohlartikulierte Sprechbewegungen aufprägt.

Fragen

Was heißt prosodisch wohlartikuliert?

Welche Informationen werden mit Hilfe der A Prosodie übermittelt?

Welche Informationen werden mit Hilfe der B und C Prosodie übermittelt?

Antworten

Sollten Sie diese Seite als Papierausdruck vorliegen haben, finden Sie das Orginal Hypertext-Dokument unter folgender URL:
http://www.phonetik.uni-muenchen.de/AP/APKap1.html
Beachten Sie, daß alle Audio-Demonstrationen natürlich nur mit dem Orginal Dokument möglich sind.
Copyright © 1995 Institut für Phonetik und Sprachliche Kommunikation, Universität Müchen
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'AP' im Filenamen dürfen kopiert, gedruckt und an Dritte weitergegeben werden, unter der Bedingung, daß jede Seite vollständig bleibt. Weitergabe von Auszügen nur mit Erlaubnis der Urheber.

Florian Schiel