Prosodisches Labeling

(VORLÄUFIGE VERSION !)



Inhalt

Einleitung

Prosodische Etikettierung
1. Allgemeines
2. Symbole
3. Definition
4. Übungsbeispiele
Anhang
Literatur


Einleitung

Gesprochene Sprache besteht aus einer Folge von Lauten, die zu Wörtern und Sätzen zusammengefügt werden. Die Übergänge von einem Wort zum anderen sind in der gesprochenen Sprache meist fließend im Gegensatz zur geschriebenen Sprache, die Wortgrenzen durch Leerzeichen markiert. Satzgrenzen, in der geschriebenen Sprache durch Satzzeichen wiedergegeben, werden in der gesprochenen Sprache durch Pausen oder Verlangsamung der Rede ausgedrückt. Über den Verlauf der Sprechmelodie (Intonation) , die sich als Sprachgrundfrequenz im Sprachsignal messen läßt, sowie über Lautdehnung und Lautstärke läßt sich die prosodische Strukturierung eines Satzes definieren.

Bei normaler Sprechweise fällt die Intonation zum Satzende hin ab. Dem Hörer wird signalisiert, daß der Satz bzw. die Phrase zu Ende ist. Ein Anstieg der Intonation zum Phrasenende hin zeigt eine Frage an. Der Fokus , der neue und wichtige Teil der Äußerung, wird durch die Akzentuierung , die Hervorhebung oder Betonung des neuen oder wichtigen Teils, hervorgehoben.

Beispiele:

(Bei den nachfolgenden Beispielen wird die Akzentuierung durch Großbuchstaben, die Intonation durch die Satzzeichen "." (fallende Intonation), "?" (steigende Intonation) und "," ( gleichbleibende Intonation) dargestellt, Phrasenenden durch "|" )

MARIANA nahm eine BANANE . (neutrale Aussage)

MARIANA nahm eine BANANE ? (neutrale Frage)

MARIANA nahm eine Banane . (Antwort auf die Frage "WER")

Mariana NAHM eine Banane . (Antwort auf die Frage "was tat sie")

Mariana nahm EINE Banane . (Antwort auf die Frage "WIEVIEL")

Mariana nahm eine BANANE . (Antwort auf die Frage "WAS")

MARIANA nahm eine BANANE | , und einen APFEL . (neutrale Aussage über mehrere Phrasen)

MARIANA nahm eine BANANE | , und aß sie . (neutrale Aussage über mehrere Phrasen)


Neben den o.g. Funktionen zeigt die Prosodie auch die Wortbetonung, den Ausdruck von Ärger und Aufregung usw., an. Für die prosodische Etikettierung in Smartkom sind jedoch nur folgende drei Funktionen der Prosodie wichtig:

Satzmodus (die Unterscheidung Frage/Nichtfrage)

Strukturierung (die Markierung der Satzstruktur durch Phrasengrenzen)

Prominenz (die Hervorhebung wichtiger Wörter durch Akzente)



Prosodische Etikettierung


1. Allgemeines

Beim prosodischen Etikettieren wird die Prosodie bei den digital aufgenommenen Sprachdaten der Versuchsperson markiert. Das prosodische Labeln der Synthese entfällt. Dabei sollte folgendermaßen vorgegangen werden:

Markierung von:

Grenzen von Intonationsphrasen

Primärakzent(= das am stärksten hervorgehobene Wort einer Intonationsphrase)

Nebenakzent (= weitere hervorgehobene Wörter)

Intonation an Phrasengrenzen und Akzenten

prominenten Daten zuerst

Nach Möglichkeit sollte zur prosodischen Etikettierung die Grundfrequenzkurve herangezogen werden.

WICHTIG: Der Haupt- oder Primärakzentkann beim Fehlen eines prominenten Wortes innerhalb einer Phrase entfallen.


2. Symbole

[B2] schwache Phrasengrenze

[B3 rise] starke Phrasengrenze mit leicht steigender Intonation

[B3 cont] starke Phrasengrenze, wobei die Intonation nicht signifikant fallend oder steigend ist.

[B3 fall] starke Phrasengrenze mit leicht fallender Intonation

[B9] irreguläre Phrasengrenze

[NA] Nebenakzent

[PA] Primärakzent

[EK] Emphase/Kontrast


3. Definition

Gesprochene Äußerungen werden durch prosodische Merkmale charakterisiert. Z.B. hebt sich die Stimme am Ende einer Frage. Teile einer Äußerung werden beim Sprechen zu sog. Intonationsphrasen (prosodische Einheiten) zusammengefaßt. Dabei werden Einschnitte im Redefluß auditiv wahrgenommen. Diese Einschnitte sollen durch Phrasengrenzen markiert werden.

Man unterscheidet dabei verschieden starke Einschnitte:


-[B9] = irreguläre Phrasengrenzen. Wenn der Sprecher zögert oder eine Pause macht, um sich seine weitere Wortwahl zu überlegen, tritt eine irreguläre Phrasengrenze auf (meist in Kombination mit hohem F0-Einsatz). Die Intonationsphrase wird dann meist unter- bzw. abgebrochen und somit nicht beendet. Dasselbe passiert auch bei Versprechern (meist in Kombination mit Häsitationen), die vom Sprecher dann korrigiert werden. [B9]-Grenzen, die nicht in Kombination mit Zögerungen auftreten, lassen sich meist durch eine unnatürliche Pause innerhalb der Phrase erkennen.

Beispiel:

w001_pk1_000_SMA: ... ich reagiere [NA] auf Ihre m"undliche [NA] Anweisung [PA] [B3 cont] oder auf Eingaben [NA] mit dem <*ENG>touch [PA] [B9] <*ENG>screen [B3 fall] . ...

[B9] ist die einzige Phrasengrenze, die INNERHALB eines Wortes auftreten kann!(Bsp.1).

Alle anderen Phrasengrenzen werden NACH dem letzten Wort der Phrase gelabelt, abgetrennt durch Leerzeichen: Wort Blank Phrasengrenze Blank sonstige Annotationen.



-[B2] = intermediäre Phrasengrenzen. Diese Phrasengrenze tritt innerhalb einer prosodischen Phrase auf (oft ohne Pause), wobei das globale Intonationsmuster erhalten bleibt. Sie ist schwächer als eine [B3]-Grenze (Bsp.1; Bsp.3; Bsp.4).

Beispiel:

w000_pk1_020_SMA: auf dem Display [PA] [B2] sehen Sie verschiedene Regionen [PA] [B2] f"ur eine Wettervorhersage [PA] [B3 fall] . w"ahlen [NA] Sie einen Ort [PA] aus [B3 fall] .



-[B3] = Intonationsphrasengrenzen. Dieses Label markiert einen starken Einschnitt im Redefluß und bezeichnet die »normale« Phrasengrenze (daher meist mit fallender Intonation [B3 fall]). Sie fällt mit dem Satzzeichen Punkt oder Fragezeichen zusammen. Normalerweise ist die [B3]-Grenze durch eine Pause markiert, bei schneller Sprechweise kann der Einschnitt meist nur durch starke Schwankungen in der Grundfrequenz oder durch einen Wechsel im Sprechtempo erkannt werden. Normalerweise ist die [B3]-Grenze durch eine Pause markiert und tritt oft mit einem Akzent auf.

Beispiele:

<"ahm> Moment [NA] [B3 fall]

w000_pk1_003_AAA: <"ahm> f"ur ~M"unchen [PA] [B3 fall] .

~M"unchen [PA] [B3 rise] ?

w001_pk1_008_SMA: ... verwenden Sie bitte [NA] f"ur eine Eingabe [NA] das Kommandowort [NA] !KEYSmartKom [PA] [B3 cont] oder !KEYComputer [PA] [B3 fall] . ...


     a. [B3 rise] starke Phrasengrenze mit leicht steigender Intonation, vor allem bei Fragesätzen (Bsp.3).


     b. [B3 cont] starke Phrasengrenze, wobei die Intonation eher gleichbleibend ist (Bsp.4).


     c. [B3 fall] starke Phrasengrenze mit leicht fallender Intonation (Bsp.1; Bsp.2; Bsp.5).


Sowohl [B2]- als auch [B3]-Grenzen können in Verbindung mit einer Pause auftreten.





Tritt die Phrasengrenze nach einer Pause < P > oder nach Atmen < A > auf, so wird die Grenzmarkierung vor der Pause angebracht. Grundsätzlich gilt: am Satzende steht immer eine Phrasengrenze. Absätze, die noch stärker voneinander abgehoben sind, werden grundsätzlich nicht zusätzlich markiert. Hervorgehobene Wörter in der gesprochenen Äußerung werden durch Akzente markiert. Bei den Akzenten werden unterschiedlich starke Betonungen unterschieden. Die Markierung erfolgt bei jeder Phrase einzeln. Die Akzente werden ebenfalls wortweise, also nach dem betroffenen Wort, markiert. Sie stehen dabei innerhalb der Phrase.

In diesen Beispielen sieht man die prosodischen Markern [NA] für Nebenakzent und [PA] Phrasenakzent. Sie markieren die unterschiedlich starke Betonung einzelner Wörter in gesprochenen Äußerungen.

Man unterscheidet folgende Akzente:

-Primärakzent[PA]: Dieser Akzent liegt auf dem am stärksten hervorgehobenen Wort der Phrase (z.B: Bsp.1) auf der lexikalisch betonten Silbe. Das ist das Wort mit der wichtigsten Information für den Hörer. Normalerweise tritt dieser Akzent nur einmal pro Phrase auf. Es können aber auch mehrere gleichstarke Phrasenakzente (z.B: bei Aufzählungen oder Bsp.2) oder kein [PA] auftreten.

Leitlinie ist die Perzeption, nicht ein theoretisches Constraint! (Fälle ohne [PA] treten typischerweise beim Beiseitesprechen auf. Z.B. Hilfe [NA] [B3 fall] .

Beispiel:

w001_pk1_000_SMA: hallo [PA] [B3 fall], ich bin ~SmartKom [PA] [B3 fall]. ich kann Ihnen Auskunft [NA] [B2] "uber das Wetter [NA] [B2] und das Kinoprogramm [PA] geben [B3 fall] . ich reagiere [NA] auf Ihre m"undliche [NA] Anweisung [PA] [B3 cont] oder auf Eingaben [NA] mit dem <*ENG>touch [PA] [B9] <*ENG>screen [B3 fall] . um mich zu aktivieren [PA] [B2] , verwenden Sie bitte das Kommandowort [NA] !KEYComputer [PA] [B2] oder !KEYSmartKom [PA] [B3 fall] . <#>



-Nebenakzent [NA]: Alle weiteren hervorgehobenen Wörter innerhalb einer Phrase werden durch den Nebenakzent markiert (z.B: Bsp.1). Die Markierung erfolgt wieder nach dem betroffenen Wort, wobei berücksichtigt werden sollte, daß sich die Markierung immer auf die lexikalisch betonte Silbe bezieht.

Beispiel:

w001_pk1_000_SMA: ... ich reagiere [NA] auf Ihre m"undliche [NA] Anweisung [PA] [B3 cont] oder auf Eingaben [NA] mit dem <*ENG>touch [PA] [B9] <*ENG>screen [B3 fall] . ... <#>



-Emphase/ Kontrast [EK]: Bei besonders starken Betonungen kann anstelle eines Phrasenakzents eine Emphase bzw.ein Kontrast auftreten (z.B: Bsp.5). Dieses Etikett wird immer dann verwendet, wenn ein Unterschied zu Vorangegangenem hervorgehoben werden soll.

Beispiel:

w001_pk1_019_AAA: ach so [PA] [B3 fall] . <"ahm>

und wie [PA] [B3 rise]? !KEYComputer [PA] [B2] , wie [EK] gebe ich +/das Wetter/+ +/da=/+ [PA] [B9] den Ort [EK] auf dem Display [PA] ein [B3 fall] ?



Transliterationskonvention:

Alle prosodischen Marker stehen in eckigen Klammern.



4. Übungsbeispiele

Wie die prosodische Annotation im einzelnen aussieht und wie es sich dann anhört, zeigen folgende Beispiele:


BEISPIEL1:

ich glaub' [NA] , ich geh' [NA] dann [B9] <"ahm> [NA] [B2] am *n"ahesten [NA] vielleicht ~Hauptstra"se [NA] #zweiundvierzig [PA] [B3 fall] .

Audiofile: Beispiel1



BEISPIEL 2:

okay<Z> [PA] [B3 fall] . <"ah> wei"st [PA] du vielleicht , wie weit [PA] es von diesem Kino ~Schlo"s [PA] ist<Z> [B3 fall] .

Audiofile: Beispiel2



BEISPIEL 3:

ah [NA] [B2] , und wo [NA] bin ich jetzt<Z> [PA] [B3 rise]?

Audiofile: Beispiel3



BEISPIEL 4:

ja [PA] [B2], vielleicht noch so [NA] eine Kneipe [PA] [B3 cont] <P> w"are nicht <!1 nich'> schlecht<Z> [PA] [B3 cont] .

Audiofile: Beispiel4



BEISPIEL 5:

den [EK] w"urd' ich gern [NA] sehen [PA] [B3 fall] .

Audiofile: Beispiel5





Anhang

p001_pk.wav

; CDR:

; TRV:

; Dialog: p001_pk

; zuletzt bearbeitet am: 26/4/00

; Tonqualität: URB:normal; SMA:leise

; ATMO: Demovideo

; VPK: URB

;

p001_pkw_001_SMA: herzlich willkommen bei SmartKom . wie kann ich Ihnen helfen ?

p001_pkd_002_URB: ich [NA] w"urd' gern ins Kino [PA] gehen [B3 fall] .

p001_pkw_003_SMA: ich zeige Ihnen eine "Ubersicht der Programme in den Heidelberger Kinos .

p001_pkd_004_URB: den [EK] w"urd' ich gern [NA] sehen [B3 fall] .

p001_pkw_005_SMA: hier eine "Ubersicht "uber den Film Mars Attacks .

p001_pkd_006_URB: mhm [PA] [B3 cont] . wo [NA] kommt der [PA] [B3 rise] ?

p001_pkw_007_SMA: hier eine Liste der Kinos , in denen der Film l"auft .

p001_pkd_008_URB: wo ist das [PA] Kino [NA] [B3 fall] ?

p001_pkw_009_SMA: hier eine Karte mit der "Ubersicht

p001_pkd_010_URB: da w"urd' ich gern reservieren [PA] [B3 cont] .

p001_pkw_011_SMA: eine Reservierung ist im Moment nicht m"oglich .

p001_pkd_012_URB: und warum [PA] nicht [NA] [B3 rise] ?

p001_pkw_013_SMA: ich habe Sie nicht verstanden .

p001_pkd_014_URB: <"ahm> [NA] [B3 cont]

<#> ein <: anderes:> [PA] Kino [NA] [B3 fall] . das [PA] da vielleicht [NA] [B3 fall] .

p001_pkw_015_SMA: hier eine "Ubersicht zum Kino Kieler-Kammerer .

p001_pkd_016_URB: da [PA] w"urd' ich gern reservieren [NA] [B3 fall] .

p001_pkw_017_SMA: ich zeige Ihnen die Sitzplatzreservierung . hier sehen Sie die Sitzplatzbelegung in diesem Kino f"ur heute abend . deuten Sie mit dem Finger auf die Pl"atze , die Sie reservieren m"ochten .

p001_pkd_018_URB: die [PA] beiden [B3 fall] .

p001_pkw_019_SMA: tut mir leid , diese beiden Pl"atze sind belegt .

p001_pkd_020_URB: [PA] [B3 cont] .

dann h"att' ich gern [NA] die [PA] beiden [B3 fall] .

p001_pkw_021_SMA: ist diese Reservierung so richtig ?

p001_pkd_022_URB: richtig [PA] [B3 fall] .

p001_pkw_023_SMA: geben Sie bitte den Namen an , den Sie diese beiden Pl"atze reservieren m"ochten .

p001_pkd_024_URB: ~Urban [PA] [B3 fall] .

p001_pkw_025_SMA: ich habe Sie nicht verstanden . k"onnen Sie das bitte buchstabieren .

p001_pkd_026_URB: $U [PA] [B3 cont]

$R1@ [PA] [B3 cont] <*T>t

p001_pkw_027_SMA:U .

p001_pkw_028_SMA: R .

p001_pkd_029_URB: $B [PA] [B3 fall] .

p001_pkw_030_SMA: B .

p001_pkd_031_URB: $A [PA] [B3 fall] .

p001_pkw_032_SMA: A .

p001_pkd_033_URB: $N [PA] [B3 fall] .

p001_pkw_034_SMA: N . ist dieser Name so richtig ?

p001_pkd_035_URB: richtig [PA] [B3 fall] .

p001_pkw_036_SMA: die beiden Pl"atze sind f"ur heute abend f"ur Sie reserviert . Ihre Reservierungsnummer lautet null , sechs , drei , f"unf . bitte holen Sie die Karten drei"sig Minuten vor Vorstellungsbeginn an der Kinokasse ab . auf Wiedersehen .

p001_pkd_037_URB: Danke [PA] Sch"on [B3 fall] .

;EOF



Literatur

Anton Batliner, Matthias Reyelt. Ein Inventar prosodischer Etiketten für VERBMOBIL. TU Braunschweig, Ludwig-Maximilians-Universität München. Juli 1994. 16 Seiten. Verbmobil Memo 33.

E. Paulus, J. Reinecke, M. Reyelt. Zur prosodischen Etikettierung in VERBMOBIL. TU Braunschweig. Dezember 1993. 5 Seiten. Verbmobil Memo 9.

A. Batliner: M specified: A revision of the syntactic-prosodic labelling system for large spontaneous speech databases. Verbmobil-Memo 124 F.-A.-Universität Erlangen-Nürnberg. August 1997

Nicole Beringer, Daniela Oppermann, Susanne Burger: Transliteration spontanprachlicher Daten - Lexikon der Transliterationskonventionen - SmartKom(Version 1). SmartKom Technisches Dokument Nr. 2, Februar 2000.