BAS
Bayerisches Archiv für Sprachsignale
File-Formate

Same page in english

Letzter Update dieser Seite: 13.10.2017


Diese Seite enthält Beschreibung und Definition der vom BAS empfohlenen/akzeptierten Dateiformate.
Außer den unten aufgeführten Formaten unterstützt das BAS alle standardisierten Fileformate von CLARIN.


  1. Akzeptierte Standard-Signaldaten
  2. Akzeptierte Proprietäre Signaldaten
  3. Akzeptierte Metadaten-Formate
  4. Akzeptierte Annotations-/Segment-/Labeldaten


Signaldaten


PhonDat 1

Signaldateien mit PhonDat 1 Header enthalten einen binären Header von konstant 512 Bytes Länge. Danach folgen die Sprachsamples, die grundsälich mit Low High Byte-Order (Intel-Format) in Worten (2 Bytes) abgespeichert sind. Der Header enthält eine definierte Struktur mit Begleitdaten, wie Abtastrate, Bitbreite, etc. Dieser Header ist ILS kompatibel.

Zum Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte Software verwendet werden (Modul header.c).

Eine detaillierte Beschreibung der binären Headerstruktur findet sich hier.


PhonDat 2

PhonDat 2 ist eine Erweiterung des PhonDat 1 Formats. Nach dem binären Header von 512 Bytes folgen beliebig viele weitere Header-Blöcke von 512 Bytes Länge, in welchen die Orthographie und (optional) eine kanonische Aussprache der Äußerung (in SAM-PA) gespeichert sind.
PhonDat 2 Header unterscheiden sich durch ihre Versions-Nummer (2) im binären Teil des Headers von PhonDat 1 Headern.

Zu Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte Software verwendet werden (Modul header.c).

Eine detaillierte Beschreibung der binären Headerstruktur und der nachfolgenden Blöcke findet sich hier.


NIST - SPHERE

Das NIST - SPHERE Format ist ein vom 'National Institute of Standards and Technology, USA' definiertes Format für Sprachdaten. Es wird in zahlreichen amerikanischen Korpora verwendet. Der große Vorteil von NIST ist der lesbare und dynamische Header für Metadaten.

Eine detaillierte Beschreibung des NIST/SPHERE Formats findet sich hier.

Einige BAS Korpora enthalten Daten im NIST/SPHERE Format. Zur Umwandlung von NIST in andere Standardformate empfehlen wir SoX, z.B.:

sox -t sph input.nist output.wav


Segment-/Labeldaten


S0-Format

Das S0-Format enthält Wortsegmentierungen von Äußerungen, die länger als ein Wort sind. Das Format stammt aus dem PhonDat Projekt. Die Labeldateien sind ASCII, haben das gleiche Präfix wie das zugehörige Signalfile und die Extension .S0.

Syntax:


<file> = <Name of segment file> CR
         <Orthography> CR
         oend CR
         <Canonical form> CR
         kend CR
         hend CR
         <list of word segments> 

<list of word segments> = <begin sample> <marker> CR
                                ...

<begin sample> = number of first sample 

<marker> = '#c:' (beginning of first word)  OR
           <canonical word form> (as read from the lexicon)  OR
           '.' (end of last word)

<Name of segment file> = any valid filename

<Orthography> =
The orthographic string contains the standard orthography or a
transliteration with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX
convention or by 7 bit ASCII signs or by German Character set
coding used by DEC and Sun:

Umlaut  LaTeX   7 Bit ASCII (dec)       German Char Set (hex)
Ae      "A      [ (91)                  C4
Ue      "U      ] (93)                  CD
Oe      "O      \ (92)                  D6
ae      "a      { (123)                 E4
ue      "u      } (125)                 FC
oe      "o      | (124)                 F6
ss      "s      ~ (126)                 DF

<Canonic form> =
The canonical string contains the expected citation form of the
words in the utterance. Note that this is NOT a transcription of the
signal. Symbols used are the German subcorpus of the 
SAM-PA, with
following changes to SAM-PA:

Q       Glottal stop
q       laryngealization (not in canonicalal forms!)
'       primary stress
"       secondary stress
#       compound word marker (optional)
+       function word marker (suffix, optional)

Words are seperated by two blanks, phonemic labels are seperated by
one blank. 

Bemerkungen:


S1-Format

Das S1-Format enthält die Phonemsegmentierung der Äußerung. Das Format stammt aus dem PhonDat Projekt. Die Labeldateien sind ASCII, haben den gleichen Präfix wie das zugehörige Signalfile und die Extension .S1.

Syntax:


<file> = <Name of segment file> CR
         <Orthography> CR
         oend CR
         <Canonical form> CR
         kend CR
         <Transcription> CR
         hend CR
         <list of phoneme segments> 

<list of phoneme segments> = <begin sample> <marker> CR
                                   ...

<begin sample> = number of first sample 

<marker> = '#c:' (beginning of first word)  OR
           '#p:' (pause) OR
           '#v:' (mis-pronunciation) OR
           <segment> OR
           <word boundary segment> OR
           <compound boundary segment> OR
           <punctuation> 

<segment> = $<sampa string> (ordinary segment)

<word boundary segment> = ##<sampa string>

<compound boundary segment> = $#<sampa string>

<sampa string> = any string of <extended German SAM-PA symbols> 

<punctuation> = '#.' OR '#,' OR '#?' OR '#!'

<Name of segment file> = any valid filename

<Orthography> =
The orthographic string contains the standard orthography or a transliteration
with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX convention or by 7 bit ASCII
signs or by German Character set coding used by DEC and Sun:

Umlaut  LaTeX   7 Bit ASCII (dec)       German Char Set (hex)
Ae      "A      [ (91)                  C4
Ue      "U      ] (93)                  CD
Oe      "O      \ (92)                  D6
ae      "a      { (123)                 E4
ue      "u      } (125)                 FC
oe      "o      | (124)                 F6
ss      "s      ~ (126)                 DF

<Canonic  form> =
The canonical string contains the expected citation form of the words in the
utterance. Note that this is NOT a transcription of the signal. Symbols used
are the German subcorpus of the  SAM-PA, with the following changes to SAM-PA:

Q       Glottal stop
q       laryngealization (not in canonical forms!)
'       primary stress
"       secondary stress
#       compound word marker (optional)
+       function word marker (suffix, optional)

Words are separated by two blanks, phonemic labels are separated by
one blank. 

<Extended German SAM-PA symbols> =
See here for a complete table of extended SAM-PA symbols.
Aside of the defined German SAM-PA symbols the following
additional symbols are used:
~               : nasalization, e.g. ~E
Q               : glottal stop (instead of ? in SAM-PA) 
'               : canonical primary word stress  
"               : canonical secondary word stress 
q               : laryngealization
%               : uncertain boundary, e.g. $%a:
-               : modifications of the canonical  form:
                  replacement:  a:-A
                  elision:      a:-
                  insertion:    -A
=               : realization of two syllables as a diphthong, e.g. E:=6
+               : function word (placed after last segment)

Bemerkungen:


S2-Format

Das S2-Format enthält automatisch erzeugte Phonem-Segmentierungen. Das Format entspricht weitgehend dem S1-Format mit folgenden Abweichungen:


BAS Partitur-Format

Allgemeines

Die meisten Formate für segmentale Informationen haben den Nachteil, daß sie Aus diesem Grunde wurde am BAS auf der Basis des SAM Labelformats ein neues offenes Format zur Beschreibung segmentaler Informationen entwickelt, welches diese Schwächen umgeht. Da es als Idealvorstellung alle verschiedenen Beschreibungsebenen des Sprachsignals wie die Stimmen einer Partitur nebeneinanderstellt, wurde es BAS Partitur Format (BPF) genannt.

In Zukunft werden alle BAS Korpora, sofern sie segmentale Informationen enthalten, im BAS Partitur Format ausgeliefert. Alte Formate werden zwar beibehalten, aber ab einem bestimmten Zeitpunkt nicht mehr mit Updates unterstützt.

Eine Veröffentlichung zur Version 1.2 finden Sie hier (1998).

Das BAS Partitur Format weist folgende Merkmale auf:

Files und Mimetype

Wie im SAM Standard sind BPF files vom Typ text/plain. Als Kodierungen sind nur 7-bit ASCII oder UTF-8 erlaubt. Manche BPF tier erlauben die Kodierung in LaTeX.

Nach Konvention haben BPF Files die Extension '*.par' oder '*.PAR' und den Mimetype 'text/plain-bas'.

BPF files sind 'zeilenorientiert', d.h. Information ist in Zeilen strukturiert und für die Verarbeitung durch UNIX-Tools wie sed, grep, gawk optimiert. Eine XML Version der BPF Daten ist im Annotation Graph Konzept von Liberman (ATLAS format) kodiert. Diese Files haben nach Konvention die Extensionen '*.ags' oder '*.AGS' und den Mimetype 'text/xml'. Die DTD dieses Formats kann hier heruntergeladen werden.

History

1.0   : 01.09.95 Vorläufige Definition des BAS Partitur Formats 
        BITTE NICHT MEHR VERWENDEN !
1.1   : 01.06.96 Strukturierte Definition mit Klassen
1.2   : 28.08.96 Label ELF: aus Definition gestrichen
        (Tool par-1.1-to-1.2 wandelt 1.1 Files in 1.2 Files um)
1.2.1 : ?
1.2.2 : Tier DAS added
1.2.3 : 16.01.98 Tier TR2, SUP added
1.2.4 : 07.07.98 Tier PRS added
1.2.5 : 24.08.98 Tier NOI added
1.2.6 : distinction between symbolic links to word groups (list of word
        numbers seperated by kommata) and symbolic links to events between
        words (eg. noises, number pairs seperated by semi-colon)
        changed class definition of class 1, 4 and 5 accordingly
        changed tier defintion NOI
1.2.7 : 12.09.00 Tiers LBP and LBG added
1.2.8 : 11.05.01 Tiers PRO,POS,LMA,SYN,FUN,LEX added
1.2.9 : 07.08.01 : Tier IPA added
1.2.10 : 29.08.01 : Tier TRN added
1.2.11 : 28.11.01 : Tier TRS added
1.2.12 : 20.07.02 : Tiers GES,USH,USM,OCC,USP added
1.2.13 : 22.10.02 : Tier GES: definition of gestures extended
                    Tier TLN added
1.2.14 : 21.04.06 : Tier PRM added		    
1.2.15 : 21.02.07 : Tier TRW added
1.2.16 : 21.09.09 : Tier MAS added
1.3    : 05.10.12 : Extension of 7-bit ASCII to UTF-8 as a valid coding 
1.3.1  : 11.05.17 : added header entries MAO (MAUS options) and GPO (G2P options)
1.3.2  : 27.06.17 : added header entry SAO (Speech Recognition options)
1.3.3  : 20.07.17 : added type 1 tier TRO 
1.3.4  : 13.10.17 : added type 1 tier SPK

Strukturdefinition 1.2

Eine Partiturdatei hat den gleichen Präfix wie die zugehörige Signaldatei (vorzugsweise 8 Zeichen für ISO 9660 Kompatibilität), aber die Extension .par.

Der Inhalt der Datei ist nur in 7-Bit-ASCII und UTF-8 kodiert (um Portabilität auf alle Plattformen zu gewährleisten); je nach Label-Typ können Sonderzeichen (z.B. Umlaute) in LaTeX oder UTF-8 kodiert werden. Jede Zeile beginnt mit einem eindeutigen dreistelligem Label, gefolgt von einem Doppelpunkt, das den Inhalt (Syntax und Semantik) der nachfolgenden Zeile definiert. Minimal enthält eine Zeile nur ein Label. Die Einheiten der Zeile sind mit 'white spaces' (blank, tab) von einander getrennt.

Das Partiturfile besteht analog zu SAM aus einem Headerteil vom Beginn der Datei bis Label LBD: und einem Bodyteil von Label LBD: bis zum Dateiende, wobei die letzte Zeile korrekt mit 'new line' abgeschlossen sein muß (das abschließende Label ELF: des SAM Label Formats wurde nicht übernommen, da es die einfach Bearbeitung der Partiturfiles behindert).

Der Headerteil enthält SAM-kompatibel die wichtigsten generellen Informationen. Obligatorisch sind die folgenden Einträge:

LHD: Partitur Version
REP: Aufnahmeort
SNB: Anzahl Bytes pro Sample
SAM: Abtastrate in Hz
SBF: Bytereihenfolge (Intel 01, Motorola 10)
SSB: Bitauflösung
NCH: Anzahl Kanäle
SPN: Sprecher ID
LBD:

Zum Beispiel:

LHD: Partitur 1.3
REP: Muenchen
SNB: 2
SAM: 16000
SBF: 01
SSB: 16
NCH: 1
SPN: PS1
LBD:

Die folgenden Einträge sind optional (außer diesen sind im Prinzip auch beliebige andere erlaubt, solange sie nicht mit obligatorischen Label-Definitionen kollidieren!):

FIL: SAM Dateitype
TYP: Typ des SAM-Labelfiles
DBN: Korpusname
VOL: Nummer des Volumes
DIR: Directory im Volume
SRC: Name des Sprachsignalfiles
BEG: Anfang der gelabelten Sequenz
END: Ende der gelabelten Sequenz
RED: Aufnahmedatum
RET: Aufnahmedauer
RCC: Aufnahmebedingungen (Mikrophone,etc.)
CMT: Kommentar
SPI: Sprecherinformation
PCF: Name der Protokolldatei
PCN: Protokollnummer
EXP: Name des Segmentierers
SYS: Labelingsystem
DAT: Datum der Fertigstellung der Labelung
SPA: SAM-PA Version
MAO: MAUS version and option list (paired value list)
GPO: G2P version and option list (paired value list)
SAO: Speech recognition program, version and option list (paired value list)

Alle Header-Label sind SAM-kompatibel.

Der Bodyteil beginnt nach dem Label LBD: und reicht bis zum Dateiende. Er enthält die eigentlichen Spuren der Partitur. Jede Spur ist durch ihr eindeutiges Label gekennzeichnet. Sowohl die Reihenfolge der Spuren, als auch die Reihenfolge der einzelnen Zeilen einer Spur sind beliebig.

Es gibt 5 Grundklassen von Spuren:

  1. Spuren mit symbolischer Relation

    Eine Zeile dieser Spur enthält drei Einträge:

    • das Tier-Label
    • eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wörtern darstellen (durch Kommata getrennt) oder ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet (durch Semicolon getrennt)
    • einen String mit der Labelinformation
    Diese drei Einträge sind durch 'white spaces' getrennt.
    Die symbolischen Links beziehen sich auf eine Referenzspur, in der die Worteinheiten von Null beginnend durchnumeriert sind (Die Wahl der Wörter als Einheit ist willkürlich!).
    Der Label-String wiederum enthält eine für diesen Tier spezifizierte Syntax und Semantik.

    Beispiele:

    TRL: 6,7 mit'm
    NOI: 4;5 #Klopfen

  2. Spuren mit zeitlicher Relation, zeitkonsumierend

    Eine Zeile dieser Spur enthält 4 Einträge:

    • das Tier-Label
    • zwei Zahlen, die Beginn und Dauer des Ereignisses bezeichnen
    • einen String mit der Labelinformation
    Die Zahlen sind vom Typ Integer; sie bezeichnen Beginn und Dauer des zeitlichen Segments; ihre semantische Bedeutung hängt von der spezifischen Semantik der Spur ab (möglich sind z.B. Samples, Millisekunden).

    Zum Beispiel:

    GES: 10334949 23646 I-Geste I - tipp + ...

  3. Spuren mit zeitlicher Relation, nicht zeitkonsumierend

    Eine Zeile dieser Spur enthält drei Einträge:

    • das Tier-Label
    • eine Zahl, die den Zeitpunkt des Ereignisses bezeichnet
    • einen String mit der Labelinformation
    Die Zahl ist vom Typ Integer; ihre semantische Bedeutung hängt von der spezifischen Semantik der Spur ab (möglich sind z.B. Samples, Millisekunden).

    Zum Beispiel:

    PRB: 13456 TON: P*; FUN: PA

  4. Spuren mit zeitlicher Relation und symbolischer Relation, zeitkonsumierend

    Eine Zeile dieser Spur enthält fünf Einträge:

    • das Tier-Label
    • zwei Zahlen, die Beginn und Dauer des Ereignisses bezeichnen
    • eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wörtern darstellen (durch Kommata getrennt) oder
      ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet (durch Semicolon getrennt)
    • einen String mit der Labelinformation
    Die beiden ersten Zahlen sind vom Typ Integer; sie bezeichnen Beginn und Ende des zeitlichen Segments; ihre semantische Bedeutung hängt von der spezifischen Semantik der Spur ab (möglich sind z.B. Samples, Millisekunden).

    Zum Beispiel:

    SAP: 13456 345 9 aU

  5. Spuren mit zeitlicher Relation und symbolischer Realtion, nicht zeitkonsumierend

    Eine Zeile dieser Spur enthält vier Einträge:

    • das Tier-Label
    • eine Zahl, die den Zeitpunkt des Ereignisses bezeichnet
    • eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wörtern darstellen (durch Kommata getrennt) oder
      ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet (durch Semicolon getrennt)
    • einen String mit der Labelinformation
    Die Zahl ist Integer; ihre semantische Bedeutung hängt von der spezifischen Semantik der Spur ab (möglich sind z.B. Samples, Millisekunden).

    Zum Beispiel:

    PRB: 13456 13 TON: P*; FUN: PA

Bemerkungen:

Spurdefinitionen

  1. Vorschlagstranskription (kanonische Form) KAN: Klasse 1

    Definition:

    KAN: (symbolic link) (transcript)

    Diese Spur enthält eine tokenisierte Liste der vom Sprecher getätigten Wörter in einer 'kanonischen' Ausspracheform kodiert in SAMPA (soweit definiert für diese Sprache) oder X-SAMPA. (in älteren deutschen Korpora ev. noch in einer Variante German SAM-PA). Anstatt eines 'glutinierten' SAMPA Strings in der 3. Spalte können die SAMPA-Symbole auch durch Leerzeichen getrennt kodiert werden (also in Spalte 3 bis Ende, empfohlen).
    'Kanonisch' ist hier in Anführungszeichen gesetzt, weil z.B. bei Spontansprache oft nicht mehr von einer kanonischen Form, also einer Zitierform gesprochen werden kann; z.B. wenn es sich um verstümmelte Wörter oder Häsitationen handelt.
    Die Segmentierung der Gesamtäußerung erfolgt in Worteinheiten, wobei alles als Wort gilt, was mehr oder weniger klar zur 'Rede' des Sprechers gerechnet werden kann. Z.B. gelten in diesem Sinne Häsitationen als Wörter, Lachen und Husten dagegen nicht. Diese Trennung ist nicht immer eindeutig durchzuführen, spielt aber auch keine Rolle, da diese Spur mehr oder weniger willkürlich als Referenzspur verwendet werden soll (der Begriff 'kanonische Form' ist bekanntlich umstritten, aber nützlich!).
    Ähnliche Probleme ergeben sich bei stark reduzierten Formen, die orthographisch z.B. als mit'm wiedergegeben werden. In diesen Fällen werden die zugrundeliegenden Wörter restituiert wiedergegeben, hier als /mIt de:m/. Grund hierfür ist, daß genau solche Phänomene anhand der standardisierten Referenzspuren automatisch ermittelbar sein sollen.

    Zum Beispiel:

    KAN: 0  j 'a:
    KAN: 1  Q a l z o:+
    KAN: 2  Q E: m
    KAN: 3  h 'OY t @
    KAN: 4  Q o: d 6+
    KAN: 5  m 'O6 g @ n
    

    Die symbolische Nummerierung der Worteinheiten der Vorschlagstranskription bildet, wie schon erwähnt, die Referenz für alle anderen symbolischen Bezüge (soweit vorhanden). Der Sinn dieser Zuordnung von kategorialen Ereignissen zu Worteinheiten liegt zunächst ganz pragmatisch darin, daß dadurch eine korrekte Darstellung der Partituren über der Zeit ermöglicht werden soll. Die Zuordnung kann aber auch andere Vorteile haben, z.B. bei der Darstellung von prosodischen Ereignissen.

  2. Silbifizierte Vorschlagstranskription (kanonische Form) KAS: Klasse 1

    Definition:
    KAS: (symbolic link) (transcript)

    Diese Spur enthält eine Liste der vom Sprecher geäßerten Wörter in einer silbifizierten kanonischen Ausspracheform. Die Transkription erfolgt in der SAMPA-Variante der zugrundeliegenden Sprache oder X-SAMPA. Silben sind hierbei durch einen Punkt '.' getrennt. Die SAMPA-Symbole können durch Blanks getrennt sein. Ambisyllabische Konsonanten werden der vorangehenden Silbe zugeordnet.

    Zum Beispiel:

    KAS:	0	v i:6 
    KAS:	1	m Y s . @ n
    KAS:	2	d a n
    KAS:	3	d i: . z @
    KAS:	4	f i l . j a: . l @
    KAS:	5	Q I n
    KAS:	6	h a n . o: . f 6
    KAS:	7	b @ . z u: . x @ n
    
  3. Phonemische Transkription PTR: Klasse 1

    Definition:

    PTR: (symbolic link) (transcript)

    Diese Spur enthält eine Liste der vom Sprecher gesprochenen Wörtern in der tatsächlichen Aussprache kodiert in SAMPA (bei Deutsch wird in älteren Sprachkorpora erweitertes German SAM-PA verwendet).

    Zum Beispiel:

    PTR: 0  j a:
    PTR: 1  a l z O
    PTR: 2  @ m
    PTR: 3  h OY t @
    PTR: 4  o: d 6
    PTR: 5  m O6 N
    

    Die PTR weicht i.A. von der KAN ab, weil Sprecher nur selten in Zitierformen sprechen.

  4. Orthographie ORT: Klasse 1

    Definition:

    ORT: (symbolic link) (orthography)

    Die Spur Orthographie enthält die zur Vorschlagstranskription gehörigen orthographischen Formen.
    Es gilt die lexikalische Schreibweise, d.h. zu Beginn eines Satzes wird klein geschrieben (nur Nomen werden groß geschrieben). Umlaute und andere von 7 Bit ASCII abweichende Buchstaben werden so notiert, wie sie für den lexikalen Zugriff benötigt werden. Daher können z.B. Umlaute von Fall zu Fall (d.h. in verschiedenen Korpora) unterschiedlich kodiert sein, z.B. in ISO-8859 oder in LaTeX.
    Diese Spur dient zur einfachen Referenz auf einen Lexikoneintrag. Daher soll sie außer lexikalischen Einheiten keine weiteren Informationen oder Marker enthalten. Sie enthält daher auch keine Interpunktionen. Zu den 'lexikalischen' Einheiten gehören allerdings alle Einheiten, die auch in der KAN Spur definiert sind (d.h. z.B. Hesitationen, Abbrüche).

    Zum Beipiel:

    ORT: 0  ja
    ORT: 1  also
    ORT: 2  <"ahm>
    ORT: 3  heute
    ORT: 4  oder
    ORT: 5  morgen
    

  5. Verbmobil Transliteration TRL: Klasse 1

    Definition:

    TRL: (list of symbolic links) (transliteration) Klasse 1

    Die Spur Verbmobil-Transliteration enthält die Transliteration der Äußerung nach den Verbmobil I Transliterations-Konventionen segmentiert in die Einheiten der Vorschlagstranskription.
    Dabei kann es (z.B. bei reduziert dargestellten Formen) vorkommen, daß eine Einheit sich auf zwei Worteinheiten bezieht. Die Segmentierung erfolgt derart, daß immer der ganze Bereich bis zum Beginn der nächsten Worteinheit als Labelstring eingetragen wird. Durch diese Festlegung entsteht möglicherweise am Anfang der Transliterationsspur ein Eintrag, der keine Worteinheit enthält. Dieser wird durch den symbolischen Link 0 zur ersten Worteinheit zugerechnet.

    Eine Beschreibung des Verbmobil I Transliterationsformats befindet sich hier.

    Beispiele:

    TRL: 0  <Schmatzen>
    TRL: 0  ja ,
    TRL: 1  also
    TRL: 2  <"ahm>
    TRL: 3  heute
    TRL: 4  oder 
    TRL: 5  morgen  .
    

  6. Verbmobil Transliteration II TR2: Klasse 1

    Definition:

    TR2: (list of symbolic links) (transliteration) Klasse 1

    Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach den neu überarbeiteten Konvention des Verbmobil II Projektes. Eine grundlegende Überarbeitung der Konventionen wurde notwendig, weil sich das Format der ersten Verbmobil Phase nicht durch automatische Parser verarbeiten ließ. Nähere Informationen zum VM II Format befinden sich hier.

    Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).

    Beispiel:

    TR2: 25 ~Weihnachten
    TR2: 26 ist
    TR2: 27 das
    TR2: 28 sowieso
    TR2: 29 immer
    TR2: 30 etwas
    TR2: 31 schwierig ,
    TR2: 32 und
    TR2: 33 <"ahm>
    TR2: 34 in
    TR2: 35 der
    TR2: 36 #zweiten
    TR2: 37 Dezemberwoche
    TR2: 38 bin
    TR2: 39 ich
    TR2: 40 in
    TR2: 41 ~M"unchen
    TR2: 42 auf
    TR2: 43 dem 
    TR2: 44 Kongre"s .
    TR2: 45 also
    TR2: 46 bliebe
    TR2: 47 noch   
    

  7. Original-TranskriptionTRO: Klasse 1

    Definition:

    TRO: (list of symbolic links) (transliteration) Klasse 1

    Diese Spur beschreibt exakt die originale Transkription einer Aufnahme, d.h. wenn man alle label strings konkateniert, sollte man wieder die Textform des original Transkriptes erhalten. Zeilenumbrüche sind als '\n' kodiert. TRO kann z.B. das Ergebnis eines optimalen Mappings der Referenz-Tier ORT auf die original Transkription sein (z.B. das Ergebnis des Webservice 'subtitle'). Die TRO tier kann z.B. in Verbindung mit einer MAUS-Segmentierung für die automatische Erzeugung von Untertiteln genutzt werden, oder für die Indizierung auf original strings der Transkription.

    Beispiel:

    TRO: 67 Roten
    TRO: 68 Himmel.
    TRO: 69 Mein
    TRO: 70 Blick
    TRO: 71 folgte
    TRO: 72 dem
    TRO: 73 2.
    TRO: 74 Raumschiff,
    TRO: 75 wie
    

  8. Überlagerte Sprache SUP: Klasse 1

    Definition:

    SUP: (list of symbolic links) (utterrance-id) (transliteration) Klasse 1

    In Multi-Party Aufnahmen (z.B. Verbmobil II) kann es vorkommen, daß die Sprache des gerade aufgenommenen Sprechers von anderen Sprechern aktiv überlagert wird ('cross talk'). In diesem Fall wird eine zusätzliche Spur SUP eingefügt, welche genau die Teile des 'fremden' Sprecher transliteriert, die den gerade sprechenden Partner 'aktiv überlagert'. Die symbolischen Links geben die Referenz zu den überlagerten Teilen der Äußerung wieder. Die 'utterance-id' ist i.a. der Filename der Äußerung, aus dem die Überlagerung stammt. Die Spur SUP wird im Moment nur in Verbindung mit der Spur TR2 verwendet. Zur näheren Definition von überlagerter Sprache in Verbmobil II siehe hier.

    Zum Beispiel:

    TR2: 0 ich
    TR2: 1 w"urde
    TR2: 2 vorschlagen ,
    TR2: 3 da"s
    TR2: 4 wir9@
    TR2: 5 dann9@
    TR2: 6 <:<#> hinfliegen:> ,
    TR2: 7 <:<#> ich:>
    TR2: 8 hab'
    TR2: 9 jetzt 
    TR2: 10 aber
    TR2: 11 <:<#Rascheln> grade:>
    TR2: 12 <:<#Rascheln> keine:>
    TR2: 13 Unterlagen
    TR2: 14 da . <#>
    SUP: 4,5 g002acn2_028_AAK.par   @9ja 
    

  9. Phonetische Segmentierung PhonDat PHO: Klasse 4

    Definition:

    PHO: (begin) (duration) (list of symbolic links) (label string)

    Diese Spur enthält eine bündige Segmentierung der Äußerung in extended German SAM-PA Einheiten (breite phonetische Segmentierung). Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples.
    Zu den Konventionen der Segmentierung und zur Syntax und Semantik des Labelstrings siehe hier.

    <label string> = '#c:' (beginning of first word)  OR
               '#p:' (pause) OR
               '#v:' (mis-pronunciation) OR
               <segment> OR
               <word boundary segment> OR
               <compound boundary segment> OR
               <punctuation>
    
    <segment> = $<sampa string> (ordinary segment)
    
    <word boundary segment> = ##<sampa string>
    
    <compound boundary segment> = $#<sampa string>
    
    <sampa string> = any string of <extended German SAM-PA symbols>
    
    <punctuation> = '#.' OR '#,' OR '#?' OR '#!'
    

    Die Definition für extended German SAM-PA befindet sich hier.

    Zum Beispiel:

    PHO: 2473	0	0	#c:
    PHO: 2473	1100	0	##d
    PHO: 3573	0	0	$a-@
    PHO: 4126	2007	0	$s
    PHO: 6133	0	0	$-+
    PHO: 6133	1130	1	##g
    PHO: 7263	1206	1	$e:
    PHO: 8496	937	1	$t
    PHO: 9433	0	2	##Q-
    PHO: 9433	0	2	$-q
    PHO: 9433	2698	2	$aU
    PHO: 12131	1178	2	$x
    PHO: 13309	0	2	$-+
    PHO: 13309	962	3	##n
    PHO: 14271	1675	3	$I
    PHO: 15946	4308	3	$C
    PHO: 18579	0	3	$t-
    PHO: 18579	0	3	$-+
    PHO: 18579	5467	3	#p:
    

  10. Phonetische Segmentierung SAM-PA SAP: Klasse 4

    Definition:

    SAP: (begin) (duration) (list of symbolic links) (label string)

    Diese Spur enthält eine Segmentierung der Äußerung in SAM-PA/X-SAMPA Einheiten (breite phonetische Segmentierung). Im Gegensatz zur Spur PHO: muß diese nicht bündig sein. Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples.
    Zu den Konventionen der Segmentierung und zur Syntax und Semantik des Labelstrings siehe
    hier.

    Die Definition für extended German SAM-PA befindet sich hier.

    Zum Beispiel:

    SAP:	549	867	0	Q%<
    SAP:	1416	1242	0	aU
    SAP:	2658	1136	0	f
    SAP:	3794	408	1	v
    SAP:	4202	852	1	i:
    SAP:	5054	433	1	d
    SAP:	5487	1686	1	6%>
    SAP:	7173	828	1	h%<%>
    SAP:	8001	864	1	2:-9%<%>
    SAP:	8865	1015	1	r-6%<
    SAP:	9880	0	1	@-
    SAP:	9880	1732	1	n
    

  11. Automatische Phonetische Segmentierung durch MAUS MAU: Klasse 4

    Definition:

    MAU: (begin) (duration) (list of symbolic links) (label string)

    Diese Spur enthält eine vollautomatisch erstellte Segmentierung in Einheiten des SAM-PA. Einige dieser Segmentierungen (Verbmobil) werden in enger Zusammenarbeit mit der TU München, Lehrstuhl für Mensch-Maschine-Kommunikation (Dr. G. Ruske) erstellt.
    Eine ausführliche Beschreibung des MAUS Systems finden Sie hier.

    Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn der Aufnahme, die zweite Nummer bezeichnet die Länge des Segments in Samples.
    Die Segmentierung erfolgt bündig und ohne Bezug zur Vorschlagstranskription (außer den symbolischen Relationen).
    Das Inventar ist erweitertes Deutsches SAM-PA. Zusätzlich werden 'nicht-sprachliche' Geräusche mit dem Label <nib> und Pausen mit <p:> segmentiert (nur in Spontansprache!). Diese beiden Labels erhalten immer den symbolischen Link -1 (= keine Zuordnung).
    Darüber hinaus werden sprachliche, aber nicht klassifizierbare Ereignisse (z.B. unverständliche Wörter) mit dem Label <usb> bezeichnet. Letztere erhalten auch einen symbolischen Link.

    Beispiel:

    MAU: 0 676 -1 <p:>
    MAU: 677 7861 -1 <nib>
    MAU: 8539 450 0 g
    MAU: 8990 2436 0 u:
    MAU: 11427 1740 0 t
    MAU: 13168 958 1 d
    MAU: 14127 1298 1 a
    MAU: 15426 3820 1 n
    MAU: 19247 303 2 n
    MAU: 19551 1785 2 e:
    MAU: 21337 624 2 m
    MAU: 21962 636 2 n
    MAU: 22599 501 3 v
    

  12. Wortsegmentierung WOR: Klasse 4

    Definition:

    WOR: (begin) (duration) (list of symbolic links) (label string)

    Diese Spur enthält eine Segmentierung in Worte bzw. Wortäquivalente. Die Segmentierung muß nicht bündig sein. Als 'label string' sind sowohl Orthographie als auch Standardaussprache zulässig (z.B. Deutsches SAM-PA). Ein '-' als letztes Zeichen in 'label string' bedeutet ein elidiertes Wort (die Länge ist in diesem Fall Null) gegenüber der Referenzspur KAN. Ein '-' als erstes Zeichen in 'label string' bedeutet ein eingefügtes Wort.
    Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest. Ein eingefügtes Wort erhält einen Link auf das vorherige Wort in der Spur KAN.

  13. Dialogakt-Segmentierung DAS: Klasse 1

    Definition:

    DAS: (list of symbolic links) (marker string)

    Diese Spur enthält die Segmentierung in Dialogakte des Deutschen Forschungszentrums für künstliche Intelligenz, Saarbrücken (DFKI).
    Der Marker bezieht sich jeweils auf den Bereich des Sprachsignals, der durch die Liste von symbolischen links abgedeckt wird.

    Zum Beispiel:

    DAS: 0,1,2,3,4,5 @(SUGGEST_SUPPORT_DATE BA)
    DAS: 6,7,8,9 @(DELIBERATE_EXPLICITE BA)
    DAS: 10,11,12,13,14,15,16,17,18,19,20 @(SUGGEST_SUPPORT_DATE BA)
    
    In diesem Beispiel bezieht sich der Dialogakt-Marker SUGGEST_SUPPORT_DATE auf die Worte 0 bis 5 in der Referenz-Spur KAN. Der Zusatz BA zeigt an, daß dieser Dialogakt von Sprecher 'B' an Sprecher 'A' gerichtet ist. Sprecher 'A' ist immer der Sprecher, der den Dialog beginnt.
    Eine ausführlichere Beschreibung der verwendeten Marker, deren Bedeutung und die Prinzipien der Segmentierung finden Sie hier .

  14. Prosodische Segmentierung nach GTobi PRB: Klasse 5

    Definition:

    PRB: (sample) (list of symbolic links) (marker string)

    Diese Spur enthält die prosodische Segmentierung nach GTobi (Verbmobil, Technische Universität Braunschweig, Institut für Nachrichtentechnik).
    Die erste Nummer bezeichnet den Zeitpunkt des prosodischen Ereignisses in Samples von Beginn des Files.
    Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest.
    Der Label-String beschreibt das prosodische Ereignis. Die genaue Definition befindet sich
    hier.

    Zum Beispiel:

    PRB:    54212    5   TON: H*; FUN: NA
    PRB:    63269    7   TON: L+H*; FUN: EK
    PRB:    76371    8   BRE: B3; TON: L-L%
    PRB:    79967    8   TON: L*+H; FUN: PA
    

  15. Symbolische prosodische Segmentierung PRS: Klasse 1

    Definition:

    PRS: (list of symbolic links) (marker string)

    Diese Spur enthält eine prosodische Segmentierung und Labelung von 3 Grenzmarkern und 3 Akzenten in Anlehnung an GTobi.
    Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest. Das bedeutet, daß diese Labelung nur wortweise genau erfolgt ist.
    Der Markerstring beschreibt das prosodische Ereignis. Grenzmarker (B3, B2, B9) haben jeweils zwei symbolische Links welche die Wörter links und rechts des Grenzmarkers bezeichnen. Akzentmarker (PA, NA, EK) beziehen sich auf das Wort, in dem der betreffende Akzent gelabelt wurde. Angaben über die Silbenposition des Akzents innerhalb des Wortes sind nicht gegeben.

    Semantik des Markerstrings:
    B3 : Das Label B3 steht zwischen kompletten, intonatorisch als solchen markierten Phrasen. Diese Markierung muß nach der Definition bitonal sein, da sie aus Phrasenakzent und Grenzton bestehen muß. Auch eine Dehnung (Prefinal Lenghthening) oder Pause koennen diese Grenze markieren. Selbstverstaendlich koennen auch alle drei Merkmale in beliebigen Kombinationen auftreten. Stattdessen kann aber auch ein Wechsel in der Sprechgeschwindigkeit das Kriterium sein.
    B2 : B2-Grenzen koennen innerhalb einer mit B3 als Phrase gekennzeichneten Einheit eine feinere Unterstrukturierung markieren. Hier findet sich eine schwaechere Intonation als in der uebergeordneten Einheit.
    B9 : Irregulaere Grenzen B9, heißen jene, die durch unbeabsichtigte Haesitationen, Pausen und dergleichen entstehen und die keine eigentlich strukturierende Funktion erfuellen. Diese 'ungrammatischen' Phaenomene deuten haeufig auch auf Reparaturen.
    PA : Den Hauptakzent PA traegt in einer mit B3 gelabelten Phrase normalerweise ein Wort. ('Phrasenakzent'). Diese Akzentuierung gibt dem Wort im Sprechakt das groeßte Gewicht in der Phrase. Gibt es keine Entscheidungsmoeglichkeit, kann auch mehr als ein Wort mit PA gekennzeichnet werden.
    NA : Nebenakzente NA bezeichnen akzentuierte Woerter ohne PA. Deren Akzentuierung traegt zur inneren Strukturierung einer Phrase bei.
    EK : Emphatische oder Kontrastive Akzente EK werden fuer Woerter vergeben, deren Akzentuierung besonders stark ist, weil sie im Kontrast zu anderen stehen oder eine emphatische Funktion erfuellen.

    Zum Beispiel:

    PRS:    0       EK
    PRS:    4;5     B2
    PRS:    7       NA
    PRS:    9       NA
    PRS:    11      NA
    PRS:    11;12   B3
    PRS:    13      EK
    PRS:    14      EK
    PRS:    15      PA
    PRS:    17      NA
    PRS:    17;18   B2
    PRS:    18      NA
    PRS:    19;20   B3
    PRS:    23      EK
    PRS:    23;24   B3
    PRS:    25      EK
    PRS:    27      PA
    

  16. Geräusch Labelung NOI: Klasse 1

    Definition:

    NOI: (single or pair of symbolic links) (marker string)

    Diese Spur enthält eine wortweise Geräuschmarkierung des Signals. Es werden zwei Typen von Geräuschen unterschieden: Einfache Geräusche, die zwischen Wörtern auftreten, erhalten in der zweiten Spalte die beiden sybolischen links der angrenzenden Wörter (z.B. '5;6'); Geräusche, die Wörter überlagern erhalten nur den sybolischen Link des überlagerten Wortes (z.B. '5').
    Der 'marker string' enthält eine Liste von mit Blank getrennten Geräusch-Labeln. Die Label entsprechen der VMII TRL-Konvention:

    <A> <B>                       : Atmen
    <P>                           : deutliche Pause innerhalb einer Aeusserung
    <%>                           : Unverstaendliches
    Schmatzen>  <Smack>
    <Schlucken> <Swallow>
    <R"auspern>  <Throat>
    <Husten>  <Cough>
    <Lachen>  <Laugh>
    <Ger"ausch> <Noise>           : Restklasse artikulatorisches Geraeusch
    <#Klopfen>  <#Knock>
    <#Rascheln> <#Rustle>
    <#Quietschen> <#Squeak> 
    <#Klicken> <#Click> 
    <#Mikrowind>                  : Blasgeraeuch  
    <#Mikrobe>                    : Koerperschall direkt vom Mikrophon
                                    (z.B. durch Beruehren)
    <#>                           : Restklasse technisches Geraeusch
    

    Zum Beispiel:

    NOI:	5	<Lachen>          # Wort 5 ist durch Lachen ueberlagert
    NOI:	5;6	<B>               # Zwischen Wort 5 und Wort 6 ist ein 
                                      # deutliche hoerbares Atmen aufgezeichnet
    

  17. Signal-basierte prosodische Akzent-Labelung LBP: Klasse 3

    Definition:

    LBP: (sample) (marker string)

    Diese Spur enthält eine Labelung von prosodischen Grenzen angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Braunschweig durchgeführt.
    Es werden folgende Akzentklassen gelabelt:

    PA   Phrasenakzent
    NA   Nebenakzent
    EK   Emphase bzw. kontrastierender Akzent
    
    Zum Beispiel:
    LBP: 1651 PA
    

  18. Prosodische signalbasierte Grenz-Labelung LBG: Klasse 3

    Definition:

    LBG: (sample) (marker string)

    Diese Spur enthält eine Labelung von prosodischen Grenzmarkern angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Braunschweig durchgeführt.
    Es werden folgende Grenzen gelabelt:

    B9    irreguläre Grenze
    B2    schwache/ intermediäre Phrasengrenze
    B3    starke reguläre Phrasengrenze, keine Frage
    B3QH  B3, inhaltlich eine Frage, mit hohem Grenzton
    B3QL  B3, inhaltlich eine Frage, mit tiefem Grenzton
    
    Zum Beispiel:
    LBG: 6586 B3
    

  19. Syntaktisch-prosodische Grenz-Labelung PRO: Klasse 1

    Definition:

    PRO: (symbolic link) (marker string)

    Diese Spur enthält eine Labelung von prosodischen Grenz- und Akzentmarkern auf Basis der Wortfolge der Äußerung. Konsequenterweise handelt es sich daher um eine Zuordnung von Labeln zu Wortpositionen bzw. zu Positionen zwischen Wörtern. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Erlangen in Zusammenarbeit mit der Universität München durchgeführt.

    Eine detailierte Beschreibung des Labeling-Systems und der verwendeten Klassen findet sich hier (für Deutsch) (Definition der Labels in Tabelle 12 auf S. 15-16 des Dokuments) und hier (für Englisch).

    Zum Beispiel:

    PRO: 6;7        SS2
    PRO: 13;14      AC1
    PRO: 14;15      AC1
    PRO: 15;16      AC1
    PRO: 18;19      SC3
    PRO: 24;25      IRB
    PRO: 25;26      AC1
    PRO: 26;27      AC1
    PRO: 27;28      AC1
    PRO: 28;29      IWE
    PRO: 28;29      IZB
    PRO: 31 	SM3
    

  20. Syntaxbäume SYN: FUN: LEX: Klasse 1

    Definition:

    SYN: (symbolic link) (marker string)

    FUN: (symbolic link) (marker string)

    LEX: (symbolic link) (marker string)

    Diese Spur enthält eine maschinen-lesbare Repräsentation der Syntax der zugrundeliegenden Äußerung. Die tiers SYN, FUN und LEX beziehen sich auf diesselbe Struktur, können aber bei Bedarf auch separat ausgewertet werden. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Universität Tübingen durchgeführt.

    Eine Übersicht der Baumbänke in Verbmobil II finden Sie hier.

    Eine detailierte Beschreibung des Labeling-Systems und der verwendeten Klassen findet sich hier für die Sprachen Deutsch, Englisch und Japanisch (nur in Englisch).

    Darstellung der Syntaxbäume im BAS Partiturformat (BPF)
    =======================================================
    
    Die Syntaxbäume werden in drei Spuren abgebildet. Die terminalen
    (lexikalischen) Kategorien werden in der LEX-Spur dargestellt. Die 
    höheren syntaktischen Kategorien, die den Knoten des Syntaxbaumes
    entsprechen, werden in der SYN-Spur aufgelistet. Die zur LEX- und
    SYN-Spur gehörigen grammatischen Funktionen, stehen in der
    FUN-Spur. Sie werden im Syntaxbaum an den Kanten annotiert.
    
    
    Lexikalische Kategorien: 
    ------------------------
    
    Definition:
    
    LEX: (symbolic link) (label string)
    
    Diese Spur enthält die lexikalische Kategorisierung der Wörter, auf
    die mit den Symbolic Links verwiesen wird. Häsitationen und
    unverständliche Äußerungen bleiben hierbei unberücksichtigt. 
    
    
    Beispiel:
    
    LEX:    0               0       PDS
    LEX:    1               0       VMFIN
    LEX:    2               0       CARD
    LEX:    3               0       NN
    LEX:    4               0       ADJD
    LEX:    5               0       VVINF
    
    Der Label-String setzt sich zusammen aus 
    (1) einem Tag für die jeweilige lexikalische Kategorie, so zum
    Beispiel CARD (Kardinalzahl) für Wort 2 
    (2) einem Index, der eindeutige Zuordnungen zwischen der LEX-, der
    SYN- und der FUN-Spur möglich macht. Für terminale Knoten im Syntaxbaum,
    also die Ebene, die in der LEX-Spur behandelt wird, ist der Index
    stets gleich 0 (siehe SYN- und FUN-Spur für weitere Informationen zum Index).
    
    
    Im Deutschen verwendete Labels:
    
    UNKNOWN Unbekanntes Tag aus Einlesen aus Korpusdatei
    --      
    ADJA    Attributives Adjektiv
    ADJD    Adverbiales oder prädikatives Adjektiv
    ADV     Adverb
    APPR    Präposition; Zirkumposition links
    APPRART Präposition mit Artikel
    APPO    Postposition
    APZR    Zirkumposition rechts
    ART     Bestimmter oder unbestimmter Artikel
    CARD    Kardinalzahl
    FM      Fremdsprachliches Material
    ITJ     Interjektion
    KOUI    Unterordnende Konjunktion mit zu und Infinitiv
    KOUS    Unterordnende Konjunktion mit Satz
    KON     Nebenordnende Konjunktion
    KOKOM   Vergleichspartikel, ohne Satz
    NN      Normales Nomen
    NE      Eigennamen Hans*Hamburg*HSV
    PDS     Substituierendes Demonstrativpronomen
    PDAT    Attribuierendes Demonstrativpronomen
    PIS     Substituierendes Indefinitpronomen
    PIAT    Attribuierendes Indefinitpronomen
    PIDAT   Attribuierendes Indefinitpronomen mit Determiner
    PPER    Irreflexives Personalpronomen
    PPOSS   Substituierendes Possessivpronomen
    PPOSAT  Attribuierendes Possessivpronomen
    PRELS   Substituierendes Relativpronomen
    PRELAT  Attribuierendes Relativpronomen
    PRF     Reflexives Personalpronomen
    PWS     Substituierendes Interrogativpronomen
    PWAT    Attribuierendes Interrogativpronomen
    PWAV    Adverbiales Interrogativ- oder Relativpronomen
    PAV     (ersetzt durch PROP)
    PTKZU   zu vor Infinitiv
    PTKNEG  Negationspartikel
    PTKVZ   Abgetrennter Verbzusatz
    PTKANT  Antwortpartikel
    PTKA    Partikel bei Adjektiv oder Adverb
    TRUNC   Kompositions-Erstglied
    VVFIN   Finites Verb, voll
    VVIMP   Imperativ, voll
    VVINF   Infinitiv, voll
    VVIZU   Infinitiv mit zu, voll
    VVPP    Partizip Perfekt, voll
    VAFIN   Finites Verb, aux
    VAIMP   Imperativ, aux
    VAINF   Infinitiv, aux
    VAPP    Partizip Perfekt, aux
    VMFIN   Finites Verb, modal
    VMINF   Infinitiv, modal
    VMPP    Partizip Perfekt, modal
    XY      Nichtwort, Sonderzeichen
    $,      Komma
    $.      Satzbeendende Interpunktion
    $(      Sonstige Satzzeichen; satzintern
    PROP    NEU: pronominal verw. Praeposition ("dafuer")
    BS      Buchstabe (z. B. bei Buchstabierung)
    
    
    Im Englischen verwendete Labels:
    
    UNKNOWN        Unbekanntes Tag aus Einlesen aus Korpusdatei
    --             
    CC             Coordinating conjunction
    CD             Cardinal number
    DT             Determiner
    EX             Existential there
    FW             Foreign word
    IN             Preposition or subordinating conjunction
    JJ             Adjective
    JJR            Adjective, comparative
    JJS            Adjective, superlative
    LS             List item marker
    MD             Modal
    NN             Noun, singular or mass
    NNS            Noun, plural
    NP             Proper noun, singular
    NPS            Proper noun, plural
    PDT            Predeterminer
    POS            Possessive ending
    PP             Personal pronoun
    PP$            Possessive pronoun
    RB             Adverb
    RBR            Adverb, comparative
    RBS            Adverb, superlative
    RP             Particle
    SYM            Symbol
    TO             to
    UH             Interjection
    VB             Verb, base form
    VBD            Verb, past tense
    VBG            Verb, gerund or present participle
    VBN            Verb, past participle
    VBP            Verb, non-3rd person singular present
    VBZ            Verb, 3rd person singular present
    WDT            Wh-determiner
    WP             Wh-pronoun
    WP$            Possessive wh-pronoun
    WRB            Wh-adverb
    ,              Comma
    .              Sentence-final punctuation
    
    
    Syntaktische Kategorien:
    ------------------------
    
    Definition:
    
    SYN: (list of symbolic links) (label string)
    
    Diese Spur enthält die syntaktische Kategorisierung von Konstituenten
    folgender Ebenen: Phrasen, topologische Felder, Sätze. Lexikalische
    Einheiten wie Häsitationen und unverständliche Äußerungen, die nicht
    lexikalisch kategorisiert worden sind, bleiben auch in der SYN-Spur
    unberücksichtigt. Prinzipiell sind auch Turns denkbar, die eine LEX-
    und eine FUN-Spur haben, aber keine SYN-Spur. 
    
    Beispiel:
    
    SYN:    0               1       NX
    SYN:    0               2       VF
    SYN:    0,1,2,3,4,5     0       SIMPX
    SYN:    1               1       VXFIN
    SYN:    1               2       LK
    SYN:    2               1       ADJX
    SYN:    2,3             0       NX
    SYN:    2,3,4           0       MF
    SYN:    4               1       ADJX
    SYN:    5               1       VXINF
    SYN:    5               2       VC
    
    Jeder Label-String beinhaltet zwei Informationen:
    
    (1) Die syntaktische Kategorie einer Konstituente. Sie spannt die
    festgelegte Wortfolge durch eine Liste der Symbolischen Links auf. So
    gehören die Wörter 2 und 3 zur Nominalphrase NX, die wiederum Teil des
    Mittelfelds MF und schließlich des Simplex-Satzes SIMPX ist.
    (2) Einen Index, der die hierachischen Beziehungen der Konstituenten
    im Syntaxbaum disambiguiert. Verzweigende Knoten erhalten genauso wie
    die terminalen Knoten der LEX-Spur den Index 0. Ihre Lage im Baum
    ergibt sich über die zugehörige Wortfolge, die die Wortfolgen der
    Tochterknoten enthält. Bei nichtverzweigenden Knoten bekommt der
    jeweils höhere Knoten einen gegenüber seinem Tochterknoten um 1
    erhöhten Index.
    
    
    SYN:          _____________________SIMPX_____________
                 /        /              |               \ 
    SYN:        /        /            __MF(0)__           \
               /        /            /         \           \
    SYN:     VF(2)    LK(2)        NX(0)        \         VC(2)    
              |        |         /      \        |          |
    SYN:     NX(1)  VXFIN(1)  ADJX(1)    |     ADJX(1)   VXINF(1)
              |        |        |        |       |          |
    LEX:    PDS(0)  VMFIN(0)  CARD(0)  NN(0)   ADJD(0)   VVINF(0)
    
    symbolic   0        1        2        3       4          5  
    links
    
    
    So ist der Index der finiten Verbalphrase VXFIN, die nur aus Wort 1
    besteht, gegenüber dem zugehörigen terminalen Knoten (siehe LEX)
    erhöht, um klarzustellen, daß sich VXFIN oberhalb der Wortebene
    befindet. Für die linke Satzklammer LK, die ausschließlich VXFIN
    dominiert, wird der Index erneut um 1 erhöht. Beim die LK
    dominierenden Simplex-Satz SIMPX wird der Index wieder auf 0 gesetzt,
    da die hierachische Beziehung hier eindeutig ist. Die durch LK
    aufgespannte Wortfolge ist nämlich in der SIMPX-Wortfolge vollständig
    enthalten. Desweiteren lassen sich durch die Indexierung die
    Informationen der SYN-, LEX- und FUN-Spur einander eindeutig zuordnen.
    
    
    Im Deutschen verwendete Labels:
    
    --       (muss immer "--" haben)
    NX      noun chunk
    PX      prepositional phrase
    SIMPX   simplex clause
    VXFIN   finite verb phrase
    MF      Mittelfeld
    VC      Verbkomplex
    NF      Nachfeld
    LK      Linke Satzklammer
    VF      Vorfeld
    ADVX    adverbial chunk
    ADJX    adjectival chunk
    P-SIMPX Parataktische Verknuepfung zweier SIMPX
    R-SIMPX Relativsatz
    VXINF   infinite verb phrase
    DM      Diskursmarker
    MVC     Konjunkt, bestehend aus MF und VC
    PARORD  Feld f. nicht-koord. beiordnende Partikeln (V2)
    C       Feld f. Komplementierer bei Verb-letzt-Saetzen
    KOORD   Feld f. koordinierende Partikeln (und, oder, aber usw.)
    LV      topologisches Feld fuer Linksversetzungen
    LKMVC   Konjunkt, bestehend aus LK, MF, VC
    LKM     Konjunkt, bestehend aus LK, MF
    MVCN    Konjunkt, bestehend aus MF, VC, NF
    MN      Konjunkt, bestehend aus MF, NF
    LKVCN   Konjunkt, bestehend aus LK, VC, N
    VCN     Konjunkt, bestehend aus VC und N
    DP      Determinerphrase (z.B. "gar keine")
    KONX    Konjunktionskomplex ("und zwar" im VF)
    VLKM    Konjunkt, bestehend aus VF, LK, MF
    VLKMVC  Konjunkt, bestehend aus VF, LK, MF, VC
    LKMVCN  Konjunkt, bestehend aus LK, MF, VC, NF
    LKMN    Konjunkt, bestehend aus LK, MF, NF
    FKOORD  komplexe Felderkoordination
    LKN     Konjunkt, bestehend aus LK und N
    CMVCN   Konjunkt, bestehend aus C, MF, VC und NF
    
    
    Im Englischen verwendete Labels:
    
    --       (muss immer "--" haben)
    AP      Adjective Phrase
    APS     Adj-headed sm.clause
    ADVP    Adverb Phrase
    ADVPD   Adverb DATE-Phrase
    CMP     Complementizer
    CMP-WH  Complementizer,WH-
    CNJ     Conjunction(single)
    CNJ1    Conjunction(1 of 2)
    CNJ2    Conjunction(2 of 2)
    DG      Degree(non-wh)
    DG-WH   Degree-WH(how...)
    DGP     Degree Phrase
    DT-ART  Det,Article(the,a)
    DT-DM   Det,Demonstrative
    DT-QNT  Det,Quantifier(every)
    DT-R    Det,Rel.clause
    DT-WH   Det,Wh-(which,whose)
    DTP     Det.Phrase
    N       Noun,Common
    -        do not use this
    CNUM    N,Cardinal Number
    ONUM    N,Ordinal Number
    NP      Noun Phrase
    NPS     Noun-headed sm.clause
    NPD     Noun DATE-phrase
    NPT     Noun TIME-phrase
    PR-DM   PR,Demonstrative
    PR-WH   PR,WH-
    PR-R    PR,Relative
    PP      Prepositional Phrase
    PPS     Prep-headed sm.clause
    SUGG    Suggestion("How about Tuesday?")
    S       Sentence(VP w/subject)
    V-G     Verb,gerund
    V-PRP   Verb,present participle
    V-PSS   Verb,passive participle
    VP      Verb Phrase(S if sub Vs sister)
    
    
    Grammatische Funktionen:
    ------------------------
    
    Definition:
    
    FUN: (list of symbolic links) (label string)
    
    Diese Spur enthält die grammatischen Funktionen, die den syntaktischen
    und lexikalischen Kategorien der SYN- und LEX-Spur zugeordnet sind.
    
    Beispiel:
    
    FUN:    0               0       HD
    FUN:    0               1       ON
    FUN:    0               2       -
    FUN:    0,1,2,3,4,5     0       --
    FUN:    1               0       HD
    FUN:    1               1       HD
    FUN:    1               2       -
    FUN:    2               0       HD
    FUN:    2               1       -
    FUN:    2,3             0       V-MOD
    FUN:    2,3,4           0       -
    FUN:    3               0       HD
    FUN:    4               0       HD
    FUN:    4               1       MOD
    FUN:    5               0       HD
    FUN:    5               1       OV
    FUN:    5               2       --
    
    Der Label-String beinhaltet die grammatische Funktion von dem Wort
    bzw. von der Konstituente im Syntaxbaum (vgl. LEX- bzw. SYN-Spur) mit
    übereinstimmendem Index und der gleichen Liste Symbolischer links. So
    hat das Wort 3 als der Teil der Konstituente NX (vgl. SYN-Spur), die
    Head-Funktion, und NX wiederum hat die Funktion eines Verb-Modifikators. 
    
    
    Im Deutschen verwendete Labels:
    
    --	 not bound
    HD       Head
    ON       Nominativ-Objekt(=Subjekt)
    -        soll ungebunden bleiben
    OD       Dativ-Objekt
    MOD      nicht-eindeutiger Modifikator
    ON-MOD   Modifikator des Subjekts
    OA-MOD   Modifikator des Akkusativ-Objekts
    OD-MOD   Modifikator des Dativ-Objekts
    OPP      obligatorisches PP-Objekt
    OV       Verbales Objekt
    VPT      abtrennbare Verbpartikel
    MOD-MOD  Modifikator eines anderen Modifikators
    APP      Apposition
    -        not bound
    PRED     Praedikat
    OA       Akkusativ Objekt
    OAK      Akkusativ-Objekt-Konjunkt
    ONK      Nominativ-Objekt-Konjunkt
    V-MOD    Modifikator des Verbs
    V-MODK   Konjunkt des Verb-Modifikators
    OPP-MOD  not bound
    PRED-MOD Mod. eines Praedikats
    FOPP     fakultatives PP-Objekt
    OS       Objekt in Form eines Satzes
    OADVP    ADVP-Objekt
    FOPP-MOD Modifikator eines FOPP
    OADJP    ADJP-Objekt
    OADVPMOD Modifikator des ADVP-Objekts
    OADJPK   Konjunkt des ADJP-Objekt-Modifikators
    FOPPK    fakul. PP-Objekt-Konjunkt
    PREDK    Praedikativ-Konjunkt
    MOD-MODK        Konjunkt des modif. Modifikators
    MODK     nicht-eind. Modifikator-Konjunkt
    OPP-MODK        Konjunkt d. obl. PP-Objekts
    PREDMODK        Konjunkt d. Praedikativs
    OPPK    obligatorisches PP-Objekt-Konjunkt
    OADVPK  Konjunkt des ADVP-Obj.-Modif.
    
    
    Im Englischen verwendete Labels:
    
    --      not bound
    HD      Head
    COMP    Complement
    SPR     Specifier
    SBJ     Subject
    SBQ     Subject,WH-
    SBR     Subject,REL
    ADJ     Adjunct
    ADJ?    Adjunct?
    FLL     Filler
    FLQ     Filler,WH-
    FLR     Filler,REL
    MRK     Marker
    -       for intentionally empty edge labels
    
    
    Die Annotationen wurden von der Universität Tübingen im NeGra-Format
    erstellt und ins Partiturformat konvertiert. Dabei können sich kleinere
    Änderungen ergeben haben. Zum Betrachten der Bäume können die
    Partiturfiles mit dem Perl-Programm "bas2negra.pl" (im
    Standard-Software-Paket der BAS-CDROMS enthalten) ins NeGra-Format
    konvertiert werden. 
    Mit dem Java-Programm TIGERSearch, das von Wolfgang Lezius im Rahmen
    des TIGER-Projektes am IMS Stuttgart entwickelt wird, können die Bäume
    dann durchsucht und angezeigt werden. TIGERSearch wird ab Herbst 2001
    auf der folgenden Webseite herunterzuladen sein:
    
    http://www.ims.uni-stuttgart.de/projekte/TIGER/
    

    Zum Beispiel:

    SYN:    0       1       DM
    SYN:    1       1       NX
    SYN:    1       2       VF
    SYN:    1,2,3,4,5       0       SIMPX
    SYN:    2       1       VXFIN
    SYN:    2       2       LK
    SYN:    3       1       ADVX
    SYN:    3,4,5   0       MF
    SYN:    4       1       NX
    SYN:    5       1       ADVX
    SYN:    7       1       VXFIN
    SYN:    7       2       LK
    SYN:    7,8,9,10,11     0       SIMPX
    SYN:    8       1       NX
    SYN:    8,9,10,11       0       MF
    SYN:    9,10,11 0       NX
    SYN:    10      1       NX
    SYN:    10,11   0       NX
    SYN:    11      1       NX
    FUN:    0       0       -
    FUN:    0       1       --
    FUN:    1       0       HD
    FUN:    1       1       ON
    FUN:    1       2       -
    FUN:    1,2,3,4,5       0       --
    FUN:    2       0       HD
    FUN:    2       1       HD
    FUN:    2       2       -
    FUN:    3       0       HD
    FUN:    3       1       MOD
    FUN:    3,4,5   0       -
    FUN:    4       0       HD
    FUN:    4       1       OA
    FUN:    5       0       HD
    FUN:    5       1       V-MOD
    FUN:    7       0       HD
    FUN:    7       1       HD
    FUN:    7       2       -
    FUN:    7,8,9,10,11     0       --
    FUN:    8       0       HD
    FUN:    8       1       ON
    FUN:    8,9,10,11       0       -
    LEX:    0       0       PTKANT
    LEX:    1       0       PPER
    LEX:    2       0       VAFIN
    LEX:    3       0       ADV
    LEX:    4       0       NN
    LEX:    5       0       ADV
    LEX:    7       0       VVFIN
    LEX:    8       0       PPER
    LEX:    9       0       ART
    LEX:    10      0       NN
    LEX:    11      0       NE
    

  21. Parts of Speech POS: Klasse 1

    Definition:

    POS: (symbolic link) (marker string)

    Diese Spur enthält eine Klassifikation der Wörter auf lexikale Klassen (tagging). Das Klassensystem entspricht dem STTS (Stuttgart-Tübingen-TagSet), welches sich in gleicher Form auch in der LEX-Spur wiederfindet. Das Tagging wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Stuttgart automatisch durchgeführt.

    Eine detailierte Beschreibung der verwendeten Klassen findet sich hier für die Sprachen Deutsch auf den Seiten 17 - 19 und Englisch uf den Seiten 48 - 49. Zusätzlichen finden sie hier einige Beispiele für das deutsche tagset (nur in Deutsch)

    Zum Beispiel:

    POS:    0       ITJ
    POS:    1       PPER
    POS:    2       VAFIN
    POS:    3       ADV
    POS:    4       NN
    POS:    5       ADV
    POS:    7       VVFIN
    POS:    8       PPER
    POS:    9       ART
    POS:    10      NN
    POS:    11      NE
    

  22. Lemmata LMA: Class 1

    Definition:

    LMA: (sybolic link) (marker string)

    Diese Spur enthält zu jedem gesprochenen Wort der Äußerung das entsprechende Lemma. Diese Annotation wurde im Rahmen des Verbmobil 2 Projektes automatisch von der Universität Stuttgart auf der Basis der Transliterationen erzeugt.

    Zum Beispiel:

    LMA:    0       nein
    LMA:    1       pper
    LMA:    2       haben
    LMA:    3       hier
    LMA:    4       Unterlage
    LMA:    5       da
    LMA:    7       kennen
    LMA:    8       pper
    LMA:    9       d
    LMA:    10      Hotel
    LMA:    11      Maritim
    
    Beachten Sie, dass Personalpronomina einheitlich mit 'pper' und Artikel mit 'd' annotiert wurden.

  23. Phonetische Segmentierung IPA IPA: Klasse 2

    Definition:

    IPA: (begin) (duration) (label string)

    Diese Spur enthält eine Segmentierung der Äußerung in IPA Einheiten (enge phonetische Segmentierung). Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples. Der Rest der Zeile enthält eine mit Kommata getrennte Liste von IPA-Nummern (mindestens eine Nummer), optional gefolgt von einer Liste von korrespondierenden SAM-PA Symbolen.
    IPA-Chart mit IPA-Nummern
    IPA-Chart mit Symbolen

    Zum Beispiel:

    IPA:    4856    1228    322     @
    IPA:    10629   564     317
    IPA:    11805   991     319     I
    IPA:    12797   1142    138     C
    IPA:    13940   1534    302     e
    IPA:    15475   895     110     g
    IPA:    16371   777     322     @
    IPA:    17149   758     155     l
    IPA:    17908   1497    305
    IPA:    19406   1204    116     n
    IPA:    20611   589     104     d
    IPA:    21201   1018    322     @
    IPA:    22220   1185    103     t
    

  24. Segmentierung in Turns/Sätze/Chunks/etc. TRN: Klasse 4

    Definition:

    TRN: (begin) (duration) (symbolic link) (label string)

    Diese Spur enthält eine Segmentierung einer längeren Aufname in Dialogbeiträge (Turns), Sätze oder andere Einheiten. Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples. Der symbolic link enthält die (mit Kommata separierte) Liste der Wortnummern in den segmentierten Teilstück. Der Rest der Zeile enthält ein optionales Label (z.B. Turn-Nummer, Satz-Nummer etc.)

    Zum Beispiel:

    TRN:    132736  144640  0,1,2,3,4,5,6,7 002
    

  25. Smartkom/Smartweb Transliteration TRS: Klasse 1

    Definition:

    TRS: (list of symbolic links) (transliteration) Klasse 1

    Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach den erweiterten Konvention des SmartKom Projektes. Die Transliteration wurde an die besonderen Gegebenheiten des Mensch-Maschine-Dialogs angepasst; ein BPF beschreibt in SmartKom eine vollständige Aufnahmesitzung, d.h. eine Segmentierung in Turns entfällt.
    Detailierte Informationen zum SmartKom Transliterationsformat befinden sich hier.
    Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).

    Beispiel:

    TRS:    0       <:<#> ja:> [NA] [B2] ,
    TRS:    1       ich
    TRS:    2       h"atte
    TRS:    3       <:<#> gern:> [NA]
    TRS:    4       +/die/+ [B9] <P>
    TRS:    5       die
    TRS:    6       Sehensw"urdigkeiten [PA]
    TRS:    7       von
    TRS:    8       ~Heidelberg <!1 Heidelber'> [NA] [B3 fall] .
    TRS:    9       gibt [NA]
    TRS:    10      es
    TRS:    11      hier
    TRS:    12      vielleicht
    TRS:    13      Cafeterias [PA] [B3 rise] ? <#>
    TRS:    14      was
    TRS:    15      f"ur
    TRS:    16      Hotels [NA]
    TRS:    17      gibt [PA]
    TRS:    18      es [B3 cont] ?
    TRS:    19      @1mhm [NA] [B3 cont] .
    TRS:    20      kannst <!1 kanns'>
    TRS:    21      was
    TRS:    22      andres [PA]
    
    Die gleiche Spur wurde auch im deutschen SmartWeb Projekt verwendet. Siehe TRW Spur.

  26. SmartKom Gestik Labeling GES class 2

    Synopsis:

    GES: (begin) (duration) (label string)

    Diese Spur enthaelt die 2D-Gestik-Annotation des SmartKom Projekts. Alle Gesten, die innerhalb des Erfassungsbereichs der SIVIT-Kamera erfolgen, werden segmentiert und gelabelt. Zusätzlich werden emotionale Gesten auch ausserhalb dieses Bereich markiert. Hintergrundinformationen zur SmartKom Datensammlung finden Sie hier.
    Die erste Nummer markiert den Beginn der Geste in Samples vom Beginn der Aufnahme (SmartKom 16 kHz Abtastrate); die zweite Nummer enthält die Dauer der Geste in Samples.
    Der 'label string' besteht aus 8 durch TAB getrennte Spalten und einer optionalen 9. Spalte mit freien Kommentaren:

    Eine detailierte Beschreibung des Label-Sytems sowie die Entwicklung des selben finden Sie in hier; Das folgende ist eine Kurzzusammenfassung der 8 Label-Kategorien (mögliche Werte der Label-Strings in '' gesetzt):

    Example:

    GES:    1072000 23039   I-Geste I - tipp +      Zeige li Hand           links oben      Treffer 1078400 12159
    GES:    1959680 114559  R-Geste R - emot -      re Hand                         1078400 12159   "Uberlegung/Nachdenken
    GES:    2166400 15999   I-Geste I - tipp +      Zeige li Hand           links oben      rechts  2171520 7679
    GES:    2641280 12799   I-Geste I - tipp +      Zeige re Hand    § Schlo"s       rechts unten    Treffer 2647680 5119
    GES:    3093120 14079   I-Geste I - tipp +      Zeige re Hand           links unten     Treffer 3098240 7039
    GES:    3351680 7039    R-Geste R - UFO re Hand                         3098240 7039
    GES:    4029440 22399   I-Geste I - tipp +      Zeige li Hand           links oben      rechts  4035840 10239
    

  27. SmartKom User State Annotation (holistisch) USH class 2

    Synopsis:

    USH: (begin) (duration) (label string)

    Diese Spur enthält die Annotation von 'holistischen' User-States, d.h. interessante emotionale und kognitive Zustände, wie sie im SmartKom Projekt gelabelt wurden. Für detailiertere Informationen zur SmartKom Datensammlung siehe hier.

    Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung angegeben (SmartKom: 16 kHz).

    Der Label-String (label string) enthält eine der folgenden 7 Kategorien gefolgt von einem Rating (nur für die Kategorien 2-6). Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise hier.

    1. 'Neutral'
    2. 'Freude/Erfolg'
    3. '"Arger/Mi"serfolg'
    4. 'Ratlosigkeit'
    5. '"Uberlegen/Nachdenken'
    6. '"Uberraschung/Verwunderung'
    7. 'Restklasse'
    Die Kategorien werden nach dem Eindruck des Labelers vergeben. Nicht nur das Video des Gesichts sondern auch die Stimmqualität oder andere Kontextinformation darf dabei berücksichtigt werden. Nicht berücksichtigt werden dagegen Wörter mit emotionalem Inhalt ohne emotionalen Ausdruck in Gesicht oder Stimme.

    Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem Label angegeben (durch TAB getrennt):

    Beispiel:

    USH:    0       205439  Freude/Erfolg   schwach
    USH:    205440  30719   Neutral
    USH:    236160  37759   Freude/Erfolg   schwach
    USH:    273920  191999  Neutral
    USH:    465920  78719   "Uberlegen/Nachdenken    stark
    USH:    544640  295679  Neutral
    USH:    840320  49919   "Arger/Mi"serfolg schwach
    USH:    890240  42879   Neutral
    USH:    933120  21759   "Uberraschung/Verwunderung       schwach
    USH:    954880  97919   Ratlosigkeit    schwach
    USH:    1052800 542719  Neutral
    
    Siehe auch die Spuren USM, USP und OCC.

  28. SmartKom User State Annotation (Gesichtsausdruck) USM class 2

    Synopsis:

    USM: (begin) (duration) (label string)

    Diese Spur enthält die Annotation von User-States, d.h. interessante emotionale und kognitive Zustände, wie sie im SmartKom Projekt gelabelt wurden. Im Gegensatz zur Spur USH wird hier nur nach dem Eindruck des Gesichts, d.h. ohne das Sprachsignal, gelabelt.
    Für detailiertere Informationen zur SmartKom Darensammlung siehe hier.

    Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung angegeben (SmartKom: 16 kHz).

    Der Label-String (label string) enthält eine der folgenden 7 Kategorien gefolgt von einem Rating (nur für die Kategorien 2-6). Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise hier.

    1. 'Neutral'
    2. 'Freude/Erfolg'
    3. '"Arger/Mi"serfolg'
    4. 'Ratlosigkeit'
    5. '"Uberlegen/Nachdenken'
    6. '"Uberraschung/Verwunderung'
    7. 'Restklasse'
    Die Kategorien werden nach dem Eindruck des Labelers vergeben. NUR das Video des Gesichts, NICHT aber die Stimmqualität oder andere Kontextinformation werden dabei berücksichtigt.

    Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem Label angegeben (durch TAB getrennt):

    Beispiel:

    USM:    0       205439  Freude/Erfolg   schwach
    USM:    205440  30719   Neutral
    USM:    236160  37759   Freude/Erfolg   schwach
    USM:    273920  191999  Neutral
    USM:    465920  78719   "Uberlegen/Nachdenken    schwach
    USM:    544640  295679  Neutral
    USM:    840320  49919   "Arger/Mi"serfolg schwach
    USM:    890240  42879   Neutral
    USM:    933120  119679  "Uberlegen/Nachdenken    schwach
    USM:    1052800 542719  Neutral
    USM:    1595520 59519   "Uberlegen/Nachdenken    schwach
    USM:    1655040 157439  Neutral
    USM:    1812480 143359  "Uberlegen/Nachdenken    schwach
    USM:    1955840 58879   "Arger/Mi"serfolg stark
    USM:    2014720 89599   Neutral
    USM:    2104320 559359  "Arger/Mi"Serfolg schwach
    USM:    2663680 263679  Neutral
    USM:    2927360 28799   "Arger/Mi"serfolg schwach
    

    Siehe auch die Spuren USH, USP und OCC.

  29. SmartKom Verdeckungen im Gesichts-Video OCC class 2

    Synopsis:

    OCC: (begin) (duration) (label string)

    Diese Spur enthält eine nützliche Hilfsinformation für die Verarbeitung des frontalen Videosignals in SmartKom-Aufnahmen. Gelabelt wurden jeweils Verdeckungen des Gesichts bzw. Objekte, die in den Gesichtsbereich bewegt werden und auf diese Weise das Gesicht teilweise verdecken.

    Beginn (begin) und Dauer (duration) der Verdeckung wird in Samples von Beginn der Aufnahmen angegeben (SmartKom: 16 kHz).
    Der Wert des (label string) kann folgende Klassen annehmen:

    • 'Hand im Gesicht' : Hand im Gesichtsbereich
    • 'Hand im Gesicht/Mund' : Hand nur im Mundbereich
    • 'Hand im Gesicht/Nase' : Hand nur im Nasenbereich
    • 'Hand im Gesicht/Augen' : Hand nur im Augenbereich
    • 'Stift im Gesicht' : Stift im Gesichtsbereich
    • 'Stift im Gesicht/Mund' : Stift nur im Mundbereich
    • 'Stift im Gesicht/Nase' : Stift nur im Nasenbereich
    • 'Stift im Gesicht/Augen' : Stift nur im Augenbereich
    • 'Teilweise nicht im Bild' : Gesicht teilweise nicht im Aufnahmebereich der Kamera
    • 'Objekt im Gesicht' : anderes Objekt als Hand oder Stift im Gesichtsbereich

    Example:

    OCC:    380800  18559   Teilweise nicht im Bild
    OCC:    458880  58239   Teilweise nicht im Bild
    OCC:    1167360 7679    Teilweise nicht im Bild
    OCC:    1173120 14719   Hand im Gesicht
    OCC:    1201920 11519   Teilweise nicht im Bild
    OCC:    2000000 12159   Hand im Gesicht/Mund
    OCC:    2567040 57599   Teilweise nicht im Bild
    OCC:    2709120 40959   Hand im Gesicht/Mund
    OCC:    2947840 33279   Hand im Gesicht
    OCC:    2955520 9599    Teilweise nicht im Bild
    OCC:    2981120 35839   Teilweise nicht im Bild
    OCC:    3528960 10879   Hand im Gesicht
    OCC:    4001920 10239   Hand im Gesicht
    OCC:    4103680 20479   Teilweise nicht im Bild
    

    Siehe auch die Spuren USH, USP und USM.

  30. SmartKom meta-linguistische Merkmale USP class 4

    Synopsis:

    USP: (begin) (duration) (list of symbolic links) (label string)

    Diese Spur enthält eine meta-liguistische Segmentierung und Labelung der SmartKom Audiodaten. Die hier verwendeten Merkmalsklassen dienen als Input zu einer stimmbasierten User-State-Detektion (s. Spur USH für mehr Details zu den SmartKom User-States). Die USP-Spur basiert auf der originalen SmartKom TRP Labelung, wurde jedoch zur einfacheren Verarbeitung auf die Worteinheiten aligniert. Sie enthält sämtliche Daten der originalen TRP-Labelung. Weitergehende Informationen zur TRP-Labelung finden sich hier. Für detailiertere Informationen zur SmartKom Darensammlung siehe hier.

    Beginn (begin) und Dauer des gelabelten Ereignis werden in Samples von Beginn der Aufnahme angegeben (SmartKom: 16 kHz). In den meisten Fällen wird nicht das Ereignis ansich sondern das Wort segmentiert, in dem es stattfindet. Siehe dazu die Bemerkungen zu den einzelnen Labels unten.
    Der symbolische Wortlink (symbolic link) verweist auf die Wortnummer des betroffenen Wortes.
    Der Label-String besteht aus einem von 9 Label-Klassen.

    Label-Klassen:
    (Falls nicht anders angegeben, bezieht sich das Segment auf das gesamte Wort)

    Regeln zur Labelung:

    Example:

    USP:    79552   6704    0       EMPHASIS
    USP:    426176  8768    6       STRONG_EMPH
    USP:    426176  8768    6       CLEAR_ART
    USP:    435952  10160   7       CLEAR_ART
    USP:    806560  6592    9       LENGTH_SYLL
    USP:    814624  4832    10      LENGTH_SYLL
    USP:    819776  17184   11      EMPHASIS
    USP:    1356896 6000    13      LENGTH_SYLL
    USP:    1785232 11808   20      LENGTH_SYLL
    USP:    1798064 7808    21      LENGTH_SYLL
    USP:    2449632 7376    23      LENGTH_SYLL
    USP:    2470016 10736   27      LENGTH_SYLL
    USP:    2470016 14800   27;28   PAUSE_WORD
    USP:    2794160 12080   31      LENGTH_SYLL
    USP:    3221632 5440    41      CLEAR_ART
    USP:    3678656 8528    48      LENGTH_SYLL
    USP:    3678656 14144   48;49   PAUSE_WORD
    USP:    3694576 3824    49      EMPHASIS
    USP:    4170960 11344   53      LENGTH_SYLL
    USP:    4186192 4464    54      EMPHASIS
    

    Siehe auch die Spuren USH, OCC und USM.

  31. Übersetzung TLN class 1

    Synopsis:

    TLN: (list of symbolic links) (label string)

    Diese Spur enthält eine Übersetzung der Sprachaufnahme in eine andere Sprache.

    Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den sich die folgende Übersetzung erstreckt. Übersetzungen können daher auch in mehreren Labelzeilen hintereinander annotiert sein. Auch überlappungen der Bereiche sind im Prinzip möglich.
    Der label string enthält als ersten Eintrag die Übersetzungsrichtung kodiert als '##>%%' wobei '##' das internationale Sprachenkuerzel der Quellsprache und '%%' das entsprechende Kürzel der Zielsprache bedeutet, z.B. von Deutsch nach English: 'DE>EN'. Hinter diesem Eintrag folgt nach einem TAB die orthographische Form der Übersetzung ohne Interpunktion bis zum Ende der Zeile. Spezielle Ziechen (z.B. Umlaute) können wie in der ORT-Spur in verschiedener Form kodiert sein (siehe oben).

    Beispiel:

    ORT:	0	okay
    ORT:	1	thank
    ORT:	2	you
    ORT:	3	bye
    TLN:    0,1,2,3	EN>DE	 gut danke tschüs
    

  32. Prosodische Labelung in 'GTobi light' PRM class 3

    Synopsis:

    PRM: (point-in-time) (label string)

    Diese Spur enthält eine prosodische Labelung, wie sie in deutschen Synthese-Projekten am IMS Stuttgart und am BAS verwendet wird. Die Labelung beschränkt sich auf Akzente und Grenztöne im sog. 'GTobi light' wie es vom IMS Stuttgart speziell für die Bedürfnisse der Unit-Selection-Technik entwickelt wurde. Im Gegensatz zum normalen GTobi wird hier nur entweder ein Akzenttyp oder ein Grenzmarker aus einem geschlossenen Inventar gelabelt (frei kombinierte Annotation von Ton (TON:), Akzenttyp (FUN:) und Grenztyp (BRE:) wie in GTobi ist nicht möglich).

    Eine detailierte Beschreibung der Label-Inventare finden Sie in der Dokumentation des deutschen BITS-Synthese-Corpus, Teil B.

    Beispiel:

    PRM:    98160   L*H
    PRM:    108665  -
    PRM:    132414  H*L
    PRM:    158400  %?
    

  33. SmartWeb Transliteration TRW class 1

    Synopsis:

    TRW: (list of symbolic links) (label string)

    Diese Spur enthält eine Transliteration des SmartWeb-Corpus. Diese stellt ein Subset des SmartKom Transliterations-Sets (TRS) dar, erweitert um 4 Off-Talk-Marker (statt bisher nur 2), eine SAMPA-Kodierung in den Aussprache-Kommentaren und um zwei Zeitmarker zur manuellen Turn-Segmentierung.

    Die folgenden Tags des SmartKom Transliterations-Sets werden hier verwendet:

    Dazu kommen noch:

    Beispiel:

    TRW:    0       <ZA 211.619> wurde<POT>
    TRW:    1       #zw"olf<POT>
    TRW:    2       irgendwann<POT>
    TRW:    3       von<POT> <P>
    TRW:    4       <%> . <PP>
    TRW:    5       <"ah>
    TRW:    6       's<POT>
    TRW:    7       wurde<POT>
    TRW:    8       #zw"olf<POT>
    TRW:    9       #drei"sig<POT>
    TRW:    10      von<POT>
    TRW:    11      ~Otto<POT>
    TRW:    12      dem<POT>
    TRW:    13      <%>
    TRW:    14      und<POT>
    TRW:    15      ~Heinrich<Z><POT>
    TRW:    16      irgendjemandem<POT>
    TRW:    17      gegr"undet<POT> .
    TRW:    18      ~Heinrich<POT>
    TRW:    19      der<Z><POT> ,
    TRW:    20      keine<SOT>
    TRW:    21      Ahnung<SOT> ,
    TRW:    22      und<POT>
    TRW:    23      ~Otto<POT> ,
    TRW:    24      was<SOT>
    TRW:    25      wei"s<SOT>
    TRW:    26      ich<SOT> <;ungrammatisch> . <PP>
    TRW:    27      #zw"olf<POT> , <P>
    TRW:    28      ne<OOT> . <ZE 233.342>
    

  34. MAUS-basierte Silbensegmentierung MAS class 4

    Synopsis:

    MAS: (begin sample) (duration sample) (list of symbolic links) (label string)

    Diese Spur enthält eine Segmentierung in Silben basierend auf der MAUS-Segmentierung (siehe Spur MAU). Ausgehend von dem SAM-PA Transkript der MAU-Spur wurde zunächst nach Sonoritäts-Minima als mögliche Silbengrenzen zwischen Silbenkernen gesucht, und diese anschließend nach den Regeln von Kohler verfeinert. Die resultierende Syllabifizierung wurde mit Hilfe der Segmentgrenzen aus der MAU-Spur mit Beginn und Dauer versehen.

    Beispiel:

    MAS:    53600   1920    0       'smar
    MAS:    55520   10560   0       ta
    MAS:    66080   1680    0       kUs
    MAS:    67760   11120   1       'vEl
    MAS:    78880   960     1       C@
    MAS:    79840   1600    2       'li:
    MAS:    81440   6880    2       plINs
    MAS:    88320   1600    2       'far
    MAS:    89920   1920    2       b@
    MAS:    91840   1760    3       'has
    MAS:    93600   1120    4       'du:
    MAS:    220256  480     5       m
    MAS:    220736  11040   6       'mi:6
    MAS:    231776  2560    7       'maI
    MAS:    234336  2240    7       n@
    MAS:    236576  4160    8       'fra:
    MAS:    240736  2080    8       g@
    MAS:    242816  1600    9       b@
    MAS:    244416  5440    9       'ant
    MAS:    249856  4160    9       'vO6
    MAS:    254016  2400    9       t@n
    

  35. Speaker label SPK class 1

    Synopsis:

    SPK: (list of symbolic links) (label string)

    Dieser Type 1 Tier enthält eine wort-weise Sprecher-Labellung ('diarization').

    Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den sich das folgende Sprecher-Label erstreckt. Jedem Wort kann nur ein Sprecher-Label zugeordnet werden.

    Example:

    ORT:    0       okay
    ORT:    1       bye
    ORT:    2       good
    ORT:    3       bye
    SPK:    0       speaker001
    SPK:    1       speaker001
    SPK:    2,3     speaker002
    


SAM

Das SAM Format wurde im ESPRIT "SAM" Project No 2589 : 'Speech Input and Output Assessment Methodologies and Standardization' zur Beschreibung von Sprachdaten definiert. Nur sehr wenige BAS Korpora enthalten SAM kompatible Daten. Das BAS Partitur Format ist, obwohl oberflächlich sehr ähnlich, nicht vollständig kompatibel zu SAM.
Auf jeder BAS CDROM befinden sich
Skripten (sam2pho, pho2sam) zur Umwandlung von Sam in PhonDat und umgekehrt.

Eine Beschreibung des SAM Formats findet sich hier.


AGS - Annotation Graphs

Bird et al (LDC) verwenden ein abstraktes Datenmodell in ATLAS zur Representation von Annotationen genannt 'Annotation Graphs'. Auch das BAS Partitur Format (BPF) lässt sich als Annotation Graph darstellen.
Nachdem LDC auch Software-Module für den eigenen Entwurf von Annoations-Werkzeugen bereitstellt, gibt es auch ein SGML-basiertes Format (AGS, entspricht ATLAS Level 0, v1.1b3) zum Speichern und Austauschen solcher Annotation Graphs.
Auf jeder BAS CDROM befindet sich ein Skript par2ags.pl zur Umwandlung des BAS Partitur Formats (BPF) in AGS. Ebenfalls dort finden Sie eine DTD fuer dieses Format. Manche BAS Korpora werden bereits mit BPF und AGS ausgeliefert.


Florian Schiel