BAS
Bayerisches Archiv für Sprachsignale
File-Formate

Same page in english

Letzter Update dieser Seite: 03.07.2020

Diese Seite enthält Beschreibung und Definition der vom BAS empfohlenen/akzeptierten Dateiformate.
Außer den unten aufgeführten Formaten unterstützt das BAS alle standardisierten Fileformate von CLARIN.

Akzeptierte Standard-Signaldaten
- RIFF WAVE (audio/wav, audio/x-wav, audio/vnd.wave)
- AIFF (audio/x-aiff)
- NIST SPHERE (audio/x-nist)
- MP4 (video/mp4)
- AVI (video/avi)
- QuickTime (video/quicktime)
Akzeptierte Proprietäre Signaldaten
- PhonDat 1 (...)
- PhonDat 2 (...)
- RAW (audio/raw)
Akzeptierte Metadaten-Formate
- CMDI (text/xml)
  Empfohlene Profile (CMD Registry):
  media-corpus XSD-Schema
  media-session XSD-Schema
- Dublin Core (DC) (text/xml)
Akzeptierte Annotations-/Segment-/Labeldaten

Signaldaten

PhonDat 1

Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!

Signaldateien mit PhonDat 1 Header enthalten einen binären Header von konstant 512 Bytes Länge. Danach folgen die Sprachsamples, die grundsälich mit Low High Byte-Order (Intel-Format) in Worten (2 Bytes) abgespeichert sind. Der Header enthält eine definierte Struktur mit Begleitdaten, wie Abtastrate, Bitbreite, etc. Dieser Header ist ILS kompatibel.

Zum Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte Software verwendet werden (Modul header.c).

Eine detaillierte Beschreibung der binären Headerstruktur findet sich hier.

PhonDat 2

Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!

PhonDat 2 ist eine Erweiterung des PhonDat 1 Formats. Nach dem binären Header von 512 Bytes folgen beliebig viele weitere Header-Blöcke von 512 Bytes Länge, in welchen die Orthographie und (optional) eine kanonische Aussprache der Äußerung (in SAM-PA) gespeichert sind.
PhonDat 2 Header unterscheiden sich durch ihre Versions-Nummer (2) im binären Teil des Headers von PhonDat 1 Headern.

Zu Lesen und Schreiben von PhonDat 1 Headern sollte die jeweils mitgelieferte Software verwendet werden (Modul header.c).

Eine detaillierte Beschreibung der binären Headerstruktur und der nachfolgenden Blöcke findet sich hier.

NIST - SPHERE

Das NIST - SPHERE Format ist ein vom 'National Institute of Standards and Technology, USA' definiertes Format für Sprachdaten. Es wird in zahlreichen amerikanischen Korpora verwendet. Der große Vorteil von NIST ist der lesbare und dynamische Header für Metadaten.

Eine detaillierte Beschreibung des NIST/SPHERE Formats findet sich hier.

Einige BAS Korpora enthalten Daten im NIST/SPHERE Format. Zur Umwandlung von NIST in andere Standardformate empfehlen wir SoX, z.B.:

sox -t sph input.nist output.wav

Segment-/Labeldaten

S0-Format

Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!

Das S0-Format enthält Wortsegmentierungen von Äußerungen, die länger als ein Wort sind. Das Format stammt aus dem PhonDat Projekt. Die Labeldateien sind ASCII, haben das gleiche Präfix wie das zugehörige Signalfile und die Extension .S0.

Syntax:


<file> = <Name of segment file> CR
         <Orthography> CR
         oend CR
         <Canonical form> CR
         kend CR
         hend CR
         <list of word segments> 

<list of word segments> = <begin sample> <marker> CR
                                ...

<begin sample> = number of first sample 

<marker> = '#c:' (beginning of first word)  OR
           <canonical word form> (as read from the lexicon)  OR
           '.' (end of last word)

<Name of segment file> = any valid filename

<Orthography> =
The orthographic string contains the standard orthography or a
transliteration with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX
convention or by 7 bit ASCII signs or by German Character set
coding used by DEC and Sun:

Umlaut  LaTeX   7 Bit ASCII (dec)       German Char Set (hex)
Ae      "A      [ (91)                  C4
Ue      "U      ] (93)                  CD
Oe      "O      \ (92)                  D6
ae      "a      { (123)                 E4
ue      "u      } (125)                 FC
oe      "o      | (124)                 F6
ss      "s      ~ (126)                 DF

<Canonic form> =
The canonical string contains the expected citation form of the
words in the utterance. Note that this is NOT a transcription of the
signal. Symbols used are the German subcorpus of the 
SAM-PA, with
following changes to SAM-PA:

Q       Glottal stop
q       laryngealization (not in canonicalal forms!)
'       primary stress
"       secondary stress
#       compound word marker (optional)
+       function word marker (suffix, optional)

Words are separated by two blanks, phonemic labels are seperated by
one blank.

Bemerkungen:

Die Wortgrenzen wurden immer in positive steigende Nulldurchgänge gesetzt.
Abweichende Aussprache wurde nicht markiert.
Pausen oder Stille wurde nicht markiert.
Fehlende Wörter (in Bezug auf die Vorgabe) sind mit '-' nach marker markiert. Das nachfolgende Wort hat dann den gleichen Wert in begin sample.
Ersetzte Wörter folgen immer einem fehlenden Wort und haben den gleichen Wert in begin sample wie das fehlende Wort.

S1-Format

Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!

Das S1-Format enthält die Phonemsegmentierung der Äußerung. Das Format stammt aus dem PhonDat Projekt. Die Labeldateien sind ASCII, haben den gleichen Präfix wie das zugehörige Signalfile und die Extension .S1.

Syntax:


<file> = <Name of segment file> CR
         <Orthography> CR
         oend CR
         <Canonical form> CR
         kend CR
         <Transcription> CR
         hend CR
         <list of phoneme segments> 

<list of phoneme segments> = <begin sample> <marker> CR
                                   ...

<begin sample> = number of first sample 

<marker> = '#c:' (beginning of first word)  OR
           '#p:' (pause) OR
           '#v:' (mis-pronunciation) OR
           <segment> OR
           <word boundary segment> OR
           <compound boundary segment> OR
           <punctuation> 

<segment> = $<sampa string> (ordinary segment)

<word boundary segment> = ##<sampa string>

<compound boundary segment> = $#<sampa string>

<sampa string> = any string of <extended German SAM-PA symbols> 

<punctuation> = '#.' OR '#,' OR '#?' OR '#!'

<Name of segment file> = any valid filename

<Orthography> =
The orthographic string contains the standard orthography or a transliteration
with additional markers of the spoken utterance.
German umlauts are represented either by LaTeX convention or by 7 bit ASCII
signs or by German Character set coding used by DEC and Sun:

Umlaut  LaTeX   7 Bit ASCII (dec)       German Char Set (hex)
Ae      "A      [ (91)                  C4
Ue      "U      ] (93)                  CD
Oe      "O      \ (92)                  D6
ae      "a      { (123)                 E4
ue      "u      } (125)                 FC
oe      "o      | (124)                 F6
ss      "s      ~ (126)                 DF

<Canonic  form> =
The canonical string contains the expected citation form of the words in the
utterance. Note that this is NOT a transcription of the signal. Symbols used
are the German subcorpus of the  SAM-PA, with the following changes to SAM-PA:

Q       Glottal stop
q       laryngealization (not in canonical forms!)
'       primary stress
"       secondary stress
#       compound word marker (optional)
+       function word marker (suffix, optional)

Words are separated by two blanks, phonemic labels are separated by
one blank. 

<Extended German SAM-PA symbols> =
See here for a complete table of extended SAM-PA symbols.
Aside of the defined German SAM-PA symbols the following
additional symbols are used:
~               : nasalization, e.g. ~E
Q               : glottal stop (instead of ? in SAM-PA) 
'               : canonical primary word stress  
"               : canonical secondary word stress 
q               : laryngealization
%               : uncertain boundary, e.g. $%a:
-               : modifications of the canonical  form:
                  replacement:  a:-A
                  elision:      a:-
                  insertion:    -A
=               : realization of two syllables as a diphthong, e.g. E:=6
+               : function word (placed after last segment)

Bemerkungen:

Die Segmentgrenzen wurden immer in positive steigende Nulldurchgänge gesetzt.
In den meisten BAS Korpora wird das vokalisierte /r/ durch einen Diphthong/Triphthong anstatt eines eigenen Segments notiert, wenn es auf einen Vokal/Diphthong folgt.
Zum Beispiel: /d i:6/ (dir), /g e: h OY6/ (geheuer)

S2-Format

Dieses Format ist nicht mehr aktuell und wird nicht empfohlen!

Das S2-Format enthält automatisch erzeugte Phonem-Segmentierungen. Das Format entspricht weitgehend dem S1-Format mit folgenden Abweichungen:

Das Transkript ist normalerweise nicht eingetragen
In der Liste der Segmente ist in der dritten Spalte die zeitnormalisierte logarithmisierte Likelihood des Segments, die während des Pattern-Matching berechnet wurde, eingetragen.

BAS Partitur-Format

Allgemeines

Die meisten Formate für segmentale Informationen haben den Nachteil, daß sie

nicht leicht erweiterbar sind (ohne daß z.B. Software umgeschrieben werden muß),
mit Standard UNIX-Tools nicht leicht verarbeitbar sind,
verschiedene Beschreibungsebenen miteinander vermischen (was zu technischen und systematischen Problemen führt).

Aus diesem Grunde wurde am BAS auf der Basis des SAM Labelformats ein neues offenes Format zur Beschreibung segmentaler Informationen entwickelt, welches diese Schwächen umgeht. Da es als Idealvorstellung alle verschiedenen Beschreibungsebenen des Sprachsignals wie die Stimmen einer Partitur nebeneinanderstellt, wurde es BAS Partitur Format (BPF) genannt.

In Zukunft werden alle BAS Korpora, sofern sie segmentale Informationen enthalten, im BAS Partitur Format ausgeliefert. Alte Formate werden zwar beibehalten, aber ab einem bestimmten Zeitpunkt nicht mehr mit Updates unterstützt.

Das BPF wird auch als internes Austauschformat der BAS WebServices verwendet.

Eine Veröffentlichung zur Version 1.2 finden Sie hier (1998).

Das BAS Partitur Format weist folgende Merkmale auf:

SAM-kompatible Struktur und Einträge,
durch einfaches Konkatenieren leicht erweiterbar,
offenes Format, d.h. Erweiterungen des Standards können erfolgen, ohne daß bisherige Software umgeschrieben werden muß,
Zeitsynchrone, unabhängige Beschreibung beliebig vieler Ebenen des Zeitsignals, z.B. Orthographie, Vorschlagstranskription, Phonologie, Phonetik, Prosodie, Dialogakt, Syntax, Semantik, etc.
Symbolische Links zwischen den einzelnen Ebenen, wobei die Wort-Einheit als Bezug fungiert.

Files und Mimetype

Wie im SAM Standard sind BPF files vom Typ text/plain. Als Kodierungen sind nur 7-bit ASCII oder UTF-8 erlaubt. Manche BPF tier erlauben aus historischen Gründen auch die Kodierung in LaTeX.

Nach Konvention haben BPF Files die Extension '*.par' oder '*.PAR' und den Mimetype 'text/plain-bas'.

BPF files sind 'zeilenorientiert', d.h. Information ist in Zeilen strukturiert und für die Verarbeitung durch UNIX-Tools wie sed, grep, gawk optimiert. Eine XML Version der BPF Daten ist im Annotation Graph Konzept von Liberman (ATLAS format) kodiert. Diese Files haben nach Konvention die Extensionen '*.ags' oder '*.AGS' und den Mimetype 'text/xml'. Die DTD dieses Formats kann hier heruntergeladen werden.

History

1.0   : 01.09.95 Vorläufige Definition des BAS Partitur Formats 
        BITTE NICHT MEHR VERWENDEN !
1.1   : 01.06.96 Strukturierte Definition mit Klassen
1.2   : 28.08.96 Label ELF: aus Definition gestrichen
        (Tool par-1.1-to-1.2 wandelt 1.1 Files in 1.2 Files um)
1.2.1 : ?
1.2.2 : Tier DAS added
1.2.3 : 16.01.98 Tier TR2, SUP added
1.2.4 : 07.07.98 Tier PRS added
1.2.5 : 24.08.98 Tier NOI added
1.2.6 : distinction between symbolic links to word groups (list of word
        numbers seperated by kommata) and symbolic links to events between
        words (eg. noises, number pairs seperated by semi-colon)
        changed class definition of class 1, 4 and 5 accordingly
        changed tier defintion NOI
1.2.7 : 12.09.00 Tiers LBP and LBG added
1.2.8 : 11.05.01 Tiers PRO,POS,LMA,SYN,FUN,LEX added
1.2.9 : 07.08.01 : Tier IPA added
1.2.10 : 29.08.01 : Tier TRN added
1.2.11 : 28.11.01 : Tier TRS added
1.2.12 : 20.07.02 : Tiers GES,USH,USM,OCC,USP added
1.2.13 : 22.10.02 : Tier GES: definition of gestures extended
                    Tier TLN added
1.2.14 : 21.04.06 : Tier PRM added		    
1.2.15 : 21.02.07 : Tier TRW added
1.2.16 : 21.09.09 : Tier MAS added
1.3    : 05.10.12 : Extension of 7-bit ASCII to UTF-8 as a valid coding 
1.3.1  : 11.05.17 : added header entries MAO (MAUS options) and GPO (G2P options)
1.3.2  : 27.06.17 : added header entry SAO (Speech Recognition options)
1.3.3  : 20.07.17 : added type 1 tier TRO 
1.3.4  : 13.10.17 : added type 1 tier SPK
1.3.5  : 26.08.19 : added type 2 tier SPD
1.3.6  : 03.02.20 : added type 2 tier VAD

Strukturdefinition 1.X

Eine Partiturdatei hat üblicherweise den gleichen Basisnamen wie die zugehörige Signaldatei (vorzugsweise 8 Zeichen für ISO 9660 Kompatibilität), aber die Extension .par.

Der Inhalt der Datei ist nur in 7-Bit-ASCII und UTF-8 kodiert (um Portabilität auf alle Plattformen zu gewährleisten); je nach Label-Typ können Sonderzeichen (z.B. Umlaute) in LaTeX oder UTF-8 kodiert werden. Jede Zeile beginnt mit einem eindeutigen dreistelligem Label, gefolgt von einem Doppelpunkt, das den Inhalt (Syntax und Semantik) der nachfolgenden Zeile definiert. Die Felder der Zeile sind mit 'white spaces' (blank, tab) von einander getrennt.

Das Partiturfile besteht analog zu SAM aus einem Headerteil vom Label LHD: bis Label LBD: und einem Bodyteil von Label LBD: bis zum Dateiende, wobei die letzte Zeile korrekt mit einem 'line terminator' Symbol abgeschlossen sein muß (das abschließende Label ELF: des SAM Label Formats wurde nicht übernommen, da es die einfach Bearbeitung der Partiturfiles behindert).

Der Headerteil enthält SAM-kompatibel die wichtigsten generellen Informationen. Obligatorisch sind die folgenden Einträge:

LHD: Partitur Version
SAM: Abtastrate in Hz
LBD:

Empfohlen sind die folgenden Einträge:

REP: Aufnahmeort
SNB: Anzahl Bytes pro Sample
SBF: Bytereihenfolge (Intel 01, Motorola 10)
SSB: Bitauflösung
NCH: Anzahl Kanäle
SPN: Sprecher ID

Zum Beispiel:

LHD: Partitur 1.3
REP: Muenchen
SNB: 2
SAM: 16000
SBF: 01
SSB: 16
NCH: 1
SPN: PS1
LBD:

Die folgenden Einträge sind optional (außer diesen sind im Prinzip auch beliebige andere erlaubt, solange sie nicht mit obligatorischen Label-Definitionen kollidieren!):

FIL: SAM Dateitype
TYP: Typ des SAM-Labelfiles
DBN: Korpusname
VOL: Nummer des Volumes
DIR: Directory im Volume
SRC: Name des Sprachsignalfiles
BEG: Anfang der gelabelten Sequenz
END: Ende der gelabelten Sequenz
RED: Aufnahmedatum
RET: Aufnahmedauer
RCC: Aufnahmebedingungen (Mikrophone,etc.)
CMT: Kommentar
SPI: Sprecherinformation
PCF: Name der Protokolldatei
PCN: Protokollnummer
EXP: Name des Segmentierers
SYS: Labelingsystem
DAT: Datum der Fertigstellung der Labelung
SPA: SAM-PA Version
MAO: MAUS version and option list (paired value list)
GPO: G2P version and option list (paired value list)
SAO: Speech recognition program, version and option list (paired value list)

Der Bodyteil beginnt nach dem Label LBD: und reicht bis zum Dateiende. Er enthält die eigentlichen Spuren der Partitur. Jede Spur ist durch ihr eindeutiges Label gekennzeichnet. Sowohl die Reihenfolge der Spuren, als auch die Reihenfolge der einzelnen Zeilen einer Spur sind beliebig.

Es gibt 5 Grundklassen von Spuren:

Spuren mit symbolischer Relation
Eine Zeile dieser Spur enthält drei Einträge:
- das Tier-Label
- eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wort-Tokens darstellen (durch Kommata getrennt) oder ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wort-Tokens bezeichnet (durch Semicolon getrennt)
- einen String mit der Labelinformation (kann white space enthalten)
Diese drei Einträge sind durch 'white spaces' getrennt.
Die symbolischen Links beziehen sich auf eine Referenzspur, in der die Worteinheiten von Null beginnend durchnumeriert sind (Die Wahl der Wort-Tokens als Einheit ist willkürlich!).
Der Label-String wiederum enthält eine für diesen Tier spezifizierte Syntax und Semantik.
Beispiele:
TRL: 6,7 mit'm
NOI: 4;5 #Klopfen
Spuren mit zeitlicher Relation, zeitkonsumierend
Eine Zeile dieser Spur enthält 4 Einträge:
- das Tier-Label
- zwei Zahlen, die Beginn und Dauer des Ereignisses bezeichnen in samples
- einen String mit der Labelinformation
Die Zahlen sind vom Typ Integer; sie bezeichnen Beginn und Dauer des zeitlichen Segments in samples.

Zum Beispiel:
GES: 10334949 23646 I-Geste I - tipp + ...
Spuren mit zeitlicher Relation, nicht zeitkonsumierend
Eine Zeile dieser Spur enthält drei Einträge:
- das Tier-Label
- eine Zahl, die den Zeitpunkt des Ereignisses bezeichnet in samples
- einen String mit der Labelinformation
Zum Beispiel:
PRB: 13456 TON: P*; FUN: PA
Spuren mit zeitlicher Relation und symbolischer Relation, zeitkonsumierend
Eine Zeile dieser Spur enthält fünf Einträge:
- das Tier-Label
- zwei Zahlen, die Beginn und Dauer des Ereignisses bezeichnen in samples
- eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wörtern darstellen (durch Kommata getrennt) oder
  ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet (durch Semicolon getrennt)
- einen String mit der Labelinformation
Zum Beispiel:
SAP: 13456 345 9 aU
Spuren mit zeitlicher Relation und symbolischer Realtion, nicht zeitkonsumierend
Eine Zeile dieser Spur enthält vier Einträge:
- das Tier-Label
- eine Zahl, die den Zeitpunkt des Ereignisses bezeichnet in samples
- eine Liste von Zahlen, die den symbolischen Bezug zu einem oder mehreren Wörtern darstellen (durch Kommata getrennt) oder
  ein Zahlenpaar, welches ein Ereigniss zwischen zwei Wörtern bezeichnet (durch Semicolon getrennt)
- einen String mit der Labelinformation
Zum Beispiel:
PRB: 13456 13 TON: P*; FUN: PA

Bemerkungen:

Ist der symbolische Bezug zur Referenzspur nicht (oder noch nicht) gegeben, wird als symbolischer marker -1 eingetragen
Derselbe symbolische Marker kann in mehreren Zeilen einer Spur auftauchen (das ist z.B. der Fall, wenn vor der ersten Äußerung ein nicht-artikulatorisches Geräusch auftritt).

Spurdefinitionen

Vorschlagstranskription (kanonische Form) KAN: Klasse 1
Definition:
KAN: (symbolic link) (transcript)
Diese Spur enthält eine tokenisierte Liste der vom Sprecher getätigten Wörter in einer 'kanonischen' Ausspracheform kodiert in SAMPA (soweit definiert für diese Sprache) oder X-SAMPA. (in älteren deutschen Korpora ev. noch in einer Variante German SAM-PA). Anstatt eines 'glutinierten' SAMPA Strings in der 3. Spalte können die SAMPA-Symbole auch durch Leerzeichen getrennt kodiert werden (also in Spalte 3 bis Ende, empfohlen).
'Kanonisch' ist hier in Anführungszeichen gesetzt, weil z.B. bei Spontansprache oft nicht mehr von einer kanonischen Form, also einer Zitierform gesprochen werden kann; z.B. wenn es sich um verstümmelte Wörter oder Häsitationen handelt.
Die Segmentierung der Gesamtäußerung erfolgt in Worteinheiten, wobei alles als Wort gilt, was mehr oder weniger klar zur 'Rede' des Sprechers gerechnet werden kann. Z.B. gelten in diesem Sinne Häsitationen als Wörter, Lachen und Husten dagegen nicht. Diese Trennung ist nicht immer eindeutig durchzuführen, spielt aber auch keine Rolle, da diese Spur mehr oder weniger willkürlich als Referenzspur verwendet werden soll (der Begriff 'kanonische Form' ist bekanntlich umstritten, aber nützlich!).
Ähnliche Probleme ergeben sich bei stark reduzierten Formen, die orthographisch z.B. als mit'm wiedergegeben werden. In diesen Fällen werden die zugrundeliegenden Wörter restituiert wiedergegeben, hier als /mIt de:m/. Grund hierfür ist, daß genau solche Phänomene anhand der standardisierten Referenzspuren automatisch ermittelbar sein sollen.
Zum Beispiel:

KAN: 0 j 'a: KAN: 1 Q a l z o:+ KAN: 2 Q E: m KAN: 3 h 'OY t @ KAN: 4 Q o: d 6+ KAN: 5 m 'O6 g @ n

Die symbolische Nummerierung der Worteinheiten der Vorschlagstranskription bildet, wie schon erwähnt, die Referenz für alle anderen symbolischen Bezüge (soweit vorhanden). Der Sinn dieser Zuordnung von kategorialen Ereignissen zu Worteinheiten liegt zunächst ganz pragmatisch darin, daß dadurch eine korrekte Darstellung der Partituren über der Zeit ermöglicht werden soll. Die Zuordnung kann aber auch andere Vorteile haben, z.B. bei der Darstellung von prosodischen Ereignissen.
Erweiterte Vorschlagstranskription (kanonische Form) KSS: Klasse 1
Definition:
KSS: (symbolic link) (transcript)
Wie tier KAN aber transcript kann in SAMPA, X-SAMPA, IPA oder ARPABET kodiert sein. Außerdem sind Silbengrenzen sowie primärer und sekundärer Stress markiert. Phonetische Symbole sind immer durch Leerzeichen getrennt.
Zum Beispiel:
```
KSS: 0 d ' e:6
KSS: 1 b ' U n . d @ s . t a: k
KSS: 2 h ' a t
KSS: 3 z ' aI . n @
KSS: 4 d e . b ' a . t @
KSS: 5 ? ' y: . b 6
KSS: 6 d ' i:
KSS: 7 r e . g ' i: . r U N s . ? E6 . k l E: . r U N
KSS: 8 f ' O6 t . g @ . z E t s t
```
Morphologische Segmentierung MRP: Klasse 1
Definition:
MRP: (symbolic link) (transcript)
Diese Spur kodiert die morphologische Zerlegung der Wörter in Morphklassen. Die Morphsequenz und die Klassensequenz sind durch ein Semikolon getrennt; Segmente innerhalb der Sequenzen durch Leerzeichen. Eine Definition der Morphklassen befindet sich hier.
Zum Beispiel:
```
MRP: 0 d er;ART INFL
MRP: 1 bund es tag;NN FG NN
MRP: 2 hat;V
MRP: 3 sein e;PPOS INFL
MRP: 4 debatte;NN
MRP: 5 über;ADP
MRP: 6 d ie;ART INFL
MRP: 7 reg ier ung s er klär ung;V SFX SFX FG PRFX V SFX
MRP: 8 fort ge setz t;PTKVZ PRFX V SFX
```
Silbifizierte Vorschlagstranskription (kanonische Form) KAS: Klasse 1
Definition:
KAS: (symbolic link) (transcript)

Diese Spur enthält eine Liste der vom Sprecher geäßerten Wörter in einer silbifizierten kanonischen Ausspracheform. Die Transkription erfolgt in der SAMPA-Variante der zugrundeliegenden Sprache oder X-SAMPA. Silben sind hierbei durch einen Punkt '.' getrennt. Die SAMPA-Symbole können durch Blanks getrennt sein. Ambisyllabische Konsonanten werden der vorangehenden Silbe zugeordnet.

Zum Beispiel:
```
KAS:	0	v i:6 
KAS:	1	m Y s . @ n
KAS:	2	d a n
KAS:	3	d i: . z @
KAS:	4	f i l . j a: . l @
KAS:	5	Q I n
KAS:	6	h a n . o: . f 6
KAS:	7	b @ . z u: . x @ n
```

Phonemische Transkription PTR: Klasse 1
Definition:
PTR: (symbolic link) (transcript)
Diese Spur enthält eine Liste der vom Sprecher gesprochenen Wörtern in der tatsächlichen Aussprache kodiert in SAMPA (bei Deutsch wird in älteren Sprachkorpora erweitertes German SAM-PA verwendet).
Zum Beispiel:
```
PTR: 0  j a:
PTR: 1  a l z O
PTR: 2  @ m
PTR: 3  h OY t @
PTR: 4  o: d 6
PTR: 5  m O6 N
```
Die PTR weicht i.A. von der KAN ab, weil Sprecher nur selten in Zitierformen sprechen.
Orthographie ORT: Klasse 1
Definition:
ORT: (symbolic link) (orthography)

Die Spur Orthographie enthält die zur Vorschlagstranskription gehörigen orthographischen Formen.
Es gilt die lexikalische Schreibweise, d.h. zu Beginn eines Satzes wird klein geschrieben (nur Nomen werden groß geschrieben). Umlaute und andere von 7 Bit ASCII abweichende Buchstaben werden so notiert, wie sie für den lexikalen Zugriff benötigt werden. Daher können z.B. Umlaute von Fall zu Fall (d.h. in verschiedenen Korpora) unterschiedlich kodiert sein, z.B. in ISO-8859 oder in LaTeX.
Diese Spur dient zur einfachen Referenz auf einen Lexikoneintrag. Daher soll sie außer lexikalischen Einheiten keine weiteren Informationen oder Marker enthalten. Sie enthält daher auch keine Interpunktionen. Zu den 'lexikalischen' Einheiten gehören allerdings alle Einheiten, die auch in der KAN Spur definiert sind (d.h. z.B. Hesitationen, Abbrüche).
Zum Beipiel:
```
ORT: 0  ja
ORT: 1  also
ORT: 2  <"ahm>
ORT: 3  heute
ORT: 4  oder
ORT: 5  morgen
```
Verbmobil Transliteration TRL: Klasse 1
Definition:
TRL: (list of symbolic links) (transliteration) Klasse 1

Die Spur Verbmobil-Transliteration enthält die Transliteration der Äußerung nach den Verbmobil I Transliterations-Konventionen segmentiert in die Einheiten der Vorschlagstranskription.
Dabei kann es (z.B. bei reduziert dargestellten Formen) vorkommen, daß eine Einheit sich auf zwei Worteinheiten bezieht. Die Segmentierung erfolgt derart, daß immer der ganze Bereich bis zum Beginn der nächsten Worteinheit als Labelstring eingetragen wird. Durch diese Festlegung entsteht möglicherweise am Anfang der Transliterationsspur ein Eintrag, der keine Worteinheit enthält. Dieser wird durch den symbolischen Link 0 zur ersten Worteinheit zugerechnet.
Eine Beschreibung des Verbmobil I Transliterationsformats befindet sich hier.
Beispiele:
```
TRL: 0  <Schmatzen>
TRL: 0  ja ,
TRL: 1  also
TRL: 2  <"ahm>
TRL: 3  heute
TRL: 4  oder 
TRL: 5  morgen  .
```
Verbmobil Transliteration II TR2: Klasse 1
Definition:
TR2: (list of symbolic links) (transliteration) Klasse 1

Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach den neu überarbeiteten Konvention des Verbmobil II Projektes. Eine grundlegende Überarbeitung der Konventionen wurde notwendig, weil sich das Format der ersten Verbmobil Phase nicht durch automatische Parser verarbeiten ließ. Nähere Informationen zum VM II Format befinden sich hier.
Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).
Beispiel:
```
TR2: 25 ~Weihnachten
TR2: 26 ist
TR2: 27 das
TR2: 28 sowieso
TR2: 29 immer
TR2: 30 etwas
TR2: 31 schwierig ,
TR2: 32 und
TR2: 33 <"ahm>
TR2: 34 in
TR2: 35 der
TR2: 36 #zweiten
TR2: 37 Dezemberwoche
TR2: 38 bin
TR2: 39 ich
TR2: 40 in
TR2: 41 ~M"unchen
TR2: 42 auf
TR2: 43 dem 
TR2: 44 Kongre"s .
TR2: 45 also
TR2: 46 bliebe
TR2: 47 noch   
```
Original-TranskriptionTRO: Klasse 1
Definition:
TRO: (list of symbolic links) (transliteration) Klasse 1

Diese Spur beschreibt exakt die originale Transkription einer Aufnahme, d.h. wenn man alle label strings konkateniert, sollte man wieder die Textform des original Transkriptes erhalten. Zeilenumbrüche sind als '\n' kodiert, Tabulator als '\t' und andere 'white spaces' als '\s'. TRO kann z.B. das Ergebnis eines optimalen Mappings der Referenz-Tier ORT auf die original Transkription sein (z.B. das Ergebnis des Webservice 'subtitle'). Die TRO tier kann z.B. in Verbindung mit einer MAUS-Segmentierung für die automatische Erzeugung von Untertiteln genutzt werden, oder für die Indizierung auf original strings der Transkription.
Beispiel:
```
TRO: 67 Roten\s
TRO: 68 Himmel.\s\n
TRO: 69 Mein\s
TRO: 70 Blick\s
TRO: 71 folgte\s
TRO: 72 dem\s
TRO: 73 2.\s
TRO: 74 Raumschiff,\s
TRO: 75 wie\s
```
Überlagerte Sprache SUP: Klasse 1
Definition:
SUP: (list of symbolic links) (utterrance-id) (transliteration) Klasse 1

In Multi-Party Aufnahmen (z.B. Verbmobil II) kann es vorkommen, daß die Sprache des gerade aufgenommenen Sprechers von anderen Sprechern aktiv überlagert wird ('cross talk'). In diesem Fall wird eine zusätzliche Spur SUP eingefügt, welche genau die Teile des 'fremden' Sprecher transliteriert, die den gerade sprechenden Partner 'aktiv überlagert'. Die symbolischen Links geben die Referenz zu den überlagerten Teilen der Äußerung wieder. Die 'utterance-id' ist i.a. der Filename der Äußerung, aus dem die Überlagerung stammt. Die Spur SUP wird im Moment nur in Verbindung mit der Spur TR2 verwendet. Zur näheren Definition von überlagerter Sprache in Verbmobil II siehe hier.
Zum Beispiel:
```
TR2: 0 ich
TR2: 1 w"urde
TR2: 2 vorschlagen ,
TR2: 3 da"s
TR2: 4 wir9@
TR2: 5 dann9@
TR2: 6 <:<#> hinfliegen:> ,
TR2: 7 <:<#> ich:>
TR2: 8 hab'
TR2: 9 jetzt 
TR2: 10 aber
TR2: 11 <:<#Rascheln> grade:>
TR2: 12 <:<#Rascheln> keine:>
TR2: 13 Unterlagen
TR2: 14 da . <#>
SUP: 4,5 g002acn2_028_AAK.par   @9ja 
```

Phonetische Segmentierung PhonDat PHO: Klasse 4

Definition:

PHO: (begin) (duration) (list of symbolic links) (label string)

Diese Spur enthält eine bündige Segmentierung der Äußerung in extended German SAM-PA Einheiten (breite phonetische Segmentierung). Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples.
Zu den Konventionen der Segmentierung und zur Syntax und Semantik des Labelstrings siehe hier.

<label string> = '#c:' (beginning of first word)  OR
           '#p:' (pause) OR
           '#v:' (mis-pronunciation) OR
           <segment> OR
           <word boundary segment> OR
           <compound boundary segment> OR
           <punctuation>

<segment> = $<sampa string> (ordinary segment)

<word boundary segment> = ##<sampa string>

<compound boundary segment> = $#<sampa string>

<sampa string> = any string of <extended German SAM-PA symbols>

<punctuation> = '#.' OR '#,' OR '#?' OR '#!'

Die Definition für extended German SAM-PA befindet sich hier.

Zum Beispiel:

PHO: 2473	0	0	#c:
PHO: 2473	1100	0	##d
PHO: 3573	0	0	$a-@
PHO: 4126	2007	0	$s
PHO: 6133	0	0	$-+
PHO: 6133	1130	1	##g
PHO: 7263	1206	1	$e:
PHO: 8496	937	1	$t
PHO: 9433	0	2	##Q-
PHO: 9433	0	2	$-q
PHO: 9433	2698	2	$aU
PHO: 12131	1178	2	$x
PHO: 13309	0	2	$-+
PHO: 13309	962	3	##n
PHO: 14271	1675	3	$I
PHO: 15946	4308	3	$C
PHO: 18579	0	3	$t-
PHO: 18579	0	3	$-+
PHO: 18579	5467	3	#p:

Phonetische Segmentierung SAM-PA SAP: Klasse 4
Definition:
SAP: (begin) (duration) (list of symbolic links) (label string)

Diese Spur enthält eine Segmentierung der Äußerung in SAM-PA/X-SAMPA Einheiten (breite phonetische Segmentierung). Im Gegensatz zur Spur PHO: muß diese nicht bündig sein. Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples.
Zu den Konventionen der Segmentierung und zur Syntax und Semantik des Labelstrings für Deutsch siehe hier.

Die Definition für extended German SAM-PA befindet sich hier.
Zum Beispiel:
```
SAP:	549	867	0	Q%<
SAP:	1416	1242	0	aU
SAP:	2658	1136	0	f
SAP:	3794	408	1	v
SAP:	4202	852	1	i:
SAP:	5054	433	1	d
SAP:	5487	1686	1	6%>
SAP:	7173	828	1	h%<%>
SAP:	8001	864	1	2:-9%<%>
SAP:	8865	1015	1	r-6%<
SAP:	9880	0	1	@-
SAP:	9880	1732	1	n
```
Automatische Phonetische Segmentierung durch MAUS MAU: Klasse 4
Definition:
MAU: (begin) (duration) (list of symbolic links) (label string)

Diese Spur enthält eine vollautomatisch erstellte Segmentierung in Einheiten des SAM-PA. Einige dieser Segmentierungen (Verbmobil) werden in enger Zusammenarbeit mit der TU München, Lehrstuhl für Mensch-Maschine-Kommunikation (Dr. G. Ruske) erstellt.
Eine ausführliche Beschreibung des MAUS Systems finden Sie hier.
Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn der Aufnahme, die zweite Nummer bezeichnet die Länge des Segments in Samples.
Die Segmentierung erfolgt bündig und ohne Bezug zur Vorschlagstranskription (außer den symbolischen Relationen).
Das Inventar ist erweitertes Deutsches SAM-PA. Zusätzlich werden 'nicht-sprachliche' Geräusche mit dem Label <nib> und Pausen mit <p:> segmentiert (nur in Spontansprache!). Diese beiden Labels erhalten immer den symbolischen Link -1 (= keine Zuordnung).
Darüber hinaus werden sprachliche, aber nicht klassifizierbare Ereignisse (z.B. unverständliche Wörter) mit dem Label <usb> bezeichnet. Letztere erhalten auch einen symbolischen Link.
Beispiel:
```
MAU: 0 676 -1 <p:>
MAU: 677 7861 -1 <nib>
MAU: 8539 450 0 g
MAU: 8990 2436 0 u:
MAU: 11427 1740 0 t
MAU: 13168 958 1 d
MAU: 14127 1298 1 a
MAU: 15426 3820 1 n
MAU: 19247 303 2 n
MAU: 19551 1785 2 e:
MAU: 21337 624 2 m
MAU: 21962 636 2 n
MAU: 22599 501 3 v
```
Wortsegmentierung WOR: Klasse 4
Definition:
WOR: (begin) (duration) (list of symbolic links) (label string)

Diese Spur enthält eine Segmentierung in Worte bzw. Wortäquivalente. Die Segmentierung muß nicht bündig sein. Als 'label string' sind sowohl Orthographie als auch Standardaussprache zulässig (z.B. Deutsches SAM-PA). Ein '-' als letztes Zeichen in 'label string' bedeutet ein elidiertes Wort (die Länge ist in diesem Fall Null) gegenüber der Referenzspur KAN. Ein '-' als erstes Zeichen in 'label string' bedeutet ein eingefügtes Wort.
Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest. Ein eingefügtes Wort erhält einen Link auf das vorherige Wort in der Spur KAN.
Dialogakt-Segmentierung DAS: Klasse 1
Definition:
DAS: (list of symbolic links) (marker string)

Diese Spur enthält die Segmentierung in Dialogakte des Deutschen Forschungszentrums für künstliche Intelligenz, Saarbrücken (DFKI).
Der Marker bezieht sich jeweils auf den Bereich des Sprachsignals, der durch die Liste von symbolischen links abgedeckt wird.
Zum Beispiel:
```
DAS: 0,1,2,3,4,5 @(SUGGEST_SUPPORT_DATE BA)
DAS: 6,7,8,9 @(DELIBERATE_EXPLICITE BA)
DAS: 10,11,12,13,14,15,16,17,18,19,20 @(SUGGEST_SUPPORT_DATE BA)
```
In diesem Beispiel bezieht sich der Dialogakt-Marker SUGGEST_SUPPORT_DATE auf die Worte 0 bis 5 in der Referenz-Spur KAN. Der Zusatz BA zeigt an, daß dieser Dialogakt von Sprecher 'B' an Sprecher 'A' gerichtet ist. Sprecher 'A' ist immer der Sprecher, der den Dialog beginnt.
Eine ausführlichere Beschreibung der verwendeten Marker, deren Bedeutung und die Prinzipien der Segmentierung finden Sie hier .
Prosodische Segmentierung nach GTobi PRB: Klasse 5
Definition:
PRB: (sample) (list of symbolic links) (marker string)

Diese Spur enthält die prosodische Segmentierung nach GTobi (Verbmobil, Technische Universität Braunschweig, Institut für Nachrichtentechnik).
Die erste Nummer bezeichnet den Zeitpunkt des prosodischen Ereignisses in Samples von Beginn des Files.
Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest.
Der Label-String beschreibt das prosodische Ereignis. Die genaue Definition befindet sich hier.
Zum Beispiel:
```
PRB:    54212    5   TON: H*; FUN: NA
PRB:    63269    7   TON: L+H*; FUN: EK
PRB:    76371    8   BRE: B3; TON: L-L%
PRB:    79967    8   TON: L*+H; FUN: PA
```
Symbolische prosodische Segmentierung PRS: Klasse 1
Definition:
PRS: (list of symbolic links) (marker string)

Diese Spur enthält eine prosodische Segmentierung und Labelung von 3 Grenzmarkern und 3 Akzenten in Anlehnung an GTobi.
Die symbolischen Links legen die eindeutige Zuordnung zu den Einheiten der Referenzspur KAN fest. Das bedeutet, daß diese Labelung nur wortweise genau erfolgt ist.
Der Markerstring beschreibt das prosodische Ereignis. Grenzmarker (B3, B2, B9) haben jeweils zwei symbolische Links welche die Wörter links und rechts des Grenzmarkers bezeichnen. Akzentmarker (PA, NA, EK) beziehen sich auf das Wort, in dem der betreffende Akzent gelabelt wurde. Angaben über die Silbenposition des Akzents innerhalb des Wortes sind nicht gegeben.
Semantik des Markerstrings:
B3 : Das Label B3 steht zwischen kompletten, intonatorisch als solchen markierten Phrasen. Diese Markierung muß nach der Definition bitonal sein, da sie aus Phrasenakzent und Grenzton bestehen muß. Auch eine Dehnung (Prefinal Lenghthening) oder Pause koennen diese Grenze markieren. Selbstverstaendlich koennen auch alle drei Merkmale in beliebigen Kombinationen auftreten. Stattdessen kann aber auch ein Wechsel in der Sprechgeschwindigkeit das Kriterium sein.
B2 : B2-Grenzen koennen innerhalb einer mit B3 als Phrase gekennzeichneten Einheit eine feinere Unterstrukturierung markieren. Hier findet sich eine schwaechere Intonation als in der uebergeordneten Einheit.
B9 : Irregulaere Grenzen B9, heißen jene, die durch unbeabsichtigte Haesitationen, Pausen und dergleichen entstehen und die keine eigentlich strukturierende Funktion erfuellen. Diese 'ungrammatischen' Phaenomene deuten haeufig auch auf Reparaturen.
PA : Den Hauptakzent PA traegt in einer mit B3 gelabelten Phrase normalerweise ein Wort. ('Phrasenakzent'). Diese Akzentuierung gibt dem Wort im Sprechakt das groeßte Gewicht in der Phrase. Gibt es keine Entscheidungsmoeglichkeit, kann auch mehr als ein Wort mit PA gekennzeichnet werden.
NA : Nebenakzente NA bezeichnen akzentuierte Woerter ohne PA. Deren Akzentuierung traegt zur inneren Strukturierung einer Phrase bei.
EK : Emphatische oder Kontrastive Akzente EK werden fuer Woerter vergeben, deren Akzentuierung besonders stark ist, weil sie im Kontrast zu anderen stehen oder eine emphatische Funktion erfuellen.
Zum Beispiel:
```
PRS:    0       EK
PRS:    4;5     B2
PRS:    7       NA
PRS:    9       NA
PRS:    11      NA
PRS:    11;12   B3
PRS:    13      EK
PRS:    14      EK
PRS:    15      PA
PRS:    17      NA
PRS:    17;18   B2
PRS:    18      NA
PRS:    19;20   B3
PRS:    23      EK
PRS:    23;24   B3
PRS:    25      EK
PRS:    27      PA
```

Geräusch Labelung NOI: Klasse 1

Definition:

NOI: (single or pair of symbolic links) (marker string)

Diese Spur enthält eine wortweise Geräuschmarkierung des Signals. Es werden zwei Typen von Geräuschen unterschieden: Einfache Geräusche, die zwischen Wörtern auftreten, erhalten in der zweiten Spalte die beiden sybolischen links der angrenzenden Wörter (z.B. '5;6'); Geräusche, die Wörter überlagern erhalten nur den sybolischen Link des überlagerten Wortes (z.B. '5').
Der 'marker string' enthält eine Liste von mit Blank getrennten Geräusch-Labeln. Die Label entsprechen der VMII TRL-Konvention:

<A> <B>                       : Atmen
<P>                           : deutliche Pause innerhalb einer Aeusserung
<%>                           : Unverstaendliches
Schmatzen>  <Smack>
<Schlucken> <Swallow>
<R"auspern>  <Throat>
<Husten>  <Cough>
<Lachen>  <Laugh>
<Ger"ausch> <Noise>           : Restklasse artikulatorisches Geraeusch
<#Klopfen>  <#Knock>
<#Rascheln> <#Rustle>
<#Quietschen> <#Squeak> 
<#Klicken> <#Click> 
<#Mikrowind>                  : Blasgeraeuch  
<#Mikrobe>                    : Koerperschall direkt vom Mikrophon
                                (z.B. durch Beruehren)
<#>                           : Restklasse technisches Geraeusch

Zum Beispiel:

NOI:	5	<Lachen>          # Wort 5 ist durch Lachen ueberlagert
NOI:	5;6	<B>               # Zwischen Wort 5 und Wort 6 ist ein 
                                  # deutliche hoerbares Atmen aufgezeichnet

Signal-basierte prosodische Akzent-Labelung LBP: Klasse 3
Definition:
LBP: (sample) (marker string)

Diese Spur enthält eine Labelung von prosodischen Grenzen angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Braunschweig durchgeführt.
Es werden folgende Akzentklassen gelabelt:
```
PA   Phrasenakzent
NA   Nebenakzent
EK   Emphase bzw. kontrastierender Akzent
```
Zum Beispiel:
```
LBP: 1651 PA
```
Prosodische signalbasierte Grenz-Labelung LBG: Klasse 3
Definition:
LBG: (sample) (marker string)

Diese Spur enthält eine Labelung von prosodischen Grenzmarkern angelehnt an GTobi im Signal. Kein Bezug zur Wortfolge. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Braunschweig durchgeführt.
Es werden folgende Grenzen gelabelt:
```
B9    irreguläre Grenze
B2    schwache/ intermediäre Phrasengrenze
B3    starke reguläre Phrasengrenze, keine Frage
B3QH  B3, inhaltlich eine Frage, mit hohem Grenzton
B3QL  B3, inhaltlich eine Frage, mit tiefem Grenzton
```
Zum Beispiel:
```
LBG: 6586 B3
```
Syntaktisch-prosodische Grenz-Labelung PRO: Klasse 1
Definition:
PRO: (symbolic link) (marker string)

Diese Spur enthält eine Labelung von prosodischen Grenz- und Akzentmarkern auf Basis der Wortfolge der Äußerung. Konsequenterweise handelt es sich daher um eine Zuordnung von Labeln zu Wortpositionen bzw. zu Positionen zwischen Wörtern. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Erlangen in Zusammenarbeit mit der Universität München durchgeführt.
Eine detailierte Beschreibung des Labeling-Systems und der verwendeten Klassen findet sich hier (für Deutsch) (Definition der Labels in Tabelle 12 auf S. 15-16 des Dokuments) und hier (für Englisch).
Zum Beispiel:
```
PRO: 6;7        SS2
PRO: 13;14      AC1
PRO: 14;15      AC1
PRO: 15;16      AC1
PRO: 18;19      SC3
PRO: 24;25      IRB
PRO: 25;26      AC1
PRO: 26;27      AC1
PRO: 27;28      AC1
PRO: 28;29      IWE
PRO: 28;29      IZB
PRO: 31 	SM3
```

Syntaxbäume SYN: FUN: LEX: Klasse 1

Definition:

SYN: (symbolic link) (marker string)

FUN: (symbolic link) (marker string)

LEX: (symbolic link) (marker string)

Diese Spur enthält eine maschinen-lesbare Repräsentation der Syntax der zugrundeliegenden Äußerung. Die tiers SYN, FUN und LEX beziehen sich auf diesselbe Struktur, können aber bei Bedarf auch separat ausgewertet werden. Die Labelung wurde im Rahmen des Verbmobil 2 Projekts von der Universität Tübingen durchgeführt.

Eine Übersicht der Baumbänke in Verbmobil II finden Sie hier.

Eine detailierte Beschreibung des Labeling-Systems und der verwendeten Klassen findet sich hier für die Sprachen Deutsch, Englisch und Japanisch (nur in Englisch).

Darstellung der Syntaxbäume im BAS Partiturformat (BPF)
=======================================================

Die Syntaxbäume werden in drei Spuren abgebildet. Die terminalen
(lexikalischen) Kategorien werden in der LEX-Spur dargestellt. Die 
höheren syntaktischen Kategorien, die den Knoten des Syntaxbaumes
entsprechen, werden in der SYN-Spur aufgelistet. Die zur LEX- und
SYN-Spur gehörigen grammatischen Funktionen, stehen in der
FUN-Spur. Sie werden im Syntaxbaum an den Kanten annotiert.


Lexikalische Kategorien: 
------------------------

Definition:

LEX: (symbolic link) (label string)

Diese Spur enthält die lexikalische Kategorisierung der Wörter, auf
die mit den Symbolic Links verwiesen wird. Häsitationen und
unverständliche Äußerungen bleiben hierbei unberücksichtigt. 


Beispiel:

LEX:    0               0       PDS
LEX:    1               0       VMFIN
LEX:    2               0       CARD
LEX:    3               0       NN
LEX:    4               0       ADJD
LEX:    5               0       VVINF

Der Label-String setzt sich zusammen aus 
(1) einem Tag für die jeweilige lexikalische Kategorie, so zum
Beispiel CARD (Kardinalzahl) für Wort 2 
(2) einem Index, der eindeutige Zuordnungen zwischen der LEX-, der
SYN- und der FUN-Spur möglich macht. Für terminale Knoten im Syntaxbaum,
also die Ebene, die in der LEX-Spur behandelt wird, ist der Index
stets gleich 0 (siehe SYN- und FUN-Spur für weitere Informationen zum Index).


Im Deutschen verwendete Labels:

UNKNOWN Unbekanntes Tag aus Einlesen aus Korpusdatei
--      
ADJA    Attributives Adjektiv
ADJD    Adverbiales oder prädikatives Adjektiv
ADV     Adverb
APPR    Präposition; Zirkumposition links
APPRART Präposition mit Artikel
APPO    Postposition
APZR    Zirkumposition rechts
ART     Bestimmter oder unbestimmter Artikel
CARD    Kardinalzahl
FM      Fremdsprachliches Material
ITJ     Interjektion
KOUI    Unterordnende Konjunktion mit zu und Infinitiv
KOUS    Unterordnende Konjunktion mit Satz
KON     Nebenordnende Konjunktion
KOKOM   Vergleichspartikel, ohne Satz
NN      Normales Nomen
NE      Eigennamen Hans*Hamburg*HSV
PDS     Substituierendes Demonstrativpronomen
PDAT    Attribuierendes Demonstrativpronomen
PIS     Substituierendes Indefinitpronomen
PIAT    Attribuierendes Indefinitpronomen
PIDAT   Attribuierendes Indefinitpronomen mit Determiner
PPER    Irreflexives Personalpronomen
PPOSS   Substituierendes Possessivpronomen
PPOSAT  Attribuierendes Possessivpronomen
PRELS   Substituierendes Relativpronomen
PRELAT  Attribuierendes Relativpronomen
PRF     Reflexives Personalpronomen
PWS     Substituierendes Interrogativpronomen
PWAT    Attribuierendes Interrogativpronomen
PWAV    Adverbiales Interrogativ- oder Relativpronomen
PAV     (ersetzt durch PROP)
PTKZU   zu vor Infinitiv
PTKNEG  Negationspartikel
PTKVZ   Abgetrennter Verbzusatz
PTKANT  Antwortpartikel
PTKA    Partikel bei Adjektiv oder Adverb
TRUNC   Kompositions-Erstglied
VVFIN   Finites Verb, voll
VVIMP   Imperativ, voll
VVINF   Infinitiv, voll
VVIZU   Infinitiv mit zu, voll
VVPP    Partizip Perfekt, voll
VAFIN   Finites Verb, aux
VAIMP   Imperativ, aux
VAINF   Infinitiv, aux
VAPP    Partizip Perfekt, aux
VMFIN   Finites Verb, modal
VMINF   Infinitiv, modal
VMPP    Partizip Perfekt, modal
XY      Nichtwort, Sonderzeichen
$,      Komma
$.      Satzbeendende Interpunktion
$(      Sonstige Satzzeichen; satzintern
PROP    NEU: pronominal verw. Praeposition ("dafuer")
BS      Buchstabe (z. B. bei Buchstabierung)


Im Englischen verwendete Labels:

UNKNOWN        Unbekanntes Tag aus Einlesen aus Korpusdatei
--             
CC             Coordinating conjunction
CD             Cardinal number
DT             Determiner
EX             Existential there
FW             Foreign word
IN             Preposition or subordinating conjunction
JJ             Adjective
JJR            Adjective, comparative
JJS            Adjective, superlative
LS             List item marker
MD             Modal
NN             Noun, singular or mass
NNS            Noun, plural
NP             Proper noun, singular
NPS            Proper noun, plural
PDT            Predeterminer
POS            Possessive ending
PP             Personal pronoun
PP$            Possessive pronoun
RB             Adverb
RBR            Adverb, comparative
RBS            Adverb, superlative
RP             Particle
SYM            Symbol
TO             to
UH             Interjection
VB             Verb, base form
VBD            Verb, past tense
VBG            Verb, gerund or present participle
VBN            Verb, past participle
VBP            Verb, non-3rd person singular present
VBZ            Verb, 3rd person singular present
WDT            Wh-determiner
WP             Wh-pronoun
WP$            Possessive wh-pronoun
WRB            Wh-adverb
,              Comma
.              Sentence-final punctuation


Syntaktische Kategorien:
------------------------

Definition:

SYN: (list of symbolic links) (label string)

Diese Spur enthält die syntaktische Kategorisierung von Konstituenten
folgender Ebenen: Phrasen, topologische Felder, Sätze. Lexikalische
Einheiten wie Häsitationen und unverständliche Äußerungen, die nicht
lexikalisch kategorisiert worden sind, bleiben auch in der SYN-Spur
unberücksichtigt. Prinzipiell sind auch Turns denkbar, die eine LEX-
und eine FUN-Spur haben, aber keine SYN-Spur. 

Beispiel:

SYN:    0               1       NX
SYN:    0               2       VF
SYN:    0,1,2,3,4,5     0       SIMPX
SYN:    1               1       VXFIN
SYN:    1               2       LK
SYN:    2               1       ADJX
SYN:    2,3             0       NX
SYN:    2,3,4           0       MF
SYN:    4               1       ADJX
SYN:    5               1       VXINF
SYN:    5               2       VC

Jeder Label-String beinhaltet zwei Informationen:

(1) Die syntaktische Kategorie einer Konstituente. Sie spannt die
festgelegte Wortfolge durch eine Liste der Symbolischen Links auf. So
gehören die Wörter 2 und 3 zur Nominalphrase NX, die wiederum Teil des
Mittelfelds MF und schließlich des Simplex-Satzes SIMPX ist.
(2) Einen Index, der die hierachischen Beziehungen der Konstituenten
im Syntaxbaum disambiguiert. Verzweigende Knoten erhalten genauso wie
die terminalen Knoten der LEX-Spur den Index 0. Ihre Lage im Baum
ergibt sich über die zugehörige Wortfolge, die die Wortfolgen der
Tochterknoten enthält. Bei nichtverzweigenden Knoten bekommt der
jeweils höhere Knoten einen gegenüber seinem Tochterknoten um 1
erhöhten Index.


SYN:          _____________________SIMPX_____________
             /        /              |               \ 
SYN:        /        /            __MF(0)__           \
           /        /            /         \           \
SYN:     VF(2)    LK(2)        NX(0)        \         VC(2)    
          |        |         /      \        |          |
SYN:     NX(1)  VXFIN(1)  ADJX(1)    |     ADJX(1)   VXINF(1)
          |        |        |        |       |          |
LEX:    PDS(0)  VMFIN(0)  CARD(0)  NN(0)   ADJD(0)   VVINF(0)

symbolic   0        1        2        3       4          5  
links


So ist der Index der finiten Verbalphrase VXFIN, die nur aus Wort 1
besteht, gegenüber dem zugehörigen terminalen Knoten (siehe LEX)
erhöht, um klarzustellen, daß sich VXFIN oberhalb der Wortebene
befindet. Für die linke Satzklammer LK, die ausschließlich VXFIN
dominiert, wird der Index erneut um 1 erhöht. Beim die LK
dominierenden Simplex-Satz SIMPX wird der Index wieder auf 0 gesetzt,
da die hierachische Beziehung hier eindeutig ist. Die durch LK
aufgespannte Wortfolge ist nämlich in der SIMPX-Wortfolge vollständig
enthalten. Desweiteren lassen sich durch die Indexierung die
Informationen der SYN-, LEX- und FUN-Spur einander eindeutig zuordnen.


Im Deutschen verwendete Labels:

--       (muss immer "--" haben)
NX      noun chunk
PX      prepositional phrase
SIMPX   simplex clause
VXFIN   finite verb phrase
MF      Mittelfeld
VC      Verbkomplex
NF      Nachfeld
LK      Linke Satzklammer
VF      Vorfeld
ADVX    adverbial chunk
ADJX    adjectival chunk
P-SIMPX Parataktische Verknuepfung zweier SIMPX
R-SIMPX Relativsatz
VXINF   infinite verb phrase
DM      Diskursmarker
MVC     Konjunkt, bestehend aus MF und VC
PARORD  Feld f. nicht-koord. beiordnende Partikeln (V2)
C       Feld f. Komplementierer bei Verb-letzt-Saetzen
KOORD   Feld f. koordinierende Partikeln (und, oder, aber usw.)
LV      topologisches Feld fuer Linksversetzungen
LKMVC   Konjunkt, bestehend aus LK, MF, VC
LKM     Konjunkt, bestehend aus LK, MF
MVCN    Konjunkt, bestehend aus MF, VC, NF
MN      Konjunkt, bestehend aus MF, NF
LKVCN   Konjunkt, bestehend aus LK, VC, N
VCN     Konjunkt, bestehend aus VC und N
DP      Determinerphrase (z.B. "gar keine")
KONX    Konjunktionskomplex ("und zwar" im VF)
VLKM    Konjunkt, bestehend aus VF, LK, MF
VLKMVC  Konjunkt, bestehend aus VF, LK, MF, VC
LKMVCN  Konjunkt, bestehend aus LK, MF, VC, NF
LKMN    Konjunkt, bestehend aus LK, MF, NF
FKOORD  komplexe Felderkoordination
LKN     Konjunkt, bestehend aus LK und N
CMVCN   Konjunkt, bestehend aus C, MF, VC und NF


Im Englischen verwendete Labels:

--       (muss immer "--" haben)
AP      Adjective Phrase
APS     Adj-headed sm.clause
ADVP    Adverb Phrase
ADVPD   Adverb DATE-Phrase
CMP     Complementizer
CMP-WH  Complementizer,WH-
CNJ     Conjunction(single)
CNJ1    Conjunction(1 of 2)
CNJ2    Conjunction(2 of 2)
DG      Degree(non-wh)
DG-WH   Degree-WH(how...)
DGP     Degree Phrase
DT-ART  Det,Article(the,a)
DT-DM   Det,Demonstrative
DT-QNT  Det,Quantifier(every)
DT-R    Det,Rel.clause
DT-WH   Det,Wh-(which,whose)
DTP     Det.Phrase
N       Noun,Common
-        do not use this
CNUM    N,Cardinal Number
ONUM    N,Ordinal Number
NP      Noun Phrase
NPS     Noun-headed sm.clause
NPD     Noun DATE-phrase
NPT     Noun TIME-phrase
PR-DM   PR,Demonstrative
PR-WH   PR,WH-
PR-R    PR,Relative
PP      Prepositional Phrase
PPS     Prep-headed sm.clause
SUGG    Suggestion("How about Tuesday?")
S       Sentence(VP w/subject)
V-G     Verb,gerund
V-PRP   Verb,present participle
V-PSS   Verb,passive participle
VP      Verb Phrase(S if sub Vs sister)


Grammatische Funktionen:
------------------------

Definition:

FUN: (list of symbolic links) (label string)

Diese Spur enthält die grammatischen Funktionen, die den syntaktischen
und lexikalischen Kategorien der SYN- und LEX-Spur zugeordnet sind.

Beispiel:

FUN:    0               0       HD
FUN:    0               1       ON
FUN:    0               2       -
FUN:    0,1,2,3,4,5     0       --
FUN:    1               0       HD
FUN:    1               1       HD
FUN:    1               2       -
FUN:    2               0       HD
FUN:    2               1       -
FUN:    2,3             0       V-MOD
FUN:    2,3,4           0       -
FUN:    3               0       HD
FUN:    4               0       HD
FUN:    4               1       MOD
FUN:    5               0       HD
FUN:    5               1       OV
FUN:    5               2       --

Der Label-String beinhaltet die grammatische Funktion von dem Wort
bzw. von der Konstituente im Syntaxbaum (vgl. LEX- bzw. SYN-Spur) mit
übereinstimmendem Index und der gleichen Liste Symbolischer links. So
hat das Wort 3 als der Teil der Konstituente NX (vgl. SYN-Spur), die
Head-Funktion, und NX wiederum hat die Funktion eines Verb-Modifikators. 


Im Deutschen verwendete Labels:

--	 not bound
HD       Head
ON       Nominativ-Objekt(=Subjekt)
-        soll ungebunden bleiben
OD       Dativ-Objekt
MOD      nicht-eindeutiger Modifikator
ON-MOD   Modifikator des Subjekts
OA-MOD   Modifikator des Akkusativ-Objekts
OD-MOD   Modifikator des Dativ-Objekts
OPP      obligatorisches PP-Objekt
OV       Verbales Objekt
VPT      abtrennbare Verbpartikel
MOD-MOD  Modifikator eines anderen Modifikators
APP      Apposition
-        not bound
PRED     Praedikat
OA       Akkusativ Objekt
OAK      Akkusativ-Objekt-Konjunkt
ONK      Nominativ-Objekt-Konjunkt
V-MOD    Modifikator des Verbs
V-MODK   Konjunkt des Verb-Modifikators
OPP-MOD  not bound
PRED-MOD Mod. eines Praedikats
FOPP     fakultatives PP-Objekt
OS       Objekt in Form eines Satzes
OADVP    ADVP-Objekt
FOPP-MOD Modifikator eines FOPP
OADJP    ADJP-Objekt
OADVPMOD Modifikator des ADVP-Objekts
OADJPK   Konjunkt des ADJP-Objekt-Modifikators
FOPPK    fakul. PP-Objekt-Konjunkt
PREDK    Praedikativ-Konjunkt
MOD-MODK        Konjunkt des modif. Modifikators
MODK     nicht-eind. Modifikator-Konjunkt
OPP-MODK        Konjunkt d. obl. PP-Objekts
PREDMODK        Konjunkt d. Praedikativs
OPPK    obligatorisches PP-Objekt-Konjunkt
OADVPK  Konjunkt des ADVP-Obj.-Modif.


Im Englischen verwendete Labels:

--      not bound
HD      Head
COMP    Complement
SPR     Specifier
SBJ     Subject
SBQ     Subject,WH-
SBR     Subject,REL
ADJ     Adjunct
ADJ?    Adjunct?
FLL     Filler
FLQ     Filler,WH-
FLR     Filler,REL
MRK     Marker
-       for intentionally empty edge labels


Die Annotationen wurden von der Universität Tübingen im NeGra-Format
erstellt und ins Partiturformat konvertiert. Dabei können sich kleinere
Änderungen ergeben haben. Zum Betrachten der Bäume können die
Partiturfiles mit dem Perl-Programm "bas2negra.pl" (im
Standard-Software-Paket der BAS-CDROMS enthalten) ins NeGra-Format
konvertiert werden. 
Mit dem Java-Programm TIGERSearch, das von Wolfgang Lezius im Rahmen
des TIGER-Projektes am IMS Stuttgart entwickelt wird, können die Bäume
dann durchsucht und angezeigt werden. TIGERSearch wird ab Herbst 2001
auf der folgenden Webseite herunterzuladen sein:

http://www.ims.uni-stuttgart.de/projekte/TIGER/

Zum Beispiel:

SYN:    0       1       DM
SYN:    1       1       NX
SYN:    1       2       VF
SYN:    1,2,3,4,5       0       SIMPX
SYN:    2       1       VXFIN
SYN:    2       2       LK
SYN:    3       1       ADVX
SYN:    3,4,5   0       MF
SYN:    4       1       NX
SYN:    5       1       ADVX
SYN:    7       1       VXFIN
SYN:    7       2       LK
SYN:    7,8,9,10,11     0       SIMPX
SYN:    8       1       NX
SYN:    8,9,10,11       0       MF
SYN:    9,10,11 0       NX
SYN:    10      1       NX
SYN:    10,11   0       NX
SYN:    11      1       NX
FUN:    0       0       -
FUN:    0       1       --
FUN:    1       0       HD
FUN:    1       1       ON
FUN:    1       2       -
FUN:    1,2,3,4,5       0       --
FUN:    2       0       HD
FUN:    2       1       HD
FUN:    2       2       -
FUN:    3       0       HD
FUN:    3       1       MOD
FUN:    3,4,5   0       -
FUN:    4       0       HD
FUN:    4       1       OA
FUN:    5       0       HD
FUN:    5       1       V-MOD
FUN:    7       0       HD
FUN:    7       1       HD
FUN:    7       2       -
FUN:    7,8,9,10,11     0       --
FUN:    8       0       HD
FUN:    8       1       ON
FUN:    8,9,10,11       0       -
LEX:    0       0       PTKANT
LEX:    1       0       PPER
LEX:    2       0       VAFIN
LEX:    3       0       ADV
LEX:    4       0       NN
LEX:    5       0       ADV
LEX:    7       0       VVFIN
LEX:    8       0       PPER
LEX:    9       0       ART
LEX:    10      0       NN
LEX:    11      0       NE

Parts of Speech POS: Klasse 1
Definition:
POS: (symbolic link) (marker string)

Diese Spur enthält eine Klassifikation der Wörter auf lexikale Klassen (tagging). Das Klassensystem entspricht dem STTS (Stuttgart-Tübingen-TagSet), welches sich in gleicher Form auch in der LEX-Spur wiederfindet. Das Tagging wurde im Rahmen des Verbmobil 2 Projekts von der Technischen Universität Stuttgart automatisch durchgeführt.
Eine detailierte Beschreibung der verwendeten Klassen findet sich hier für die Sprachen Deutsch auf den Seiten 17 - 19 und Englisch uf den Seiten 48 - 49. Zusätzlichen finden sie hier einige Beispiele für das deutsche tagset (nur in Deutsch)
Zum Beispiel:
```
POS:    0       ITJ
POS:    1       PPER
POS:    2       VAFIN
POS:    3       ADV
POS:    4       NN
POS:    5       ADV
POS:    7       VVFIN
POS:    8       PPER
POS:    9       ART
POS:    10      NN
POS:    11      NE
```
Lemmata LMA: Class 1
Definition:
LMA: (sybolic link) (marker string)

Diese Spur enthält zu jedem gesprochenen Wort der Äußerung das entsprechende Lemma. Diese Annotation wurde im Rahmen des Verbmobil 2 Projektes automatisch von der Universität Stuttgart auf der Basis der Transliterationen erzeugt.
Zum Beispiel:
```
LMA:    0       nein
LMA:    1       pper
LMA:    2       haben
LMA:    3       hier
LMA:    4       Unterlage
LMA:    5       da
LMA:    7       kennen
LMA:    8       pper
LMA:    9       d
LMA:    10      Hotel
LMA:    11      Maritim
```
Beachten Sie, dass Personalpronomina einheitlich mit 'pper' und Artikel mit 'd' annotiert wurden.
Phonetische Segmentierung IPA IPA: Klasse 2
Definition:
IPA: (begin) (duration) (label string)

Diese Spur enthält eine Segmentierung der Äußerung in IPA Einheiten (enge phonetische Segmentierung). Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples. Der Rest der Zeile enthält eine mit Kommata getrennte Liste von IPA-Nummern (mindestens eine Nummer), optional gefolgt von einer Liste von korrespondierenden SAM-PA Symbolen.
IPA-Chart mit IPA-Nummern
IPA-Chart mit Symbolen
Zum Beispiel:
```
IPA:    4856    1228    322     @
IPA:    10629   564     317
IPA:    11805   991     319     I
IPA:    12797   1142    138     C
IPA:    13940   1534    302     e
IPA:    15475   895     110     g
IPA:    16371   777     322     @
IPA:    17149   758     155     l
IPA:    17908   1497    305
IPA:    19406   1204    116     n
IPA:    20611   589     104     d
IPA:    21201   1018    322     @
IPA:    22220   1185    103     t
```
Segmentierung in Turns/Sätze/Chunks/etc. TRN: Klasse 4
Definition:
TRN: (begin) (duration) (symbolic link) (label string)

Diese Spur enthält eine Segmentierung einer längeren Aufname in Dialogbeiträge (Turns), Sätze oder andere Einheiten. Die erste Nummer bezeichnet den Beginn des Segments in Samples von Beginn des Files, die zweite Nummer die Dauer des Segments in Samples. Der symbolic link enthält die (mit Kommata separierte) Liste der Wortnummern in den segmentierten Teilstück. Der Rest der Zeile enthält ein optionales Label (z.B. Turn-Nummer, Satz-Nummer etc.)
Zum Beispiel:
```
TRN:    132736  144640  0,1,2,3,4,5,6,7 002
```
Smartkom/Smartweb Transliteration TRS: Klasse 1
Definition:
TRS: (list of symbolic links) (transliteration) Klasse 1

Im Gegensatz zur Spur TRL beschreibt diese Spur die Transliteration nach den erweiterten Konvention des SmartKom Projektes. Die Transliteration wurde an die besonderen Gegebenheiten des Mensch-Maschine-Dialogs angepasst; ein BPF beschreibt in SmartKom eine vollständige Aufnahmesitzung, d.h. eine Segmentierung in Turns entfällt.
Detailierte Informationen zum SmartKom Transliterationsformat befinden sich hier.
Die Segmentierung erfolgt derart, daß grundsaetzlich nach einer Worteinheit im Sinne der Referenz-Spur KAN (s.o.) ein neuer Zeileneintrag begonnen wird. Die einzigen Ausnahmen sind erstens Interpunktionen und zweitens Aussprachekommentare, die immer noch in der Zeile der vorangegangenen Worteinheit stehen. (Dies nur, um die Lesbarkeit zu verbessern).
Beispiel:
```
TRS:    0       <:<#> ja:> [NA] [B2] ,
TRS:    1       ich
TRS:    2       h"atte
TRS:    3       <:<#> gern:> [NA]
TRS:    4       +/die/+ [B9] <P>
TRS:    5       die
TRS:    6       Sehensw"urdigkeiten [PA]
TRS:    7       von
TRS:    8       ~Heidelberg <!1 Heidelber'> [NA] [B3 fall] .
TRS:    9       gibt [NA]
TRS:    10      es
TRS:    11      hier
TRS:    12      vielleicht
TRS:    13      Cafeterias [PA] [B3 rise] ? <#>
TRS:    14      was
TRS:    15      f"ur
TRS:    16      Hotels [NA]
TRS:    17      gibt [PA]
TRS:    18      es [B3 cont] ?
TRS:    19      @1mhm [NA] [B3 cont] .
TRS:    20      kannst <!1 kanns'>
TRS:    21      was
TRS:    22      andres [PA]
```
Die gleiche Spur wurde auch im deutschen SmartWeb Projekt verwendet. Siehe TRW Spur.
SmartKom Gestik Labeling GES class 2
Synopsis:
GES: (begin) (duration) (label string)
Diese Spur enthaelt die 2D-Gestik-Annotation des SmartKom Projekts. Alle Gesten, die innerhalb des Erfassungsbereichs der SIVIT-Kamera erfolgen, werden segmentiert und gelabelt. Zusätzlich werden emotionale Gesten auch ausserhalb dieses Bereich markiert. Hintergrundinformationen zur SmartKom Datensammlung finden Sie hier.
Die erste Nummer markiert den Beginn der Geste in Samples vom Beginn der Aufnahme (SmartKom 16 kHz Abtastrate); die zweite Nummer enthält die Dauer der Geste in Samples.
Der 'label string' besteht aus 8 durch TAB getrennte Spalten und einer optionalen 9. Spalte mit freien Kommentaren:
- Intentionale Grob-Kategorie
- Genauere Spezifizierung innerhalb der Grobkategorie
- Finger (optional), Hand oder Stift
- Referenzwort
- Referenzort (auf dem Display)
- Referenzobjekt (auf dem Display) getroffen/nicht getroffen
- Beginn des 'strokes' in Samples
- Dauer des 'strokes' in Samples
- Optionaler Kommentar
Eine detailierte Beschreibung des Label-Sytems sowie die Entwicklung des selben finden Sie in hier; Das folgende ist eine Kurzzusammenfassung der 8 Label-Kategorien (mögliche Werte der Label-Strings in '' gesetzt):
- Intentionale (funktionale) Grob-Kategorie: Die folgenden drei groben intentionalen Kategorien wurden verwendet:
  - 'I-Geste': eine Anfrage, z.B. Zeigen, Umkreisen
  - 'U-Geste': eine unterstützende Geste, die keine Anfrage ist, Vorbereitung einer Anfrage, z.B. mit dem Finger Lesen, Suchen
  - 'R-Geste': Geste, die nicht in die obigen beiden Kategorien passt, oder emotionale Geste
- Genauere Spezifizierung innerhalb der Grobkategorie:
  - I-Geste
    - langes Zeigen mit/ohne (+/-) Berührung des Displays 'I - deut +' 'I - deut -'
    - kurzes Zeigen (19 frames oder weniger) mit/ohne (+/-) Berührung des Displays 'I - tipp +' 'I - tipp -'
    - Einkreisen/Markieren mit/ohne (+/-) Berührung des Displays 'I - kreis +' 'I- kreis -'
    - Komplexe Geste innerhalb/au"serhalb des Display-Bereichs 'I - frei +' 'I - frei -'
    - Nicht identifizierbare I-Geste 'nicht erkennbar'
  - U-Geste
    - Lesen mit bewegter Hand 'U - les - k'
    - Suchen 'U - such - k'
    - Zählen 'U - z"ahl - k'
    - Überlegen mit bewegter Hand 'U - "uberleg - k'
    - Lesen mit nicht bewegter Hand 'U - les - p'
    - Überlegen mit nicht bewegter Hand 'U - "uberleg - p'
    - Nicht identifizierbare U-Geste 'nicht erkennbar'
  - R-Geste
    - Emotionale Geste im/ausserhalb (+/-) des Display-Bereichs 'R -emot +' 'R - emot -'
    - Nicht identifizierbare Geste (Restkategorie) 'R - UFO'
- Benutzter Finger, Hand oder Stift:
  Dieser Eintrag st entweder '[FINGER] re|li [TOOL]' oder 'nicht erkennbar'
  - Der (optionale) String [FINGER] bezeichnet einen von fünf Fingern, die für die Geste verwendet werden:
    - 'Zeige' = Zeigefinger
    - 'Mittel' = ...
    - 'Ring' = ...
    - 'Kleiner' = ...
    - 'Daumen' = ...
    Wird mehr als ein Finger oder ein Stift verwendet, bleibt dieser String leer.
  - 're' bezeichnet die rechte Hand; 'li' die linke.
  - Der String [TOOL] ist entweder 'Hand', wenn kein Stift verwendet wird, oder 'Stift' wenn ein Stift verwendet wird. In letzterem Falle ist der optionale String [FINGER] immer leer.
  Z.B. bezeichnet 'Zeige re Hand' den Zeigefinger der rechten Hand; 'li Hand' eine Geste die mit mehreren Fingern der linken Hand ausgeführt wurde; 'li Stift' eine Geste mit einem Stift, der in der linken Hand gehalten wird.
- Referenzwort: Das Wort oder die Phrase, das/die der Geste zeitlich zugeordnet werden kann (oder leer).
  Der Eintrag kann drei Formen annehmen:
  - 'Phrase': Die Geste ist genau während die 'Phrase' gesprochen wird. ('Phrase' kann aus mehreren Wörtern bestehen.)
  - '§ Word': Die Geste ist bevor das Wort 'Word' gesprochen wird.
  - 'Word §' : Die Geste ist nachdem das Wort 'Word' gesprochen wird.
  Nur bei I-Gesten wird ein Referenzwort gelabelt; sonst ist dieser Eintrag leer.
- Referenzort: Teil des Displays, in dem die Geste stattfindet:
  - 'Mitte'
  - 'links unten'
  - 'links oben'
  - 'recht unten'
  - 'recht oben'
  - 'gesamtes Display' : wenn die Geste sich über mehr als einen Teilbereich erstreckt.
  Nur bei I- und U-Gesten wird ein Referenzort gelabelt; sonst ist dieser Eintrag leer.
- Referenzobjekt: Wird das Referenzobjekt von der Geste wirklich erreicht:
  - 'Treffer' : wird erreicht
  - 'oberhalb' : Geste markiert Bereich oberhalb des Objekts
  - 'unterhalb' : Geste markiert Bereich unterhalb des Objekts
  - 'links' : Geste markiert Bereich links des Objekts
  - 'rechts' : Geste markiert Bereich rechts des Objekts
  - 'leer' : Geste markiert Bereich, in dem kein Objekt liegt
  Nur bei I-Gesten wird ein Referenzobjekt gelabelt; sonst ist dieser Eintrag leer.
- Beginn/Dauer des 'stroke': Der 'stroke' bezeichnet den wichtigsten Teil (Kern) der Geste und wird hier noch einmal gesondert segmentiert. Nur bei I-Gesten wird der 'stroke' segmentiert; sonst sind diese Einträge leer.
- Optionaler Kommentar:
  Entweder freier Textkommentar oder eine von den standardisierten folgenden Klassen zur näheren Bezeichnung der gelabelten Geste:
  - 'Anfang schwer zu bestimmen'
  - 'Ende schwer zu bestimmen'
  - 'Morphologie schwer bestimmbar, weil verdeckt'
  - 'Stroke schwer bestimmbar, weil verdeckt'
  - 'Stroke unklar'
  - 'Doppelklick'
  - 'Mehrfachklicks'
  - 'Wiederholungsgeste'
  - 'Geste durch Synthese-Ausgabe des Systems abgebrochen'
  - 'Geste durch Display-Ausgabe des Systems abgebrochen'
  - 'Geste durch Versuchsende abgebrochen'
  - 'Stroke unklar, weil Sivit-Strom fehlt'
  - 'Label unsicher, weil Audio fehlt'
  - 'Label unsicher, weil Beamer Output fehlt'
  - 'Kamera hat zu spät mit der Aufzeichnung begonnen'
  - 'Sprache - Gestik Mismatch' : Widersprüchliche Eingaben von Sprache und Gestik.
Example:
```
GES:    1072000 23039   I-Geste I - tipp +      Zeige li Hand           links oben      Treffer 1078400 12159
GES:    1959680 114559  R-Geste R - emot -      re Hand                         1078400 12159   "Uberlegung/Nachdenken
GES:    2166400 15999   I-Geste I - tipp +      Zeige li Hand           links oben      rechts  2171520 7679
GES:    2641280 12799   I-Geste I - tipp +      Zeige re Hand    § Schlo"s       rechts unten    Treffer 2647680 5119
GES:    3093120 14079   I-Geste I - tipp +      Zeige re Hand           links unten     Treffer 3098240 7039
GES:    3351680 7039    R-Geste R - UFO re Hand                         3098240 7039
GES:    4029440 22399   I-Geste I - tipp +      Zeige li Hand           links oben      rechts  4035840 10239
```
SmartKom User State Annotation (holistisch) USH class 2
Synopsis:
USH: (begin) (duration) (label string)
Diese Spur enthält die Annotation von 'holistischen' User-States, d.h. interessante emotionale und kognitive Zustände, wie sie im SmartKom Projekt gelabelt wurden. Für detailiertere Informationen zur SmartKom Datensammlung siehe hier.

Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung angegeben (SmartKom: 16 kHz).
Der Label-String (label string) enthält eine der folgenden 7 Kategorien gefolgt von einem Rating (nur für die Kategorien 2-6). Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise hier.
1. 'Neutral'
2. 'Freude/Erfolg'
3. '"Arger/Mi"serfolg'
4. 'Ratlosigkeit'
5. '"Uberlegen/Nachdenken'
6. '"Uberraschung/Verwunderung'
7. 'Restklasse'
Die Kategorien werden nach dem Eindruck des Labelers vergeben. Nicht nur das Video des Gesichts sondern auch die Stimmqualität oder andere Kontextinformation darf dabei berücksichtigt werden. Nicht berücksichtigt werden dagegen Wörter mit emotionalem Inhalt ohne emotionalen Ausdruck in Gesicht oder Stimme.
Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem Label angegeben (durch TAB getrennt):
- 'stark'
- 'schwach'
Beispiel:
```
USH:    0       205439  Freude/Erfolg   schwach
USH:    205440  30719   Neutral
USH:    236160  37759   Freude/Erfolg   schwach
USH:    273920  191999  Neutral
USH:    465920  78719   "Uberlegen/Nachdenken    stark
USH:    544640  295679  Neutral
USH:    840320  49919   "Arger/Mi"serfolg schwach
USH:    890240  42879   Neutral
USH:    933120  21759   "Uberraschung/Verwunderung       schwach
USH:    954880  97919   Ratlosigkeit    schwach
USH:    1052800 542719  Neutral
```
Siehe auch die Spuren USM, USP und OCC.
SmartKom User State Annotation (Gesichtsausdruck) USM class 2
Synopsis:
USM: (begin) (duration) (label string)
Diese Spur enthält die Annotation von User-States, d.h. interessante emotionale und kognitive Zustände, wie sie im SmartKom Projekt gelabelt wurden. Im Gegensatz zur Spur USH wird hier nur nach dem Eindruck des Gesichts, d.h. ohne das Sprachsignal, gelabelt.
Für detailiertere Informationen zur SmartKom Darensammlung siehe hier.

Die gesamte Aufnahme wird bündig segmentiert und gelabelt. Beginn (begin) und Dauer (duration) jedes Segments wird in Samples von Beginn der Aufzeichnung angegeben (SmartKom: 16 kHz).
Der Label-String (label string) enthält eine der folgenden 7 Kategorien gefolgt von einem Rating (nur für die Kategorien 2-6). Eine ausführliche Beschreibung des Label-Systems findet sich beispielsweise hier.
1. 'Neutral'
2. 'Freude/Erfolg'
3. '"Arger/Mi"serfolg'
4. 'Ratlosigkeit'
5. '"Uberlegen/Nachdenken'
6. '"Uberraschung/Verwunderung'
7. 'Restklasse'
Die Kategorien werden nach dem Eindruck des Labelers vergeben. NUR das Video des Gesichts, NICHT aber die Stimmqualität oder andere Kontextinformation werden dabei berücksichtigt.
Die Intensität des User-States, d.h. die Stärke des Ausdrucks, wird durch für die Kategorien 2-6 durch ein 2stufiges Rating nach dem Label angegeben (durch TAB getrennt):
- 'stark'
- 'schwach'
Beispiel:
```
USM:    0       205439  Freude/Erfolg   schwach
USM:    205440  30719   Neutral
USM:    236160  37759   Freude/Erfolg   schwach
USM:    273920  191999  Neutral
USM:    465920  78719   "Uberlegen/Nachdenken    schwach
USM:    544640  295679  Neutral
USM:    840320  49919   "Arger/Mi"serfolg schwach
USM:    890240  42879   Neutral
USM:    933120  119679  "Uberlegen/Nachdenken    schwach
USM:    1052800 542719  Neutral
USM:    1595520 59519   "Uberlegen/Nachdenken    schwach
USM:    1655040 157439  Neutral
USM:    1812480 143359  "Uberlegen/Nachdenken    schwach
USM:    1955840 58879   "Arger/Mi"serfolg stark
USM:    2014720 89599   Neutral
USM:    2104320 559359  "Arger/Mi"Serfolg schwach
USM:    2663680 263679  Neutral
USM:    2927360 28799   "Arger/Mi"serfolg schwach
```
Siehe auch die Spuren USH, USP und OCC.
SmartKom Verdeckungen im Gesichts-Video OCC class 2
Synopsis:
OCC: (begin) (duration) (label string)
Diese Spur enthält eine nützliche Hilfsinformation für die Verarbeitung des frontalen Videosignals in SmartKom-Aufnahmen. Gelabelt wurden jeweils Verdeckungen des Gesichts bzw. Objekte, die in den Gesichtsbereich bewegt werden und auf diese Weise das Gesicht teilweise verdecken.
Beginn (begin) und Dauer (duration) der Verdeckung wird in Samples von Beginn der Aufnahmen angegeben (SmartKom: 16 kHz).
Der Wert des (label string) kann folgende Klassen annehmen:
- 'Hand im Gesicht' : Hand im Gesichtsbereich
- 'Hand im Gesicht/Mund' : Hand nur im Mundbereich
- 'Hand im Gesicht/Nase' : Hand nur im Nasenbereich
- 'Hand im Gesicht/Augen' : Hand nur im Augenbereich
- 'Stift im Gesicht' : Stift im Gesichtsbereich
- 'Stift im Gesicht/Mund' : Stift nur im Mundbereich
- 'Stift im Gesicht/Nase' : Stift nur im Nasenbereich
- 'Stift im Gesicht/Augen' : Stift nur im Augenbereich
- 'Teilweise nicht im Bild' : Gesicht teilweise nicht im Aufnahmebereich der Kamera
- 'Objekt im Gesicht' : anderes Objekt als Hand oder Stift im Gesichtsbereich
Example:
```
OCC:    380800  18559   Teilweise nicht im Bild
OCC:    458880  58239   Teilweise nicht im Bild
OCC:    1167360 7679    Teilweise nicht im Bild
OCC:    1173120 14719   Hand im Gesicht
OCC:    1201920 11519   Teilweise nicht im Bild
OCC:    2000000 12159   Hand im Gesicht/Mund
OCC:    2567040 57599   Teilweise nicht im Bild
OCC:    2709120 40959   Hand im Gesicht/Mund
OCC:    2947840 33279   Hand im Gesicht
OCC:    2955520 9599    Teilweise nicht im Bild
OCC:    2981120 35839   Teilweise nicht im Bild
OCC:    3528960 10879   Hand im Gesicht
OCC:    4001920 10239   Hand im Gesicht
OCC:    4103680 20479   Teilweise nicht im Bild
```
Siehe auch die Spuren USH, USP und USM.
SmartKom meta-linguistische Merkmale USP class 4
Synopsis:
USP: (begin) (duration) (list of symbolic links) (label string)

Diese Spur enthält eine meta-liguistische Segmentierung und Labelung der SmartKom Audiodaten. Die hier verwendeten Merkmalsklassen dienen als Input zu einer stimmbasierten User-State-Detektion (s. Spur USH für mehr Details zu den SmartKom User-States). Die USP-Spur basiert auf der originalen SmartKom TRP Labelung, wurde jedoch zur einfacheren Verarbeitung auf die Worteinheiten aligniert. Sie enthält sämtliche Daten der originalen TRP-Labelung. Weitergehende Informationen zur TRP-Labelung finden sich hier. Für detailiertere Informationen zur SmartKom Darensammlung siehe hier.

Beginn (begin) und Dauer des gelabelten Ereignis werden in Samples von Beginn der Aufnahme angegeben (SmartKom: 16 kHz). In den meisten Fällen wird nicht das Ereignis ansich sondern das Wort segmentiert, in dem es stattfindet. Siehe dazu die Bemerkungen zu den einzelnen Labels unten.
Der symbolische Wortlink (symbolic link) verweist auf die Wortnummer des betroffenen Wortes.
Der Label-String besteht aus einem von 9 Label-Klassen.
Label-Klassen:
(Falls nicht anders angegeben, bezieht sich das Segment auf das gesamte Wort)
- CLEAR_ART : Deutliche Aussprache.
  Sprecher versucht Hochdeutsch zu sprechen; keine dialektalen Varianten; vergleichbar der Sprache eines trainierten Radiosprechers.
- HYPER_ART : Hyperartikulierte Aussprache
  Unnatürlich deutliche Aussprache; wie beim Versuch mit einer Person zu sprechen, die die Sprache nicht beherrscht.
- EMPHASIS : Starke Betonung.
  Starke Betonung eines Wortes oder einer Silbe.
- STRONG_EMPH : Sehr starke Betonung.
  Unnatürlich starke Betonung eines Wortes oder einer Silbe.
- LENGTH_SYLL : Längung einer Silbe
- PAUSE_PHRASE : Pause zwischen sinntragenden Einheiten auf Phasenlevel.
  Unnatürliche Pausen; keine Pausen zwischen Sätzen oder zwischen Haupt- und Nebensatz (es sei denn sie sind unnatürlich lang).
  In diesem Fall erstreckt sich das Segment über das vorangehende Wort und die nachfolgende Pause.
- PAUSE_WORD : Irreguläre Pause auf Wortebene.
  Pause zwischen Wörtern, die normalerweise nicht auftreten würde.
  In diesem Fall erstreckt sich das Segment über das vorangehende Wort und die nachfolgende Pause.
- PAUSE_SYLL : Irreguläre Pause zwischen Silben.
  In diesem Fall enthält das Segment das gesamte Wort mit der gelängten Silbe.
- LAUGHTER : Von Lachen oder Seufzen verzerrte Wörter.
  Kein Lachen alleine.
Regeln zur Labelung:
- Vor der Labelung wird der gesamte Dialog abgehört, um ein Gefühl für die 'normale' Sprechweise des Sprechers zu bekommen; annotiert werden Abweichung von dieser 'normalen Sprechweise.
- Ein Wort kann mehrere Label-Klassen haben; jedes Label wird in einer separaten Zeile annotiert. Ist eines davon ein Pausen-Label, so können die Segmentlängen der Label unterschiedlich sein, auch wenn sie sich auf das gleiche Wort beziehen.
- Pausen auf Phrasen- oder Wort-Ebene werden durch Referenz auf die zwei benachbarten Wörter annotiert, z.B.
```
USP:    3678656 14144   48;49   PAUSE_WORD
```
- Die Information, auf welchen Teil eines Komposita sich ein Label bezieht, ist in dieser Spur nicht enthalten. Im Prinzip kann diese Information aus der Original TRP Annotation gewonnen werden.
- Hesitationen werden wie Wörter behandelt.
Example:
```
USP:    79552   6704    0       EMPHASIS
USP:    426176  8768    6       STRONG_EMPH
USP:    426176  8768    6       CLEAR_ART
USP:    435952  10160   7       CLEAR_ART
USP:    806560  6592    9       LENGTH_SYLL
USP:    814624  4832    10      LENGTH_SYLL
USP:    819776  17184   11      EMPHASIS
USP:    1356896 6000    13      LENGTH_SYLL
USP:    1785232 11808   20      LENGTH_SYLL
USP:    1798064 7808    21      LENGTH_SYLL
USP:    2449632 7376    23      LENGTH_SYLL
USP:    2470016 10736   27      LENGTH_SYLL
USP:    2470016 14800   27;28   PAUSE_WORD
USP:    2794160 12080   31      LENGTH_SYLL
USP:    3221632 5440    41      CLEAR_ART
USP:    3678656 8528    48      LENGTH_SYLL
USP:    3678656 14144   48;49   PAUSE_WORD
USP:    3694576 3824    49      EMPHASIS
USP:    4170960 11344   53      LENGTH_SYLL
USP:    4186192 4464    54      EMPHASIS
```
Siehe auch die Spuren USH, OCC und USM.
Übersetzung TLN class 1
Synopsis:
TLN: (list of symbolic links) (label string)

Diese Spur enthält eine Übersetzung der Sprachaufnahme in eine andere Sprache.
Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den sich die folgende Übersetzung erstreckt. Übersetzungen können daher auch in mehreren Labelzeilen hintereinander annotiert sein. Auch überlappungen der Bereiche sind im Prinzip möglich.
Der label string enthält als ersten Eintrag die Übersetzungsrichtung kodiert als '##>%%' wobei '##' das internationale Sprachenkuerzel der Quellsprache und '%%' das entsprechende Kürzel der Zielsprache bedeutet, z.B. von Deutsch nach English: 'DE>EN'. Hinter diesem Eintrag folgt nach einem TAB die orthographische Form der Übersetzung ohne Interpunktion bis zum Ende der Zeile. Spezielle Ziechen (z.B. Umlaute) können wie in der ORT-Spur in verschiedener Form kodiert sein (siehe oben).
Beispiel:
```
ORT:	0	okay
ORT:	1	thank
ORT:	2	you
ORT:	3	bye
TLN:    0,1,2,3	EN>DE	 gut danke tschüs
```
Prosodische Labelung in 'GTobi light' PRM class 3
Synopsis:
PRM: (point-in-time) (label string)

Diese Spur enthält eine prosodische Labelung, wie sie in deutschen Synthese-Projekten am IMS Stuttgart und am BAS verwendet wird. Die Labelung beschränkt sich auf Akzente und Grenztöne im sog. 'GTobi light' wie es vom IMS Stuttgart speziell für die Bedürfnisse der Unit-Selection-Technik entwickelt wurde. Im Gegensatz zum normalen GTobi wird hier nur entweder ein Akzenttyp oder ein Grenzmarker aus einem geschlossenen Inventar gelabelt (frei kombinierte Annotation von Ton (TON:), Akzenttyp (FUN:) und Grenztyp (BRE:) wie in GTobi ist nicht möglich).
Eine detailierte Beschreibung der Label-Inventare finden Sie in der Dokumentation des deutschen BITS-Synthese-Corpus, Teil B.
Beispiel:
```
PRM:    98160   L*H
PRM:    108665  -
PRM:    132414  H*L
PRM:    158400  %?
```
SmartWeb Transliteration TRW class 1
Synopsis:
TRW: (list of symbolic links) (label string)

Diese Spur enthält eine Transliteration des SmartWeb-Corpus. Diese stellt ein Subset des SmartKom Transliterations-Sets (TRS) dar, erweitert um 4 Off-Talk-Marker (statt bisher nur 2), eine SAMPA-Kodierung in den Aussprache-Kommentaren und um zwei Zeitmarker zur manuellen Turn-Segmentierung.
Die folgenden Tags des SmartKom Transliterations-Sets werden hier verwendet:
- compounds
- non-German words
- acronyms
- spelling
- numbers
- proper names
- pause
- sound lengthening
- hard/non-unserstandable words
- word breaks
- neologism
- common word reductions
- hesitations
- interrupted words
- technical interupts
Dazu kommen noch:
- Erweiterte Off-Talk Marker
  - <ROT> gelesener Off-Talk; Sprecher liest vom Display ab
  - <POT> paraphrasierter Off-Talk; Sprecher wiederholt Informationen mit eigenen Worten (um sie an einen Partner weiterzugeben)
  - <SOT> spontaner Off-Talk; Sprecher kommuniziert mit dritter Seite (meist ein menschlicher Partner)
  - <OOT> anderer Off-Talk; lautes Denken
  Zum Beispiel:
```
   weitere<POT> ber"uhmte<POT> Sehensw"urdigkeiten<POT> in%<POT> ~Berlin<POT> 
   sind<POT> der<POT> ~Alexanderplatz<POT> , der<POT> Funkturm<POT> ,
   das<POT> ~Brandenburger+Tor<POT> und<Z><SOT> das<SOT> letzte<SOT> 
   hab'<SOT> ich<SOT> vergessen<SOT> .
   
```
- Erweiterte Aussprache-Kommentare:
  Im Gegensatz zu den bisherigen rein orthographischen Aussprachekommentaren, wie z.B. haben wir <!2 hama> wird hier zusätzlich die tatsächliche Aussprache in SAMPA kodiert: haben wir <!2 hama#ha:m6>
- Zeitmarker zur Markierung des Beginns und Endes eines 'Turns'; ###.### bezeichnet Millisekunden von Beginn der Aufzeichnung:
  - Beginn Marker <ZA ###.###>
  - Ende Marker <ZE ###.###>
Beispiel:
```
TRW:    0       <ZA 211.619> wurde<POT>
TRW:    1       #zw"olf<POT>
TRW:    2       irgendwann<POT>
TRW:    3       von<POT> <P>
TRW:    4       <%> . <PP>
TRW:    5       <"ah>
TRW:    6       's<POT>
TRW:    7       wurde<POT>
TRW:    8       #zw"olf<POT>
TRW:    9       #drei"sig<POT>
TRW:    10      von<POT>
TRW:    11      ~Otto<POT>
TRW:    12      dem<POT>
TRW:    13      <%>
TRW:    14      und<POT>
TRW:    15      ~Heinrich<Z><POT>
TRW:    16      irgendjemandem<POT>
TRW:    17      gegr"undet<POT> .
TRW:    18      ~Heinrich<POT>
TRW:    19      der<Z><POT> ,
TRW:    20      keine<SOT>
TRW:    21      Ahnung<SOT> ,
TRW:    22      und<POT>
TRW:    23      ~Otto<POT> ,
TRW:    24      was<SOT>
TRW:    25      wei"s<SOT>
TRW:    26      ich<SOT> <;ungrammatisch> . <PP>
TRW:    27      #zw"olf<POT> , <P>
TRW:    28      ne<OOT> . <ZE 233.342>
```

MAUS-basierte Silbensegmentierung MAS class 4

Synopsis:

MAS: (begin sample) (duration sample) (list of symbolic links) (label string)

Diese Spur enthält eine Segmentierung in Silben basierend auf der MAUS-Segmentierung (siehe Spur MAU). Ausgehend von dem SAM-PA Transkript der MAU-Spur wurde zunächst nach Sonoritäts-Minima als mögliche Silbengrenzen zwischen Silbenkernen gesucht, und diese anschließend nach den Regeln von Kohler verfeinert. Die resultierende Syllabifizierung wurde mit Hilfe der Segmentgrenzen aus der MAU-Spur mit Beginn und Dauer versehen.

Beispiel:

MAS:    53600   1920    0       'smar
MAS:    55520   10560   0       ta
MAS:    66080   1680    0       kUs
MAS:    67760   11120   1       'vEl
MAS:    78880   960     1       C@
MAS:    79840   1600    2       'li:
MAS:    81440   6880    2       plINs
MAS:    88320   1600    2       'far
MAS:    89920   1920    2       b@
MAS:    91840   1760    3       'has
MAS:    93600   1120    4       'du:
MAS:    220256  480     5       m
MAS:    220736  11040   6       'mi:6
MAS:    231776  2560    7       'maI
MAS:    234336  2240    7       n@
MAS:    236576  4160    8       'fra:
MAS:    240736  2080    8       g@
MAS:    242816  1600    9       b@
MAS:    244416  5440    9       'ant
MAS:    249856  4160    9       'vO6
MAS:    254016  2400    9       t@n

Speaker label SPK class 1
Synopsis:
SPK: (list of symbolic links) (label string)

Dieser Type 1 Tier enthält eine wort-weise Sprecher-Labellung ('diarization').
Die gelisteten symbolischen Wortlinks markieren den Bereich in der Aufnahme, über den sich das folgende Sprecher-Label erstreckt. Jedem Wort kann nur ein Sprecher-Label zugeordnet werden.
Example:
```
ORT:    0       okay
ORT:    1       bye
ORT:    2       good
ORT:    3       bye
SPK:    0       speaker001
SPK:    1       speaker001
SPK:    2,3     speaker002
```
Speaker diarization SPD class 2
Synopsis:
SPD: (begin) (duration) (label string)

Dieser Type 2 Tier enthält eine Segmentierung und Labellung nach Sprechern ('diarization').
Example:
```
SPD:    0       11999      Anton
SPD:    12000   11999      Berta
SPD:    24000   11999      Anton
SPD:    40000   5999       Charlie
```
Voice activity detection VAD class 2
Synopsis:
VAD: (begin) (duration) (label string)

Dieser Type 2 Tier enthält eine Segmentierung in Sprache (<speech>) und Nicht-Sprache (<p:>).
Example:
```
VAD:    0       11999      <speech>
VAD:    12000   11999      <p:>
VAD:    24000   11999      <speech>
VAD:    40000   5999       <p:>
```
Bemerkung: damit ein VAD tier als Input für den BAS WebService SpeakDiar akzeptiert wird, müssen die Labels für Sprache (<speech>) und Nicht-Sprache (<p:>) wie in den Klammern angegeben kodiert sein.

SAM

Das SAM Format wurde im ESPRIT "SAM" Project No 2589 : 'Speech Input and Output Assessment Methodologies and Standardization' zur Beschreibung von Sprachdaten definiert. Nur sehr wenige BAS Korpora enthalten SAM kompatible Daten. Das BAS Partitur Format ist, obwohl oberflächlich sehr ähnlich, nicht vollständig kompatibel zu SAM.
Auf jeder BAS CDROM befinden sich Skripten (sam2pho, pho2sam) zur Umwandlung von Sam in PhonDat und umgekehrt.

Eine Beschreibung des SAM Formats findet sich hier.

AGS - Annotation Graphs

Bird et al (LDC) verwenden ein abstraktes Datenmodell in ATLAS zur Representation von Annotationen genannt 'Annotation Graphs'. Auch das BAS Partitur Format (BPF) lässt sich als Annotation Graph darstellen.
Nachdem LDC auch Software-Module für den eigenen Entwurf von Annoations-Werkzeugen bereitstellt, gibt es auch ein SGML-basiertes Format (AGS, entspricht ATLAS Level 0, v1.1b3) zum Speichern und Austauschen solcher Annotation Graphs.
Auf jeder BAS CDROM befindet sich ein Skript par2ags.pl zur Umwandlung des BAS Partitur Formats (BPF) in AGS. Ebenfalls dort finden Sie eine DTD fuer dieses Format. Manche BAS Korpora werden bereits mit BPF und AGS ausgeliefert.

Florian Schiel

BASBayerisches Archiv für SprachsignaleFile-Formate

Signaldaten

Segment-/Labeldaten

Allgemeines

Files und Mimetype

History

Strukturdefinition 1.X

Bemerkungen:

Spurdefinitionen

BAS
Bayerisches Archiv für Sprachsignale
File-Formate