Kurzanleitung für IPS-Mitarbeiter zur Verarbeitung 
eines ganzen Korpus mit MAUS

ACHTUNG: Die nachfolgend beschriebene Anleitung funktioniert
NICHT mit dem Standard maus package, weil dazu der Helper txt2lex.pl
benoetigt wird, der nicht Teil der maus Distribution ist.

MAUS braucht minimal folgenden Input pro Sound file:
Ein gleichnamiges *.par mit folgendem Inhalt 
(Beispiel, optionale Zeilen in [...]):

[LHD: Partitur 1.2]
[REP: Munich, Germany]
[SNB: 2]
SAM: 22050
[SBF: 01]
[SSB: 16]
[NCH: 1]
[SPN: 3348]
[LBD:]
ORT:    0       in
ORT:    1       j"udischen
ORT:    2       Gemeinden
ORT:    3       ist
ORT:    4       Jiddisch
ORT:    5       h"aufig
ORT:    6       noch
ORT:    7       eine
ORT:    8       g"angige
ORT:    9       Sprache
[TRN:    21798   118311  0,1,2,3,4,5,6,7,8,9]

The helper script txt2par creates such a rudimentary BPF frile from a 
simple two-column list (1st column orthography, second column empty or
canonical transcrpt in SAM-PA).

Erläuterungen:

Der Header des BPF files (von LHD: bis LBD:) kann auch weggelassen werden, 
aber MAUS erzeugt dann keine gültigen BPF files als Output (falls 
Option OUTDIR=#APPEND#). Wenn eine Emu Datenbank erzeugt werden soll 
(Option OUTFORMAT=emu), dann muss jedoch mindestens der Eintrag 
'SAM: <sample rate>' vorhanden sein. Wenn praat TextGrid files erzeugt
werden, kann der Header komplett weggelassen werden.

ORT: Alle Umlaute in LaTeX-Notation o. UTF-8, keine Satzzeichen oder sonstigen
Marker außer <"ah>, <"ahm> und <hm> für Hesitationen, keine Leerzeichen,
Komposita können mit '-' geschrieben werden (z.B. Leer-Gut),
Buchstabierungen in einzelnen Großbuchstaben (einer pro Zeile!) oder in
Verbmobil-Notation (z.B. $A), Akronyme (verbunden ausgesprochene
Buchstabierungen) können mit Groß- oder Kleinbuchstaben geschrieben
werden: 'USA' oder 'usa' (gesprochen 'uhsa')
Wenn statt der Orthographie ein SAM-PA Transkript vorhanden ist, schreibt
man dieses in die Spur KAN, z.B.:
KAN:	0	QIn
KAN:	1	j2:dIS@n
...
Die Verwendung eines Transskripts als Input kann u.U. genauer sein,
weil MAUS das Transkript automatisch mit BALLOON erzeugt und dabei auch 
Fehler macht.

TRN: (optional)
21798 ist Beginn in Samples (unter SAM im Header muss die korrekte
Abtastrate stehen!), 118311 ist die DAUER (nicht das Ende!) in Samples;
die Zahlensequenz danach ist irrelevant (kann auch weggelassen werden).
Wenn diese Information nicht zur Verfügung steht, kann statt der Option
USETRN=yes die Option CREATETRN=yes verwendet werden. Dann wird jede 
Aufnahme vor der Segmentierung mit wav2trn geschnitten und ein TRN
Eintrag im Input-BPF angelegt.

Außerdem braucht man:
- eine Liste mit Pfad und Namen der zu bearbeitenden Soundfiles, z.B.
Liste.txt (ein Soundfile-Name mit Pfad pro Zeile)
- den Namen des Dirs, wo die *.par liegen, z.B. /raid/tera5/ALC/BPF
- ein (leeres) Dir, wo MAUS die Textgrids hinschreiben soll, z.B.
/raid/tera5/ALC/RESULTS

Dann wäre der Aufruf zur Segmentierung aller Files mit TextGrid Output:

maus.corpus SLIST=Liste.txt BPFDIR=/raid/tera5/ALC/BPF \
        OUTDIR=/raid/tera5/ALC/RESULTS OUTFORMAT=TextGrid CREATETRN=yes \
	INSORTTEXTGRID=yes INSKANTEXTGRID=yes > maus.corpus.log

		
Mit Emu Output:

maus.corpus SLIST=Liste.txt BPFDIR=/raid/tera5/ALC/BPF \
        OUTDIR=/raid/tera5/ALC/RESULTS OUTFORMAT=emu CREATETRN=yes \
	 > maus.corpus.log

Nach der Segmentierung sollte im Logfile keine Einträge mit 'ERROR'
vorkommen; wenn doch, Florian fragen.

