===========================================================================

VERBMOBIL-Sprachmodell Version 2.4       (15-01-2000)

(C) Philips GmbH Forschungslaboratorien, Aachen, 1992-2000

Kopieren ist ohne schriftliche Genehmigung nur VERBMOBIL-Partnern und
nur fuer Zwecke des Projektes VERBMOBIL gestattet.

Bitte Fehlermeldungen und Kommentare an: 
{peters,klakow}@pfa.research.philips.com

===========================================================================

Zum Tunen der Kommandowahrscheinlichkeiten muss erweiterte Software mit
der Routine LMSetCmdWeight benutzt werden (24.6.99, unter EXCHANGE /
MOD_VM-99-II-LM-Cmd-Software_PETERS / VM-99-II-LM.Cmd.Software.tgz).

Solange nur normaler kommandofreier Text bewertet werden soll, kann die 
am 17.5.99 ausgelieferte Software weiter verwendet werden (EXCHANGE /
MOD_VM-99-II-LM-Software_PETERS / VM-99-II-LM.Software.tgz)

===========================================================================

Die Perplexitaet des neuen Trigramms VM2-2.4.M3.lm auf 
dem offiziellen Testset betraegt 65.50 (Details s.u.).

===========================================================================

Aenderungen gegenueber dem Sprachmodell Version 2.3:

Wortliste:   Der Eintrag Verbmobile entfaellt.
             Vier Vornamen wurden durch neue ersetzt.

Wortklassen: Es gibt eine neue Klasse UNK:Female.
             Die Klassen Verbmobile und $U-$S-$A entfallen.

Trainingsdaten: um knapp 32000 Worte (ca. 4%) erweitert.

===========================================================================

Files
-----

README
VM2-2.4.lm.wl		(word list)
VM2-2.4.lm.cs		(class sizes)
VM2-2.4.lm.map		(map [word->class])
VM2-2.4.M3.lm.gz	(trigram LM)

Wortliste
---------

Das Sprachmodell basiert auf der Wortliste vmII-whg.wl.5.1.

- Zusaetzlich wurden die Symbole <UNK> fuer unbekannte Worte,
  @ fuer das Ende der Turns und h"as fuer die Haesitation 
  <h"as> der Transliterationen eingefuegt (letzteres erlaubt 
  eine spezielle akustische Modellierung im RWTH-Erkenner).

- Der Eintrag #PAUSE# wurde entfernt.

- Die vier Vornamen Christian, Holger, Jochen und Ulf wurden
  ersetzt durch Elke, Berta, Emil und Hermann (Abdeckung der
  Wortklassen UNK:Female und UNK:Male, vgl. moko-mail vom 
  04-01-2000 von Jochen Peters).

Diese Wortliste wird als VM2-2.4.lm.wl mit den Sprachmodellen 
ausgeliefert.

Klassengroessen:
----------------

Sowohl fuer die einfachere LMWordInit- als auch fuer die
allgemeine LMInit-Routine werden die Klassengroessen benoetigt.
Diese werden in einem File zweispaltig <Klasse Groesse> als
VM2-2.4.lm.cs ausgeliefert. 

Der allgemeinen LMInit-Routine ist die linke Spalte als Array 
*ClassList[] zu uebergeben, die rechte Spalte ist als Array 
*ClassSizes zu uebergeben.

Der einfacheren LMWordInit-Routine ist nur der Filename zu
uebergeben.

Wort-Klassen-Zuordnung:
-----------------------

Sowohl fuer die einfachere LMWordInit- als auch fuer die
"Selbstverwaltung" bei Nutzung der allgemeinen LMInit-Routine 
wird die Zuordnung aller Worte zu ihren Klassen benoetigt. 
Diese basiert auf den UnkTags der LexDb.Integrated.10.0 
(wenige fehlerhafte Zuordnungen wurden von Hand korrigiert).

Diese Zuordnung wird in einem File zweispaltig <Wort Klasse> 
als VM2-2.4.lm.map ausgeliefert.

Der LMWordInit-Routine ist nur der Filename zu uebergeben.

Trainingsdaten
--------------

Das VERBMOBIL-Sprachmodell Version 2.4 wurde auf den deutschen Daten
von VERBMOBIL-I (CD1, CD2, CD3, CD4, CD5, CD7, CD12, CD14) und den 
VERBMOBIL-II-Daten der CD15, CD20, CD21, CD22, CD24, CD30, CD32,
CD38, CD39, CD48 und CD49 sowie den Hamburger WOZ-Dialogen trainiert. 
Von der CD29 wurden nur die NICHT als Development-oder Testdaten 
vereinbarten Dialoge CD29/g{372,373,374,386,392,393,394,395,400,412,413,
414,415}ac.trl verwendet. Alle Daten wurden mit dem neuen trl-Filter mit 
den Flags "--wortkat --awortdef --tger --mger --pros --mling" verwendet. 
Nicht-deutsche Turns wurden aussortiert, unterbrochene Worte wurden 
konkateniert, Abbrueche wurden entfernt. Anschliessend wurden die 
Symbole in spitzen Klammern auf die entsprechenden Symbole der 
Wortliste abgebildet.

Ausserdem wurden Daten von Call-Home-Deutsch einbezogen.
Bei der Aufbereitung wurde versucht sich so dicht wie
moeglich der Aufbereitung der VM-Daten zu naehern.

--> VM1: 342788 Woerter
    VM2: 268057 Woerter
    c_h: 220562 Woerter

Mit allen Trainingsdaten wurden wort- und klassenbasierte Einzel-
modelle traininert. Diese wurden anschliessend linear interpoliert.
Die Optimierung erfolgte auf den Kreuzvalidierungsdaten.

Neues Dev-Set und Test-Set
--------------------------

Entsprechend der Absprache mit den Erkennergruppen (moko-mail von 
Ralf Schlueter 06-06-99) wurden wieder folgende Kreuzvalidierungsdaten 
(Development-Testset) und Testdaten (Evaluierungs-Testset) benutzt:

Kreuzvalidierungsdaten
----------------------

CD15/g009ac.trl
CD15/g010ac.trl
CD15/g011ac.trl
CD15/g012ac.trl
CD15/g017ac.trl
CD20/g018ac.trl
CD15/g040ac.trl
CD15/g041ac.trl
CD15/g042ac.trl
CD20/g043ac.trl
CD21/g203ac.trl
CD15/g204ac.trl
CD20/g205ac.trl
CD20/g206ac.trl
CD20/g219ac.trl
CD24/g220ac.trl
CD24/g221ac.trl
CD21/g222ac.trl
CD30/g598bc.trl
CD30/g599bc.trl
CD30/g600bc.trl
CD30/g601bc.trl
CD22/g592bc.trl
CD24/g593bc.trl
CD22/g588bc.trl
CD24/g589bc.trl

--> 18081 Woerter. Die OOV-Rate auf der Wortliste VM2-2.4.lm.wl betraegt 
    1.0 Prozent (183 Woerter).

Test-Daten
----------

CD29/g380ac.trl
CD29/g381ac.trl
CD29/g382ac.trl
CD29/g383ac.trl
CD29/g388ac.trl
CD29/g389ac.trl
CD29/g390ac.trl
CD29/g391ac.trl
CD29/g594ac.trl
CD29/g595ac.trl
CD22/g584bc.trl
CD24/g585bc.trl
CD29/g596bc.trl
CD29/g597bc.trl

--> 8693 Woerter. Die OOV-Rate auf der Wortliste VM2-2.4.lm.wl betraegt 
    1.4 Prozent (118 Woerter). 

Resultate
---------

Bei der PP-Messung wurden OOV-Woerter _NICHT_ auf <UNK> abgebildet, 
sondern es wurde mit einem Unigramm neu gestartet. Dies entspricht 
dem neu implementierten perp.c, welches mit der neuen Schnittstelle 
als Anwendungsbeispiel ausgeliefert wird.

--> Auf den Test-Daten hat das neue Trigramm (VM2-2.4.M3.lm) 
    eine Perplexitaet von 65.50 . (Die Testset-Perplexitaet 
    des vorigen Trigramms VM2-2.3.M3.lm betrug 66.44.)

--> Auf den (bei der Parameteroptimierung verwendeten !) Kreuz-
    validierungsdaten betraegt die PP 58.06 [voriges LM 60.09]). 

===========================================================================
