README zur VERBMOBIL Dialog-Datenbasis V 6.0 15.07.95 / 15.07.95 (You'll find the same text in English at the bottom of this file) C Copyright 1995 Unversitaet Bonn, Carnegie Mellon University Pittsburg. Alle Rechte vorbehalten, insbesondere ist die Weitergabe an Dritte auch auszugsweise, ohne Genehmigung der Urheber ausdruecklich untersagt. Die zugehoerigen Transliterationen (TRL files) sind auf dem offiziellen Verbmobil FTP Server in Saarbruecken (ftp.dfki.uni-sb.de) im Unterverzeichnis FTP-SERVER/vm-daten/trl gespeichert. Der Datentraeger (CDROM) bleibt bis zur Bezahlung der Schutzgebuehr an das Bayerische Archiv fuer Sprachsignale (BAS) Eigentum des BAS, Universitaet Muenchen. Software zum Lesen der Daten und Header-Information fuer verschiedene Betriebssysteme befinden sich im Subdirectory SOFTW. Sprecherinformationen finden Sie im Subdirectory DOC in der Datei AufDat.txt. ACHTUNG: Da zum Zeitpunkt der Ausgabe noch keine Sprecherinformationen der CMU vorlagen, sind diese NICHT in AufDat.txt enthalten. Bitte laden Sie dazu die aktuellste Version der Sprecherdatenbasis vom offiziellen Verbmobil FTP- Server (directory: FTP-SERVER/vm-daten/trl) oder von folgender URL: http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html Historie: V 6.0 : 1. Version, nur Signalfiles Begriffe: Dialog = Gespraech zweier Personen mit ein oder mehreren Terminabsprachen Terminabsprache = Eine vollstaendige Vereinbarung eines Termins Turn = Ein einzelner Gespraechsbeitrag eines der Sprecher Struktur und Namen der Datenfiles: Jeder Dialog (Gespraech zweier Personen mit einer oder mehreren Terminabsprachen) ist durch folgenden Namen definiert: X###O mit X : Dialogtyp K = gleicher Raum, kein Knopfdruck L = getrennter Raum, kein Knopfdruck M = getrennter Raum, mit Knopfdruck N = gleicher Raum, mit Knopfdruck G = Knopfdruckverfahren (Kiel) Q = wie M, aber englisch R = wie N, aber englisch "getrennter Raum" bedeutet: akustisch entkoppelt, aber Sichtkontakt und akustischer Kontakt ueber Kopfhoerer. "mit Knopfdruck" bedeutet: nur der Partner, der den Knopf drueckt, wird aufgenommen; gleichzeitiges Sprechen nicht moeglich. ### : Dialognummer eines Aufnahme-Instituts O : Ortskennung Aufnahme-Institut A : Kiel C : CMU D : Muenchen N : Bonn K : Karlsruhe Alle Daten zu einem Dialog sind in einem Subdirektory mit dem Namen des Dialogs gespeichert, z.B. Q001N Dateien eines Dialogs: A Transliteration (Extension .TRL), ASCII, z.B. M001D.TRL B Gesamter Dialog (Extension .STF), Stereofile ohne Header, abwechselnd linker und rechter Kanal, Motorola Worte, 16 Bit, 16000 Hz Abtastrate, z.B. M001D.STF (OPTIONAL fuer Muenchner Dialoge) C Einzelne Beitraege (Turns), Namensgebung: X%%%O***.&16 mit X : s.o. %%% : s.o. O : s.o. *** : Turnnummer (Beginn mit 000) & : Termin-Nummerierung A : 1. Termin des Dialogs B : 2. " ... 16 : Sprachsignal mit 16 kHz Header Phondat 1 (siehe Dokumentation in DOC/PHONDAT.DOC), Intel Worte, 16 Bit, 16000 Hz Abtastrate, z.B. MSTAD001.A16 Bemerkungen: - Bei den Daten der CMU fehlen in den Headern der Signalfiles folgende Eintraege: day : Tag der Aufnahme month : Monat der Aufnahme year : Jahr der Aufnahme sprk : Sprecherkennung - Uebersteuerungen (clipping) innerhalb der Sprachsignale koennen durch Lesen der Header-Information abs_max (absolute Maximalamplitude) festgestellt werden. Wenn dieser Wert 32767 ist (Karlsruhe: 32764 o. 32767), kommt es zu min. einer Uebersteuerung. - Daten des Headers wie die Daten des Signals sind immer als Intel Daten gespeichert. =========================================================================== README VERBMOBIL Dialog Database V 6.0 15.07.95 / 15.07.95 C Copyright 1995 Unversity of Bonn, Carnegie Mellon University Pittsburg. All rights reserved. This corpus and software may not be disseminated further - not even partly - without a written permission of the copyright holders. The files containing the orthographig/linguistic transliteration to the signals are stored on the official Verbmobil FTP Server (ftp.dfki.uni-sb.de) in the subdirectory FTP-SERVER/vm-daten/trl. The CDROM stays a property of the Bavarian Archive for Speech Signals (BAS) until the costs for production and shipping are paid to the BAS. You will find software for reading/writing/playing/converting the files for several OS in the subdir SOFTW. You will find speaker information in the file AufDat.txt in the subdir DOC. NOTE: At the time of release there were no speaker information of the CMU data available. Therefore these are NOT included in AufDat.txt. Please lookup the latest version of the Verbmobil speaker database AufDat.txt from the official Verbmobil FTP-SERVER (directory: FTP-SERVER/vm-daten/trl) or lookup the following URL: http://www.phonetik.uni-muenchen.de/Bas/BasHomedeu.html History: V 6.0 : only signal files Terms: dialog = conversation between two persons about one or more appointments appointment = complete negotiation about one appointment (several turns) turn = single, non interrupted utterance of one speaker Structure and names of signal files: Each dialog has a defined name as follows: X###O X : Dialog type K = same room, no push button L = seperated room, no push button M = seperated room, push button N = same room, push button G = push button (Kiel) Q = same as M but english R = same as N but english 'seperated room' = acoustically seperated, but eye contact through window, acoustical contact only via headphones. 'push button' = only the speaker that has pressed the button is recorded, pushing simultaneously is not possible. ### : dialog number within a recording site (starting 001) O : ID recording site A : Kiel C : CMU D : Muenchen N : Bonn K : Karlsruhe All data to a dialog are stored in a seperate subdir named as the dialog, e.g. Q001N Files of a dialog: A Transliteration (Extension .TRL), ASCII, e.g. M001D.TRL B Whole Dialog (Extension .STF), stereo file without header, interleafed (OPTIONAL, not on this volume ) C Turns, file naming: X%%%O***.&16 X : see above %%% : see above O : see above & : number of appointment (if more than one) A : 1st appointment B : 2nd " ... 16 : PhonDat signal file 16 kHz sampling rate Header is PhonDat 1 (see doc file DOC/PHONDAT.DOC) Intel words, 16 bit, 16000 Hz sampling rate. Remarks: - The CMU data do not contain the following items in the header: day : day of recording month : month of recording year : year of recording sprk : Speaker ID - Clipping within the speech signal can be detected by checking the header item abs_max (maximal absolute amplitude). - Items of the headers are always stored as Intel word or long words.