BAS
Bayerisches Archiv für Sprachsignale
Projekte

Same page in english

Letzter Update dieser Seite: 11.10.2018

BAS Projekte (interne Finanzierung)

Münchener AUtomatisches Segmentationssystem (MAUS)
BAS Lexikon PHONOLEX
'Strange Corpora' - SC
BAS Ausgabe der Verbmobil Korpora - VM
Artikulatorische Daten - EMA
Spicos Trainingskorpus - SPICOS
BITS: BAS Infrastrukturen für die Technische Sprachverarbeitung
BAS Ausgabe der SmartKom Korpora - SK
Munich Automatische Sprecher Verifikation - MASV
ASR Benchmark für spontanes Deutsch (Verbmobil)
ASR Benchmark für Telefonsprache, Deutsch (SpeechDat)
ASR Erkennung von Adressen, Deutsch (GEO1)
Alcohol Language Corpus (ALC)
Erweiterung der 'Regional Variants of German'
BAS CLARIN Webservices
BAS CLARIN Repository

Größere BAS Kooperationen (Industrieprojekte)

SpeechDat - SD
Sprache im bewegten Fahrzeug - AUTO
Sprecherverifikation über Telephon - VERIDAT
BMW - TUMMIC

BAS Projekte

Münchener AUtomatisches Segmentationssystem (MAUS) - Verfügbar

Das generelle Ziel des MAUS-Projekts ist eine vollautomatische signalnahe Annotation von beliebigen sprachlichen Äußerungen. MAUS soll in seiner Endausbaustufe aus folgendem Input:

Sprachsignal
Orthographische Repräsentation

vollautomatisch folgenden Output erzeugen:

phonologisch-phonetisches Transkript ( SAM-PA)
Segmentation
Automatische Erkennung und Kategorisierung von Aussprachevarianten
Automatische Erkennung und Klassifikation von nicht-sprachlichen Ereignissen
Automatische korpusbasierte Generierung von statistischen Aussprachemodellen

Eine detaillierte Beschreibung des MAUS finden Sie hier oder hier. Beachten Sie auch unsere Publikationen zu MAUS.

MAUS ist als Freeware-Paket erhältlich, kann aber auch als Web-Service genutzt werden.

Eng verknüpft mit dem MAUS-Projekt sind die Arbeiten am Partitur-Format zur Darstellung kategorialer Informationen am Sprachsignal.

Die Entwicklung von MAUS erfolgt unter teilweiser Unterstützung des BMBF (Projekt Verbmobil).

BAS PHONOLEX Lexicon - Verfügbar

Für fast alle Arten der signalnahen Sprachverarbeitung ist eine kanonische Definition der Aussprache von Einzelwörtern notwendig. Ein solches (computerlesbares) Aussprache-Lexikon, das neben den reinen Lemmata auch alle möglichen Flexion enthält, ist derzeit für die deutsche Sprache nicht verfügbar.
Die Situation wird noch verschärft durch die bekannte Tatsache, daß in spontaner Sprache sehr viele nicht lexikalisch erfaßte Phänomene auftreten wie z.B. Wortabbrüche, Neuschöpfungen, Versprecher, etc.

Andererseits existieren bereits sehr große linguistische Lexika, die aber keine Information über die Aussprache enthalten. Eine Notlösung ist die Verwendung automatischer Graphem-Phonem-Konverter, welche allerdings keinesfalls fehlerfrei arbeiten und zudem meistens nicht frei verfügbar sind.

Das BAS PHONOLEX Projekt hat zunächst die Erstellung eines vorerst kanonischen Aussprache-Lexikons zum Ziel, welches 95 % der normalen Schriftsprache inklusive aller Flexionen abdeckt. Dies geschieht in enger Zusammenarbeit mit der Univerität Saarbrücken (Prof. Uzkoreith), der Universität Bonn (Dr. Stock) und der Universität Leipzig (Dr. Quasthoff).
Der derzeitige Stand der Arbeiten (Version 2.6) ist eine lexikale Liste von über 1.600.000 Einträgen; ausführlichere Details finden sich hier.

Strange Corpora - SC

Die SC Korpora sind eine Serie von kleineren Sprachdatensammlungen, welche jeweils eines der bekannten Probleme in der Sprachverarbeitung dokumentieren sollen. Mit Hilfe dieser Korpora können Wissenschaftler und Ingenieure ihre Lösungsansätze bzw. Applikationen testen und deren Leistung untereinander vergleichen.

Derzeit sind folgende SC Korpora geplant bzw. fertiggestellt:

SC1 'Accents I' - Gelesene Sprache von 72 nicht in Deutschland geborenen Sprechern und derselbe Text gelesen von 16 deutschen Sprechern.
Status: verfügbar.
SC2 'Noises' - Aufnahmen im Montagefeld mit klassifizierten, echten Hintergrundgeräuschen (permanent oder singulär)
Status: verfügbar
SC3 'Phone Noises' - Aufnahmen (Spontansprache) eines 'real life' Telefon-Servers mit klassifizierten Hintergrundgeräuschen (permanent oder singulär)
Status: in Arbeit.
SC4 'Hesitationen' - Spontansprachliche Aufnahmen mit typischen Formen der Hesitation (klassifiziert).
Status: geplant
SC5 'Abbrüche' - Spontansprachliche Äußerungen mit klassifizierten Wort-, Satz- und technischen Abbrüchen.
Status: geplant
SC6 'Korrekturen, Wiederholungen' - Spontansprachliche Äußerungen mit klassifizierten Wiederholungen und Korrekturen.
Status: geplant
SC7 'Sprecheradaption' - Tausend Sätze von 10 Sprechern (5 männlich, 5 weiblich) zum kontrollierten Testen von Algorithmen der Sprecheradaption.
Status: verfügbar (identisch mit SI1000)
SC8 Grundfrequenzen - Äußerungen von Sprechern mit extrem abweichender Grundfrequenz oder Intonation.
Status: geplant
SC9 'Pathologie' - Aufnahmen von Sprechern mit klassifizierten Sprachfehlern.
Status: geplant
SC10 'Accents II' - Aufnahmen von Sprechern, die nicht in Deutschland geboren und aufgewachsen sind und einen deutlichen Akzent aufweisen. 16 Sprachen + Deutsch als Referenz; insgesamt 72 Sprecher; unterschiedliche Aufnahmesituationen; teilweise mit phonetischer Labelung.
Status: verfügbar

Einige der SC Korpora werden vom BAS in Trainings- und Test-Korpora eingeteilt, so daß in Veröffentlichungen darauf referenziert werden kann.

Für weitere Vorschläge aus der 'speech community' sind wir jederzeit offen. Wenn Sie Vorschläge zu weiteren interessanten SC Korpora haben, wenden Sie sich bitte an folgende email Adresse:

BAS Ausgabe der Verbmobil Korpora - VM - Abgeschlossen

Die Verbmobil Korpora (spontane Dialogaufnahmen , Terminvereinbarung) werden nach einem Jahr Sperrfrist (jeweils ab Erscheinungsdatum) vom BAS für den allgemeinen Gebrauch angeboten.

In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der VM Volumes bereitgestellt. Diese enthalten dann zusätzlich zu den geschnittenen Signaldateien die orthographischen Transliterationen, eine sog. Vorschlagstranskription (der bisher gängige Begriff der 'kanonischen Form' läßt sich für Spontansprache nicht mehr aufrecht erhalten) sowie eventuell bereits eine erste automatische phonologische Segmentierung. Durch Auswertung weiterer Verbmobil Ergebnisse können eventuell noch prosodische und syntaktische Informationen dazukommen.

Artikulatorische Daten - EMA

Von Sprechern des SI1000 Korpus existieren umfangreiche artikulatorische EMA (Electromagnetic Articulography) Daten, welche in einem seperaten Korpus herausgegeben werden sollen. Das Korpus umfaßt neben dem Sprachsignal die Bewegungsparameter des Vokaltrakts im sagitalen Schnitt. Voraussichtliche Verfügbarkeit: Ende 2000.

Spicos Trainingskorpus - SPICOS

Der Trainingskorpus des SPICOS-Projekts ist nach wie vor einer der größten deutsch-sprachigen Korpora, die für sog. 'bootstrapping' von Spracherkennungsalgorithmen verwendet werden können. Er enthält 3892 gelesene, phonembalancierte Sätze von 12 Sprechern. Die Sprachsignale wurden per Hand in IPA transliteriert.
BAS plant eine Neuausgabe dieses Korpus (nach einer sorgfältigen Validierung aller Daten). Die neue Edition wird sowohl die orginale IPA Annotation (wenn auch in neuer Form) enthalten, als auch eine SAM-PA Labelung, die für technische Anwendungen bestimmt ist.

BAS Ausgabe der SmartKom Korpora - SK - Available

Die SmartKom Korpora (Multimodale WOZ-Dialogaufnahmen) werden nach einem Jahr Sperrfrist (ab Projektende 09/2003) vom BAS für den allgemeinen Gebrauch angeboten.

In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der SK Corpora bereitgestellt.

Munich Automatic Speaker Verification - MASV - Available

... (in progress)

ASR Benchmark für spontanes Deutsch (Verbmobil) - Available

Für Referenz-Experimente in der automatischen Spracherkennung definieren wir Trainings-, Development- und Test-Sets basierend auf den Verbmobil Korpora I und II. Passend dazu werden Lexika, Language Modelle und Verarbeitungslisten (Scripts) für die Verwendung in HTK bereitgestellt. Wir berichten über die base line HTK Erkennungsrate für Monophone und wortübergreifende Triphone.

ASR Benchmark für Telephonsprache, Deutsch (SpeechDat) - Available

Für Referenz-Experimente in der automatischen Spracherkennung definieren wir Trainings-, Development- und Test-Sets basierend auf den deutschen SpeechDat-Korpora I und II. Passend dazu werden Lexika, Language Modelle und Verarbeitungslisten (Scripts) für die Verwendung in HTK bereitgestellt. Wir berichten über die base line HTK Erkennungsrate für Monophone auf Festnetz-Daten und auf GSM-Daten. Außerdem berichten wir über Ergebnisse von Adaptionsexperimenten, um den beobachteten Einbruch bei GSM zu kompensieren (Bem: Für Festnetzdaten steht ca. die 6-fache Menge an Sprachmaterial zur Verfügung.)

ASR Erkennung von deutschen Adressen (GEO1)

Basierend auf akustischen Modellen trainiert auf das deutsche SpeechDat-Korpus und die GEO1 Datenbasis soll ein Erkenner von Adressen im deutschen Adressraum aufgebaut werden.

Unfinished with partly usable results; please contact bas@bas.uni-muenchen.de if you are interested in these sort of data.

Alcohol Language Corpus (ALC) Verfügbar

Ziel dieses Projektes ist die Schaffung eines umfangreichen Sprachkorpus mit Sprache unter Alkoholeinfluss. Anhand dieses Korpus soll es erstmals möglich werden, auf einer soliden statistischen Basis und auch für weibliche Sprecher Untersuchungen des Einflusses von Alkohol auf die Sprache zu untersuchen (150 Sprecher). Der Korpus enthält eine Vielzahl von Sprachstilen, von einfachen Zahlenketten, über gelesene Sprache, Zungenbrecher, Kommandos (situational prompting), Monologe bis hin zu echter Konversation. Der Grad der Alkoholisierung wird über Atem- und Blutalkohol gemessen. ALC wird in enger Kooperation mit dem Institut für Rechtsmedizin, LMU München, und dem Bund gegen Alcohol und Drogen im Straßenverkehr (B.A.D.S.) durchgeführt.

CLARIN-D Webservices und Webinterface - Verfügbar

Im Rahmen der deutschen CLARIN-D Projekte (BMB+F) entwickelte das BAS eine Reihe von REST-basierten Webservices zur Verabeitung von Sprache (G2P,MAUS,CHUNKER, etc.) und ein benutzerfreundliches Web-Interface zur interaktiven Bearbeitung von Sprachdaten.