BAS
Bayerisches Archiv für Sprachsignale
Projekte

Same page in english

Letzter Update dieser Seite: 18.04.2012


BAS Projekte


Münchener AUtomatisches Segmentationssystem (MAUS) - Verfügbar

Das generelle Ziel des MAUS-Projekts ist eine vollautomatische signalnahe Annotation von beliebigen sprachlichen Äußerungen. MAUS soll in seiner Endausbaustufe aus folgendem Input: vollautomatisch folgenden Output erzeugen: Eine detaillierte Beschreibung des MAUS finden Sie hier oder hier. Beachten Sie auch unsere Publikationen zu MAUS.

MAUS ist als Freeware-Paket erhältlich, kann aber auch als Web-Service genutzt werden.

Eng verknüpft mit dem MAUS-Projekt sind die Arbeiten am Partitur-Format zur Darstellung kategorialer Informationen am Sprachsignal.

Die Entwicklung von MAUS erfolgt unter teilweiser Unterstützung des BMBF (Projekt Verbmobil).


BAS PHONOLEX Lexicon - Verfügbar

Für fast alle Arten der signalnahen Sprachverarbeitung ist eine kanonische Definition der Aussprache von Einzelwörtern notwendig. Ein solches (computerlesbares) Aussprache-Lexikon, das neben den reinen Lemmata auch alle möglichen Flexion enthält, ist derzeit für die deutsche Sprache nicht verfügbar.
Die Situation wird noch verschärft durch die bekannte Tatsache, daß in spontaner Sprache sehr viele nicht lexikalisch erfaßte Phänomene auftreten wie z.B. Wortabbrüche, Neuschöpfungen, Versprecher, etc.

Andererseits existieren bereits sehr große linguistische Lexika, die aber keine Information über die Aussprache enthalten. Eine Notlösung ist die Verwendung automatischer Graphem-Phonem-Konverter, welche allerdings keinesfalls fehlerfrei arbeiten und zudem meistens nicht frei verfügbar sind.

Das BAS PHONOLEX Projekt hat zunächst die Erstellung eines vorerst kanonischen Aussprache-Lexikons zum Ziel, welches 95 % der normalen Schriftsprache inklusive aller Flexionen abdeckt. Dies geschieht in enger Zusammenarbeit mit der Univerität Saarbrücken (Prof. Uzkoreith), der Universität Bonn (Dr. Stock) und der Universität Leipzig (Dr. Quasthoff).
Der derzeitige Stand der Arbeiten (Version 2.6) ist eine lexikale Liste von über 1.600.000 Einträgen; ausführlichere Details finden sich hier.


Strange Corpora - SC

Die SC Korpora sind eine Serie von kleineren Sprachdatensammlungen, welche jeweils eines der bekannten Probleme in der Sprachverarbeitung dokumentieren sollen. Mit Hilfe dieser Korpora können Wissenschaftler und Ingenieure ihre Lösungsansätze bzw. Applikationen testen und deren Leistung untereinander vergleichen.

Derzeit sind folgende SC Korpora geplant bzw. fertiggestellt:

Einige der SC Korpora werden vom BAS in Trainings- und Test-Korpora eingeteilt, so daß in Veröffentlichungen darauf referenziert werden kann.

Für weitere Vorschläge aus der 'speech community' sind wir jederzeit offen. Wenn Sie Vorschläge zu weiteren interessanten SC Korpora haben, wenden Sie sich bitte an folgende email Adresse:


BAS Ausgabe der Verbmobil Korpora - VM - Abgeschlossen

Die Verbmobil Korpora (spontane Dialogaufnahmen , Terminvereinbarung) werden nach einem Jahr Sperrfrist (jeweils ab Erscheinungsdatum) vom BAS für den allgemeinen Gebrauch angeboten.

In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der VM Volumes bereitgestellt. Diese enthalten dann zusätzlich zu den geschnittenen Signaldateien die orthographischen Transliterationen, eine sog. Vorschlagstranskription (der bisher gängige Begriff der 'kanonischen Form' läßt sich für Spontansprache nicht mehr aufrecht erhalten) sowie eventuell bereits eine erste automatische phonologische Segmentierung. Durch Auswertung weiterer Verbmobil Ergebnisse können eventuell noch prosodische und syntaktische Informationen dazukommen.


Artikulatorische Daten - EMA

Von Sprechern des SI1000 Korpus existieren umfangreiche artikulatorische EMA (Electromagnetic Articulography) Daten, welche in einem seperaten Korpus herausgegeben werden sollen. Das Korpus umfaßt neben dem Sprachsignal die Bewegungsparameter des Vokaltrakts im sagitalen Schnitt. Voraussichtliche Verfügbarkeit: Ende 2000.


Spicos Trainingskorpus - SPICOS

Der Trainingskorpus des SPICOS-Projekts ist nach wie vor einer der größten deutsch-sprachigen Korpora, die für sog. 'bootstrapping' von Spracherkennungsalgorithmen verwendet werden können. Er enthält 3892 gelesene, phonembalancierte Sätze von 12 Sprechern. Die Sprachsignale wurden per Hand in IPA transliteriert.
BAS plant eine Neuausgabe dieses Korpus (nach einer sorgfältigen Validierung aller Daten). Die neue Edition wird sowohl die orginale IPA Annotation (wenn auch in neuer Form) enthalten, als auch eine SAM-PA Labelung, die für technische Anwendungen bestimmt ist.


BAS Ausgabe der SmartKom Korpora - SK - Available

Die SmartKom Korpora (Multimodale WOZ-Dialogaufnahmen) werden nach einem Jahr Sperrfrist (ab Projektende 09/2003) vom BAS für den allgemeinen Gebrauch angeboten.

In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der SK Corpora bereitgestellt.


Munich Automatic Speaker Verification - MASV - Available

... (in progress)


ASR Benchmark für spontanes Deutsch (Verbmobil) - Available

Für Referenz-Experimente in der automatischen Spracherkennung definieren wir Trainings-, Development- und Test-Sets basierend auf den Verbmobil Korpora I und II. Passend dazu werden Lexika, Language Modelle und Verarbeitungslisten (Scripts) für die Verwendung in HTK bereitgestellt. Wir berichten über die base line HTK Erkennungsrate für Monophone und wortübergreifende Triphone.


ASR Benchmark für Telephonsprache, Deutsch (SpeechDat) - Available

Für Referenz-Experimente in der automatischen Spracherkennung definieren wir Trainings-, Development- und Test-Sets basierend auf den deutschen SpeechDat-Korpora I und II. Passend dazu werden Lexika, Language Modelle und Verarbeitungslisten (Scripts) für die Verwendung in HTK bereitgestellt. Wir berichten über die base line HTK Erkennungsrate für Monophone auf Festnetz-Daten und auf GSM-Daten. Außerdem berichten wir über Ergebnisse von Adaptionsexperimenten, um den beobachteten Einbruch bei GSM zu kompensieren (Bem: Für Festnetzdaten steht ca. die 6-fache Menge an Sprachmaterial zur Verfügung.)


ASR Erkennung von deutschen Adressen (GEO1)

Basierend auf akustischen Modellen trainiert auf das deutsche SpeechDat-Korpus und die GEO1 Datenbasis soll ein Erkenner von Adressen im deutschen Adressraum aufgebaut werden.


Alcohol Language Corpus (ALC) Verfügbar

Ziel dieses Projektes ist die Schaffung eines umfangreichen Sprachkorpus mit Sprache unter Alkoholeinfluss. Anhand dieses Korpus soll es erstmals möglich werden, auf einer soliden statistischen Basis und auch für weibliche Sprecher Untersuchungen des Einflusses von Alkohol auf die Sprache zu untersuchen (150 Sprecher). Der Korpus enthält eine Vielzahl von Sprachstilen, von einfachen Zahlenketten, über gelesene Sprache, Zungenbrecher, Kommandos (situational prompting), Monologe bis hin zu echter Konversation. Der Grad der Alkoholisierung wird über Atem- und Blutalkohol gemessen. ALC wird in enger Kooperation mit dem Institut für Rechtsmedizin, LMU München, und dem Bund gegen Alcohol und Drogen im Straßenverkehr (B.A.D.S.) durchgeführt.


Prominente BAS Kooperationen


SpeechDat - Abgeschlossen

Das europäische SpeechDat Projekt ist ein Gemeinschaftsprojekt von Partnern in ganz Europa mit dem Ziel eine Telefonsprachdatenbasis von 5000 Sprechern je europäischer Sprache zu realisieren.

Das BAS ist bei der Erstellung des deutschen Korpus maßgeblich beteiligt. Nähere Informationen finden Sie hier.


Erweiterung der 'Regional Variants of German', RVG-J, Ph@tt Sessionz Verfügbar

In Zusammenarbeit mit AT&T Lucent wurde am BAS ein umfangreiches Korpus an Aufnahmen erstellt, welches zum erstes Mal den gesamten deutsch-sprachigen Raum erfasst (RVG1).

In der zweiten Projektphase soll dieses Korpus um mindestens 1000 jugendliche Sprecher erweitert werden. Die Aufnahmen sollen dabei mit neuen web-basierten Techniken wie SpeechRecorder erfolgen.


Speaker Verification over the telephone network - VERIDAT

VERIDAT ist ein großer Telephonsprache-Korpus für die Entwicklung von Sprecherverifikationstechniken. Da dieser Korpus nicht öffentlich vom BAS oder der ELRA vertrieben wird, sollten Sie Verbindung zum BAS aufnehmen, falls Sie an einer bilateralen Benutzung interessiert sind.


Aufnahmen im Automobil - AUTO

Derzeit entstehen in Zusammenarbeit mit mehreren Industriepartnern umfangreiche Sprachdatensammlungen im bewegten Fahrzeug. Die Daten erstrecken sich über eine grosse Anzahl von Sprechern, aus mehreren Dialektregionen und in mehreren Fahrzeugtypen.
Wird voraussichtlich nicht über das BAS vertrieben.


BMW - TUMMIC

TUMMIC steht für "Thoroughly User-Oriented Man-Machine Interface in Cars". Im Rahmen dieses Projekts erarbeiten Institute der TU München (Lehrstuhl für Ergonomie, Fachbereich für Augmented Reality, Lehrstuhl für Mensch-Maschine-Kommunikation und Lehrstuhl für Software- und System-Engineering), das IPSK der LMU und der Lehrstuhl für Allgemeine und Angewandte Psychologie der Universität Regensburg in enger Kooperation ein integriertes multimodales Bedienkonzept für Fahrerassistenz- und -informationssysteme im Auto.


Florian Schiel