Same page in english
Letzter Update dieser Seite: 11.10.2018
Münchener AUtomatisches Segmentationssystem (MAUS) -
Verfügbar
Das generelle Ziel des MAUS-Projekts ist eine vollautomatische
signalnahe Annotation von beliebigen sprachlichen Äußerungen.
MAUS soll in seiner Endausbaustufe aus folgendem Input:
vollautomatisch folgenden Output erzeugen:
Eine detaillierte Beschreibung des MAUS finden Sie
hier oder
hier. Beachten Sie auch
unsere Publikationen zu MAUS.
MAUS ist als Freeware-Paket erhältlich, kann aber auch als Web-Service genutzt werden.
Eng verknüpft mit dem MAUS-Projekt sind die Arbeiten am Partitur-Format zur Darstellung kategorialer Informationen am Sprachsignal.
Die Entwicklung von MAUS erfolgt unter teilweiser Unterstützung des BMBF (Projekt Verbmobil).
Andererseits existieren bereits sehr große linguistische
Lexika, die aber keine Information über die Aussprache enthalten.
Eine Notlösung ist die Verwendung automatischer Graphem-Phonem-Konverter,
welche allerdings keinesfalls fehlerfrei arbeiten und zudem meistens
nicht frei verfügbar sind.
Das BAS PHONOLEX Projekt
hat zunächst die
Erstellung eines vorerst kanonischen Aussprache-Lexikons zum Ziel, welches
95 % der normalen Schriftsprache inklusive aller Flexionen abdeckt.
Dies geschieht in enger Zusammenarbeit mit der Univerität
Saarbrücken (Prof. Uzkoreith), der Universität Bonn
(Dr. Stock) und der Universität Leipzig (Dr. Quasthoff).
Derzeit sind folgende SC Korpora geplant bzw. fertiggestellt:
Einige der SC Korpora werden vom BAS in Trainings- und
Test-Korpora eingeteilt, so daß in Veröffentlichungen darauf
referenziert werden kann.
Für weitere Vorschläge aus der 'speech community' sind wir jederzeit
offen. Wenn Sie Vorschläge zu weiteren interessanten SC Korpora haben,
wenden Sie sich bitte an folgende email Adresse:
In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der VM Volumes
bereitgestellt.
Diese enthalten dann zusätzlich zu den geschnittenen Signaldateien
die orthographischen Transliterationen, eine sog. Vorschlagstranskription
(der bisher gängige Begriff der 'kanonischen Form' läßt sich
für Spontansprache nicht mehr aufrecht erhalten) sowie eventuell bereits
eine erste automatische phonologische Segmentierung. Durch Auswertung weiterer
Verbmobil Ergebnisse können eventuell noch prosodische und
syntaktische Informationen dazukommen.
In diesem Rahmen wird vom BAS eine erweiterte Ausgabe der SK Corpora
bereitgestellt.
Unfinished with partly usable results; please contact bas@bas.uni-muenchen.de if you are interested in these sort of data.
Das BAS ist bei der Erstellung des deutschen Korpus maßgeblich
beteiligt. Nähere Informationen finden Sie
hier.
In der zweiten Projektphase soll dieses Korpus um mindestens 1000
jugendliche Sprecher
erweitert werden. Die Aufnahmen sollen dabei mit neuen web-basierten
Techniken wie SpeechRecorder erfolgen.
BAS PHONOLEX Lexicon -
Verfügbar
Für fast alle Arten der signalnahen Sprachverarbeitung ist eine
kanonische Definition der Aussprache von Einzelwörtern
notwendig. Ein solches (computerlesbares) Aussprache-Lexikon,
das neben den
reinen Lemmata auch alle möglichen Flexion enthält, ist derzeit
für die deutsche Sprache nicht verfügbar.
Die Situation wird noch verschärft durch die bekannte Tatsache,
daß in spontaner Sprache sehr viele nicht lexikalisch
erfaßte Phänomene auftreten wie z.B. Wortabbrüche,
Neuschöpfungen, Versprecher, etc.
Der derzeitige Stand der Arbeiten (Version 2.6) ist eine lexikale Liste
von über 1.600.000 Einträgen; ausführlichere Details
finden sich hier.
Strange Corpora - SC
Die SC Korpora sind eine Serie von kleineren Sprachdatensammlungen, welche
jeweils eines der bekannten Probleme in der Sprachverarbeitung dokumentieren
sollen. Mit Hilfe dieser Korpora können Wissenschaftler und Ingenieure
ihre Lösungsansätze bzw. Applikationen testen und deren Leistung
untereinander vergleichen.
Status: verfügbar.
Status: verfügbar
Status: in Arbeit.
Status: geplant
Status: geplant
Status: geplant
Status: verfügbar (identisch mit SI1000)
Status: geplant
Status: geplant
Status: verfügbar
BAS Ausgabe der Verbmobil Korpora - VM -
Abgeschlossen
Die Verbmobil Korpora (spontane Dialogaufnahmen
, Terminvereinbarung)
werden nach einem Jahr Sperrfrist (jeweils ab Erscheinungsdatum)
vom BAS für den allgemeinen Gebrauch
angeboten.
Artikulatorische Daten - EMA
Von Sprechern des SI1000 Korpus
existieren umfangreiche artikulatorische EMA
(Electromagnetic Articulography) Daten, welche in einem seperaten
Korpus herausgegeben werden sollen. Das Korpus umfaßt neben dem
Sprachsignal die Bewegungsparameter des Vokaltrakts im sagitalen Schnitt.
Voraussichtliche Verfügbarkeit: Ende 2000.
Spicos Trainingskorpus - SPICOS
Der Trainingskorpus des SPICOS-Projekts ist nach wie vor einer der
größten deutsch-sprachigen Korpora, die für sog.
'bootstrapping' von Spracherkennungsalgorithmen verwendet werden können.
Er enthält 3892 gelesene, phonembalancierte Sätze von
12 Sprechern. Die Sprachsignale wurden per Hand in IPA transliteriert.
BAS plant eine Neuausgabe dieses Korpus (nach einer sorgfältigen
Validierung aller Daten). Die neue Edition wird sowohl die orginale
IPA Annotation (wenn auch in neuer Form) enthalten, als auch eine
SAM-PA Labelung, die für technische Anwendungen bestimmt ist.
BAS Ausgabe der SmartKom Korpora - SK - Available
Die SmartKom Korpora (Multimodale WOZ-Dialogaufnahmen)
werden nach einem Jahr Sperrfrist (ab Projektende 09/2003)
vom BAS für den allgemeinen Gebrauch
angeboten.
Munich Automatic Speaker Verification - MASV -
Available
... (in progress)
ASR Benchmark für spontanes Deutsch (Verbmobil) -
Available
Für Referenz-Experimente in der automatischen Spracherkennung definieren
wir Trainings-, Development- und Test-Sets basierend auf den
Verbmobil Korpora
I und II. Passend dazu werden Lexika, Language Modelle und
Verarbeitungslisten (Scripts)
für die Verwendung in HTK bereitgestellt. Wir berichten über die
base line HTK Erkennungsrate für Monophone und wortübergreifende
Triphone.
ASR Benchmark für Telephonsprache, Deutsch (SpeechDat) -
Available
Für Referenz-Experimente in der automatischen Spracherkennung definieren
wir Trainings-, Development- und Test-Sets basierend auf den
deutschen SpeechDat-Korpora
I und II. Passend dazu werden Lexika, Language Modelle und
Verarbeitungslisten (Scripts)
für die Verwendung in HTK bereitgestellt. Wir berichten über die
base line HTK Erkennungsrate für Monophone auf Festnetz-Daten und auf
GSM-Daten. Außerdem berichten wir über Ergebnisse
von Adaptionsexperimenten, um den beobachteten Einbruch bei GSM zu
kompensieren (Bem: Für Festnetzdaten steht ca. die 6-fache Menge an
Sprachmaterial zur Verfügung.)
ASR Erkennung von deutschen Adressen (GEO1)
Basierend auf akustischen Modellen trainiert auf das deutsche
SpeechDat-Korpus und die GEO1 Datenbasis soll ein Erkenner von Adressen
im deutschen Adressraum aufgebaut werden.
Alcohol Language Corpus (ALC)
Verfügbar
Ziel dieses Projektes ist die Schaffung eines umfangreichen Sprachkorpus
mit Sprache unter Alkoholeinfluss. Anhand dieses Korpus soll es erstmals
möglich werden, auf einer soliden statistischen Basis und auch für
weibliche Sprecher Untersuchungen des Einflusses von Alkohol auf die
Sprache zu untersuchen (150 Sprecher). Der Korpus enthält eine Vielzahl von
Sprachstilen, von einfachen Zahlenketten, über gelesene Sprache,
Zungenbrecher, Kommandos (situational prompting), Monologe bis hin zu
echter Konversation. Der Grad der Alkoholisierung wird über Atem-
und Blutalkohol gemessen. ALC wird in enger Kooperation mit dem Institut
für Rechtsmedizin, LMU München, und dem Bund gegen Alcohol und Drogen im
Straßenverkehr (B.A.D.S.) durchgeführt.
CLARIN-D Webservices und Webinterface -
Verfügbar
Im Rahmen der deutschen CLARIN-D Projekte (BMB+F) entwickelte das BAS eine
Reihe von REST-basierten Webservices zur Verabeitung von Sprache (G2P,MAUS,CHUNKER, etc.)
und ein benutzerfreundliches Web-Interface zur interaktiven Bearbeitung von Sprachdaten.
CLARIN-D Respository für Sprachressourcen -
Verfügbar
Im Rahmen der deutschen CLARIN-D Projekte (BMB+F) wurde das existierende BAS Archiv
in ein modernes CLARIN B-Center übergeführt.
Prominente BAS Kooperationen
SpeechDat -
Abgeschlossen
Das europäische SpeechDat Projekt ist ein Gemeinschaftsprojekt von
Partnern in ganz Europa mit dem Ziel eine Telefonsprachdatenbasis von
5000 Sprechern je europäischer Sprache zu realisieren.
Erweiterung der 'Regional Variants of German', RVG-J, Ph@tt Sessionz
Verfügbar
In Zusammenarbeit mit AT&T Lucent wurde am BAS ein umfangreiches
Korpus an Aufnahmen erstellt, welches zum erstes Mal den gesamten
deutsch-sprachigen Raum erfasst (RVG1).
Speaker Verification over the telephone network - VERIDAT
Abgeschlossen
VERIDAT ist ein großer Telephonsprache-Korpus für die Entwicklung
von Sprecherverifikationstechniken. Da dieser Korpus nicht öffentlich
vom BAS oder der ELRA vertrieben wird, sollten Sie Verbindung zum BAS aufnehmen,
falls Sie an einer bilateralen Benutzung interessiert sind.
Aufnahmen im Automobil - AUTO
Abgeschlossen
Derzeit entstehen in Zusammenarbeit mit mehreren Industriepartnern
umfangreiche Sprachdatensammlungen im bewegten Fahrzeug. Die Daten
erstrecken sich über eine grosse Anzahl von Sprechern, aus mehreren
Dialektregionen und in mehreren Fahrzeugtypen.
Wird voraussichtlich nicht über das BAS vertrieben.
BMW - TUMMIC
Abgeschlossen
TUMMIC steht für "Thoroughly User-Oriented Man-Machine Interface in
Cars". Im Rahmen dieses Projekts erarbeiten Institute der TU München
(Lehrstuhl für Ergonomie, Fachbereich für Augmented Reality, Lehrstuhl
für Mensch-Maschine-Kommunikation und Lehrstuhl für Software- und
System-Engineering), das IPSK der LMU und der Lehrstuhl für Allgemeine
und Angewandte Psychologie der Universität Regensburg in enger
Kooperation ein integriertes multimodales Bedienkonzept für
Fahrerassistenz- und -informationssysteme im Auto.
Florian Schiel