BAS - Allgemeine Informationen

Same page in english


Das Bayerische Archiv für Sprachsignale (BAS) ist eine - auch der Öffentlichkeit zugängliche - Einrichtung an der Ludwig-Maximilians-Universität München. Die neue Einrichtung dient der Aufgabe, das heute gesprochene Deutsch durch eine möglichst umfassende digitale Sprachsignaldatenbasis für Forschung und Sprachindustrie verfügbar zu machen, und zwar in einer für gezielte Zugriffe spezifisch aufbereiteten und phonetisch-akustisch wie auch phonetisch-linguistisch evaluierten Form.

Aufgabenstellung

Das in den letzten Jahren ganz sprunghaft angestiegene Interesse an großen Sprachsignaldatensammlungen, sowohl bei den Wissenschaftlern im Bereich der Grundlagenforschung an der Universität als auch bei den Ingenieuren der Industrie im Bereich der neuen integrierten Sprach- und Informationstechnologien, hat viele Gründe. An erster Stelle jedoch muß der so plötzlich gegebene Bedarf auf die rasante Entwicklung der neuen Software- und Hardwaretechnologien im Bereich der Sprachsignalverarbeitung zurückgeführt werden. Denn je mehr Verfahren für die phonetisch-akustische Sprachverarbeitung verfügbar werden und je umfangreicher die auf effektive Weise zu bewältigenden Mengen von Sprachsignaldaten werden, desto größer wird der Bedarf nicht nur an linguistisch interessantem Textmaterial, das ja bei der modernen Druckindustrie automatisch anfällt, sondern eben auch an empirisch zuverlässig erhobenem und dann phonetisch evaluiertem Material von lautsprachlichen Äußerungen. Dank mehrerer nationaler bzw. internationaler Initiativen (wie BDSON, PHONDAT, LDC, SPEX bzw. COCOSDA) wurden zwar erste große Sprachkorpora erzeugt und distribuiert, fast alle jedoch in verschiedenen, an unterschiedlichen Zielsetzungen angepaßten Formaten. Für das Deutsche fehlte es hier an einer zentralen Institution, die diese Aufgabe über einen längeren Zeitraum hinweg wahrnimmt.

Das BAS wird diese Aufgabe für gesprochenes Deutsch in Deutschland übernehmen und distribuierbare, deutsche Sprachkorpora sammeln, warten und in standardisierter Form anbieten.

Das BAS wird zusätzlich eigene Verfahren zur automatischen Ettikettierung und Segmentierung entwickeln, auf die distribuierten Sprachkorpora anwenden und zusammen mit den Sprachdaten als zusätzlichen Service anbieten.

Dem BAS wurde vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) der Auftrag zugesprochen, im Rahmen von BMBF Projekten bereits verfügbare sowie neu entstehende Datenbasen zu pflegen und (nach gewissen Sperrfristen) innerhalb der EU sowie an das Linguistic Data Consortium (LDC) in den USA zu exportieren; importierte Datenbasen sollen im BAS auf eine standardisierte Form gebracht und somit für alle vom BMBF geförderten Sprachprojekte mit einem Minimum des sonst üblichen Aufwandes einsetzbar gemacht werden.

Zielsetzungen

Das erste Ziel von BAS wird es sein, den kurzfristigen Bedarf nach unter kontrollierten Bedingungen aufgenommenen Sprachdaten für die Entwicklung von Sprachtechnologien in deutscher Sprache zu befriedigen. Dazu zählt unter anderem die Entwicklung von neuen Techniken für die Verwaltung und den leichten Zugang zu sehr großen Mengen an phonetischen Daten, unabhängig von Ort und Art der Speicherung. Neben den typischen aufgabenorientierten Datensammlungen wie z.B. Polyphone wird bei dieser ersten Zielsetzung der Aufbau einer repräsentativen Datenbasis für öffentlich gesprochenes Deutsch im Mittelpunkt stehen.

Das zweite Ziel des BAS besteht in der langfristigen Entwicklung einer (mehr oder weniger) vollständigen Theorie der Phonetik des Deutschen. Die zentrale Kategorie wird nicht mehr der Sprachlaut sein, sondern das Wort als lexikalisch gegebene Einheit. Die gegenüber der isolierten Aussprache sehr große lautliche Variabilität, mit der die Wörter bei zusammenhängender Rede gesprochen werden, soll systematisch erfaßt und in ihrem kommunikativen Informationsgehalt umfassend dokumentiert werden.

Kooperationen

Das Leibniz Rechenzentrum München (LRZ) unterstützt das Archiv im Rahmen des TERA BACK Projekts durch Bereitstellung von großen Massenspeichern und der entsprechenden Netzwerkunterstützung. Angestrebt wird eine Kooperation mit allen Institutionen im deutschsprachigen Raum, die zum Erreichen der gemeinsamen Zielsetzung beitragen können.

Das BAS produziert neue Sprach-Ressourcen entweder mit Hilfe öffentlicher Mittel oder in Zusammenarbeit mit Industriepartnern. Im Falle öffentlicher Förderung werden die Ressourcen sofort für jedermann verfügbar. Industriepartner, die maßgeblich an der Finanzierung einer Ressource beteiligt waren, erhalten eine Frist von einem Jahr nach Fertigstellung der Daten (Release Date) zur ausschließlichen Nutzung der Daten. Ab diesem Zeitpunkt werden die Daten entweder frei oder unter Lizenz über das BAS verfügbar gemacht.

Personal

Christoph Draxler studierte an der TU München Informatik und promovierte 1991 an der Universität Zürich im Gebiet Datenbanken. Seit 1991 ist er am Institut für Phonetik und Sprachliche Kommunikation (IPSK) in den Projekten PhonDat und VERBMOBIL tätig. Seine Hauptinteressen sind die Logische Programmierung, Datenbanken und Multimedia-Anwendungen.

Phil Hoole

Florian Schiel studierte an der Technischen Universität München, schloß 1990 mit Dipl.-Ing. ab und erlangte 1993 den Dr.-Ing. in Elektrotechnik. Seit 1993 arbeitet er als wiss. Mitarbeiter am IPSK der Universität München, vornehmlich im Projekt VERBMOBIL. Seine Hauptinteressen sind Sprecheradaption, deutsche Phonetik, Computational Phonology und die automatische Analyse von sehr großen Sprachdaten-Korpora.


Copyright © 1996 Bayerisches Archiv für Sprachsignale, Universität Müchen
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'BAS' oder 'Bas' im Filenamen dürfen kopiert, gedruckt und an Dritte weitergegeben werden, unter der Bedingung, daß jede Seite vollständig bleibt. Weitergabe von Auszügen nur mit Erlaubnis des Urhebers.


Florian Schiel