BAS - Allgemeine Informationen
Same page in english
- Zeitraum: Gründung: 01.01.95
- Finanzierung: aus Mitteln des Freistaates Bayern, der Ludwig
Maximilians Universität München und Kooperationen
- Mitarbeiter:
- Adresse:
Bayerisches Archiv für Sprachsignale
c/o Institut für Phonetik, Universität München
Schellingstr. 3 / II
80799 München
Tel.: 089-2180-2758
Fax: 089-2800362
Email:
Das Bayerische Archiv für Sprachsignale (BAS) ist eine - auch der
Öffentlichkeit zugängliche - Einrichtung an der
Ludwig-Maximilians-Universität München. Die neue Einrichtung
dient der
Aufgabe, das heute gesprochene Deutsch durch eine möglichst umfassende
digitale Sprachsignaldatenbasis für Forschung und Sprachindustrie
verfügbar
zu machen, und zwar in einer für gezielte Zugriffe spezifisch
aufbereiteten und phonetisch-akustisch wie auch phonetisch-linguistisch
evaluierten Form.
Aufgabenstellung
Das in den letzten Jahren ganz sprunghaft angestiegene Interesse
an großen
Sprachsignaldatensammlungen, sowohl bei den Wissenschaftlern im Bereich
der
Grundlagenforschung an der Universität als auch bei den Ingenieuren
der
Industrie im Bereich der neuen integrierten Sprach- und
Informationstechnologien, hat viele Gründe. An erster Stelle jedoch
muß der
so plötzlich gegebene Bedarf auf die rasante Entwicklung der neuen
Software- und Hardwaretechnologien im Bereich der Sprachsignalverarbeitung
zurückgeführt werden. Denn je mehr Verfahren für die phonetisch-akustische
Sprachverarbeitung verfügbar werden und je umfangreicher die auf
effektive Weise zu bewältigenden Mengen von Sprachsignaldaten werden, desto
größer
wird der Bedarf nicht nur an linguistisch interessantem Textmaterial,
das
ja bei der modernen Druckindustrie automatisch anfällt, sondern
eben auch
an empirisch zuverlässig erhobenem und dann phonetisch evaluiertem
Material
von lautsprachlichen Äußerungen. Dank mehrerer nationaler bzw.
internationaler Initiativen (wie BDSON, PHONDAT, LDC,
SPEX bzw. COCOSDA)
wurden zwar erste große Sprachkorpora erzeugt und distribuiert,
fast alle
jedoch in verschiedenen, an unterschiedlichen Zielsetzungen angepaßten
Formaten. Für das Deutsche fehlte es hier an einer zentralen
Institution,
die diese Aufgabe über einen längeren Zeitraum hinweg wahrnimmt.
Das BAS wird diese Aufgabe für gesprochenes Deutsch in Deutschland
übernehmen und distribuierbare, deutsche Sprachkorpora
sammeln, warten
und in standardisierter Form anbieten.
Das BAS wird zusätzlich eigene Verfahren zur automatischen
Ettikettierung und
Segmentierung entwickeln, auf die distribuierten Sprachkorpora
anwenden und zusammen mit den Sprachdaten als zusätzlichen Service
anbieten.
Dem BAS wurde vom Bundesministerium für Bildung,
Wissenschaft,
Forschung und Technologie (BMBF) der Auftrag zugesprochen,
im Rahmen von BMBF
Projekten bereits verfügbare
sowie neu
entstehende Datenbasen zu pflegen und (nach gewissen Sperrfristen)
innerhalb der
EU sowie an das Linguistic Data Consortium (LDC) in den USA zu
exportieren; importierte Datenbasen sollen
im
BAS auf eine standardisierte Form gebracht und somit
für alle vom
BMBF
geförderten Sprachprojekte mit einem Minimum des sonst üblichen
Aufwandes
einsetzbar gemacht werden.
Zielsetzungen
Das erste Ziel von BAS wird es sein, den kurzfristigen
Bedarf nach unter kontrollierten Bedingungen aufgenommenen
Sprachdaten für die Entwicklung von
Sprachtechnologien in deutscher Sprache zu befriedigen.
Dazu zählt unter anderem die Entwicklung von neuen Techniken für
die Verwaltung und den leichten Zugang zu sehr großen Mengen an
phonetischen Daten, unabhängig von Ort und
Art der Speicherung.
Neben den typischen aufgabenorientierten Datensammlungen wie z.B.
Polyphone wird bei dieser ersten Zielsetzung der Aufbau
einer repräsentativen Datenbasis für öffentlich gesprochenes
Deutsch im Mittelpunkt stehen.
Das zweite Ziel des BAS besteht in der langfristigen Entwicklung
einer (mehr oder weniger)
vollständigen Theorie der Phonetik des
Deutschen.
Die zentrale Kategorie wird nicht mehr der Sprachlaut sein, sondern
das Wort als lexikalisch gegebene Einheit.
Die gegenüber der isolierten Aussprache sehr große lautliche
Variabilität, mit der die Wörter bei zusammenhängender Rede
gesprochen werden, soll systematisch erfaßt und in ihrem
kommunikativen Informationsgehalt umfassend dokumentiert werden.
Kooperationen
Das Leibniz Rechenzentrum München (LRZ) unterstützt das Archiv
im Rahmen des TERA BACK Projekts
durch Bereitstellung von großen Massenspeichern und der entsprechenden
Netzwerkunterstützung.
Angestrebt wird eine Kooperation mit
allen Institutionen im deutschsprachigen Raum,
die zum Erreichen der gemeinsamen Zielsetzung
beitragen können.
Das BAS produziert neue Sprach-Ressourcen entweder mit Hilfe öffentlicher
Mittel oder in Zusammenarbeit mit Industriepartnern. Im Falle öffentlicher
Förderung werden die Ressourcen sofort für jedermann verfügbar.
Industriepartner, die maßgeblich an der Finanzierung einer Ressource
beteiligt waren, erhalten eine Frist von einem Jahr nach Fertigstellung
der Daten (Release Date) zur ausschließlichen Nutzung der Daten.
Ab diesem Zeitpunkt werden die Daten entweder frei oder unter Lizenz über
das BAS verfügbar gemacht.
Personal
Christoph Draxler studierte an der TU München Informatik und promovierte
1991 an der Universität Zürich im Gebiet Datenbanken. Seit 1991 ist er am
Institut für Phonetik und Sprachliche Kommunikation (IPSK)
in den Projekten
PhonDat und VERBMOBIL tätig. Seine Hauptinteressen sind die Logische
Programmierung, Datenbanken und Multimedia-Anwendungen.
Phil Hoole
Florian Schiel studierte an der
Technischen Universität München, schloß 1990 mit Dipl.-Ing. ab
und erlangte 1993 den Dr.-Ing. in Elektrotechnik. Seit 1993 arbeitet er
als wiss. Mitarbeiter am IPSK der Universität München,
vornehmlich im Projekt VERBMOBIL. Seine Hauptinteressen sind
Sprecheradaption, deutsche Phonetik, Computational Phonology
und die automatische Analyse von sehr großen Sprachdaten-Korpora.
Copyright © 1996 Bayerisches Archiv für Sprachsignale,
Universität Müchen
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'BAS'
oder 'Bas' im Filenamen
dürfen kopiert, gedruckt und an Dritte weitergegeben werden,
unter der Bedingung, daß jede Seite vollständig bleibt.
Weitergabe von Auszügen nur mit Erlaubnis des Urhebers.
Florian Schiel