BAS - Allgemeine Informationen
Same page in english
- Zeitraum: Gründung: 01.01.95
- Finanzierung: aus Mitteln des Freistaates Bayern, der Ludwig
Maximilians Universität München und Kooperationen
- Mitarbeiter:
- Adresse:
Bayerisches Archiv für Sprachsignale
c/o Institut für Phonetik, Universität München
Schellingstr. 3 / II
80799 München
Tel.: 089-2180-2758
Fax: 089-2180-5790
Email:
Das Bayerische Archiv für Sprachsignale (BAS) wurde im Januar 1995 als öffentliche
Einrichtung an der Ludwig Maximilians Universität München gegründet. Das BAS befindet sich
derzeit am Institut für Phonetik und Sprachverarbeitung (IPS). Zentrale Aufgabe des BAS
ist es, digitale Sprachressourcen basierend auf gesprochenem Deutsch in strukturierter
Form sowohl der Forschungsgemeinschaft als auch der Sprachtechnologie verfügbar zu machen.
Aufgabenstellung
Das in den letzten Dekaden sprunghaft angestiegene Interesse
an großen
Sprachsignaldatensammlungen, sowohl bei den Wissenschaftlern im Bereich
der
Grundlagenforschung als auch bei den Ingenieuren
der
Industrie im Bereich der neuen integrierten Sprach- und
Informationstechnologien, hat viele Gründe. An erster Stelle jedoch
muß der
so plötzlich gegebene Bedarf auf die rasante Entwicklung der neuen
Software- und Hardwaretechnologien im Bereich der Sprachsignalverarbeitung
zurückgeführt werden. Denn je mehr Verfahren für die phonetisch-akustische
Sprachverarbeitung verfügbar werden und je umfangreicher die auf
effektive Weise zu bewältigenden Mengen von Sprachsignaldaten werden, desto
größer
wird der Bedarf nicht nur an linguistisch interessantem Textmaterial,
das
ja bei der modernen Druckindustrie automatisch anfällt, sondern
eben auch
an empirisch zuverlässig erhobenem und dann phonetisch evaluiertem
Material
von lautsprachlichen Äußerungen. Dank mehrerer nationaler bzw.
internationaler Initiativen (wie BDSON, PHONDAT, LDC,
SPEX, COCOSDA, METANET, CLARIN)
wurden zwar erste große Sprachkorpora erzeugt und distribuiert,
fast alle
jedoch in verschiedenen, an unterschiedlichen Zielsetzungen angepaßten
Formaten. Für das Deutsche fehlte es hier an einer zentralen
Institution,
die diese Aufgabe über einen längeren Zeitraum hinweg wahrnimmt.
Das BAS hat diese Aufgabe für gesprochenes Deutsch in Deutschland
seit 1995 übernommen. Das BAS sammelt, standardisiert, pflegt und
distribuiert digital Sprachressourcen für gesprochenes Deutsch.
Am BAS werden außerdem eigene Verfahren zur automatischen
Aufnahme, Verarbeitung, Ettikettierung und
Segmentierung entwickelt, die entweder als public domain Software oder als
web services zur Verfügung gestellt werden.
Dem BAS wurde vom Bundesministerium für Bildung,
Wissenschaft,
Forschung und Technologie (BMBF) der Auftrag zugesprochen,
im Rahmen von BMBF
Projekten bereits verfügbare
sowie neu
entstehende Datenbasen zu pflegen und (nach gewissen Sperrfristen)
innerhalb der
EU sowie an das Linguistic Data Consortium (LDC) in den USA zu
exportieren; importierte Datenbasen sollen
im
BAS auf eine standardisierte Form gebracht und somit
für alle vom
BMBF
geförderten Sprachprojekte mit einem Minimum des sonst üblichen
Aufwandes
einsetzbar gemacht werden.
Zielsetzungen
Das erste Ziel von BAS wird es sein, den kurzfristigen
Bedarf nach unter kontrollierten Bedingungen aufgenommenen
Sprachdaten für die Entwicklung von
Sprachtechnologien in deutscher Sprache zu befriedigen.
Dazu zählt unter anderem die Entwicklung von neuen Techniken für
die Verwaltung und den leichten Zugang zu sehr großen Mengen an
phonetischen Daten, unabhängig von Ort und
Art der Speicherung.
Neben den typischen aufgabenorientierten Datensammlungen wie z.B.
Polyphone wird bei dieser ersten Zielsetzung der Aufbau
einer repräsentativen Datenbasis für öffentlich gesprochenes
Deutsch im Mittelpunkt stehen.
Das zweite Ziel des BAS besteht in der langfristigen Entwicklung
einer (mehr oder weniger)
vollständigen Theorie der Phonetik des
Deutschen.
Die zentrale Kategorie wird nicht mehr der Sprachlaut sein, sondern
das Wort als lexikalisch gegebene Einheit.
Die gegenüber der isolierten Aussprache sehr große lautliche
Variabilität, mit der die Wörter bei zusammenhängender Rede
gesprochen werden, soll systematisch erfaßt und in ihrem
kommunikativen Informationsgehalt umfassend dokumentiert werden.
Kooperationen
Das Leibniz Rechenzentrum München (LRZ) unterstützt das Archiv
im Rahmen des TERA BACK Projekts
durch Bereitstellung von großen Massenspeichern und der entsprechenden
Netzwerkunterstützung.
Das BAS kooperiert mit allen Zentren des europaweiten CLARIN-Verbundes und ist
ist seit dem 20. Juni 2013 ein
zertifiziertes CLARIN Center vom Typ B.
Angestrebt wird außerdem eine Kooperation mit
allen Institutionen im deutschsprachigen Raum,
die zum Erreichen der gemeinsamen Zielsetzung
beitragen können.
Das BAS produziert neue Sprach-Ressourcen entweder mit Hilfe öffentlicher
Mittel oder in Zusammenarbeit mit Industriepartnern. Im Falle öffentlicher
Förderung werden die Ressourcen sofort für jedermann verfügbar.
Industriepartner, die maßgeblich an der Finanzierung einer Ressource
beteiligt waren, erhalten eine Frist von einem Jahr nach Fertigstellung
der Daten (Release Date) zur ausschließlichen Nutzung der Daten.
Ab diesem Zeitpunkt werden die Daten entweder frei oder unter Lizenz über
das BAS verfügbar gemacht.
Personal
Christoph Draxler studierte an der TU München Informatik und promovierte
1991 an der Universität Zürich im Gebiet Datenbanken. Seit 1991 ist er am
Institut für Phonetik und Sprachliche Kommunikation (IPSK)
in den Projekten
PhonDat und VERBMOBIL tätig. Seine Hauptinteressen sind die Logische
Programmierung, Datenbanken und Multimedia-Anwendungen.
Florian Schiel studierte an der
Technischen Universität München, schloß 1990 mit Dipl.-Ing. ab
und erlangte 1993 den Dr.-Ing. in Elektrotechnik. Seit 1993 arbeitet er
als wiss. Mitarbeiter am IPSK der Universität München,
vornehmlich in großen BMBF Projekten. Seine Hauptinteressen sind
Sprechermerkmale, deutsche Phonetik, Computational Phonetics
und die automatische Analyse von sehr großen Sprach-Korpora.
Copyright © 1996 Bayerisches Archiv für Sprachsignale,
Universität Müchen
Diese und alle weiteren hier referenzierten Seiten mit der Initiale 'BAS'
oder 'Bas' im Filenamen
dürfen kopiert, gedruckt und an Dritte weitergegeben werden,
unter der Bedingung, daß jede Seite vollständig bleibt.
Weitergabe von Auszügen nur mit Erlaubnis des Urhebers.
Florian Schiel