Navigationspfad
 
Inhaltsbereich

Über das BAS

Kontakt

Bayerisches Archiv für Sprachsignale
c/o Institut für Phonetik, Universität München
Schellingstr. 3 / II
80799 München
Telefon: +49 (0) 89 / 2180 - 2758
Fax: +49 (0) 89 / 2180 - 5790

Fakten

Geschichte

Das Bayerische Archiv für Sprachsignale (BAS) wurde im Januar 1995 als öffentliche Einrichtung an der Ludwig-Maximilians-Universität München gegründet. Das BAS befindet sich derzeit am Institut für Phonetik und Sprachverarbeitung (IPS). Zentrale Aufgabe des BAS ist es, digitale Sprachressourcen basierend auf gesprochenem Deutsch in strukturierter Form sowohl der Forschungsgemeinschaft als auch der Sprachtechnologie verfügbar zu machen.

Aufgabenstellung

Das in den letzten Dekaden sprunghaft angestiegene Interesse an großen Sprachsignaldatensammlungen, sowohl bei den Wissenschaftlern im Bereich der Grundlagenforschung als auch bei den Ingenieuren der Industrie im Bereich der neuen integrierten Sprach- und Informationstechnologien, hat viele Gründe. An erster Stelle jedoch muß der so plötzlich gegebene Bedarf auf die rasante Entwicklung der neuen Software- und Hardwaretechnologien im Bereich der Sprachsignalverarbeitung zurückgeführt werden. Denn je mehr Verfahren für die phonetisch-akustische Sprachverarbeitung verfügbar werden und je umfangreicher die auf effektive Weise zu bewältigenden Mengen von Sprachsignaldaten werden, desto größer wird der Bedarf nicht nur an linguistisch interessantem Textmaterial, das ja bei der modernen Druckindustrie automatisch anfällt, sondern eben auch an empirisch zuverlässig erhobenem und dann phonetisch evaluiertem Material von lautsprachlichen Außerungen. Dank mehrerer nationaler bzw. internationaler Initiativen (wie BDSON, PHONDAT, LDC, SPEX, COCOSDA, METANET, CLARIN) wurden zwar erste große Sprachkorpora erzeugt und distribuiert, fast alle jedoch in verschiedenen, an unterschiedlichen Zielsetzungen angepaßten Formaten. Für das Deutsche fehlte es hier an einer zentralen Institution, die diese Aufgabe über einen längeren Zeitraum hinweg wahrnimmt.

Das BAS hat diese Aufgabe für gesprochenes Deutsch in Deutschland seit 1995 übernommen. Das BAS sammelt, standardisiert, pflegt und distribuiert digital Sprachressourcen für gesprochenes Deutsch.

Am BAS werden außerdem eigene Verfahren zur automatischen Aufnahme, Verarbeitung, Ettikettierung und Segmentierung entwickelt, die entweder als public domain Software oder als Webservices zur Verfügung gestellt werden.

Dem BAS wurde vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) der Auftrag zugesprochen, im Rahmen von BMBF-Projekten bereits verfügbare sowie neu entstehende Datenbasen zu pflegen und (nach gewissen Sperrfristen) innerhalb der EU sowie an das Linguistic Data Consortium (LDC) in den USA zu exportieren; importierte Datenbasen sollen im BAS auf eine standardisierte Form gebracht und somit für alle vom BMBF geförderten Sprachprojekte mit einem Minimum des sonst üblichen Aufwandes einsetzbar gemacht werden.

Zielsetzungen

Das erste Ziel von BAS wird es sein, den kurzfristigen Bedarf nach unter kontrollierten Bedingungen aufgenommenen Sprachdaten für die Entwicklung von Sprachtechnologien in deutscher Sprache zubefriedigen. Dazu zählt unter anderem die Entwicklung von neuen Techniken für die Verwaltung und den leichten Zugang zu sehr großen Mengen an phonetischen Daten, unabhängig von Ort und Art der Speicherung. Neben den typischen aufgabenorientierten Datensammlungen wie z.B. Polyphone wird bei dieser ersten Zielsetzung der Aufbau einer repräsentativen Datenbasis für öffentlich gesprochenes Deutsch im Mittelpunkt stehen.

Das zweite Ziel des BAS besteht in der langfristigen Entwicklung einer (mehr oder weniger) vollständigen Theorie der Phonetik des Deutschen. Die zentrale Kategorie wird nicht mehr der Sprachlaut sein, sondern das Wort als lexikalisch gegebene Einheit. Die gegenüber der isolierten Aussprache sehr große lautliche Variabilität, mit der die Wörter bei zusammenhängender Rede gesprochen werden, soll systematisch erfaßt und in ihrem kommunikativen Informationsgehalt umfassend dokumentiert werden.

Kooperationen

Das Leibniz-Rechenzentrum München (LRZ) unterstützt das Archiv im Rahmen des TERA BACK Projekts durch Bereitstellung von großen Massenspeichern und der entsprechenden Netzwerkunterstützung.

Das BAS kooperiert mit allen Zentren des europaweiten CLARIN-Verbundes und ist ist seit dem 20. Juni 2013 ein zertifiziertes CLARIN Center vom Typ B.

Angestrebt wird außerdem eine Kooperation mit allen Institutionen im deutschsprachigen Raum, die zum Erreichen der gemeinsamen Zielsetzung beitragen können.

Das BAS produziert neue Sprach-Ressourcen entweder mit Hilfe öffentlicher Mittel oder in Zusammenarbeit mit Industriepartnern. Im Falle öffentlicher Förderung werden die Ressourcen sofort für jedermann verfügbar. Industriepartner, die maßgeblich an der Finanzierung einer Ressource beteiligt waren, erhalten eine Frist von einem Jahr nach Fertigstellung der Daten (Release Date) zur ausschließlichen Nutzung der Daten. Ab diesem Zeitpunkt werden die Daten entweder frei oder unter Lizenz über das BAS verfügbar gemacht.

Personal

Christoph Draxler studierte an der TU München Informatik und promovierte 1991 an der Universität Zürich im Gebiet Datenbanken. Seit 1991 ist er am Institut für Phonetik und Sprachliche Kommunikation (IPSK) in den Projekten PhonDat und VERBMOBIL tätig. Seine Hauptinteressen sind die Logische Programmierung, Datenbanken und Multimedia-Anwendungen.

Florian Schiel studierte an der Technischen Universität München, schloß 1990 mit Dipl.-Ing. ab und erlangte 1993 den Dr.-Ing. in Elektrotechnik. Seit 1993 arbeitet er als wiss. Mitarbeiter am IPSK der Universität München, vornehmlich in großen BMBF Projekten. Seine Hauptinteressen sind Sprechermerkmale, deutsche Phonetik, Computational Phonetics und die automatische Analyse von sehr großen Sprach-Korpora.