Navigationspfad
 
Inhaltsbereich

Über das BAS

Kontakt

Bayerisches Archiv für Sprachsignale
c/o Institut für Phonetik, Universität München
Schellingstr. 3 / II
80799 München
Telefon: +49 (0) 89 / 2180 - 2758
Fax: +49 (0) 89 / 2180 - 5790

Fakten

Geschichte

Das Bayerische Archiv für Sprachsignale (BAS) wurde im Januar 1995 als öffentliche Einrichtung an der Ludwig-Maximilians-Universität München gegründet. Das BAS befindet sich derzeit am Institut für Phonetik und Sprachverarbeitung (IPS). Zentrale Aufgabe des BAS ist es, digitale Sprachressourcen (vorwiegend Deutsch) in strukturierter Form zu sichern, zu pflegen und sowohl der Forschungsgemeinschaft als auch der Sprachtechnologie verfügbar zu machen.

Aufgabenstellung

Das in den letzten Dekaden sprunghaft angestiegene Interesse an großen Sprachsignaldatensammlungen, sowohl bei den Wissenschaftlern im Bereich der Grundlagenforschung als auch bei den Ingenieuren der Industrie im Bereich der neuen integrierten Sprach- und Informationstechnologien, hat viele Gründe. An erster Stelle jedoch muß der so plötzlich gegebene Bedarf auf die rasante Entwicklung der neuen Software- und Hardwaretechnologien im Bereich der Sprachsignalverarbeitung zurückgeführt werden. Denn je mehr Verfahren für die phonetisch-akustische Sprachverarbeitung verfügbar werden und je umfangreicher die auf effektive Weise zu bewältigenden Mengen von Sprachsignaldaten werden, desto größer wird der Bedarf nicht nur an linguistisch interessantem Textmaterial, das ja bei der modernen Druckindustrie automatisch anfällt, sondern eben auch an empirisch zuverlässig erhobenem und dann phonetisch evaluiertem Material von lautsprachlichen Außerungen. Dank mehrerer nationaler bzw. internationaler Initiativen (wie BDSON, PHONDAT, LDC, SPEX, COCOSDA, METANET, CLARIN) wurden zwar erste große Sprachkorpora erzeugt und distribuiert, fast alle jedoch in verschiedenen, an unterschiedlichen Zielsetzungen angepaßten Formaten. Für das Deutsche fehlte es hier an einer zentralen Institution, die diese Aufgabe über einen längeren Zeitraum hinweg wahrnimmt.

Das BAS hat diese Aufgabe für gesprochenes Deutsch in Deutschland seit 1995 übernommen. Das BAS sammelt, standardisiert, pflegt und distribuiert digital Sprachressourcen für gesprochenes Deutsch. Dies können technisch motivierte, aber auch wissenschaftliche Sprachdatensammlungen sein, derer Urheber/Produzenten eine sichere, dauerhafte und aktiv betreute Archivierung ihrer Daten wünschen. Optional können Daten auch mit Nutzungsgebühren belegt werden.

Am BAS werden außerdem eigene Verfahren zur automatischen Aufnahme, Verarbeitung, Ettikettierung und Segmentierung entwickelt, die entweder als public domain Software oder als Webservices zur Verfügung gestellt werden.

Dem BAS wurde vom Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie (BMBF) der Auftrag zugesprochen, im Rahmen von BMBF-Projekten bereits verfügbare sowie neu entstehende Datenbasen zu pflegen und (nach gewissen Sperrfristen) innerhalb der EU sowie an das Linguistic Data Consortium (LDC) in den USA zu exportieren; importierte Datenbasen sollen im BAS auf eine standardisierte Form gebracht und somit für alle vom BMBF geförderten Sprachprojekte mit einem Minimum des sonst üblichen Aufwandes einsetzbar gemacht werden.

BAS Repository für deutsche Sprachressourcen

Das BAS Repository orientiert sich in all seinen Prozessen an den FAIR-Prinzipien für Forschungsdaten: Findability, Accessibility, Interoperability, Reusability:
  • Findability (i): Die im BAS Repository archivierten Sprachressourcen sind in übergeordneten Verzeichnissen auffindbar. Metadaten des BAS sind standardisiert (DC, OLAC, CMDI) und werden über eine automatisierte Schnittstelle (OAI-PMH) an Science Indices verbreitet; Dadurch werden Ihre Daten sofort sichtbar, z.B. im Virtual Language Observatory (https://vlo.clarin.eu/), im Web of Science Data Citation Index, in der Open Language Archives Community (http://www.language-archives.org/). Die Metadaten des BAS sind grundsätzlich öffentlich und dürfen daher keine personenbezogenen Daten enthalten.
  • Findability (ii): Die im BAS Repository archivierten Sprachressourcen sind an einer dauerhaften Webadresse auffindbar. Für jedes Korpus (und jede Recording-Session innerhalb der Sammlung) werden Persistent Identifiers (PID) im handle system (https://www.handle.net/) beantragt und gepflegt. PIDs erlauben eine dauerhafte Referenzierung (z.B. in wissenschaftlichen Veröffentlichungen) eines archivierten Datensatzes. Wenn eine PID verwendet wird (z.B. die URL des BAS Repositories oben), kann man sicher sein, dass diese immer auf den richtigen Datensatz zeigt, auch wenn das Archiv selber inzwischen umgezogen ist.
  • Accessibility (i): Die im BAS Repository archivierten Sprachressourcen sind vor unbefugtem Zugang geschützt. Der Sammlungsinhaber entscheidet in drei Lizenzmodellen, wer auf seine Daten in der LZA zugreifen darf: ''PUB'' ist für jedermann zugänglich, ''ACA'' nur für Akademiker, die sich über das AAI Shibboleth-System als Angehörige einer Universität ausweisen können, oder ''RES'' nur für den Sammlungsinhaber oder von ihm zugelassene Personen. Beim ''RES''-Modell ist also langfristig sichergestellt, dass nur vom Sammlungsinhaber autorisierte Personen Zugang zu den geschützten Audio- oder Videodateien und Begleitmaterialien haben; nur wenige, anonymisierte Metadaten sind immer öffentlich zugänglich.
  • Accessibility (ii): Die im BAS Repository archivierten Sprachressourcen sind dauerhaft gegen Verlust gesichert. Daten werden professionell nach den Prinzipien des Open Archival Information System (OAIS) gesichert; dazu gehören tägliche Backups an zwei Standorten (LeibnizRechenzentrum München, Rechenzentrum Jülich). Nur autorisiertes IT-Personal des BAS hat direkten Zugriff auf die Daten.
  • Accessibility (iii): Die im BAS Repository archivierten Sprachressourcen sind für den Sammlungsinhaber jederzeit wieder leicht zugänglich. Die Archivierung ist ein LiveSystem, d.h. die Daten sind für den Sammlungsinhaber (und für von ihm autorisierte Nutzer) jederzeit abrufbar. Das ist wesentlich komfortabler als eine Rückholung bei der üblichen Sicherung auf LTO-Magnetbändern in anderen Rechenzentren.
  • Interoperability: Die im BAS Repository archivierten Sprachressourcen sind stets im aktuellen Medienformat abspielbar. Daten werden regelmäßig auf ihre Integrität geprüft. Dabei wird auch geprüft, ob das Mediaformat weiterhin in aktuell verbreiteten Playern abspielbar ist; ggf. werden Daten auf neue Formate transkodiert.
  • Reusability: Die im BAS Repository archivierten Sprachdaten sind für andere Disziplinen nutzbar; über das BAS Repository werden sie insbesondere auch für sprachtechnologische Entwicklungen sichtbar.

Kooperationen

Das Leibniz-Rechenzentrum München (LRZ) unterstützt das Archiv im Rahmen des TERA BACK Projekts durch Bereitstellung von großen Massenspeichern und der entsprechenden Netzwerkunterstützung.

Das BAS kooperiert mit allen Zentren des europaweiten CLARIN-Verbundes und ist ist seit dem 20. Juni 2013 ein zertifiziertes CLARIN Center vom Typ B; das BAS folgt dem OAIS Modell und wurde entsprechend mit dem ''Core Trust Seal'' zertifiziert (https://www.coretrustseal.org/).

Das BAS produziert auch selber neue Sprach-Ressourcen entweder mit Hilfe öffentlicher Mittel oder in Zusammenarbeit mit Industriepartnern. Im Falle öffentlicher Förderung werden die Ressourcen sofort für jedermann verfügbar. Industriepartner, die maßgeblich an der Finanzierung einer Ressource beteiligt waren, erhalten eine Frist von einem Jahr nach Fertigstellung der Daten (Release Date) zur ausschließlichen Nutzung der Daten. Ab diesem Zeitpunkt werden die Daten entweder frei oder unter Lizenz über das BAS verfügbar gemacht.

Beständigkeit

Das BAS existiert in seiner Form seit 1995. Die LMU München als Host-Organisation ist daran interessiert, die Institution BAS zeitlich unlimitiert weiter zu betreiben. Aus rechtlichen Gründen gibt es eine Bestandsgarantie im Moment aber nur bis 2029. Für den unwahrscheinlichen Fall, dass das BAS an seiner jetzigen Host-Organisation nicht weiter betrieben werden kann, besteht eine gegenseitige Bestandsgarantie zwischen den europäischen CLARIN Datenzentren; d.h. die Archivbestände des BAS würden dann an ein anderes CLARIN B Centre übertragen und von dort weiter nach denselben Prinzipien vorgehalten und zur Verfügung gestellt, aber unter Umständen nicht mehr aktiv gepflegt werden.

Personal

Christoph Draxler studierte an der TU München Informatik und promovierte 1991 an der Universität Zürich im Gebiet Datenbanken. Seit 1991 ist er am Institut für Phonetik und Sprachliche Kommunikation (IPSK) in den Projekten PhonDat und VERBMOBIL tätig. Seine Hauptinteressen sind die Logische Programmierung, Datenbanken und Multimedia-Anwendungen.

Florian Schiel studierte an der Technischen Universität München, schloß 1990 mit Dipl.-Ing. ab und erlangte 1993 den Dr.-Ing. in Elektrotechnik. Seit 1993 arbeitet er als wiss. Mitarbeiter am IPSK der Universität München, vornehmlich in großen BMBF Projekten. Seine Hauptinteressen sind Sprechermerkmale, deutsche Phonetik, Computational Phonetics und die automatische Analyse von sehr großen Sprach-Korpora.