Same page in english
Letzter Update dieser Seite: 2012-04-20
Folgende Korpora sind derzeit am BAS auf CD-R/DVD-R/Harddisc verfügbar:
Sprachkorpora
(falls nicht anders bezeichnet, ist die Sprache der Korpora Deutsch!)
Gesamter Katalog
Audio Files aus den verfügbaren
Korpora.
10 Sprecher - 10000 Äusserungen - diktiert - Orthographie
100 Sprecher - 10000 Äusserungen - diktiert - Orthographie
201 Sprecher - 21681 Äusserungen - gelesen - Orthographie, kan. Form,
automatische Segmentierung
16 Sprecher - 3200 Äusserungen - gelesen - Orthographie, kan. Form,
Handsegmentierung, automatische Segmentierung, prosodische Labelung
88 Sprecher - 1 Geschichte - gelesen - Orthographie, kan. Form
8 Sprecher - 8 Wiederholungen von 100 Äußerungen - Feldaufnahmen mit
Geräuschen - Annotation der Geräusche - 2 Mikrophone - Orthographie, kan. Form
70 Sprecher (67 nicht deutsch-sprachige Sprecher, 3 deutsche Sprecher) -
100 phonetisch balancierte Sätze, Nummern von 1 bis 100, 1 Geschichte, 1
Dialog, 1 Nacherzählung - Transliteration, Orthographie, kan. Form
106 Sprecher - 11100 Äußerungen - gelesen - Orthographie
22 Sprecher - Robot-Befehle - 10810 Äußerungen - gelesen -
Phonem- und Wortsegmentierungen
Regional abgedecktes Deutsch - 498 Sprecher - 32 CD-ROMs
2 professionelle Sprecher - Laryngosignal - Prosodische Ettikettierung - 4 CD-ROMs
94 Dialoge zwischen deutsch-sprachigem Taxi-Dispatcher und englisch-sprachigem
Kunden - aufgenommen über reale Telefonverbindungen - Orthographie,
kanonische Form, Übersetzung
3909 Aufnahmen mit spontaner Telefonsprache (Monologe) - SpeechDat Verschriftung
Aufnahmen gelesener und spontaner Sprache von Jugendlichen 13-20 - SpeechDat Verschriftung
15600 Aufnahmen von Kommandos an ein WebPad in British English und Französisch - 49 Sprecher - Büroumgebung - SpeechDat Verschriftung
7746 Aufnahmen, Strassennamen, PLZ, Städtenamen, Telefonnummern - 1957 Sprecher - Alle Umgebungen - SpeechDat Verschriftung
11036 Logatome mit kompletter deutscher Diphoneliste - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle Segmentierung, BAS Partitur Format
6732 diphon-asugewogene Sätze - 4 professionelle Sprecher - Studio, 2 Mikro, Laryngo - manuelle phonetische Segmentierung und prosodische Annotation, BAS Partitur Format
Sonderausgabe aller Audio-Kanäle der SmartKom Korpora - 224 Sprecher - 448
Aufnahme-Sessions - Szenario: Public, Home, Mobil
10966 Mensch-Maschine Anfragen per SmartPhone - 156 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck, Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
2315 Mensch-Maschine Anfragen auf dem fahrenden Motorrad - 36 Sprecher - natürliche Umgebung, 2 Mikrophone (Bluetooth-Helm, Kehlkopf), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, BAS Partitur Format
2218 Mensch-Maschine Anfragen in Mensch-Mensch-Maschine Situation per SmartPhone, Gesichtsvideo der anfragenden Person - 99 Sprecher - natürliche Umgebung, 2 Mikrophone (Ansteck,Bluetooth), UMTS + hochqualitativer Kanal - Transliteration nach Verbmobil, manuelle Turnsegmentierung, BAS Partitur Format
864 Aufnahmen mit je max. 138 Items (gelesen, spontan) von Jugendlichen im Alter 12-20 - 864 Sprecher - natürliche Umgebung (Schule), 2 Mikrophone (Headset, Desktop), demoskopisch verteilt über Deutschland - Transliteration nach SpeechDat, manuelle Segmentierung Beginn/Ende Äußerung, BAS Partitur Format, MAUS Segmentierung
Aufnahmen alkoholisierter und nüchterner Sprecher im Alter von 22-75 - 162 Sprecher - Aufnahme im Auto, 2 Mikrophone (headset, mouse micro) - Transliteration nach erweitertem SpeechDat standard, manuelle Segmentation Start/Ende Äßerung, BAS Partitur Format, MAUS Segmentation, Emu Datenbank
Aufnahmen zur Sprecher-Verifikation über Telefon - 150 Sprecher - 20 Aufnahme-Sessions pro Sprecher - Transliteration nach SpeechDat standard, SpeechDat Database Format
Der TED Korpus wird derzeit von der ELDA herausgegeben. Daher wird BAS diesen Korpus nur anbieten, wenn diese erste Edition vergriffen sein sollte.
Fragen und Orders bitte an
In einem zweiten Verarbeitungsschritt werden die BAS Korpora einer automatischen Annotation unterzogen. Diese beinhaltet eine automatische Segmentierung in Phoneme, Detektion von Abweichungen in der Aussprache, Wortgrenzen, etc. Diese Verfahren sind derzeit noch in der Aufbauphase. Erste Ergebnisse sind verfügbar für die Korpora VM 1-5,7,12, PD1, PD2. Alle Ergebnisse weiterer Analysen werden im einheitlichen Partitur-Format dargestellt.
Im Rahmen des BITS-Projektes (TP8) werden alle im BAS derzeit verwalteten Korpora einer gründlichen Revalidierung nach veröffentlichten Richtlinien unterzogen. Die Ergebnisse dieses strengeren BAS Long Test werden im BITS-Projekt veröffentlicht
Außerdem befinden sich auf jeder BAS CDROM Software und C-Funktionen für den Zugriff auf die Signaldateien, sowie die automatische Transformation in und aus NIST/SPHERE Format, SAM Format und einfache raw Dateien.
Copyright © 1995-2012 Bayerisches Archiv für Sprachsignale,
Universität Müchen
This page and all other pages with the initial 'BAS' or 'Bas' in the
filename may be copied, printed and distributed to other parties,
under the condition that the pages are distributed as shown here. Parts
of pages or extended pages may not be distributed further withoutpermission of the BAS.