BAS
Bayerisches Archiv für Sprachsignale
Validierung
Same page in english
Letzter Update dieser Seite: 28.07.03
BAS Validierung externer Ressourcen
Wir unterscheiden zwischen den Begriffen Evaluierung und
Validierung einer Sprachressource.
Die Evaluierung bezeichnet die qualitative Beurteilung einer
Ressource im Hinblick auf eine bestimmte Aufgabe. Um zum Beispiel einen
Sprachkorpus für die Spracherkennung über das Telephon evaluieren zu
können, müssen Experimente mit einem Standard-Spracherkenner (z.B. HTK)
durchgeführt werden, um beweisen zu können, dass dieser Korpus dafür
prinzipiell geeignet ist.
Solche Evaluierungen wurden bisher am BAS nur mit eigenen Ressourcen
durchgeführt; bis dato gibt es am BAS keine echten Evaluierung externer
Daten.
Unter Validierung verstehen wir die formale und inhaltliche
Überprüfung einer Sprachressource in Hinblick auf ihre Spezifikation.
Eine Validierung umfasst i.A. den formalen Check von Fileformaten,
Vollständigkeit, Struktur, Dokumentation, Labeling, Tagging etc.
Die meisten im BAS-Katalog gelisteten Ressourcen wurden entweder extern
oder intern validiert. Derzeit werden alle an BAS archivierten Sprachkorpora
anhand der im BITS-Projekt entwickelten
Verfahren neu validiert:
Validierungsrichtlinien (engl.)
Validierungsprotokolle
Neben der hausinternen Validierung der Sprachressourcen im BAS-Katalog
führt das BAS auch Validierungen von Ressourcen fremder Institutionen durch.
Dies geschieht i.A. im Auftrag des Produzenten oder seines Auftraggebers.
Standardisierte Validierungsprotokolle existieren derzeit nur innerhalb
bestimmter Projekte (z.B. SpeechDat). Die Validierung einer externen
Ressource wird daher von Fall zu Fall mit dem Auftraggeber abgestimmt.
Im einfachsten Falle kommen die
BAS Validierungsrichtlinien zur Anwendung.
Beispiel für ein BAS Validierungsprotokoll:
Validation report for the CGN Database, release 3
Florian Schiel