Teil III: Organisation der Erfassung und Distribution von Daten



Zusammenfassung

Integrierte Ressourcen sollen Gestik, Mimik und die Emotion des Benutzers erfassen und deren Labelung beinhalten. Dabei sollen auch Metadaten zu den Sprechern und das genaue Szenario beschrieben werden. Es haben sowohl die Qualität von Aufnahmen über das Telefon/Handy als auch von denen aus dem Studio ihre Berechtigung. Studioaufnahmen sind besser für die Sprachsynthese geeignet und ermöglichen gleichzeitig eine synthetische Simulation von Telefonqualität.
Bei den Aussprachemodellen gehen die expliziten Ausspracheregeln (Lexika) und die statistischen Modelle Hand in Hand und sollten miteinander kombiniert werden, um die Vorteile beider Verfahren kombinieren zu können.

19. Frage: Welche Daten sollten integrierte Ressourcen bereitstellen?

 Unterschiedliche Aufnahmen, Labelung und Synchronisierungsinformation

Außer den Audiodaten mit entsprechenden standardisierten Transkriptionen (7) sollen Videodaten von Sprechern (6) vorliegen. Kameras sollen möglichst unauffällig Gestik (15), das heißt. Hand- und Kopfbewegungen (1), und Mimik (14), das heißt. Augenbewegungen und die Bewegung der Gesichtsmuskeln (1), erfassen. Das Gesicht soll dabei sowohl seitlich als auch frontal (1) von Kameras anvisiert werden. Die Kamera nimmt dabei automatisch natürliche und eventuell gezielte Handbewegungen, die Befehle ans System richten (z.B. Pointing), auf. Alle Aufnahmen sind nur dann weiter verwertbar, wenn sie auch durch eine anschließende Transkription interpretiert werden (1).

Für integrierte Ressourcen sollen aus den Audiodaten auch die Benutzeremotionen gelabelt werden (2). Als Features werden sie dem Sprachsignal oder physiologischen Signalen entnommen (1). Ziel ihrer Erfassung sind vor allem Anwendungsverbesserungen. Verärgerte Kunden zu erkennen und emotional z.B. durch Beschwichtigung abzufangen (4), ist nur eine Variante für die Anwendung. Des weiteren soll auch die Prosodie gelabelt werden (3). Für bestimmte wissenschaftliche Zwecke sind auch Zungen- und Kieferpositionen (1) aufzunehmen.

Die einzelnen Komponenten eines integrierten Systems müssen untereinander abgestimmt werden, das heißt. eine Textanalyse sollte beispielsweise mit der sie begleitenden Gestik einhergehen (1). Daher werden auch Synchronisierungsinformationen (2) zu Bewegungen und Gesprochenem gebraucht. Die Komponenten sollen miteinander kommunizieren können, wozu standardisierte Annotationen mit semantischem oder für die Interaktion zentralem Gehalt (5) wichtig sind.

 Metadaten zu Sprechern und Szenarien

Als Metadaten sollen die Angaben zum Sprecher genau erfasst werden (1). Dazu gehört der sprachliche Werdegang des Sprechers, das heißt. wo und unter welchen sprachlichen Einflüssen er aufgewachsen ist (1), Geschlecht, Alter und Beruf (2). Eine Verlinkung mit Hintergrundinformationen zu Kultur und Gesellschaft (1) kann Vorteile bringen.

Weiter muss das Szenario mit Ort (1), Zeitpunkt (1), genauer Situation (1) und Kontext der Daten (Äußerung, Satz vorher, Satz danach) (4) beschrieben werden. Unterschiedlichste Szenarien müssen erfasst werden, z.B. Transliterationen von echten spontansprachlichen Kommunikationen ohne schriftsprachliche Stimuli. Präzise Angaben zu den Aufnahmebedingungen gehören ebenso zu einem brauchbaren Korpus, das heißt. Angaben zum Studio, Telefontyp, vorhandene Hintergrundgeräusche, Kanal usw. (1).

 

20. Frage: Bzgl. der Aufnahmequalität Telefon vs. Studio: Welche Art des Inputs ist wichtiger und warum?

Beide Aufnahme-Qualitäten haben ihre Berechtigung. Je nach Anwendung eignet sich entweder Telefon- oder Studioqualität besser (3). In Bezug auf kommerzielle Zwecke sprechen sich 13 Experten besonders für Aufnahmen aus, die über das Telefon oder Handy durchgeführt werden. Diese Einschätzung wird nicht zuletzt durch die Bedürfnisse der mobilen Generation bestimmt, die kurz- und mittelfristig (1) mehr kommerzielle Anwendungsmöglichkeiten nutzen wird (4). Telefondaten haben zudem den Vorteil, dass sie realistischer, spontaner und natürlicher wirken als Studioaufnahmen (5), da die Sprecher unbeobachtet in meist gewohnter Umgebung bleiben. Spontaneität ist ein nicht zu unterschätzendes Kriterium und soll im Entscheidungsfall einer hohen Aufnahmequalität vorgezogen werden (1).    

Studioaufnahmen sind aufgrund der höheren Qualität besser für die Sprachsynthese und Grundlagenforschung geeignet (2). Aus der aufgenommenen Studioqualität lässt sich Telefonqualität synthetisieren (1). Eine künstliche technische Verschlechterung von hochwertigen Referenzdaten ist durch das Downsampling (von 16 auf 8 kHz) und Simulieren anderer Übertragungskanäle gut möglich (6). Zur Simulation von Telefonqualität ist auch eine breitbandige Aufnahme mit hochwertiger Aufnahmetechnik unter realen Umgebungsbedingungen denkbar, z.B. mit systematisch variierenden Störungen (2).

Grundsätzlich sollen Studioaufnahmen immer natürliche Gesprächssituationen und deren individuelle Gegebenheiten mit variierenden Störungen umfassen, da sonst unnatürliche Artefakte entstehen können (2). Dies gilt natürlich auch für Handyaufnahmen, z.B. im Auto bei der Navigation, mit allen damit zusammenhängenden Zusätzen wie Ablenkung von außen und Hintergrundgeräuschen (1). Die Akzeptanz von Anwendungen in ihrer Erkennerleistung wird besser, wenn ein Geräuschpegel bei der Aufnahme berücksichtigt ist (1).

 

21. Frage: Sind für die Zukunft explizite Ausspracheregeln oder statistische Aussprachemodelle wegweisend? Warum bevorzugen Sie die eine oder andere Version?

Die überwiegende Mehrheit der Experten ist der Meinung, dass beide Modelle nebeneinander zukünftig eine Rolle spielen werden (29). Ein Teil drückt dabei klar aus, dass beide Modelle zusammen als Ergänzung und Kombination am erfolgversprechendsten anzusehen sind, da Stärken wie Präzision und Robustheit miteinander kombiniert werden (7). Beide werden auch weiterhin unabhängig voneinander für unterschiedliche Anwendungen eingesetzt werden (1).

Ein weiterer Teil der Befragten hält die Vorteile statistischer Modelle jedoch für einschlägiger als die von expliziten Ausspracheregeln (6), da diese flexibler, einfacher zu pflegen und leichter zu adaptieren sind (1). Statistische Modelle können mehr Daten erfassen, sind dabei lückenloser (2) und veralten nicht wie die Lexika (1). Außerdem können solche Verfahren fehlertoleranter modelliert werden (1) und haben den Vorteil, dass sie Aussagen über die Wahrscheinlichkeiten von sprachlichen Äußerungen treffen können (1). Auch bei einer Sprache mit starkem Akzent sind statistische Ansätze aussichtsreich (1). Die Spracherkennung und mittlerweile auch die Sprachübersetzung setzen auf dieses Modell (1). Es wird meist anwendungsbezogen und produktspezifisch angewendet (1).

Lexika haben auf der anderen Seite den Vorteil, dass durch sie für viele Anwendungen am schnellsten Verbesserungen erzielt werden können (1). Statistische Modelle haben in der Vergangenheit zu einem (lokalen) Maximum geführt. Langfristig kann es dazu kommen, dass aus ihnen nicht mehr viel ‚herauszuholen’ ist, wenn nicht bahnbrechende Neuerungen kommen (1). Statistische Methoden sollten also am besten mit Lexika kombiniert werden (1). Eine gute Alternative wären auch statistische Modelle mit Morphologiekomponente und einem Ausnahmelexikon (1).