Studie über den künfigen
Bedarf an
Sprachressourcen und Sprachtechnologie
durchgeführt im Rahmen des
Projektes „BITS“ an der Ludwig-Maximilians-Universität München
Angela Baumann
Christoph Draxler
Florian Schiel
Sonja Schmidt
Alexander Steffen
bits@bas.uni-muenchen.de
Diese Studie
wurde mit Mitteln des Bundesministers für Bildung und Forschung (BMBF),
Fördernummer
01 IV B01, durchgeführt. Verantwortlich zeichnen die AutorInnen.
Die Befragung zur Studie fand im Dezember 2003 über das Internet statt.
Experten im deutschsprachigen Raum wurden gezielt angeschieben, um
anhand von 34 Fragen den künftigen Bedarf an Sprachressourcen (in den
nächsten 5 bis 15 Jahren) und technische (Folge-)Entwicklungen zu
ermitteln. 37 Experten haben auf die Fragen geantwortet, sechs davon
haben die Studie nicht zu Ende geführt. Ihre Meinung ist trotzdem in
die Wertung eingegangen. Die Zahlen in Klammern zeigen im Text an, wie
viele Experten jeweils der gleichen Meinung waren. Am Ende der Studie
steht eine Übersicht, wie viele Teilnehmer insgesamt auf die jeweilige
Frage geantwortet haben.
Die Hauptthemen sind in
fünf Kapitel untergliedert.
Teil I: Künftige
Sprachressourcen
Künftig werden besonders Sprachressourcen mit Fehlern in der
Spontansprache (30), Datenbanken mit Sprechern aller Alterskategorien
(Generationenkorpora) (23), Ressourcen mit gemischt-sprachlichen Daten
(z.B. Deutsch mit englischen Fremdwörtern) (18) und
Zweitsprachressourcen (d.h. mit Nicht-Muttersprachlern Deutsch) (18)
gebraucht werden. Für das Erfassen von Dialekten empfehlen Experten,
nur dialektal-gefärbte Hochsprache in einer lediglich repräsentativen
Menge innerhalb einer Sprachressource aufzunehmen und für die
Dialektabdeckung dynamisch zuschaltbare Ressourcen zu verwenden.
Teil II: Organisation der Zusammenarbeit zwischen
Sprachtechnologie-Institutionen
Eine erhöhte Zusammenarbeit zwischen Institutionen ist erwünscht.
Selbst wenn in Zukunft noch mehr Ressourcen in Zusammenarbeit zwischen
Institutionen geschaffen werden, wird doch die anschließend
individuelle Produktentwicklung aus Wettbewerbsgründen bestehen bleiben.
Teil III: Organisation der
Erfassung und Distribution von Ressourcen
Integrierte Ressourcen sollen Informationen zur Gestik, Mimik und
Emotion des Benutzers erfassen und die gelabelten Daten bereitstellen.
Teil IV: Technische
Sprachanwendungen der Zukunft
Die technischen Sprachanwendungen der Zukunft werden
Sprachdialogsysteme zwischen Mensch und Maschine und der Bereich
Information Management sein. Im Bereich militärischer Anwendungen
werden die Überwachung, Übersetzung, Auswertung und Vermittlung von
gesprochenem (und geschriebenem) Inhalt zur Verbesserung strategischen
Vorgehens im Konfliktfall am wichtigsten sein.
Teil V: Grundlagenforschung
Die Grundlagenforschung soll u.a. die Sicherung seltener und bedrohter
Sprachen übernehmen und nicht nur rein anwendungsorientiert handeln.
Jedoch wird die Anwendungsorientiertheit als ein zentraler Aspekt
innerhalb der Grundlagenforschung genannt, damit die
Grundlagenforschung sich nicht im rein Theoretischen verzettelt. Die
Forschung wird sich in den nächsten Jahren vor allem auf die Planung
langfristiger Korpora konzentrieren und sich weiter mit der
Sprachentwicklung des Menschen beschäftigen.
Teil I: Künftige
Sprachressourcen
Der Bedarf an Korpora mit aufgezeichneten Fehlern in der
Spontansprache wird mit 30 übereinstimmenden Meinungen deutlich als
besonders hoch eingestuft. Korpora mit Sprechern aus unterschiedlichen
Generationen werden nach Meinung von 23 Experten einen steigenden
Absatz finden und jeweils 18 Stimmen sehen in gemischt-sprachlichen
Ressourcen und Zweitsprachressourcen einen großen Bedarf. Zu den beiden
Letzteren gibt es den Einwand, dass bei regelmäßigen Updates der
Lexikoneinträge keine zusätzlichen Datenbanken mehr angelegt werden
müssten, da Veränderungen in der Sprachentwicklung dadurch automatisch
erfasst würden.
Weniger eindeutige Ergebnisse sind für die Erfassung von Emotion und
Biometrie zu verzeichnen. 21 Experten halten die Beschäftigung mit der
emotionalen Komponente von Sprache für wichtig. Jedoch sehen einige ein
Problem in der Erfassung und objektiven Weiterverarbeitung bei der
Annotation. Andere halten dieses Thema schlicht für überbewertet.
Die Biometrie wird nur bedingt als zukunftsträchtig angesehen. 17
Befragte halten den Bedarf zwar für hoch, jedoch einige nur unter der
Bedingung, dass bei sicherheitskritischen Anwendungen Robustheit und
Zugangssicherheit gewährleistet sind. Dies ist aber momentan nur in
Kombination mit anderen Modalitäten und Verfahren möglich.
Dialekte sollen im Anwendungsbereich nur auf dialektal-gefärbte
Hochsprache beschränkt aufgezeichnet werden. Innerhalb einer
Sprachressource sollte der Dialekt nur repräsentativ abgedeckt werden
und nicht im Fokus stehen. Werden separate Dialektdatenbanken angelegt,
können sie dynamisch in eine Anwendung geschaltet werden.
Beim Erheben von Kindersprachdaten sollen Kinder verschiedener
Alterstufen aufgezeichnet werden. Die Experten nehmen dabei eine
Unterteilung in bis zu 7 Stufen vor. Für den Zweck der
Spracherwerbsforschung wird empfohlen, mit ersten Untersuchungen
spätestens ab dem 9. Monat nach der Geburt zu beginnen. Für
Computer-Anwendungen ist das 5. Lebensjahr als Beginn ausreichend. Als
Anwendungsszenarien wurden auch Freizeit, Medizin, Forschung und das
Lehren und Lernen (21) von Sprache genannt. Die geforderten
Sprachinhalte sind sehr verschieden, sie werden im Detail im Text
aufgeführt.
Teil II: Organisation der
Zusammenarbeit zwischen Sprachtechnologie-Institutionen
Eine stärkere Zusammenarbeit zwischen Institutionen wird von
allen Befragten gewünscht, da die gesamte Infrastruktur der
Sprachtechnologie dadurch gestärkt und die Qualität der Ressourcen
zunehmen wird. Das Modell der gemeinsamen Ressourcen-Schaffung und
individuellen Produktentwicklung wird dabei auch in Zukunft aus
Wettbewerbsgründen der Standard bleiben.
Forschungseinrichtungen sollen gegenüber Firmen weiterhin bevorzugt
werden, indem sie von der Lizenzgebühr auf Ressourcen befreit werden,
sofern mit der Ressource Forschung betrieben wird. Wurden Ressourcen
aus öffentlicher Hand finanziert, sollen sie der Allgemeinheit dienen
und daher auch allgemein zugänglich sein. Die Förderung für die
Schaffung von Sprachdatenbanken soll sowohl aus staatlichen als auch
aus privatwirtschaftlichen Quellen kommen, wobei nur der Staat im
Gegensatz zu Firmen dazu bereit sein wird, zu Forschungszwecken auch
wirtschaftlich uninteressante Ressourcen zu unterstützen. Kosten für
die Schaffung von Ressourcen können durch den Vertrieb nur zum Teil
ausgeglichen werden.
Juristisch müssen vor einer Aufnahme der Schutz des Sprechers
garantiert und andere Sicherheitsregelungen schriftlich festgehalten
werden.
Die allgemeine Nachfrage im Bereich der mobilen Dienste, der Wunsch
nach Förderung des Zusammenwachsens Europas und die Verbesserung der
Sensor- und Computertechnik wirken sich in der Entwicklung der
Sprachtechnologie sicherlich förderlich aus, die momentane
wirtschaftliche Lage Deutschlands und unausgereifte Systeme auf dem
Markt hemmen dagegen die Nachfrage.
Teil III: Organisation der
Erfassung und Distribution von Sprachressourcen
Integrierte Ressourcen sollen Gestik, Mimik und die Emotion des
Benutzers erfassen und deren Labelung beinhalten. Außerdem sollen immer
genaue Metadaten zu den Sprechern vorhanden sein und das Szenario im
Detail beschrieben werden.
Sowohl die Qualität von Aufnahmen über das Telefon/Handy als auch
Studio-Aufnahmen haben ihre eigene Berechtigung. Studioaufnahmen sind
besser für die Sprachsynthese geeignet und ermöglichen gleichzeitig
eine synthetische Simulation der Telefonqualität.
Bei den Aussprachemodellen gehen die expliziten Ausspracheregeln
(Lexika) und die statistischen Modelle Hand in Hand und sollten
miteinander kombiniert werden, um die Vorteile beider Verfahren am
besten nutzen zu können.
Teil IV: Technische
Sprachanwendungen der Zukunft
Sprachdialogsysteme zwischen Mensch und Maschine und Innovationen im
Bereich des Information Management werden vor allen anderen Bereichen
wohl die technischen Sprachanwendungen der Zukunft sein.
Im Bereich der medizinischen Anwendungen im speziellen stehen Therapie-
und Trainings-Anwendungen und die unterstützende künstliche Stimme zum
Selbstausdruck bei Sprech- und Sprachbehinderungen an erster Stelle.
Die Biometrie wird zukünftig weiterhin auf die Personalisierung
beschränkt bleiben und nicht für die Fahrerzustandserkennung eingesetzt
werden.
Sprachtechnologie im militärischen Bereich wird hauptsächlich für die
Überwachung, Übersetzung, Auswertung und Übermittlung gesprochenen
(Nachrichten), aber auch geschriebenen Inhalts eingesetzt werden, um
das strategische Vorgehen im Konfliktfall zu verbessern.
In Zukunft werden sowohl Neugenerierungen als auch Modifikationen von
bestehenden Produkten vorgenommen werden. Eine Entscheidung für das
eine oder andere hängt individuell von schon bestehenden Produkten und
den genauen Bedürfnissen der Anwender ab. Ob Produkte wie z.B.
Dialogsysteme neu generiert oder modifiziert werden, wird von der
Akzeptanz des Kunden abhängen.
Teil V:
Grundlagenforschung
Die Schaffung von neuen Korpora soll auch die Sicherung von seltenen
und bedrohten Sprachen umfassen und nicht nur von einer rein
anwendungsorientierten Sichtweise ausgehen. Laut Umfrage ist die
'Anwendungsorientiertheit' aber ein wichtiger Bereich, auf den sich die
GF stützen sollte. Seltene Sprachen können durchaus auch einen
'Marktwert' haben.
Schützenswert sind im außereuropäischen Raum vor allem die kleinen
Sprachgruppen der früheren UdSSR, afrikanische und indianische bzw.
südamerikanische Sprachen; im europäischen Raum deutsche Dialekte und
Zigeunersprachen (nach Häufigkeit ihrer Nennung).
Korpora werden demnächst bestimmte Charakteristika haben:
Natürlichkeit, Multimodalität, Multilingualität und Portabilität. Vor
allem werden auch einfach verfügbare Datenströme wie TV und Radio für
Korpora verwendet werden.
Für die Erstellung von Korpora sollen übergeordnete Stellen
eingerichtet und gemeinschaftliche, institutions-übergreifende Anträge
üblich werden. Die Forschungsplanung wird vor allem an der Erstellung
langfristiger Korpora ausgerichtet sein und die Vereinheitlichung von
Standards voranbringen.
Die Erforschung der Sprachentwicklung des Menschen wird ein wichtiges
Feld bleiben.
Verantwortliches Organ für das Betreiben von GF soll auf nationaler
Ebene der Staat sein (in Form von BMBF und DFG), auf internationaler
Ebene die EU in Form spezieller Initiativen. Staatliche Institutionen
sollten dabei besonders die Evaluationen kontrollieren und für die
finanziellen Mittel sorgen, Universitäten und andere
Forschungseinichtungen hingegen sollen für die Ausführung zuständig
sein. Die Industrie wird langfristig als Geldgeber unabdingbar sein,
was gleichzeitig ihr Mitspracherecht bedeuten wird.
Inhaltsverzeichnis
Teil I: Künftige
Sprachressourcen
Teil II: Organisation der Zusammenarbeit von Institutionen
11. Frage: Soll eine engere Zusammenarbeit zwischen Sprachtechnologie-Institutionen stattfinden? Warum und wie genau? 12. Frage: Bisweilen gibt es eine Kooperation bei der Schaffung von Ressourcen, in der Folge betreiben die Partner eineTeil III: Organisation
der Erfassung und Distrubution von Daten
Teil IV: Technische
Sprachanwendungen der Zukunft
Teil V:
Grundlagenforschung (GF)
Bei
dieser Fragestellung wird
bereits davon ausgegangen, dass Dialekte bei der Erstellung einer
Sprachressourcen-Datenbank berücksichtigt werden sollen. In
welcher Form und in
welchem Umfang, sollten die Experten beantworten.
Hier können drei
Nutzungsmöglichkeiten unterschieden werden: die Nutzung von
Dialekten für
anwendungsbezogene Sprachdatenbanken (5), der reine Erhalt und die
Dokumentation von evtl. aussterbenden Dialekten (6) und die
Grundlagenforschung
(3). Mit 'Dialekt' können sowohl dialektale Akzente in der
Hochsprache als auch
regionale Varianten gemeint sein. Für den Anwendungsbereich wird
eine
Beschränkung auf dialektal gefärbte Hochsprache empfohlen (3)
und innerhalb
einer Sprachressource sollte der Dialekt nur repräsentativ erfasst
werden (4),
es sei denn, es werden separate Dialektdatenbanken angelegt, die dann
dynamisch
in eine Anwendung geschaltet werden können (1).
Ausmaß der dialektalen Ausprägung für
technische Anwendungen
Die Erfassung von Dialekten für technische Sprachanwendungen erfordert andere Ressourcen als eine reine Dokumentation zu Spracherhaltszwecken:
Für technische Anwendungen ist eine Beschränkung auf 'dialektal gefärbte' Hochsprache ausreichend (2). Es sollten dabei jedoch alle größeren Regionalakzente abgedeckt werden (1). Die 'Bedienung' echter starker Dialekte ist nur von geringem wirtschaftlichen Interesse (1) und für Anwendungsdatenbanken daher uninteressant. Für die Aufnahmen sollten Sprecher mehrerer Dialektgebiete mit regionaler Färbung zur Verfügung stehen, die nicht nur z.B. 'Österreichisch' und 'Schweizer Deutsch' sprechen, da die genannten Kategorien dialektologisch nicht besonders valide sind (1), denn Nationalstaaten und Bundesländereinteilungen haben mit sprachlichen und phonetischen Varianten nicht allzu oft etwas gemein.
Um Datenbanken zu erstellen, die sowohl für Anwendungen als auch für die Wissenschaft dienlich sind, macht ein Experte den Vorschlag, unterschiedliche Sprechaufgaben bei der Erhebung zu kombinieren (1). Denn die Technologie geht von trennbaren Klassen von Sprechergruppen aus, in der sprachlichen Realität gibt es jedoch eine gleitende Dialektausprägung, d.h. Variationen innerhalb angenommener Dialektgebiete und im Sprachverhalten einzelner Sprecher eines Gebietes. Hinzu kommt, dass einzelne Sprecher die Ausprägung ihres Dialektes je nach Anwendungsszenario variieren werden. Die allgemeine Bahnauskunft wird dann beispielsweise von einem Sprecher möglichst auf hochdeutsch angesprochen werden, die sprachgesteuerte Webseite der lokalen Bäckerei dagegen eher im Dialekt [Kommentar der Redaktion]. Dialekte haben viele Probleme mit seltenen Sprachen gemeinsam, da sie keine feste Sprachnorm haben und regionale Unterschiede innerhalb des gleichen Dialekts aufzufinden sind (1).
Anteil von
Dialekten innerhalb einer
Sprachressource für technische Anwendungen
Dialekte sollen repräsentativ vorhanden sein, aber nicht im Fokus einer Sprachressource stehen (4), d.h. es besteht ein gewisses Interesse an der Verfügbarkeit von Dialekten, und ein Einfließen von lokalen Dialekten wird als wünschenswert betrachtet (1). Die Dialekterfassung trägt zu einer wesentlich höheren Akzeptanz aufgrund der besseren Sprachabbildung von sprachlichen Nuancen bei, was im Hinblick auf wirtschaftlich erfolgreiche Anwendungsfelder sehr wichtig ist (1). Für die Sprachsynthese sind Dialekte nur bedingt interessant (1).
Anderer Ansatz:
Separat angelegte
Dialektdatenbanken für technische Anwendungen
Dialektdatenbanken sollten so angelegt werden, dass sie dynamisch in die Anwendung geschaltet werden können, am besten durch eine automatische Erkennung des Dialekts durch die Automatic Speech Recognition (ASR) (1). Wenn sich z.B. Produkte mit Sprach-Input/Output weiter verbreiten, kann der Erkenner Dialekte identifizieren (1).
Dialekte in
Sprachressourcen zum Zweck
der Dokumentation und Grundlagenforschung
Ressourcen zum Zweck des Erhalts von Dialekten und der Grundlagenforschung sollen in eigenen Dialektdatenbanken verwaltet werden, analog zu neuen Sprachen (2). Auch sollten idealerweise regionale Dialektgemeinschaften mit unterschiedlichen Graden an dialektaler Färbung erfasst werden (1), jeweils nach Häufigkeit des Auftretens (1). Für jeden einzelnen Dialekt sollten Aufnahmen vorhanden sein (1).
Beispiele
für die Grundlagenforschung
Dialekte sollen erfasst werden, um z.B. evolutionäre Aspekte des Sprachwandels/-einflusses (1) und Diglossie-Situationen untersuchen zu können (1). Für die Beschreibung einer Sprache sind Dialekte wichtig (besonders für die historische Beschreibung). Die Annotation und Auswertung von Daten wird neue Erkenntnisse für die theoretische Linguistik bringen (1).
Hinweise zum
Anlegen für Datenbanken
Der Dialekt des Sprechers sollte immer genau gekennzeichnet werden (1). Diese Einschätzung kann nur zum Teil durch den Sprecher selbst erfolgen, in der Regel muss dies ein Experte beurteilen [Kommentar der Redaktion]. Umfangreiche Korpora mit mehreren Sprechern sollten bezüglich Alters und Geschlecht sowie Dialekts die reale Situation in einem Sprachraum abbilden (1).
Die
Experten stimmen größtenteils darin überein, dass der
Bedarf an gemischt-sprachlichen Ressourcen sehr hoch ist (18).
Lediglich drei
Experten halten derartige Datenbanken für unnötig, wenn z.B.
Lexika regelmäßig
auf den neuesten Stand gebracht würden.
Gerade der Bedarf an 'authentischen' Daten wird im Allgemeinen zunehmen (3). Dies bezieht sich nicht nur auf das Teilgebiet gemischt-sprachlicher Ressourcen. Als Sprache wird das definiert, was im Alltag, aber auch in Fachsprachen tatsächlich gesprochen wird; dazu gehören im Deutschen auch 'Fremdwörter' wie z.B. Beamer, Trottoir usw. (1). Deshalb müssen in realitätsnahen Anwendungen (4) auch solche Wörter berücksichtigt werden. Besonders für die Kombination Deutsch-Englisch ('Denglisch') besteht schon heute großer Bedarf (in Amerika wird die Kombination von US-Englisch und US-Spanisch in zunehmendem Maße wichtiger) (2). 'Englisch' wird mittlerweile nicht nur im thematischen Kontext von Computern und Technologie, sondern auch verstärkt in Fernsehen und Zeitung verwendet (1). In allen textbasierten Anwendungen oder der mündlichen und E-Mail-Kommunikation (1) entsprechen Sprachkombinationen der real vorzufindenden Situation (1). Überall dort, wo große Minderheitsgruppen in einem Land wohnen, die die Landessprache nicht akzentfrei beherrschen, z.B. türkische Mitbürger in Deutschland oder spanische Mitbürger in den USA, müssen Sprachressourcen 'fehlertolerant' realisiert werden, dabei geht es um mehr als nur z.B. englische Namen, die in der jeweiligen anderen Sprache erkannt werden müssen (1). Bei der gegenwärtigen Domänenabhängigkeit effizienter Technologien sind entsprechende Trainingsdatenbanken erforderlich (1). Ein weiterer Bereich, in dem derartige Ressourcen wichtig sind, ist die Sprachsynthese. Eine gute Synthese ist ohne englische und französische Laute nicht zu denken (z.B. Kinoansage) (1).
In der Forschung
können
gemischt-sprachliche Datenbanken einen Beitrag zur Modellierung des
Spracherwerbs leisten (1) und der Einfluss einer Sprache auf die andere
analysiert werden (2).
Gründe für die
nur bedingte Wichtigkeit
gemischt-sprachlicher Datenbanken
Ein Experte der
Befragung hält
diese Datenbanken nur für interessant, wenn in standardisierten
Metadateien
auch die genaue Sprachstellung der Sprecher erhoben wird (1). Wenn
Lexika gemäß
der realen Sprachentwicklung regelmäßig 'upgedatet'
würden, findet ein weiterer
Teilnehmer extra angelegte Datenbanken für gemischte Sprache nicht
mehr nötig
(1), da sich die Veränderung der
Sprache dann immer im Vokabular, im Satzbau, in den Verschleifungen
usw.
niederschlage. Ein anderer Experte wendet ein, dass zwar die
Fremdwortbenutzung
zunimmt, aber die Aussprachevariabilität dabei nicht
größer wird (1).
Da sich der Wortschatz 'Denglisch' ständig ändert, müssten auch Ressourcen ständig verändert und angepasst werden (2). Außerdem muss klar nach Sprachdomäne spezifiziert werden, worum es sich handelt (z.B. 'Denglisch' oder 'Franglais') (1).
Die meisten Befragten schätzen den künftigen Bedarf an Zweitsprachressourcen als wachsend und groß ein (18), andere als eher gering (8). Besonders für die Forschung werden solche Ressourcen als wertvoll erachtet (6).
Auffallend ist, dass
einige
Experten das Thema 'Zweitsprach-Ressourcen' dem Bereich 'Dialekte'
zuordnen
(5). Kategorial ist ihrer Meinung nach eine Sprachaufnahme eines
Ausländers,
der Deutsch mit Akzent spricht, nicht anders zu bewerten als die
Hochsprache
mit dialektaler Färbung, weswegen Lexika-Einträge oder das
Erfassen innerhalb
einer Dialekt-Ressource genügen.
Gründe für
einen wachsenden Bedarf
Da die potenzielle
Nutzergruppe
für sprachtechnologisch gestützte Anwendungen z.B. in
Deutschland wegen der
vielen Deutschtürken sehr groß ist, müssen die
Anwendungen auch auf ein solches
'Sprachmodell' hin trainiert werden (3), d.h. Sprachressourcen
müssen
fehlertolerant realisiert werden (1), vor allem im Hinblick auf die
Chancengleichheit und die gleichberechtigte Teilhabe am
öffentlichen Leben,
welches zunehmend durch Sprachtechnologie geprägt sein wird (1).
Nützlich für
konkrete Anwendungen und
Forschungszwecke
Im Bereich der
Telefonie
(1), des E-Learnings und für
Korrekturprogramme können die Datenbanken gut verwendet werden
(2). Sie
unterstützen auch die Forschung im Bereich Zweitsprachenerwerb und
machen
Unterrichtsverbesserungen möglich (z.B. Übersetzungskorpora)
(1).
Schwierigkeiten im Zweitspracherwerb können durch kontrastive
Studien und
allgemeine Sprachlernstudien aufgezeigt (4) und durch verbesserte
Lehrmethoden
reduziert werden (1).
Zweitsprachressourcen
sind ,Dialekte'
und müssen nicht gesondert erfasst werden
Erkennungssysteme für Ausländer sind möglicherweise überflüssig, wenn sie für Ausländergruppen gedacht ist, die das Deutsche ausreichend beherrschen und nur mit Akzent sprechen (2). Denn hinsichtlich der Abweichungen von der Standardlautung sind beispielsweise türkische Deutsch-als-Zweitsprache-Sprechende kategorial nicht anders zu sehen als z.B. eine sächsische Bahnangestellte, der Kohlenpottkumpel oder der oberbayrische Bauer (1); mit den Merkmalen eines typischen Dialekts eben (2). Außerdem kann man langfristig davon ausgehen, dass sich spätestens ab der dritten Immigranten-Generation der Akzent verwaschen hat (1) und somit das Anlegen einer solchen Ressource zu viel Aufwand bedeutet für einen Zweck, der nicht langfristig bestehen wird. Derartige Variationen gehören nach Ansicht einer anderen befragten Person zum Wesen der Sprache an sich, weshalb regelmäßige Einträge in Lexika genügen sollten (1). Falls sich Institute doch dazu entschließen sollten, eine Ressource mit Zweitsprachlern anzulegen, die nicht nur aus der Türkei, sondern auch aus anderen Sprachgemeinschaften nach Deutschland kommen, wird es schwierig werden, genügend Sprecher für diese Sprachressource zu finden (1). Ein Experte hält das Anbieten von Informationen in den meist relevanten Zweitsprachen für wesentlich kostengünstiger. Wenn Erkennungssysteme für Dialog-/Informationssysteme auch Modelle für unterschiedliche Nicht-Muttersprachler kennen, können solche Systeme dann sinnvoll verwenden (1).
Fast alle befragten Studien-Teilnehmer (30) halten das Erfassen von Fehlern in der Spontansprache (z.B. unvollständiger Satzbau, Korrekturen) für besonders wichtig, nicht nur für medizinische Zwecke (2). Lediglich ein Teilnehmer geht von einer geringen Wichtigkeitsstufe aus, ein anderer hält ein solches Korpus zumindest in einem kurz- und mittelfristigen Zeitraum unter drei Jahren kommerziell für uninteressant. Wird die Einschätzung von den Experten weiter begründet, so meist mit den Argumenten, dass Fehler in der Spontansprache die sprachliche Realität am besten abbilden (5) und die Erfassung eines solchen Korpus besonders auch für wissenschaftlich-weiterführende Forschungen (7) interessant sei. Einige Wissenschaftler verweisen bei der Frage sofort auf konkrete Anwendungen (7) oder anwendungsbezogene Techniken (5), die eine Erfassung fehlerhafter Spontansprache notwendig machen.
Fehler in Spontansprache
als
Forschungsgrundlage
Im Bereich
wissenschaftlicher
Forschung kann durch die Aufzeichnung spontaner Sprache 'Sprache'
umfassender
beschrieben werden (1), Sprachproduktionsfehler (1) und Fehlerquellen
bei der
menschlichen Sprachproduktion können genauer untersucht und
Grammatikalitätsgrade (1) beurteilt werden. Gerade Techniken wie
das
Self-Repair und Self-Monitoring (1) können dadurch genauer
untersucht werden.
Allgemein gesagt sind solche Daten sowohl aus
kognitionswissenschaftlicher (1)
als auch auf linguistischer Ebene (2) wertvoll.
Bei jeder Anwendung, wo es zu ungrammatischen Sätzen kommen kann, ist auch ein Korpus mit solchen Phänomenen interessant (1). Im Allgemeinen wird die Spracherkennerleistung besser, wenn die Korpora Fehler beinhalten, die Menschen bei der Anwendung passieren werden (1). Solche Anwendungen können eine einfache Datenerfassung durch sprachliche Eingabe oder eine Datenbankabfrage am Computer sein (1) oder ein Grammar-Checking-System (1) oder fehlertolerante Suchanfragen (1), aber auch Dolmetschsysteme (1) oder automatisierte Systeme, die z.B. für das Erstellen von Rechnungen zuständig sind (1). Solche Systeme könnten auch auf der Basis von Dokumenten arbeiten, die z.B. von den behandelnden Ärzten nicht in bester Form und Orthographie verfasst wurden (1). Für die Entwicklung realistischer Sprachdialog-Anwendungen im Allgemeinen sind derartige Daten unerlässlich (1).
Durch die Erfassung fehlerhafter Sprache kann die Beziehung von Prosodie und vorkommenden Reduktionen (1) und die Fehlertoleranz in sprachtechnologischen Anwendungen (2) modelliert werden. Auf Basis statistischer Analyse können Entscheidungskriterien für Sprachanwendungen abgeleitet werden (z.B. zur Steigerung der Robustheit von Systemen und zur Untersuchung von kognitiven Modellen der Sprachperformanz) (1).
Dies würde bedeuten, dass
spezielle Korpora für die unterschiedlichen Lebensalter (z.B.
Heranwachsende,
Senioren) erstellt würden.
Die meisten Befragten
halten
Korpora, die jeweils eine unterschiedliche Altersgruppe beinhalten,
für wichtig
(23), wobei jedoch der Bedarf für das jeweilige 'Lebensalter' (2)
geklärt
werden sollte. Fünf Befragte gehen dabei von einem besonders hohen
Wert für die
Grundlagenforschung aus (5). Andere Befragte halten extra angelegte
Korpora für
nicht notwendig (5), da eine entsprechende Auszeichnung einzelner Daten
eines
Korpus ausreichen würde (1) und ältere Sprecher bei der
Erstellung von
Datenbanken generell zu berücksichtigen wären (1).
Sprachtechnologie
soll verschiedene
Altersgruppen möglichst natürlich bedienen können (2).
Sprachen entwickeln sich
in Generationen-Abständen weiter (1), d.h. das Sprachverhalten und
das
Vokabular verändert sich über die Generationen hinweg
deutlich (1). Daher
werden normalerweise besonders Senioren und Kinder bei einer auf
Erwachsene im
mittleren Alter angelegten Spracherkennung schlechter erkannt (1).
Durch die
Erfassung von Senioren- und Kindersprache würden zum Einen
sprecherspezifische
Eigenschaften besser modellierbar (1) und zum Anderen könnten
Spracherkenner
auf eine bessere Erkennerleistung hin trainiert werden (2). Die
Anpassung bzw.
Diversifikation wird bei dialogorientierten Mensch-Maschine-Systemen zu
besseren Resultaten führen (1). Ein weiterer Aspekt ist die
Überalterung der
Menschen in Deutschland. Die Zahl der Senioren wird in Zukunft steigen,
weshalb
speziell Senioren eine immer wichtigere Zielgruppe für
Sprachapplikationen
darstellen (1). Für die Grundlagenforschung ist die Erforschung
des Sprechstils
(1), die Analyse von Jugend-, Senioren- und Kindersprache (1) und die
Erforschung des Einflusses von Alterserscheinungen (z.B.
Schwerhörigkeit) auf
die Sprache interessant (1).
Gründe, warum
Generationenkorpora
vernachlässigbar sind
Wie oben bereits
erwähnt sind
Experten der Meinung, eine entsprechende Auszeichnung einzelner Daten
eines Korpus
würde ausreichen (1) und ältere Sprecher seien bei der
Erstellung von
Datenbanken generell zu berücksichtigen (1). Bei der Erfassung der
Veränderung
in Syntax und Lexis seien Korpora externalisierter Sprache, also
'Querschnitte'
aktueller Sprache zu bestimmten Zeitpunkten, wie etwa bei den Korpora
des
Institutes für Deutsche Sprache, sinnvoller (1).
Altersspezifische (deutsche)
Sprachressourcen sind keine viel versprechende Nische (1).
Organisatorische Tipps
für die
Erstellung von Generationenkorpora
Die Erweiterung zu Generationenkorpora sollte erst angegangen werden, wenn bereits genug Normkorpora zur Verfügung stehen (1). Korpora sollten per Metadaten so zugreifbar sein, dass man direkt z.B. auf die Daten der über 60-jährigen zugreifen kann (1). Allerdings sind bei der Erstellung von Ressourcen neben dem Lebensalter auch Faktoren wie Dialekt, Soziolekt und Bildungsniveau zu erfassen.
Für eine Sprachdatenbank mit
Kindern sollen nach Meinung von Experten mehrere Altersstufen
aufgenommen
werden (10). Wenn es zu verwirklichen ist, sollten Kinder eher nach
Entwicklungsstufen als nach genauem Alter eingeteilt werden (2).
Je nach Verwendung der Sprachdatenbank treffen Experten unterschiedliche Einstufungen. Für die Spracherwerbsforschung (5) ist das Sprechverhalten ab der Geburt eines Kindes interessant, für kommerzielle Anwendungen frühestens ab dem Kindergartenalter, sinnvoller aber ab dem Alter für leichte technische Anwendungen, etwa mit 5 Jahren (5). Für Alterseinstufungen unabhängig vom Ziel der Sprachdatenbank werden folgende Einteilungen angeraten:
Experten empfehlen
ein
systematisches 'Abtasten' von Altersstufen bis zum Erwachsenenalter
unter
Berücksichtigung des Stimmbruchs (2). Die ersten Aufzeichnungen,
zumindest für
Spracherwerbsstudien (8), sollten ab der Geburt stattfinden.
Große Schritte im
Sprachverhalten passieren im Kindergartenalter ab 3 Jahren (5). Eine
weitere Altersstufe,
die von 5 Experten erwähnt wurde, ist das Vorschulalter (Alter:
4-6 Jahre).
Dann kommt das Leselernalter ab 6 Jahren (7) und das so genannte
'Schulalter',
das etwa vom 10. bis zum 14. Lebensjahr gerechnet werden kann (5). Die
(Vor-)Pubertät ab 12 bis 14 oder 16 Jahren (6) unter
Berücksichtigung des
Stimmbruchs steht als weitere Entwicklungsstufe. Als letzte Gruppe
werden
Schulabgänger im Alter zwischen 16 bis 25 Jahren (4) erwähnt
und die
Altersklasse nach dem Schulabgang (21 bis 30 Jahre) (1).
Altersbeginn für die
Spracherwerbsforschung
Lernprozesse beim
Spracherwerb
sind noch weiter zu analysieren (1). Für phonologische
Untersuchungen der
ersten Spracherwerbsphase ist vor allem die Herausbildung des
Phoneminventars
ein wichtiges Gebiet. Solche Untersuchungen beginnen sinnvollerweise
schon ab
der Geburt, spätestens ab 8 bis 9 Monaten (2). Später, im
Alter von ein bis
drei Jahren, sind Längsschnittstudien zu machen (3). Die
Erforschung des Stimmbruchs
könnte durch solche Datenbanken auch vorangebracht werden.
Altersbeginn für
technische Anwendungen
und Beispiele für solche Anwendungen
Die Einstufungen von Experten sind hier relativ konsistent. Eine Datenbank für technische Anwendungen ist erst sinnvoll ab einem Alter, in dem Kinder fähig sind, leichte technische Anwendungen zu bedienen (1). Das ist etwa ab 5 Jahren der Fall (5). Radiomikrophone beispielsweise werden von Kindern ab einem Alter von 5 Jahren für Spontangespräche genutzt. Um sprachlich 'unverfälschtere' Aufnahmen zu erhalten, sollten erste Aufnahmen unbedingt noch vor einem systematischen Kontakt mit staatlichen, möglicherweise hochsprachlich geprägten Erziehungsinstitutionen stattfinden (1). Als nächster großer Altersabschnitt wird von den meisten Experten der Eintritt in die Schule erwähnt. Im Schulalter adaptieren Kinder noch mit spielerischer Leichtigkeit solche Technologien (1). Erfahrungen hieraus wären für alle anderen Anwendungsbereiche wertvoll (2). Mögliche Anwendungen wären beispielsweise Tutoring-Systeme für Kinder im Grundschulalter zum Lesenlernen im Mensch-Maschine-Sprachdialog (1). Weiterhin helfen Kindersprachdatenbanken bei synchronen Studien zur Spracherkennung und Sprachsynthese (1). Denkbar wären auch Spielzeuganwendungen, Zutrittskontrolle am Computer (1) und die Unterstützung im Deutschunterricht für Nicht-Muttersprachler (1).
Hier unterscheiden Befragte
unterschiedliche Verwendungszwecke einer solchen Datenbank.
Erwähnt wurden
neben konkreten kommerziellen Anwendungen (3) auch medizinische, Lern-
und
Kontrollzwecke (z.B. im Spracherwerb) (15).
Als
konkrete Inhalte für die
Erstellung einer Datenbank wurden folgende Punkte genannt:
Vorschläge
für eine Spracheingabe
für die Datenbank sind das Aufnehmen kleinerer Diskurse
(satzübergreifend) (1),
Kommandos und Diktieren (erst ab dem Leselernalter) (1) oder kindliches
Erzählen und Spielen (1). Zur Anregung des kindlichen
Erzählens kann man
Tierbilder verwenden oder man fordert zum Nacherzählen bekannter
Geschichten
auf (1). Man kann auch die Spontansprache des Kindes beim Spielen
aufzeichnen
(1). Je nach Alter könnte man auch Kinder altersgerechte
Erzähl- und Lesetexte
(2), Sachtexte in Lexika (1) oder typische medizinische
Wortschätze (Zürcher
Lesetest, Nordwind und Sonne etc.) vortragen lassen. Die medizinischen
Wortschätze könnten in der Forschung auch speziell als
Referenz für Kinder mit
Lippen-Kiefer-Gaumenspalte (1) verwendet werden. Über Spiel- und
Freizeitaktivitäten (1), Schule und Erziehung (1) berichten Kinder
gerne. Auch
Aufgaben, die das Lösen von Alltagsproblemen (1) beinhalten,
können Kinder zum
Sprechen bringen. Zusammenfassend kann man sagen, dass Inhalte aus der
direkten
Umwelt und Erfahrung des Kindes spontane Alltagssprache und somit
natürliche
Sprachdaten hervorbringen (9) und dass Kinder mit in Form und Inhalt
kindgerechten Materialien (2) zum Sprechen animiert werden sollen.
Solche Datenbanken
sollten bei
der Kontrolle des Spracherwerbs im Allgemeinen (6) und der Kontrolle
der
Lautentwicklung im Speziellen eingesetzt werden, um
Sprachentwicklungsverzögerungen festzustellen (1) oder bei Sprach-
und/oder
Lernstörungen (3), wie dem Sigmatismus (1), und bei Lese- und
Rechtschreibschwäche
(1) zum Einsatz kommen. Als Grundlage von Lernhilfen für
Ausländerkindern (2)
oder bei Kindern im Zweitspracherwerb (1) könnten sie auch genutzt
werden. Bei
älteren Kindern in der Pubertätsphase könnte untersucht
werden, wie
Unterhaltungsmedien Sprache beeinflussen (z.B. Hip-Hop) (1) oder wie
die
Sprachverwendung mit Eltern im Vergleich mit gleichaltrigen Kindern (je
nach
Geschlecht unterschiedlich) ist (1).
Zur Kontrolle des
Spracherwerbs muss
die Sprache bezüglich des Wortschatzes bzw. inneren Lexikons (1),
der
syntaktischen Strukturen (1) und auf Fehlerproduktionen (etwa
Übergenerierung
von Verb- und Pluralformen) (1) und morphologische (Über-)
Generierungen (1)
überprüft werden. Ab 3 Jahre sollte man die Eckvokale
abfragen (1). Über alle
Stufen hinweg sollten die kognitiven Fähigkeiten je Alter, z.B.
der Ausdruck
von Transitivität, Kausalität bei sehr jungen Kindern (1),
überschaut werden.
Im Anwendungsbereich sind denkbar die Steuerung von Spielsachen, aber auch anderer elektronischer oder optischer Geräte wie Mobiltelefon, PDA und Digitalkamera (1). Hierzu könnte man Kommandos (ASR) aufnehmen (1). Weiter wäre eine kindliche Sprachausgabe denkbar oder Lehrsysteme für Kinder, um z.B. Schulleistungen zu verbessern (1).
Datenbanken
von Kindern werden
laut Befragtenmeinung für die Bereiche Freizeit (10), Medizin
(11), Forschung
(9), das Lehren- und Lernen von Sprache (21) gebraucht.
Sprachanwendungen in der
Freizeit
Sprachtechnologie
wird zukünftig in Spielen
und bei Spielzeug (8) beziehungsweise anderen Unterhaltungssystemen (1)
in Form
von Spracherkennern (3), z.B. auch für 'sprechende' Lexika (1),
integrierter
Sprachausgabe (1) oder für Spiele mit Sprachinteraktion (1)
verwendet werden.
Medizinische Anwendungen
Eine solche Datenbank
sollte auch
medizinische Problemfälle enthalten (1) und für medizinische
Anwendungen geeignet
sein (1) (Referenzsprache). Der Spracherwerb sollte mit Hilfe der
Datenbank
beobachtbar sein und sie soll Entwicklungsstörungen erkennen
helfen (1).
Beispielsweise sollte die Ausprägung der Prädikat- und
Argumentstruktur für
Verben, Konzeptualisierungsfehler, d.h.
Mismatches zwischen Ober-/Unterbegriff, Teil-Ganzes etc., und die
sprachliche
Kreativität (1) einschätzbar werden. Zur Verbesserung der
Sprachentwicklung
könnte eine solche Datenbank Reha-Anwendungen (1) bedienen und ein
logopädisches Training im Bereich der Sprachpathologie (5)
unterstützen. Weiter
könnten Sprachanwendungen präliteralen Kindern den Zugang zu
Information (1)
erleichtern. Ein weiterer Aspekt wäre die Entwicklung von
Sprachsteuersystemen
für (körper-)behinderte Kinder (1).
Datenbanken für die
Forschung
Datenbanken
könnten helfen,
Forschung im Spracherwerb, in dessen Störungen und in der
Sprachdynamik (7)
durchzuführen, und zu sozialwissenschaftlichen und psychologischen
Fragestellungen (1) Aufschluss zu geben. Konkretere Fragestellungen
wären, wie
und ab wann Mädchen und Jungen an der Stimme unterschieden werden
können, wie
spontansprachliche Erscheinungen von Kindern in unterschiedlichen
Altersstufen
ausfallen, die Art der Gestenverwendung und die nicht-verbalen
Vokalisierungen
in den verschiedenen Altersstufen (wie z.B. Lachen,
Backchannel-Äußerungen und
affektive Interjektionen) (1).
Datenbanken zu Lehr- und
Lernzwecken
Datenbanken könnten für (Lese-)Lernprogramme/Systeme/Software für Vorschul-/Grundschulkinder inkl. Kinderlexika (9) und Lernumgebungen für den Fremdsprachenunterricht, z.B. Sprachlernsoftware (4), nützlich sein. Kinder könnten Diktierfunktionen für Hausaufgaben (1) und SMS (1) verwenden. Im Lehrbereich könnten Tutoring-Systeme (2), Anwendungen im Bereich des E-Learning (2) und andere Lehrsysteme (z.B. für Mathematik und Deutsch) (2) interessant sein. Die sprachliche Vermittlung von Lehrinhalten u.a. (1) könnte teilweise die Lehrkraft ersetzen.
Beim Stellenwert von Emotionen
existieren unter den befragten Teilnehmern der Studie unterschiedliche
Einschätzungen. 21 Befragte halten die Erfassung von Emotionen
für sehr
wichtig, darunter acht für zunehmend wichtig. Andere Befragte
denken, die
emotionale Komponente sei weniger wichtig (9) und nur ein Thema, das
eben
gerade 'in' sei und daher überbewertet werde. Außerdem ist
das Evozieren bzw.
Erfassen schwierig und die Annotation immer auch subjektiv (4).
Gründe für das
Erfassen von Emotionen
Applikationen sollen
berücksichtigen, wie die Benutzerzufriedenheit ist. Dafür
müssen Modelle
entwickelt werden (1). Durch das Erkennen von Emotionen kann eine
Aussage über
die Intention eines Sprechers getroffen werden, und es können
Missverständnisse
zwischen Benutzer und System vermieden werden (3). Emotionen üben
auch einen
Effekt auf die anderen sprachlichen Komponenten wie Wortwahl, Satzbau,
Informationsstruktur etc. aus (2).
Gründe
für die Vernachlässigbarkeit von Emotionen
Im Vergleich zu den
bereits
erwähnten Themen wie Dialekte usw. sind Emotionen zu
vernachlässigen (9).
Einige halten sie für die meisten Anwendungen von heute, z.B.
Dialog-/Informationssysteme
oder Kommando-Geräte-Steuerung, von nur geringer Relevanz (3) oder
können sich
nicht vorstellen, welche Anwendungen daraus erwachsen können (2).
Mögliche technische
Anwendungen
Denkbare Anwendungen
wären eine
emotional gefärbte Synthese (2), die Nutzung für das Design
von Benutzer- und
intelligenten Mensch-Maschine-Schnittstellen (4), Embedded Systeme (1)
oder
adaptive benutzerfreundliche Dialogsysteme (4) und die Nutzung für
bestimmte
Use-Cases (1), wie das semantische Entschlüsseln von Sprache (2).
Mögliche
Forschungsgebiete
Forschung wäre
auf dem Gebiet
bestimmter syntaktischer Phänomene denkbar, wenn z.B. ein
auswertender Mensch
interpretativ syntaktische Erweiterungen an ihm interessant und lohnend
erscheinenden Stellen anfügt (1). Auch die Forschung im Bereich
Psycholinguistik (1) könnte dadurch ausgeweitet werden. Lohnend
wäre auch
herauszufinden, ob emotionale Komponenten fehlerfrei oder mit hoher
Wahrscheinlichkeit erkannt werden können. Eine verbesserte
Mensch-Maschine-Interaktion könnte diese Parameter dann
verarbeiten und nutzen
(1).
Probleme beim Erfassen
von Emotionen
Emotionen sind bei einer kontrollierten Situation wie bei Aufnahmen schwer 'herauszulocken', auch wenn der Sprecher sich unbeobachtet fühlt. Weiß der Sprecher Bescheid, werden die Emotionen sehr kontrolliert wirken (1). Es wird daher nicht leicht sein, eine repräsentative Menge an Daten zu sammeln (1). Die Annotation von emotionalen Zuständen ist sehr schwierig (1). Hier ist noch Grundlagenforschung nötig (2). Wenn eine Einschätzung der Emotionalität bei der Annotation von Daten vorgenommen wird, trägt diese auch immer subjektive Züge (1). Weiter ist fraglich, ob derartige Korpora ethisch vertretbar sind und ob nicht Probleme im Bereich des Datenschutzes auftreten werden.
Über die Hälfte der Befragten sehen in der Biometrie der Stimme einen zukunftsträchtigen Bedarf (17). Viele Experten nennen dazu aber auch Bedingungen, die erfüllt sein müssen, um Biometrie-Daten in Zukunft erfolgreich anwenden zu können. Zu den Hauptkriterien zählen hier die Robustheit gegenüber Geräuschen und leichter Stimmveränderung einerseits und die Zugangssicherheit, die nur die Kombination mit anderen Modalitäten und Verfahren gewährleisten wird (6), andererseits. Einige Befragte halten die Biometrie nicht für zukunftsträchtig (5). Das liegt auch daran, dass Anwendungen keine 100%ige Sicherheit bieten können. In Sicherheitsfragen finden neun Experten, dass die Biometrie nur bedingt sicher ist, drei Experten sind der Meinung, sie sei überhaupt nicht sicher.
Ein Vorteil von
Biometrie-Daten
ist, dass sie einfach zu erheben sind (1). Bisherige Testanwendungen
haben
gezeigt, dass auch die Akzeptanz von biometrischen Verfahren, die auf
der
Sprache basieren, sehr hoch ist (1). Besonders im unternehmensinternen
Einsatz
sind Biometrie-Anwendungen für die Absicherung von Information
relevant und
optimal (wegen des geringen Mitteleinsatzes bei den Endgeräten)
(1). Zudem
liegt im Bereich Biometrie ein großes staatliches Interesse vor
(1). Schreibt
man die bisherige Entwicklung also weiter, wird Biometrie
zukünftig ein Thema
bleiben (1). Falls Biometrie-Anwendungen in der nächsten Zeit noch
keine
akzeptable Sicherheit bieten, sind trotzdem zahlreiche unkritische
Anwendungen
vorstellbar (1). Auch für die Grundlagenforschung ist die
Biometrie interessant
(1).
Bedingungen
für Zukunftschancen der Biometrie
Die Biometrie kann nur interessant sein, wenn sie auch sicher ist (1). Es wird auch nur dann zukünftig eine Nachfrage bestehen, wenn es gelingt, die 'Einheit' des Stimmenmusters auch in Situationen großer emotionaler Belastung oder anderer stimmverändernder Faktoren zu erfassen (2), und wenn die Technik dahingehend verbessert wird, dass Stimmerkennung auch bei Rauschen und äußeren Begleitgeräuschen möglich ist (1).
Gründe,
warum die Biometrie nicht als zukunftsträchtig gilt
Die biometrischen
Dimensionen von
Stimme ufern zu weit aus, um mehr als nur punktuell erfasst werden zu
können.
Die Verbindung zwischen Stimmqualität und glottaler Funktion wird
zunehmend
aufgeklärt. Die Erweiterung des Begriffs 'Stimme' um die
biometrische
Komponente jedoch hat eine zu vieldimensionale Ausprägung (1).
Außerdem können
Biometrie-Anwendungen zu menschlichen Abwehrreaktionen ähnlich wie
bei der Erfassung
von Fingerabdrücken, Iris-Scan etc. führen (2).
Sicherheit bei der
Anwendung von
Biometrie
Biometrie ist in der Anwendung nur bedingt (9) oder gar nicht sicher (3). Nur die Kombination mit anderen Modalitäten und (Authentifizierungs-)Verfahren, wie z.B. Gesichtsscanning, Online- Unterschrift, Iriserkennung und Fingerabdruck würde für sicherheitskritische Anwendungen eine akzeptable Sicherheitsstufe gewährleisten (6). Ohne derartige Zusatzverfahren könnte durch verstecktes Aufnehmen eines Sprechers sein individueller Biometrie-Code kopiert und zum Knacken des Sicherheitsportals genutzt werden (1). Auch kann heutzutage ein leicht adaptierbares Hidden-Markov-Model (HMM) Sprachsynthese-System fast jedes Sprecherverifikationssystem überlisten, sobald von dem fraglichen Sprecher genügend Daten vorliegen (1). Daher sollten Biometrie-Verfahren nur bei unkritischen Anwendungen zum Einsatz kommen.
Alle Befragten sprechen sich
einstimmig für eine engere Zusammenarbeit zwischen
Sprachtechnologie-Institutionen
aus. Die gesamte Infrastruktur (in Europa) wird durch eine Schaffung
einer
gemeinsamen Plattform gestärkt werden (1) und eine positive
Entwicklung im
Bereich der Qualität und Größe von Sprachressourcen zur
Folge haben. Institutionen,
die an der Schaffung von Ressourcen beteiligt sind, müssen
gemeinschaftlich
verbindliche Standards festlegen, was allgemein zu einer Aufwertung der
entstehenden Ressourcen führt, da diese im Vergleich zu vielen
bisherigen
language ressources (LR) zum einen für eine größere
Anzahl von Nutzern
anwendbar und gleichzeitig für mehrere Anwendungen wieder
verwertbar werden
(3). Durch die Kosten- und Arbeitsteilung (2) und die Koordination von
Bearbeitungstools
(1) wird die Schaffung großer einheitlicher Ressourcen
ermöglicht. Eine
Kooperation verschafft darüber hinaus einen Überblick
über bestehende und
geplante Ressourcen an den Standorten (1) und hilft, neue LR sinnvoll
zu
planen.
Die Abstimmung
verschiedener
Institutionen untereinander wird dabei helfen, Kapazitäten zu
bündeln (1),
dadurch schneller und effektiver (2) große Ressourcen zu
erschaffen (1) und
lästige Doppelarbeit zu vermeiden (5). Durch den Austausch von
Tools können
zusätzlich Kosten für die Erweiterung der Ressourcen
eingespart werden (1). Die
Verknüpfung von Spezialkenntnissen in einzelnen Sprachen (2)
ermöglicht
erstens, dass mehrsprachige Korpora leichter gesammelt werden (2) und
zweitens,
dass unterschiedliche Anforderungen, die von Seiten der Anwendungen
gestellt
werden, besser erfüllt werden können (1). Durch
Erfahrungsaustausch (3) und Wissenstransfer
(3) können die Vergleichbarkeit von Forschungsergebnissen
verbessert (1),
Fehler vermieden (2) und schnellere Fortschritte (1) erzielt werden.
Eine Standardisierung von Korpora (3) betrifft vor allem die Abstimmung bezüglich der Annotation (6) und den dazu gehörenden Annotierungs- und Austauschformaten (1). Mithilfe von Modulen verschiedener Institutionen können multi level Annotationen von Korpora durchgeführt werden (1). Zu einer Standardisierung gehört auch die Schaffung einer gemeinsamen Software-, Hardware- und auch Aufnahme-Umgebung, das heißt. z.B. gemeinsame (Meta-)Datenformate (4) und eine Abstimmung bezüglich verwendeter Mikrofone, Soundkarte etc. (1) - alles unter dem Stichwort "cross-searchability" (3).
Eine genaue
Absprache, wie die
Daten erfasst werden sollen, ermöglicht danach einen gemeinsamen
Zugriff für
unterschiedliche Zwecke (1). Auch genaue Spezifikationen und
Anforderungen an
die Korpora (ihr Zweck) sollten formuliert werden (2). Das hat den
Vorteil,
dass auch andere Institutionen ihre Erfahrungen bzw.
Problemlösungen einfach
einbringen können (2).
Bei der Schaffung großer Korpora sollen die Kosten bezüglich der Sammlung und Transkription der Sprachdaten und der Lexika geteilt werden (5). Vorher muss geklärt werden, wie viel die Industrie für ein solches Korpus zu zahlen hat (1) und wer bereit ist, dafür zu zahlen. Eine Nutzung der Datenbanken kann der Industrie auch kostenlos oder zumindest kostengünstig erlaubt werden, um schnellere Fortschritte im Anwendungsbereich erzielen zu können (3). Forschungseinrichtungen haben den Vorteil des Anwendungsbezugs, wenn sie Korpora an Unternehmen weitergeben (1).
Forschungseinrichtungen
untereinander können für die Nutzung eines Korpus die
Regelung treffen, dass
ein Korpus nur dann an eine Einrichtung vergeben wird, wenn diese
dafür eigene Ressourcen
bereitstellt oder sich verpflichtet, daraus gewonnene wissenschaftliche
Ergebnisse 'zurückzugeben' (3). Die Austauschpflicht soll
vertraglich geregelt
werden (1). Spezielle Rabattregelungen, z.B. pro gespendeter Stunde
Material wird
ein festgelegter Rabatt auf anderes Material gewährt, können
die Bereitschaft
steigern, Material aufzubereiten und einer zentralen Stelle zur
Verfügung zu
stellen (1). Zwischen Forschungseinrichtungen kann auch ein freier
Zugang zu
Korpora für Forschungszwecke und eine freie Verfügbarkeit von
Software und Skriptdateien
vereinbart werden (2).
Konkrete Vorschläge
für Kooperation
Zu Anfang jeder Zusammenarbeit müssen klare Ziele formuliert und Domänen bestimmt (1) werden, um die Nutzbarkeit der gemeinsam gesammelten Daten für die individuellen Bedürfnisse der Partner zu gewährleisten (1). Um die mittelfristigen Vorstellungen und Absichten (Typ von LR, Regionen etc.) abzustimmen, muss sich ein internationales und/oder nationales Netzwerk von LR-Produzenten und Anwendern etablieren (1). Es existieren bereits große Konsortien, wie z.B. überregionale und überuniversitäre Verbundprojekte (2), wie SPEECON oder SpeechDat (1). Die Verbindung mit bestehenden Initiativen (z.B. OLAC) sollen bestehen bleiben, andererseits müssen sich auch innerhalb von Deutschland die Organisationen, die sich mit gesprochenen und geschriebenen Korpora beschäftigen, enger zusammenarbeiten (1). Regelmäßige Treffen von Vertretern aus der Industrie und aus der Forschung sollen stattfinden. Es müssen sich aber möglichst kleine Kreise mit genauer Aufgabenverteilung (3) zusammenfinden. Eine Zusammenarbeit kann auf allen Ebenen stattfinden , z.B. per Telefon, E-Mail, Workshops, Mailinglists, Newsletter, Interessenforen, über Leiharbeiter (3).
Ein konkreter Vorschlag für die enge Kooperation zwischen Universitäten und Firmen ist, eine zentrale Koordination oder einen deutschlandweiten Zweckverbund (e.V.) mit einem überschaubaren Mitgliedsbeitrag (ca. 200 Euro) ins Leben zu rufen, welcher die Verwaltungsaufgaben des Zweckverbundes deckt. Der Verbund hätte die Aufgabe, Anforderungen an Korpora zu sammeln und Korpora zu verwalten. Einzelne Universitäten bzw. Firmen würden spezielle Aufbereitungen (Etikettierung, Analyse-Merkmale) von Allgemeininteresse beisteuern und dafür das betreffende Korpus und alle dafür erstellten Merkmale kostenlos nutzen. Bei einer Mithilfe an mindestens drei Korpora im Jahr könnte der Zugriff auf drei weitere Korpora kostenlos möglich gemacht werden. Ohne Zuarbeiten wäre ein kostenpflichtiger Zugriff für Mitglieder auf beliebige Ressourcen möglich. Die Datennutzung ohne Mithilfe sollte mit überschaubaren Summen (max. 5000 EUR für große Datenbanken) bezahlbar sein (1).
Gründe für eine
Kooperation in der
Ressourcen-Schaffung
Ein Grund für die Kooperation ist die Schaffung verlässlicher Standards und guter Dokumentationen (1). Dies betrifft vor allem standardisierte Annotierungen bei Ein- und Ausgaben von Systemen (1). Die darauf folgende eigene Produkt(weiter)entwicklung ist dann breiter einsetzbar oder schneller adaptierbar (1).
Kooperationen sind
unumgänglich,
wenn eine Ressource nicht nur individuell erfolgreich eingesetzt werden
soll
(1). Das individuelle Sammeln und Aufbereiten von Daten stellt für
eine spätere
breite Bereitstellung keinen effektiven Weg dar (1). Eine individuelle
Ressourcenerstellung ist nur dann lohnenswert, wenn eine Firma z.B.
gedenkt,
exklusiv ein Marktsegment zu besetzen (1). Eine große Verbreitung
der Ressource
sichert ihre höhere Qualität, da von mehreren Trägern
Fehlerkorrekturen und
Ergänzungshinweise gegeben werden (1). In Zukunft allerdings ist
das primäre
Ziel, neue Produkte ohne neue Ressourcen zu erzeugen. Da die
Ressourcengenerierung
teuer ist, wird sich bei einer bestimmten Menge verfügbarer
Ressourcen der
Bedarf an neuen Ressourcen verringern (1).
Gründe für das
Bestehenbleiben einer
individuellen Produktentwicklung
Unterschiedliche
Interessenschwerpunkte
in der Produktentwicklung und das Interesse am Wettbewerbsvorsprung
werden sich
auch in Zukunft nicht vermeiden lassen (10). Daher wird eine gemeinsame
Produktentwicklung die Ausnahme bleiben (2). Die Generierung von sehr
kleinen
(firmen-)spezifischen LR wird es zwar weiterhin auch geben (2), jedoch
die
Masse der industriell interessanten LR werden dem Konsortium-Modell
SpeechDat/SPEECON folgen (1). Vorstellbar ist eine gemeinsame
Produktentwicklung nur bei speziellen Vereinbarungen (z.B. im
Automobilbau),
bei Firmenfusionen und, wenn Produktkomponenten gemeinsam in komplexere
Produkte
einfließen sollen (3). Das ist dann immer auch eine
wirtschaftliche
Entscheidung.
Bestehendes Vorgehen wird
als positiv
bewertet
Die individuelle
Produktentwicklung mit gemeinsamer Ressourcenschaffung wird von einigen
Experten durchaus ausdrücklich als adäquat und
wünschenswert bewertet (3). Für
bestimmte Anwendungsklassen ist das ein sehr vernünftiges Modell,
vor allem,
wenn generische Daten gebraucht werden (1). Ressourcen können auf
diese Art von
allen genutzt werden (1) und der Aufwand für die Erstellung
wichtiger
Grundlagen verringert sich (1). Darüber hinaus besteht nach
Meinung einiger
Experten keine Notwendigkeit, über die Schaffung von Ressourcen
hinaus weiter
zusammenzuarbeiten (3).
Mögliche
Weiterentwicklungen innerhalb
dieses Modells
Oft findet die Ressourcen-Kooperation nur in einem engen Kreis statt und die Ergebnisse sind nicht für alle zugänglich. Ein Vorschlag ist daher, solche Ressourcen auf nationaler Ebene als "Freeware" zu kreieren (1) oder ihre Sammlung und die Entwicklung von Basiskomponenten durch spezialisierte Anbieter vornehmen zu lassen (Outsourcing) (1). Open-Source-Produkte werden in Zukunft eine immer größere Rolle spielen (1).
Forschungseinrichtungen sollen laut Expertenmeinung Ressourcen bevorzugt erhalten (19) und von einer Lizenzgebühr befreit werden, damit die Forschung nicht durch finanzielle Engpässe blockiert wird. Ist diese Regelung nicht umsetzbar, soll zumindest eine Austauschregelung aufgestellt werden, die einen Erwerb der Ressource bei gleichem Gegenwert vorsieht. Wurden Korpora aus öffentlichen Mitteln finanziert, sollen sie allgemein zugänglich sein. Ist dies nicht machbar, soll nur die Industrie für den Erhalt einer LR eine Lizenz bezahlen.
Regelungen zur Verwendung
von Korpora
für die Wissenschaft
Forschungseinrichtungen sollen Korpora kostenlos als Open Source (19) nutzen dürfen, besonders, wenn sie von öffentlicher Hand finanziert wurden (6). Falls der völlig freie Zugang nicht möglich ist, sollte zumindest ein Austausch stattfinden können, das heißt. mit der Gegenleistung einer eigenen Ressource kann ein Korpus erworben werden (5). Damit die Daten austauschbar sind, müssen Kodierungsstandards beachtet werden (1). Ein Austausch kann auch so aussehen, dass die Spender-Institution pro weitergegebenem Datensatz eine Sachspende in Form von Freiminuten auf andere Korpora erhält (1), oder er kann sich nur auf Standardformate beziehen (1) und im Idealfall Aufwände abdecken (2). Die Bedingungen eines Austausches müssen dabei frühzeitig umfassend festgelegt werden (2). Am besten, indem ein 'Ehrenkodex' angewendet wird, um zu verhindern, dass sich eine Institution benachteiligt oder ausgenutzt fühlt (1). Kleine Institute, die sich teure LR nicht leisten können, sollen eventuell von der Gebühr befreit werden (1) oder mit einer Gegenleistung durch eigene Ressourcen ein Korpus nutzen dürfen (1). Für Forschungseinrichtungen, die selber keine LR produzieren, können im Vergleich zur Industrie preislich niedrigere Forschungslizenzen erhoben werden (1).
Intellectual Property
Rights
(IPR) der Ersteller eines Korpus (siehe auch das eContent Programm der
EU) sollen
immer festgelegt und die Urheber in allen Publikationen gewürdigt
werden (1).
Haftungsbestimmungen sind möglichst auszuschließen (1).
Regelungen zur Verwendung
von Korpora
für die Industrie
Wenn Korpora durch öffentliche Hand finanziert wurden, ist ein realistisches Modell für die Freigabe eines Korpus, die Ressourcen ein Jahr exklusiv nur für die Partner verfügbar zu machen und dann der Allgemeinheit via BAS/ELRA/LDC etc. gegen einen Kostenbeitrag zur Verfügung zu stellen, wie es in den Projekten Verbmobil und SmartKom der Fall war (1).
Wird nicht von
öffentlicher Hand
gefördert, sollen Lizenzgebühren bezahlt werden (9). Diese
sollen sich auf
einem Preisniveau einpegeln, das auch der Tatsache Rechnung trägt,
dass
Datenbestände veralten (Preisanpassung) (1). Es können auch
spezielle Evaluationslizenzen
erhoben werden, die ein obligatorisches Feedback beinhalten, mit der
Aussicht
auf Entlohnung (1). Kommerzielle Partner können auch die
Möglichkeit bekommen,
statt der Lizenzgebühren mit eigenen Datensammlungen zu zahlen
(1). Wichtig ist
dabei, dass die Abnehmer von Ressourcen sich schriftlich verpflichten,
private
Ressourcen nicht an Dritte weiterzugeben (2). Allgemein soll die
Regelung der
kommerziellen Nutzung sehr präzise ausfallen (1).
Weitere Vorschläge
zur zentralisierten
Kooperation
Wünschenswert sind zentrale Stellen für die Freigabe und Verteilung von Korpora (1), die aus dem Internet heruntergeladen werden können (1). Hierbei muss vertraglich festgelegt werden, wer die Pflege und Aktualisierung der Korpora übernimmt (1), und es muss eine Einigung hinsichtlich des Einfließens von Arbeitsergebnissen (ähnlich wie GPL) stattfinden, die der Gemeinschaft wieder zur Verfügung gestellt werden (1). Ergebnisse und die Integration in die zentralen Ressourcen sollen über Mitgliedsbeiträge der Vereinigung (e.V.) finanziert werden (1). Standardverträge für alle Einrichtungen, die die Freigabe regeln, erleichtern dem kommerziellen Anwender den Erwerb von LR wesentlich, da nur noch die einmalige Prüfung über die firmeninterne Rechtsabteilung nötig ist (1). Gewinnregelungen sollen eine Geldverteilung zwischen beteiligten Instituten vorsehen (1). Die von der Industrie erlösten Rückflüsse sollen in Teilen wieder zu den öffentlichen Geldgebern zufließen und/oder in die Korpusproduktion reinvestiert werden (1).
Jede einzelne Einrichtung soll jeweils auch eine knappe und aktuelle Übersicht über das eigene Angebot im Internet bereitstellen (1) und als Vertreiber einer Ressource auch eine kostengünstige Trial-Version anbieten (1).
Vor Beginn der Aufnahmen sollte eine juristisch einwandfreie Einverständniserklärung mit der Erlaubnis zur freien Verwendung und späteren Nutzung entwickelt und vom Sprecher unterzeichnet werden (1). Diese soll auch für alle nachfolgenden Aufnahmen als Vorlage verwendet werden (4). Sprachspender-Daten müssen für die Öffentlichkeit anonymisiert sein (5), daneben wird allerdings die Möglichkeit zur Re-Identifizierung der Sprecher gefordert (1). Zum Schutz vor Missbrauch der Stimme (z.B. für pornografische Zwecke) ist die Anonymisierung wichtig (4). Die Datenschutzbedingungen müssen mit den erwachsenen Sprechern und den Eltern von unmündigen Kindern genau abgestimmt und eingehalten werden (4).
Vor allem bei
Sprachsynthese-Aufnahmen muss das Recht auf die eigene Stimme als
wichtiges
Element und Ausdrucksmittel der eigenen Persönlichkeit und Person
gewahrt
werden (1). Dem GEMA-Modell folgend sind Sprecher, deren Stimmen
besonders
breite Anwendung in Sprachsynthese-Systemen finden werden, an den
Lizenzgebühren
zu beteiligen (1). Künstlich erzeugte sprachliche Aktionen sollen
für den
Fachmann kenntlich gemacht werden (durch ‚Wasserzeichen’), wird vage
gefordert
(1).
Bei der Vergabe einer LR muss der Anwender per Unterschrift garantieren, sie für bestimmte Zwecke nicht zu nutzen (2). Solche Nutzungseinschränkungen gelten beispielsweise für pornografische und andere unlautere Zwecke (1). Weiter muss garantiert werden, dass das erworbene Korpus nicht an Dritte weitergegeben oder verkauft wird (1).
Wurde die Ressource in einem Zweckverbund erfasst, sollen die Verwertungsrechte im Besitz des Verbundes bleiben. Der Verbund muss eine Überprüfung der Mitglieder vornehmen, damit eine militärische und terroristischer Nutzung der Daten ausgeschlossen werden kann (1). Da Ressourcen sehr teuer sind, muss das Copyright und Eigentumsrecht genau festgelegt werden (4).
Im Bereich der Biometrie müssen Regelungen zur Sicherung vor unberechtigtem Zugriff auf die Daten (1) und zur Fälschungssicherheit (1) getroffen werden, ein Trust-Center ist ggf. einzurichten (1), da biometrische Merkmale höhere Missbrauchsgefahr bedeuten als beispielsweise ein ‚genetischer Fingerabdruck’ (1).
Die LR muss hauptsächlich aus staatlichen oder auch europäischen Kassen (2) gefördert werden (17) oder je nach Verwendungszweck idealerweise aus beiden Quellen stammen (13). Dabei gibt es eine relativ eindeutige Verteilung der Aufgaben: Die Wirtschaft wird nur Beiträge zu wirtschaftlich interessanten Ressourcen leisten; der Staat fördert auch wirtschaftlich unbedeutendere Ressourcen, die z.B. für die Grundlagenforschung und zum Schutz seltener Sprachen eingesetzt werden. Die industriell geförderten LR werden dagegen besonders für Anwendungen bzw. die anwendungsbezogene Forschung genutzt.
Aufgabe staatlich
geförderter
Ressourcen
Staatlich geförderte Ressourcen haben den Vorteil, dass sie meist öffentlich verfügbar sind (3). Der Staat fördert auch Ressourcen, die nicht wirtschaftlich interessant sind (1), dafür aber eine breite Forschungsausrichtung möglich machen (1). So haben ärmere Länder, deren Industrie sich eigene LR nicht leisten kann/will und/oder deren Sprachen nur von einer kleinen Gruppe gesprochen werden, die Möglichkeit, LR staatlich und ggf. international fördern zu lassen (1). Die Aufgabe staatlich geförderter Ressourcen liegt nicht in erster Linie darin, für Anwendungen bereitgestellt zu werden, sondern vor allem darin, die Grundlagenforschung voranzubringen (3), bedrohte Sprachen zu schützen (2) und die Sprache als wichtiges Kulturgut zu archivieren (1). Werden sie im Anwendungsbereich eingesetzt, dann besonders für verwaltungsbezogene und ‚hoheitliche’ Aufgaben (1).
Meist sind bei
staatlich
geförderten LR die Richtlinien zum Schutz der Sprecher höher,
so dass in jedem
Fall die Anonymisierung der Sprecher garantiert und die Einhaltung von
Standards gesichert sein sollte (1). Es sollte vermieden werden, dass
staatlich
geförderte Ressourcen eine versteckte Subvention von
privatwirtschaftlichen
Ressourcen darstellen (1).
Aufgabe
privatwirtschaftlicher
Ressourcen
Die Ressource aus privatwirtschaftlicher Förderung soll der anwendungsbezogenen Forschung und Entwicklung neuer Technologien (z.B. in Bezug auf Dialogschnittstellen) dienen und bei überschaubaren Datenmengen eingesetzt werden (3). Da seltene Sprachen kommerziell eher uninteressant sind, werden von der Privatwirtschaft meist nur etablierte Sprachen erfasst (1). Nutzer von kommerziellen Datenbanken sollen Nutzungsentgelte für die Korpora zahlen (3), um die Aufwendungen nachträglich finanziell auszugleichen.
Der Vertrieb von Ressourcen ist die beste Möglichkeit, um Aufwendungen wieder auszugleichen (9). Die Finanzierung läuft dabei über die Anwender, die die Datenbanken für sich kommerziell nutzen (2). Ein vollständigen Ausgleich wird jedoch der Ausnahmefall bleiben (3). Die Chance für relativ gute Einnahmen liegen dann hoch, wenn auf hohe Qualität und einen geringen Anpassungsaufwand (Datenbereinigung) für den Käufer geachtet wird (1) und, wenn das Angebot der Nachfrage entspricht (evtl. Studie) (1). Der persönliche Kontakt zu potenziellen Kunden (1) und eine anwendungsbezogene Auswertung/Beratung machen auf den Wert einer Ressource aufmerksam (1) und erweitern die Kundenliste. Es sind unterschiedliche Lizenzmodelle denkbar (5). Lizenzen können beispielsweise direkt auf Produkte erhoben werden, die durch die Nutzung von LR entstanden sind, oder es kann eine Beteiligung am Umsatz festgelegt werden, der durch die entstandenen Produkte gemacht wurde (1). Ist eine LR in einem Konsortium entstanden, können Jahresbeiträge erhoben (1) oder bei einem Online- Zugriff geringe Zugangsgebühren eingeführt werden (1). Um das ‚Minusgeschäft’ möglichst gering zu halten, soll auch immer versucht werden, staatliche Subventionen (3) auf eine LR zu erhalten. Eine Kooperation mit Agenturen wie LDC und ELRA/ELDA (3) kann helfen, den finanziellen Eigenaufwand zu minimieren (1). Man kann auch versuchen, nach der Freigabe von Daten die Ressourcen an (einzurichtende) zentrale Stellen zu verkaufen, die dann den weiteren Vertrieb übernehmen (1). Eingenommene Lizenzgebühren sind dafür einzusetzen, zumindest die Wartung und Pflege der Datenbanken zu finanzieren (1).
Die Sprachtechnologie
wird sich
immer mehr durchsetzen, da sprachgesteuerte Geräte mit Sprach- und
Sprechererkennung
einen großen ökonomischen Erleichterungs- und
Rationalisierungsfaktor haben
(6). Diese Faktoren motivieren Firmen Mut zu Innovationen und
Investitionen
(1). Mobile Dienste und sich daraus ableitende Geschäftsmodelle
sowie die
Weiterentwicklung der Mensch-Maschine-Kommunikation (2) stellen
momentan ein
großes Nachfrage-Potenzial dar. Allerdings müssen die
weiterentwickelten
Sprachressourcen entsprechend schnell zur Verfügung gestellt
werden, sonst sind
die wirtschaftlichen Erwartungen nicht zu erfüllen (1). Gelder aus
der freien
Wirtschaft ohne Verpflichtungszwang, Förderpreise und Stipendien
bieten Ansporn
für herausragende Forschung (1).
Jede Sprachgruppe ist
daran
interessiert, die eigene Sprache technologisch verfügbar zu machen
und sich von
anderen Sprachgemeinschaften abzugrenzen (1); besonders vor dem
Hintergrund des
Zusammenwachsens Europas (3). Im Zuge dessen wird es national und
EU-weit mehr
öffentlich geförderte Projekte, Verbundprojekte und
koordinierte Programme
(vergleichbar mit US-DARPA) (1) geben, um große Datenmengen zu
erfassen (1).
Zwischen in- und ausländischen Forschungsinstituten und
Universitäten wird eine
engere Kooperation stattfinden (1). Die Politik versteht immer mehr,
dass
anwendungsbezogene Sprachforschung einen wirtschaftlichen Impuls
bedeutet, und
wird als Konsequenz mehr Forschungsförderung im Rahmen des
Europäischen Forschungsförderungsprogramms
betreiben (3). Dies wird sich als Verbesserung der Qualität von
Ressourcen und
in Lösungen für den deutschsprachigen Markt niederschlagen
(1). Auch wird mehr
und mehr erkannt, dass gute Benutzerschnittstellen der Schlüssel
für die
Akzeptanz von Technologien ist. Werden vom Staat zudem gute
Rahmenbedingungen
für die grundlegende Forschung geschaffen, wie z.B. gute
Ausstattung von
Lehrstühlen, angemessenes Bezahlungsniveau der Mitarbeiter,
Anstellungsstatus
der Mitarbeiter (vgl. neues Hochschulgesetz für wiss.
Angestellte), so kann der
Aufbau von LR noch intensiver betrieben werden (1). Fördernd wird
sich auch der
weitere Ausbau bezüglich Infrastruktur und Grundlagenschaffung
für
Investitionen in Zukunftstechnologien auswirken (1).
Die allgemeine Verbesserung der Sensor- und der Computertechnik steigert die Akzeptanz bestehender Anwendungen und erhöht die Nachfrage (3). Der Einsatz von Spracherkennung ohne behindernde Technik rückt immer näher (1). Die Verfügbarkeit von Datenbanktechnologien mit schnellen und effektiven Datenbankprogrammen ist ein weiterer technischer Vorstoß. Datenverarbeitende und -verwaltende Techniken und Prozesse (2) sowie die Verfügbarkeit ausreichender und bezahlbarer Speicherkapazität (2) liefern positive Grundfaktoren. Leistungsfähigere Rechner und Technologien ermöglichen die Handhabung großer Ressourcen (1). Weitere Schritte in Richtung ‚Embedded Systems’ werden einen neuen Schub bringen (1). Die Bandbreite von Anwendungsgebieten (2) und der Anwendungsdruck (1) wachsen beständig. Die moderne Telekommunikation treibt die Entwicklung von Sprachressourcen automatisch vorwärts (1).
Hemmend auf die
Weiterentwicklung
in der Sprachtechnologie wirkt sich sicherlich die momentane
wirtschaftliche
Krise in Deutschland aus. Fördergelder für LR werden aufgrund
des staatlichen Geldmangels
seltener vergeben (6). Außerdem verlangsamt die umständliche
Ausschreibung für Fördermittel
den schnellen Weiterentwicklungsprozess (2). Die Kürzung von
Mitteln (2)
bezieht sich auch auf das wissenschaftliche Personal (2) (siehe neues
Hochschulrahmengesetz). Befristete Verträge und eine unattraktive
Zukunftsprognose
für Angestellte in der Wissenschaft erhöhen den Mangel an
qualifizierten
Kräften (1). Bei der Vergabe von Fördergeldern wird die
Aufwändigkeit der Ressourcenerstellung
oftmals unterschätzt, so dass die EU oft nur den Anfang eines
Ressourcenaufbaus
fördert, um dann wieder Anwendungen in den Mittelpunkt der
Ausschreibungen zu
stellen (1). Zu diesem Zeitpunkt sind die Ressourcen aber noch nicht
umfangreich genug, um die Verfahren hinreichend zu unterstützen
(1). Weiter
bedeutet die Vielsprachlichkeit in Europa, z.B. im Vergleich zu den
USA, einen
wesentlich höheren Aufwand an Koordination zwischen
europäischen Institutionen.
Die Forschungslandschaft ist immer noch inhomogen (1) und die
gemeinsamen
Interessen noch schwach definiert (2). Außerdem ist der Nutzen
teurer Sprachdatenressourcen
durch die Grundlagenforschung noch nicht belegt, weshalb die
Notwendigkeit zur
Erfassung oft nicht erkannt wird (1).
Hemmende Faktoren in der
Wirtschaft
Bisher hat die
Sprachtechnologie
noch nicht den Beweis erbracht, in wirtschaftlich härteren Zeiten
unabdingbar
zu sein (1), weshalb die Forschungen in diesen Zeiten oft gekürzt
oder firmenintern
ganz eingestellt werden (1). Speech-enhanced Produkte sind bis heute
Luxusartikel, was sich in Zeiten der Rezession bemerkbar macht (1). Aus
Angst
vor Fehlinvestitionen wird das Risiko, das Innovationen beinhalten,
vermieden
(1). Noch heute leidet die Sprachtechnologie auch unter den zu
euphorischen
Investitionen in UMTS und dergleichen (1). Dazu kommen ein langsames
Innovationsmanagement
und langwierige Vortests, gerade bei großen Unternehmen, die zu
einer
Verlangsamung der Entwicklung beitragen (1). Konkurrenzkampf in der
Industrie,
der zur Abschottung der Industrieforschung nach außen führt
und mangelnde
Kooperation zwischen den Institutionen (1) sind weitere Hemmnisse.
Hemmende Faktoren in der
Technik
Allzu oft wurden
vorzeitig
schlechte, unausgereifte Lösungen auf den Markt gebracht, die bei
den Anwendern
zu einer pauschalen Ablehnung der Technologie führten (4). Gerade
bei der
Sprachsynthese sehen Firmen Probleme bereits als gelöst an, sobald
ein
grundsätzlich funktionierendes System entwickelt wurde (1),
während auf der
Anwenderseite noch Unzufriedenheit herrscht. Die Bereitschaft von
Firmen, ein
funktionierenden System zu verbessern, dessen Spracheinsatz vom
Benutzer als
steril und wie ‚aus der Dose’ kommend wahrgenommen wird, ist eher
gering (1).
Technisch hemmend ist auch die Tatsache, dass LR nur eine
eingeschränkte
Wiederverwertbarkeit aufgrund fehlender Standards haben (1). der Mangel
an
einheitlichen Annotationsschemata bei Prosodie und Emotion (1), machen
Daten
nur für einen kleinen Anwendungsbereich nutzbar.
Außer den Audiodaten mit entsprechenden standardisierten Transkriptionen (7) sollen Videodaten von Sprechern (6) vorliegen. Kameras sollen möglichst unauffällig Gestik (15), das heißt. Hand- und Kopfbewegungen (1), und Mimik (14), das heißt. Augenbewegungen und die Bewegung der Gesichtsmuskeln (1), erfassen. Das Gesicht soll dabei sowohl seitlich als auch frontal (1) von Kameras anvisiert werden. Die Kamera nimmt dabei automatisch natürliche und eventuell gezielte Handbewegungen, die Befehle ans System richten (z.B. Pointing), auf. Alle Aufnahmen sind nur dann weiter verwertbar, wenn sie auch durch eine anschließende Transkription interpretiert werden (1).
Für integrierte Ressourcen sollen aus den Audiodaten auch die Benutzeremotionen gelabelt werden (2). Als Features werden sie dem Sprachsignal oder physiologischen Signalen entnommen (1). Ziel ihrer Erfassung sind vor allem Anwendungsverbesserungen. Verärgerte Kunden zu erkennen und emotional z.B. durch Beschwichtigung abzufangen (4), ist nur eine Variante für die Anwendung. Des weiteren soll auch die Prosodie gelabelt werden (3). Für bestimmte wissenschaftliche Zwecke sind auch Zungen- und Kieferpositionen (1) aufzunehmen.
Die einzelnen
Komponenten eines
integrierten Systems müssen untereinander abgestimmt werden, das
heißt. eine Textanalyse
sollte beispielsweise mit der sie begleitenden Gestik einhergehen (1).
Daher
werden auch Synchronisierungsinformationen (2) zu Bewegungen und
Gesprochenem
gebraucht. Die Komponenten sollen miteinander kommunizieren
können, wozu
standardisierte Annotationen mit semantischem oder für die
Interaktion
zentralem Gehalt (5) wichtig sind.
Metadaten zu Sprechern
und Szenarien
Als Metadaten sollen die Angaben zum Sprecher genau erfasst werden (1). Dazu gehört der sprachliche Werdegang des Sprechers, das heißt. wo und unter welchen sprachlichen Einflüssen er aufgewachsen ist (1), Geschlecht, Alter und Beruf (2). Eine Verlinkung mit Hintergrundinformationen zu Kultur und Gesellschaft (1) kann Vorteile bringen.
Weiter muss das Szenario mit Ort (1), Zeitpunkt (1), genauer Situation (1) und Kontext der Daten (Äußerung, Satz vorher, Satz danach) (4) beschrieben werden. Unterschiedlichste Szenarien müssen erfasst werden, z.B. Transliterationen von echten spontansprachlichen Kommunikationen ohne schriftsprachliche Stimuli. Präzise Angaben zu den Aufnahmebedingungen gehören ebenso zu einem brauchbaren Korpus, das heißt. Angaben zum Studio, Telefontyp, vorhandene Hintergrundgeräusche, Kanal usw. (1).
Beide Aufnahme-Qualitäten haben ihre Berechtigung. Je nach Anwendung eignet sich entweder Telefon- oder Studioqualität besser (3). In Bezug auf kommerzielle Zwecke sprechen sich 13 Experten besonders für Aufnahmen aus, die über das Telefon oder Handy durchgeführt werden. Diese Einschätzung wird nicht zuletzt durch die Bedürfnisse der mobilen Generation bestimmt, die kurz- und mittelfristig (1) mehr kommerzielle Anwendungsmöglichkeiten nutzen wird (4). Telefondaten haben zudem den Vorteil, dass sie realistischer, spontaner und natürlicher wirken als Studioaufnahmen (5), da die Sprecher unbeobachtet in meist gewohnter Umgebung bleiben. Spontaneität ist ein nicht zu unterschätzendes Kriterium und soll im Entscheidungsfall einer hohen Aufnahmequalität vorgezogen werden (1).
Studioaufnahmen sind aufgrund der höheren Qualität besser für die Sprachsynthese und Grundlagenforschung geeignet (2). Aus der aufgenommenen Studioqualität lässt sich Telefonqualität synthetisieren (1). Eine künstliche technische Verschlechterung von hochwertigen Referenzdaten ist durch das Downsampling (von 16 auf 8 kHz) und Simulieren anderer Übertragungskanäle gut möglich (6). Zur Simulation von Telefonqualität ist auch eine breitbandige Aufnahme mit hochwertiger Aufnahmetechnik unter realen Umgebungsbedingungen denkbar, z.B. mit systematisch variierenden Störungen (2).
Grundsätzlich sollen Studioaufnahmen immer natürliche Gesprächssituationen und deren individuelle Gegebenheiten mit variierenden Störungen umfassen, da sonst unnatürliche Artefakte entstehen können (2). Dies gilt natürlich auch für Handyaufnahmen, z.B. im Auto bei der Navigation, mit allen damit zusammenhängenden Zusätzen wie Ablenkung von außen und Hintergrundgeräuschen (1). Die Akzeptanz von Anwendungen in ihrer Erkennerleistung wird besser, wenn ein Geräuschpegel bei der Aufnahme berücksichtigt ist (1).
Die überwiegende Mehrheit der Experten ist der Meinung, dass beide Modelle nebeneinander zukünftig eine Rolle spielen werden (29). Ein Teil drückt dabei klar aus, dass beide Modelle zusammen als Ergänzung und Kombination am erfolgversprechendsten anzusehen sind, da Stärken wie Präzision und Robustheit miteinander kombiniert werden (7). Beide werden auch weiterhin unabhängig voneinander für unterschiedliche Anwendungen eingesetzt werden (1).
Ein weiterer Teil der Befragten hält die Vorteile statistischer Modelle jedoch für einschlägiger als die von expliziten Ausspracheregeln (6), da diese flexibler, einfacher zu pflegen und leichter zu adaptieren sind (1). Statistische Modelle können mehr Daten erfassen, sind dabei lückenloser (2) und veralten nicht wie die Lexika (1). Außerdem können solche Verfahren fehlertoleranter modelliert werden (1) und haben den Vorteil, dass sie Aussagen über die Wahrscheinlichkeiten von sprachlichen Äußerungen treffen können (1). Auch bei einer Sprache mit starkem Akzent sind statistische Ansätze aussichtsreich (1). Die Spracherkennung und mittlerweile auch die Sprachübersetzung setzen auf dieses Modell (1). Es wird meist anwendungsbezogen und produktspezifisch angewendet (1).
Lexika haben auf der anderen Seite den Vorteil,
dass durch
sie für viele Anwendungen am schnellsten Verbesserungen erzielt
werden können
(1). Statistische Modelle haben in der Vergangenheit zu einem (lokalen)
Maximum
geführt. Langfristig kann es dazu kommen, dass aus ihnen nicht
mehr viel
‚herauszuholen’ ist, wenn nicht bahnbrechende Neuerungen kommen (1).
Statistische Methoden sollten also am besten mit Lexika kombiniert
werden (1).
Eine gute Alternative wären auch statistische Modelle mit
Morphologiekomponente
und einem Ausnahmelexikon (1).
15 Experten halten die Biometrie für die Fahrerzustandserkennung z.B. nach Alkoholkonsum für zu ungenau und würden sie daher zur Beurteilung der Fahrtüchtigkeit nicht einsetzen. Die bisherige Atemkontrolle sei wesentlich robuster (1).
16 Experten sagen allgemein aus, daß sowohl Neugenerierungen als auch Modifikationen gleichermaßen vorangebracht werden sollen. Vier sind der Meinung, daß eine Entscheidung in jedem Fall individuell von den Produkten abhängt, je nachdem, ob die Bedürfnisse der Anwender eher durch eine Neugenerierung oder durch eine Modifikation getroffen werden (2). Es wird empfohlen, in jedem Einzelfall eine Prüfung durchzuführen (evtl. mit gleichzeitiger Verstärkung der Grundlagenforschung zur Wissenserweiterung), da ein bestehendes Produkt hinsichtlich seiner Technologie "ausgereizt" sein kann (ohne dass dies sofort bemerkt wird) und ein neues Produkt möglicherweise eine lange Anlaufzeit braucht, ohne gegebene Erfolgsgarantie (2). Die Generierung völlig neuartiger Produkte kann auch leider nur schlecht geplant werden (1). Eine weitere Empfehlung ist das Anlegen von möglichst offenen Architekturen, um sowohl Weiterentwicklungen als auch Neugenerierungen integrieren zu können (1). Allgemein sollen bestehende Produkte robuster und alltagstauglicher gemacht werden (2), um weitere Produkte darauf aufbauend neu entwickeln zu können (1), d.h. es ist insgesamt wünschenswert, Bewährtes mit Neuem zu verknüpfen (1). Die Verbesserung bestehender Produkte wird dabei vor allem von Konvergenzprozessen geprägt sein, d.h. dem Zusammenwachsen von Computer-, Kommunikations- und Unterhaltungstechnologien. Dabei wird der Aufgabenverteilung auf Endgerät und Server eine große Bedeutung zukommen. Die Kombination unterschiedlicher Dienste und Endgeräte (z.B. Fernseher und PC) wird neue Anwendungsbereiche für die Sprachtechnologie schaffen (1). Es gibt vielversprechende Produkte im professionellen (Diktiersysteme, Call Center) und privaten Bereich (Auto, Spiele), wobei die globale und lokale Vernetzung eine neue Herausforderung darstellen wird (1). Es gibt aber auch eindeutige Antworten für eine der beiden Entwicklungsarten. Fünf Befragte plädieren ohne weiteren Kommentar für Neugenerierungen, besonders im Bereich MT und CAT (1). Wegen der sprunghaften Entwicklung der technologischen und auch theoretischen Grundlagen werden Neugenerierungen auf absehbare Zeit wohl unvermeidlich sein (1) und sollten auch tendenziell im Mittelpunkt stehen (1). Drei Experten entscheiden sich für Modifikationen, d.h. kundenspezifische Anpassungen (1), eventuell mit Einbeziehung von Standards und Kommunikationsprotokollen (1).
Experten raten sowohl dazu, vom Aussterben bedrohte Dialekte (1) als auch bedrohte eigenständige Sprachen zu sammeln (1). Es gibt unterschiedliche Gründe, weshalb Dialekte oder Sprachen aussterben können: herkömmliche Dialekte werden im Sprachgebrauch z.B. oft durch einen ausgeprägten Prestige-Dialekt ersetzt (1). Eigenständige Sprachen können starken Veränderungen wie z.B. der Zunahme von Anglizismen unterliegen und daher bedroht sein (1). Problematisch ist die Tatsache, dass viele Länder, deren Sprachen nur noch wenige Menschen sprechen, nicht die wissenschaftliche und linguistische Infrastruktur zur Erhaltung der Sprachen besitzen und ohne die Schaffung solcher Datenbanken auch den Anschluss an neue Entwicklungen verpassen werden (1). Zwei Experten würden die Kapazitäten für die Schaffung von Korpora lieber für zukunftsträchtige Anwendungen als für die Sicherung von seltenen Sprachen aufwenden (2).
Russland (7) |
- Sprachen des Kaukasus (2) - Kasachisch (1) - Tscherkessisch (1) - Ossetisch (1) - Weissrussisch (1) - Sprachen der früheren UdSSR (1) |
Afrika (4) |
- Nomadensprachen Nordafrikas (1) - Afrikanische Sprachen (3) |
USA und Südamerika (4) |
- Indianische Sprachen (3) - Südamerikanische Sprachen (1) |
Asien (3) | - Süd-ost-asiatische Sprachen (1) - Indonesische Sprachen (1) - Chinesische Sprachen (1) |
Australien (2) |
- Aboriginessprachen (2) |
Syrien (1) |
- Dialekte in Bergregionen Syriens (1) |
Türkei (1) |
- Sprache der Christen im Südosten der
Türkei (1) |
Naher Osten (1) |
- Kurdisch (1) |
Irak (1) |
- Sprache der irakischen Flüchtlinge in
Europa (1) |
Armenien/Iran/Anatolien (1) |
- Armenisch (1) |
Andere (2) | - Eskimosprachen (1) - Kreolsprachen (1) |
Im europäischen Raum sollten in jedem Fall die Minderheitensprachen, insbesondere die 12 als bedroht eingestuften Sprachen (z.B. Elsässisch, Okzitanisch, Sorbisch), gesichert werden (1).
Deutschland (23) |
- Deutsche Dialekte (9) - Plattdeutsch (3) - Friesisch (4) - Jiddisch (4) (germanische Sprache) - Sorbisch (3) (westslawische Sprache, Minderheitensprache in Deutschland) |
Zigeunersprachen (4) (Albanien, Bulgarien, Türkei, Griechenland, Makedonien, Rumänien, Serbien und Montenegro) |
- Rumänische Roma Variante (1) - Romani (1) - Sinti-Dialekte (1) - andere Zigeunersprachen (1) |
Frankreich (2) (Baskenland, Bretagne) |
- Baskisch (1) - Bretonisch (1) |
Alpentäler der Schweiz/Italien (2) |
- Rätoromanisch (2) (Alpentäler der
Schweiz/Italiens) |
England (1) (Wales) |
- Walisisch (1) |
Belgien (Wallonien)/ Nordosten Frankreichs (1) |
- Wallonisch (1) |
Luxemburg (1) |
- Luxemburgisch (1) (westgermanischer
Kulturdialekt) |
Vier Experten erklären, dass sie keine der Sprachen für wirtschaftlich relevant halten. Meist ist dort, wo es nur wenige Sprecher einer Sprache gibt, aufgrund der kleinen Sprecheranzahl kein großer Markt zu erwarten. Bei einer Sammlung von Sprachdaten geht es hier eher um die Identität der Sprecher (1). Am interessantesten in Bezug auf Marktchancen könnten seltene Sprachen sein, die sehr nahe verwandt sind und viele Varianten besitzen (1). In der Sprachsynthese gäbe es auf jeden Fall Märkte im Hinblick auf das Erlernen solcher Sprachen durch gesprochene Korpora. Allerdings die Überzeugung vorherrschen, dass es sich lohnt, in dieser Sprache zu kommunizieren und das Wissen an künftige Generationen weiterzugeben (1).
Afrika (3) |
- Dialekte Nordafrikas im Übergang zwischen
Arabisch, Berber und Französisch (1) - Südlichere afrikanische Sprachen (1) - Bantu-Sprachen (1) |
Indien (1) |
- Indische Sprachgruppen (1) |
Naher Osten (1) |
- Kurdisch (1) |
China (1) |
- Regionale Varianten des Chinesischen (1) |
Australien (1) |
- Aboriginessprachen (1) |
Deutschland (4) |
- Deutsche Dialekte (1) - Jiddisch (2) - Sorbisch (1) |
In den nächsten 10 Jahren werden verlässliche Standards für Annotation (u.a. von Prosodie, Gestik und Emotionen, vergleichbar dem phonetischen Alphabet) (6) und die Kodierung von Sprachdaten und Datenfiles entstehen, um austauschbare, gründlich etikettierte Korpora zu erstellen (10). Parallel werden sich Speichermedien und die Standardisierung von Etikettierungs- und Datenverwaltungswerkzeugen weiterentwickelt haben (1). Auch die Verfahren und Sprachen für die mehrschichtige Metadaten-Annotation (1) und die Interoperabilität zwischen verschiedenen Typen von Datenmengen (aber auch mit bestehenden Werkzeugen) werden zugenommen haben (1). Dabei muß die Entwicklung von Werkzeugen mit der Annotierung und Generierung von Sprachdaten Hand in Hand gehen (1). Per Studie könnte herausgefunden werden, welche Metadaten sind für die Erhebung sinnvoll sind (1). Bis heute ist immer noch eine genaue Aufzeichnung der Sprecher- oder Autoreneigenschaften (Alter, Herkunft, Bildung etc.) sehr wichtig (1). Durch Schlüsselwortgenerierung und das Erkennen von thematischen Signaturen wird zukünftig der zeitaufwändige Prozess der Erstellung von Metadaten reduziert werden (1). Auch spezialisierte Suchmaschinen könnten sowohl Metadaten als auch Volltexte nutzen und den Aufbau paralleler Korpora aus dem Datenfundus des WWW unterstützen (1).
Es sollte mehr anwendungsorientierte (Grundlagen-)forschung mit Einbezug der Industrie betrieben werden (4), ohne dass die reine Grundlagenforschung unabhängig von der industriellen Anwendung (z.B. Datensammlung von seltenen Sprachen) (1) dadurch zu sehr ins Hintertreffen gerät (sprich: keine Verlagerung industrieller Forschung in die Hallen der Universitäten) (1). Allgemein sollte die Forschung immer so flexibel bleiben, dass sie sich neuen Entwicklungen anpassen kann (1).
Anwendungsorientierte Grundlagenforschung beschäftigt sich z.B. mit der Frage, wie minimal eine Ressource mindestens sein muss, um mit ihr noch einen guten Spracherkenner bauen zu können (1). Sie sollte immer weitere Ergänzungen zu bisherigen Mitteln der automatisierten Spracherkennung, bezüglich der Erkennungsqualität und auch der "freien Sprache" (statistische Erkennung) liefern (1). Sie konzentriert sich immer auf Sprachen, die von einer großen Sprechermenge gesprochen werden - im Hinblick auf größere wirtschaftliche Erfolge (1). Das Clustering ähnlicher Sprachen macht es möglich, Forschung schrittweise aufzubauen (1).
Das Material soll aus möglichst vielen natürlichen Kommunikationssituationen und Lebenskontexten bestehen (1). Es sollen möglichst viele Daten von einer Person vorhanden sein, d.h. es sollte so gering wie möglich in die Kommunikationssituation eingegriffen werden, auch wenn dadurch die akustische Qualität unter Umständen sinken könnte (3). Statistisch basierte Ansätze sollen in der Erkennung und Synthese wieder zu Modellen führen, die die Realität enger abbilden (1). Die neuen Ressourcen sollen die praktische Nutzung realer, sinnvoller und gewünschter Applikationen bzw. Systeme repräsentieren (z.B. durch WOZ) (1).
Eine größere Bandbreite an Textkorpora sollte zukünftig entstehen, z.B. E-mail, FAQ, semi-strukturierte Korpora, historische Korpora, Multimedia. Die Korpora können mittels Ontologien semantisch angereichert werden. Daraus sollte sich eine dichte, multi-level Annotation im Sinne der verschiedenen sprachlichen Ebenen, also von Morphologie, Syntax, Semantik bis hin zu pragmatischen Aspekten (Diskurs) (1) ergeben. Auch sollte eine explizite Annotation von Ambiguitäten (1) gemacht werden (1). Die Entwicklung von Korpora-Navigationstools im Sinne des Semantic Web, d.h. die software-technische Möglichkeit, riesige Korpora mittels spezieller Suchmaschinen bedarfsspezifisch zu navigieren (1), sollte weiterentwickelt werden.
Korpora sollen neue, multimodale Anwendungsszenarien/Ressourcen beinhalten (4), dazu gehört auch das Labeling von Benutzeremotionen (1). Der Bedarf an multilingualen Ressourcen (3) und dialektal/soziolektal ausgerichteten Ressourcen (1) wird größer. Viele Sprachen und Dialekte müssen zukünftig in Kombination mit anderen Kommunikationsmodi aufgenommen werden (1).
Ressourcen sollten von einer Sprache in eine andere portabel sein (1). Die Portabilität kann vor allem kleineren Sprachgemeinschaften helfen, das Know-How zu übertragen, das für größere Sprachgemeinschaften (Englisch, Deutsch, Japanisch usw.) bereits erworben wurde (1).
Die automatisierte Schaffung von Ressourcen aus verfügbaren Datenströmen, wie z.B. TV und Radio, und auch aus Tonaufzeichnungen bei Meetings, Konferenzen, Telefonaten unter Berücksichtigung von Datenschutzaspekten wird eine immer größere Rolle spielen (1). Korpora werden künftig zu Test-Suites (handcrafted diagnostic benchmarks) Verbindungen haben (1).
Oft wird das Internet als Quelle für die Sammlung sprachlicher Daten überbewertet (1). Zukünftig werden aber Semantic-Web orientierte Beschreibungssprachen (2) interessant sein. Internet-Texte sollten standardisiert werden, d.h. es sollte eine Art Internet-Verlag entstehen, damit die Ressourcen für die Forschung berücksichtigt werden können (1).
Es sollten künftig zentrale Stellen eingerichtet werden, an der Korpora erworben werden können (2). Auch sollte eine engere Zusammenarbeit mit der Industrie in Form kleiner Projekte mit zügiger Evaluation stattfinden (1). Die Deutsche Forschungsgemeinschaft (DFG) sollte verstärkt gemeinsame Anträge von mehreren Institutionen unterstützen (1) und noch mehr Projekte fördern (1). Die geförderten Korpora sollten anschließend zumindest für die Universitäten frei bereitgestellt werden (2). Der Einsatz von Geisteswissenschaften soll vergrößert werden, so dass sie gemeinsam mit den entsprechenden ingenieurswissenschaftlichen Fächern konkrete Aufgaben bearbeiten (1).
25 Experten sind der Meinung, es sollte in jedem Fall mehr Grundlagenforschung betrieben werden. Acht davon erwähnen spezifisch, dass gerade die anwendungsbezogene Grundlagenforschung wichtig sei, drei sind mit dem Verhältnis zwischen Grundlagen- und Anwendungsforschung bereits zufrieden. Folgende Gebiete wurden erwähnt:
Nach Meinung von 25 der befragten Experten sollten die Verantwortlichkeiten für die Grundlagenforschung besonders von nationalen (25), d.h. staatlichen, aber auch von internationalen (6) Instanzen getragen werden. Das Bundesministerium für Bildung und Forschung (BMBF) (1) und die Deutsche Forschungsgemeinschaft (DFG) könnten diese Funktion im nationalen Rahmen, die EU (1) und speziell gegründete Gruppen wie z.B. die 'Dialogue Encoding Initiative' (1) im internationalen Rahmen übernehmen. Die Universitäten in internationaler Kooperation sollten auch Träger dieser Aufgaben werden (4). Da bestimmte Grundlagen sprachunabhängig sind, sollten gerade diese Phänomene in internationalen Kooperationen erforscht werden (1), z.B. die internationale Förderung 'kleinerer' Sprachen (1).
Experten sprechen sich für eine konkrete Aufgabenteilung aus: staatliche Aufgabe sollte beispielsweise die strikte Kontrolle über Evaluationen (1) und die finanzielle Förderung (3) sein, wobei die Universitäten und andere Forschungszentren die Ausführung der Grundlagenforschung übernehmen (4). Die Industrie soll zwar einen (finanziellen) Beitrag leisten und ein gewisses Mitspracherecht haben, aber nie die Grundlagenforschung diktieren (4). Da die vom Bildungsetat vorgesehenen Mittel nicht ausreichen werden, wird langfristig die Unterstützung durch große Firmen (3) und Stiftungen benötigt, jedoch soll deren Beteiligung unter dem Vorbehalt einer engen Anlehnung an aktuelle Forschungsbedürfnisse (2) stattfinden, d.h. die definierten Ziele der Industrie dürfen keine einschränkende Wirkung auf die Investition in die Grundlagenforschung haben (1). Andererseits sollte darauf geachtet werden, eine anwendungsorientierte Forschung durch ein nur eingeschränktes Mitspracherecht der Industrie nicht außer Acht zu lassen (5), denn auch eine schnelle Umsetzbarkeit von Ergebnissen aus der Grundlagenforschung in konkrete Produkte sollte ein staatliches Anliegen sein (1). Bisher wurde die GF meist nur direkt entweder durch die nationale Instanz oder die Industrie betrieben, was zu Problemen in der Verfügbarkeit von Ressourcen geführt hat (2).
Insgesamt haben sich 37 Experten bereit erklärt, die Fragen zu beantworten. Sechs davon haben den Fragenkatalog nicht zu Ende geführt. Andere Experten haben den Fragebogen zwar bis zum Schluß bearbeitet, jedoch aufgrund ihrer individuellen Schwerpunkte nicht alle Fragen beantwortet.
Frage 1: Berücksichtugung von Dialekten |
26 |
Frage 2: Bedarf an gemischt-sprachlichen
Ressourcen |
29 |
Frage 3: Bedarf an Zweitsprach-Ressourcen |
25 |
Frage 4: Korpus mit Fehlern in der Spontansprache | 31 |
Frage 5: Ausweitung auf Generationenkorpora |
29 |
Frage 6: Alter von Kindern für
Sprachdatenbank |
26 |
Frage 7: Sprachinhalte für Kinderdatenbank |
21 |
Frage 8: Anwendungsszenarien für
Kindersprachdatenbank |
25 |
Frage 9: Stellenwert der Information über
Emotionalität |
30 |
Frage 10: Biometrie zukünftsträchtig
und sicher |
22 |
Frage 11: Engere Zusammenarbeit zwischen
Institutionen |
37 |
Frage 12: Kooperation, jedoch individuelle
Produktentwicklung |
35 |
Frage 13: Zukünftige Regelungen zwischen
Institutionen |
35 |
Frage 14: Juristische Risiken |
23 |
Frage 15: Finanzielle Förderung neuer Sprachdatenbanken | 30 |
Frage 16: Ausgabendeckung durch Vertrieb |
24 |
Frage 17: Förderliche Faktoren für
Weiterentwicklung |
24 |
Frage 18: Hemmende Faktoren für die
Weiterentwicklung |
24 |
Frage 19: Integrierte Ressourcen und deren
Datenbereitstellung |
25 |
Frage 20: Aufnahmequalität und Art des
Inputs |
26 |
Frage 21: Aussprachemodelle der Zukunft |
23 |
Frage 22: Verwendungsbereiche mit künftigen
Innovationen |
30 |
Frage 23: Künftige Produkte ziviler Anwendungen | 27 |
Frage 24: Medizinische Anwendungen von
Sprachressourcen |
30 |
Frage 25: Mögliche künftige
Anwendungen von Biometrie |
23 |
Frage 26: Militärische Anwendungen |
18 |
Frage 27: Modifikationen oder Neugenerierungen neuer Produkte | 28 |
Frage 28: Produkte für Modifikation bzw.
Neugenerierung |
21 |
Frage 29: Sicherung seltener Sprachen |
24 |
Frage 30: Interessanter Markt bei seltenen
Sprachen |
11 |
Frage 31: Forschungsplanung der nächsten 10
Jahre |
31 |
Frage 32: Fragen der Grundlagenforschung |
26 |
Frage 33: Mehr oder weniger Grundlagenforschung |
32 |
Frage 34: Träger der Grundlagenforschung |
32 |