Teil I: Künftige Sprachressourcen

Zusammenfassung

Experten wurden in der Studie dazu aufgefordert, die Höhe des Bedarfs für bestimmte Arten von Sprachressourcen einzuschätzen. Die Studie ergibt, dass ein besonders hoher Bedarf an gemischt-sprachlichen Ressourcen, Zweitsprachressourcen, Ressourcen mit Fehlern in der Spontansprache und Generationenkorpora besteht. Der Bedarf an Korpora mit aufgezeichneten Fehlern in der Spontansprache wird dabei mit 30 übereinstimmenden Meinungen deutlich als besonders hoch eingestuft. Korpora mit Sprechern aus unterschiedlichen Generationen werden nach Meinung von 23 Experten einen steigenden Absatz finden und jeweils 18 Stimmen sehen in gemischt-sprachlichen Ressourcen und Zweitsprachressourcen einen großen Bedarf. Zu den beiden Letzteren gibt es den Einwand, dass bei regelmäßigen Updates der Lexikoneinträge keine speziellen Datenbanken mehr angelegt werden müssten, da Veränderungen in der Sprachentwicklung dadurch automatisch erfasst würden.

Weniger eindeutige Ergebnisse sind für die Erfassung von Emotion und Biometrie zu verzeichnen. 21 Experten halten die Beschäftigung mit der emotionalen Komponente von Sprache für wichtig. Jedoch sehen einige ein Problem in der Erfassung und objektiven Weiterverarbeitung bei der Annotation, andere halten dieses Thema schlicht für überbewertet. Die Biometrie wird nur bedingt als zukunftsträchtig angesehen. 17 Befragte halten den Bedarf zwar für hoch, jedoch einige nur unter der Bedingung, dass bei sicherheitskritischen Anwendungen Robustheit und Zugangssicherheit gewährleistet sind. Dies ist aber momentan nur in Kombination mit anderen Modalitäten und Verfahren möglich.

Dialekte sollen im Anwendungsbereich nur auf dialektal-gefärbte Hochsprache beschränkt aufgezeichnet werden. Innerhalb einer Sprachressource sollte der Dialekt nur repräsentativ abgedeckt werden und nicht im Fokus stehen. Werden separate Dialektdatenbanken angelegt, können sie dynamisch in eine Anwendung geschaltet werden können.

Beim Erheben von Kindersprachdaten sollen Kinder verschiedener Alterstufen aufgezeichnet werden. Die Experten nehmen dabei eine Unterteilung in bis zu 7 Stufen vor. Für den Zweck der Spracherwerbsforschung wird empfohlen, mit ersten Untersuchungen spätestens ab dem 9. Monat nach der Geburt zu beginnen. Für Computer-Anwendungen gilt das 5. Lebensjahr als Beginn ausreichend. Als Anwendungsszenarien wurden auch Freizeit, Medizin, Forschung und das Lehren und Lernen (21) von Sprache genannt. Die geforderten Sprachinhalte sind sehr verschieden, sie werden im Detail im Text aufgeführt.

1. Frage: In welcher Form sollten bei der Schaffung zukünftiger Ressourcen Dialekte berücksichtigt werden?

Bei dieser Fragestellung wird bereits davon ausgegangen, dass Dialekte bei der Erstellung einer Sprachressourcen-Datenbank berücksichtigt werden sollen. In welcher Form und in welchem Umfang, sollten die Experten beantworten.
Hier können drei Nutzungsmöglichkeiten unterschieden werden: die Nutzung von Dialekten für anwendungsbezogene Sprachdatenbanken (5), der reine Erhalt und die Dokumentation von evtl. aussterbenden Dialekten (6) und die Grundlagenforschung (3). Mit 'Dialekt' können sowohl dialektale Akzente in der Hochsprache als auch regionale Varianten gemeint sein. Für den Anwendungsbereich wird eine Beschränkung auf dialektal gefärbte Hochsprache empfohlen (3) und innerhalb einer Sprachressource sollte der Dialekt nur repräsentativ erfasst werden (4), es sei denn, es werden separate Dialektdatenbanken angelegt, die dann dynamisch in eine Anwendung geschaltet werden können (1).

Ausmaß der dialektalen Ausprägung für technische Anwendungen

Die Erfassung von Dialekten für technische Sprachanwendungen erfordert andere Ressourcen als eine reine Dokumentation zu Spracherhaltszwecken:

Für technische Anwendungen ist eine Beschränkung auf 'dialektal gefärbte' Hochsprache ausreichend (2). Es sollten dabei jedoch alle größeren Regionalakzente abgedeckt werden (1). Die 'Bedienung' echter starker Dialekte ist nur von geringem wirtschaftlichen Interesse (1) und für Anwendungsdatenbanken daher uninteressant. Für die Aufnahmen sollten Sprecher mehrerer Dialektgebiete mit regionaler Färbung zur Verfügung stehen, die nicht nur z.B. 'Österreichisch' und 'Schweizer Deutsch' sprechen, da die genannten Kategorien dialektologisch nicht besonders valide sind (1), denn Nationalstaaten und Bundesländereinteilungen haben mit sprachlichen und phonetischen Varianten nicht allzu oft etwas gemein.

Um Datenbanken zu erstellen, die sowohl für Anwendungen als auch für die Wissenschaft dienlich sind, macht ein Experte den Vorschlag, unterschiedliche Sprechaufgaben bei der Erhebung zu kombinieren (1). Denn die Technologie geht von trennbaren Klassen von Sprechergruppen aus, in der sprachlichen Realität gibt es jedoch eine gleitende Dialektausprägung, d.h. Variationen innerhalb angenommener Dialektgebiete und im Sprachverhalten einzelner Sprecher eines Gebietes. Hinzu kommt, dass einzelne Sprecher die Ausprägung ihres Dialektes je nach Anwendungsszenario variieren werden. Die allgemeine Bahnauskunft wird dann beispielsweise von einem Sprecher möglichst auf hochdeutsch angesprochen werden, die sprachgesteuerte Webseite der lokalen Bäckerei dagegen eher im Dialekt [Kommentar der Redaktion]. Dialekte haben viele Probleme mit seltenen Sprachen gemeinsam, da sie keine feste Sprachnorm haben und regionale Unterschiede innerhalb des gleichen Dialekts aufzufinden sind (1).

Anteil von Dialekten innerhalb einer Sprachressource für technische Anwendungen

Dialekte sollen repräsentativ vorhanden sein, aber nicht im Fokus einer Sprachressource stehen (4), d.h. es besteht ein gewisses Interesse an der Verfügbarkeit von Dialekten, und ein Einfließen von lokalen Dialekten wird als wünschenswert betrachtet (1). Die Dialekterfassung trägt zu einer wesentlich höheren Akzeptanz aufgrund der besseren Sprachabbildung von sprachlichen Nuancen bei, was im Hinblick auf wirtschaftlich erfolgreiche Anwendungsfelder sehr wichtig ist (1). Für die Sprachsynthese sind Dialekte nur bedingt interessant (1).

Anderer Ansatz: Separat angelegte Dialektdatenbanken für technische Anwendungen

Dialektdatenbanken sollten so angelegt werden, dass sie dynamisch in die Anwendung geschaltet werden können, am besten durch eine automatische Erkennung des Dialekts durch die Automatic Speech Recognition (ASR) (1). Wenn sich z.B. Produkte mit Sprach-Input/Output weiter verbreiten, kann der Erkenner Dialekte identifizieren (1).

Dialekte in Sprachressourcen zum Zweck der Dokumentation und Grundlagenforschung

Ressourcen zum Zweck des Erhalts von Dialekten und der Grundlagenforschung sollen in eigenen Dialektdatenbanken verwaltet werden, analog zu neuen Sprachen (2). Auch sollten idealerweise regionale Dialektgemeinschaften mit unterschiedlichen Graden an dialektaler Färbung erfasst werden (1), jeweils nach Häufigkeit des Auftretens (1). Für jeden einzelnen Dialekt sollten Aufnahmen vorhanden sein (1).

Beispiele für die Grundlagenforschung

Dialekte sollen erfasst werden, um z.B. evolutionäre Aspekte des Sprachwandels/-einflusses (1) und Diglossie-Situationen untersuchen zu können (1). Für die Beschreibung einer Sprache sind Dialekte wichtig (besonders für die historische Beschreibung). Die Annotation und Auswertung von Daten wird neue Erkenntnisse für die theoretische Linguistik bringen (1).

Hinweise zum Anlegen für Datenbanken

Der Dialekt des Sprechers sollte immer genau gekennzeichnet werden (1). Diese Einschätzung kann nur zum Teil durch den Sprecher selbst erfolgen, in der Regel muss dies ein Experte beurteilen [Kommentar der Redaktion]. Umfangreiche Korpora mit mehreren Sprechern sollten bezüglich Alters und Geschlecht sowie Dialekts die reale Situation in einem Sprachraum abbilden (1).

2. Frage: Wie ist der zukünftige Bedarf an gemischt-sprachlichen Ressourcen (z.B. Deutsch mit englischen Fremdwörtern)?

Die Experten stimmen größtenteils darin überein, dass der Bedarf an gemischt-sprachlichen Ressourcen sehr hoch ist (18). Lediglich drei Experten halten derartige Datenbanken für unnötig, wenn z.B. Lexika regelmäßig auf den neuesten Stand gebracht würden.

Gründe für das Interesse an gemischt-sprachlichen Datenbanken

Gerade der Bedarf an 'authentischen' Daten wird im Allgemeinen zunehmen (3). Dies bezieht sich nicht nur auf das Teilgebiet gemischt-sprachlicher Ressourcen. Als Sprache wird das definiert, was im Alltag, aber auch in Fachsprachen tatsächlich gesprochen wird; dazu gehören im Deutschen auch 'Fremdwörter' wie z.B. Beamer, Trottoir usw. (1). Deshalb müssen in realitätsnahen Anwendungen (4) auch solche Wörter berücksichtigt werden. Besonders für die Kombination Deutsch-Englisch ('Denglisch') besteht schon heute großer Bedarf (in Amerika wird die Kombination von US-Englisch und US-Spanisch in zunehmendem Maße wichtiger) (2). 'Englisch' wird mittlerweile nicht nur im thematischen Kontext von Computern und Technologie, sondern auch verstärkt in Fernsehen und Zeitung verwendet (1). In allen textbasierten Anwendungen oder der mündlichen und E-Mail-Kommunikation (1) entsprechen Sprachkombinationen der real vorzufindenden Situation (1). Überall dort, wo große Minderheitsgruppen in einem Land wohnen, die die Landessprache nicht akzentfrei beherrschen, z.B. türkische Mitbürger in Deutschland oder spanische Mitbürger in den USA, müssen Sprachressourcen 'fehlertolerant' realisiert werden, dabei geht es um mehr als nur z.B. englische Namen, die in der jeweiligen anderen Sprache erkannt werden müssen (1). Bei der gegenwärtigen Domänenabhängigkeit effizienter Technologien sind entsprechende Trainingsdatenbanken erforderlich (1). Ein weiterer Bereich, in dem derartige Ressourcen wichtig sind, ist die Sprachsynthese. Eine gute Synthese ist ohne englische und französische Laute nicht zu denken (z.B. Kinoansage) (1).

In der Forschung können gemischt-sprachliche Datenbanken einen Beitrag zur Modellierung des Spracherwerbs leisten (1) und der Einfluss einer Sprache auf die andere analysiert werden (2).

Gründe für die nur bedingte Wichtigkeit gemischt-sprachlicher Datenbanken

Ein Experte der Befragung hält diese Datenbanken nur für interessant, wenn in standardisierten Metadateien auch die genaue Sprachstellung der Sprecher erhoben wird (1). Wenn Lexika gemäß der realen Sprachentwicklung regelmäßig 'upgedatet' würden, findet ein weiterer Teilnehmer extra angelegte Datenbanken für gemischte Sprache nicht mehr nötig (1), da sich die Veränderung der Sprache dann immer im Vokabular, im Satzbau, in den Verschleifungen usw. niederschlage. Ein anderer Experte wendet ein, dass zwar die Fremdwortbenutzung zunimmt, aber die Aussprachevariabilität dabei nicht größer wird (1).

Probleme und Anmerkungen

Da sich der Wortschatz 'Denglisch' ständig ändert, müssten auch Ressourcen ständig verändert und angepasst werden (2). Außerdem muss klar nach Sprachdomäne spezifiziert werden, worum es sich handelt (z.B. 'Denglisch' oder 'Franglais') (1).

3. Frage: Wie ist der Bedarf an Zweitsprach-Ressourcen (z.B. für türkische Mitbürger, die Deutsch als Zweitsprache erworben haben)?

Die meisten Befragten schätzen den künftigen Bedarf an Zweitsprachressourcen als wachsend und groß ein (18), andere als eher gering (8). Besonders für die Forschung werden solche Ressourcen als wertvoll erachtet (6).

Auffallend ist, dass einige Experten das Thema 'Zweitsprach-Ressourcen' dem Bereich 'Dialekte' zuordnen (5). Kategorial ist ihrer Meinung nach eine Sprachaufnahme eines Ausländers, der Deutsch mit Akzent spricht, nicht anders zu bewerten als die Hochsprache mit dialektaler Färbung, weswegen Lexika-Einträge oder das Erfassen innerhalb einer Dialekt-Ressource genügen.

Gründe für einen wachsenden Bedarf

Da die potenzielle Nutzergruppe für sprachtechnologisch gestützte Anwendungen z.B. in Deutschland wegen der vielen Deutschtürken sehr groß ist, müssen die Anwendungen auch auf ein solches 'Sprachmodell' hin trainiert werden (3), d.h. Sprachressourcen müssen fehlertolerant realisiert werden (1), vor allem im Hinblick auf die Chancengleichheit und die gleichberechtigte Teilhabe am öffentlichen Leben, welches zunehmend durch Sprachtechnologie geprägt sein wird (1).

Nützlich für konkrete Anwendungen und Forschungszwecke

Im Bereich der Telefonie (1), des E-Learnings und für Korrekturprogramme können die Datenbanken gut verwendet werden (2). Sie unterstützen auch die Forschung im Bereich Zweitsprachenerwerb und machen Unterrichtsverbesserungen möglich (z.B. Übersetzungskorpora) (1). Schwierigkeiten im Zweitspracherwerb können durch kontrastive Studien und allgemeine Sprachlernstudien aufgezeigt (4) und durch verbesserte Lehrmethoden reduziert werden (1).

Zweitsprachressourcen sind ,Dialekte' und müssen nicht gesondert erfasst werden

Erkennungssysteme für Ausländer sind möglicherweise überflüssig, wenn sie für Ausländergruppen gedacht ist, die das Deutsche ausreichend beherrschen und nur mit Akzent sprechen (2). Denn hinsichtlich der Abweichungen von der Standardlautung sind beispielsweise türkische Deutsch-als-Zweitsprache-Sprechende kategorial nicht anders zu sehen als z.B. eine sächsische Bahnangestellte, der Kohlenpottkumpel oder der oberbayrische Bauer (1); mit den Merkmalen eines typischen Dialekts eben (2). Außerdem kann man langfristig davon ausgehen, dass sich spätestens ab der dritten Immigranten-Generation der Akzent verwaschen hat (1) und somit das Anlegen einer solchen Ressource zu viel Aufwand bedeutet für einen Zweck, der nicht langfristig bestehen wird. Derartige Variationen gehören nach Ansicht einer anderen befragten Person zum Wesen der Sprache an sich, weshalb regelmäßige Einträge in Lexika genügen sollten (1). Falls sich Institute doch dazu entschließen sollten, eine Ressource mit Zweitsprachlern anzulegen, die nicht nur aus der Türkei, sondern auch aus anderen Sprachgemeinschaften nach Deutschland kommen, wird es schwierig werden, genügend Sprecher für diese Sprachressource zu finden (1). Ein Experte hält das Anbieten von Informationen in den meist relevanten Zweitsprachen für wesentlich kostengünstiger. Wenn Erkennungssysteme für Dialog-/Informationssysteme auch Modelle für unterschiedliche Nicht-Muttersprachler kennen, können solche Systeme dann sinnvoll verwenden (1).

4. Frage: Ist ein Korpus mit Fehlern in der Spontansprache interessant?

Fast alle befragten Studien-Teilnehmer (30) halten das Erfassen von Fehlern in der Spontansprache (z.B. unvollständiger Satzbau, Korrekturen) für besonders wichtig, nicht nur für medizinische Zwecke (2). Lediglich ein Teilnehmer geht von einer geringen Wichtigkeitsstufe aus, ein anderer hält ein solches Korpus zumindest in einem kurz- und mittelfristigen Zeitraum unter drei Jahren kommerziell für uninteressant. Wird die Einschätzung von den Experten weiter begründet, so meist mit den Argumenten, dass Fehler in der Spontansprache die sprachliche Realität am besten abbilden (5) und die Erfassung eines solchen Korpus besonders auch für wissenschaftlich-weiterführende Forschungen (7) interessant sei. Einige Wissenschaftler verweisen bei der Frage sofort auf konkrete Anwendungen (7) oder anwendungsbezogene Techniken (5), die eine Erfassung fehlerhafter Spontansprache notwendig machen.

Fehler in Spontansprache als Forschungsgrundlage

Im Bereich wissenschaftlicher Forschung kann durch die Aufzeichnung spontaner Sprache 'Sprache' umfassender beschrieben werden (1), Sprachproduktionsfehler (1) und Fehlerquellen bei der menschlichen Sprachproduktion können genauer untersucht und Grammatikalitätsgrade (1) beurteilt werden. Gerade Techniken wie das Self-Repair und Self-Monitoring (1) können dadurch genauer untersucht werden. Allgemein gesagt sind solche Daten sowohl aus kognitionswissenschaftlicher (1) als auch auf linguistischer Ebene (2) wertvoll.

Konkrete Anwendungen bzw. Anwendungstechniken einer solchen Datenbank

Bei jeder Anwendung, wo es zu ungrammatischen Sätzen kommen kann, ist auch ein Korpus mit solchen Phänomenen interessant (1). Im Allgemeinen wird die Spracherkennerleistung besser, wenn die Korpora Fehler beinhalten, die Menschen bei der Anwendung passieren werden (1). Solche Anwendungen können eine einfache Datenerfassung durch sprachliche Eingabe oder eine Datenbankabfrage am Computer sein (1) oder ein Grammar-Checking-System (1) oder fehlertolerante Suchanfragen (1), aber auch Dolmetschsysteme (1) oder automatisierte Systeme, die z.B. für das Erstellen von Rechnungen zuständig sind (1). Solche Systeme könnten auch auf der Basis von Dokumenten arbeiten, die z.B. von den behandelnden Ärzten nicht in bester Form und Orthographie verfasst wurden (1). Für die Entwicklung realistischer Sprachdialog-Anwendungen im Allgemeinen sind derartige Daten unerlässlich (1).

Durch die Erfassung fehlerhafter Sprache kann die Beziehung von Prosodie und vorkommenden Reduktionen (1) und die Fehlertoleranz in sprachtechnologischen Anwendungen (2) modelliert werden. Auf Basis statistischer Analyse können Entscheidungskriterien für Sprachanwendungen abgeleitet werden (z.B. zur Steigerung der Robustheit von Systemen und zur Untersuchung von kognitiven Modellen der Sprachperformanz) (1).

5. Frage: Ist eine Ausweitung auf einzelne Generationenkorpora wichtig?

Dies würde bedeuten, dass spezielle Korpora für die unterschiedlichen Lebensalter (z.B. Heranwachsende, Senioren) erstellt würden.
Die meisten Befragten halten Korpora, die jeweils eine unterschiedliche Altersgruppe beinhalten, für wichtig (23), wobei jedoch der Bedarf für das jeweilige 'Lebensalter' (2) geklärt werden sollte. Fünf Befragte gehen dabei von einem besonders hohen Wert für die Grundlagenforschung aus (5). Andere Befragte halten extra angelegte Korpora für nicht notwendig (5), da eine entsprechende Auszeichnung einzelner Daten eines Korpus ausreichen würde (1) und ältere Sprecher bei der Erstellung von Datenbanken generell zu berücksichtigen wären (1).

Gründe für Generationenkorpora

Sprachtechnologie soll verschiedene Altersgruppen möglichst natürlich bedienen können (2). Sprachen entwickeln sich in Generationen-Abständen weiter (1), d.h. das Sprachverhalten und das Vokabular verändert sich über die Generationen hinweg deutlich (1). Daher werden normalerweise besonders Senioren und Kinder bei einer auf Erwachsene im mittleren Alter angelegten Spracherkennung schlechter erkannt (1). Durch die Erfassung von Senioren- und Kindersprache würden zum Einen sprecherspezifische Eigenschaften besser modellierbar (1) und zum Anderen könnten Spracherkenner auf eine bessere Erkennerleistung hin trainiert werden (2). Die Anpassung bzw. Diversifikation wird bei dialogorientierten Mensch-Maschine-Systemen zu besseren Resultaten führen (1). Ein weiterer Aspekt ist die Überalterung der Menschen in Deutschland. Die Zahl der Senioren wird in Zukunft steigen, weshalb speziell Senioren eine immer wichtigere Zielgruppe für Sprachapplikationen darstellen (1). Für die Grundlagenforschung ist die Erforschung des Sprechstils (1), die Analyse von Jugend-, Senioren- und Kindersprache (1) und die Erforschung des Einflusses von Alterserscheinungen (z.B. Schwerhörigkeit) auf die Sprache interessant (1).

Gründe, warum Generationenkorpora vernachlässigbar sind

Wie oben bereits erwähnt sind Experten der Meinung, eine entsprechende Auszeichnung einzelner Daten eines Korpus würde ausreichen (1) und ältere Sprecher seien bei der Erstellung von Datenbanken generell zu berücksichtigen (1). Bei der Erfassung der Veränderung in Syntax und Lexis seien Korpora externalisierter Sprache, also 'Querschnitte' aktueller Sprache zu bestimmten Zeitpunkten, wie etwa bei den Korpora des Institutes für Deutsche Sprache, sinnvoller (1).
Altersspezifische (deutsche) Sprachressourcen sind keine viel versprechende Nische (1).

Organisatorische Tipps für die Erstellung von Generationenkorpora

Die Erweiterung zu Generationenkorpora sollte erst angegangen werden, wenn bereits genug Normkorpora zur Verfügung stehen (1). Korpora sollten per Metadaten so zugreifbar sein, dass man direkt z.B. auf die Daten der über 60-jährigen zugreifen kann (1). Allerdings sind bei der Erstellung von Ressourcen neben dem Lebensalter auch Faktoren wie Dialekt, Soziolekt und Bildungsniveau zu erfassen.

6. Frage: In welchem Alter sollten Kinder sein, die für eine Sprachdatenbank aufgenommen werden?

Für eine Sprachdatenbank mit Kindern sollen nach Meinung von Experten mehrere Altersstufen aufgenommen werden (10). Wenn es zu verwirklichen ist, sollten Kinder eher nach Entwicklungsstufen als nach genauem Alter eingeteilt werden (2).

Je nach Verwendung der Sprachdatenbank treffen Experten unterschiedliche Einstufungen. Für die Spracherwerbsforschung (5) ist das Sprechverhalten ab der Geburt eines Kindes interessant, für kommerzielle Anwendungen frühestens ab dem Kindergartenalter, sinnvoller aber ab dem Alter für leichte technische Anwendungen, etwa mit 5 Jahren (5). Für Alterseinstufungen unabhängig vom Ziel der Sprachdatenbank werden folgende Einteilungen angeraten:

Experten empfehlen ein systematisches 'Abtasten' von Altersstufen bis zum Erwachsenenalter unter Berücksichtigung des Stimmbruchs (2). Die ersten Aufzeichnungen, zumindest für Spracherwerbsstudien (8), sollten ab der Geburt stattfinden. Große Schritte im Sprachverhalten passieren im Kindergartenalter ab 3 Jahren (5). Eine weitere Altersstufe, die von 5 Experten erwähnt wurde, ist das Vorschulalter (Alter: 4-6 Jahre). Dann kommt das Leselernalter ab 6 Jahren (7) und das so genannte 'Schulalter', das etwa vom 10. bis zum 14. Lebensjahr gerechnet werden kann (5). Die (Vor-)Pubertät ab 12 bis 14 oder 16 Jahren (6) unter Berücksichtigung des Stimmbruchs steht als weitere Entwicklungsstufe. Als letzte Gruppe werden Schulabgänger im Alter zwischen 16 bis 25 Jahren (4) erwähnt und die Altersklasse nach dem Schulabgang (21 bis 30 Jahre) (1).

Altersbeginn für die Spracherwerbsforschung

Lernprozesse beim Spracherwerb sind noch weiter zu analysieren (1). Für phonologische Untersuchungen der ersten Spracherwerbsphase ist vor allem die Herausbildung des Phoneminventars ein wichtiges Gebiet. Solche Untersuchungen beginnen sinnvollerweise schon ab der Geburt, spätestens ab 8 bis 9 Monaten (2). Später, im Alter von ein bis drei Jahren, sind Längsschnittstudien zu machen (3). Die Erforschung des Stimmbruchs könnte durch solche Datenbanken auch vorangebracht werden.

Altersbeginn für technische Anwendungen und Beispiele für solche Anwendungen

Die Einstufungen von Experten sind hier relativ konsistent. Eine Datenbank für technische Anwendungen ist erst sinnvoll ab einem Alter, in dem Kinder fähig sind, leichte technische Anwendungen zu bedienen (1). Das ist etwa ab 5 Jahren der Fall (5). Radiomikrophone beispielsweise werden von Kindern ab einem Alter von 5 Jahren für Spontangespräche genutzt. Um sprachlich 'unverfälschtere' Aufnahmen zu erhalten, sollten erste Aufnahmen unbedingt noch vor einem systematischen Kontakt mit staatlichen, möglicherweise hochsprachlich geprägten Erziehungsinstitutionen stattfinden (1). Als nächster großer Altersabschnitt wird von den meisten Experten der Eintritt in die Schule erwähnt. Im Schulalter adaptieren Kinder noch mit spielerischer Leichtigkeit solche Technologien (1). Erfahrungen hieraus wären für alle anderen Anwendungsbereiche wertvoll (2). Mögliche Anwendungen wären beispielsweise Tutoring-Systeme für Kinder im Grundschulalter zum Lesenlernen im Mensch-Maschine-Sprachdialog (1). Weiterhin helfen Kindersprachdatenbanken bei synchronen Studien zur Spracherkennung und Sprachsynthese (1). Denkbar wären auch Spielzeuganwendungen, Zutrittskontrolle am Computer (1) und die Unterstützung im Deutschunterricht für Nicht-Muttersprachler (1).

7. Frage: Welche Sprachinhalte sind bei der Erstellung einer Kindersprachdatenbank zu berücksichtigen?

Hier unterscheiden Befragte unterschiedliche Verwendungszwecke einer solchen Datenbank. Erwähnt wurden neben konkreten kommerziellen Anwendungen (3) auch medizinische, Lern- und Kontrollzwecke (z.B. im Spracherwerb) (15).

Als konkrete Inhalte für die Erstellung einer Datenbank wurden folgende Punkte genannt:

Vorschläge für eine Spracheingabe für die Datenbank sind das Aufnehmen kleinerer Diskurse (satzübergreifend) (1), Kommandos und Diktieren (erst ab dem Leselernalter) (1) oder kindliches Erzählen und Spielen (1). Zur Anregung des kindlichen Erzählens kann man Tierbilder verwenden oder man fordert zum Nacherzählen bekannter Geschichten auf (1). Man kann auch die Spontansprache des Kindes beim Spielen aufzeichnen (1). Je nach Alter könnte man auch Kinder altersgerechte Erzähl- und Lesetexte (2), Sachtexte in Lexika (1) oder typische medizinische Wortschätze (Zürcher Lesetest, Nordwind und Sonne etc.) vortragen lassen. Die medizinischen Wortschätze könnten in der Forschung auch speziell als Referenz für Kinder mit Lippen-Kiefer-Gaumenspalte (1) verwendet werden. Über Spiel- und Freizeitaktivitäten (1), Schule und Erziehung (1) berichten Kinder gerne. Auch Aufgaben, die das Lösen von Alltagsproblemen (1) beinhalten, können Kinder zum Sprechen bringen. Zusammenfassend kann man sagen, dass Inhalte aus der direkten Umwelt und Erfahrung des Kindes spontane Alltagssprache und somit natürliche Sprachdaten hervorbringen (9) und dass Kinder mit in Form und Inhalt kindgerechten Materialien (2) zum Sprechen animiert werden sollen.

Genannte Forschungs- bzw. Anwendungsziele im Spracherwerb

Solche Datenbanken sollten bei der Kontrolle des Spracherwerbs im Allgemeinen (6) und der Kontrolle der Lautentwicklung im Speziellen eingesetzt werden, um Sprachentwicklungsverzögerungen festzustellen (1) oder bei Sprach- und/oder Lernstörungen (3), wie dem Sigmatismus (1), und bei Lese- und Rechtschreibschwäche (1) zum Einsatz kommen. Als Grundlage von Lernhilfen für Ausländerkindern (2) oder bei Kindern im Zweitspracherwerb (1) könnten sie auch genutzt werden. Bei älteren Kindern in der Pubertätsphase könnte untersucht werden, wie Unterhaltungsmedien Sprache beeinflussen (z.B. Hip-Hop) (1) oder wie die Sprachverwendung mit Eltern im Vergleich mit gleichaltrigen Kindern (je nach Geschlecht unterschiedlich) ist (1).

Grobe Inhalte bei der Kontrolle des Spracherwerbs

Zur Kontrolle des Spracherwerbs muss die Sprache bezüglich des Wortschatzes bzw. inneren Lexikons (1), der syntaktischen Strukturen (1) und auf Fehlerproduktionen (etwa Übergenerierung von Verb- und Pluralformen) (1) und morphologische (Über-) Generierungen (1) überprüft werden. Ab 3 Jahre sollte man die Eckvokale abfragen (1). Über alle Stufen hinweg sollten die kognitiven Fähigkeiten je Alter, z.B. der Ausdruck von Transitivität, Kausalität bei sehr jungen Kindern (1), überschaut werden.

Mögliche kommerzielle Anwendungen

Im Anwendungsbereich sind denkbar die Steuerung von Spielsachen, aber auch anderer elektronischer oder optischer Geräte wie Mobiltelefon, PDA und Digitalkamera (1). Hierzu könnte man Kommandos (ASR) aufnehmen (1). Weiter wäre eine kindliche Sprachausgabe denkbar oder Lehrsysteme für Kinder, um z.B. Schulleistungen zu verbessern (1).

8. Frage: Welche Anwendungsszenarien für eine Kindersprachdatenbank fallen Ihnen ein?

Datenbanken von Kindern werden laut Befragtenmeinung für die Bereiche Freizeit (10), Medizin (11), Forschung (9), das Lehren- und Lernen von Sprache (21) gebraucht.

Sprachanwendungen in der Freizeit

Sprachtechnologie wird zukünftig in Spielen und bei Spielzeug (8) beziehungsweise anderen Unterhaltungssystemen (1) in Form von Spracherkennern (3), z.B. auch für 'sprechende' Lexika (1), integrierter Sprachausgabe (1) oder für Spiele mit Sprachinteraktion (1) verwendet werden.

Medizinische Anwendungen

Eine solche Datenbank sollte auch medizinische Problemfälle enthalten (1) und für medizinische Anwendungen geeignet sein (1) (Referenzsprache). Der Spracherwerb sollte mit Hilfe der Datenbank beobachtbar sein und sie soll Entwicklungsstörungen erkennen helfen (1). Beispielsweise sollte die Ausprägung der Prädikat- und Argumentstruktur für Verben, Konzeptualisierungsfehler, d.h. Mismatches zwischen Ober-/Unterbegriff, Teil-Ganzes etc., und die sprachliche Kreativität (1) einschätzbar werden. Zur Verbesserung der Sprachentwicklung könnte eine solche Datenbank Reha-Anwendungen (1) bedienen und ein logopädisches Training im Bereich der Sprachpathologie (5) unterstützen. Weiter könnten Sprachanwendungen präliteralen Kindern den Zugang zu Information (1) erleichtern. Ein weiterer Aspekt wäre die Entwicklung von Sprachsteuersystemen für (körper-)behinderte Kinder (1).

Datenbanken für die Forschung

Datenbanken könnten helfen, Forschung im Spracherwerb, in dessen Störungen und in der Sprachdynamik (7) durchzuführen, und zu sozialwissenschaftlichen und psychologischen Fragestellungen (1) Aufschluss zu geben. Konkretere Fragestellungen wären, wie und ab wann Mädchen und Jungen an der Stimme unterschieden werden können, wie spontansprachliche Erscheinungen von Kindern in unterschiedlichen Altersstufen ausfallen, die Art der Gestenverwendung und die nicht-verbalen Vokalisierungen in den verschiedenen Altersstufen (wie z.B. Lachen, Backchannel-Äußerungen und affektive Interjektionen) (1).

Datenbanken zu Lehr- und Lernzwecken

Datenbanken könnten für (Lese-)Lernprogramme/Systeme/Software für Vorschul-/Grundschulkinder inkl. Kinderlexika (9) und Lernumgebungen für den Fremdsprachenunterricht, z.B. Sprachlernsoftware (4), nützlich sein. Kinder könnten Diktierfunktionen für Hausaufgaben (1) und SMS (1) verwenden. Im Lehrbereich könnten Tutoring-Systeme (2), Anwendungen im Bereich des E-Learning (2) und andere Lehrsysteme (z.B. für Mathematik und Deutsch) (2) interessant sein. Die sprachliche Vermittlung von Lehrinhalten u.a. (1) könnte teilweise die Lehrkraft ersetzen.

9. Frage: Welchen Stellenwert haben Informationen über die emotionale Komponente der Sprache?

Beim Stellenwert von Emotionen existieren unter den befragten Teilnehmern der Studie unterschiedliche Einschätzungen. 21 Befragte halten die Erfassung von Emotionen für sehr wichtig, darunter acht für zunehmend wichtig. Andere Befragte denken, die emotionale Komponente sei weniger wichtig (9) und nur ein Thema, das eben gerade 'in' sei und daher überbewertet werde. Außerdem ist das Evozieren bzw. Erfassen schwierig und die Annotation immer auch subjektiv (4).

Gründe für das Erfassen von Emotionen

Applikationen sollen berücksichtigen, wie die Benutzerzufriedenheit ist. Dafür müssen Modelle entwickelt werden (1). Durch das Erkennen von Emotionen kann eine Aussage über die Intention eines Sprechers getroffen werden, und es können Missverständnisse zwischen Benutzer und System vermieden werden (3). Emotionen üben auch einen Effekt auf die anderen sprachlichen Komponenten wie Wortwahl, Satzbau, Informationsstruktur etc. aus (2).

Gründe für die Vernachlässigbarkeit von Emotionen

Im Vergleich zu den bereits erwähnten Themen wie Dialekte usw. sind Emotionen zu vernachlässigen (9). Einige halten sie für die meisten Anwendungen von heute, z.B. Dialog-/Informationssysteme oder Kommando-Geräte-Steuerung, von nur geringer Relevanz (3) oder können sich nicht vorstellen, welche Anwendungen daraus erwachsen können (2).

Mögliche technische Anwendungen

Denkbare Anwendungen wären eine emotional gefärbte Synthese (2), die Nutzung für das Design von Benutzer- und intelligenten Mensch-Maschine-Schnittstellen (4), Embedded Systeme (1) oder adaptive benutzerfreundliche Dialogsysteme (4) und die Nutzung für bestimmte Use-Cases (1), wie das semantische Entschlüsseln von Sprache (2).

Mögliche Forschungsgebiete

Forschung wäre auf dem Gebiet bestimmter syntaktischer Phänomene denkbar, wenn z.B. ein auswertender Mensch interpretativ syntaktische Erweiterungen an ihm interessant und lohnend erscheinenden Stellen anfügt (1). Auch die Forschung im Bereich Psycholinguistik (1) könnte dadurch ausgeweitet werden. Lohnend wäre auch herauszufinden, ob emotionale Komponenten fehlerfrei oder mit hoher Wahrscheinlichkeit erkannt werden können. Eine verbesserte Mensch-Maschine-Interaktion könnte diese Parameter dann verarbeiten und nutzen (1).

Probleme beim Erfassen von Emotionen

Emotionen sind bei einer kontrollierten Situation wie bei Aufnahmen schwer 'herauszulocken', auch wenn der Sprecher sich unbeobachtet fühlt. Weiß der Sprecher Bescheid, werden die Emotionen sehr kontrolliert wirken (1). Es wird daher nicht leicht sein, eine repräsentative Menge an Daten zu sammeln (1). Die Annotation von emotionalen Zuständen ist sehr schwierig (1). Hier ist noch Grundlagenforschung nötig (2). Wenn eine Einschätzung der Emotionalität bei der Annotation von Daten vorgenommen wird, trägt diese auch immer subjektive Züge (1). Weiter ist fraglich, ob derartige Korpora ethisch vertretbar sind und ob nicht Probleme im Bereich des Datenschutzes auftreten werden.

10. Frage: Ist die Biometrie der Stimme zukunftsträchtig und sicher?

Über die Hälfte der Befragten sehen in der Biometrie der Stimme einen zukunftsträchtigen Bedarf (17). Viele Experten nennen dazu aber auch Bedingungen, die erfüllt sein müssen, um Biometrie-Daten in Zukunft erfolgreich anwenden zu können. Zu den Hauptkriterien zählen hier die Robustheit gegenüber Geräuschen und leichter Stimmveränderung einerseits und die Zugangssicherheit, die nur die Kombination mit anderen Modalitäten und Verfahren gewährleisten wird (6), andererseits. Einige Befragte halten die Biometrie nicht für zukunftsträchtig (5). Das liegt auch daran, dass Anwendungen keine 100%ige Sicherheit bieten können. In Sicherheitsfragen finden neun Experten, dass die Biometrie nur bedingt sicher ist, drei Experten sind der Meinung, sie sei überhaupt nicht sicher.

Gründe für die Erhebung Biometrie-Daten

Ein Vorteil von Biometrie-Daten ist, dass sie einfach zu erheben sind (1). Bisherige Testanwendungen haben gezeigt, dass auch die Akzeptanz von biometrischen Verfahren, die auf der Sprache basieren, sehr hoch ist (1). Besonders im unternehmensinternen Einsatz sind Biometrie-Anwendungen für die Absicherung von Information relevant und optimal (wegen des geringen Mitteleinsatzes bei den Endgeräten) (1). Zudem liegt im Bereich Biometrie ein großes staatliches Interesse vor (1). Schreibt man die bisherige Entwicklung also weiter, wird Biometrie zukünftig ein Thema bleiben (1). Falls Biometrie-Anwendungen in der nächsten Zeit noch keine akzeptable Sicherheit bieten, sind trotzdem zahlreiche unkritische Anwendungen vorstellbar (1). Auch für die Grundlagenforschung ist die Biometrie interessant (1).

Bedingungen für Zukunftschancen der Biometrie

Die Biometrie kann nur interessant sein, wenn sie auch sicher ist (1). Es wird auch nur dann zukünftig eine Nachfrage bestehen, wenn es gelingt, die 'Einheit' des Stimmenmusters auch in Situationen großer emotionaler Belastung oder anderer stimmverändernder Faktoren zu erfassen (2), und wenn die Technik dahingehend verbessert wird, dass Stimmerkennung auch bei Rauschen und äußeren Begleitgeräuschen möglich ist (1).

Gründe, warum die Biometrie nicht als zukunftsträchtig gilt

Die biometrischen Dimensionen von Stimme ufern zu weit aus, um mehr als nur punktuell erfasst werden zu können. Die Verbindung zwischen Stimmqualität und glottaler Funktion wird zunehmend aufgeklärt. Die Erweiterung des Begriffs 'Stimme' um die biometrische Komponente jedoch hat eine zu vieldimensionale Ausprägung (1). Außerdem können Biometrie-Anwendungen zu menschlichen Abwehrreaktionen ähnlich wie bei der Erfassung von Fingerabdrücken, Iris-Scan etc. führen (2).

Sicherheit bei der Anwendung von Biometrie

Biometrie ist in der Anwendung nur bedingt (9) oder gar nicht sicher (3). Nur die Kombination mit anderen Modalitäten und (Authentifizierungs-)Verfahren, wie z.B. Gesichtsscanning, Online- Unterschrift, Iriserkennung und Fingerabdruck würde für sicherheitskritische Anwendungen eine akzeptable Sicherheitsstufe gewährleisten (6). Ohne derartige Zusatzverfahren könnte durch verstecktes Aufnehmen eines Sprechers sein individueller Biometrie-Code kopiert und zum Knacken des Sicherheitsportals genutzt werden (1). Auch kann heutzutage ein leicht adaptierbares Hidden-Markov-Model (HMM) Sprachsynthese-System fast jedes Sprecherverifikationssystem überlisten, sobald von dem fraglichen Sprecher genügend Daten vorliegen (1). Daher sollten Biometrie-Verfahren nur bei unkritischen Anwendungen zum Einsatz kommen.

Teil II: Organisation der Zusammenarbeit von Institutionen

Zusammenfassung

Eine stärkere Zusammenarbeit zwischen Institutionen wird von allen Befragten gewünscht, da die gesamte Infrastruktur der Sprachtechnologie dadurch gestärkt und die Qualität der Ressourcen zunehmen wird. Das Modell der gemeinsamen Ressourcen-Schaffung und individuellen Produktentwicklung wird dabei auch in Zukunft aus Wettbewerbsgründen der Standard bleiben. In den Regelungen für eine Zusammenarbeit werden Forschungseinrichtungen gegenüber Firmen weiterhin in der Form bevorzugt werden, dass sie von der Lizenzgebühr auf Ressourcen befreit werden. Aus öffentlicher Hand finanzierte Ressourcen sollen der Allgemeinheit dienen und idealerweise allgemein zugänglich sein. Juristisch müssen vor einer Aufnahme der Schutz des Sprechers garantiert und andere Sicherheitsregelungen schriftlich festgehalten werden. Die Förderung für die Schaffung von Sprachdatenbanken soll sowohl aus staatlichen als auch aus privatwirtschaftlichen Quellen kommen, wobei der Staat im Gegensatz zu Firmen bereit ist, zu Forschungszwecken auch wirtschaftlich uninteressante Ressourcen zu unterstützen. Kosten für die Schaffung von Ressourcen werden durch den Vertrieb nur zum Teil ausgeglichen.

Die allgemeine Nachfrage im Bereich der mobilen Dienste, der Wunsch nach Förderung des Zusammenwachsens Europas und die Verbesserung der Sensor- und Computertechnik wirken sich in der Entwicklung der Sprachtechnologie sicherlich förderlich aus, die momentane wirtschaftliche Krise Deutschlands und unausgereifte Systeme auf dem Markt hemmen dagegen die Nachfrage.

11. Frage: Soll eine engere Zusammenarbeit zwischen Sprachtechnologie-Institutionen stattfinden? Warum und wie genau?

Alle Befragten sprechen sich einstimmig für eine engere Zusammenarbeit zwischen Sprachtechnologie-Institutionen aus. Die gesamte Infrastruktur (in Europa) wird durch eine Schaffung einer gemeinsamen Plattform gestärkt werden (1) und eine positive Entwicklung im Bereich der Qualität und Größe von Sprachressourcen zur Folge haben. Institutionen, die an der Schaffung von Ressourcen beteiligt sind, müssen gemeinschaftlich verbindliche Standards festlegen, was allgemein zu einer Aufwertung der entstehenden Ressourcen führt, da diese im Vergleich zu vielen bisherigen language ressources (LR) zum einen für eine größere Anzahl von Nutzern anwendbar und gleichzeitig für mehrere Anwendungen wieder verwertbar werden (3). Durch die Kosten- und Arbeitsteilung (2) und die Koordination von Bearbeitungstools (1) wird die Schaffung großer einheitlicher Ressourcen ermöglicht. Eine Kooperation verschafft darüber hinaus einen Überblick über bestehende und geplante Ressourcen an den Standorten (1) und hilft, neue LR sinnvoll zu planen.

Vorteile durch mehr Effektivität und Qualitätssicherung

Die Abstimmung verschiedener Institutionen untereinander wird dabei helfen, Kapazitäten zu bündeln (1), dadurch schneller und effektiver (2) große Ressourcen zu erschaffen (1) und lästige Doppelarbeit zu vermeiden (5). Durch den Austausch von Tools können zusätzlich Kosten für die Erweiterung der Ressourcen eingespart werden (1). Die Verknüpfung von Spezialkenntnissen in einzelnen Sprachen (2) ermöglicht erstens, dass mehrsprachige Korpora leichter gesammelt werden (2) und zweitens, dass unterschiedliche Anforderungen, die von Seiten der Anwendungen gestellt werden, besser erfüllt werden können (1). Durch Erfahrungsaustausch (3) und Wissenstransfer (3) können die Vergleichbarkeit von Forschungsergebnissen verbessert (1), Fehler vermieden (2) und schnellere Fortschritte (1) erzielt werden.

Festlegung von Annotierungsstandards

Eine Standardisierung von Korpora (3) betrifft vor allem die Abstimmung bezüglich der Annotation (6) und den dazu gehörenden Annotierungs- und Austauschformaten (1). Mithilfe von Modulen verschiedener Institutionen können multi level Annotationen von Korpora durchgeführt werden (1). Zu einer Standardisierung gehört auch die Schaffung einer gemeinsamen Software-, Hardware- und auch Aufnahme-Umgebung, das heißt. z.B. gemeinsame (Meta-)Datenformate (4) und eine Abstimmung bezüglich verwendeter Mikrofone, Soundkarte etc. (1) - alles unter dem Stichwort "cross-searchability" (3).

Eine genaue Absprache, wie die Daten erfasst werden sollen, ermöglicht danach einen gemeinsamen Zugriff für unterschiedliche Zwecke (1). Auch genaue Spezifikationen und Anforderungen an die Korpora (ihr Zweck) sollten formuliert werden (2). Das hat den Vorteil, dass auch andere Institutionen ihre Erfahrungen bzw. Problemlösungen einfach einbringen können (2).

Regelung von Finanzierung, Austauschs und Zugänglichkeit von Daten

Bei der Schaffung großer Korpora sollen die Kosten bezüglich der Sammlung und Transkription der Sprachdaten und der Lexika geteilt werden (5). Vorher muss geklärt werden, wie viel die Industrie für ein solches Korpus zu zahlen hat (1) und wer bereit ist, dafür zu zahlen. Eine Nutzung der Datenbanken kann der Industrie auch kostenlos oder zumindest kostengünstig erlaubt werden, um schnellere Fortschritte im Anwendungsbereich erzielen zu können (3). Forschungseinrichtungen haben den Vorteil des Anwendungsbezugs, wenn sie Korpora an Unternehmen weitergeben (1).

Forschungseinrichtungen untereinander können für die Nutzung eines Korpus die Regelung treffen, dass ein Korpus nur dann an eine Einrichtung vergeben wird, wenn diese dafür eigene Ressourcen bereitstellt oder sich verpflichtet, daraus gewonnene wissenschaftliche Ergebnisse 'zurückzugeben' (3). Die Austauschpflicht soll vertraglich geregelt werden (1). Spezielle Rabattregelungen, z.B. pro gespendeter Stunde Material wird ein festgelegter Rabatt auf anderes Material gewährt, können die Bereitschaft steigern, Material aufzubereiten und einer zentralen Stelle zur Verfügung zu stellen (1). Zwischen Forschungseinrichtungen kann auch ein freier Zugang zu Korpora für Forschungszwecke und eine freie Verfügbarkeit von Software und Skriptdateien vereinbart werden (2).

Konkrete Vorschläge für Kooperation

Zu Anfang jeder Zusammenarbeit müssen klare Ziele formuliert und Domänen bestimmt (1) werden, um die Nutzbarkeit der gemeinsam gesammelten Daten für die individuellen Bedürfnisse der Partner zu gewährleisten (1). Um die mittelfristigen Vorstellungen und Absichten (Typ von LR, Regionen etc.) abzustimmen, muss sich ein internationales und/oder nationales Netzwerk von LR-Produzenten und Anwendern etablieren (1). Es existieren bereits große Konsortien, wie z.B. überregionale und überuniversitäre Verbundprojekte (2), wie SPEECON oder SpeechDat (1). Die Verbindung mit bestehenden Initiativen (z.B. OLAC) sollen bestehen bleiben, andererseits müssen sich auch innerhalb von Deutschland die Organisationen, die sich mit gesprochenen und geschriebenen Korpora beschäftigen, enger zusammenarbeiten (1). Regelmäßige Treffen von Vertretern aus der Industrie und aus der Forschung sollen stattfinden. Es müssen sich aber möglichst kleine Kreise mit genauer Aufgabenverteilung (3) zusammenfinden. Eine Zusammenarbeit kann auf allen Ebenen stattfinden , z.B. per Telefon, E-Mail, Workshops, Mailinglists, Newsletter, Interessenforen, über Leiharbeiter (3).

Ein konkreter Vorschlag für die enge Kooperation zwischen Universitäten und Firmen ist, eine zentrale Koordination oder einen deutschlandweiten Zweckverbund (e.V.) mit einem überschaubaren Mitgliedsbeitrag (ca. 200 Euro) ins Leben zu rufen, welcher die Verwaltungsaufgaben des Zweckverbundes deckt. Der Verbund hätte die Aufgabe, Anforderungen an Korpora zu sammeln und Korpora zu verwalten. Einzelne Universitäten bzw. Firmen würden spezielle Aufbereitungen (Etikettierung, Analyse-Merkmale) von Allgemeininteresse beisteuern und dafür das betreffende Korpus und alle dafür erstellten Merkmale kostenlos nutzen. Bei einer Mithilfe an mindestens drei Korpora im Jahr könnte der Zugriff auf drei weitere Korpora kostenlos möglich gemacht werden. Ohne Zuarbeiten wäre ein kostenpflichtiger Zugriff für Mitglieder auf beliebige Ressourcen möglich. Die Datennutzung ohne Mithilfe sollte mit überschaubaren Summen (max. 5000 EUR für große Datenbanken) bezahlbar sein (1).

12. Frage: Bisweilen gibt es eine Kooperation bei der Schaffung von Ressourcen, in der Folge betreiben die Partner eine individuelle Produktentwicklung: Wie wird sich dieses Modell weiterentwickeln?

Ein Großteil der Experten geht davon aus, dass eine individuelle Produktentwicklung der Standard bleiben wird (23). Eine Kooperation wird weiterhin nur beim Aufbau von Ressourcen stattfinden. 9 Experten erklären ausdrücklich, dass sie dieses Modell für adäquat und wünschenswert halten. Kritik gibt es nur insoweit, dass solche im kleinen Kreis erstellten Ressourcen bisher nur für die Projekt-Partner, jedoch nicht für eine größere Allgemeinheit zugänglich waren. Als positive Gründe für eine Kooperation bei der Erstellung der Ressourcen wurden die Schaffung von Standards, die Reduzierung des Zeit- und Finanzaufwands und die höhere Qualität genannt. Im Bereich der Schaffung von Ressourcen wird die Kooperation noch weiter zunehmen (4). Die individuelle Produktentwicklung wird aus Wettbewerbsgründen jedoch bestehen bleiben (10).

Gründe für eine Kooperation in der Ressourcen-Schaffung

Ein Grund für die Kooperation ist die Schaffung verlässlicher Standards und guter Dokumentationen (1). Dies betrifft vor allem standardisierte Annotierungen bei Ein- und Ausgaben von Systemen (1). Die darauf folgende eigene Produkt(weiter)entwicklung ist dann breiter einsetzbar oder schneller adaptierbar (1).

Kooperationen sind unumgänglich, wenn eine Ressource nicht nur individuell erfolgreich eingesetzt werden soll (1). Das individuelle Sammeln und Aufbereiten von Daten stellt für eine spätere breite Bereitstellung keinen effektiven Weg dar (1). Eine individuelle Ressourcenerstellung ist nur dann lohnenswert, wenn eine Firma z.B. gedenkt, exklusiv ein Marktsegment zu besetzen (1). Eine große Verbreitung der Ressource sichert ihre höhere Qualität, da von mehreren Trägern Fehlerkorrekturen und Ergänzungshinweise gegeben werden (1). In Zukunft allerdings ist das primäre Ziel, neue Produkte ohne neue Ressourcen zu erzeugen. Da die Ressourcengenerierung teuer ist, wird sich bei einer bestimmten Menge verfügbarer Ressourcen der Bedarf an neuen Ressourcen verringern (1).

Gründe für das Bestehenbleiben einer individuellen Produktentwicklung

Unterschiedliche Interessenschwerpunkte in der Produktentwicklung und das Interesse am Wettbewerbsvorsprung werden sich auch in Zukunft nicht vermeiden lassen (10). Daher wird eine gemeinsame Produktentwicklung die Ausnahme bleiben (2). Die Generierung von sehr kleinen (firmen-)spezifischen LR wird es zwar weiterhin auch geben (2), jedoch die Masse der industriell interessanten LR werden dem Konsortium-Modell SpeechDat/SPEECON folgen (1). Vorstellbar ist eine gemeinsame Produktentwicklung nur bei speziellen Vereinbarungen (z.B. im Automobilbau), bei Firmenfusionen und, wenn Produktkomponenten gemeinsam in komplexere Produkte einfließen sollen (3). Das ist dann immer auch eine wirtschaftliche Entscheidung.

Bestehendes Vorgehen wird als positiv bewertet

Die individuelle Produktentwicklung mit gemeinsamer Ressourcenschaffung wird von einigen Experten durchaus ausdrücklich als adäquat und wünschenswert bewertet (3). Für bestimmte Anwendungsklassen ist das ein sehr vernünftiges Modell, vor allem, wenn generische Daten gebraucht werden (1). Ressourcen können auf diese Art von allen genutzt werden (1) und der Aufwand für die Erstellung wichtiger Grundlagen verringert sich (1). Darüber hinaus besteht nach Meinung einiger Experten keine Notwendigkeit, über die Schaffung von Ressourcen hinaus weiter zusammenzuarbeiten (3).

Mögliche Weiterentwicklungen innerhalb dieses Modells

Oft findet die Ressourcen-Kooperation nur in einem engen Kreis statt und die Ergebnisse sind nicht für alle zugänglich. Ein Vorschlag ist daher, solche Ressourcen auf nationaler Ebene als "Freeware" zu kreieren (1) oder ihre Sammlung und die Entwicklung von Basiskomponenten durch spezialisierte Anbieter vornehmen zu lassen (Outsourcing) (1). Open-Source-Produkte werden in Zukunft eine immer größere Rolle spielen (1).

13. Frage: Was ist wichtig für zukünftige Regelungen zwischen Forschungseinrichtungen (bzgl. Freigabe eines Korpus, Austauschkonditionen, Vertragsregelungen etc.)?

Forschungseinrichtungen sollen laut Expertenmeinung Ressourcen bevorzugt erhalten (19) und von einer Lizenzgebühr befreit werden, damit die Forschung nicht durch finanzielle Engpässe blockiert wird. Ist diese Regelung nicht umsetzbar, soll zumindest eine Austauschregelung aufgestellt werden, die einen Erwerb der Ressource bei gleichem Gegenwert vorsieht. Wurden Korpora aus öffentlichen Mitteln finanziert, sollen sie allgemein zugänglich sein. Ist dies nicht machbar, soll nur die Industrie für den Erhalt einer LR eine Lizenz bezahlen.

Regelungen zur Verwendung von Korpora für die Wissenschaft

Forschungseinrichtungen sollen Korpora kostenlos als Open Source (19) nutzen dürfen, besonders, wenn sie von öffentlicher Hand finanziert wurden (6). Falls der völlig freie Zugang nicht möglich ist, sollte zumindest ein Austausch stattfinden können, das heißt. mit der Gegenleistung einer eigenen Ressource kann ein Korpus erworben werden (5). Damit die Daten austauschbar sind, müssen Kodierungsstandards beachtet werden (1). Ein Austausch kann auch so aussehen, dass die Spender-Institution pro weitergegebenem Datensatz eine Sachspende in Form von Freiminuten auf andere Korpora erhält (1), oder er kann sich nur auf Standardformate beziehen (1) und im Idealfall Aufwände abdecken (2). Die Bedingungen eines Austausches müssen dabei frühzeitig umfassend festgelegt werden (2). Am besten, indem ein 'Ehrenkodex' angewendet wird, um zu verhindern, dass sich eine Institution benachteiligt oder ausgenutzt fühlt (1). Kleine Institute, die sich teure LR nicht leisten können, sollen eventuell von der Gebühr befreit werden (1) oder mit einer Gegenleistung durch eigene Ressourcen ein Korpus nutzen dürfen (1). Für Forschungseinrichtungen, die selber keine LR produzieren, können im Vergleich zur Industrie preislich niedrigere Forschungslizenzen erhoben werden (1).

Intellectual Property Rights (IPR) der Ersteller eines Korpus (siehe auch das eContent Programm der EU) sollen immer festgelegt und die Urheber in allen Publikationen gewürdigt werden (1). Haftungsbestimmungen sind möglichst auszuschließen (1).

Regelungen zur Verwendung von Korpora für die Industrie

Wenn Korpora durch öffentliche Hand finanziert wurden, ist ein realistisches Modell für die Freigabe eines Korpus, die Ressourcen ein Jahr exklusiv nur für die Partner verfügbar zu machen und dann der Allgemeinheit via BAS/ELRA/LDC etc. gegen einen Kostenbeitrag zur Verfügung zu stellen, wie es in den Projekten Verbmobil und SmartKom der Fall war (1).

Wird nicht von öffentlicher Hand gefördert, sollen Lizenzgebühren bezahlt werden (9). Diese sollen sich auf einem Preisniveau einpegeln, das auch der Tatsache Rechnung trägt, dass Datenbestände veralten (Preisanpassung) (1). Es können auch spezielle Evaluationslizenzen erhoben werden, die ein obligatorisches Feedback beinhalten, mit der Aussicht auf Entlohnung (1). Kommerzielle Partner können auch die Möglichkeit bekommen, statt der Lizenzgebühren mit eigenen Datensammlungen zu zahlen (1). Wichtig ist dabei, dass die Abnehmer von Ressourcen sich schriftlich verpflichten, private Ressourcen nicht an Dritte weiterzugeben (2). Allgemein soll die Regelung der kommerziellen Nutzung sehr präzise ausfallen (1).

Weitere Vorschläge zur zentralisierten Kooperation

Wünschenswert sind zentrale Stellen für die Freigabe und Verteilung von Korpora (1), die aus dem Internet heruntergeladen werden können (1). Hierbei muss vertraglich festgelegt werden, wer die Pflege und Aktualisierung der Korpora übernimmt (1), und es muss eine Einigung hinsichtlich des Einfließens von Arbeitsergebnissen (ähnlich wie GPL) stattfinden, die der Gemeinschaft wieder zur Verfügung gestellt werden (1). Ergebnisse und die Integration in die zentralen Ressourcen sollen über Mitgliedsbeiträge der Vereinigung (e.V.) finanziert werden (1). Standardverträge für alle Einrichtungen, die die Freigabe regeln, erleichtern dem kommerziellen Anwender den Erwerb von LR wesentlich, da nur noch die einmalige Prüfung über die firmeninterne Rechtsabteilung nötig ist (1). Gewinnregelungen sollen eine Geldverteilung zwischen beteiligten Instituten vorsehen (1). Die von der Industrie erlösten Rückflüsse sollen in Teilen wieder zu den öffentlichen Geldgebern zufließen und/oder in die Korpusproduktion reinvestiert werden (1).

Jede einzelne Einrichtung soll jeweils auch eine knappe und aktuelle Übersicht über das eigene Angebot im Internet bereitstellen (1) und als Vertreiber einer Ressource auch eine kostengünstige Trial-Version anbieten (1).

14. Frage: Welche möglichen juristischen Risiken sollten bei der Verwendung von Sprachdatenbanken berücksichtigt werden?

Schutz der Sprecher

Vor Beginn der Aufnahmen sollte eine juristisch einwandfreie Einverständniserklärung mit der Erlaubnis zur freien Verwendung und späteren Nutzung entwickelt und vom Sprecher unterzeichnet werden (1). Diese soll auch für alle nachfolgenden Aufnahmen als Vorlage verwendet werden (4). Sprachspender-Daten müssen für die Öffentlichkeit anonymisiert sein (5), daneben wird allerdings die Möglichkeit zur Re-Identifizierung der Sprecher gefordert (1). Zum Schutz vor Missbrauch der Stimme (z.B. für pornografische Zwecke) ist die Anonymisierung wichtig (4). Die Datenschutzbedingungen müssen mit den erwachsenen Sprechern und den Eltern von unmündigen Kindern genau abgestimmt und eingehalten werden (4).

Vor allem bei Sprachsynthese-Aufnahmen muss das Recht auf die eigene Stimme als wichtiges Element und Ausdrucksmittel der eigenen Persönlichkeit und Person gewahrt werden (1). Dem GEMA-Modell folgend sind Sprecher, deren Stimmen besonders breite Anwendung in Sprachsynthese-Systemen finden werden, an den Lizenzgebühren zu beteiligen (1). Künstlich erzeugte sprachliche Aktionen sollen für den Fachmann kenntlich gemacht werden (durch ‚Wasserzeichen’), wird vage gefordert (1).

Bestimmung der Nutzungsrechte und Sicherheitsregelungen

Bei der Vergabe einer LR muss der Anwender per Unterschrift garantieren, sie für bestimmte Zwecke nicht zu nutzen (2). Solche Nutzungseinschränkungen gelten beispielsweise für pornografische und andere unlautere Zwecke (1). Weiter muss garantiert werden, dass das erworbene Korpus nicht an Dritte weitergegeben oder verkauft wird (1).

Wurde die Ressource in einem Zweckverbund erfasst, sollen die Verwertungsrechte im Besitz des Verbundes bleiben. Der Verbund muss eine Überprüfung der Mitglieder vornehmen, damit eine militärische und terroristischer Nutzung der Daten ausgeschlossen werden kann (1). Da Ressourcen sehr teuer sind, muss das Copyright und Eigentumsrecht genau festgelegt werden (4).

Im Bereich der Biometrie müssen Regelungen zur Sicherung vor unberechtigtem Zugriff auf die Daten (1) und zur Fälschungssicherheit (1) getroffen werden, ein Trust-Center ist ggf. einzurichten (1), da biometrische Merkmale höhere Missbrauchsgefahr bedeuten als beispielsweise ein ‚genetischer Fingerabdruck’ (1).

15. Frage: Woher soll bei der Schaffung neuer Sprachdatenbanken idealerweise die Förderung kommen?

Die LR muss hauptsächlich aus staatlichen oder auch europäischen Kassen (2) gefördert werden (17) oder je nach Verwendungszweck idealerweise aus beiden Quellen stammen (13). Dabei gibt es eine relativ eindeutige Verteilung der Aufgaben: Die Wirtschaft wird nur Beiträge zu wirtschaftlich interessanten Ressourcen leisten; der Staat fördert auch wirtschaftlich unbedeutendere Ressourcen, die z.B. für die Grundlagenforschung und zum Schutz seltener Sprachen eingesetzt werden. Die industriell geförderten LR werden dagegen besonders für Anwendungen bzw. die anwendungsbezogene Forschung genutzt.

Aufgabe staatlich geförderter Ressourcen

Staatlich geförderte Ressourcen haben den Vorteil, dass sie meist öffentlich verfügbar sind (3). Der Staat fördert auch Ressourcen, die nicht wirtschaftlich interessant sind (1), dafür aber eine breite Forschungsausrichtung möglich machen (1). So haben ärmere Länder, deren Industrie sich eigene LR nicht leisten kann/will und/oder deren Sprachen nur von einer kleinen Gruppe gesprochen werden, die Möglichkeit, LR staatlich und ggf. international fördern zu lassen (1). Die Aufgabe staatlich geförderter Ressourcen liegt nicht in erster Linie darin, für Anwendungen bereitgestellt zu werden, sondern vor allem darin, die Grundlagenforschung voranzubringen (3), bedrohte Sprachen zu schützen (2) und die Sprache als wichtiges Kulturgut zu archivieren (1). Werden sie im Anwendungsbereich eingesetzt, dann besonders für verwaltungsbezogene und ‚hoheitliche’ Aufgaben (1).

Meist sind bei staatlich geförderten LR die Richtlinien zum Schutz der Sprecher höher, so dass in jedem Fall die Anonymisierung der Sprecher garantiert und die Einhaltung von Standards gesichert sein sollte (1). Es sollte vermieden werden, dass staatlich geförderte Ressourcen eine versteckte Subvention von privatwirtschaftlichen Ressourcen darstellen (1).

Aufgabe privatwirtschaftlicher Ressourcen

Die Ressource aus privatwirtschaftlicher Förderung soll der anwendungsbezogenen Forschung und Entwicklung neuer Technologien (z.B. in Bezug auf Dialogschnittstellen) dienen und bei überschaubaren Datenmengen eingesetzt werden (3). Da seltene Sprachen kommerziell eher uninteressant sind, werden von der Privatwirtschaft meist nur etablierte Sprachen erfasst (1). Nutzer von kommerziellen Datenbanken sollen Nutzungsentgelte für die Korpora zahlen (3), um die Aufwendungen nachträglich finanziell auszugleichen.

16. Frage: Welche Möglichkeiten bestehen für Institutionen, die Sprachdatenbanken erstellen, Ausgaben durch den Vertrieb von Ressourcen auszugleichen?

Der Vertrieb von Ressourcen ist die beste Möglichkeit, um Aufwendungen wieder auszugleichen (9). Die Finanzierung läuft dabei über die Anwender, die die Datenbanken für sich kommerziell nutzen (2). Ein vollständigen Ausgleich wird jedoch der Ausnahmefall bleiben (3). Die Chance für relativ gute Einnahmen liegen dann hoch, wenn auf hohe Qualität und einen geringen Anpassungsaufwand (Datenbereinigung) für den Käufer geachtet wird (1) und, wenn das Angebot der Nachfrage entspricht (evtl. Studie) (1). Der persönliche Kontakt zu potenziellen Kunden (1) und eine anwendungsbezogene Auswertung/Beratung machen auf den Wert einer Ressource aufmerksam (1) und erweitern die Kundenliste. Es sind unterschiedliche Lizenzmodelle denkbar (5). Lizenzen können beispielsweise direkt auf Produkte erhoben werden, die durch die Nutzung von LR entstanden sind, oder es kann eine Beteiligung am Umsatz festgelegt werden, der durch die entstandenen Produkte gemacht wurde (1). Ist eine LR in einem Konsortium entstanden, können Jahresbeiträge erhoben (1) oder bei einem Online- Zugriff geringe Zugangsgebühren eingeführt werden (1). Um das ‚Minusgeschäft’ möglichst gering zu halten, soll auch immer versucht werden, staatliche Subventionen (3) auf eine LR zu erhalten. Eine Kooperation mit Agenturen wie LDC und ELRA/ELDA (3) kann helfen, den finanziellen Eigenaufwand zu minimieren (1). Man kann auch versuchen, nach der Freigabe von Daten die Ressourcen an (einzurichtende) zentrale Stellen zu verkaufen, die dann den weiteren Vertrieb übernehmen (1). Eingenommene Lizenzgebühren sind dafür einzusetzen, zumindest die Wartung und Pflege der Datenbanken zu finanzieren (1).

17. Frage: Welche förderlichen Faktoren für die Weiterentwicklung von Sprachressourcen sehen Sie?

Förderliche wirtschaftliche Faktoren

Die Sprachtechnologie wird sich immer mehr durchsetzen, da sprachgesteuerte Geräte mit Sprach- und Sprechererkennung einen großen ökonomischen Erleichterungs- und Rationalisierungsfaktor haben (6). Diese Faktoren motivieren Firmen Mut zu Innovationen und Investitionen (1). Mobile Dienste und sich daraus ableitende Geschäftsmodelle sowie die Weiterentwicklung der Mensch-Maschine-Kommunikation (2) stellen momentan ein großes Nachfrage-Potenzial dar. Allerdings müssen die weiterentwickelten Sprachressourcen entsprechend schnell zur Verfügung gestellt werden, sonst sind die wirtschaftlichen Erwartungen nicht zu erfüllen (1). Gelder aus der freien Wirtschaft ohne Verpflichtungszwang, Förderpreise und Stipendien bieten Ansporn für herausragende Forschung (1).

Förderliche politische Faktoren

Jede Sprachgruppe ist daran interessiert, die eigene Sprache technologisch verfügbar zu machen und sich von anderen Sprachgemeinschaften abzugrenzen (1); besonders vor dem Hintergrund des Zusammenwachsens Europas (3). Im Zuge dessen wird es national und EU-weit mehr öffentlich geförderte Projekte, Verbundprojekte und koordinierte Programme (vergleichbar mit US-DARPA) (1) geben, um große Datenmengen zu erfassen (1). Zwischen in- und ausländischen Forschungsinstituten und Universitäten wird eine engere Kooperation stattfinden (1). Die Politik versteht immer mehr, dass anwendungsbezogene Sprachforschung einen wirtschaftlichen Impuls bedeutet, und wird als Konsequenz mehr Forschungsförderung im Rahmen des Europäischen Forschungsförderungsprogramms betreiben (3). Dies wird sich als Verbesserung der Qualität von Ressourcen und in Lösungen für den deutschsprachigen Markt niederschlagen (1). Auch wird mehr und mehr erkannt, dass gute Benutzerschnittstellen der Schlüssel für die Akzeptanz von Technologien ist. Werden vom Staat zudem gute Rahmenbedingungen für die grundlegende Forschung geschaffen, wie z.B. gute Ausstattung von Lehrstühlen, angemessenes Bezahlungsniveau der Mitarbeiter, Anstellungsstatus der Mitarbeiter (vgl. neues Hochschulgesetz für wiss. Angestellte), so kann der Aufbau von LR noch intensiver betrieben werden (1). Fördernd wird sich auch der weitere Ausbau bezüglich Infrastruktur und Grundlagenschaffung für Investitionen in Zukunftstechnologien auswirken (1).

Förderliche technische Faktoren

Die allgemeine Verbesserung der Sensor- und der Computertechnik steigert die Akzeptanz bestehender Anwendungen und erhöht die Nachfrage (3). Der Einsatz von Spracherkennung ohne behindernde Technik rückt immer näher (1). Die Verfügbarkeit von Datenbanktechnologien mit schnellen und effektiven Datenbankprogrammen ist ein weiterer technischer Vorstoß. Datenverarbeitende und -verwaltende Techniken und Prozesse (2) sowie die Verfügbarkeit ausreichender und bezahlbarer Speicherkapazität (2) liefern positive Grundfaktoren. Leistungsfähigere Rechner und Technologien ermöglichen die Handhabung großer Ressourcen (1). Weitere Schritte in Richtung ‚Embedded Systems’ werden einen neuen Schub bringen (1). Die Bandbreite von Anwendungsgebieten (2) und der Anwendungsdruck (1) wachsen beständig. Die moderne Telekommunikation treibt die Entwicklung von Sprachressourcen automatisch vorwärts (1).

18. Frage: Welche hemmenden Faktoren für die Weiterentwicklung von Sprachressourcen fallen Ihnen ein?

Hemmende Faktoren in der Politik

Hemmend auf die Weiterentwicklung in der Sprachtechnologie wirkt sich sicherlich die momentane wirtschaftliche Krise in Deutschland aus. Fördergelder für LR werden aufgrund des staatlichen Geldmangels seltener vergeben (6). Außerdem verlangsamt die umständliche Ausschreibung für Fördermittel den schnellen Weiterentwicklungsprozess (2). Die Kürzung von Mitteln (2) bezieht sich auch auf das wissenschaftliche Personal (2) (siehe neues Hochschulrahmengesetz). Befristete Verträge und eine unattraktive Zukunftsprognose für Angestellte in der Wissenschaft erhöhen den Mangel an qualifizierten Kräften (1). Bei der Vergabe von Fördergeldern wird die Aufwändigkeit der Ressourcenerstellung oftmals unterschätzt, so dass die EU oft nur den Anfang eines Ressourcenaufbaus fördert, um dann wieder Anwendungen in den Mittelpunkt der Ausschreibungen zu stellen (1). Zu diesem Zeitpunkt sind die Ressourcen aber noch nicht umfangreich genug, um die Verfahren hinreichend zu unterstützen (1). Weiter bedeutet die Vielsprachlichkeit in Europa, z.B. im Vergleich zu den USA, einen wesentlich höheren Aufwand an Koordination zwischen europäischen Institutionen. Die Forschungslandschaft ist immer noch inhomogen (1) und die gemeinsamen Interessen noch schwach definiert (2). Außerdem ist der Nutzen teurer Sprachdatenressourcen durch die Grundlagenforschung noch nicht belegt, weshalb die Notwendigkeit zur Erfassung oft nicht erkannt wird (1).

Hemmende Faktoren in der Wirtschaft

Bisher hat die Sprachtechnologie noch nicht den Beweis erbracht, in wirtschaftlich härteren Zeiten unabdingbar zu sein (1), weshalb die Forschungen in diesen Zeiten oft gekürzt oder firmenintern ganz eingestellt werden (1). Speech-enhanced Produkte sind bis heute Luxusartikel, was sich in Zeiten der Rezession bemerkbar macht (1). Aus Angst vor Fehlinvestitionen wird das Risiko, das Innovationen beinhalten, vermieden (1). Noch heute leidet die Sprachtechnologie auch unter den zu euphorischen Investitionen in UMTS und dergleichen (1). Dazu kommen ein langsames Innovationsmanagement und langwierige Vortests, gerade bei großen Unternehmen, die zu einer Verlangsamung der Entwicklung beitragen (1). Konkurrenzkampf in der Industrie, der zur Abschottung der Industrieforschung nach außen führt und mangelnde Kooperation zwischen den Institutionen (1) sind weitere Hemmnisse.

Hemmende Faktoren in der Technik

Allzu oft wurden vorzeitig schlechte, unausgereifte Lösungen auf den Markt gebracht, die bei den Anwendern zu einer pauschalen Ablehnung der Technologie führten (4). Gerade bei der Sprachsynthese sehen Firmen Probleme bereits als gelöst an, sobald ein grundsätzlich funktionierendes System entwickelt wurde (1), während auf der Anwenderseite noch Unzufriedenheit herrscht. Die Bereitschaft von Firmen, ein funktionierenden System zu verbessern, dessen Spracheinsatz vom Benutzer als steril und wie ‚aus der Dose’ kommend wahrgenommen wird, ist eher gering (1). Technisch hemmend ist auch die Tatsache, dass LR nur eine eingeschränkte Wiederverwertbarkeit aufgrund fehlender Standards haben (1). der Mangel an einheitlichen Annotationsschemata bei Prosodie und Emotion (1), machen Daten nur für einen kleinen Anwendungsbereich nutzbar.

Teil III: Organisation der Erfassung und Distribution von Daten

Zusammenfassung

Integrierte Ressourcen sollen Gestik, Mimik und die Emotion des Benutzers erfassen und deren Labelung beinhalten. Dabei sollen auch Metadaten zu den Sprechern und das genaue Szenario beschrieben werden. Es haben sowohl die Qualität von Aufnahmen über das Telefon/Handy als auch von denen aus dem Studio ihre Berechtigung. Studioaufnahmen sind besser für die Sprachsynthese geeignet und ermöglichen gleichzeitig eine synthetische Simulation von Telefonqualität.

Bei den Aussprachemodellen gehen die expliziten Ausspracheregeln (Lexika) und die statistischen Modelle Hand in Hand und sollten miteinander kombiniert werden, um die Vorteile beider Verfahren kombinieren zu können.

19. Frage: Welche Daten sollten integrierte Ressourcen bereitstellen?

Unterschiedliche Aufnahmen, Labelung und Synchronisierungsinformation

Außer den Audiodaten mit entsprechenden standardisierten Transkriptionen (7) sollen Videodaten von Sprechern (6) vorliegen. Kameras sollen möglichst unauffällig Gestik (15), das heißt. Hand- und Kopfbewegungen (1), und Mimik (14), das heißt. Augenbewegungen und die Bewegung der Gesichtsmuskeln (1), erfassen. Das Gesicht soll dabei sowohl seitlich als auch frontal (1) von Kameras anvisiert werden. Die Kamera nimmt dabei automatisch natürliche und eventuell gezielte Handbewegungen, die Befehle ans System richten (z.B. Pointing), auf. Alle Aufnahmen sind nur dann weiter verwertbar, wenn sie auch durch eine anschließende Transkription interpretiert werden (1).

Für integrierte Ressourcen sollen aus den Audiodaten auch die Benutzeremotionen gelabelt werden (2). Als Features werden sie dem Sprachsignal oder physiologischen Signalen entnommen (1). Ziel ihrer Erfassung sind vor allem Anwendungsverbesserungen. Verärgerte Kunden zu erkennen und emotional z.B. durch Beschwichtigung abzufangen (4), ist nur eine Variante für die Anwendung. Des weiteren soll auch die Prosodie gelabelt werden (3). Für bestimmte wissenschaftliche Zwecke sind auch Zungen- und Kieferpositionen (1) aufzunehmen.

Die einzelnen Komponenten eines integrierten Systems müssen untereinander abgestimmt werden, das heißt. eine Textanalyse sollte beispielsweise mit der sie begleitenden Gestik einhergehen (1). Daher werden auch Synchronisierungsinformationen (2) zu Bewegungen und Gesprochenem gebraucht. Die Komponenten sollen miteinander kommunizieren können, wozu standardisierte Annotationen mit semantischem oder für die Interaktion zentralem Gehalt (5) wichtig sind.

Metadaten zu Sprechern und Szenarien

Als Metadaten sollen die Angaben zum Sprecher genau erfasst werden (1). Dazu gehört der sprachliche Werdegang des Sprechers, das heißt. wo und unter welchen sprachlichen Einflüssen er aufgewachsen ist (1), Geschlecht, Alter und Beruf (2). Eine Verlinkung mit Hintergrundinformationen zu Kultur und Gesellschaft (1) kann Vorteile bringen.

Weiter muss das Szenario mit Ort (1), Zeitpunkt (1), genauer Situation (1) und Kontext der Daten (Äußerung, Satz vorher, Satz danach) (4) beschrieben werden. Unterschiedlichste Szenarien müssen erfasst werden, z.B. Transliterationen von echten spontansprachlichen Kommunikationen ohne schriftsprachliche Stimuli. Präzise Angaben zu den Aufnahmebedingungen gehören ebenso zu einem brauchbaren Korpus, das heißt. Angaben zum Studio, Telefontyp, vorhandene Hintergrundgeräusche, Kanal usw. (1).

20. Frage: Bzgl. der Aufnahmequalität Telefon vs. Studio: Welche Art des Inputs ist wichtiger und warum?

Beide Aufnahme-Qualitäten haben ihre Berechtigung. Je nach Anwendung eignet sich entweder Telefon- oder Studioqualität besser (3). In Bezug auf kommerzielle Zwecke sprechen sich 13 Experten besonders für Aufnahmen aus, die über das Telefon oder Handy durchgeführt werden. Diese Einschätzung wird nicht zuletzt durch die Bedürfnisse der mobilen Generation bestimmt, die kurz- und mittelfristig (1) mehr kommerzielle Anwendungsmöglichkeiten nutzen wird (4). Telefondaten haben zudem den Vorteil, dass sie realistischer, spontaner und natürlicher wirken als Studioaufnahmen (5), da die Sprecher unbeobachtet in meist gewohnter Umgebung bleiben. Spontaneität ist ein nicht zu unterschätzendes Kriterium und soll im Entscheidungsfall einer hohen Aufnahmequalität vorgezogen werden (1).

Studioaufnahmen sind aufgrund der höheren Qualität besser für die Sprachsynthese und Grundlagenforschung geeignet (2). Aus der aufgenommenen Studioqualität lässt sich Telefonqualität synthetisieren (1). Eine künstliche technische Verschlechterung von hochwertigen Referenzdaten ist durch das Downsampling (von 16 auf 8 kHz) und Simulieren anderer Übertragungskanäle gut möglich (6). Zur Simulation von Telefonqualität ist auch eine breitbandige Aufnahme mit hochwertiger Aufnahmetechnik unter realen Umgebungsbedingungen denkbar, z.B. mit systematisch variierenden Störungen (2).

Grundsätzlich sollen Studioaufnahmen immer natürliche Gesprächssituationen und deren individuelle Gegebenheiten mit variierenden Störungen umfassen, da sonst unnatürliche Artefakte entstehen können (2). Dies gilt natürlich auch für Handyaufnahmen, z.B. im Auto bei der Navigation, mit allen damit zusammenhängenden Zusätzen wie Ablenkung von außen und Hintergrundgeräuschen (1). Die Akzeptanz von Anwendungen in ihrer Erkennerleistung wird besser, wenn ein Geräuschpegel bei der Aufnahme berücksichtigt ist (1).

21. Frage: Sind für die Zukunft explizite Ausspracheregeln oder statistische Aussprachemodelle wegweisend? Warum bevorzugen Sie die eine oder andere Version?

Die überwiegende Mehrheit der Experten ist der Meinung, dass beide Modelle nebeneinander zukünftig eine Rolle spielen werden (29). Ein Teil drückt dabei klar aus, dass beide Modelle zusammen als Ergänzung und Kombination am erfolgversprechendsten anzusehen sind, da Stärken wie Präzision und Robustheit miteinander kombiniert werden (7). Beide werden auch weiterhin unabhängig voneinander für unterschiedliche Anwendungen eingesetzt werden (1).

Ein weiterer Teil der Befragten hält die Vorteile statistischer Modelle jedoch für einschlägiger als die von expliziten Ausspracheregeln (6), da diese flexibler, einfacher zu pflegen und leichter zu adaptieren sind (1). Statistische Modelle können mehr Daten erfassen, sind dabei lückenloser (2) und veralten nicht wie die Lexika (1). Außerdem können solche Verfahren fehlertoleranter modelliert werden (1) und haben den Vorteil, dass sie Aussagen über die Wahrscheinlichkeiten von sprachlichen Äußerungen treffen können (1). Auch bei einer Sprache mit starkem Akzent sind statistische Ansätze aussichtsreich (1). Die Spracherkennung und mittlerweile auch die Sprachübersetzung setzen auf dieses Modell (1). Es wird meist anwendungsbezogen und produktspezifisch angewendet (1).

Lexika haben auf der anderen Seite den Vorteil, dass durch sie für viele Anwendungen am schnellsten Verbesserungen erzielt werden können (1). Statistische Modelle haben in der Vergangenheit zu einem (lokalen) Maximum geführt. Langfristig kann es dazu kommen, dass aus ihnen nicht mehr viel ‚herauszuholen’ ist, wenn nicht bahnbrechende Neuerungen kommen (1). Statistische Methoden sollten also am besten mit Lexika kombiniert werden (1). Eine gute Alternative wären auch statistische Modelle mit Morphologiekomponente und einem Ausnahmelexikon (1).

Teil IV: Technische Sprachanwendungen der Zukunft

Zusammenfassung

Sprachdialogsysteme zwischen Mensch und Maschine und Innovationen im Bereich des Information Management werden laut folgender Aufstellung vor allen anderen Bereichen wohl die technischen Sprachanwendungen der Zukunft sein. Im Bereich der medizinischen Anwendungen im speziellen stehen Therapie- und Trainings-Anwendungen und die unterstützende künstliche Stimme zum Selbstausdruck bei Sprech- und Sprachbehinderungen an erster Stelle. Die Biometrie wird zukünftig weiterhin auf die Personalisierung von Personen beschränkt bleiben und nicht für die Fahrerzustandserkennung eingesetzt werden. Sprachtechnologie im militärischen Bereich wird hauptsächlich für die Überwachung, Übersetzung, Auswertung und Übermittlung gesprochenen (Nachrichten), aber auch geschriebenen Inhalts eingesetzt werden, um das strategische Vorgehen im Kriegsfall zu verbessern. In Zukunft werden sowohl Neugenerierungen als auch Modifikationen von bestehenden Produkten vorgenommen werden. Eine Entscheidung für das eine oder andere hängt individuell von schon bestehenden Produkten und den genauen Bedürfnissen der Anwender ab. Ob Produkte wie z.B. Dialogsysteme neu generiert oder modifiziert werden, wird von der Akzeptanz des Kunden abhängen.

22. Frage: Welche Verwendungsbereiche von Sprachtechnologie werden in den kommenden 5 bis 15 Jahren Innovationen hervorbringen?

Ausstattungsmerkmale (31)

Applikationen (21)

Dialogsysteme (19)

Benutzerassistenz-Systeme (14)

Texttechnologie (6)

Authentifizierung (2)

23. Frage: Welche Verwendungsbereiche von Sprachtechnologie werden in den kommenden 5 bis 15 Jahren Innovationen hervorbringen?

Benutzerassistenz-Systeme (11)

Dialogsysteme (10)

Medizinische Anwendungen (7)

Lernanwendungen (7)

Industrieanwendungen (7)

Sprachsteuerung (6)

Mobilfunk (4)

Übersetzungssysteme (4)

Unterhaltung (3)

Emotionserkennung (2)

Voice Portale (1)

Verbrechensbekämpfung (1)

Home Computing (1)

Zugang (1)

24. Frage: Welche medizinischen Anwendungen von Sprachressourcen erwarten Sie innerhalb der kommenden 15 Jahre?

Dialogsysteme, Spracherkennung, Diktieren und maschinelles Dolmetschen (16)

Anwendungen bei Sprech- bzw. Sprachbehinderung (u.a. durch Gehörlosigkeit) (14)

Wissens- und Informationsmanagement (7)

Anwendungen für Blinde und Körperbehinderte (7)

Sprachsteuerung/Medizinrobotik (7)

Diagnose/Ferndiagnostik (6)

Abfrage- und Auswertungssysteme (4)

Administration (3)

Korpora (2)

Medizin-Lehre (1)

25. Frage: Welche möglichen zukünftigen Anwendungen von Biometrie können Sie sich vorstellen im Zusammenhang mit Sprachtechnologie (z.B. Fahrerzustandserkennung im Automobil/veränderte Artikulation nach Alkoholkonsum)?

15 Experten halten die Biometrie für die Fahrerzustandserkennung z.B. nach Alkoholkonsum für zu ungenau und würden sie daher zur Beurteilung der Fahrtüchtigkeit nicht einsetzen. Die bisherige Atemkontrolle sei wesentlich robuster (1).

Personalisierung/Benutzerkennung/Zugangskontrolle (19)

Kriminalistik (5)

Emotionserkennung (3)

Gesundheitswesen (2)

Sicherung der Authentizität von Texten (1)

Unterstützung von multimodalen Kommunikationssystemen (1)

26. Frage: Welche möglichen militärischen Anwendungen von Sprachtechnologie sind im Entstehen?

Nachrichtenüberwachung, -übersetzung und -auswertung, Übersetzung allgemein (7)

Informationmanagement (7)

Personalisierung und Sprechererkennung (Biometrie) (6)

Sprachsteuerung (6)

Abhören (4)

Fernerkundung und Fernwartung (2)

27. Frage: Sollen eher Modifikationen bestehender Produkte oder die Neugenerierungen von Produkten vorangebracht werden?

16 Experten sagen allgemein aus, daß sowohl Neugenerierungen als auch Modifikationen gleichermaßen vorangebracht werden sollen. Vier sind der Meinung, daß eine Entscheidung in jedem Fall individuell von den Produkten abhängt, je nachdem, ob die Bedürfnisse der Anwender eher durch eine Neugenerierung oder durch eine Modifikation getroffen werden (2). Es wird empfohlen, in jedem Einzelfall eine Prüfung durchzuführen (evtl. mit gleichzeitiger Verstärkung der Grundlagenforschung zur Wissenserweiterung), da ein bestehendes Produkt hinsichtlich seiner Technologie "ausgereizt" sein kann (ohne dass dies sofort bemerkt wird) und ein neues Produkt möglicherweise eine lange Anlaufzeit braucht, ohne gegebene Erfolgsgarantie (2). Die Generierung völlig neuartiger Produkte kann auch leider nur schlecht geplant werden (1). Eine weitere Empfehlung ist das Anlegen von möglichst offenen Architekturen, um sowohl Weiterentwicklungen als auch Neugenerierungen integrieren zu können (1). Allgemein sollen bestehende Produkte robuster und alltagstauglicher gemacht werden (2), um weitere Produkte darauf aufbauend neu entwickeln zu können (1), d.h. es ist insgesamt wünschenswert, Bewährtes mit Neuem zu verknüpfen (1). Die Verbesserung bestehender Produkte wird dabei vor allem von Konvergenzprozessen geprägt sein, d.h. dem Zusammenwachsen von Computer-, Kommunikations- und Unterhaltungstechnologien. Dabei wird der Aufgabenverteilung auf Endgerät und Server eine große Bedeutung zukommen. Die Kombination unterschiedlicher Dienste und Endgeräte (z.B. Fernseher und PC) wird neue Anwendungsbereiche für die Sprachtechnologie schaffen (1). Es gibt vielversprechende Produkte im professionellen (Diktiersysteme, Call Center) und privaten Bereich (Auto, Spiele), wobei die globale und lokale Vernetzung eine neue Herausforderung darstellen wird (1). Es gibt aber auch eindeutige Antworten für eine der beiden Entwicklungsarten. Fünf Befragte plädieren ohne weiteren Kommentar für Neugenerierungen, besonders im Bereich MT und CAT (1). Wegen der sprunghaften Entwicklung der technologischen und auch theoretischen Grundlagen werden Neugenerierungen auf absehbare Zeit wohl unvermeidlich sein (1) und sollten auch tendenziell im Mittelpunkt stehen (1). Drei Experten entscheiden sich für Modifikationen, d.h. kundenspezifische Anpassungen (1), eventuell mit Einbeziehung von Standards und Kommunikationsprotokollen (1).

28. Frage: Welche Produkte sollen wie modifiziert bzw. neugeneriert werden?

Spracherkenner (4)

Dialogsysteme (3)

Sprachsynthese (3)

Medizinische Hilfe (2)

Ressourcen (2)

Annotation und Indexierung (2)

Telefon (1)

Diktiersysteme (1)

Mobile Endgeräte (1)

Extraktionsverfahren (1)

Korpusbearbeitung (1)

Teil V: Grundlagenforschung (GF)

Zusammenfassung

Die Schaffung von neuen Korpora soll die Sicherung von seltenen und bedrohten Sprachen umfassen und nicht nur von einer rein anwendungsorientierten Sichtweise ausgehen. Auch seltene Sprachen können einen 'Marktwert' haben. Schützenswert sind im außereuropäischen Raum vor allem die kleinen Sprachgruppen der früheren UdSSR, afrikanische, indianische und südamerikanische Sprachen; im europäischen Raum deutsche Dialekte und Zigeunersprachen (nach Häufigkeit ihrer Nennung). Bei der Forschungsplanung für die kommenden 10 Jahre sollte auf die Vereinheitlichung von Standards und auf eine anwendungsorientierte Grundlagenforschung geachtet werden. Korpora werden demnächst bestimmte Charakteristika haben: Natürlichkeit, Multimodalität, Multilingualität und Portabilität. Vor allem werden einfach verfügbare Datenströme wie TV und Radio für Korpora verwendet werden. In der künftigen Planung soll die Einrichtung zentraler Stellen zur Erstellung von Korpora und die Unterstützung von gemeinschaftlichen, institutionsübergreifenden Anträgen vorangebracht werden. Die Forschung der nächsten Jahre wird sich vor allem mit der Planung langfristiger Korpora und der Sprachentwicklung des Menschen beschäftigen. Auf die Frage, auf welchen Gebieten genau Grundlagenforschung betrieben werden soll, wird mit Abstand an erster Stelle die 'Anwendungsorientiertheit' genannt. Verantwortliches Organ für das Betreiben von GF soll auf nationaler Ebene der Staat selbst sein (in Form von BMBF und DFG), auf internationaler Ebene die EU in Form spezieller Initiativen. Staatliche Institutionen sollten dabei besonders die Evaluationen kontrollieren und für die finanziellen Mittel sorgen, Universitäten und andere Forschungseinrichtungen hingegen sollen für die Ausführung zuständig sein. Die Industrie wird langfristig als Geldgeber unabdingbar sein, was gleichzeitig ihr Mitspracherecht bedeuten wird.

29. Frage: Bezüglich der Schaffung neuer Korpora: Welche seltenen Sprachen sollten gesichert werden?

Experten raten sowohl dazu, vom Aussterben bedrohte Dialekte (1) als auch bedrohte eigenständige Sprachen zu sammeln (1). Es gibt unterschiedliche Gründe, weshalb Dialekte oder Sprachen aussterben können: herkömmliche Dialekte werden im Sprachgebrauch z.B. oft durch einen ausgeprägten Prestige-Dialekt ersetzt (1). Eigenständige Sprachen können starken Veränderungen wie z.B. der Zunahme von Anglizismen unterliegen und daher bedroht sein (1). Problematisch ist die Tatsache, dass viele Länder, deren Sprachen nur noch wenige Menschen sprechen, nicht die wissenschaftliche und linguistische Infrastruktur zur Erhaltung der Sprachen besitzen und ohne die Schaffung solcher Datenbanken auch den Anschluss an neue Entwicklungen verpassen werden (1). Zwei Experten würden die Kapazitäten für die Schaffung von Korpora lieber für zukunftsträchtige Anwendungen als für die Sicherung von seltenen Sprachen aufwenden (2).

Außereuropäische Sprachen

Russland (7)	- Sprachen des Kaukasus (2) - Kasachisch (1) - Tscherkessisch (1) - Ossetisch (1) - Weissrussisch (1) - Sprachen der früheren UdSSR (1)
Afrika (4)	- Nomadensprachen Nordafrikas (1) - Afrikanische Sprachen (3)
USA und Südamerika (4)	- Indianische Sprachen (3) - Südamerikanische Sprachen (1)
Asien (3)	- Süd-ost-asiatische Sprachen (1) - Indonesische Sprachen (1) - Chinesische Sprachen (1)
Australien (2)	- Aboriginessprachen (2)
Syrien (1)	- Dialekte in Bergregionen Syriens (1)
Türkei (1)	- Sprache der Christen im Südosten der Türkei (1)
Naher Osten (1)	- Kurdisch (1)
Irak (1)	- Sprache der irakischen Flüchtlinge in Europa (1)
Armenien/Iran/Anatolien (1)	- Armenisch (1)
Andere (2)	- Eskimosprachen (1) - Kreolsprachen (1)

Europäische Sprachen

Im europäischen Raum sollten in jedem Fall die Minderheitensprachen, insbesondere die 12 als bedroht eingestuften Sprachen (z.B. Elsässisch, Okzitanisch, Sorbisch), gesichert werden (1).

Deutschland (23)	- Deutsche Dialekte (9) - Plattdeutsch (3) - Friesisch (4) - Jiddisch (4) (germanische Sprache) - Sorbisch (3) (westslawische Sprache, Minderheitensprache in Deutschland)
Zigeunersprachen (4) (Albanien, Bulgarien, Türkei, Griechenland, Makedonien, Rumänien, Serbien und Montenegro)	- Rumänische Roma Variante (1) - Romani (1) - Sinti-Dialekte (1) - andere Zigeunersprachen (1)
Frankreich (2) (Baskenland, Bretagne)	- Baskisch (1) - Bretonisch (1)
Alpentäler der Schweiz/Italien (2)	- Rätoromanisch (2) (Alpentäler der Schweiz/Italiens)
England (1) (Wales)	- Walisisch (1)
Belgien (Wallonien)/ Nordosten Frankreichs (1)	- Wallonisch (1)
Luxemburg (1)	- Luxemburgisch (1) (westgermanischer Kulturdialekt)

30. Frage: Sollten Sie Sprachen genannt haben: Welche davon sind ein interessanter Markt?

Vier Experten erklären, dass sie keine der Sprachen für wirtschaftlich relevant halten. Meist ist dort, wo es nur wenige Sprecher einer Sprache gibt, aufgrund der kleinen Sprecheranzahl kein großer Markt zu erwarten. Bei einer Sammlung von Sprachdaten geht es hier eher um die Identität der Sprecher (1). Am interessantesten in Bezug auf Marktchancen könnten seltene Sprachen sein, die sehr nahe verwandt sind und viele Varianten besitzen (1). In der Sprachsynthese gäbe es auf jeden Fall Märkte im Hinblick auf das Erlernen solcher Sprachen durch gesprochene Korpora. Allerdings die Überzeugung vorherrschen, dass es sich lohnt, in dieser Sprache zu kommunizieren und das Wissen an künftige Generationen weiterzugeben (1).

Außereuropäische Sprachen

Afrika (3)	- Dialekte Nordafrikas im Übergang zwischen Arabisch, Berber und Französisch (1) - Südlichere afrikanische Sprachen (1) - Bantu-Sprachen (1)
Indien (1)	- Indische Sprachgruppen (1)
Naher Osten (1)	- Kurdisch (1)
China (1)	- Regionale Varianten des Chinesischen (1)
Australien (1)	- Aboriginessprachen (1)

Europäische Sprachen

Deutschland (4)

- Deutsche Dialekte (1)
- Jiddisch (2)
- Sorbisch (1)

31. Frage: Was sollte man bei der Forschungsplanung für die nächsten 10 Jahre beachten?

Einheitliche Standards für die Korpora-Erstellung

In den nächsten 10 Jahren werden verlässliche Standards für Annotation (u.a. von Prosodie, Gestik und Emotionen, vergleichbar dem phonetischen Alphabet) (6) und die Kodierung von Sprachdaten und Datenfiles entstehen, um austauschbare, gründlich etikettierte Korpora zu erstellen (10). Parallel werden sich Speichermedien und die Standardisierung von Etikettierungs- und Datenverwaltungswerkzeugen weiterentwickelt haben (1). Auch die Verfahren und Sprachen für die mehrschichtige Metadaten-Annotation (1) und die Interoperabilität zwischen verschiedenen Typen von Datenmengen (aber auch mit bestehenden Werkzeugen) werden zugenommen haben (1). Dabei muß die Entwicklung von Werkzeugen mit der Annotierung und Generierung von Sprachdaten Hand in Hand gehen (1). Per Studie könnte herausgefunden werden, welche Metadaten sind für die Erhebung sinnvoll sind (1). Bis heute ist immer noch eine genaue Aufzeichnung der Sprecher- oder Autoreneigenschaften (Alter, Herkunft, Bildung etc.) sehr wichtig (1). Durch Schlüsselwortgenerierung und das Erkennen von thematischen Signaturen wird zukünftig der zeitaufwändige Prozess der Erstellung von Metadaten reduziert werden (1). Auch spezialisierte Suchmaschinen könnten sowohl Metadaten als auch Volltexte nutzen und den Aufbau paralleler Korpora aus dem Datenfundus des WWW unterstützen (1).

Mehr anwendungsorientierte Grundlagenforschung

Es sollte mehr anwendungsorientierte (Grundlagen-)forschung mit Einbezug der Industrie betrieben werden (4), ohne dass die reine Grundlagenforschung unabhängig von der industriellen Anwendung (z.B. Datensammlung von seltenen Sprachen) (1) dadurch zu sehr ins Hintertreffen gerät (sprich: keine Verlagerung industrieller Forschung in die Hallen der Universitäten) (1). Allgemein sollte die Forschung immer so flexibel bleiben, dass sie sich neuen Entwicklungen anpassen kann (1).

Beispiele anwendungsorientierter Grundlagenforschung

Anwendungsorientierte Grundlagenforschung beschäftigt sich z.B. mit der Frage, wie minimal eine Ressource mindestens sein muss, um mit ihr noch einen guten Spracherkenner bauen zu können (1). Sie sollte immer weitere Ergänzungen zu bisherigen Mitteln der automatisierten Spracherkennung, bezüglich der Erkennungsqualität und auch der "freien Sprache" (statistische Erkennung) liefern (1). Sie konzentriert sich immer auf Sprachen, die von einer großen Sprechermenge gesprochen werden - im Hinblick auf größere wirtschaftliche Erfolge (1). Das Clustering ähnlicher Sprachen macht es möglich, Forschung schrittweise aufzubauen (1).

Charakteristiken neuer Korpora

Natürlichkeit

Das Material soll aus möglichst vielen natürlichen Kommunikationssituationen und Lebenskontexten bestehen (1). Es sollen möglichst viele Daten von einer Person vorhanden sein, d.h. es sollte so gering wie möglich in die Kommunikationssituation eingegriffen werden, auch wenn dadurch die akustische Qualität unter Umständen sinken könnte (3). Statistisch basierte Ansätze sollen in der Erkennung und Synthese wieder zu Modellen führen, die die Realität enger abbilden (1). Die neuen Ressourcen sollen die praktische Nutzung realer, sinnvoller und gewünschter Applikationen bzw. Systeme repräsentieren (z.B. durch WOZ) (1).

Textkorpora

Eine größere Bandbreite an Textkorpora sollte zukünftig entstehen, z.B. E-mail, FAQ, semi-strukturierte Korpora, historische Korpora, Multimedia. Die Korpora können mittels Ontologien semantisch angereichert werden. Daraus sollte sich eine dichte, multi-level Annotation im Sinne der verschiedenen sprachlichen Ebenen, also von Morphologie, Syntax, Semantik bis hin zu pragmatischen Aspekten (Diskurs) (1) ergeben. Auch sollte eine explizite Annotation von Ambiguitäten (1) gemacht werden (1). Die Entwicklung von Korpora-Navigationstools im Sinne des Semantic Web, d.h. die software-technische Möglichkeit, riesige Korpora mittels spezieller Suchmaschinen bedarfsspezifisch zu navigieren (1), sollte weiterentwickelt werden.

Stichworte Multimodalität und Multilingualität

Korpora sollen neue, multimodale Anwendungsszenarien/Ressourcen beinhalten (4), dazu gehört auch das Labeling von Benutzeremotionen (1). Der Bedarf an multilingualen Ressourcen (3) und dialektal/soziolektal ausgerichteten Ressourcen (1) wird größer. Viele Sprachen und Dialekte müssen zukünftig in Kombination mit anderen Kommunikationsmodi aufgenommen werden (1).

Portabilität von Ressourcen

Ressourcen sollten von einer Sprache in eine andere portabel sein (1). Die Portabilität kann vor allem kleineren Sprachgemeinschaften helfen, das Know-How zu übertragen, das für größere Sprachgemeinschaften (Englisch, Deutsch, Japanisch usw.) bereits erworben wurde (1).

Automatisierungen

Die automatisierte Schaffung von Ressourcen aus verfügbaren Datenströmen, wie z.B. TV und Radio, und auch aus Tonaufzeichnungen bei Meetings, Konferenzen, Telefonaten unter Berücksichtigung von Datenschutzaspekten wird eine immer größere Rolle spielen (1). Korpora werden künftig zu Test-Suites (handcrafted diagnostic benchmarks) Verbindungen haben (1).

Rolle des Internet

Oft wird das Internet als Quelle für die Sammlung sprachlicher Daten überbewertet (1). Zukünftig werden aber Semantic-Web orientierte Beschreibungssprachen (2) interessant sein. Internet-Texte sollten standardisiert werden, d.h. es sollte eine Art Internet-Verlag entstehen, damit die Ressourcen für die Forschung berücksichtigt werden können (1).

Veränderungen in der Organisation

Es sollten künftig zentrale Stellen eingerichtet werden, an der Korpora erworben werden können (2). Auch sollte eine engere Zusammenarbeit mit der Industrie in Form kleiner Projekte mit zügiger Evaluation stattfinden (1). Die Deutsche Forschungsgemeinschaft (DFG) sollte verstärkt gemeinsame Anträge von mehreren Institutionen unterstützen (1) und noch mehr Projekte fördern (1). Die geförderten Korpora sollten anschließend zumindest für die Universitäten frei bereitgestellt werden (2). Der Einsatz von Geisteswissenschaften soll vergrößert werden, so dass sie gemeinsam mit den entsprechenden ingenieurswissenschaftlichen Fächern konkrete Aufgaben bearbeiten (1).

32. Frage: Welche Fragen muss die Grundlagenforschung beantworten?

Sprachentwicklung- und Sprachwandel (10)

Korpora (8)

Linguistik (7)

Dialogsysteme (6)

Sprachverarbeitung (5)

(Annotations-) Standards (3)

Gestik (1)

Methoden (1)

Anwendungsorientierung (1)

Semantik (1)

33. Frage: Soll mehr oder weniger Grundlagenforschung betrieben werden und wenn mehr, auf welchen Gebieten genau?

25 Experten sind der Meinung, es sollte in jedem Fall mehr Grundlagenforschung betrieben werden. Acht davon erwähnen spezifisch, dass gerade die anwendungsbezogene Grundlagenforschung wichtig sei, drei sind mit dem Verhältnis zwischen Grundlagen- und Anwendungsforschung bereits zufrieden. Folgende Gebiete wurden erwähnt:

Anwendungsorientierte Forschung

Anwendungsbezogenheit (9)

Erstellung von Korpora (7)

(Automatische) Annotation (6)

Systeme und Modelle (4)

Artikulation und Perzeption (1)

Reine Grundlagenforschung

Artikulation (2)

Emotion, Mimik, Gestik, Vision (2)

Repräsentationsebenen (2)

Neuronale Verarbeitung (1)

Prosodie (1)

Sprachproduktion und Perzeption (1)

Sprachverstehen (1)

Dialektforschung (1)

34. Frage:Wessen Aufgabe ist die Grundlagenforschung? (national, privat, Industrie)?

Nach Meinung von 25 der befragten Experten sollten die Verantwortlichkeiten für die Grundlagenforschung besonders von nationalen (25), d.h. staatlichen, aber auch von internationalen (6) Instanzen getragen werden. Das Bundesministerium für Bildung und Forschung (BMBF) (1) und die Deutsche Forschungsgemeinschaft (DFG) könnten diese Funktion im nationalen Rahmen, die EU (1) und speziell gegründete Gruppen wie z.B. die 'Dialogue Encoding Initiative' (1) im internationalen Rahmen übernehmen. Die Universitäten in internationaler Kooperation sollten auch Träger dieser Aufgaben werden (4). Da bestimmte Grundlagen sprachunabhängig sind, sollten gerade diese Phänomene in internationalen Kooperationen erforscht werden (1), z.B. die internationale Förderung 'kleinerer' Sprachen (1).

Experten sprechen sich für eine konkrete Aufgabenteilung aus: staatliche Aufgabe sollte beispielsweise die strikte Kontrolle über Evaluationen (1) und die finanzielle Förderung (3) sein, wobei die Universitäten und andere Forschungszentren die Ausführung der Grundlagenforschung übernehmen (4). Die Industrie soll zwar einen (finanziellen) Beitrag leisten und ein gewisses Mitspracherecht haben, aber nie die Grundlagenforschung diktieren (4). Da die vom Bildungsetat vorgesehenen Mittel nicht ausreichen werden, wird langfristig die Unterstützung durch große Firmen (3) und Stiftungen benötigt, jedoch soll deren Beteiligung unter dem Vorbehalt einer engen Anlehnung an aktuelle Forschungsbedürfnisse (2) stattfinden, d.h. die definierten Ziele der Industrie dürfen keine einschränkende Wirkung auf die Investition in die Grundlagenforschung haben (1). Andererseits sollte darauf geachtet werden, eine anwendungsorientierte Forschung durch ein nur eingeschränktes Mitspracherecht der Industrie nicht außer Acht zu lassen (5), denn auch eine schnelle Umsetzbarkeit von Ergebnissen aus der Grundlagenforschung in konkrete Produkte sollte ein staatliches Anliegen sein (1). Bisher wurde die GF meist nur direkt entweder durch die nationale Instanz oder die Industrie betrieben, was zu Problemen in der Verfügbarkeit von Ressourcen geführt hat (2).

----------------------------------------------------

Wie viele Experten haben jeweils geantwortet?

Insgesamt haben sich 37 Experten bereit erklärt, die Fragen zu beantworten. Sechs davon haben den Fragenkatalog nicht zu Ende geführt. Andere Experten haben den Fragebogen zwar bis zum Schluß bearbeitet, jedoch aufgrund ihrer individuellen Schwerpunkte nicht alle Fragen beantwortet.

Frage 1: Berücksichtugung von Dialekten	26
Frage 2: Bedarf an gemischt-sprachlichen Ressourcen	29
Frage 3: Bedarf an Zweitsprach-Ressourcen	25
Frage 4: Korpus mit Fehlern in der Spontansprache	31
Frage 5: Ausweitung auf Generationenkorpora	29
Frage 6: Alter von Kindern für Sprachdatenbank	26
Frage 7: Sprachinhalte für Kinderdatenbank	21
Frage 8: Anwendungsszenarien für Kindersprachdatenbank	25
Frage 9: Stellenwert der Information über Emotionalität	30
Frage 10: Biometrie zukünftsträchtig und sicher	22
Frage 11: Engere Zusammenarbeit zwischen Institutionen	37
Frage 12: Kooperation, jedoch individuelle Produktentwicklung	35
Frage 13: Zukünftige Regelungen zwischen Institutionen	35
Frage 14: Juristische Risiken	23
Frage 15: Finanzielle Förderung neuer Sprachdatenbanken	30
Frage 16: Ausgabendeckung durch Vertrieb	24
Frage 17: Förderliche Faktoren für Weiterentwicklung	24
Frage 18: Hemmende Faktoren für die Weiterentwicklung	24
Frage 19: Integrierte Ressourcen und deren Datenbereitstellung	25
Frage 20: Aufnahmequalität und Art des Inputs	26
Frage 21: Aussprachemodelle der Zukunft	23
Frage 22: Verwendungsbereiche mit künftigen Innovationen	30
Frage 23: Künftige Produkte ziviler Anwendungen	27
Frage 24: Medizinische Anwendungen von Sprachressourcen	30
Frage 25: Mögliche künftige Anwendungen von Biometrie	23
Frage 26: Militärische Anwendungen	18
Frage 27: Modifikationen oder Neugenerierungen neuer Produkte	28
Frage 28: Produkte für Modifikation bzw. Neugenerierung	21
Frage 29: Sicherung seltener Sprachen	24
Frage 30: Interessanter Markt bei seltenen Sprachen	11
Frage 31: Forschungsplanung der nächsten 10 Jahre	31
Frage 32: Fragen der Grundlagenforschung	26
Frage 33: Mehr oder weniger Grundlagenforschung	32
Frage 34: Träger der Grundlagenforschung	32

Teil I: Künftige Sprachressourcen

1. Frage: In welcher Form sollten bei der Schaffung zukünftiger Ressourcen Dialekte berücksichtigt werden?

2. Frage: Wie ist der zukünftige Bedarf an gemischt-sprachlichen Ressourcen (z.B. Deutsch mit englischen Fremdwörtern)?

3. Frage: Wie ist der Bedarf an Zweitsprach-Ressourcen (z.B. für türkische Mitbürger, die Deutsch als Zweitsprache erworben haben)?

4. Frage: Ist ein Korpus mit Fehlern in der Spontansprache interessant?

5. Frage: Ist eine Ausweitung auf einzelne Generationenkorpora wichtig?

6. Frage: In welchem Alter sollten Kinder sein, die für eine Sprach­datenbank aufgenommen werden?

7. Frage: Welche Sprachinhalte sind bei der Erstellung einer Kinder­sprachdatenbank zu berücksichtigen?

8. Frage: Welche Anwendungsszenarien für eine Kindersprach­datenbank fallen Ihnen ein?

9. Frage: Welchen Stellenwert haben Informationen über die emotionale Komponente der Sprache?

10. Frage: Ist die Biometrie der Stimme zukunftsträchtig und sicher?

Teil II: Organisation der Zusammenarbeit von Institutionen

11. Frage: Soll eine engere Zusammenarbeit zwischen Sprach­technologie-Institutionen stattfinden? Warum und wie genau?

12. Frage: Bisweilen gibt es eine Kooperation bei der Schaffung von Ressourcen, in der Folge betreiben die Partner eine individuelle Produktentwicklung: Wie wird sich dieses Modell weiterentwickeln?

13. Frage: Was ist wichtig für zukünftige Regelungen zwischen Forschungseinrichtungen (bzgl. Freigabe eines Korpus, Austausch­konditionen, Vertragsregelungen etc.)?

14. Frage: Welche möglichen juristischen Risiken sollten bei der Verwendung von Sprachdatenbanken berücksichtigt werden?

15. Frage: Woher soll bei der Schaffung neuer Sprachdatenbanken idealerweise die Förderung kommen?

16. Frage: Welche Möglichkeiten bestehen für Institutionen, die Sprachdatenbanken erstellen, Ausgaben durch den Vertrieb von Ressourcen auszugleichen?

17. Frage: Welche förderlichen Faktoren für die Weiterentwicklung von Sprachressourcen sehen Sie?

18. Frage: Welche hemmenden Faktoren für die Weiterentwicklung von Sprachressourcen fallen Ihnen ein?

Teil III: Organisation der Erfassung und Distribution von Daten

19. Frage: Welche Daten sollten integrierte Ressourcen bereitstellen?

20. Frage: Bzgl. der Aufnahmequalität Telefon vs. Studio: Welche Art des Inputs ist wichtiger und warum?

21. Frage: Sind für die Zukunft explizite Ausspracheregeln oder statistische Aussprachemodelle wegweisend? Warum bevorzugen Sie die eine oder andere Version?

Teil IV: Technische Sprachanwendungen der Zukunft

22. Frage: Welche Verwendungsbereiche von Sprachtechnologie werden in den kommenden 5 bis 15 Jahren Innovationen hervorbringen?

23. Frage: Welche Verwendungsbereiche von Sprachtechnologie werden in den kommenden 5 bis 15 Jahren Innovationen hervorbringen?

24. Frage: Welche medizinischen Anwendungen von Sprachressourcen erwarten Sie innerhalb der kommenden 15 Jahre?

25. Frage: Welche möglichen zukünftigen Anwendungen von Biometrie können Sie sich vorstellen im Zusammenhang mit Sprachtechnologie (z.B. Fahrerzustandserkennung im Automobil/veränderte Artikulation nach Alkoholkonsum)?

26. Frage: Welche möglichen militärischen Anwendungen von Sprachtechnologie sind im Entstehen?

27. Frage: Sollen eher Modifikationen bestehender Produkte oder die Neugenerierungen von Produkten vorangebracht werden?

28. Frage: Welche Produkte sollen wie modifiziert bzw. neugeneriert werden?

Teil V: Grundlagenforschung (GF)

29. Frage: Bezüglich der Schaffung neuer Korpora: Welche seltenen Sprachen sollten gesichert werden?

Außereuropäische Sprachen

Europäische Sprachen

30. Frage: Sollten Sie Sprachen genannt haben: Welche davon sind ein interessanter Markt?

Außereuropäische Sprachen

Europäische Sprachen

31. Frage: Was sollte man bei der Forschungsplanung für die nächsten 10 Jahre beachten?

Einheitliche Standards für die Korpora-Erstellung

Mehr anwendungsorientierte Grundlagenforschung

Beispiele anwendungsorientierter Grundlagenforschung

Charakteristiken neuer Korpora

Natürlichkeit

Textkorpora

Stichworte Multimodalität und Multilingualität

Portabilität von Ressourcen

Automatisierungen

Rolle des Internet

Veränderungen in der Organisation

32. Frage: Welche Fragen muss die Grundlagenforschung beantworten?

33. Frage: Soll mehr oder weniger Grundlagenforschung betrieben werden und wenn mehr, auf welchen Gebieten genau?

Anwendungsorientierte Forschung

Reine Grundlagenforschung

34. Frage:Wessen Aufgabe ist die Grundlagenforschung? (national, privat, Industrie)?

Wie viele Experten haben jeweils geantwortet?

6. Frage: In welchem Alter sollten Kinder sein, die für eine Sprachdatenbank aufgenommen werden?

7. Frage: Welche Sprachinhalte sind bei der Erstellung einer Kindersprachdatenbank zu berücksichtigen?

8. Frage: Welche Anwendungsszenarien für eine Kindersprachdatenbank fallen Ihnen ein?

11. Frage: Soll eine engere Zusammenarbeit zwischen Sprachtechnologie-Institutionen stattfinden? Warum und wie genau?

13. Frage: Was ist wichtig für zukünftige Regelungen zwischen Forschungseinrichtungen (bzgl. Freigabe eines Korpus, Austauschkonditionen, Vertragsregelungen etc.)?