homes/bits/StudieTeil4.html

Teil V: Grundlagenforschung (GF)

Zusammenfassung

Die Schaffung von neuen Korpora soll die Sicherung von seltenen und bedrohten Sprachen umfassen und nicht nur von einer rein anwendungsorientierten Sichtweise ausgehen. Auch seltene Sprachen können einen 'Marktwert' haben. Schützenswert sind im außereuropäischen Raum vor allem die kleinen Sprachgruppen der früheren UdSSR, afrikanische, indianische und südamerikanische Sprachen; im europäischen Raum deutsche Dialekte und Zigeunersprachen (nach Häufigkeit ihrer Nennung). Bei der Forschungsplanung für die kommenden 10 Jahre sollte auf die Vereinheitlichung von Standards und auf eine anwendungsorientierte Grundlagenforschung geachtet werden. Korpora werden demnächst bestimmte Charakteristika haben: Natürlichkeit, Multimodalität, Multilingualität und Portabilität. Vor allem werden einfach verfügbare Datenströme wie TV und Radio für Korpora verwendet werden. In der künftigen Planung soll die Einrichtung zentraler Stellen zur Erstellung von Korpora und die Unterstützung von gemeinschaftlichen, institutionsübergreifenden Anträgen vorangebracht werden. Die Forschung der nächsten Jahre wird sich vor allem mit der Planung langfristiger Korpora und der Sprachentwicklung des Menschen beschäftigen. Auf die Frage, auf welchen Gebieten genau Grundlagenforschung betrieben werden soll, wird mit Abstand an erster Stelle die 'Anwendungsorientiertheit' genannt. Verantwortliches Organ für das Betreiben von GF soll auf nationaler Ebene der Staat selbst sein (in Form von BMBF und DFG), auf internationaler Ebene die EU in Form spezieller Initiativen. Staatliche Institutionen sollten dabei besonders die Evaluationen kontrollieren und für die finanziellen Mittel sorgen, Universitäten und andere Forschungseinrichtungen hingegen sollen für die Ausführung zuständig sein. Die Industrie wird langfristig als Geldgeber unabdingbar sein, was gleichzeitig ihr Mitspracherecht bedeuten wird.

29. Frage: Bezüglich der Schaffung neuer Korpora: Welche seltenen Sprachen sollten gesichert werden?

Experten raten sowohl dazu, vom Aussterben bedrohte Dialekte (1) als auch bedrohte eigenständige Sprachen zu sammeln (1). Es gibt unterschiedliche Gründe, weshalb Dialekte oder Sprachen aussterben können: herkömmliche Dialekte werden im Sprachgebrauch z.B. oft durch einen ausgeprägten Prestige-Dialekt ersetzt (1). Eigenständige Sprachen können starken Veränderungen wie z.B. der Zunahme von Anglizismen unterliegen und daher bedroht sein (1). Problematisch ist die Tatsache, dass viele Länder, deren Sprachen nur noch wenige Menschen sprechen, nicht die wissenschaftliche und linguistische Infrastruktur zur Erhaltung der Sprachen besitzen und ohne die Schaffung solcher Datenbanken auch den Anschluss an neue Entwicklungen verpassen werden (1). Zwei Experten würden die Kapazitäten für die Schaffung von Korpora lieber für zukunftsträchtige Anwendungen als für die Sicherung von seltenen Sprachen aufwenden (2).

Außereuropäische Sprachen

Russland (7)	- Sprachen des Kaukasus (2) - Kasachisch (1) - Tscherkessisch (1) - Ossetisch (1) - Weissrussisch (1) - Sprachen der früheren UdSSR (1)
Afrika (4)	- Nomadensprachen Nordafrikas (1) - Afrikanische Sprachen (3)
USA und Südamerika (4)	- Indianische Sprachen (3) - Südamerikanische Sprachen (1)
Asien (3)	- Süd-ost-asiatische Sprachen (1) - Indonesische Sprachen (1) - Chinesische Sprachen (1)
Australien (2)	- Aboriginessprachen (2)
Syrien (1)	- Dialekte in Bergregionen Syriens (1)
Türkei (1)	- Sprache der Christen im Südosten der Türkei (1)
Naher Osten (1)	- Kurdisch (1)
Irak (1)	- Sprache der irakischen Flüchtlinge in Europa (1)
Armenien/Iran/Anatolien (1)	- Armenisch (1)
Andere (2)	- Eskimosprachen (1) - Kreolsprachen (1)

Europäische Sprachen

Im europäischen Raum sollten in jedem Fall die Minderheitensprachen, insbesondere die 12 als bedroht eingestuften Sprachen (z.B. Elsässisch, Okzitanisch, Sorbisch), gesichert werden (1).

Deutschland (23)	- Deutsche Dialekte (9) - Plattdeutsch (3) - Friesisch (4) - Jiddisch (4) (germanische Sprache) - Sorbisch (3) (westslawische Sprache, Minderheitensprache in Deutschland)
Zigeunersprachen (4) (Albanien, Bulgarien, Türkei, Griechenland, Makedonien, Rumänien, Serbien und Montenegro)	- Rumänische Roma Variante (1) - Romani (1) - Sinti-Dialekte (1) - andere Zigeunersprachen (1)
Frankreich (2) (Baskenland, Bretagne)	- Baskisch (1) - Bretonisch (1)
Alpentäler der Schweiz/Italien (2)	- Rätoromanisch (2) (Alpentäler der Schweiz/Italiens)
England (1) (Wales)	- Walisisch (1)
Belgien (Wallonien)/ Nordosten Frankreichs (1)	- Wallonisch (1)
Luxemburg (1)	- Luxemburgisch (1) (westgermanischer Kulturdialekt)

30. Frage: Sollten Sie Sprachen genannt haben: Welche davon sind ein interessanter Markt?

Vier Experten erklären, dass sie keine der Sprachen für wirtschaftlich relevant halten. Meist ist dort, wo es nur wenige Sprecher einer Sprache gibt, aufgrund der kleinen Sprecheranzahl kein großer Markt zu erwarten. Bei einer Sammlung von Sprachdaten geht es hier eher um die Identität der Sprecher (1). Am interessantesten in Bezug auf Marktchancen könnten seltene Sprachen sein, die sehr nahe verwandt sind und viele Varianten besitzen (1). In der Sprachsynthese gäbe es auf jeden Fall Märkte im Hinblick auf das Erlernen solcher Sprachen durch gesprochene Korpora. Allerdings die Überzeugung vorherrschen, dass es sich lohnt, in dieser Sprache zu kommunizieren und das Wissen an künftige Generationen weiterzugeben (1).

Außereuropäische Sprachen

Afrika (3)	- Dialekte Nordafrikas im Übergang zwischen Arabisch, Berber und Französisch (1) - Südlichere afrikanische Sprachen (1) - Bantu-Sprachen (1)
Indien (1)	- Indische Sprachgruppen (1)
Naher Osten (1)	- Kurdisch (1)
China (1)	- Regionale Varianten des Chinesischen (1)
Australien (1)	- Aboriginessprachen (1)

Europäische Sprachen

Deutschland (4)

- Deutsche Dialekte (1)
- Jiddisch (2)
- Sorbisch (1)

31. Frage: Was sollte man bei der Forschungsplanung für die nächsten 10 Jahre beachten?

Einheitliche Standards für die Korpora-Erstellung

In den nächsten 10 Jahren werden verlässliche Standards für Annotation (u.a. von Prosodie, Gestik und Emotionen, vergleichbar dem phonetischen Alphabet) (6) und die Kodierung von Sprachdaten und Datenfiles entstehen, um austauschbare, gründlich etikettierte Korpora zu erstellen (10). Parallel werden sich Speichermedien und die Standardisierung von Etikettierungs- und Datenverwaltungswerkzeugen weiterentwickelt haben (1). Auch die Verfahren und Sprachen für die mehrschichtige Metadaten-Annotation (1) und die Interoperabilität zwischen verschiedenen Typen von Datenmengen (aber auch mit bestehenden Werkzeugen) werden zugenommen haben (1). Dabei muß die Entwicklung von Werkzeugen mit der Annotierung und Generierung von Sprachdaten Hand in Hand gehen (1). Per Studie könnte herausgefunden werden, welche Metadaten sind für die Erhebung sinnvoll sind (1). Bis heute ist immer noch eine genaue Aufzeichnung der Sprecher- oder Autoreneigenschaften (Alter, Herkunft, Bildung etc.) sehr wichtig (1). Durch Schlüsselwortgenerierung und das Erkennen von thematischen Signaturen wird zukünftig der zeitaufwändige Prozess der Erstellung von Metadaten reduziert werden (1). Auch spezialisierte Suchmaschinen könnten sowohl Metadaten als auch Volltexte nutzen und den Aufbau paralleler Korpora aus dem Datenfundus des WWW unterstützen (1).

Mehr anwendungsorientierte Grundlagenforschung

Es sollte mehr anwendungsorientierte (Grundlagen-)forschung mit Einbezug der Industrie betrieben werden (4), ohne dass die reine Grundlagenforschung unabhängig von der industriellen Anwendung (z.B. Datensammlung von seltenen Sprachen) (1) dadurch zu sehr ins Hintertreffen gerät (sprich: keine Verlagerung industrieller Forschung in die Hallen der Universitäten) (1). Allgemein sollte die Forschung immer so flexibel bleiben, dass sie sich neuen Entwicklungen anpassen kann (1).

Beispiele anwendungsorientierter Grundlagenforschung

Anwendungsorientierte Grundlagenforschung beschäftigt sich z.B. mit der Frage, wie minimal eine Ressource mindestens sein muss, um mit ihr noch einen guten Spracherkenner bauen zu können (1). Sie sollte immer weitere Ergänzungen zu bisherigen Mitteln der automatisierten Spracherkennung, bezüglich der Erkennungsqualität und auch der "freien Sprache" (statistische Erkennung) liefern (1). Sie konzentriert sich immer auf Sprachen, die von einer großen Sprechermenge gesprochen werden - im Hinblick auf größere wirtschaftliche Erfolge (1). Das Clustering ähnlicher Sprachen macht es möglich, Forschung schrittweise aufzubauen (1).

Charakteristiken neuer Korpora

Natürlichkeit

Das Material soll aus möglichst vielen natürlichen Kommunikationssituationen und Lebenskontexten bestehen (1). Es sollen möglichst viele Daten von einer Person vorhanden sein, d.h. es sollte so gering wie möglich in die Kommunikationssituation eingegriffen werden, auch wenn dadurch die akustische Qualität unter Umständen sinken könnte (3). Statistisch basierte Ansätze sollen in der Erkennung und Synthese wieder zu Modellen führen, die die Realität enger abbilden (1). Die neuen Ressourcen sollen die praktische Nutzung realer, sinnvoller und gewünschter Applikationen bzw. Systeme repräsentieren (z.B. durch WOZ) (1).

Textkorpora

Eine größere Bandbreite an Textkorpora sollte zukünftig entstehen, z.B. E-mail, FAQ, semi-strukturierte Korpora, historische Korpora, Multimedia. Die Korpora können mittels Ontologien semantisch angereichert werden. Daraus sollte sich eine dichte, multi-level Annotation im Sinne der verschiedenen sprachlichen Ebenen, also von Morphologie, Syntax, Semantik bis hin zu pragmatischen Aspekten (Diskurs) (1) ergeben. Auch sollte eine explizite Annotation von Ambiguitäten (1) gemacht werden (1). Die Entwicklung von Korpora-Navigationstools im Sinne des Semantic Web, d.h. die software-technische Möglichkeit, riesige Korpora mittels spezieller Suchmaschinen bedarfsspezifisch zu navigieren (1), sollte weiterentwickelt werden.

Stichworte Multimodalität und Multilingualität

Korpora sollen neue, multimodale Anwendungsszenarien/Ressourcen beinhalten (4), dazu gehört auch das Labeling von Benutzeremotionen (1). Der Bedarf an multilingualen Ressourcen (3) und dialektal/soziolektal ausgerichteten Ressourcen (1) wird größer. Viele Sprachen und Dialekte müssen zukünftig in Kombination mit anderen Kommunikationsmodi aufgenommen werden (1).

Portabilität von Ressourcen

Ressourcen sollten von einer Sprache in eine andere portabel sein (1). Die Portabilität kann vor allem kleineren Sprachgemeinschaften helfen, das Know-How zu übertragen, das für größere Sprachgemeinschaften (Englisch, Deutsch, Japanisch usw.) bereits erworben wurde (1).

Automatisierungen

Die automatisierte Schaffung von Ressourcen aus verfügbaren Datenströmen, wie z.B. TV und Radio, und auch aus Tonaufzeichnungen bei Meetings, Konferenzen, Telefonaten unter Berücksichtigung von Datenschutzaspekten wird eine immer größere Rolle spielen (1). Korpora werden künftig zu Test-Suites (handcrafted diagnostic benchmarks) Verbindungen haben (1).

Rolle des Internet

Oft wird das Internet als Quelle für die Sammlung sprachlicher Daten überbewertet (1). Zukünftig werden aber Semantic-Web orientierte Beschreibungssprachen (2) interessant sein. Internet-Texte sollten standardisiert werden, d.h. es sollte eine Art Internet-Verlag entstehen, damit die Ressourcen für die Forschung berücksichtigt werden können (1).

Veränderungen in der Organisation

Es sollten künftig zentrale Stellen eingerichtet werden, an der Korpora erworben werden können (2). Auch sollte eine engere Zusammenarbeit mit der Industrie in Form kleiner Projekte mit zügiger Evaluation stattfinden (1). Die Deutsche Forschungsgemeinschaft (DFG) sollte verstärkt gemeinsame Anträge von mehreren Institutionen unterstützen (1) und noch mehr Projekte fördern (1). Die geförderten Korpora sollten anschließend zumindest für die Universitäten frei bereitgestellt werden (2). Der Einsatz von Geisteswissenschaften soll vergrößert werden, so dass sie gemeinsam mit den entsprechenden ingenieurswissenschaftlichen Fächern konkrete Aufgaben bearbeiten (1).

32. Frage: Welche Fragen muss die Grundlagenforschung beantworten?

Korpora (8)

Sprachentwicklung (6)

Linguistik (5)

Sprachwandel (3)

Sprachverarbeitung (3)

(Annotations-) Standards (3)

Ergründung von Strukturebenen 3)

Mensch-Maschine-Dialog (3)

Spracherkennung/Sprachsynthese (2)

Gestik (1)

Sprachproduktion/Sprachperzeption (1)

Kognitionswissenschaft (1)

Methoden (1)

Weltwissen (1)

Anwendungsorientierung (1)

Semantik (1)

33. Frage: Soll mehr oder weniger Grundlagenforschung betrieben werden und wenn mehr, auf welchen Gebieten genau?

25 Experten sind der Meinung, es sollte in jedem Fall mehr Grundlagenforschung betrieben werden. Acht davon erwähnen spezifisch, dass gerade die anwendungsbezogene Grundlagenforschung wichtig sei, drei sind mit dem Verhältnis zwischen Grundlagen- und Anwendungsforschung bereits zufrieden. Folgende Gebiete wurden erwähnt:

Anwendungsorientierte Forschung

Anwendungsbezogenheit (9)

Erstellung von Korpora (7)

(Automatische) Annotation (6)

Systeme und Modelle (4)

Artikulation und Perzeption (1)

Reine Grundlagenforschung

Artikulation (2)

Emotion, Mimik, Gestik, Vision (2)

Repräsentationsebenen (2)

Neuronale Verarbeitung (1)

Prosodie (1)

Sprachproduktion und Perzeption (1)

Sprachverstehen (1)

Dialektforschung (1)

34. Frage: Wessen Aufgabe ist die Grundlagenforschung? (national, privat, Industrie)?

Nach Meinung von 25 der befragten Experten sollten die Verantwortlichkeiten für die Grundlagenforschung besonders von nationalen (25), d.h. staatlichen, aber auch von internationalen (6) Instanzen getragen werden. Das Bundesministerium für Bildung und Forschung (BMBF) (1) und die Deutsche Forschungsgemeinschaft (DFG) könnten diese Funktion im nationalen Rahmen, die EU (1) und speziell gegründete Gruppen wie z.B. die 'Dialogue Encoding Initiative' (1) im internationalen Rahmen übernehmen. Die Universitäten in internationaler Kooperation sollten auch Träger dieser Aufgaben werden (4). Da bestimmte Grundlagen sprachunabhängig sind, sollten gerade diese Phänomene in internationalen Kooperationen erforscht werden (1), z.B. die internationale Förderung 'kleinerer' Sprachen (1).

Experten sprechen sich für eine konkrete Aufgabenteilung aus: staatliche Aufgabe sollte beispielsweise die strikte Kontrolle über Evaluationen (1) und die finanzielle Förderung (3) sein, wobei die Universitäten und andere Forschungszentren die Ausführung der Grundlagenforschung übernehmen (4). Die Industrie soll zwar einen (finanziellen) Beitrag leisten und ein gewisses Mitspracherecht haben, aber nie die Grundlagenforschung diktieren (4). Da die vom Bildungsetat vorgesehenen Mittel nicht ausreichen werden, wird langfristig die Unterstützung durch große Firmen (3) und Stiftungen benötigt, jedoch soll deren Beteiligung unter dem Vorbehalt einer engen Anlehnung an aktuelle Forschungsbedürfnisse (2) stattfinden, d.h. die definierten Ziele der Industrie dürfen keine einschränkende Wirkung auf die Investition in die Grundlagenforschung haben (1). Andererseits sollte darauf geachtet werden, eine anwendungsorientierte Forschung durch ein nur eingeschränktes Mitspracherecht der Industrie nicht außer Acht zu lassen (5), denn auch eine schnelle Umsetzbarkeit von Ergebnissen aus der Grundlagenforschung in konkrete Produkte sollte ein staatliches Anliegen sein (1). Bisher wurde die GF meist nur direkt entweder durch die nationale Instanz oder die Industrie betrieben, was zu Problemen in der Verfügbarkeit von Ressourcen geführt hat (2).

----------------------------------------------------

Wie viele Experten haben jeweils geantwortet?

Insgesamt haben sich 37 Experten bereit erklärt, die Fragen zu beantworten. Sechs davon haben den Fragenkatalog nicht zu Ende geführt. Andere Experten haben den Fragebogen zwar bis zum Schluß bearbeitet, jedoch aufgrund ihrer individuellen Schwerpunkte nicht alle Fragen beantwortet.

Frage 1: Berücksichtugung von Dialekten	26
Frage 2: Bedarf an gemischt-sprachlichen Ressourcen	29
Frage 3: Bedarf an Zweitsprach-Ressourcen	25
Frage 4: Korpus mit Fehlern in der Spontansprache	31
Frage 5: Ausweitung auf Generationenkorpora	29
Frage 6: Alter von Kindern für Sprachdatenbank	26
Frage 7: Sprachinhalte für Kinderdatenbank	21
Frage 8: Anwendungsszenarien für Kindersprachdatenbank	25
Frage 9: Stellenwert der Information über Emotionalität	30
Frage 10: Biometrie zukünftsträchtig und sicher	22
Frage 11: Engere Zusammenarbeit zwischen Institutionen	37
Frage 12: Kooperation, jedoch individuelle Produktentwicklung	35
Frage 13: Zukünftige Regelungen zwischen Institutionen	35
Frage 14: Juristische Risiken	23
Frage 15: Finanzielle Förderung neuer Sprachdatenbanken	30
Frage 16: Ausgabendeckung durch Vertrieb	24
Frage 17: Förderliche Faktoren für Weiterentwicklung	24
Frage 18: Hemmende Faktoren für die Weiterentwicklung	24
Frage 19: Integrierte Ressourcen und deren Datenbereitstellung	25
Frage 20: Aufnahmequalität und Art des Inputs	26
Frage 21: Aussprachemodelle der Zukunft	23
Frage 22: Verwendungsbereiche mit künftigen Innovationen	30
Frage 23: Künftige Produkte ziviler Anwendungen	27
Frage 24: Medizinische Anwendungen von Sprachressourcen	30
Frage 25: Mögliche künftige Anwendungen von Biometrie	23
Frage 26: Militärische Anwendungen	18
Frage 27: Modifikationen oder Neugenerierungen neuer Produkte	28
Frage 28: Produkte für Modifikation bzw. Neugenerierung	21
Frage 29: Sicherung seltener Sprachen	24
Frage 30: Interessanter Markt bei seltenen Sprachen	11
Frage 31: Forschungsplanung der nächsten 10 Jahre	31
Frage 32: Fragen der Grundlagenforschung	26
Frage 33: Mehr oder weniger Grundlagenforschung	32
Frage 34: Träger der Grundlagenforschung	32