Teil II: Organisation der Zusammenarbeit von Institutionen


Zusammenfassung


Eine stärkere Zusammenarbeit zwischen Institutionen wird von allen Befragten gewünscht, da die gesamte Infrastruktur der Sprachtechnologie dadurch gestärkt und die Qualität der Ressourcen zunehmen wird. Das Modell der gemeinsamen Ressourcen-Schaffung und individuellen Produktentwicklung wird dabei auch in Zukunft aus Wettbewerbsgründen der Standard bleiben. In den Regelungen für eine Zusammenarbeit werden Forschungseinrichtungen gegenüber Firmen weiterhin in der Form bevorzugt werden, dass sie von der Lizenzgebühr auf Ressourcen befreit werden. Aus öffentlicher Hand finanzierte Ressourcen sollen der Allgemeinheit dienen und idealerweise allgemein zugänglich sein. Juristisch müssen vor einer Aufnahme der Schutz des Sprechers garantiert und andere Sicherheitsregelungen schriftlich festgehalten werden. Die Förderung für die Schaffung von Sprachdatenbanken soll sowohl aus staatlichen als auch aus privatwirtschaftlichen Quellen kommen, wobei der Staat im Gegensatz zu Firmen bereit ist, zu Forschungszwecken auch wirtschaftlich uninteressante Ressourcen zu unterstützen. Kosten für die Schaffung von Ressourcen werden durch den Vertrieb nur zum Teil ausgeglichen.

Die allgemeine Nachfrage im Bereich der mobilen Dienste, der Wunsch nach Förderung des Zusammenwachsens Europas und die Verbesserung der Sensor- und Computertechnik wirken sich in der Entwicklung der Sprachtechnologie sicherlich förderlich aus, die momentane wirtschaftliche Krise Deutschlands und unausgereifte Systeme auf dem Markt hemmen dagegen die Nachfrage.

11. Frage: Soll eine engere Zusammenarbeit zwischen Sprach­technologie-Institutionen stattfinden? Warum und wie genau?

Alle Befragten sprechen sich einstimmig für eine engere Zusammenarbeit zwischen Sprachtechnologie-Institutionen aus. Die gesamte Infrastruktur (in Europa) wird durch eine Schaffung einer gemeinsamen Plattform gestärkt werden (1) und eine positive Entwicklung im Bereich der Qualität und Größe von Sprachressourcen zur Folge haben. Institutionen, die an der Schaffung von Ressourcen beteiligt sind, müssen gemeinschaftlich verbindliche Standards festlegen, was allgemein zu einer Aufwertung der entstehenden Ressourcen führt, da diese im Vergleich zu vielen bisherigen language ressources (LR) zum einen für eine größere Anzahl von Nutzern anwendbar und gleichzeitig für mehrere Anwendungen wieder verwertbar werden (3). Durch die Kosten- und Arbeitsteilung (2) und die Koordination von Bearbeitungstools (1) wird die Schaffung großer einheitlicher Ressourcen ermöglicht. Eine Kooperation verschafft darüber hinaus einen Überblick über bestehende und geplante Ressourcen an den Standorten (1) und hilft, neue LR sinnvoll zu planen.

 Vorteile durch mehr Effektivität und Qualitätssicherung

Die Abstimmung verschiedener Institutionen untereinander wird dabei helfen, Kapazitäten zu bündeln (1), dadurch schneller und effektiver (2) große Ressourcen zu erschaffen (1) und lästige Doppelarbeit zu vermeiden (5). Durch den Austausch von Tools können zusätzlich Kosten für die Erweiterung der Ressourcen eingespart werden (1). Die Verknüpfung von Spezialkenntnissen in einzelnen Sprachen (2) ermöglicht erstens, dass mehrsprachige Korpora leichter gesammelt werden (2) und zweitens, dass unterschiedliche Anforderungen, die von Seiten der Anwendungen gestellt werden, besser erfüllt werden können (1). Durch Erfahrungsaustausch (3) und Wissenstransfer (3) können die Vergleichbarkeit von Forschungsergebnissen verbessert (1), Fehler vermieden (2) und schnellere Fortschritte (1) erzielt werden.

 Festlegung von Annotierungsstandards

Eine Standardisierung von Korpora (3) betrifft vor allem die Abstimmung bezüglich der Annotation (6) und den dazu gehörenden Annotierungs- und Austauschformaten (1). Mithilfe von Modulen verschiedener Institutionen können multi level Annotationen von Korpora durchgeführt werden (1). Zu einer Standardisierung gehört auch die Schaffung einer gemeinsamen Software-, Hardware- und auch Aufnahme-Umgebung, das heißt. z.B. gemeinsame (Meta-)Datenformate (4) und eine Abstimmung bezüglich verwendeter Mikrofone, Soundkarte etc. (1) - alles unter dem Stichwort "cross-searchability" (3).

Eine genaue Absprache, wie die Daten erfasst werden sollen, ermöglicht danach einen gemeinsamen Zugriff für unterschiedliche Zwecke (1). Auch genaue Spezifikationen und Anforderungen an die Korpora (ihr Zweck) sollten formuliert werden (2). Das hat den Vorteil, dass auch andere Institutionen ihre Erfahrungen bzw. Problemlösungen einfach einbringen können (2).

 Regelung von Finanzierung, Austauschs und Zugänglichkeit von Daten

Bei der Schaffung großer Korpora sollen die Kosten bezüglich der Sammlung und Transkription der Sprachdaten und der Lexika geteilt werden (5). Vorher muss geklärt werden, wie viel die Industrie für ein solches Korpus zu zahlen hat (1) und wer bereit ist, dafür zu zahlen. Eine Nutzung der Datenbanken kann der Industrie auch kostenlos oder zumindest kostengünstig erlaubt werden, um schnellere Fortschritte im Anwendungsbereich erzielen zu können (3). Forschungseinrichtungen haben den Vorteil des Anwendungsbezugs, wenn sie Korpora an Unternehmen weitergeben (1).

Forschungseinrichtungen untereinander können für die Nutzung eines Korpus die Regelung treffen, dass ein Korpus nur dann an eine Einrichtung vergeben wird, wenn diese dafür eigene Ressourcen bereitstellt oder sich verpflichtet, daraus gewonnene wissenschaftliche Ergebnisse 'zurückzugeben' (3). Die Austauschpflicht soll vertraglich geregelt werden (1). Spezielle Rabattregelungen, z.B. pro gespendeter Stunde Material wird ein festgelegter Rabatt auf anderes Material gewährt, können die Bereitschaft steigern, Material aufzubereiten und einer zentralen Stelle zur Verfügung zu stellen (1). Zwischen Forschungseinrichtungen kann auch ein freier Zugang zu Korpora für Forschungszwecke und eine freie Verfügbarkeit von Software und Skriptdateien vereinbart werden (2).

 Konkrete Vorschläge für Kooperation

Zu Anfang jeder Zusammenarbeit müssen klare Ziele formuliert und Domänen bestimmt (1) werden, um die Nutzbarkeit der gemeinsam gesammelten Daten für die individuellen Bedürfnisse der Partner zu gewährleisten (1). Um die mittelfristigen Vorstellungen und Absichten (Typ von LR, Regionen etc.) abzustimmen, muss sich ein internationales und/oder nationales Netzwerk von LR-Produzenten und Anwendern etablieren (1). Es existieren bereits große Konsortien, wie z.B. überregionale und überuniversitäre Verbundprojekte (2), wie SPEECON oder SpeechDat (1). Die Verbindung mit bestehenden Initiativen (z.B. OLAC) sollen bestehen bleiben, andererseits müssen sich auch innerhalb von Deutschland die Organisationen, die sich mit gesprochenen und geschriebenen Korpora beschäftigen, enger zusammenarbeiten (1). Regelmäßige Treffen von Vertretern aus der Industrie und aus der Forschung sollen stattfinden. Es müssen sich aber möglichst kleine Kreise mit genauer Aufgabenverteilung (3) zusammenfinden. Eine Zusammenarbeit kann auf allen Ebenen stattfinden , z.B. per Telefon, E-Mail, Workshops, Mailinglists, Newsletter, Interessenforen, über Leiharbeiter (3).

Ein konkreter Vorschlag für die enge Kooperation zwischen Universitäten und Firmen ist, eine zentrale Koordination oder einen deutschlandweiten Zweckverbund (e.V.) mit einem überschaubaren Mitgliedsbeitrag (ca. 200 Euro) ins Leben zu rufen, welcher die Verwaltungsaufgaben des Zweckverbundes deckt. Der Verbund hätte die Aufgabe, Anforderungen an Korpora zu sammeln und Korpora zu verwalten. Einzelne Universitäten bzw. Firmen würden spezielle Aufbereitungen (Etikettierung, Analyse-Merkmale) von Allgemeininteresse beisteuern und dafür das betreffende Korpus und alle dafür erstellten Merkmale kostenlos nutzen. Bei einer Mithilfe an mindestens drei Korpora im Jahr könnte der Zugriff auf drei weitere Korpora kostenlos möglich gemacht werden. Ohne Zuarbeiten wäre ein kostenpflichtiger Zugriff für Mitglieder auf beliebige Ressourcen möglich. Die Datennutzung ohne Mithilfe sollte mit überschaubaren Summen (max. 5000 EUR für große Datenbanken) bezahlbar sein (1).

 

12. Frage: Bisweilen gibt es eine Kooperation bei der Schaffung von Ressourcen, in der Folge betreiben die Partner eine individuelle Produktentwicklung: Wie wird sich dieses Modell weiterentwickeln?

 Ein Großteil der Experten geht davon aus, dass eine individuelle Produktentwicklung der Standard bleiben wird (23). Eine Kooperation wird weiterhin nur beim Aufbau von Ressourcen stattfinden. 9 Experten erklären ausdrücklich, dass sie dieses Modell für adäquat und wünschenswert halten. Kritik gibt es nur insoweit, dass solche im kleinen Kreis erstellten Ressourcen bisher nur für die Projekt-Partner, jedoch nicht für eine größere Allgemeinheit zugänglich waren. Als positive Gründe für eine Kooperation bei der Erstellung der Ressourcen wurden die Schaffung von Standards, die Reduzierung des Zeit- und Finanzaufwands und die höhere Qualität genannt. Im Bereich der Schaffung von Ressourcen wird die Kooperation noch weiter zunehmen (4). Die individuelle Produktentwicklung wird aus Wettbewerbsgründen jedoch bestehen bleiben (10).

 Gründe für eine Kooperation in der Ressourcen-Schaffung

Ein Grund für die Kooperation ist die Schaffung verlässlicher Standards und guter Dokumentationen (1). Dies betrifft vor allem standardisierte Annotierungen bei Ein- und Ausgaben von Systemen (1). Die darauf folgende eigene Produkt(weiter)entwicklung ist dann breiter einsetzbar oder schneller adaptierbar (1).

Kooperationen sind unumgänglich, wenn eine Ressource nicht nur individuell erfolgreich eingesetzt werden soll (1). Das individuelle Sammeln und Aufbereiten von Daten stellt für eine spätere breite Bereitstellung keinen effektiven Weg dar (1). Eine individuelle Ressourcenerstellung ist nur dann lohnenswert, wenn eine Firma z.B. gedenkt, exklusiv ein Marktsegment zu besetzen (1). Eine große Verbreitung der Ressource sichert ihre höhere Qualität, da von mehreren Trägern Fehlerkorrekturen und Ergänzungshinweise gegeben werden (1). In Zukunft allerdings ist das primäre Ziel, neue Produkte ohne neue Ressourcen zu erzeugen. Da die Ressourcengenerierung teuer ist, wird sich bei einer bestimmten Menge verfügbarer Ressourcen der Bedarf an neuen Ressourcen verringern (1).

 Gründe für das Bestehenbleiben einer individuellen Produktentwicklung

Unterschiedliche Interessenschwerpunkte in der Produktentwicklung und das Interesse am Wettbewerbsvorsprung werden sich auch in Zukunft nicht vermeiden lassen (10). Daher wird eine gemeinsame Produktentwicklung die Ausnahme bleiben (2). Die Generierung von sehr kleinen (firmen-)spezifischen LR wird es zwar weiterhin auch geben (2), jedoch die Masse der industriell interessanten LR werden dem Konsortium-Modell SpeechDat/SPEECON folgen (1). Vorstellbar ist eine gemeinsame Produktentwicklung nur bei speziellen Vereinbarungen (z.B. im Automobilbau), bei Firmenfusionen und, wenn Produktkomponenten gemeinsam in komplexere Produkte einfließen sollen (3). Das ist dann immer auch eine wirtschaftliche Entscheidung.

 Bestehendes Vorgehen wird als positiv bewertet

Die individuelle Produktentwicklung mit gemeinsamer Ressourcenschaffung wird von einigen Experten durchaus ausdrücklich als adäquat und wünschenswert bewertet (3). Für bestimmte Anwendungsklassen ist das ein sehr vernünftiges Modell, vor allem, wenn generische Daten gebraucht werden (1). Ressourcen können auf diese Art von allen genutzt werden (1) und der Aufwand für die Erstellung wichtiger Grundlagen verringert sich (1). Darüber hinaus besteht nach Meinung einiger Experten keine Notwendigkeit, über die Schaffung von Ressourcen hinaus weiter zusammenzuarbeiten (3).

 Mögliche Weiterentwicklungen innerhalb dieses Modells

Oft findet die Ressourcen-Kooperation nur in einem engen Kreis statt und die Ergebnisse sind nicht für alle zugänglich. Ein Vorschlag ist daher, solche Ressourcen auf nationaler Ebene als "Freeware" zu kreieren (1) oder ihre Sammlung und die Entwicklung von Basiskomponenten durch spezialisierte Anbieter vornehmen zu lassen (Outsourcing) (1). Open-Source-Produkte werden in Zukunft eine immer größere Rolle spielen (1).

 

13. Frage: Was ist wichtig für zukünftige Regelungen zwischen Forschungseinrichtungen (bzgl. Freigabe eines Korpus, Austausch­konditionen, Vertragsregelungen etc.)?

Forschungseinrichtungen sollen laut Expertenmeinung Ressourcen bevorzugt erhalten (19) und von einer Lizenzgebühr befreit werden, damit die Forschung nicht durch finanzielle Engpässe blockiert wird. Ist diese Regelung nicht umsetzbar, soll zumindest eine Austauschregelung aufgestellt werden, die einen Erwerb der Ressource bei gleichem Gegenwert vorsieht. Wurden Korpora aus öffentlichen Mitteln finanziert, sollen sie allgemein zugänglich sein. Ist dies nicht machbar, soll nur die Industrie für den Erhalt einer LR eine Lizenz bezahlen.

 Regelungen zur Verwendung von Korpora für die Wissenschaft

Forschungseinrichtungen sollen Korpora kostenlos als Open Source (19) nutzen dürfen, besonders, wenn sie von öffentlicher Hand finanziert wurden (6). Falls der völlig freie Zugang nicht möglich ist, sollte zumindest ein Austausch stattfinden können, das heißt. mit der Gegenleistung einer eigenen Ressource kann ein Korpus erworben werden (5). Damit die Daten austauschbar sind, müssen Kodierungsstandards beachtet werden (1). Ein Austausch kann auch so aussehen, dass die Spender-Institution pro weitergegebenem Datensatz eine Sachspende in Form von Freiminuten auf andere Korpora erhält (1), oder er kann sich nur auf Standardformate beziehen (1) und im Idealfall Aufwände abdecken (2). Die Bedingungen eines Austausches müssen dabei frühzeitig umfassend festgelegt werden (2). Am besten, indem ein 'Ehrenkodex' angewendet wird, um zu verhindern, dass sich eine Institution benachteiligt oder ausgenutzt fühlt (1). Kleine Institute, die sich teure LR nicht leisten können, sollen eventuell von der Gebühr befreit werden (1) oder mit einer Gegenleistung durch eigene Ressourcen ein Korpus nutzen dürfen (1). Für Forschungseinrichtungen, die selber keine LR produzieren, können im Vergleich zur Industrie preislich niedrigere Forschungslizenzen erhoben werden (1).

Intellectual Property Rights (IPR) der Ersteller eines Korpus (siehe auch das eContent Programm der EU) sollen immer festgelegt und die Urheber in allen Publikationen gewürdigt werden (1). Haftungsbestimmungen sind möglichst auszuschließen (1).

 Regelungen zur Verwendung von Korpora für die Industrie

Wenn Korpora durch öffentliche Hand finanziert wurden, ist ein realistisches Modell für die Freigabe eines Korpus, die Ressourcen ein Jahr exklusiv nur für die Partner verfügbar zu machen und dann der Allgemeinheit via BAS/ELRA/LDC etc. gegen einen Kostenbeitrag zur Verfügung zu stellen, wie es in den Projekten Verbmobil und SmartKom der Fall war (1).

Wird nicht von öffentlicher Hand gefördert, sollen Lizenzgebühren bezahlt werden (9). Diese sollen sich auf einem Preisniveau einpegeln, das auch der Tatsache Rechnung trägt, dass Datenbestände veralten (Preisanpassung) (1). Es können auch spezielle Evaluationslizenzen erhoben werden, die ein obligatorisches Feedback beinhalten, mit der Aussicht auf Entlohnung (1). Kommerzielle Partner können auch die Möglichkeit bekommen, statt der Lizenzgebühren mit eigenen Datensammlungen zu zahlen (1). Wichtig ist dabei, dass die Abnehmer von Ressourcen sich schriftlich verpflichten, private Ressourcen nicht an Dritte weiterzugeben (2). Allgemein soll die Regelung der kommerziellen Nutzung sehr präzise ausfallen (1).

Weitere Vorschläge zur zentralisierten Kooperation

Wünschenswert sind zentrale Stellen für die Freigabe und Verteilung von Korpora (1), die aus dem Internet heruntergeladen werden können (1). Hierbei muss vertraglich festgelegt werden, wer die Pflege und Aktualisierung der Korpora übernimmt (1), und es muss eine Einigung hinsichtlich des Einfließens von Arbeitsergebnissen (ähnlich wie GPL) stattfinden, die der Gemeinschaft wieder zur Verfügung gestellt werden (1). Ergebnisse und die Integration in die zentralen Ressourcen sollen über Mitgliedsbeiträge der Vereinigung (e.V.) finanziert werden (1). Standardverträge für alle Einrichtungen, die die Freigabe regeln, erleichtern dem kommerziellen Anwender den Erwerb von LR wesentlich, da nur noch die einmalige Prüfung über die firmeninterne Rechtsabteilung nötig ist (1). Gewinnregelungen sollen eine Geldverteilung zwischen beteiligten Instituten vorsehen (1). Die von der Industrie erlösten Rückflüsse sollen in Teilen wieder zu den öffentlichen Geldgebern zufließen und/oder in die Korpusproduktion reinvestiert werden (1).

Jede einzelne Einrichtung soll jeweils auch eine knappe und aktuelle Übersicht über das eigene Angebot im Internet bereitstellen (1) und als Vertreiber einer Ressource auch eine kostengünstige Trial-Version anbieten (1).

 

14. Frage: Welche möglichen juristischen Risiken sollten bei der Verwendung von Sprachdatenbanken berücksichtigt werden?

 Schutz der Sprecher

Vor Beginn der Aufnahmen sollte eine juristisch einwandfreie Einverständniserklärung mit der Erlaubnis zur freien Verwendung und späteren Nutzung entwickelt und vom Sprecher unterzeichnet werden (1). Diese soll auch für alle nachfolgenden Aufnahmen als Vorlage verwendet werden (4). Sprachspender-Daten müssen für die Öffentlichkeit anonymisiert sein (5), daneben wird allerdings die Möglichkeit zur Re-Identifizierung der Sprecher gefordert (1). Zum Schutz vor Missbrauch der Stimme (z.B. für pornografische Zwecke) ist die Anonymisierung wichtig (4). Die Datenschutzbedingungen müssen mit den erwachsenen Sprechern und den Eltern von unmündigen Kindern genau abgestimmt und eingehalten werden (4).

Vor allem bei Sprachsynthese-Aufnahmen muss das Recht auf die eigene Stimme als wichtiges Element und Ausdrucksmittel der eigenen Persönlichkeit und Person gewahrt werden (1). Dem GEMA-Modell folgend sind Sprecher, deren Stimmen besonders breite Anwendung in Sprachsynthese-Systemen finden werden, an den Lizenzgebühren zu beteiligen (1). Künstlich erzeugte sprachliche Aktionen sollen für den Fachmann kenntlich gemacht werden (durch ‚Wasserzeichen’), wird vage gefordert (1).

 Bestimmung der Nutzungsrechte und Sicherheitsregelungen

Bei der Vergabe einer LR muss der Anwender per Unterschrift garantieren, sie für bestimmte Zwecke nicht zu nutzen (2). Solche Nutzungseinschränkungen gelten beispielsweise für pornografische und andere unlautere Zwecke (1). Weiter muss garantiert werden, dass das erworbene Korpus nicht an Dritte weitergegeben oder verkauft wird (1).

Wurde die Ressource in einem Zweckverbund erfasst, sollen die Verwertungsrechte im Besitz des Verbundes bleiben. Der Verbund muss eine Überprüfung der Mitglieder vornehmen, damit eine militärische und terroristischer Nutzung der Daten ausgeschlossen werden kann (1). Da Ressourcen sehr teuer sind, muss das Copyright und Eigentumsrecht genau festgelegt werden (4).

Im Bereich der Biometrie müssen Regelungen zur Sicherung vor unberechtigtem Zugriff auf die Daten (1) und zur Fälschungssicherheit (1) getroffen werden, ein Trust-Center ist ggf. einzurichten (1), da biometrische Merkmale höhere Missbrauchsgefahr bedeuten als beispielsweise ein ‚genetischer Fingerabdruck’ (1).

 

15. Frage: Woher soll bei der Schaffung neuer Sprachdatenbanken idealerweise die Förderung kommen?

Die LR muss hauptsächlich aus staatlichen oder auch europäischen Kassen (2) gefördert werden (17) oder je nach Verwendungszweck idealerweise aus beiden Quellen stammen (13). Dabei gibt es eine relativ eindeutige Verteilung der Aufgaben: Die Wirtschaft wird nur Beiträge zu wirtschaftlich interessanten Ressourcen leisten; der Staat fördert auch wirtschaftlich unbedeutendere Ressourcen, die z.B. für die Grundlagenforschung und zum Schutz seltener Sprachen eingesetzt werden. Die industriell geförderten LR werden dagegen besonders für Anwendungen bzw. die anwendungsbezogene Forschung genutzt.

 Aufgabe staatlich geförderter Ressourcen

Staatlich geförderte Ressourcen haben den Vorteil, dass sie meist öffentlich verfügbar sind (3). Der Staat fördert auch Ressourcen, die nicht wirtschaftlich interessant sind (1), dafür aber eine breite Forschungsausrichtung möglich machen (1). So haben ärmere Länder, deren Industrie sich eigene LR nicht leisten kann/will und/oder deren Sprachen nur von einer kleinen Gruppe gesprochen werden, die Möglichkeit, LR staatlich und ggf. international fördern zu lassen (1). Die Aufgabe staatlich geförderter Ressourcen liegt nicht in erster Linie darin, für Anwendungen bereitgestellt zu werden, sondern vor allem darin, die Grundlagenforschung voranzubringen (3), bedrohte Sprachen zu schützen (2) und die Sprache als wichtiges Kulturgut zu archivieren (1). Werden sie im Anwendungsbereich eingesetzt, dann besonders für verwaltungsbezogene und ‚hoheitliche’ Aufgaben (1).

Meist sind bei staatlich geförderten LR die Richtlinien zum Schutz der Sprecher höher, so dass in jedem Fall die Anonymisierung der Sprecher garantiert und die Einhaltung von Standards gesichert sein sollte (1). Es sollte vermieden werden, dass staatlich geförderte Ressourcen eine versteckte Subvention von privatwirtschaftlichen Ressourcen darstellen (1).

 Aufgabe privatwirtschaftlicher Ressourcen

Die Ressource aus privatwirtschaftlicher Förderung soll der anwendungsbezogenen Forschung und Entwicklung neuer Technologien (z.B. in Bezug auf Dialogschnittstellen) dienen und bei überschaubaren Datenmengen eingesetzt werden (3). Da seltene Sprachen kommerziell eher uninteressant sind, werden von der Privatwirtschaft meist nur etablierte Sprachen erfasst (1). Nutzer von kommerziellen Datenbanken sollen Nutzungsentgelte für die Korpora zahlen (3), um die Aufwendungen nachträglich finanziell auszugleichen.

 

16. Frage: Welche Möglichkeiten bestehen für Institutionen, die Sprachdatenbanken erstellen, Ausgaben durch den Vertrieb von Ressourcen auszugleichen?

Der Vertrieb von Ressourcen ist die beste Möglichkeit, um Aufwendungen wieder auszugleichen (9). Die Finanzierung läuft dabei über die Anwender, die die Datenbanken für sich kommerziell nutzen (2). Ein vollständigen Ausgleich wird jedoch der Ausnahmefall bleiben (3). Die Chance für relativ gute Einnahmen liegen dann hoch, wenn auf hohe Qualität und einen geringen Anpassungsaufwand (Datenbereinigung) für den Käufer geachtet wird (1) und, wenn das Angebot der Nachfrage entspricht (evtl. Studie) (1). Der persönliche Kontakt zu potenziellen Kunden (1) und eine anwendungsbezogene Auswertung/Beratung machen auf den Wert einer Ressource aufmerksam (1) und erweitern die Kundenliste. Es sind unterschiedliche Lizenzmodelle denkbar (5). Lizenzen können beispielsweise direkt auf Produkte erhoben werden, die durch die Nutzung von LR entstanden sind, oder es kann eine Beteiligung am Umsatz festgelegt werden, der durch die entstandenen Produkte gemacht wurde (1). Ist eine LR in einem Konsortium entstanden, können Jahresbeiträge erhoben (1) oder bei einem Online- Zugriff geringe Zugangsgebühren eingeführt werden (1). Um das ‚Minusgeschäft’ möglichst gering zu halten, soll auch immer versucht werden, staatliche Subventionen (3) auf eine LR zu erhalten. Eine Kooperation mit Agenturen wie LDC und ELRA/ELDA (3) kann helfen, den finanziellen Eigenaufwand zu minimieren (1). Man kann auch versuchen, nach der Freigabe von Daten die Ressourcen an (einzurichtende) zentrale Stellen zu verkaufen, die dann den weiteren Vertrieb übernehmen (1). Eingenommene Lizenzgebühren sind dafür einzusetzen, zumindest die Wartung und Pflege der Datenbanken zu finanzieren (1).

 

17. Frage: Welche förderlichen Faktoren für die Weiterentwicklung von Sprachressourcen sehen Sie?

 Förderliche wirtschaftliche Faktoren

Die Sprachtechnologie wird sich immer mehr durchsetzen, da sprachgesteuerte Geräte mit Sprach- und Sprechererkennung einen großen ökonomischen Erleichterungs- und Rationalisierungsfaktor haben (6). Diese Faktoren motivieren Firmen Mut zu Innovationen und Investitionen (1). Mobile Dienste und sich daraus ableitende Geschäftsmodelle sowie die Weiterentwicklung der Mensch-Maschine-Kommunikation (2) stellen momentan ein großes Nachfrage-Potenzial dar. Allerdings müssen die weiterentwickelten Sprachressourcen entsprechend schnell zur Verfügung gestellt werden, sonst sind die wirtschaftlichen Erwartungen nicht zu erfüllen (1). Gelder aus der freien Wirtschaft ohne Verpflichtungszwang, Förderpreise und Stipendien bieten Ansporn für herausragende Forschung (1).

 Förderliche politische Faktoren

Jede Sprachgruppe ist daran interessiert, die eigene Sprache technologisch verfügbar zu machen und sich von anderen Sprachgemeinschaften abzugrenzen (1); besonders vor dem Hintergrund des Zusammenwachsens Europas (3). Im Zuge dessen wird es national und EU-weit mehr öffentlich geförderte Projekte, Verbundprojekte und koordinierte Programme (vergleichbar mit US-DARPA) (1) geben, um große Datenmengen zu erfassen (1). Zwischen in- und ausländischen Forschungsinstituten und Universitäten wird eine engere Kooperation stattfinden (1). Die Politik versteht immer mehr, dass anwendungsbezogene Sprachforschung einen wirtschaftlichen Impuls bedeutet, und wird als Konsequenz mehr Forschungsförderung im Rahmen des Europäischen Forschungsförderungsprogramms betreiben (3). Dies wird sich als Verbesserung der Qualität von Ressourcen und in Lösungen für den deutschsprachigen Markt niederschlagen (1). Auch wird mehr und mehr erkannt, dass gute Benutzerschnittstellen der Schlüssel für die Akzeptanz von Technologien ist. Werden vom Staat zudem gute Rahmenbedingungen für die grundlegende Forschung geschaffen, wie z.B. gute Ausstattung von Lehrstühlen, angemessenes Bezahlungsniveau der Mitarbeiter, Anstellungsstatus der Mitarbeiter (vgl. neues Hochschulgesetz für wiss. Angestellte), so kann der Aufbau von LR noch intensiver betrieben werden (1). Fördernd wird sich auch der weitere Ausbau bezüglich Infrastruktur und Grundlagenschaffung für Investitionen in Zukunftstechnologien auswirken (1).

 Förderliche technische Faktoren

Die allgemeine Verbesserung der Sensor- und der Computertechnik steigert die Akzeptanz bestehender Anwendungen und erhöht die Nachfrage (3). Der Einsatz von Spracherkennung ohne behindernde Technik rückt immer näher (1). Die Verfügbarkeit von Datenbanktechnologien mit schnellen und effektiven Datenbankprogrammen ist ein weiterer technischer Vorstoß. Datenverarbeitende und -verwaltende Techniken und Prozesse (2) sowie die Verfügbarkeit ausreichender und bezahlbarer Speicherkapazität (2) liefern positive Grundfaktoren. Leistungsfähigere Rechner und Technologien ermöglichen die Handhabung großer Ressourcen (1). Weitere Schritte in Richtung ‚Embedded Systems’ werden einen neuen Schub bringen (1). Die Bandbreite von Anwendungsgebieten (2) und der Anwendungsdruck (1) wachsen beständig. Die moderne Telekommunikation treibt die Entwicklung von Sprachressourcen automatisch vorwärts (1).

 

18. Frage: Welche hemmenden Faktoren für die Weiterentwicklung von Sprachressourcen fallen Ihnen ein?

Hemmende Faktoren in der Politik

Hemmend auf die Weiterentwicklung in der Sprachtechnologie wirkt sich sicherlich die momentane wirtschaftliche Krise in Deutschland aus. Fördergelder für LR werden aufgrund des staatlichen Geldmangels seltener vergeben (6). Außerdem verlangsamt die umständliche Ausschreibung für Fördermittel den schnellen Weiterentwicklungsprozess (2). Die Kürzung von Mitteln (2) bezieht sich auch auf das wissenschaftliche Personal (2) (siehe neues Hochschulrahmengesetz). Befristete Verträge und eine unattraktive Zukunftsprognose für Angestellte in der Wissenschaft erhöhen den Mangel an qualifizierten Kräften (1). Bei der Vergabe von Fördergeldern wird die Aufwändigkeit der Ressourcenerstellung oftmals unterschätzt, so dass die EU oft nur den Anfang eines Ressourcenaufbaus fördert, um dann wieder Anwendungen in den Mittelpunkt der Ausschreibungen zu stellen (1). Zu diesem Zeitpunkt sind die Ressourcen aber noch nicht umfangreich genug, um die Verfahren hinreichend zu unterstützen (1). Weiter bedeutet die Vielsprachlichkeit in Europa, z.B. im Vergleich zu den USA, einen wesentlich höheren Aufwand an Koordination zwischen europäischen Institutionen. Die Forschungslandschaft ist immer noch inhomogen (1) und die gemeinsamen Interessen noch schwach definiert (2). Außerdem ist der Nutzen teurer Sprachdatenressourcen durch die Grundlagenforschung noch nicht belegt, weshalb die Notwendigkeit zur Erfassung oft nicht erkannt wird (1).

 Hemmende Faktoren in der Wirtschaft

Bisher hat die Sprachtechnologie noch nicht den Beweis erbracht, in wirtschaftlich härteren Zeiten unabdingbar zu sein (1), weshalb die Forschungen in diesen Zeiten oft gekürzt oder firmenintern ganz eingestellt werden (1). Speech-enhanced Produkte sind bis heute Luxusartikel, was sich in Zeiten der Rezession bemerkbar macht (1). Aus Angst vor Fehlinvestitionen wird das Risiko, das Innovationen beinhalten, vermieden (1). Noch heute leidet die Sprachtechnologie auch unter den zu euphorischen Investitionen in UMTS und dergleichen (1). Dazu kommen ein langsames Innovationsmanagement und langwierige Vortests, gerade bei großen Unternehmen, die zu einer Verlangsamung der Entwicklung beitragen (1). Konkurrenzkampf in der Industrie, der zur Abschottung der Industrieforschung nach außen führt und mangelnde Kooperation zwischen den Institutionen (1) sind weitere Hemmnisse.

 Hemmende Faktoren in der Technik

Allzu oft wurden vorzeitig schlechte, unausgereifte Lösungen auf den Markt gebracht, die bei den Anwendern zu einer pauschalen Ablehnung der Technologie führten (4). Gerade bei der Sprachsynthese sehen Firmen Probleme bereits als gelöst an, sobald ein grundsätzlich funktionierendes System entwickelt wurde (1), während auf der Anwenderseite noch Unzufriedenheit herrscht. Die Bereitschaft von Firmen, ein funktionierenden System zu verbessern, dessen Spracheinsatz vom Benutzer als steril und wie ‚aus der Dose’ kommend wahrgenommen wird, ist eher gering (1). Technisch hemmend ist auch die Tatsache, dass LR nur eine eingeschränkte Wiederverwertbarkeit aufgrund fehlender Standards haben (1). der Mangel an einheitlichen Annotationsschemata bei Prosodie und Emotion (1), machen Daten nur für einen kleinen Anwendungsbereich nutzbar.