Mögliche Themen für Praktika/Jobs/Abschlussarbeiten

Gratuliere!
Du hast die erste Hürde bereits überwunden, indem Du diese Seite (die nicht in den offiziellen, genormten Web-Auftritt der LMU passt!) überhaupt gefunden hast. Viel Spass beim Lesen und ich hoffe, Du findest etwas, was Dich interessieren könnte.

Bei Interesse an Abschlussarbeiten kontaktiere mich bitte rechtzeitig (d.h. vor den Weihnachtsferien). Die genannten Programmieraufgaben können auch im Rahmen der Master-Praktika WP1.2 oder WP4 absolviert werden.

Programmieraufgabe: Validator für BAS Partitur Format

Betreuer: Florian Schiel, Tel. 2180-2760

Für das BAS Partitur Format soll ein Validierer geschrieben werden (Kommandozeilen-Befehl), welcher BPF files auf Syntax überprüft:

Voraussetzungen: Skript-Programmierung (e.g. BASH, PERL, PYTHON). Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe: Laden von BAS Partitur Format (BPF) Dateien in R

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760, Raphael Winkelmann, Tel. 2180-2812

Im neuen emuR R-Paket (neues Emu System), gibt es verschiedene Ladefunktionen, um eine Sprachdatenbasis in emuR zu laden, z.B. für das alte legacy Emu oder für praat TextGrid Sammlungen. In dieser Arbeit soll nach diesem Vorbild eine weitere Laderoutine geschrieben und getestet werden, welche einen Sprachkorpus kodiert in BPF (*.par) nach emuR lädt.

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe: Exportieren von BAS Partitur Format (BPF) Dateien aus einer emuDB (R package emuR)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760, Raphael Winkelmann, Tel. 2180-2812

Im neuen emuR R-Paket (neues Emu System), gibt es verschiedene Exportfunktionen, um eine Sprachdatenbasis emuDB in Dateien eines anderen Formats zu speichern (z.B. in TextGrid mit export_TextGridCollection()). In dieser Arbeit soll nach diesem Vorbild eine weitere Export-Funktion in R geschrieben und getestet werden, welche einen Sprachkorpus in BPF (*.par) Files schreibt.

Voraussetzungen: R Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Programmieraufgabe o. Masterthema: Phonetischer Post-Processor für MAUS

Betreuer: Florian Schiel, Tel. 2180-2760, Thomas Kisler

Die phonetische MAUS-Segmentierung soll durch einen Post-Processor verbessert werden. MAUS liefert nur auf minimal 10ms genaue Segmentgrenzen. Es soll ein C- oder Python-Programm geschrieben werden, das in die von MAUS produzierte Segmentierung geht und für bestimmte Lautübergänge die Segmentgrenzen anhand des Sprachsignals oder abgeleiteter Merkmale verbessert. Z.B. sollen alle Übergänge von stimmlosen Plosiv zu stimmhaften Vokoid/Lateral/Nasal überprüft und verbessert werden (geg.falls sogar Plosive in closure und burst Bereiche segmentiert werden).
Mögliche phonetische Kontexte (bearbeitet wird nur einer!):

Voraussetzungen: C-, Java- oder Python-Programmierung. Bei Interesse vereinbaren Sie bitte einen Termin.

Entwicklung einer 'echten' Unit Selection Synthese basierend auf den BITS Daten (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der BITS Korpus enthält Stimmaufnahmen von vier professionellen deutschen Sprechern. Basierend auf den annotierten Unit Selection Daten wurden mit Hilfe von MARY 3.0 4 Synthese-Stimmen erzeugt. Diese nutzen jedoch nicht wirklich die annotierte prosodische Information des BITS Korpus.

Inzwischen ist MARY zu MARY TTS 5.0 weiter entwickelt worden. In dieser MA soll mit Hilfe der MARY 5.X Software eine neue Modellierung der 4 BITS US Stimmen unternommen werden, bei der die prosodische Information der BITS Annotation bei der Optimierung der Unit Selection genutzt wird. Außerdem soll geprüft werden, ob sich die US Strategie erweitern lässt durch eine Diphone-basierte Strategie, wenn Namen synthetisiert werden sollen, die sich nicht (oder schlecht) mit dem bestehenden US Inventar modellieren lassen.

Voraussetzungen: Programmierkenntnisse, Grundsätzliches Verständnis von Synthese-Technik.

Bei Interesse vereinbaren Sie bitte einen Termin.

Untersuchung der phonetischen Adaption an ein Dialogsystem (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Es ist bekannt, dass sich Sprecher an ihre Dialogpartner adaptieren, indem sie die wahrgenommene Sprache in vielfältiger Weise, u.a. phonetisch, imitieren. Eine Hypothese ist, dass die Stärke dieser Imitation u.a. von der Stimmung des Sprechers abhängig ist, d.h. ein Sprecher, der die Kommunikationssituation als positiv empfindet (interessant, sympathisch, kurzweilig), adaptiert sich stärker als wenn er sie negativ empfindet (langweilig, unsympathisch etc.)

In dieser Masterarbeit soll ein Sprachkorpus, SmartKom, untersucht werden, der Sprachaufnahmen (Dialoge) enthält von Sprechern, die mit einem Dialogsystem interagieren. Die Stimme des Systems ist immer die gleichen zwei (verfälschten) Stimmen der Wizard-of-Oz, die Sprecher müssen dieselben Aufgaben lösen und haben mehr oder weniger Erfolg dabei. Außer der üblichen Transkription wurden die Aufnahmen auch nach wahrnehmbaren Emotionen der Sprecher annotiert.

Es soll anhand dieser Daten erstens die Hypothese getestet werden, dass sich die Sprecher der künstlichen Synthesestimme anpassen, und zweitens, dass dies umso deutlicher geschieht bei Sprechern, die die Situation als positiv empfinden.

Bei Interesse vereinbaren Sie bitte einen Termin.

Quantitative Bewertung von automatischen Formant-Trackern (Masterthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Es existieren mehrere frei verfügbare Programme zur automatischen Berechnung der Formantfrequenzen (teilweise auch -höhen und -bandbreiten), z.B. in praat, SNACK, Webtranscribe, Emu (ASSP). Diese liefern z.T. sehr unterschiedliche Qualitäten, so dass immer wieder die Frage nach dem 'besten' Formant-Tracker auftaucht. Außer automatischen Verfahren werden Formantverläufe auch manuell, nach Sichtung des Sonagrams bearbeitet (z.B. mit Emu, Stichwort 'Formantkorrektur'), was nicht unumstritten ist.

In dieser Arbeit soll ein quantitatives Bewertungsverfahren ('benchmark') für Format-Tracker entworfen und implementiert werden. Als Ausgangsbasis dient ein Sprachkorpus VTR_TIMIT mit gelesenen amerikanischen English (ein Subkorpus des TIMIT Korpus), 516 Äußerungen von 186 Sprechern. Dieser Korpus wurde sehr sorgfätig manuell gelabelt: alle 10 msec wurden Formantlagen 1-3 bestimmt ([1]). Die geplante Benchmark soll Daten eines unbekannten Formanttrackers so bearbeiten (Zeitalignierung!), dass die ermittelten Formantwerte mit den Formantwerten des VTR_TIMIT verglichen werden können, und ein Gesamtabstandsmaß als Gütekriterium ermittelt wird. Die Auswertung des Gütekriteriums soll Meta-Informatione (wie z.B. Geschlecht, Alter) der Sprecher berücksichtigen (z.B. Gütemaß für weiblich/männlich etc.). Außerdem sollen systematische Abweichungen ermittelt werden (z.B. 'F1 im Mittel 80Hz zu niedrig' etc.).

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Bei Interesse vereinbaren Sie bitte einen Termin.

[1] Li, D., Cui X., Pruvenok, R., Huang, J. Momen, S., Chen, Y., Alwan, A. (2006): A Database of Vocal Tract Resonance Trajectories for Reasearch in Speech Processing. ICASSP 2006, I.369.

Ausbau des Tools WebMAUS (Bachelor-Thema)

... für Südtiroler Deutsch (Bolzano?), Mandarin (Prof. Hongwei DING, hwding@sjtu.edu.cn?), Brasilianisch, Türkisch (Spoken Turkish Corpus (2010) von Ruhi et al), Slowenisch

Australische Aborigines-Sprachen vergeben

British English vergeben

Niederländisch vergeben

Scottish English vergeben

Russisch vergeben

Französisch vergeben

Schweizer Deutsch vergeben

Spanisch (Kastilisch) vergeben

Katalan vergeben

Polnisch vergeben

Arabisch vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Das BAS betreibt einen Web-Service WebMAUS, mit welchem Sprache automatisch in Wörter und Phoneme segmentiert und ettikettiert werden kann. Diesen Service muss man für jede Sprache neu anpassen.

In dieser Arbeit soll WebMAUS für die oben gelisteten Sprach-Varianten neu trainiert und angepasst werden. Dazu müssen geeignete Sprachkorpora gefunden, aufbereitet und der Trainingsprozess für MAUS durchlaufen werden. Anschließend soll die Performanz der neuen Sprachen anhand von Beispiel Daten evaluiert werden. Bei besonderem Interesse sind auch andere Sprachen denkbar. In manchen Fällen sollen konkrete Hypothesen getestet werden, z.B. ob sich mittels MLLR Speaker Adaptation MAUS Training auf nur einen Trainingssprecher durchführen läßt (Arabisch).

Dieses Thema eignet sich auch als längeres Praktikum für Studenten der Informatik, Computerlinguistik und Phonetik.

Bei Interesse vereinbaren Sie bitte einen Termin.

Empirische Phonem-Inventare (Masterthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Das Phonem-Inventar einer Sprache beschreibt die Menge kleinster Lauteinheiten, die zur Unterscheidung aller Wörter dieser Sprache notwendig sind. Meistens sind Phonem-Inventare phonologischer Natur, d.h. sie werden basierend auf einem Regelsystem aufgestellt. In dieser Praktikumsarbeit soll untersucht werden, in wieweit sich Phonem-Inventare auch empirisch aus einen sehr grossen Aussprache-Lexikon bestimmen lassen. Dabei sind mehrere Randbedingungen denkbar:

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Programmierkenntnisse sind erforderlich zur Berechnung des Phonem-Auswahlverfahrens und der Tests. Dieses Praktikum eignet sich vor allem für Studenten der Computerlinguistik und Phonetik.

Automatische Geschlechtserkennung (Bachelorthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es ein experimentelles Sprecherverifikationssystem (SV), welches den Zugang zur Bibliothek steuert. Diese SV könnte verbessert oder beschleunigt werden, indem vor dem eigentlichen Test zunächst geprüft wird, ob der Benutzer dasselbe Geschlecht hat wie die Person, die er zu sein vorgibt. Entscheidet der Geschlechtserkenner anhand der Stimmprobe, dass es sich um das falsche Geschlecht handelt, wird der Benutzer abgewiesen, bevor der aufwendige SV-Test überhaupt durchgeführt werden muss.

In dieser Arbeit soll ein Geschlechts-Detektor auf der Basis von einfach zu berechnenden phonetischen Merkmalen zur Geschlechtsunterscheidung entwickelt und getestet werden (Sprecherdatenbasis des SV-Systems). Dann soll der Detektor in das bestehende Demo-System eingebunden werden (Python-Kenntnisse).

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Python, evtl. Signalverarbeitung

Prediktor für Alkoholisierung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der ALC Korpus enthält Sprache von nüchternen und alkoholisierten Sprechern. Dieser wurde im Hinblick einer Vielzahl von phonetischen Merkmalen untersucht.
In dieser Studie soll untersucht werden, wie gut sich der Zustand der Alkoholosierung (binär) bzw. die Blutalkoholkonzentration eines Sprechers aus diesen Messwerten mit Hilfe eines statistischen Modells vorhersagen lässt. Die Messwertdaten sind bereits teilweise vorhanden.

Der resultierende Akohol-Prediktor soll in das bestehende SV-Demo-System eingebunden werden (Python-Kenntnisse).

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen:

Skript-Programmierung in R, Kenntnisse Test-Statistik/statistische Modellierung, ev. Signalverarbeitung, Python.

Automatische Sprecher-Identifikation (Bachelorthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es bereits ein experimentelles Sprecherverifikationssystem, welches den Zugang zur Bibliothek steuert. Auf derselben Hardware soll parallel ein Demo-System zur Sprecher-Identifikation implementiert werden. Dieses erfodert keinen voherigen Tastendruck zur Identifikation, sondern versucht, den Benutzer nur anhand des Sprachsignals zu erkennen. Eine Verifikation findet dabei nicht statt; es soll lediglich demonstriert werden, wie gut ein Sprecher aus einer endlichen Menge bekannter Sprecher identifiziert werden kann. Diese Aufgabe ist relativ einfach, da die Sprechermodelle bereits vorhanden sind.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen:

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Analyse des Sprecherverhaltens bei Alkoholisierung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Der ALC Korpus enthält Sprache von nüchternen und alkoholisierten Sprechern. Dieser wurde im Hinblick einer Vielzahl von phonetischen Merkmalen untersucht.
Dabei wurde beobachtet, dass die Ergebnisse stark vom Sprecher abhängig sind: zwar erhöht sich z.B. im Mittel über alle Sprecher gerechnet die Grundfrequenz bei Alkoholisierung, aber nicht alle Sprecher folgen diesem Trend, und einige verhalten sich sogar konträr. Bis jetzt wurde nur der Einfluss des Geschlechts untersucht (kein Effekt)

In dieser Masterarbeit soll untersucht werden, ob es Korrelationen dieser Beobachtungen mit anderen Sprechermerkmalen als dem Geschlecht gibt. Es bietet sich an, sich zunächst auf ein Merkmal (z.B. F0) zu beschränken, und die Ergebnisse der bisherigen Untersuchungen im Hinblick auf folgende Sprechermerkmale zu untersuchen: Alter, Herkunft, Beruf, Stimmung, normales Trinkverhalten, aber auch ev. Versuchsleiter und Umgebung.

Die Aufgabe besteht darin, mit Hilfe von geeigneten statistischen Methoden signifikante Zusammenhänge zwischen Sprechermerkmalen und F0-Messwerten aufzudecken. Daraus gewonnene Erkenntnisse könnten potentiell sehr wertvoll für die forensische Phonetik sein, weil sich dadurch einerseits das Sprecherhalten vorhersagen ließe, andererseits sich ev. Sprechermerkmale aus dem Verhalten bei Alkoholisierung ableiten ließen.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Statistik.

Automatische Keyword Erkennung (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Am Institut für Phonetik gibt es ein experimentelles Sprecherverifikationssystem (SV), welches den Zugang zur Bibliothek steuert. Diese SV erfordert im Moment, dass der registrierte Benutzer eine Knopf auf dem Display drückt, um seine Identität bekanntzumachen.

In dieser Masterarbeit soll dieser Mechanismus durch einen rein sprachgesteuerten ersetzt werden (so dass im Prinzip ein Benutzer, der die Hände nicht frei hat, die Türe öffnen kann). Dazu spricht der Benutzer ein sog. 'key word' zum Aktivieren des Systems, z.B. 'magic door', welches das System durch ein earcon (eine bestimmte Tonfolge) quittiert. Dann spricht der Benutzer einen festgelegten Trägersatz mit seinem Namen, z.B. 'Open door for Florian Schiel'. Das System erkennt anhand dieses Satzes, um welchen Benutzer es sich handelt, verifiziert diesen anhand des Trägersatzes und öffnet die Türe (oder nicht).

Die Aufgabe besteht darin, eine Keyword-Detection zu implementieren, und anschließend eine Spracherkennung auf dem gesprochenen Trägersatz zur Ermittlung der Benutzer-Identität durchzuführen. Dann kann das normale SV-System diese Information zur Verifikation des Sprechers benutzen.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Signalverarbeitung und automatische Spracherkennung.

Perzeptions-Experiment: Einfluss von Zikadengeraeusch auf Sibilantenerkennung (Bachelor-/Masterthema)

Vergeben

Betreuer: Florian Schiel, Tel. 2180-2760

In einem DFG Projekt wird die Hypothese untersucht, dass die sehr lauten Geraeusche, die Zikaden produzieren, die Perzeption on /s/ - /esch/ (Sibilanten) behindern, und sich deshalb Sprachen, in deren Umgebung Zikaden vorkommen, sich anders entwickeln als andere Sprachen.

In dieser Hausarbeit solle ein Perzeptionsexperiment mit mindestens 30 Versuchspersonen (deutsch) zur Distinktion von /s/ - /esch/ Minimalpaaren durchgefuehrt werden, einmal als Kontrolle ohne und einmal mit Hintergrundgeraeusch. Die Hypothese ist, dass Zikadengeraeusch die Distinktion behindert. Stimuli fuer Minimalpaare und Zikadengeraeusch sind vorhanden.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Signalverarbeitung, Statistik.

Studie: lexikale Distinktion von /s/ - /esch/ Minimalpaaren in Korrelation mit dem Vorkommen von Zikaden (Bachelor-/Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

In einem DFG Projekt wird die Hypothese untersucht, dass die sehr lauten Geraeusche, die Zikaden produzieren, die Perzeption on /s/ - /esch/ (Sibilanten) behindern, und sich deshalb Sprachen, in deren Umgebung Zikaden vorkommen, sich anders entwickeln als andere Sprachen.

In dieser Hausarbeit solle eine Studie zur lexikalen Distinktion von /s/ - /esch/ Minimalpaaren fuer moeglichst viele Sprachen durchgefuehrt werden. Ausserdem sollen die Ergebnisse mit der Wahrscheinlichkeit fuer das Vorkommen von Zikaden in der Umgebung dieser Sprachen korreliert werden (vermutl. wird die durchschnittliche Jahrestemperatur als Proxy dafuer verwendet). Die Hypothese ist, dass in Sprachen mit hoher WK fuer Zikadengeraeusch die Minimalpaare fuer Sibilanten weniger haeufig verwendet werden als umgekehrt.

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Statistik.

Erweiterung der BAStat Statistik auf phonologische Statistiken (Masterthema)

Betreuer: Florian Schiel, Tel. 2180-2760

Das BAS veröffentlicht auf seinen Web-Seiten Statistiken für Worte und Phone basierend auf Korpora gesprochener Sprache (http://www.bas.uni-muenchen.de/forschung/Bas/BasPHONSTATeng.html). Phone-Statistiken beziehen sich hier nur auf die Auftretens- oder Bigram-Wahrscheinlichkeit von realisierten (gelabelten) Phonen, aber nicht auf die Phoneme (d.h. die phonologisch erwartete Aussprache). In dieser Arbeit soll die BASTat Statistik um die phonologische Statistik erweitert und verglichen werden.

Beispiel:
4 beobachtete Tokens des Wortes 'ist' (phonologisch /?Ist/) würden zu Zählungen für die Phoneme
N(/?/) = 4
N(/I/) = 4
N(/s/) = 4
N(/t/) = 4
führen, wogegen die Phone-Statistik abhängig ist von der tatsächlichen Realisierung, z.B.:
[?Ist], [Is] [?Is] [s] ergibt die Phone-Zähler:
N(/?/) = 2
N(/I/) = 3
N(/s/) = 4
N(/t/) = 1

Bei Interesse vereinbaren Sie bitte einen Termin.

Voraussetzungen

Skript-Programmierung, Grundkenntnisse Phonologie/Phonetik Beziehung, SAMPA Inventar, BPF