_/_/_/_/ _/_/ _/_/_/_/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/_/_/_/ _/_/_/_/ _/_/_/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/ _/_/_/_/ _/ _/ _/_/_/_/ BAVARIAN ARCHIVE FOR SPEECH SIGNALS University of Munich, Institut of Phonetics Schellingstr. 3/II, 80799 Munich, Germany bas@bas.uni-muenchen.de COPYRIGHT University of Munich 2004, 2005. All rights reserved. This corpus and software may not be disseminated further - not even partly - without a written permission of the copyright holders. ---------------------------------------------------------------------- AsiCa - Atlante sintattico della Calabria Version 1.1 - 2014-02-26 ---------------------------------------------------------------------- Dokumentation des Sprachkorpus 'AsiCa' ------------------- Contents of this dir ------------------------------ README.eng : Dokumentation in English README.deu : dieses File BAS_Validation.html : BAS Validation Report RECORDING_EQUIPMENT.jpg : Picture of the recording equipment ------------------- Contents of this file ------------------------------ General Information File naming Speaker recruitment / Geo information Speaker prompting Recording conditions Annotation Meta data Online Portal History ------------------------ General Information -------------------------- AsiCa - Atlante sintattico della Calabria Das AsiCa-Korpus besteht im Kern aus einer Anzahl von Audioaufnahmen von Sprechern des kalabresischen Dialekts (Süditalien). Das Material wurde in den Jahren 2004 und 2005 überwiegend in Kalabrien, z.T. aber auch in Deutschland erhoben. Das zentrale Erkenntnisinteresse bestand darin, spezifische syntaktische Besonderheiten zu dokumentieren und ihre Stabilität im migrationsbedingten Kontakt mit dem Deutschen zu untersuchen. Es wurde deshalb mit zwei Sprechergruppen gearbeitet, von denen die eine aus Informanten mit, die andere aus Informanten ohne Migrationserfahrung bestand. Neben einer gleichmäßigen Verteilung der geographischen Herkunft der Informanten wurde auf eine gleichmäßige Verteilung weiterer Sprechereigenschaften geachtet, die in kodierter Form in der Benennung der einzelnen Interviews abgelegt ist: ------------------------ File naming ---------------------------------- Alle Filenamen (signals, annotations) haben folgende Nomenclatur: HHHGgMAI HHH=Herkunftsort des Informanten (Gemeindenkürzel, s. TABLE/LOCATIONS.TBL) G=Generation des Informanten (1,2) g=Geschlecht (m,w) M=Migrationserfahrung (I=nein, D=ja) A=Art des Interviews (Q=gelenkt; D=spontan; I=informativ) - gelenkte (Q) Aufnahmen bestehen in der Abarbeitung eines festgelegten Fragebogens: der Interviewer fragt den Informanten auf Italienisch, wie ein Wort/Phrase/Satz (s. TABLES/PROMPTS.TBL) in Kalabresisch lautet. - spontane Aufnahmen (D) bestehen aus einem informellen Gespräch zwischen Interviewer und Informanten (teilweise auch noch mehr Personen im Hintergrund) - informative Aufnahmen (I) dienen zur Informationsgewinnung über die Verwendung der Sprache Kalabresisch: wer spricht wann mit wem über welches Thema unter welchen Rahmenbedingungen? Die Aufnahmen der Kategorien A=D und A=I wurden bislang nicht konsequent annotiert! I=Indizierung zur Unterscheidung mehrerer Aufnahmen gleicher Kategorie Nicht für alle Aufnahmeorte sind alle Kombinationen vorhanden. Im folgenden die Gemeinden mit abgedeckten Datensätzen (siehe auch TABLE/LOCATIONS.TBL für eine Auflistung aller Orte): HHH Ortsname Provinz Einwohnerzahl Aufnahmeort Deutschland Car Cariati (CS) 8294 Bühl Luz Luzzi (CS) 10455 München Bel Belvedere di Spinello (KR) 2470 München Spi San Pietro a Maida (CZ) 4256 Nürnberg Mil Mileto (VV) 7152 Frankfurt Biv Bivongi (RC) 1596 Hildesheim Beispiel: Biv1mIQ1 Biv=Bivongi 1 =erste Generation m =männlich I =keine Migrationserfahrung Q =gelenktes Interview (Fragebogen) 1 =erste Aufnahme in dieser Kategorie Verteilung der Aufnahmen nach Herkunftsorten: Anzahl Aufnahmen 1 Ama2wD 1 Opp1wD 1 Ros1mD 2 Ser2wI,Ser1wI 4 Acc1mI,Acc1wI,Acc2mI,Acc2wI 5 Pol2mI,Pol1wI,Pol1mI,Pol1mD,Pol2wI 6 Bag2wD,Bag2mD,Bag1wI,Bag1wD,Bag1mI,Bag1mD 8 Bel2wI,Bel2wD,Bel2mI,Bel2mD,Bel1wI,Bel1wD,Bel1mI,Bel1mD 8 Biv2wI,Biv2wD,Biv2mI,Biv2mD,Biv1wI,Biv1wD,Biv1mI,Biv1mD 8 Car2wI,Car2wD,Car2mI,Car2mD,Car1wI,Car1wD,Car1mI,Car1mD 8 Luz2wI,Luz2wD,Luz2mI,Luz2mD,Luz1wI,Luz1wD,Luz1mI,Luz1mD 8 Mil2wI,Mil2wD,Mil2mI,Mil2mD,Mil1wI,Mil1wD,Mil1mI,Mil1mD 8 Spi1mD,Spi2wI,Spi2wD,Spi2mI,Spi2mD,Spi1wI,Spi1wD,Spi1mI ------------------------ Speaker recruitment -------------------------- Die Informanten stammen aus insgesamt 13 verschiedenen Gemeinden in Kalabrien (Acconia, Amaroni, Bagnara Calabra, *Belvedere di Spinello, *Bivongi, *Cariati, *Luzzi, *Mileto, Oppido Mamertino, Polistena, Rosarno, Serra San Bruno und *San Pietro a Maida), wobei nur für insgesamt sechs Orte ein jeweils vollständiges Informantenset im Korpus vertreten ist (= *). Das Korpus enthält Interviews mit insgesamt 68 verschiedenen Informanten, darunter 35 Frauen und 33 Männer, ganz unterschiedlichen Alters (zwischen 17 [Frauen; Männer: 14] und 70 [76]; von vier Informanten ist das Alter nicht bekannt). Die meisten der Informanten sind eher einfache Arbeiter und Angestellte, Akademiker bilden die Ausnahme (eine Lehrerin, drei Studenten). Es finden sich auch Analphabeten unter den Informanten. Siehe auch TABLE/LOCATIONS.TBL für eine komplette Auflistung aller Orte; die Spalten dieser TAB-separierten Tabelle sind: HHH (Gemeindenkürzel) Ortsname Provinz Einwohnerzahl (Stand 2004) Aufnahmeort in Deutschland ------------------------ Speaker prompting -------------------------- Mit jedem Informanten wurden nach Möglichkeit je ein spontansprachliches (D) und ein gelenktes (Q) Interview geführt. Letzteres erfolgte durch die Vorlage eines Fragebogens mit insgesamt 54 Stimuli (Beispielsätze), die der Informant in seinem Dialekt wiedergeben sollte. Die Liste der Stimuli kann unter http://www.asica.gwi.uni-muenchen.de/index.php?questionario=1 abgerufen werden. Eine Kopie der Liste befindet sich in TABLE/PROMPTS.TBL ------------------------ Recording conditions ------------------------ Die Audioaufnahmen erfolgten mit einem Sony Minidisc-Player, Baujahr ca. 2000/2001: Sony Digital Megabass MZ-R55 und einem digitalen Sony Tisch-Mikrophon ECM MS907. Das dabei entstandene proprietäre Format wurde anschließend in die Formate wav und mp3 konvertiert. Ein Bild befindet sich in RECORDING_EQUIPMENT.JPG. Signalfiles sind im Format RIFF WAVE, Kodierung PCM, Wortbreite 16bit, Abtastrate 44100Hz, small endian. ------------------------ Annotation ---------------------------------- Für die Transkription verwendete man das Programm Praat, wobei der Text in aller Regel in ein einziges "Tier" geschrieben wurde. Im Sinne einer besseren Lesbarkeit auch für Nicht-Spezialisten wurde ein hybrides Transkriptionssystem verwendet, das lediglich bestimmte lautliche Charakteristika mit phonetischen Sonderzeichen wiedergibt, ansonsten jedoch quasi-orthographisch ist. Sprecherwechsel wurden in den gelenkten Interviews (A=Q) durch Siglen direkt im Transkript angezeigt (keine Sigle = Informant; F + Stimulusnummer = Explorator); in den spontanen Dialogen (A=D) bedeutet die Sigle E: den Explorator und I: den Informanten (teilweise intuitive Siglen, wie z.B. IMoglie: = Ehefrau des Informanten). '.' markiert einen nicht transkribierten Bereich (meistens Stille oder Hintergrundgeräusch). Sprache von Explorator und Informant kann sich überlappen (vor allem in A=D), wurde aber in diesem Fall nicht transkribiert. Die im Zuge der Transkription vorgenommene Segmentierung in Äußerungseinheiten erfolgte subjektiv durch den Transkriptor. Bislang ist erst ein Teil der Audioaufnahmen transkribiert (127 von 331), wobei auf Ausgeglichenheit hinsichtlich Herkunft und der anderen Sprecherparameter geachtet wurde. Die Transkriptionen wurden schließlich tokenisiert und in eine relationale Datenbank importiert. Dort erfolgte dann die morphosyntaktische Etikettierung des Materials, die eine wichtige Grundlage für die sprachwissenschaftlichen Analysen bildeten. Bislang ist nur ein Teil des Gesamtkorpus, nämlich die gelenkt-sprachlichen Interviews, konsequent etikettiert. Informative Aufnahmen (A=I) wurden nicht annotiert. ------------------------- Meta Data ----------------------------------- Metadaten zu Aufnahme-Sessions und Sprechern nach SpeechDat Konvention befinden sich in den Files: TABLE/SPEAKER.TBL : Sprecher-Information mit den Spalten SCD : Sprecher-ID (HHHGgM) SEX : Geschlecht (F,M,UNKNOWN) AGE : Alter (Zahl, UNKNOWN) ACC : Akzent, Dialektregion EDU : Ausbildung TABLE/SESSION.TBL : Metadaten der Aufnahmesessions mit den Spalten SES : Session ID (HHHGgMAI) RED : Datum RET : Zeit SCD : Sprecher-ID (HHHGgM) AGE : Alter SEX : Geschlecht ACC : Akzent REG : Aufnahmeort ENV : Aufnahmeumgebung ------------------------ Online Portal -------------------------------- Die Bezeichnung "Atlante sintattico della Calabria" verweist auf die zugrundeliegende Absicht, die Analyseergebnisse des Korpus in Kartengestalt zu präsentieren. Erst nach Abschluss der Erhebungen wurde mit der Entwicklung eines Online-Portals begonnen, auf dem unter anderem interaktive Karten mit datenbankgestützten Analyseergebnissen präsentiert werden (http://www.asica.gwi.uni-muenchen.de). ------------------------ History -------------------------------------- 2014-04-24 Version 1.1 : BAS CLARIN edition