ENDKORREKTUR:

Man braucht:
endkorr_man (dieses File)
tools_man (Aufrufe der entsprechenden Eingaben)
checklist ausdrucken (abhack-Liste)

Alle verwendeten Tools sollten in 
/data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/
stehen:

altger2neuger.sed
list.sed
samlist.sed
CDR-Nr.sed
trl_one_line.awk
mar_trl_check*
trl_umbruch.awk
mar_trl_vergl*
woli_bis_CD..
...

Aufruf:
% mkdir CD..


fertige TRLs nach CD../ kopieren
und Arbeitskopie nach /FERTIG_MACH_Dir

In FERTIG_MACH_DIR wird gearbeitet!
Ins CD../ kommen immer wieder Sicherheitskopien nach jedem Schritt!
----------------------------------------------------------------------

1. Abh"oren (vmturncut):
    alle W"orter da?
    Auskomms richtig?
    Spr-"Uberlagerungen?
    keine Turns "ubersehen?
    Interpunktion?
    
Bei Korrekturen:
   Komment-Files machen und mit den
   room und tele angleichen lassen.

   trls checken (parsen)
   (--> siehe tools_man)
------------------------------------------------------------------------

2. close-TRL lesen (xemacs) und korrigieren:

% xemacs gxxx.trl

    Interpunktion
    Auskomms
    Gro"s/kleinschreibung
    "Sie", "Ihr" etc.
    Satzanfang klein
    Turns plausibel?
    
    
 2b, Bonn lesen + korrigieren
     Bonn anpassen
          -Ge"ausche
          -TRL-Header
          
Vorsicht, die haben oft andere Sachen im Header stehen.
Angepasst wird:
CDR: (= gar nix, nicht mal Leerstelle)
TRV: 01
Dialog: g001ac ("c" oder entsprechendes fehlt bei den Bonnern oft)

Ger"ausche:
haben u.U noch alte Kategorien,
deshalb:

Aufruf:
% mkdir neuger 

--> wir brauchen ein DIR f"ur die Ausgabe des SEDs.

         Aufruf:
% foreach (*.trl)
% sed -f /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/altger2neuger.sed $m > neuger/${m}
% end

--> die ver"anderten stehen jetzt im neuger/

zur"uckkopieren ins FERTIG_MACH_DIR.

(--> siehe auch tools_man)

Sicherheitskopie nach /CD..

------------------------------------------------------------------------

3. Wortlistenabgleich TRL

Aufruf:
% foreach m ( *.trl )
% /data/data16/vmII_data/3VMII_PARS/FILTER/./trlparse --file $m --w --awortdef | sed -f /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/list.sed >> allcdneu
% end

Aufruf:
%tr " " "\n" < allcdneu | sort | uniq -c | awk '{printf("%s %s\n", $2, $1)}' | awk '/Flags-value/ {next} $1 !~ /[,\.\?0-9:]/ {print $1}' > listneu

Aufruf:
% diff /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/woli_bis_CD.. listneu | egrep "^>" > restneu

(--> siehe auch tools_man)

"restneu" genau anschauen:
    Rechtscheibung
    Neue W"orter plausibel?
    Zahlen getagged?
    Namen getagged?
    eventuell durch Rechtschreibeprogramm schicken
    
Offensichtliche Fehler in den Originalfiles im FERTIG_MACH_Dir grepen 
und korrigieren.

%rm allcdneu
%rm listneu
%rm restneu

Alles wiederholen, bis restneu ok ist.

Verd"achtig: kleingeschriebens "sie", "ihnen" 
             hab oder sowas ohne Apostrophe
             Gro"sgeschriebenes, was normalerweise klein ist
             Gro"sgeschriebene W"orter nach Namen durchschauen,
             bei a, d, e, f, h, m, n, s, t, v, z 
             besonders auf "ubrige Zahlen schauen (auch "erstens" und sowas,
               nicht dreieinhalb etc, nur pure Zahlen)
  Bei den neuen W"ortern mu"s man genau nachdenken, 
  wie sie geschrieben werden sollten:
  mit Bindestrich oder ohne? (eher nicht!)
  Name oder nicht? (wirklich Feiertag, oder nur "ahnlich?)
  bei ambiger Schreibweise, welche nehmen wir? 
  
  Denn, so werden sie dann in VM in Zukunft immer geschrieben sein,
  und wir wollen doch nicht dauernd Updates f"ur die, die anderer 
  Meinung sind, machen. D.h. es mu"s im Zweifelsfall ein gutes Argument geben,
  das mit den alten Schreibweisen zusammenpa"st, und das mu"s man sich merken
  (oft jahrelang, weil die Kritik in VM ein Wahnsinns-Delay hat).

Eventuelle Nachbesserungen in den Original-Files im FERTIG_MACH_Dir.

trlchecken
Sicherheitskopie nach /CD..


------------------------------------------------------------------------

4. Sampaliste neue W"orter

Aufruf:
% foreach m ( *.trl )
% echo $m
% /data/data16/vmII_data/3VMII_PARS/FILTER/./trlparse --file $m --w --awortdef | sed -f samlist.sed >> samvorlis
% end


Taggs rausmachen:
sed -f /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/distagg.sed > samall
(--> siehe auch tools_man)

Das File samall wird gleich zur kanonischen Aussprache Annotation 
weitergegeben!


------------------------------------------------------------------------

5. Paralleldialogabgleich:

Vergleichen, ob alle drei alles au"ser den Ger"auschen gleich haben:
    diffs in beide Richtungen!
    ac-->at/ar und ar/at-->ac
    
 Aufruf:
% foreach m (*.trl)
% /data/data16/vmII_data/3VMII_PARS/FILTER/./trlparse --file $m --wortkat --awortdef --akom --agram --suwort --pros > ${m}flt
% end

Aufruf:                                                
% foreach m (*.trlflt)
% tr " " "\n" < $m > ${m}1
% end

close, room und tele vergleichen:
am besten mit zwei shells, dann geht's schneller und man "ubersieht nix:

Aufruf:
% diff gxxxac.trlflt1 gxxxat.trlflt1 | egrep "^>"

Aufruf:
% diff gxxxat.trlflt1 gxxxac.trlflt1 | egrep "^>"

Aufruf:
% diff gxxxac.trlflt1 gxxxar.trlflt1 | egrep "^>"
Aufruf:
% diff gxxxar.trlflt1 gxxxac.trlflt1 | egrep "^>"

Korrigiert wird in
*ar.trl und *at.trl, und zwar in den Originalfiles, nicht in den*.trlfilt Files,
nur in ganz auff"alligen Situationen wird der *ac.trl den anderen angepa"st. 


*.trlfilt/1 Files l"oschen.

eventuell wiederholen, bis keine Unterschiedmeldungen mehr kommen.

+++++++++
wieder checken!
und Sicherheitskopie nach /CD..

------------------------------------------------------------------------

6. neue Wortliste

Falls die listxx aus 3. Wortlistenabgleich okay war:

Aufruf:
cat woli_bis_CD(alt) listxx | sort | uniq -c | awk '{print $2}' > woli_bis_CDxx

Falls nicht:
 --> siehe 3. Wortlistenabgleich und erzeuge neue listxx

------------------------------------------------------------------------

7. TurnID checken
    mar --> trl ?

Check, ob alle TurnIDs mit den TurnIDs in den Markerfiles identisch sind.

a. Schauen, ob auch wirklich die Sprecherk"urzel aus den spr-protokollen 
verwendet wurden.

b. TRLtunnamen mit MAR tunnamen vergleichen:

Weil es Fehler in den Transliterationen bei den Tunnamen geben kann, ebenso beim Segmentieren der Turns,
m"ussen wir die Turnnamen in den TRLs mit den Turnnamen in den MARs vergleichen.

Dazu holen wir uns f"ur eine CD alle *.mar Files und alle *.trl files in ein 
Directory.
und die die MARs, die auf die neue CD sollen und die TRLs, die auf den Server kommen, also die letztg"ultigen, end-korrigierten Versionen!!


Turnanzahl checken:

Aufruf:
% foreach m (g*)
% echo $m
% /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/./mar_trl_check ${m:r}
% end

--> f"ur alle Files die mit "g" beginnen 
       (falls welche mit was anderem beginnen, dann entsprechend)
    gib aus den Filenamen
    f"uhre aus das Turnnamen-vgl-Anzahl-Script, 
    und zwar mit dem entsprechenden Filenamen ohne Extension 
        ({m:r}, wobei m=filenamen, r=extension)

richtige Ausgabe:
%g001ac.trl

%Das File g001ac.mar enthlt 90 Turns.
%Das File g001ac.trl enthlt 91 Turns
 
%Mar- und Trl-File stimmen berein!

Mnchener Dialoge: trl hat eins mehr, weil der Name im Header noch mal steht.
Bonner Dialoge: trl und mar gleich, solange die Bonner im trl-Header den 
Dialognamen nicht vollst"andig reinschreiben.
Aber solange "ubereinstimm-Meldung kommt, ist alles ok.

Fehler:

%g508br.trl

%Das File /homes/burger/VMVer/Ordner/g508br.mar enthlt 0 Turns.
%Das File /homes/burger/VMVer/Ordner/g508br.trl enthlt 0 Turns
 
%Fehler in Mar- oder Trl-File!!!!!!!!!!!!!

Nachschauen, was falsch ist. 
Sind alle Namen richtig?
stimmt die Anzahl "uberein?

Dann:
Wenn alles ok ist, oder wenn man den Fehler einfach nicht findet:
Filenamen direkt vergleichen:

Aufruf:
% foreach m (g*)
% echo $m
% /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/./mar_trl_vergl ${m:r} | grep "nicht"
% end

--> fr alle Files die mit "g" beginnen 
       (falls welche mit was anderem beginnen, dann entsprechend)
    gib aus den Filenamen
    fhre aus das Turnnamen-vergleich-Script, 
    und zwar mit dem entsprechenden Filenamen ohen Extension 
        ({m:r}, wobei m=filenamen, r=extension)
    und grepe nur diejenigen Ausgaben heraus, 
        bei denen eine Fehlermeldung kommt. 
        
richtig:
nur Liste mit den Filenamen

Fehler:
Filename
g001acnxxx ist nicht im Trl-File!

wir gehen der Sache direkt nach:

% ../.././mar_trl_vergl g001ac

--> jetzt schauen wir nach, wo's hapert.        
    vergleiche-Script direkt "uber Fehler-Files laufen lassen
    Filenamen ohne Extension.
    
Ist Kanalzahl richtig?
Ist Sprecherk"urzel richtig?
Stimmt die Kanalkennung bei Telefonfiles (m/p..)?

Ganz im Notfall, wenn alles ziemlich korrupt ist, mu"s man tats"achlich 
noch mal reinh"oren!
--> kommt dann in "12. segnmetierte Files anh"oren"

----------------------------------------------------------------------------

8. TRL formatieren:
   
+++++++++++++    
a, Anschauen:      
    Ende:   EOF dran?
    
    Header: keine leeren "1k:" oder sowas
               Header/trl Trennzeile (; leer)
               komments keine tabs oder zus"atzl Leerstellen am Anfang
               (richtig ist:
               ; komment
               ; komment....)
               kommentzeilenl"ange= trlzeilenl"ange, nicht l"anger

++++++++++++++
b, editierfehler raus:

Aufruf:
% egrep "^[^;g ][^0-9]" *.trl

++++++++++++++
c, CD-Namen einf"ugen:

(Vorsicht: schreibt in ein Sub-Direct. Filename ohne extension)

Aufruf:
% mkdir form 

Aufruf:
% foreach m (*.trl)
% sed -f /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/CDR-Nr.sed $m > form/${m:r}
% end

.............................................
CDR-Nr.sed:
s/; CDR:/; CDR: xx.00/g
s/; TRV: 01/; TRV:/g
s/; TRV:/; TRV: xx.00/g
s/_000000:/_xx0000:/g
s/.00 /.00/g
s/; CDR: xx.00xx.00/; CDR: xx.00/g
..............................................

+++++++++++++++
d, formatieren:
(Vorsicht: benutzt Files ohne extension aus dem Sub--Direct im Sub-Direct. 
 jetzt wieder mit extension)

Aufruf:
% foreach m (form/*)
% awk -f /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/trl_one_line.awk $m | awk -f  /data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/trl_umbruch.awk > format/${m}.trl
% end

-------------------------------------------------------------------
9. Protokollfiles checken:
   Formate ok?
     Reihenfolge
     Inhalte
     Tabs
     keine carriage returns
     
 (noch keine Scripte!! --> Karl)
 
--------------------------------------------------------------------

10. Sprechk"urzel "uberpr"ufen: 
    uberall die gleichen K"urzel?
    in
    rpr 
    spr 
    NISTheader 
    
 (noch keine Scripte!! --> Karl)

                                                                                --------------------------------------------------------------------                                                                                  
11. alle n"otigen Dateien f"ur die CD k"onnen erzeugt werden.

  --> ??? Karl
  
--------------------------------------------------------------------
  
12. segmentierte Turns abh"oren

Aufruf:
% chkvolvmII CD=Pfad_wo_die_Datendirs_liegen TRL=Pfad_wo_die_TRLs_liegen lf=[filename]_log signalDIRname [filename_mar_ohne_extension]

Beispiel:
% chkvolvmII CD=/data/data20/cd3vmII/data TRL=/data/data16/vmII_data/4VMII_FERTIG/End_korr_Tools/CD21/ lf=cd203t_log g203a g203at
...................

genau "uberpr"ufen (visuell):

(Zulaessige Typen: nist_16 nist_al wav al raw_s16)

Aufruf:
% vmturnview nist_al sigkanal1.al sigkanal2.al

oder

Aufruf:
% vmturnview nist_16 sigkanal1.16 sigkanal2.16

--------------------------------------------------------------------

13. Sprecher"uberlagerungen:
    aktiv + passiv?
    Reihenfolge?
    
    
Sprecher"uberlagerungs Checkprogramm:
(trotzdem mit xemacs anschauen!)

Aufruf:
% chksup source=Pfad_wo_die_TRLs_stehen

Beispiel:
% chksup source=CDxx

--------------------------------------------------------------------

14. CD brennen und vorab vielleicht nach KA zu Hagen Soltau
    soll Alignement Turn/Signalsegment testen
Tel: Hagen: 0721-608-6284

     soltau@ira.uka.de
     
     Adresse:
      Hagen Soltau
      Universitaet Karlsruhe, 
      ILKD
      Lehrstuhl Prof. Waibel
      Am Fasanengarten 5, 
      D-76128 Karlsruhe 
