Kriterienkatalog
zur linguistischen Evaluation kommerzieller
maschineller Übersetzungssysteme
 
Protokoll des Arbeitstreffens
des AK "Maschinelle Übersetzung" der GLDV
vom 8. Mai 1998 in Saarbrücken

Auf der zweiten Sitzung des Arbeitskreises "Maschinelle Übersetzung" am 8. Mai 1998 in Saarbrücken, die der Vorbereitung der linguistischen Evaluation kommerziell verfügbarer maschineller Übersetzungssysteme diente, standen die Zusammenstellung eines Testkorpus sowie die Verabschiedung der anzuwendenden linguistischen Kriterien im Mittelpunkt.
 
Die erste Evaluationsphase, deren Ergebnisse im Rahmen eines Workshops auf der Konvens '98 einem größeren Publikum zugänglich gemacht werden sollen, beschränkt sich ausschließlich auf die Evaluation ausgewählter linguistischer Phänomene. Hierdurch wollen die Evaluatoren sicherstellen, daß die Vergleichbarkeit der in die Evaluation einbezogenen Systeme und eine möglichst hohe Transparenz in bezug auf die Testergebnisse gewährleistet sind. Dies ist auch der Grund, warum im Rahmen dieser Evaluationsphase Translation Memories bzw. Satzarchive nicht einbezogen werden, selbst wenn diese als Module in einzelne Systeme bereits integriert sind.
 
 
Systeme

Bei den Systemen, die in die linguistische Evaluation einbezogen werden, handelt es sich um kommerziell verfügbare maschinelle Übersetzungssysteme mit dem Sprachpaar bzw. der Übersetzungsrichtung Englisch-Deutsch:

 
 
Linguistische Testparameter
 
Die ausgewählten linguistischen Phänomene umfassen:
  • Imperativische bzw. Anweisungsstrukturen
  • Komposita
  • Konditionalsätze
  • Syntaktische Koordinationen
  • Die Evaluation von Anweisungsstrukturen übernimmt hauptverantwortlich Uta Seewald (Universität Hannover), die Evaluation von Komposita Ulrike Ulrich (Fa. Zeres, Bochum), diejenige von Konditionalsätzen Martin Volk (Universität Zürich) und jene von syntaktischen Koordinationen Rita Nübel (IAI, Saarbrücken).
     
     
    Testkorpus
     
    Das Testkorpus setzt sich aus Auszügen aus Texten zweier Textsortenklassen zusammen. Dies sind zum einen Instruktionstexte, zum anderen Web-Seiten:
  • Instruktionstexte
  • Reparaturanweisungen aus der Automobilbranche
  • Softwareinstallationsanleitungen
  • Web-Seiten
  • Electronic Commerce
  • Tourismusbranche
  •  
    Korpusgröße
     
    Jedes der linguistischen Phänomene wird anhand von jeweils 300 Testsätzen an jedem der ausgewählten Systeme überprüft. Dabei setzen sich die 300 Testsätze wie folgt zusammen:
  • 100 konstruierte Testsätze, die das linguistische Phänomen in unterschiedlichen Kontexten bzw. Varianten enthalten.
  • 200 Testsätze aus dem sich aus Instruktionstexten und Web-Seiten zusammensetzenden Textkorpus, die das jeweils anzuwendende linguistische Phänomen enthalten. Hierin sind die in das Korpus aufgenommenen Textsorten (etwa) zu jeweils gleichen Teilen repräsentiert.
  • Die Auswahl der Testsätze ist so vorzunehmen, daß die Repetitivität in bezug auf Lexemwahl und gleichzeitiger Übereinstimmung syntaktischer Strukturen möglichst gering gehalten wird.
     
     
    Evaluationskriterien, Fehlerklassifikation
     
    Die Bewertung der grammatischen Korrektheit der maschinellen Übersetzung der zu überprüfenden linguistischen Phänomene soll anhand eines viergliedrigen Klassifikationsschemas erfolgen: Die quantitative Fehlerauswertung soll einen Vermerk über Wiederholungsfehler enthalten.
     
     
    Standorte der Systeme
     
    Die Testsuites werden elektronisch jeweils an diejenigen Evaluatoren geschickt, an deren Standort sich eines der Systeme befindet, und von diesen wieder an die für die Überprüfung des linguistischen Phänomens Verantwortlichen zurückgesandt. Dieses Procedere kann sich mehrfach wiederholen, wobei einzelne Übersetzungsdurchläufe gegebenenfalls mit veränderten Parametern (Wörterbuchfilter etc.) und mit zusätzlich in das Benutzerwörterbuch aufgenommenen Einträgen erfolgen.