1. Einleitung
Am 19. Februar 1999 setzte der Arbeitskreis "Maschinelle Übersetzung"
der GLDV in Dortmund in den Räumen der Firma Georg Heeg – Objektorientierte
Systeme seine Initiative zur Evaluierung maschineller Übersetzungssysteme
fort. Nachdem 1998 die linguistische Performanz kommerzieller maschineller
Übersetzungssysteme im Mittelpunkt der Arbeit des Arbeitskreises stand,
sollen 1999 auch Translation-Memory-Systeme in die Betrachtung einbezogen
werden. Dabei ist die Zielsetzung der Arbeitskreisinitiative die Bewertung
der Einsatzmöglichkeiten von Translation Memories für den professionellen
Übersetzer. Im Hinblick auf eine technische Spezifikation von Translation
Memories für den Übersetzungsprozess geht der Arbeitskreis der
Frage nach, in welchem Verhältnis Maschinelle Übersetzung (MÜ)
und auf Translation Memory (TM) basierte Übersetzung zueinander stehen
und ob es sich bei diesen beiden Übersetzungstechnologien um konkurrierende
oder um sich ergänzende Technologien handelt. Zur ersten Orientierung
stand im Mittelpunkt des Arbeitskreistreffens ein Austausch über die
Erfahrungen der Teilnehmer mit Translation-Memory-Systemen. Die Teilnehmer
brachten aufgrund ihrer Provenienz aus Hochschule und Industrie sowohl
Erfahrungen aus dem professionellen Einsatz von TMs in Übersetzungseinrichtungen
als auch Erfahrungen aus der Entwicklerbranche sowie aus dem Bereich der
Forschung mit.
2. Eigenschaften von Translation-Memory-Systemen
Der Vergleich der Ergebnisse zweier TMs, der Translator's Workbench von Trados und des Translation Managers von IBM, Systeme, die beide über die Funktion des "fuzzy match" verfügen, machten deutlich, dass TM-Systeme nicht alleine danach bewertet werden können, ob sie bestimmte Funktionalitäten enthalten, sondern ein detaillierter Blick auf die Funktionen selbst erforderlich ist, um TMs miteinander vergleichen und ihren Nutzen für bestimmte Übersetzungsaufgaben beurteilen zu können. Der Abgleich eines zu übersetzenden Satzes mit einem im Archiv enthaltenen Satz kann selbst bei gleicher (prozentualer) Einstellung der Übereinstimmungsrate dazu führen, dass für die Übersetzung des betreffenden Satzes in einem Fall ein Kandidat gefunden, wo im zweiten Fall keine Ähnlichkeit zwischen zu übersetzendem Satz und Sätzen des Archivs festgestellt wird.
Im Anschluss an die Diskussion über technologische Eigenschaften
von TMs und verschiedene Fuzzy-Match-Algorithmen stellten die Arbeitskreisteilnehmer
fest, dass Ansätze aus der Evaluierung maschineller Übersetzungssysteme
zur Evaluierung von TMs nicht unmittelbar übertragen werden können,
so dass ein neuer Kriterienkatalog für die Evaluierung von Translation
Memories konzipiert werden muss.
3. Diskussion des EAGLES-Evaluationsdesigns
Bei der Frage der Testparameter, die für TMs relevant sind, fand zunächst eine kritische Auseinandersetzung mit den Vorschlägen der EAGLES-Arbeitsgruppe "Assessment and evaluation" statt, die auf der Basis der ISO-Norm 9126 zusammengetragen wurden. Das von der EAGLES-Gruppe entworfene Evaluationsmodell [EAGLES 1996] ist eine Adäquatheits-Evaluation, bei der die in der ISO-Norm festgeschriebenen Qualitätsmerkmale, Funktionalität (functionality), Zuverlässigkeit (reliability), Brauchbarkeit (usability), Leistungsfähigkeit (efficiency), Wartbarkeit (maintainability) und Portierbarkeit (portability), als Prüfkriterien herangezogen werden. Ein besonderes Augenmerk der EAGLES-Arbeitsgruppe beim Evaluationsdesign liegt auf der Ausarbeitung von Metriken und deren Anwendung auf die Evaluation.
Da der Einsatz von TMs zum Ziel hat, die (terminologische) Konsistenz einer Übersetzung zu gewährleisten, Mehrfachübersetzungen zu reduzieren sowie die Wiederverwendbarkeit der bereits übersetzten Texte zu ermöglichen, müssen für das Evaluationsdesign zunächst die für diese Aufgaben relevanten Funktionen bestimmt werden. Hierbei werden nach STEENBAKKER und DES TOMBE [EAGLES 1996] sogenannte
Im Vergleich zu dem von der EAGLES-Arbeitsgruppe ausgearbeiteten Evaluationsszenario beabsichtigt der Arbeitskreis die Evaluation von TMs im Wesentlichen auf die sogenannten on-line-Funktionen zu beschränken, um Aussagen über die Funktionsweise der Systeme im Übersetzungsprozess treffen zu können. Da das Alignment bereits vorhandener Übersetzungen für den Einsatz eines TM gegebenenfalls jedoch auch entscheidend ist, soll allerdings die Möglichkeit, Texte zu alignieren, als ein Kriterium in die Bewertung von TMs eingehen.
Weitere Evaluationsparameter ergeben sich aus der Handhabung der Quelltextformate durch die Systeme. In diesem Zusammenhang sollen als Bewertungskriterien sowohl die Anzahl der einlesbaren Formate als auch die Frage, in welcher Form Formate des Quelltextes erhalten bleiben, berücksichtigt werden. Darüber hinaus soll untersucht werden, wie Formate (z.B. Fettdruck) von Absätzen, Sätzen oder diskontinuierlichen Konstituenten des Quelltextes behandelt werden, die im Zieltext nicht zugeordnet werden können. Ferner soll festgestellt werden, ob hinsichtlich des Formats Einschränkungen für den Eingabetext bestehen.
Ein weiterer Komplex von Evaluationskriterien soll die Bewertung des Retrievals zum Gegenstand haben. Dabei soll zunächst festgestellt werden, ob der Abgleich zwischen zu übersetzenden Sätzen mit Sätzen des Satzarchivs nur interaktiv oder auch im batch-mode, d.h. ohne Interaktion, möglich ist. Schließlich soll überprüft werden, wie zuverlässig die Klassifizierung von Sätzen als "vollständig erkannt" von den einzelnen Systemen gehandhabt wird. Bei der Übersetzung großer Textmengen ist von Bedeutung, ob auch Sätze, die vom System als vollständig übereinstimmend mit bereits übersetzten Sätzen erkannt werden, vom Übersetzer überprüft werden müssen oder ob dieser Aufwand eingespart werden kann. Hier muss berücksichtigt werden, dass syntaktisch gleichlautende Sätze des Quelltextes je nach Kontext in der Zielsprache unter Umständen verschiedene Übersetzungen erhalten müssen. In diesem Zusammenhang soll auch überprüft werden, ob das Abspeichern von Übersetzungen dokumentweise geschieht, um zu gewährleisten, dass durch die Zuordnung eines Satzes zu einem bestimmten Dokument Kontextinformationen zu dem jeweiligen Satz erhalten bleiben. Was den Abgleich von Sätzen mit dem Satzarchiv anbelangt, so soll ferner überprüft werden, ob das jeweilige System Zahlen und Eigennamen erkennt.
Schließlich soll in den Kriterienkatalog zur Evaluation von TMs
auch die Frage aufgenommen werden, inwieweit Korrekturen bereits abgelegter
Übersetzungen möglich sind und ob Einträge im Archiv mit
Statusinformationen (etwa: "schon überprüft") versehen und von
allen Benutzern eines Teams über das Netzwerk abrufbar sind.
4. Textkorpus
Um die Fuzzy-match-Funktion der Systeme zu evaluieren, soll ein Testkorpus
konstruiert werden, in dem unterschiedliche Positionen einzelner Sätze
modifiziert werden. Für die Evaluierung insgesamt soll jedoch auf
authentisches Textmaterial, das möglichst sowohl in verschiedenen
Textversionen als auch als Übersetzung vorliegt, zurückgegriffen
werden. Zur Überprüfung der Verfügbarkeit entsprechenden
Textmaterials sind zunächst Recherchen und Anfragen der Arbeitskreisteilnehmer
bei Firmen, die technische Dokumentation erstellen, erforderlich.
5. Bewertungsschema
Als Bewertungsschema für die Beurteilung des Fuzzy-Match der einzelnen Systeme wurde ein dreigliedriges Bewertungsschema aufgestellt:
1. das System beherrscht das Problem (der Modifikation)6. Systeme
2. das System beherrscht das Problem nicht zufriedenstellend
3. das System beherrscht das Problem nicht.
Was die Auswahl der in das Evaluationsverfahren einzubeziehenden Systeme anbelangt, so sollen neben Translation-Memory-Systemen auch maschinelle Übersetzungssysteme berücksichtigt werden, die in ihrem System ein Satzarchiv integrieren (PT plus 2000, T1). Es wird angestrebt, möglichst viele TMs zu evaluieren. Die bisher ins Gespräch gebrachten Systeme sind:
7. Verfahrensweise
Die Evaluation soll dergestalt durchgeführt werden, dass jedes
System zunächst mit einem leeren Satzarchiv gestartet und im Zuge
der Evaluierung aufgebaut wird.
Literatur
[EAGLES 1996] EAGLES Evaluation of Natural Language Processing Systems.
Final Report. EAGLES Document EAG-EWG-PR.2, Oktober 1996.