TRANSLATION MEMORY TECHNOLOGIE
UND MASCHINELLE ÜBERSETZUNG IM VERGLEICH
Protokoll des Treffens des Arbeitskreises "Maschinelle Übersetzung" der GLDV
am 19. Februar 1999 in Dortmund

1. Einleitung

Am 19. Februar 1999 setzte der Arbeitskreis "Maschinelle Übersetzung" der GLDV in Dortmund in den Räumen der Firma Georg Heeg – Objektorientierte Systeme seine Initiative zur Evaluierung maschineller Übersetzungssysteme fort. Nachdem 1998 die linguistische Performanz kommerzieller maschineller Übersetzungssysteme im Mittelpunkt der Arbeit des Arbeitskreises stand, sollen 1999 auch Translation-Memory-Systeme in die Betrachtung einbezogen werden. Dabei ist die Zielsetzung der Arbeitskreisinitiative die Bewertung der Einsatzmöglichkeiten von Translation Memories für den professionellen Übersetzer. Im Hinblick auf eine technische Spezifikation von Translation Memories für den Übersetzungsprozess geht der Arbeitskreis der Frage nach, in welchem Verhältnis Maschinelle Übersetzung (MÜ) und auf Translation Memory (TM) basierte Übersetzung zueinander stehen und ob es sich bei diesen beiden Übersetzungstechnologien um konkurrierende oder um sich ergänzende Technologien handelt. Zur ersten Orientierung stand im Mittelpunkt des Arbeitskreistreffens ein Austausch über die Erfahrungen der Teilnehmer mit Translation-Memory-Systemen. Die Teilnehmer brachten aufgrund ihrer Provenienz aus Hochschule und Industrie sowohl Erfahrungen aus dem professionellen Einsatz von TMs in Übersetzungseinrichtungen als auch Erfahrungen aus der Entwicklerbranche sowie aus dem Bereich der Forschung mit.
 

2. Eigenschaften von Translation-Memory-Systemen

Der Vergleich der Ergebnisse zweier TMs, der Translator's Workbench von Trados und des Translation Managers von IBM, Systeme, die beide über die Funktion des "fuzzy match" verfügen, machten deutlich, dass TM-Systeme nicht alleine danach bewertet werden können, ob sie bestimmte Funktionalitäten enthalten, sondern ein detaillierter Blick auf die Funktionen selbst erforderlich ist, um TMs miteinander vergleichen und ihren Nutzen für bestimmte Übersetzungsaufgaben beurteilen zu können. Der Abgleich eines zu übersetzenden Satzes mit einem im Archiv enthaltenen Satz kann selbst bei gleicher (prozentualer) Einstellung der Übereinstimmungsrate dazu führen, dass für die Übersetzung des betreffenden Satzes in einem Fall ein Kandidat gefunden, wo im zweiten Fall keine Ähnlichkeit zwischen zu übersetzendem Satz und Sätzen des Archivs festgestellt wird.

Im Anschluss an die Diskussion über technologische Eigenschaften von TMs und verschiedene Fuzzy-Match-Algorithmen stellten die Arbeitskreisteilnehmer fest, dass Ansätze aus der Evaluierung maschineller Übersetzungssysteme zur Evaluierung von TMs nicht unmittelbar übertragen werden können, so dass ein neuer Kriterienkatalog für die Evaluierung von Translation Memories konzipiert werden muss.
 

3. Diskussion des EAGLES-Evaluationsdesigns

Bei der Frage der Testparameter, die für TMs relevant sind, fand zunächst eine kritische Auseinandersetzung mit den Vorschlägen der EAGLES-Arbeitsgruppe "Assessment and evaluation" statt, die auf der Basis der ISO-Norm 9126 zusammengetragen wurden. Das von der EAGLES-Gruppe entworfene Evaluationsmodell [EAGLES 1996] ist eine Adäquatheits-Evaluation, bei der die in der ISO-Norm festgeschriebenen Qualitätsmerkmale, Funktionalität (functionality), Zuverlässigkeit (reliability), Brauchbarkeit (usability), Leistungsfähigkeit (efficiency), Wartbarkeit (maintainability) und Portierbarkeit (portability), als Prüfkriterien herangezogen werden. Ein besonderes Augenmerk der EAGLES-Arbeitsgruppe beim Evaluationsdesign liegt auf der Ausarbeitung von Metriken und deren Anwendung auf die Evaluation.

Da der Einsatz von TMs zum Ziel hat, die (terminologische) Konsistenz einer Übersetzung zu gewährleisten, Mehrfachübersetzungen zu reduzieren sowie die Wiederverwendbarkeit der bereits übersetzten Texte zu ermöglichen, müssen für das Evaluationsdesign zunächst die für diese Aufgaben relevanten Funktionen bestimmt werden. Hierbei werden nach STEENBAKKER und DES TOMBE [EAGLES 1996] sogenannte

unterscheiden. Diese Gliederung entspricht etwa der Unterscheidung von Datenbankfunktionen in Datenbank-Management-Funktionen und Benutzerfunktionen. Zu den off-line-Funktionen zählen die Art der Textanalyse, die Möglichkeiten des Imports und Exports von Text sowie die Segmentierung und das Alignment bereits übersetzter Texte. Als on-line-Funktionen für die Übersetzung gelten die Größe des TM, die Retrieval-Geschwindigkeit bei der Suche im Übersetzungsarchiv sowie die Trefferquote beim Abgleich eines zu übersetzenden Satzes mit den Daten des TM. Relevant für die Bewertung der einzelnen Funktionen ist dabei unter anderem die Zahl der vom Benutzer durchzuführenden Arbeitsschritte, die für die Realisierung der verschiedenen Funktionen erforderlich ist.

Im Vergleich zu dem von der EAGLES-Arbeitsgruppe ausgearbeiteten Evaluationsszenario beabsichtigt der Arbeitskreis die Evaluation von TMs im Wesentlichen auf die sogenannten on-line-Funktionen zu beschränken, um Aussagen über die Funktionsweise der Systeme im Übersetzungsprozess treffen zu können. Da das Alignment bereits vorhandener Übersetzungen für den Einsatz eines TM gegebenenfalls jedoch auch entscheidend ist, soll allerdings die Möglichkeit, Texte zu alignieren, als ein Kriterium in die Bewertung von TMs eingehen.

Weitere Evaluationsparameter ergeben sich aus der Handhabung der Quelltextformate durch die Systeme. In diesem Zusammenhang sollen als Bewertungskriterien sowohl die Anzahl der einlesbaren Formate als auch die Frage, in welcher Form Formate des Quelltextes erhalten bleiben, berücksichtigt werden. Darüber hinaus soll untersucht werden, wie Formate (z.B. Fettdruck) von Absätzen, Sätzen oder diskontinuierlichen Konstituenten des Quelltextes behandelt werden, die im Zieltext nicht zugeordnet werden können. Ferner soll festgestellt werden, ob hinsichtlich des Formats Einschränkungen für den Eingabetext bestehen.

Ein weiterer Komplex von Evaluationskriterien soll die Bewertung des Retrievals zum Gegenstand haben. Dabei soll zunächst festgestellt werden, ob der Abgleich zwischen zu übersetzenden Sätzen mit Sätzen des Satzarchivs nur interaktiv oder auch im batch-mode, d.h. ohne Interaktion, möglich ist. Schließlich soll überprüft werden, wie zuverlässig die Klassifizierung von Sätzen als "vollständig erkannt" von den einzelnen Systemen gehandhabt wird. Bei der Übersetzung großer Textmengen ist von Bedeutung, ob auch Sätze, die vom System als vollständig übereinstimmend mit bereits übersetzten Sätzen erkannt werden, vom Übersetzer überprüft werden müssen oder ob dieser Aufwand eingespart werden kann. Hier muss berücksichtigt werden, dass syntaktisch gleichlautende Sätze des Quelltextes je nach Kontext in der Zielsprache unter Umständen verschiedene Übersetzungen erhalten müssen. In diesem Zusammenhang soll auch überprüft werden, ob das Abspeichern von Übersetzungen dokumentweise geschieht, um zu gewährleisten, dass durch die Zuordnung eines Satzes zu einem bestimmten Dokument Kontextinformationen zu dem jeweiligen Satz erhalten bleiben. Was den Abgleich von Sätzen mit dem Satzarchiv anbelangt, so soll ferner überprüft werden, ob das jeweilige System Zahlen und Eigennamen erkennt.

Schließlich soll in den Kriterienkatalog zur Evaluation von TMs auch die Frage aufgenommen werden, inwieweit Korrekturen bereits abgelegter Übersetzungen möglich sind und ob Einträge im Archiv mit Statusinformationen (etwa: "schon überprüft") versehen und von allen Benutzern eines Teams über das Netzwerk abrufbar sind.
 

4. Textkorpus

Um die Fuzzy-match-Funktion der Systeme zu evaluieren, soll ein Testkorpus konstruiert werden, in dem unterschiedliche Positionen einzelner Sätze modifiziert werden. Für die Evaluierung insgesamt soll jedoch auf authentisches Textmaterial, das möglichst sowohl in verschiedenen Textversionen als auch als Übersetzung vorliegt, zurückgegriffen werden. Zur Überprüfung der Verfügbarkeit entsprechenden Textmaterials sind zunächst Recherchen und Anfragen der Arbeitskreisteilnehmer bei Firmen, die technische Dokumentation erstellen, erforderlich.
 

5. Bewertungsschema

Als Bewertungsschema für die Beurteilung des Fuzzy-Match der einzelnen Systeme wurde ein dreigliedriges Bewertungsschema aufgestellt:

1. das System beherrscht das Problem (der Modifikation)
2. das System beherrscht das Problem nicht zufriedenstellend
3. das System beherrscht das Problem nicht.
6. Systeme

Was die Auswahl der in das Evaluationsverfahren einzubeziehenden Systeme anbelangt, so sollen neben Translation-Memory-Systemen auch maschinelle Übersetzungssysteme berücksichtigt werden, die in ihrem System ein Satzarchiv integrieren (PT plus 2000, T1). Es wird angestrebt, möglichst viele TMs zu evaluieren. Die bisher ins Gespräch gebrachten Systeme sind:

Die Verfügbarkeit der Systeme muss von den Arbeitskreisteilnehmern erst überprüft werden.
 

7. Verfahrensweise

Die Evaluation soll dergestalt durchgeführt werden, dass jedes System zunächst mit einem leeren Satzarchiv gestartet und im Zuge der Evaluierung aufgebaut wird.
 

Literatur

[EAGLES 1996] EAGLES Evaluation of Natural Language Processing Systems. Final Report. EAGLES Document EAG-EWG-PR.2, Oktober 1996.