Der Beitrag dokumentiert die Ergebnisse einer linguistisch orientierten Evaluierung von sechs kommerziellen maschinellen Übersetzungssystemen (Logos 7.8.3, SystranPRO V2.0, Langenscheidt T1, IBM PTplus98, Globalink PowerTranslator V6.5 und Transcend) für die Übersetzungsrichtung Englisch® Deutsch. Ziel dieser Evaluierung war, am Beispiel des Phänomens der Koordination, die Frage nach der linguistischen Performanz kommerzieller Systeme gezielt, d.h. mittels systematischer Grammatiktests, für einen Teilbereich der Grammatik zu beantworten. Die Arbeit wurde im Rahmen einer größer angelegten phänomenorientierten linguistischen Evaluierung durchgeführt und stellt einen von mehreren Teilaspekten dar.
Für die Evaluierung wurde eine Test Suite konstruiert (100 Sätze), in der Varianten für koordinierte Strukturen im Englischen systematisch aufgeführt sind. Zusätzlich wurden aus Texten, die zu ausgewählten Domänen gehören (Online Shopping im Internet als Variante des Electronic Commerce, sowie Service & Reparaturanleitungen (SR) aus der Automobilbranche) insgesamt 200 Beispiele für Koordinationen extrahiert und als Testkorpus definiert. Diese Beispiele wurden nicht strukturell oder lexikalisch modifiziert. Während die konstruierte Test Suite eine breite Abdeckung des Phänomens reflektieren sollte, stand bei der Zusammenstellung der Test Suite aus authentischen Texten das tatsächliche Vorkommen von Koordinationsvarianten je nach Texttyp und ihr zahlenmäßiges Verhältnis im Vordergrund. Damit konnten differenzierte Aussagen für die einzelnen Systeme hinsichtlich ihrer grundsätzlichen linguistischen Kompetenz einerseits und innerhalb eines realistischen Anwendungsszenarios andererseits gemacht werden.
Für die Bewertung der Übersetzungen wurde eine vierstufige Skala angewendet: (1) Testsatz oder –phrase ist korrekt übersetzt, (2) Phänomen ist korrekt übersetzt, (3) Phänomen ist nicht korrekt übersetzt, (4) Testsatz- oder Phrase ist komplett falsch übersetzt und die Fehlerquelle ist nicht (mehr) nachvollziehbar.Die Testergebnisse wurden auf der Basis eines Modell mit Minimalanforderungen aus Benutzerperspektive eingeordnet, da die Brauchbarkeit der Übersetzungen letztlich immer von den Anforderungen des MÜ-Benutzers abhängt.
Die Auswertung der Resultate ergab einen prozentualen Anteil der korrekt übersetzten Koordinationen von 41% (Transcend) bis 65% (SystranPro V2.0). Alle Systeme zeigten - wenig überraschend - Schwächen bei der Übersetzung von elliptischen Strukturen, sowohl bei Phrasen- als auch bei Satzkoordination. Allerdings gab es auch einige "Ausrutscher" je nach Phänomen und Textsorte. Die durchgängig besten Ergebnisse erzielten alle Systeme bei der Übersetzung der On-line Shopping Satzbeispiele (53.3% mit Transcend bis 76.7% mit IBM PTplus98), die schlechtesten Ergebnisse wurden mit der konstruierten Test Suite produziert (39.2 mit Transcend bis 59.8% mit IBM PTplus98). Bei den SR-Testsätzen hatte Systran dank einer großen lexikalischen Abdeckung im Bereich Automobiltechnik eindeutig die Nase vorn (74.5%). Dadurch konnte SystranPro sich an die erste Stelle bei der Gesamtbewertung schieben. Bei der Texttyp-spezifischen Analyse der Ergebnisse und unter Hinzunahme von Benutzeranforderungen ergibt sich allerdings eine differenziertere Sicht auf die Leistungsfähigkeit der einzelnen Systeme. Damit hat sich gezeigt, daß eine kontextbezogene (Benutzeranforderungen bzw. Textsorte) linguistisch orientierte Evaluation von MÜ mehr Aussagekraft hat und somit für potentielle MÜ-Benutzer brauchbarer ist als ein genereller Systemvergleich.