28.02.2019

DeepL: Ein Erfahrungsbericht

Home › Technologien, KI und Digitalisierung › DeepL: Ein Erfahrungsbericht

„Das Sprachprogramm DeepL legt binnen Sekunden fast fehlerfreie Übersetzungen vor. Fremdsprachenlehrer und Übersetzer müssen sich etwas einfallen lassen[1]“. Dieses und ähnliche Statements sind der Grund für eine ansteckende MÜ-Euphorie, die sich langsam ausbreitet. Manche Verantwortliche in der Dokumentationsbranche sprechen von maschinellen Übersetzungen (MÜ) als die neue Wunderwaffe. Die Zahl der Unternehmen, die tatsächlich automatisch übersetzen lassen, bleibt jedoch noch bescheiden und beschränkt sich auf bestimmte Kommunikationsprojekte wie die Übersetzung von Emails, von internem Informationsmaterial oder von Meldungen des Technischen Supports.

Wir haben einen Test mit 10 repräsentativen Projekten aus dem Übersetzungsalltag durchgeführt. Bedienungsanleitungen, Softwaretexte, Präsentationen, Webseiten, die bereits durch Humanübersetzer ins Englische bzw. Französische übersetzt wurden, wurden noch einmal mit DeepL übersetzt und anschließend so posteditiert, dass sie zwar stilistisch nicht erstklassig aber inhaltlich korrekt sind. Die Ergebnisse möchten wir hier weitergeben.

Der Aufstieg neuronaler maschineller Übersetzung (NMÜ)

Zuerst einmal stellt sich die Frage: Was ist DeepL und warum ist es angeblich besser als seine Konkurrenten? Bereits im November 2016 etablierte Google Translate Neuronales Maschinelles Übersetzen (NMT) als Technologie der Zukunft, die in vielen Punkten die regelbasierten oder statistischen Übersetzungssysteme übertraf. Das Herzstück dieser Technologie sind künstliche neuronale Netzwerke. Sie lernen aus Millionen von Beispielen und Texten, wie Sprachen strukturiert sind und funktionieren und berechnen daraus die optimale Übersetzung für den jeweiligen Satz.

Der Oberbegriff neuronale Übersetzungstechnologien vereint ganz unterschiedliche Motorisierungskonzepte, die zu komplex sind, um sie hier im Detail zu erläutern. Als DeepL knapp ein Jahr nach Google die Übersetzungswelt im August 2017 mit besseren Ergebnissen als Google überraschte, begann in der Öffentlichkeit die Suche nach den Gründen. DeepL macht daraus ein großes Geheimnis, aber so viel lässt sich sagen: DeepL benutzt im Gegensatz zu Google keine sog. rekurrente neuronale Netze (RNN), sondern konvolutionäre neuronale Netze (CNN), die man aus der Bilderkennung kennt und die die parallele Bearbeitung von Wortkontexten ermöglichen. Seitdem verbessern die großen Anbieter von MÜ-Technologien ständig ihre Algorithmen und sowohl die Menge als auch die Qualität ihrer Trainingsdaten.

Was außerdem zum Erfolg von DeepL beigetragen hat, ist die hohe Qualität der Trainingsdaten, die von der Übersetzungsplattform Linguee (https://www.linguee.com/) stammen.

Maschinen machen trotzdem Fehler

Doch trotz erstaunlich guter Übersetzungen macht DeepL Fehler und zwar nicht gerade wenige. Viele dieser Fehlerarten findet man bei anderen maschinellen Übersetzungsprogrammen wieder, so dass wir hier nicht in allen Einzelheiten eine Typologie maschineller Übersetzungsfehler erörtern möchten. Maschinelle Systeme orientieren sich stärker als Humanübersetzer an der Syntax der Ausgangssprache. Sie liefern oft wörtliche Übersetzungen, haben Probleme mit kreativen Formulierungen und fallen manchmal durch Auslassungen bzw. Hinzufügungen (Änderungen vorbehalten übersetzt als subject to change + without notice) auf, um nur einige typische Probleme zu nennen.

Die auffälligsten Fehler, die unsere Untersuchung zeigte, sind die folgenden:

Probleme mit der Fachterminologie und mit der Terminologiekonsistenz
Probleme mit Homonymen und der Kontexterkennung
Probleme mit Referenzbezügen

Es handelt sich hierbei um Fehler, die wir relativ häufig feststellten und die für den Erfolg eines MÜ-Programms ausschlaggebend sind. Der Löwenanteil der Fehler verteilt sich gleichmäßig zwischen Fachterminologie und allgemeinen Homonymen.

Fachterminologie

DeepL kann keine vorgegebene Terminologie einhalten. Die Algorithmen von DeepL wählen die wahrscheinlichste Fachübersetzung für den aktiv übersetzten Satz. Auch wenn DeepL durch die gelungenen Übersetzungen einzelner Fachtermini immer wieder positiv überrascht, bleiben trotzdem zu viele Terminologiefehler oder Inkonsistenzen. Das liegt daran, dass für eine große Zahl von Fachbegriffen je nach Branche, Kontext oder Unternehmen mehr als eine Übersetzungsvariante zur Verfügung steht. Ein Blick in Linguee (eine Datenquelle von DeepL) macht dies sehr deutlich. Ferner zeigte unser Test wiederholt, dass DeepL Fachtermini keineswegs konsistent übersetzt. Bei jedem neuen Satz werden die Karten neu gemischt. So übersetzte DeepL im selben Text und Kontext Anlage mal mit plant, mal mit system (erwartet war installation). Bei unbekannten Fachwörtern (OOV-Problematik, OOV = out of vocabulary) übernimmt DeepL das unbekannte Wort (z. B. Lautwerk als Schreibfehler für Laufwerk) oder bastelt sich eine Übersetzung zurecht. So erlaubte sich DeepL die Übersetzung counterfahrsicherung für das unbekannte Wort Gegenfahrsicherung (= collision protection).

Homonyme und Kontext

Zu den häufigsten und folgenschwersten Fehlern von DeepL zählt die falsche Übersetzung von Homonymen. Wörter mit mehr als einer Bedeutung sind kein Ausnahmefall: Scheibe, Einheit, Stück, Leistung…. Meistens entscheidet der Kontext darüber, welche Variante die richtige ist. Dazu war DeepL bei Fachwörtern relativ oft nicht in der Lage: Übersetzung wurde mit translation statt transmission (einer Kraft) übersetzt.

Noch problematischer ist der Fall, wenn das Homonym ein allgemeinsprachliches Wort wie Höhe (in Französisch mit apogée = Höhepunkt übersetzt) oder ein Verb wie abbrechen (übersetzt in Französisch mit avorter = Schwangerschaft abbrechen) ist.

In vielen Texten gibt es keine „autarken“ Sätze. Aussagen nehmen Bezug auf den Kontext, auf Elemente, die sich im vorherigen Satz befinden. Mit Pronominalbezügen wie „Dann werden sie nach oben herausgehoben“ hat DeepL große Schwierigkeiten.

Post-Editing maschineller Übersetzungen (MTPE)

Vollautomatisch übersetzte Texte werden anschließend von Posteditoren überarbeitet. Die neue Norm über das Posteditieren maschinell erstellter Übersetzungen (ISO 18587:2017) beschreibt die zwei Posteditierstufen full and light postediting, wobei das vollständige Posteditieren eine Qualität liefern soll, die „mit dem Ergebnis einer Humanübersetzung vergleichbar ist“. Realistisch ist eher eine mittlere Stufe, d. h. eine für bestimmte Texttypen akzeptable Qualität, die aber unter der eines Humanübersetzers liegt.

Insgeheim mag der ein oder andere Manager von posteditierten Übersetzungen träumen, die Humanübersetzungen ebenbürtig und gleichzeitig spürbar kostengünstiger sind. Das klingt ein bisschen nach der Quadratur des Kreises: Schnell und trotzdem akkurat und perfekt. Wie realistisch sind solche Vorstellungen? Ein Blick auf die einzelnen Arbeitsschritte lässt eine Antwort erahnen:

Zuerst muss der Posteditor den Ausgangssatz lesen.
Dann muss er die kritischen Stellen in diesem Satz identifizieren: Stil, Syntax, Terminologie, Präpositionen usw.
Als nächstes muss er die maschinelle Übersetzung lesen.
Dann muss er die maschinelle Variante mit dem Ausgangstext vergleichen. Teilweise bremsen ihn die maschinellen Vorschläge aus („Kann man Scheibe mit disc übersetzen? Ich hätte hier washer“). Dabei berücksichtigt er Quellen wie Terminologie und Referenzübersetzungen (z. B. im Translation-Memory).
Im Anschluss muss er bei kritischen Abweichungen die maschinelle Übersetzung posteditieren.
Zum Schluss überprüft er das Gesamtergebnis mit Hilfe von Qualitätssicherungstechnologien.

Ein Übersetzer, der den Satz neu übersetzt, braucht nicht unbedingt viel mehr Zeit:

Der Übersetzer liest den Ausgangssatz.
Der Übersetzer identifiziert die kritischen Stellen
Der Übersetzer übersetzt den Satz unter Berücksichtigung der Referenzquellen (kein Abgleich mit einer anderen Übersetzung nötig).
Zum Schluss überprüft er das Gesamtergebnis mit Hilfe von Qualitätssicherungstechnologien.

Eine umfassende Terminologie für das Post-Editing

Wir haben festgestellt, dass die Editierarbeit ohne eine gründliche und umfassende Terminologie nicht effizient ist. Der Prüfer müsste zu viel Zeit aufwenden, um Fachtermini jedes Mal einzeln zu recherchieren. Der Grund dafür ist, dass der Hauptteil der Übersetzungszeit für Terminologierecherche aufgewendet wird. Wenn der Lektor genauso viel recherchieren müsste wie der Übersetzer, würde man verhältnismäßig wenig Zeit sparen.

Eine allgemeingültige Aussage zur Produktivität des Posteditierens lässt sich nicht treffen, denn zu unterschiedlich sind die Einflussfaktoren:

Thema, Textsorte, sprachliche Komplexität des Textes und Qualität des maschinellen Outputs.
Verfügbarkeit einer Fachterminologie
Anforderungen an die korrigierte Übersetzung
Erfahrung des Posteditors

Produktivität von Post-Editoren

Bei verschiedenen Tests mit unseren maschinell erstellten Übersetzungen kommen wir auf Stundenleistungen zwischen 700 und 1.200 korrigierten Wörtern, wobei man von maximal sechs tatsächlich geleisteten Stunden pro Arbeitstag (also eine Größenordnung von 4.500-7.000 geprüften Wörtern am Tag) ausgehen sollte, denn kein Editor kann durchgehend acht Stunden hochkonzentriert Übersetzungen überprüfen. Wir haben Versuche unternommen, das Tempo des Postediting zu erhöhen, aber die Anzahl der übersehenen Fehler stieg rapide an.

Unabhängig von den reinen finanziellen Aspekten sind auch die Risiken zu berücksichtigen und zu bewerten, die mit diesem Verfahren zusammenhängen. Bei Humanübersetzungen haben professionelle Übersetzungsdienstleister Mittel und Methoden, um die Qualität ihrer Übersetzungen zu sichern. Sie wählen professionelle Übersetzer aus, setzen entsprechende Tools wie ErrorSpy ein, redigieren die Übersetzung und bauen Fachterminologien auf. Trotz all dieser Maßnahmen kann es immer noch passieren, dass die eine oder andere Übersetzung nicht ganz einwandfrei ist bzw. sogar Fehler enthält.

Beim Postediting-Verfahren wächst dieses Risiko schnell und sehr deutlich. Zum einen macht die Maschine relativ viele Fehler und ein Teil dieser Fehler kann verborgen bleiben, weil die Übersetzung gut klingt. Zum anderen arbeitet der Posteditor unter Zeitdruck und erhält oft Zeit- oder Honorarvorgaben für seine Arbeit. D. h. er wird nicht jedes einzelne Wort auf die Goldwaage legen und manchmal sogar den Ausgangstext nur flüchtig lesen, wenn die maschinellen Übersetzungen einigermaßen plausibel und verständlich klingen.

Umfang der Nachbearbeitung und Wirschaftlichkeitsüberlegungen

Der Vergleich maschinelle Übersetzung / Humanübersetzung zeigte, dass 80-90% der Segmente hätten posteditiert werden müssen, um eine vergleichbare Qualität zu erzielen (vollständiges Posteditieren). Bei einem restriktiven Postediting haben wir nur etwa die Hälfte der Segmente angefasst.

Unsere Tests lieferten zwar keine Beispiele für gravierende Fehler, aber es blieben Textstellen, die hätten anders editiert werden müssen und sollen. Wer also die Vor- und Nachteile maschineller Übersetzungen mit Posteditieren abwägt, darf das Restrisiko falscher Übersetzungen nicht unterschätzen.

Wenn es darum geht, vorhandene Dokumentationen wie Bedienungsanleitungen mit Hilfe von MÜ günstiger als bisher zu übersetzen, ist momentan das Ergebnis mit gesteigertem Fehlerrisiko nicht überzeugend. Wie Michel Schneider es bei seiner Präsentation auf der letzten Tekom-Tagung darlegte[2], sind die tatsächlichen Kosteneinsparungen relativ konstant mit 3-4% recht gering, da Translation-Memorys, die sich über Jahre gefüllt haben, den größten Spareffekt bringen. Bei komplett neuen Dokumentationen sehen die Zahlen natürlich anders aus.

Dagegen kann MÜ eine sinnvolle Lösung für alle Inhalte sein, für die eine geringere Übersetzungsqualität akzeptabel ist und die bisher nicht mit Translation-Memorys übersetzt wurden. Auch zur Produktivitätssteigerung des Übersetzers kann MÜ beitragen, wenn es in Translation-Memory-Systeme integriert ist und bei Segmenten ohne Match im Memory Vorschläge unterbreitet. Die notwendige Voraussetzung dafür ist aber eine gute Fachterminologie, auf die der Posteditor sowie Qualitätssicherungstechnologien wie ErrorSpy zurückgreifen können.

Hier finden Sie unser aktuelles Whitepaper zur Maschinellen Übersetzung (kostenloser Download): MÜ-Whitepaper

Inhalt: Wie funktioniert MÜ; Fehler von MÜ-Systemen; Wie Ergebnisse optimieren; etc.
Autor: Dr. François Massion

6 Jahre später: Was aus der MÜ-Euphorie wurde – ein Faktencheck

Sechs Jahre nach Veröffentlichung dieses Artikels haben maschinelle Übersetzungstools enorme Fortschritte gemacht. Die anfängliche Euphorie hat sich zwar etwas gelegt, aber die Technologie hat sich als wertvolles Werkzeug etabliert. Für eine aktuelle Einschätzung der Möglichkeiten und Grenzen automatischer Übersetzungen lesen Sie unseren neuen Blog-Artikel:
Maschinelle Eigenübersetzung mit DeepL und ChatGPT

Die Zukunft liegt in der intelligenten Kombination aus maschineller Vorübersetzung und menschlicher Expertise – ein hybrider Ansatz, der die Stärken beider Welten vereint.

[1]Siepmann, Dirk: “Übersetzen als Rechenkunst” in Frankfurter Allgemeine Zeitung/Feuilleton. 14.10.2018

https://www.faz.net/aktuell/feuilleton/hoch-schule/uebersetzen-als-rechenkunst-das-sprachprogramm-deepl-und-die-zukunft-der-fremdsprachendidaktik-15828221.html [Zugriff: 03.01.2019]

[2] Schneider, Michael: Fünf Jahre MÜ und Postediting. Präsentation auf der Tekom-Jahrestagung. Oktober 2018.