12.01.2020

Maschinelle Übersetzung: eine Alternative, die sich lohnt

Home › Technologien, KI und Digitalisierung › Maschinelle Übersetzung: eine Alternative, die sich lohnt

Verteilt auf verschiedene Bereiche eines Unternehmens ist der Bedarf nach Übersetzungen oft größer als angenommen: technische Dokumentation, Software, Website, E-Commerce, Ausschreibungen, Verträge und Patente usw. Nicht wenige mittelständische Unternehmen geben jedes Jahr sechsstellige Beträge für Übersetzungen aus … Und wenn Übersetzungen nicht so teuer wären, würden sie noch mehr übersetzen lassen: soziale Medien, E-Mails vom Technischen Support, Berichte, Hintergrundinformationen und vieles mehr. Lange Zeit war maschinelles Übersetzen (MÜ) keine ernsthafte Alternative zum Übersetzen durch den Menschen. Über manche MÜ-Ergebnisse wie „Die [elektrische] Leitung wurde umgelegt = The management was killed“ hat man gerne geschmunzelt. Insbesondere nach der Einführung von neuronalen maschinellen Übersetzungssystemen (NMT, neural machine translation) durch Google Translate im Jahr 2016 hat sich einiges geändert. Neuere Systeme benutzen Verfahren der Künstlichen Intelligenz (KI), um aus größeren Mengen an übersetzten Texten, das Übersetzen zu lernen. Die Ergebnisse sind manchmal überraschend gut, so gut, dass Sie heute ernsthaft darüber nachdenken können, ob Sie Ihre Informationen maschinell übersetzen könnten oder sollen.

Wie maschinelle Übersetzung heute funktioniert

Um dies zu beurteilen, sollten Sie zunächst verstehen, wie MÜ funktioniert, was Sie realistisch erwarten und welche Fehler auftreten können. Maschinelle Übersetzungssysteme benutzen Modelle, die mit neuronalen Netzen trainiert wurden. Für jedes Sprachpaar trainieren Machine-Learning-Spezialisten ein Modell. Die Sprachkombination Deutsch-Englisch benutzt ein anderes Modell als die Kombination Englisch-Deutsch. Was das Modell leisten kann, zeigt sich vielleicht besser am Beispiel des Spracherwerbs bei Kindern: Wenn ein kleines Kind seine Sprache lernt, merkt es sich Wörter und Wortfolgen, die im Laufe der Jahre immer wieder gemeinsam verwendet werden. Je öfter Wörter zusammen gebraucht werden, desto besser erinnert sich das Kind an sie: „Ich bin müde. Ich möchte schlafen“ ist für das Kind normal und gehört zu seinem gelernten „Modell“, während „Ich bin müde. Ich möchte das Flugzeug“ zwar bekannte Wörter sind, aber nicht zu seinem „Modell“ passen. Neuronale maschinelle Übersetzungssysteme tun im Grunde nichts anderes als das Gehirn eines Kleinkindes. Nur dass sie in viel weniger Zeit (z.B. 2 Wochen) Millionen von Sätzen und Ausdrücken in zwei Sprachen gleichzeitig erlernen. Sie merken sich Satz für Satz wie Wörter bzw. Ausdrücke der Zielsprache, Wörtern und Ausdrücken der Ausgangssprache entsprechen. Daraus bauen sie ein prädiktives Modell, mit dem sie für neue unbekannte Sätze der Ausgangssprache eine möglichst passgenaue Übersetzung generieren. Technisch gesehen haben wir es beim Lernen eines Übersetzungsmodells mit zwei verknüpften neuronalen Netzen zu tun. Als Input in das System dienen riesige Sammlungen von übersetzten Sätzen: jeweils ein Ausgangssatz mit seiner Übersetzung. Die Übersetzung ist sozusagen die Zielvorgabe, die das System fehlerfrei lernen muss. Den ersten Teil des Prozesses übernimmt der Encoder. Er liest die Ausgangssätze ein und lernt statistisch wie in unserem obigen Beispiel welche Wörter öfter gemeinsam verwendet werden. Nur die wesentlichen Beziehungen werden beibehalten. Da eine Maschine nur Zahlen versteht, wird die Bedeutung von Wörtern und Sätzen durch Vektoren erfasst. Daher wird z.B. ein Vektor für das Wort „schlafen“ auf Wörter wie „müde“ oder „Bett“ und nicht auf „Flugzeug“ verweisen. Der Encoder liefert am Ende des Lernprozesses für jeden Ausgangssatz einen Satzvektor, der die Bedeutung des Satzes in Zahlen widergibt. In einem zweiten Schritt lernt die Maschine wie man diesen Vektor in eine Fremdsprache übersetzt. Diesen Schritt steuert der Decoder mit dem Ausgangssatz als Input und der Übersetzung als Output. In mehreren Zwischenschritten, die versteckte Schichten des neuronalen Netzes (die „hidden layers„) übernehmen, lernt der Decoder Merkmale, die für die Übersetzung von Wörtern der Ausgangssprache relevant sind: Zusammenhängende Wörter, Abhängigkeiten im Satz … Sobald das Modell fertiggestellt und der Lernprozess abgeschlossen ist, berechnet der Algorithmus anhand dieser Modelldaten für jeden neuen unbekannten Satz, welche Übersetzung die höchste Wahrscheinlichkeit hat. Da die Sprache nicht immer präzise und oft mehrdeutig ist, ist die vorgeschlagene Übersetzung manchmal falsch bzw. sie kann stilistisch weniger gelungen sein als ähnliche korrekte Übersetzungen, die beim Algorithmus weniger gepunktet haben.

Systemauswahl: Die unterschiedlichen Konzepte

Wenn ein Unternehmen also maschinell übersetzen möchte, kann es grundsätzlich entscheiden, ob es einen spezialisierten Dienstleister wie die D.O.G. GmbH in Anspruch nimmt oder eine eigene Lösung erstellt. Sollte dies der Weg sein, dann kommt zuerst die Frage der Technologieauswahl, denn MÜ ist nicht gleich MÜ. Das Herzstück eines maschinellen Übersetzungssystems ist ein neuronales Netz. Dies haben alle Systeme gemeinsam. Ein wesentlicher Anteil der heute eingesetzten Systeme verwendet Open Source Bibliotheken wie OpenNMT (https://opennmt.net/), die sie konfigurieren und mit eigenen Skripten und Programmen erweitern. Je nachdem wie generisch oder kundenspezifisch die Übersetzungsergebnisse sein sollen, stehen Unternehmen drei Ansätze zur Auswahl:

Sie können direkt oder indirekt über API öffentlich zugängliche Übersetzungstools wie Google Translate, DeepL oder Microsoft Translator verwenden. Diese Systeme sind sofort einsetzbar und bereits konfiguriert. Sie berücksichtigen jedoch keine firmenspezifischen Themen und Terminologien.
Sie können Plattformen wie Systran, Kantan oder Globalese verwenden, die in begrenztem Maße das Training und die Konfiguration eines MÜ-Systems erlauben oder
Sie entwickeln selbst bzw. lassen von einem Dienstleister wie der D.O.G. GmbH ein maßgeschneidertes System entwickeln, das mit Texten und Informationsmaterial aus Ihrem Unternehmen trainiert wird.

Je mehr Sie sich in Richtung individuell trainiertes MÜ-System bewegen, desto mehr entsprechen die erzeugten Übersetzungen dem Sprachgebrauch des Unternehmens. Dadurch fällt weniger Korrekturaufwand an. Das ist z.B. der Fall, wenn ein Unternehmen bestimmte Termini („Batteriefachdeckel“ statt „Akkuschutzdeckel„) oder Ausdrucksweisen („Öffnen Sie den Batteriefachdeckel“ statt „Batteriefachdeckel öffnen„) bevorzugt. Da außerdem viele Wörter abhängig vom Kontext unterschiedliche Bedeutungen haben können, liefern öffentlich zugängliche Übersetzungssysteme oft die Bedeutung, die am meisten verbreitet ist und nicht unbedingt die spezifische Übersetzung, die das Unternehmen verwendet. Wie übersetzen Sie „richtig“ Wörter wie „Leistung„, „Gerät„, „Anlage“ oder „Scheibe„? Ferner bietet eine maßgeschneiderte Lösung eine größere Sicherheit bezüglich des Datenschutzes.

Maschinelles Übersetzen mit Post-Editieren

Nur in bestimmten Situationen ist eine rein maschinelle Übersetzung sinnvoll, z.B. wenn Sie Live-Chats übersetzen müssen oder wenn Ihnen größere Mengen an Informationen sehr schnell zur Verfügung stehen sollen. Auch in diesem Fall sind mit Firmentexten trainierte Systeme besser geeignet. Das am meisten verbreitete Modell ist MÜ in Kombination mit Post-Editing. Den Output des maschinellen Übersetzungssystems korrigiert ein Mensch, der Post-Editor. Das sind Fachleute, die über eine entsprechende Ausbildung verfügen, denn (1) Maschinen machen andere Fehler als Menschen und (2) je nach Qualitätsanspruch muss nicht alles korrigiert werden, was unschön ist. Es gibt inzwischen eine Norm für das Post-Editing (ISO 18587), die zwei Korrekturstufen vorsieht: das Light-Post-Editing, bei dem v.a. inhaltliche Fehler und Sinnfehler korrigiert werden und das Full-Post-Editing, bei dem die Übersetzung von ähnlicher Qualität sein muss wie die eines menschlichen Übersetzers. Am Ende sind die Ergebnisse genauso gut wie eine klassische Übersetzung. Wenn Sie sich davon ein Bild machen möchten, können Sie die englische Version unserer Webseite besuchen, die wir nach diesem Verfahren (MÜ + Post-Editing) erzeugt haben (https://www.dog-gmbh.de/en/). Wir konnten die Produktionskosten senken und vor allem konnten wir in diesem Fall die englische Version unserer Website viel schneller veröffentlichen.

Was können Sie tun, um die Ergebnisse zu optimieren?

Unternehmen können die Ergebnisse von maschineller Übersetzung durchaus beeinflussen, indem sie „besser“ und „maschinengerecht“ schreiben. Vor allem bei Firmen, die sehr viel Informationsmaterial produzieren und in denen im Laufe der Jahre mehrere Mitarbeiter Texte verfassen, lohnt es sich, kontrolliert zu schreiben. Ein Style Guide legt fest, wie formuliert werden soll (Satzlänge, Syntax, Gebrauch der Verben usw.). Sie können die Terminologie Ihres Unternehmens festlegen und definieren, welche Synonyme bevorzugt und welche verboten sind („Tempomat“ und nicht „Geschwindigkeitsbegrenzer„). Dafür eignet sich z.B. das Terminologieverwaltungssystem LookUp der D.O.G. GmbH sehr gut (https://www.dog-gmbh.de/produkte/lookup/).

Besseres Trainingsmaterial

Aber nicht nur das optimierte Schreiben von Texten verbessert die MÜ-Ergebnisse, sondern auch die Qualität des Materials, das für das Trainieren eines Modells verwendet wurde. Nach dem Motto „Garbage in, garbage out“ sind die Systeme nur so gut, wie das verwendete Trainingsmaterial. Das durfte im Jahr 2017 die chinesische App WeChat erleben, die das chinesische Wort für Afroamerikaner mit dem „N-Wort“ übersetzte, weil das Trainingsmaterial dieses Wort zuhauf enthielt. Viele Unternehmen, die regelmäßig übersetzen lassen, haben möglicherweise Zugriff auf Translation-Memorys (Datenbanken mit bereits übersetzen Sätzen, die ihre Übersetzer normalerweise erstellen). Diese Translation-Memorys bilden nach Optimierung der Inhalte eine hervorragende Quelle für das firmenspezifische Trainieren von MÜ-Systemen.

Kosten- und Zeitvorteile

Die am häufigsten genannten Gründen für maschinelles Übersetzen sind Zeit- und Kostenersparnis. Tatsächlich ist für einige Leute allein der Zeitfaktor Grund genug, um maschinell übersetzen zu lassen. Wenn ein Webshop 4 Wochen früher in englischer, französischer oder spanischer Sprache verfügbar ist, dann kann der Verkauf 4 Wochen früher starten, und das kann viel Wert sein. Im Internet kursieren alle möglichen Kostenangaben, so dass es für den Laien nicht immer einfach ist, seriöse von zweifelhaften Aussagen zu trennen. Kosten entstehen hauptsächlich:

für den Aufbau eines Modells und anschließend für die regelmäßige Wartung des trainierten Modells einschließlich der technischen Infrastruktur
für die Nachbearbeitung (das Post-Editing) von maschinellen Übersetzungen.

Viele Anbieter berechnen einen niedrigen Grundpreis pro übersetztes Wort für die erste Kostenkomponente und einen Wortpreis für das Post-Editing, abhängig vom Umfang der erforderlichen Überarbeitung. Im Vergleich zu klassischen Übersetzungen können die Kosten um 20-50% reduziert werden, je nachdem, wie anspruchsvoll die Texte sind und wie die klassischen Übersetzungen erstellt werden, denn der Einsatz von Translation-Memorys bringt bereits nennenswerte Einsparungen.

Wofür ist MÜ geeignet?

MÜ kann in Kombination mit Post-Editing für viele Texte und Publikationen eingesetzt werden. Überall dort, wo die Texte umfangreich und die Sätze in einem einheitlichen Stil geschrieben sind, können mit MÜ gute Ergebnisse erzielt werden. Bedienungsanleitungen, Kataloge und Webshops, Websites und Schulungsunterlagen sind einige Beispiele dafür. Die beste Lösung ist, sich auf einen Übersetzungsdienstleister zu verlassen, der sowohl klassische als auch maschinelle Übersetzungen mit einem eigens trainierten Übersetzungssystem anbietet. Die D.O.G. GmbH hat sich darauf spezialisiert. Wenn Sie mehr erfahren möchten, können Sie unsere Webseite besuchen und lesen, wie wir für unsere Kunden MÜ-Systeme trainieren und einsetzen. Natürlich können Sie sich auch direkt an uns wenden und ein Angebot einholen oder ein Beratungsgespräch vereinbaren. Weiterführende Informationen zur maschinellen Übersetzung und Post-Editing: Maschinelle Übersetzung und Post-Editing

Lange Zeit war maschinelles Übersetzen (MÜ) keine ernsthafte Alternative zum Übersetzen durch den Menschen. Über manche MÜ-Ergebnisse wie „Die [elektrische] Leitung wurde umgelegt = The management was killed“ hat man gerne geschmunzelt. Insbesondere nach der Einführung von neuronalen maschinellen Übersetzungssystemen (NMT, neural machine translation) durch Google Translate im Jahr 2016 hat sich einiges geändert. Neuere Systeme benutzen Verfahren der Künstlichen Intelligenz (KI), um aus größeren Mengen an übersetzten Texten, das Übersetzen zu lernen. Die Ergebnisse sind manchmal überraschend gut, so gut, dass Sie heute ernsthaft darüber nachdenken können, ob Sie Ihre Informationen maschinell übersetzen könnten oder sollen.

Wie maschinelle Übersetzung heute funktioniert

Um dies zu beurteilen, sollten Sie zunächst verstehen, wie MÜ funktioniert, was Sie realistisch erwarten und welche Fehler auftreten können.

Maschinelle Übersetzungssysteme benutzen Modelle, die mit neuronalen Netzen trainiert wurden. Für jedes Sprachpaar trainieren Machine-Learning-Spezialisten ein Modell. Die Sprachkombination Deutsch-Englisch benutzt ein anderes Modell als die Kombination Englisch-Deutsch. Was das Modell leisten kann, zeigt sich vielleicht besser am Beispiel des Spracherwerbs bei Kindern: Wenn ein kleines Kind seine Sprache lernt, merkt es sich Wörter und Wortfolgen, die im Laufe der Jahre immer wieder gemeinsam verwendet werden. Je öfter Wörter zusammen gebraucht werden, desto besser erinnert sich das Kind an sie: „Ich bin müde. Ich möchte schlafen“ ist für das Kind normal und gehört zu seinem gelernten „Modell“, während „Ich bin müde. Ich möchte das Flugzeug“ zwar bekannte Wörter sind, aber nicht zu seinem „Modell“ passen.

Neuronale maschinelle Übersetzungssysteme tun im Grunde nichts anderes als das Gehirn eines Kleinkindes. Nur dass sie in viel weniger Zeit (z.B. 2 Wochen) Millionen von Sätzen und Ausdrücken in zwei Sprachen gleichzeitig erlernen. Sie merken sich Satz für Satz wie Wörter bzw. Ausdrücke der Zielsprache, Wörtern und Ausdrücken der Ausgangssprache entsprechen. Daraus bauen sie ein prädiktives Modell, mit dem sie für neue unbekannte Sätze der Ausgangssprache eine möglichst passgenaue Übersetzung generieren.

Technisch gesehen haben wir es beim Lernen eines Übersetzungsmodells mit zwei verknüpften neuronalen Netzen zu tun. Als Input in das System dienen riesige Sammlungen von übersetzten Sätzen: jeweils ein Ausgangssatz mit seiner Übersetzung. Die Übersetzung ist sozusagen die Zielvorgabe, die das System fehlerfrei lernen muss. Den ersten Teil des Prozesses übernimmt der Encoder. Er liest die Ausgangssätze ein und lernt statistisch wie in unserem obigen Beispiel welche Wörter öfter gemeinsam verwendet werden. Nur die wesentlichen Beziehungen werden beibehalten. Da eine Maschine nur Zahlen versteht, wird die Bedeutung von Wörtern und Sätzen durch Vektoren erfasst. Daher wird z.B. ein Vektor für das Wort „schlafen“ auf Wörter wie „müde“ oder „Bett“ und nicht auf „Flugzeug“ verweisen. Der Encoder liefert am Ende des Lernprozesses für jeden Ausgangssatz einen Satzvektor, der die Bedeutung des Satzes in Zahlen widergibt.

In einem zweiten Schritt lernt die Maschine wie man diesen Vektor in eine Fremdsprache übersetzt. Diesen Schritt steuert der Decoder mit dem Ausgangssatz als Input und der Übersetzung als Output. In mehreren Zwischenschritten, die versteckte Schichten des neuronalen Netzes (die „hidden layers„) übernehmen, lernt der Decoder Merkmale, die für die Übersetzung von Wörtern der Ausgangssprache relevant sind: Zusammenhängende Wörter, Abhängigkeiten im Satz …

Sobald das Modell fertiggestellt und der Lernprozess abgeschlossen ist, berechnet der Algorithmus anhand dieser Modelldaten für jeden neuen unbekannten Satz, welche Übersetzung die höchste Wahrscheinlichkeit hat. Da die Sprache nicht immer präzise und oft mehrdeutig ist, ist die vorgeschlagene Übersetzung manchmal falsch bzw. sie kann stilistisch weniger gelungen sein als ähnliche korrekte Übersetzungen, die beim Algorithmus weniger gepunktet haben.

Systemauswahl: Die unterschiedlichen Konzepte

Sollte dies der Weg sein, dann kommt zuerst die Frage der Technologieauswahl, denn MÜ ist nicht gleich MÜ. Das Herzstück eines maschinellen Übersetzungssystems ist ein neuronales Netz. Dies haben alle Systeme gemeinsam. Ein wesentlicher Anteil der heute eingesetzten Systeme verwendet Open Source Bibliotheken wie OpenNMT (https://opennmt.net/), die sie konfigurieren und mit eigenen Skripten und Programmen erweitern. Je nachdem wie generisch oder kundenspezifisch die Übersetzungsergebnisse sein sollen, stehen Unternehmen drei Ansätze zur Auswahl:

Sie können direkt oder indirekt über API öffentlich zugängliche Übersetzungstools wie Google Translate, DeepL oder Microsoft Translator verwenden. Diese Systeme sind sofort einsetzbar und bereits konfiguriert. Sie berücksichtigen jedoch keine firmenspezifischen Themen und Terminologien.
Sie können Plattformen wie Systran, Kantan oder Globalese verwenden, die in begrenztem Maße das Training und die Konfiguration eines MÜ-Systems erlauben oder
Sie entwickeln selbst bzw. lassen von einem Dienstleister wie der D.O.G. GmbH ein maßgeschneidertes System entwickeln, das mit Texten und Informationsmaterial aus Ihrem Unternehmen trainiert wird.

Maschinelles Übersetzen mit Post-Editieren

Das am meisten verbreitete Modell ist MÜ in Kombination mit Post-Editing. Den Output des maschinellen Übersetzungssystems korrigiert ein Mensch, der Post-Editor. Das sind Fachleute, die über eine entsprechende Ausbildung verfügen, denn (1) Maschinen machen andere Fehler als Menschen und (2) je nach Qualitätsanspruch muss nicht alles korrigiert werden, was unschön ist.

Es gibt inzwischen eine Norm für das Post-Editing (ISO 18587), die zwei Korrekturstufen vorsieht: das Light-Post-Editing, bei dem v.a. inhaltliche Fehler und Sinnfehler korrigiert werden und das Full-Post-Editing, bei dem die Übersetzung von ähnlicher Qualität sein muss wie die eines menschlichen Übersetzers.

Am Ende sind die Ergebnisse genauso gut wie eine klassische Übersetzung. Wenn Sie sich davon ein Bild machen möchten, können Sie die englische Version unserer Webseite besuchen, die wir nach diesem Verfahren (MÜ + Post-Editing) erzeugt haben (https://www.dog-gmbh.de/en/). Wir konnten die Produktionskosten senken und vor allem konnten wir in diesem Fall die englische Version unserer Website viel schneller veröffentlichen.

Was können Sie tun, um die Ergebnisse zu optimieren?

Besseres Trainingsmaterial

Kosten- und Zeitvorteile

Im Internet kursieren alle möglichen Kostenangaben, so dass es für den Laien nicht immer einfach ist, seriöse von zweifelhaften Aussagen zu trennen. Kosten entstehen hauptsächlich:

für den Aufbau eines Modells und anschließend für die regelmäßige Wartung des trainierten Modells einschließlich der technischen Infrastruktur
für die Nachbearbeitung (das Post-Editing) von maschinellen Übersetzungen.

Wofür ist MÜ geeignet?

Die beste Lösung ist, sich auf einen Übersetzungsdienstleister zu verlassen, der sowohl klassische als auch maschinelle Übersetzungen mit einem eigens trainierten Übersetzungssystem anbietet. Die D.O.G. GmbH hat sich darauf spezialisiert.

Wenn Sie mehr erfahren möchten, können Sie unsere Webseite besuchen und lesen, wie wir für unsere Kunden MÜ-Systeme trainieren und einsetzen. Natürlich können Sie sich auch direkt an uns wenden und ein Angebot einholen oder ein Beratungsgespräch vereinbaren.

Weiterführende Informationen zur maschinellen Übersetzung und Post-Editing: Maschinelle Übersetzung und Post-Editing