Wie Maschinen zu Übersetzern wurden – die Geschichte der Machine Translation

Neural Machine Translation (NMT) auf dem heutigen Stand kann einfache Texte solide und schnell in zahlreiche Zielsprachen übertragen. Und sie lernt konstant weiter. Doch wie kam es dazu?

Die Geschichte der Machine Translation ist bald 90-jährig. Heute kann der Übersetzungscomputer mithilfe von neuronalen Netzen ganze Sätze in Sekundenschnelle und zahlreichen Sprachen ausspielen. Der Weg dahin war aber teilweise holprig – besonders auf Wortebene.

1930–1950: Am Anfang war die Wort-für-Wort-Übersetzung

Mit den ersten Computern kam der Wunsch, Sprache maschinell zu verstehen und zu übersetzen. Pionierversuche gab es 1933 in Frankreich und Russland: Man entwickelte Systeme, die auf einem maschinellen Vergleich von Lexika beruhten. Die Übertragung in eine andere Sprache berücksichtigte jedoch nur Grundformen einzelner Wörter. Ende des 2. Weltkriegs nahm die Entwicklung Fahrt und wissenschaftliches Interesse auf, als Briten und Amerikaner versuchten, deutsche Funksprüche maschinell zu übersetzen. Der amerikanische Forscher Warren Weaver trieb 1950 die Thematik mit maschinenbasierter Code-Entschlüsselung voran und fokussierte eine Sprachverarbeitung, die erstmals über die Wort-für-Wort-Übersetzung hinausgehen sollte. 1954 konnte das Pilot-Experiment der IBM und der University of Georgetown 250 Wörter automatisch vom Russischen ins Englische übertagen.

Die Resultate führten zu euphorischen Prognosen: Wissenschaftler wie Öffentlichkeit hielten die regelbasierte maschinelle Übersetzung für die Lösung sämtlicher Kommunikationsprobleme. Regelbasiert war sie deshalb, weil der Computer die Satzstellung und Flexion der Wörter automatisch an die manuell hinterlegten Regeln der Zielsprache anpasste. Der Haken: Die Übersetzungen klangen holprig und deckten dabei nicht einmal die 750 Vokabeln ab, die ein Mensch für seine Alltagskommunikation braucht.

1960–1980: Stillstand und internationale Fortschritte

Das US-Verteidigungsministerium verpasste der Entwicklung 1966 einen weiteren Dämpfer, als es die Technologie als unrealisierbar und ressourcenverschwenderisch einstufte. Folge: Die Forschung stand für 10 Jahre still. Erst technologische Fortschritte im asiatischen Raum und eine Fragmentierung der Forschungsgruppen in zahlreiche Länder brachten in den 80er-Jahren neuen Aufschwung.

Alle Forscherteams wollten das Gleiche: mittels vollautomatischer Systeme Qualitätsübersetzungen generieren. Ein optimistisches Vorhaben, denn zu dem Zeitpunkt konnte der maschinelle Output maximal zur Informationsbeschaffung oder als Übersetzungsentwurf verwendet werden und bedurfte eines intensiven Post-Editings (Nachbearbeitung durch Übersetzer). Erst Ende der Achtziger vermochten beispielbasierte Ansätze erstmals identische Segmente aus früheren Übersetzungen für die Wiederverwendung speichern – Translation Management Systeme (TMS) machten es möglich.

1990–2000: Der grosse Google-Coup

Massentauglich wurde Machine Translation schliesslich um 1990: Dank PC-basierten Systemen und dem Internet nutzte sie fortan ein grosses Publikum als Kommunikationshilfe. In den 2000er-Jahren kamen statistische maschinelle Verfahren auf, die sich auf grosse Datenmengen aus der Analyse von ein- und mehrsprachiger Textkorpora stützen. Das bekannteste Beispiel: Google Translate. Ab 2006 auf dem Markt, gewann der spätere Google-Informatiker Franz-Josef Och für die entwickelte Technologie bereits 2003 einen Geschwindigkeitspreis.

Der Hauptvorteil gegenüber den Vorgänger-Systemen? Sie waren im Kosten- und Zeitaufwand weitaus günstiger, weil die manuelle Datenpflege wegfiel; ebenso waren die meisten Algorithmen sprachunabhängig und konnten durch Hinzunahme neuer Daten schnell um weitere Sprachen ergänzt werden. Hybride Lösungen aus regelbasierten und statistischen Programmen erreichten nun zudem qualitativ bessere Resultate. Sie boten mehr als nur zwei Sprachkombinationen an und liessen linguistische Erkenntnisse in die Programmierung einfliessen.

2010: Künstliche Intelligenz als Übersetzungshelfer

2012 wurde publik, wie rege der Google-Übersetzungsdienst tatsächlich von Menschen genutzt wird: Bereits damals hätte man mit dem verarbeiteten Textmaterial täglich gut eine Million Bücher füllen können. Mit der Entwicklung von neuronalen Netzwerken um 2016 wurde die maschinelle Übersetzungsqualität nochmals markant verbessert – die neuronale maschinelle Übersetzung (NMT) war geboren. Programme wie DeepL, Yandex.Translate sowie die Google Übersetzung in der heutigen Form bedienen sich dabei der künstlichen Intelligenz in bahnbrechendem Mass: Das System wird mit Trainingsmaterial gefüttert, lernt aus den Beispielen grammatikalische Abhängigkeiten und erstellt zu jedem Wort und Satz sogenannte Informationsvektoren.

Die netzartigen Strukturen dieses Deep Learnings sind der Funktionsweise des menschlichen Gehirns nachempfunden. Auf diese Weise kann es Hunderte von Daten speichern und eine hohe Genauigkeit beim Übersetzen erzielen. Wie genau die Maschine Satzteile gewichtet und das Ergebnis im Detail zustande kommt, ist nicht bekannt. Das Resultat schon: zunehmend natürlicher klingende Übersetzungen, und das auch bei längeren Sätzen.

Und heute?

Maschinelle Übersetzung auf dem heutigen Stand ist fähig, ganze Sätze in immer mehr Zielsprachen zu übersetzen und dabei konstant dazuzulernen. Individualisierte Systeme können mit kundenspezifischen Daten trainiert werden und die Terminologie und Sprache des Unternehmens berücksichtigen. Das endgültige Niveau ist jedoch klar von der Engine sowie der Übersetzungsqualität der Trainingstexte abhängig.

Zahlreiche Herausforderungen sind zudem bis heute ungelöst – allen voran die Berücksichtigung der stilistischen und kulturellen Welt eines Texts: Es macht einen grossen Unterschied, ob die Maschine eine Gebrauchsanweisung oder einen Marketingtext übersetzen soll und ob der Text für den deutschen oder den chinesischen Markt gedacht ist. Um diesen Faktor auszuhebeln, müsste die Übersetzungsmaschine die reine Wortebene verlassen können, was bis heute technisch nicht möglich ist.

Die Entscheidung für oder gegen maschinelle Übersetzung ist daher eine Frage der Prioritäten hinsichtlich Textqualität und -menge – wir haben in einem früheren Blogbeitrag bereits darauf hingewiesen. Und die Rolle des Post-Editors wird auch in Zukunft eine tragende sein: Wo die Maschine aufhört, fängt der Mensch an.

Titelbild via Twenty20