• IT-Karriere:
  • Services:

Context is key

Nur eine der schallgeschützten Telefonboxen in den Büroräumen ist um 10 Uhr vormittags schon besetzt. Hagen Fürstenaus Team beginnt in der Regel spät und geht spät nach Hause, angepasst an die Zeitzonen der Kollegen in Seattle, Los Angeles, Boston und New York.

Stellenmarkt
  1. BUCS IT GmbH, Wuppertal
  2. Freie und Hansestadt Hamburg, Hamburg

Zusammen sitzen sie an den großen Problemen maschineller Übersetzung, etwa an Bedeutungsunterschieden wie beim Wort absetzen, das auf Englisch to deduct, to drop off oder to settle heißen könnte. "Das Spannende dabei ist, dass wir nicht manuell Regeln ins System gefüttert haben, sondern dass es die unterschiedlichen Bedeutungen selbst gelernt hat", erklärt Fürstenau.

Die technische Umsetzung mit Machine Learning funktioniert in diesem Fall mit großen Datenmengen öffentlich zugänglicher deutscher Texte und ihren Übersetzungen, wie etwa Debatten des EU-Parlaments, die in allen europäischen Sprachen publiziert werden. Die Algorithmen zu verändern, sich neue auszudenken und zu überlegen, welche Daten man der KI zum Lernen gibt, gehört zu den Aufgaben der Forscher, wenn sie das System verbessern wollen.

  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • In einem Berliner Büro von Amazon: Jedes Puzzleteil steht für ein erteiltes Patent. (Foto: Maja Hoock)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)

Die neuronalen Netze, die hinter den sprachverarbeitenden Systemen stehen, stellen automatisch Millionen von neuen Parametern im System ein und sind damit in der Lage, neue Inhalte zu übersetzen. Anschließend werden Testnutzer zur Qualität der Übersetzungen befragt. Daraus errechnet das Team einen Prozentsatz, um wie viel besser die Ergebnisse sind. Ist dieser signifikant genug, geht die Lösung ins Live-System.

"Umgekehrt heißt das aber auch, dass es schwieriger ist, Fehler zu beheben. Man kann nicht einfach manuell eine Regel hinzufügen oder korrigieren", sagt Fürstenau. Die Forscher können also nicht direkt festschreiben, dass absetzen in Kombination mit dem Wort Paket drop off heißt. Sie müssen die KI stattdessen mit mehr Texten versorgen, die entsprechende Satzbeispiele enthalten.

Verschwendet die Methode Ressourcen?

Viele unterschiedliche Datensätze auszuprobieren, bringt im Machine Learning auch Probleme mit sich. Kritik zieht sich unter Schlagworten wie "Overfitting" seit Jahren durch die Forschung. KI-Anwendungen dieser Art erfordern einerseits eine große Rechenkapazität, weshalb der Trial-and-Error-Methode der Vorwurf der Ressourcenverschwendung entgegengehalten wird. Amazon Web Services bezieht zumindest die Hälfte des benötigten Stroms aus erneuerbaren Energien und soll laut Climate Pledge bis 2040 klimaneutral werden.

Zum anderen besteht die Gefahr, unzulässige wissenschaftliche Schlüsse zu ziehen. Hagen Fürstenau sagt dazu: "Neuronale Netze und Deep-Learning-Modelle, wie sie in den letzten Jahren entwickelt wurden, sind sehr viel komplexer als ältere Verfahren, was zu beeindruckenden Qualitätsverbesserungen geführt hat, aber auch solche Risiken erhöht. Daher ist die Kritik im Prinzip nicht unbegründet und auch regelmäßig Gegenstand von Fachdiskussionen."

Allerdings halte sich die Problematik in seinem Forschungsbereich in Grenzen, da sein Team nicht von neuen technischen Methoden oder zufälligen Variationen davon ausgehe, sondern von einem konkreten Anliegen der Kunden wie einer fehlerhaften Übersetzung. Davon ausgehend versuche er, einen technischen Ansatz zu identifizieren, der dieses Problem löse. "Dadurch können wir das Risiko, zufälligen Verbesserungen aufzusitzen, in der Regel ausschließen, denn am Ende ist für uns ein Forschungsthema nicht erfolgreich bearbeitet, wenn es lediglich abstrakte Zahlen in einer Publikation verbessert, sondern nur, wenn es dem Kunden spürbare Verbesserungen gebracht hat", sagt Fürstenau.

Nicht immer klappt das. Die Grenzen des Systems werden zum Beispiel deutlich, wenn man eine Merchandise-Tasse der eigenen Lieblingsserie auf Amazon aufruft. So wurde die Beschriftung "Curb Your Enthusiasm" auf einer privaten Produktseite zu "Bordstein Sie Ihre Erwartung". Das System erkannte weder, dass es sich um den Titel einer Serie handelt, noch bot es die korrekte Übersetzung an, also "Zügle deine Begeisterung". Mit dem deutschen Titel der Serie konnte es erst recht nicht dienen, der "Lass es, Larry!" lautet. Die Seite ist mittlerweile nicht mehr zu finden, aber solche und ähnliche Fälle machen deutlich: Kontextintegration ist notwendig, um treffende Produktseiten-Übersetzungen anzubieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Computerlinguistik: "Bordstein Sie Ihre Erwartung!"Schwestersprachen als Übersetzungshilfe 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Anzeige
Hardware-Angebote
  1. (u. a. Samsung 860 QVO 1 TB für 99,90€, Samsung 860 QVO 2 TB für 199,99€, Samsung Protable...
  2. 249€ (Vergleichspreis 277,99€)

igor37 24. Jan 2020

Die Formulierungen sind definitiv besser, allerdings ist es nicht unbedingt...

Kofola 23. Jan 2020

An tschechisch scheitern sie alle. Die ergebnisse beim übersetzen sind kauderwelsch

amagol 23. Jan 2020

In der Theorie vielleicht, aber ohne Konkurrenz waere der Druck etwas besseres zu...

miauwww 23. Jan 2020

"Ihre Produkte übersetzen lassen" - Meinte wohl "Ihre Produktbeschreibungen...".

Kakiss 23. Jan 2020

Trump ist gegen Außerirdsiche die aus Mexiko einwandern.


Folgen Sie uns
       


Cirrus7 Incus A300 - Test

Wir testen den Incus A300 von Cirrus7, einen passiv gekühlten Mini-PC für AMDs Ryzen 2000G/3000G.

Cirrus7 Incus A300 - Test Video aufrufen
Coronakrise: IT-Freelancer müssen als Erste gehen
Coronakrise
IT-Freelancer müssen als Erste gehen

Die Pandemie schlägt bei vielen IT-Freiberuflern schneller zu als bei Festangestellten. Schon die Hälfte aller Projekte sind gecancelt. Überraschung: Bei der anderen Hälfte läuft es weiter wie bisher. Wie das?
Ein Bericht von Peter Ilg

  1. Coronavirus Media Markt und Saturn stoppen Mietzahlungen
  2. Corona Besitzer von Media Markt Saturn beantragt Staatshilfe
  3. Coronakrise EU wertet Kontaktsperren mit Mobilfunkdaten aus

Starsky Robotics: Woran ein Startup für autonome Lkw gescheitert ist
Starsky Robotics
Woran ein Startup für autonome Lkw gescheitert ist

Der Gründer eines Startups für selbstfahrende Lkw hält die Technik noch lange nicht für praxistauglich.
Ein Bericht von Friedhelm Greis

  1. R2 von Nuro Autonomer Lieferwagen darf ohne Windschutzscheibe fahren
  2. DLR Testfeld für autonomes Fahren analysiert den Autoverkehr
  3. Snapdragon Ride Qualcomm entwickelt Plattform für autonomes Fahren

Microsoft Teams im Alltag: Perfektes Werkzeug, um Effizienz zu vernichten
Microsoft Teams im Alltag
Perfektes Werkzeug, um Effizienz zu vernichten

Wir verwenden Microsofts Chat-Dienst Teams seit vielen Monaten in der Redaktion. Im Alltag zeigen sich so viele Probleme, dass es eigentlich eine Belohnung für alle geben müsste, die das Produkt verwenden.
Von Ingo Pakalski

  1. Microsoft Die neue Preview des Windows Admin Center ist da
  2. Coronavirus Microsoft will dieses Jahr alle Events digital abhalten
  3. Microsoft Office 365 wird umbenannt

    •  /