• IT-Karriere:
  • Services:

Context is key

Nur eine der schallgeschützten Telefonboxen in den Büroräumen ist um 10 Uhr vormittags schon besetzt. Hagen Fürstenaus Team beginnt in der Regel spät und geht spät nach Hause, angepasst an die Zeitzonen der Kollegen in Seattle, Los Angeles, Boston und New York.

Stellenmarkt
  1. dSPACE GmbH, Paderborn
  2. Berliner Verkehrsbetriebe (BVG), Berlin

Zusammen sitzen sie an den großen Problemen maschineller Übersetzung, etwa an Bedeutungsunterschieden wie beim Wort absetzen, das auf Englisch to deduct, to drop off oder to settle heißen könnte. "Das Spannende dabei ist, dass wir nicht manuell Regeln ins System gefüttert haben, sondern dass es die unterschiedlichen Bedeutungen selbst gelernt hat", erklärt Fürstenau.

Die technische Umsetzung mit Machine Learning funktioniert in diesem Fall mit großen Datenmengen öffentlich zugänglicher deutscher Texte und ihren Übersetzungen, wie etwa Debatten des EU-Parlaments, die in allen europäischen Sprachen publiziert werden. Die Algorithmen zu verändern, sich neue auszudenken und zu überlegen, welche Daten man der KI zum Lernen gibt, gehört zu den Aufgaben der Forscher, wenn sie das System verbessern wollen.

  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • In einem Berliner Büro von Amazon: Jedes Puzzleteil steht für ein erteiltes Patent. (Foto: Maja Hoock)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)

Die neuronalen Netze, die hinter den sprachverarbeitenden Systemen stehen, stellen automatisch Millionen von neuen Parametern im System ein und sind damit in der Lage, neue Inhalte zu übersetzen. Anschließend werden Testnutzer zur Qualität der Übersetzungen befragt. Daraus errechnet das Team einen Prozentsatz, um wie viel besser die Ergebnisse sind. Ist dieser signifikant genug, geht die Lösung ins Live-System.

Golem Akademie
  1. Cloud Computing mit Amazon Web Services (AWS)
    18.-20. Oktober 2021, Online
  2. Terraform mit AWS
    14./15. September 2021, online
Weitere IT-Trainings

"Umgekehrt heißt das aber auch, dass es schwieriger ist, Fehler zu beheben. Man kann nicht einfach manuell eine Regel hinzufügen oder korrigieren", sagt Fürstenau. Die Forscher können also nicht direkt festschreiben, dass absetzen in Kombination mit dem Wort Paket drop off heißt. Sie müssen die KI stattdessen mit mehr Texten versorgen, die entsprechende Satzbeispiele enthalten.

Verschwendet die Methode Ressourcen?

Viele unterschiedliche Datensätze auszuprobieren, bringt im Machine Learning auch Probleme mit sich. Kritik zieht sich unter Schlagworten wie "Overfitting" seit Jahren durch die Forschung. KI-Anwendungen dieser Art erfordern einerseits eine große Rechenkapazität, weshalb der Trial-and-Error-Methode der Vorwurf der Ressourcenverschwendung entgegengehalten wird. Amazon Web Services bezieht zumindest die Hälfte des benötigten Stroms aus erneuerbaren Energien und soll laut Climate Pledge bis 2040 klimaneutral werden.

Zum anderen besteht die Gefahr, unzulässige wissenschaftliche Schlüsse zu ziehen. Hagen Fürstenau sagt dazu: "Neuronale Netze und Deep-Learning-Modelle, wie sie in den letzten Jahren entwickelt wurden, sind sehr viel komplexer als ältere Verfahren, was zu beeindruckenden Qualitätsverbesserungen geführt hat, aber auch solche Risiken erhöht. Daher ist die Kritik im Prinzip nicht unbegründet und auch regelmäßig Gegenstand von Fachdiskussionen."

Allerdings halte sich die Problematik in seinem Forschungsbereich in Grenzen, da sein Team nicht von neuen technischen Methoden oder zufälligen Variationen davon ausgehe, sondern von einem konkreten Anliegen der Kunden wie einer fehlerhaften Übersetzung. Davon ausgehend versuche er, einen technischen Ansatz zu identifizieren, der dieses Problem löse. "Dadurch können wir das Risiko, zufälligen Verbesserungen aufzusitzen, in der Regel ausschließen, denn am Ende ist für uns ein Forschungsthema nicht erfolgreich bearbeitet, wenn es lediglich abstrakte Zahlen in einer Publikation verbessert, sondern nur, wenn es dem Kunden spürbare Verbesserungen gebracht hat", sagt Fürstenau.

Nicht immer klappt das. Die Grenzen des Systems werden zum Beispiel deutlich, wenn man eine Merchandise-Tasse der eigenen Lieblingsserie auf Amazon aufruft. So wurde die Beschriftung "Curb Your Enthusiasm" auf einer privaten Produktseite zu "Bordstein Sie Ihre Erwartung". Das System erkannte weder, dass es sich um den Titel einer Serie handelt, noch bot es die korrekte Übersetzung an, also "Zügle deine Begeisterung". Mit dem deutschen Titel der Serie konnte es erst recht nicht dienen, der "Lass es, Larry!" lautet. Die Seite ist mittlerweile nicht mehr zu finden, aber solche und ähnliche Fälle machen deutlich: Kontextintegration ist notwendig, um treffende Produktseiten-Übersetzungen anzubieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Computerlinguistik: "Bordstein Sie Ihre Erwartung!"Schwestersprachen als Übersetzungshilfe 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Anzeige
Hardware-Angebote
  1. (u. a. Ryzen 5 5600X 358,03€)
  2. (reduzierte Überstände, Restposten & Co.)
  3. (u. a. PS5 + HD Kamera für 549,99€)

igor37 24. Jan 2020

Die Formulierungen sind definitiv besser, allerdings ist es nicht unbedingt...

Kofola 23. Jan 2020

An tschechisch scheitern sie alle. Die ergebnisse beim übersetzen sind kauderwelsch

amagol 23. Jan 2020

In der Theorie vielleicht, aber ohne Konkurrenz waere der Druck etwas besseres zu...

miauwww 23. Jan 2020

"Ihre Produkte übersetzen lassen" - Meinte wohl "Ihre Produktbeschreibungen...".

Anonymer Nutzer 23. Jan 2020

Trump ist gegen Außerirdsiche die aus Mexiko einwandern.


Folgen Sie uns
       


Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /