Context is key

Nur eine der schallgeschützten Telefonboxen in den Büroräumen ist um 10 Uhr vormittags schon besetzt. Hagen Fürstenaus Team beginnt in der Regel spät und geht spät nach Hause, angepasst an die Zeitzonen der Kollegen in Seattle, Los Angeles, Boston und New York.

Stellenmarkt
  1. Projektmanager Digitalisierungsprojekte (m/w/d)
    Helios IT Service GmbH, Berlin, deutschlandweit
  2. Bilanzkreismanager (m/w/d)
    VSE Aktiengesellschaft, Saarbrücken
Detailsuche

Zusammen sitzen sie an den großen Problemen maschineller Übersetzung, etwa an Bedeutungsunterschieden wie beim Wort absetzen, das auf Englisch to deduct, to drop off oder to settle heißen könnte. "Das Spannende dabei ist, dass wir nicht manuell Regeln ins System gefüttert haben, sondern dass es die unterschiedlichen Bedeutungen selbst gelernt hat", erklärt Fürstenau.

Die technische Umsetzung mit Machine Learning funktioniert in diesem Fall mit großen Datenmengen öffentlich zugänglicher deutscher Texte und ihren Übersetzungen, wie etwa Debatten des EU-Parlaments, die in allen europäischen Sprachen publiziert werden. Die Algorithmen zu verändern, sich neue auszudenken und zu überlegen, welche Daten man der KI zum Lernen gibt, gehört zu den Aufgaben der Forscher, wenn sie das System verbessern wollen.

  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • In einem Berliner Büro von Amazon: Jedes Puzzleteil steht für ein erteiltes Patent. (Foto: Maja Hoock)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)

Die neuronalen Netze, die hinter den sprachverarbeitenden Systemen stehen, stellen automatisch Millionen von neuen Parametern im System ein und sind damit in der Lage, neue Inhalte zu übersetzen. Anschließend werden Testnutzer zur Qualität der Übersetzungen befragt. Daraus errechnet das Team einen Prozentsatz, um wie viel besser die Ergebnisse sind. Ist dieser signifikant genug, geht die Lösung ins Live-System.

Golem Akademie
  1. AZ-104 Microsoft Azure Administrator: virtueller Vier-Tage-Workshop
    13.–16. Dezember 2021, virtuell
  2. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    16.–17. Dezember 2021, virtuell
Weitere IT-Trainings

"Umgekehrt heißt das aber auch, dass es schwieriger ist, Fehler zu beheben. Man kann nicht einfach manuell eine Regel hinzufügen oder korrigieren", sagt Fürstenau. Die Forscher können also nicht direkt festschreiben, dass absetzen in Kombination mit dem Wort Paket drop off heißt. Sie müssen die KI stattdessen mit mehr Texten versorgen, die entsprechende Satzbeispiele enthalten.

Verschwendet die Methode Ressourcen?

Viele unterschiedliche Datensätze auszuprobieren, bringt im Machine Learning auch Probleme mit sich. Kritik zieht sich unter Schlagworten wie "Overfitting" seit Jahren durch die Forschung. KI-Anwendungen dieser Art erfordern einerseits eine große Rechenkapazität, weshalb der Trial-and-Error-Methode der Vorwurf der Ressourcenverschwendung entgegengehalten wird. Amazon Web Services bezieht zumindest die Hälfte des benötigten Stroms aus erneuerbaren Energien und soll laut Climate Pledge bis 2040 klimaneutral werden.

Zum anderen besteht die Gefahr, unzulässige wissenschaftliche Schlüsse zu ziehen. Hagen Fürstenau sagt dazu: "Neuronale Netze und Deep-Learning-Modelle, wie sie in den letzten Jahren entwickelt wurden, sind sehr viel komplexer als ältere Verfahren, was zu beeindruckenden Qualitätsverbesserungen geführt hat, aber auch solche Risiken erhöht. Daher ist die Kritik im Prinzip nicht unbegründet und auch regelmäßig Gegenstand von Fachdiskussionen."

Allerdings halte sich die Problematik in seinem Forschungsbereich in Grenzen, da sein Team nicht von neuen technischen Methoden oder zufälligen Variationen davon ausgehe, sondern von einem konkreten Anliegen der Kunden wie einer fehlerhaften Übersetzung. Davon ausgehend versuche er, einen technischen Ansatz zu identifizieren, der dieses Problem löse. "Dadurch können wir das Risiko, zufälligen Verbesserungen aufzusitzen, in der Regel ausschließen, denn am Ende ist für uns ein Forschungsthema nicht erfolgreich bearbeitet, wenn es lediglich abstrakte Zahlen in einer Publikation verbessert, sondern nur, wenn es dem Kunden spürbare Verbesserungen gebracht hat", sagt Fürstenau.

Nicht immer klappt das. Die Grenzen des Systems werden zum Beispiel deutlich, wenn man eine Merchandise-Tasse der eigenen Lieblingsserie auf Amazon aufruft. So wurde die Beschriftung "Curb Your Enthusiasm" auf einer privaten Produktseite zu "Bordstein Sie Ihre Erwartung". Das System erkannte weder, dass es sich um den Titel einer Serie handelt, noch bot es die korrekte Übersetzung an, also "Zügle deine Begeisterung". Mit dem deutschen Titel der Serie konnte es erst recht nicht dienen, der "Lass es, Larry!" lautet. Die Seite ist mittlerweile nicht mehr zu finden, aber solche und ähnliche Fälle machen deutlich: Kontextintegration ist notwendig, um treffende Produktseiten-Übersetzungen anzubieten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Computerlinguistik: "Bordstein Sie Ihre Erwartung!"Schwestersprachen als Übersetzungshilfe 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


igor37 24. Jan 2020

Die Formulierungen sind definitiv besser, allerdings ist es nicht unbedingt...

Kofola 23. Jan 2020

An tschechisch scheitern sie alle. Die ergebnisse beim übersetzen sind kauderwelsch

amagol 23. Jan 2020

In der Theorie vielleicht, aber ohne Konkurrenz waere der Druck etwas besseres zu...

miauwww 23. Jan 2020

"Ihre Produkte übersetzen lassen" - Meinte wohl "Ihre Produktbeschreibungen...".

Anonymer Nutzer 23. Jan 2020

Trump ist gegen Außerirdsiche die aus Mexiko einwandern.



Aktuell auf der Startseite von Golem.de
Softwarepatent
Uraltpatent könnte Microsoft Millionen kosten

Microsoft hat eine Klage um ein Software-Patent vor dem BGH verloren. Das Patent beschreibt Grundlagentechnik und könnte zahlreiche weitere Cloud-Anbieter betreffen.
Ein Bericht von Stefan Krempl

Softwarepatent: Uraltpatent könnte Microsoft Millionen kosten
Artikel
  1. Fusionsgespräche: Orange und Vodafone wollten zusammengehen
    Fusionsgespräche
    Orange und Vodafone wollten zusammengehen

    Die führenden Netzbetreiber in Europa wollen immer wieder eine Fusion. Auch aus den letzten Verhandlungen wurde jedoch bisher nichts.

  2. Krypto: Angeblicher Nakamoto darf 1,1 Millionen Bitcoin behalten
    Krypto
    Angeblicher Nakamoto darf 1,1 Millionen Bitcoin behalten

    Ein Gericht hat entschieden, dass Craig Wright der Familie seines Geschäftspartners keine Bitcoins schuldet - kommt jetzt der Beweis, dass er Satoshi Nakamoto ist?

  3. Ubisoft: Breakpoint bekommt Ausrüstung aus der Blockchain
    Ubisoft
    Breakpoint bekommt Ausrüstung aus der Blockchain

    Sogar eine Nummer ist digital eingraviert: Ubisoft startet in Ghost Recon Breakpoint ein Experiment mit einzigartigen Helmen und Waffen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MM Weihnachtsgeschenkt (u. a. 3 Spiele kaufen, nur 2 bezahlen) • PS5 & Xbox Series X mit o2-Vertrag bestellbar • Apple Days bei Saturn (u. a. MacBook Air M1 949€) • Switch OLED 349,99€ • Saturn-Advent: HP Reverb G2 + Controller 499,99€ • Logitech MX Keys Mini 89,99€ [Werbung]
    •  /