Schwestersprachen als Übersetzungshilfe

Schon vor zehn Jahren wurden wissenschaftliche Abhandlungen zur Kontexterfassung bei Übersetzungen verfasst. Und noch immer ist genau diese Kontexterfassung eine der zentralen Aufgaben von Hagen Fürstenau - und seiner internationalen Konkurrenz. "Die Systeme arbeiten meistens noch auf Satzebene und sehen sich nicht das gesamte Dokument an. Der nächste Schritt in der Forschung ist, vom einzelnen Satz zum Gesamtdokument überzugehen", sagt er.

Stellenmarkt
  1. Kubernetes Engineer (m/w/d)
    LexCom Informationssysteme GmbH, München
  2. Abteilungsleitung (m/w/d) Softwareentwicklung
    KDO Service GmbH, Oldenburg
Detailsuche

Die technische Herausforderung liegt darin, Informationen einzubeziehen, mit deren Hilfe das Programm registriert, wenn es sich etwa um Merchandise handelt. "Es gibt schon solche Ansätze", sagt Fürstenau. "Man geht schrittweise vor und bezieht bei Dokumenten die Sätze vorher und nachher mit ein. Oder das Programm versucht, Zusatzinformationen über den Artikel zu finden."

Dies könnten Rubriken oder Seitentitel sein. Ein anderer Ansatz sei, mit den Kollegen der Bildverarbeitung zusammenzuarbeiten. Erkenne das System, dass es sich um eine Tasse mit Aufdruck handelt, könne es dieses Wissen in die Übersetzung miteinbeziehen. Weiter nutze man bekannte Techniken wie das Training eines Named-Entity-Recognition-Systems mit entsprechenden Schriftsätzen, in denen Eigennamen als solche benannt werden.

Wenn wenige Daten in einer Sprache wie Afrikaans vorliegen, hilft es, Daten von einer verwandten Sprache wie Niederländisch hinzuzuziehen. Damit die Übersetzungen nicht die falsche Sprache ausgeben, haben die Forscher dem System beigebracht, die Daten zwar zu nutzen, um Strukturen zu erkennen, aber dabei zu registrieren, dass es sich um eine andere Sprache handelt.

Golem Akademie
  1. First Response auf Security Incidents: Ein-Tages-Workshop
    4. März 2022, Virtuell
  2. PowerShell Praxisworkshop: virtueller Vier-Tage-Workshop
    20.–23. Dezember 2021, virtuell
Weitere IT-Trainings

Lösungswege wie diesen teilt Fürstenaus Team meist als Open-Source-Code auf Github. Amazon Translate basiert auf einer internen Version des frei verfügbaren Übersetzungssystems Sockeye.

  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • Machine-Learning- und Linguistikfachmann Hagen Fürstenau in seinem Büro (Foto: Maja Hoock)
  • In einem Berliner Büro von Amazon: Jedes Puzzleteil steht für ein erteiltes Patent. (Foto: Maja Hoock)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
  • Screenshot aus dem Übersetzungsprogramm von Amazon (Bild: Amazon)
In einem Berliner Büro von Amazon: Jedes Puzzleteil steht für ein erteiltes Patent. (Foto: Maja Hoock)

"Wir sind auf den Austausch mit anderen Forschern und Universitäten angewiesen, teilen viele unserer Ergebnisse und nehmen auch gerne Verbesserungen von anderen auf", sagt Fürstenau. Doch nicht immer ist die Forschung erfolgreich: "Oft kann so ein Prozess Monate dauern. Es gibt Fehlschläge und ab und zu muss man Ansätze nach Monaten der Arbeit wieder verwerfen. Das ist eben das Risiko, wenn man in der Forschung arbeitet." Trotzdem sei seine Arbeit sehr befriedigend - wenn sein Team eine Verbesserung entwickelt habe, die die Nutzer direkt anwendeten.

Darum appelliert Fürstenau, dass sich mehr Experten in dem Bereich ausbilden lassen. Jenen wenigen Menschen, die Sprachen, Mathematik und Machine Learning gleichermaßen lieben, könnte in den nächsten Jahren die Welt zu Füßen liegen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Context is key
  1.  
  2. 1
  3. 2
  4. 3


igor37 24. Jan 2020

Die Formulierungen sind definitiv besser, allerdings ist es nicht unbedingt...

Kofola 23. Jan 2020

An tschechisch scheitern sie alle. Die ergebnisse beim übersetzen sind kauderwelsch

amagol 23. Jan 2020

In der Theorie vielleicht, aber ohne Konkurrenz waere der Druck etwas besseres zu...

miauwww 23. Jan 2020

"Ihre Produkte übersetzen lassen" - Meinte wohl "Ihre Produktbeschreibungen...".

Anonymer Nutzer 23. Jan 2020

Trump ist gegen Außerirdsiche die aus Mexiko einwandern.



Aktuell auf der Startseite von Golem.de
Fälschung
Wieder Abmahnungen wegen Youporn-Streaming

Diesmal hat sich ein besonders dummer Betrüger an Abmahnungen zum Streaming bei Youporn versucht. In dem Brief stimmt fast keine Angabe.

Fälschung: Wieder Abmahnungen wegen Youporn-Streaming
Artikel
  1. Deutsche Telekom: Netflix, Facebook und Amazon sollen für Netzausbau zahlen
    Deutsche Telekom
    Netflix, Facebook und Amazon sollen für Netzausbau zahlen

    Deutsche Telekom, Vodafone und 11 weitere große europäische Netzbetreiber wollen jetzt Geld von den Content-Konzernen aus den USA sehen.

  2. Telekom-Internet-Booster: Feldtest bringt über 600 statt 50 MBit/s ins Haus
    Telekom-Internet-Booster
    Feldtest bringt über 600 statt 50 MBit/s ins Haus

    Die Telekom beginnt mit 5G DSL. Dafür wird im Haushalt eine Außenantenne benötigt.

  3. 800 MHz: Bundesnetzagentur dürfte nächste Auktion absagen
    800 MHz
    Bundesnetzagentur dürfte nächste Auktion absagen

    1&1 wird sich das neue Vorgehen nicht gefallen lassen. 800 MHz bietet wichtige Flächenfrequenzen auf dem Lande.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Heute ist Cyber Monday • AMD Ryzen 7 5800X 348€ • 3 für 2: Star Wars & Marvel • Bis 300€ Direktabzug auf TVs, Laptops uvm. • Bis 50% auf beyerdynamic + Gratis-Kopfhörer • Cyber Monday bei MM/Saturn (u. a. Xiaomi 11 Lite 5G 299€) • Alternate (u. a. be quiet CPU-Kühler 29,99€) [Werbung]
    •  /