• IT-Karriere:
  • Services:

Sprachverarbeitung: Sorben bauen sich Machine-Learning-Übersetzer selbst

Großen IT-Unternehmen fehlt oft das Interesse zur Unterstützung kleiner Sprachen. Dank Deep Learning helfen sich die Sorben nun selbst.

Artikel veröffentlicht am , / dpa
Moderne Technik kann Übersetzungen deutlich vereinfachen.
Moderne Technik kann Übersetzungen deutlich vereinfachen. (Bild: Quinn Dombrowski/Flickr.com/CC-BY-SA 2.0)

Diese drei Worte waren der Durchbruch: "Ja sym doma" - mit dem Erlernen dieses Satzes hat die Geschichte des ersten digitalen sorbischen Übersetzungsprogramms begonnen. "Ich bin zu Hause" überträgt der virtuelle Dolmetscher in Echtzeit ins Deutsche. Nach zwei Jahren Projektarbeit ist Sotra nun online gegangen. "Wir haben eine große Vision, dass mit technologischer Hilfe Menschen in der Lage sind, ihre Muttersprache zu sprechen, auch wenn Leute dabei sind, die kein Sorbisch können. Wir setzen gerade die einzelnen Bausteine dieser Vision zusammen", sagte Jan Budar, Direktor der Stiftung für das sorbische Volk, bei der Vorstellung der digitalen Plattform am Montag.

Stellenmarkt
  1. Hottgenroth Software GmbH & Co. KG, Münster
  2. über duerenhoff GmbH, Raum Weil am Rhein

Sotra ist die Abkürzung für Sorbian Translator. Dahinter stehen 200.000 obersorbisch-deutsche Satzpaare aus unterschiedlichen Lebensbereichen mit reichhaltigem Vokabular und vielfältigen grammatischen Formen. Doch das ist erst der Anfang. "Wir müssen die Sammlung brauchbarer Sätze beschleunigen. Dazu brauchen wir die Öffentlichkeit und die Hilfe aus der Wissenschaft", sagte Marion Kremer, sprachwissenschaftliche Beraterin des Projekts.

Es sei sowohl der Zugang zu allen offiziellen zweisprachigen Materialien wichtig als auch die Einbindung der sorbischen Sprachgemeinschaft, um die Sotra-Datenbank weiter mit Materialien zu füttern. Technisch basiert Sotra auf der Open-Source-Übersetzungssoftware Moses sowie OpenNMT, einem System zur maschinellen Übersetzung auf Grundlage neuronaler Netze.

"Sotra mit allen Vorarbeiten ist eine perfekte Grundlage für eine weitere Integration in Plattformen aller großen Hersteller", sagte Microsoft-Vertreter Thomas Langkabel. Das Technologieunternehmen gab 2014 den Anstoß für die Sammlung zweisprachiger Texte für das Übersetzungsprogramm Obersorbisch-Deutsch. Entscheidend sei eine ausreichend große Menge an Daten, um die Systeme in der Sprache zu trainieren. Langkabel führte als Beispiel die Sprache der Inuit aus Kanada an. Seit Ende Januar ist Inuktitut im Microsoft Translator eingebunden, der in diesem Fall auf sieben Millionen Wortpaare zurückgreifen kann. Bis jetzt bietet zum Beispiel Facebook bei sorbischen Texten eine Übersetzung aus dem nahe verwandten Tschechischen oder auch Polnischen an, was das Ergebnis aber entsprechend verfälscht.

Golem Akademie
  1. Advanced Python - Fortgeschrittene Programmierthemen
    3./4. Mai 2021, online
  2. PostgreSQL Fundamentals
    15.-18. Juni 2021, online
Weitere IT-Trainings

Ganz aktuell hat das Projektteam zur Eigenentwicklung des Übersetzungsprogramms die Datenbank mit neuem Vokabular zu den Themen Impfen, Impfzentrum und Corona gespeist. Parallel zum Ausbau des bilingualen Korpus in Obersorbisch-Deutsch mit dem Ziel der künftigen Integration in den Microsoft Translator oder Google Translate soll ab 1. April 2021 mit dem Aufbau eines digitalen niedersorbischen Übersetzungsprogramms begonnen werden, kündigte Beate Brezan, Leiterin des Witaj-Zentrums, an. In der Einrichtung in Budyšin/Bautzen für den Erhalt und eine Revitalisierung der beiden sorbischen Sprachen laufen die Fäden für die Projekte zusammen.

Gefördert wird Sotra durch das sächsische Wissenschaftsministerium mit rund 140.000 Euro und dem Bund mit 72.000 Euro. "Das Projekt beweist, dass Digitalisierung ein wichtiger Faktor ist, um die Zweisprachigkeit der Oberlausitz für alle - Sorben und Nichtsorben - greifbarer zu machen", betonte Staatsministerin Barbara Klepsch. Nach offiziellen Angaben gibt es etwa 60.000 Sorben und Wenden, von denen zwei Drittel in Sachsen leben. Ihr Siedlungsgebiet liegt in Ostsachsen, die niedersorbisch sprechenden Wenden sind im Süden Brandenburgs beheimatet.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. PS5 + HD Kamera für 549,99€)

lestard 24. Mär 2021 / Themenstart

Was genau ist denn jetzt deine Kritik an dem Übersetzer?

Kommentieren


Folgen Sie uns
       


Gaming auf dem Chromebook ausprobiert

Wir haben uns Spielestreaming und natives Gaming auf dem Chromebook angesehen.

Gaming auf dem Chromebook ausprobiert Video aufrufen
Programm für IT-Jobeinstieg: Hoffen auf den Klebeeffekt
Programm für IT-Jobeinstieg
Hoffen auf den Klebeeffekt

Aktuell ist der Jobeinstieg für junge Ingenieure und Informatiker schwer. Um ihnen zu helfen, hat das Land Baden-Württemberg eine interessante Idee: Es macht sich selbst zur Zeitarbeitsfirma.
Ein Bericht von Peter Ilg

  1. Arbeitszeit Das Sechs-Stunden-Experiment bei Sipgate
  2. Neuorientierung im IT-Job Endlich mal machen!
  3. IT-Unternehmen Die richtige Software für ein Projekt finden

Weclapp-CTO Ertan Özdil: Wir dürfen nicht in Schönheit und Perfektion untergehen!
Weclapp-CTO Ertan Özdil
"Wir dürfen nicht in Schönheit und Perfektion untergehen!"

Der CTO von Weclapp träumt von smarter Software, die menschliches Eingreifen in der nächsten ERP-Generation reduziert. Deutschen Perfektionismus hält Ertan Özdil aber für gefährlich.
Ein Interview von Maja Hoock


    Fiat 500 als E-Auto im Test: Kleinstwagen mit großem Potenzial
    Fiat 500 als E-Auto im Test
    Kleinstwagen mit großem Potenzial

    Fiat hat einen neuen 500er entwickelt. Der Kleine fährt elektrisch - und zwar richtig gut.
    Ein Test von Peter Ilg

    1. Vierradlenkung Elektrischer GMC Hummer SUV fährt im Krabbengang seitwärts
    2. MG Cyberster MG B Roadster mit Lasergürtel und Union Jack
    3. Elektroauto E-Auto-Prämie übersteigt in 2021 schon Vorjahressumme

      •  /