Amazon: Texterkennung soll künftig auch krumme Texte lesen können

Optical Character Recognition ist praktisch, solange der Text schön gerade ist. Bei krummer Schrift und Logos haben diese Systeme noch Probleme. Das wollen Amazon-Forscher ändern, indem sie einen Zwischenschritt entwerfen, der die Form eines Schriftzuges als Rahmen erkennt.

Artikel veröffentlicht am ,
OCR soll künftig auch solch krumme Schriften erkennen.
OCR soll künftig auch solch krumme Schriften erkennen. (Bild: Amazon)

Amazon entwickelt derzeit eine Methode, mit der Machine-Learning-Software Text auch dann erkennt, wenn er nicht gerade angeordnet ist. Bisher ist genau diese Voraussetzung für eine Limitation von Optical Character Recognition (OCR), also das Erkennen von Text durch aufgenommenes Bild- und Videomaterial. Die Forscher beschreiben ihre Arbeit in einem wissenschaftlichen Papier, das auf Arxiv.org (PDF) angeschaut werden kann.

Stellenmarkt
  1. Senior Financial IT Expert (w/m/d)
    CureVac Corporate Services GmbH, Tübingen bei Stuttgart
  2. Applikationsbetreuer*in CRM-System Vertrieb
    Kölner Verkehrs-Betriebe AG, Köln
Detailsuche

Amazons neues System rahmt dafür erkannten Text zunächst in virtuelle Röhren ein, die sich der Textausrichtung anpassen. Der Mittelpunkt des Textes ist dabei das Zentrum des Zylinders. Damit ist es möglich, beispielsweise Schrift zu erkennen, die in einem Kreis um ein Schild herum angeordnet ist. Auch asymmetrische Schriftzüge, die nicht horizontal stehen, sind damit erkennbar. Die virtuellen Rahmen können einem OCR-Algorithmus als zusätzliche Parameter übergeben werden. Dieser kann sich an den Linien der Röhre orientieren und weiß damit, an welcher Stelle des Bildes Text erwartet wird.

Zwei neuronale Netzwerke für OCR

Die Wissenschaftler teilen OCR-Software künftig also in zwei Teilaufgaben auf. Zuerst wird ein neuronales Netzwerk trainiert, welches nur den Text an sich und dessen Position im Bild erkennt. Dieses Netzwerk muss nicht wissen, was der erkannte Text aussagt. Es muss allerdings zuverlässig erkennen, wo dieser beginnt und wo er aufhört. Ein zweites neuronales Netzwerk nutzt dann die Parameter des vorangegangenen Schrittes, um den Text in verwendbare Symbole umzuwandeln.

Dass diese Limitation übergangen werden kann, ist gerade im Bereich der Erkennung von Logos und von Schildern in der echten Welt von Vorteil. Gerade Schriftzzüge von Unternehmen und Marken sind oft in einer möglichst ausgefallenen Weise als Logo dargestellt. Die Forscher nennen als Beispiel den Schriftzug von Tabasco-Sauce. Auch Text auf Geldmünzen ist oft nicht gerade aufgepresst, sondern entlang der Kante angeordnet. Mit neuen Methoden wie dieser könnte OCR also künftig in vielen weiteren Anwendungen zu finden sein - sei es zum automatisierten Erkennen von Bargeld oder in autonomen Autos, die Schilder lesen können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


1st1 28. Dez 2019

Siehst du, du kennst dich nicht aus. Vieles ist schon gescannt und es ist ein laufender...

flyhigh79 27. Dez 2019

Der Schnelltest bestätigt deinen Verdacht: Google Lens erkennt die Schrift in dem...

konglumerat 27. Dez 2019

hatte fast den gleichen gedanken, ob das nicht anwendung in genau den falschen händen...



Aktuell auf der Startseite von Golem.de
Digitale Dienste und Märkte
Wie DSA und DMA umgesetzt werden

Die Verordnungen über digitale Dienste und Märkte sind inzwischen in Kraft getreten. An ihrer Umsetzung können Interessenvertreter sich noch beteiligen.
Ein Bericht von Friedhelm Greis

Digitale Dienste und Märkte: Wie DSA und DMA umgesetzt werden
Artikel
  1. Cosmoteer im Test: Factorio im Weltraum
    Cosmoteer im Test
    Factorio im Weltraum

    Eine einzige Person hat über viele Jahre die Sandbox Cosmoteer entwickelt. Dort bauen wir Raumschiffe und kämpfen im All. Achtung, Suchtpotenzial!
    Ein Test von Oliver Nickel

  2. 25 Jahre Mars Attacks!: Aus irgendeinem merkwürdigen Grund fehl am Platz
    25 Jahre Mars Attacks!
    "Aus irgendeinem merkwürdigen Grund fehl am Platz"

    Viele Amerikaner fanden Tim Burtons Mars Attacks! nicht so witzig, aber der Rest der Welt lacht umso mehr - bis heute, der Film ist grandios gealtert.
    Von Peter Osteried

  3. Energiekrise: Cern schickt LHC früher in die Winterpause
    Energiekrise
    Cern schickt LHC früher in die Winterpause

    Der französische Energieversorger EDF hat das Cern um eine Verkürzung der Laufzeit gebeten. Auch im kommenden Jahr wird der LHC kürzer in Betrieb sein.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Black Friday bei Mindfactory, MediaMarkt & Saturn • Prime-Filme leihen für je 0,99€ • WD_BLACK SN850 1TB 129€ • GIGABYTE Z690 AORUS ELITE 179€ • SanDisk SSD Plus 1TB 59€ • Crucial P3 Plus 1TB 81,99 • Mindfactory: XFX Speedster ZERO RX 6900 XT RGB EKWB Waterblock LE 809€ [Werbung]
    •  /