• IT-Karriere:
  • Services:

Amazon: Texterkennung soll künftig auch krumme Texte lesen können

Optical Character Recognition ist praktisch, solange der Text schön gerade ist. Bei krummer Schrift und Logos haben diese Systeme noch Probleme. Das wollen Amazon-Forscher ändern, indem sie einen Zwischenschritt entwerfen, der die Form eines Schriftzuges als Rahmen erkennt.

Artikel veröffentlicht am ,
OCR soll künftig auch solch krumme Schriften erkennen.
OCR soll künftig auch solch krumme Schriften erkennen. (Bild: Amazon)

Amazon entwickelt derzeit eine Methode, mit der Machine-Learning-Software Text auch dann erkennt, wenn er nicht gerade angeordnet ist. Bisher ist genau diese Voraussetzung für eine Limitation von Optical Character Recognition (OCR), also das Erkennen von Text durch aufgenommenes Bild- und Videomaterial. Die Forscher beschreiben ihre Arbeit in einem wissenschaftlichen Papier, das auf Arxiv.org (PDF) angeschaut werden kann.

Stellenmarkt
  1. InnoGames GmbH, Hamburg
  2. Schöck Bauteile GmbH, Baden-Baden

Amazons neues System rahmt dafür erkannten Text zunächst in virtuelle Röhren ein, die sich der Textausrichtung anpassen. Der Mittelpunkt des Textes ist dabei das Zentrum des Zylinders. Damit ist es möglich, beispielsweise Schrift zu erkennen, die in einem Kreis um ein Schild herum angeordnet ist. Auch asymmetrische Schriftzüge, die nicht horizontal stehen, sind damit erkennbar. Die virtuellen Rahmen können einem OCR-Algorithmus als zusätzliche Parameter übergeben werden. Dieser kann sich an den Linien der Röhre orientieren und weiß damit, an welcher Stelle des Bildes Text erwartet wird.

Zwei neuronale Netzwerke für OCR

Die Wissenschaftler teilen OCR-Software künftig also in zwei Teilaufgaben auf. Zuerst wird ein neuronales Netzwerk trainiert, welches nur den Text an sich und dessen Position im Bild erkennt. Dieses Netzwerk muss nicht wissen, was der erkannte Text aussagt. Es muss allerdings zuverlässig erkennen, wo dieser beginnt und wo er aufhört. Ein zweites neuronales Netzwerk nutzt dann die Parameter des vorangegangenen Schrittes, um den Text in verwendbare Symbole umzuwandeln.

Dass diese Limitation übergangen werden kann, ist gerade im Bereich der Erkennung von Logos und von Schildern in der echten Welt von Vorteil. Gerade Schriftzzüge von Unternehmen und Marken sind oft in einer möglichst ausgefallenen Weise als Logo dargestellt. Die Forscher nennen als Beispiel den Schriftzug von Tabasco-Sauce. Auch Text auf Geldmünzen ist oft nicht gerade aufgepresst, sondern entlang der Kante angeordnet. Mit neuen Methoden wie dieser könnte OCR also künftig in vielen weiteren Anwendungen zu finden sein - sei es zum automatisierten Erkennen von Bargeld oder in autonomen Autos, die Schilder lesen können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 25€ (ohne Prime oder unter 29€ zzgl. Versand) - Bestpreis mit Saturn, Vergleichspreis 40€
  2. 18€ (ohne Prime oder unter 29€ zzgl. Versand) - Vergleichspreis 35,99€
  3. (u. a. Transformers 1-4 und Die Tribute von Panem - The Hunger Games 4K für je 12€ und Football...

1st1 28. Dez 2019 / Themenstart

Siehst du, du kennst dich nicht aus. Vieles ist schon gescannt und es ist ein laufender...

flyhigh79 27. Dez 2019 / Themenstart

Der Schnelltest bestätigt deinen Verdacht: Google Lens erkennt die Schrift in dem...

konglumerat 27. Dez 2019 / Themenstart

hatte fast den gleichen gedanken, ob das nicht anwendung in genau den falschen händen...

Kommentieren


Folgen Sie uns
       


Alienware Concept Ufo - Hands on (CES 2020)

Das Handheld-Konzept von Dell ähnelt dem der Switch, das Alienware Concept Ufo eignet sich aber eher für ernsthafte Gamer.

Alienware Concept Ufo - Hands on (CES 2020) Video aufrufen
Support-Ende von Windows 7: Für wen Linux eine Alternative zu Windows 10 ist
Support-Ende von Windows 7
Für wen Linux eine Alternative zu Windows 10 ist

Windows 7 erreicht sein Lebensende (End of Life) und wird von Microsoft künftig nicht mehr mit Updates versorgt. Lohnt sich ein Umstieg auf Linux statt auf Windows 10? Wir finden: in den meisten Fällen schon.
Von Martin Loschwitz

  1. Lutris EA verbannt offenbar Linux-Gamer aus Battlefield 5
  2. Linux-Rechner System 76 will eigene Laptops bauen
  3. Grafiktreiber Nvidia will weiter einheitliches Speicher-API für Linux

Sicherheitslücken: Microsoft-Parkhäuser ungeschützt im Internet
Sicherheitslücken
Microsoft-Parkhäuser ungeschützt im Internet

Eigentlich sollte die Parkhaussteuerung nicht aus dem Internet erreichbar sein. Doch auf die Parkhäuser am Microsoft-Hauptsitz in Redmond konnten wir problemlos zugreifen. Nicht das einzige Sicherheitsproblem auf dem Parkhaus-Server.
Von Moritz Tremmel

  1. Datenleck Microsoft-Datenbank mit 250 Millionen Support-Fällen im Netz
  2. Office 365 Microsoft testet Werbebanner in Wordpad für Windows 10
  3. Application Inspector Microsoft legt Werkzeug zur Code-Analyse offen

Amazon, Netflix und Sky: Disney bringt 2020 den großen Umbruch beim Videostreaming
Amazon, Netflix und Sky
Disney bringt 2020 den großen Umbruch beim Videostreaming

In diesem Jahr wird sich der Video-Streaming-Markt in Deutschland stark verändern. Der Start von Disney+ setzt Netflix, Amazon und Sky gehörig unter Druck. Die ganz großen Umwälzungen geschehen vorerst aber woanders.
Eine Analyse von Ingo Pakalski

  1. Peacock NBC Universal setzt gegen Netflix auf Gratis-Streaming
  2. Joyn Plus+ Probleme bei der Kündigung
  3. Android TV Magenta-TV-Stick mit USB-Anschluss vergünstigt erhältlich

    •  /