Abo
  • Services:
Anzeige
Project Naptha
Project Naptha (Bild: Project Naptha)

Project Naptha: Texterkennung im Browser erspart lästiges Abtippen

Mit dem Google-Chrome-Plugin Naptha können Texte aus Bilddateien kopiert werden. Das erspart mitunter viel Tipparbeit und funktioniert erstaunlich gut, wie ein Test von Golem.de zeigte. Der Text kann dabei sogar aus dem Bild entfernt werden.

Anzeige

Texte in Bilddateien sind im Web ständig zu finden - mit Project Naptha können sie bequem markiert und kopiert werden. Doch bevor die optische Zeichenerkennung möglich ist, muss der Text in den Bildern erst vom Hintergrund isoliert werden, was ein Algorithmus von Microsoft erledigt.

Der Text im Bild wird einfach mit der Maus markiert und kann nach kurzer Zeit kopiert oder mittels Google Translate sogar übersetzt werden. Das ist besonders bei asiatischen Webseiten interessant, auf denen häufig aus Layoutgründen Grafiken statt richtiger Texte eingesetzt werden. Selbst aus Comics oder gar Screenshots können mit dem Plugin Texte extrahiert werden. Schräg verlaufende Schrift bis zu einem Winkel von 30 Grad wird ebenfalls erkannt.

Project Naptha ist eine Entwicklung des MIT-Studenten Kevin "antimatter" Kwok. Napta ist mehr als eine reine OCR-Funktion, denn das System funktioniert auch bei Bildern, bei denen der Text vor einem Muster abgebildet ist.

Naptha löscht auch Texte aus Bildern

Die Text-Entfernungsfunktion zeigt, dass Project Naptha den Text im Bild zunächst isoliert. Das Entfernen funktioniert ähnlich wie die Photoshop-Funktion Content-Aware Fill. Die Identifizierung von Texten wird mit der Stroke Width Transform (SWT) von Microsoft Research durchgeführt. Dieser Algorithmus identifiziert Text anhand der Eigenschaft der meisten Schriftarten, gleiche Strichbreiten zu verwenden. Ist das geschehen, wird das Extrakt zu einem Webdienst für die optische Zeichenerkennung geschickt, der mit der Engine Ocrad läuft. Wer will, kann auch Googles Tesseract-Engine nutzen. Möglich ist auch eine Übersetzung des Textes, die dann anstelle des Originaltextes im Bild erscheint. Dabei versucht der Algorithmus, die Originalschrift nachzuahmen, doch das funktioniert nicht immer.

Gute Erkennungsrate

Im Test von Golem.de konnte Naptha durchaus überzeugen. In vielen Bildern wurden die Buchstaben korrekt erkannt, wobei besonders kleine Schriften naturgemäß größere Probleme verursachen. Auch sehr groß gestaltete Texte sind ein Hindernis für das System, das aber für den Alltag ausreicht, wenn es zum Beispiel darum geht, aus Screenshots oder aus abfotografierten Texten den Inhalt zu extrahieren.

Die Google-Chrome-Extension Naptha ist derzeit kostenlos über Googles Webstore zu beziehen.


eye home zur Startseite
__destruct() 26. Apr 2014

Sorry, ich habe in meinem Post 13.04 geschrieben. Ich nutze aber 14.04 und dachte, du...

Avarion 24. Apr 2014

Danke dir. Werde ich mal probieren.

slashwalker 24. Apr 2014

Also bei mir nicht. Hab es gerade beim Denic Whois ausprobiert.

Himmerlarschund... 24. Apr 2014

Ich glaube, dieses Tool ist für Captchas nicht sonderlich sinnvoll. "Die Identifizierung...

81u3x4r 24. Apr 2014

Ah, hab das gar nicht versucht. Danke!



Anzeige

Stellenmarkt
  1. Interhyp Gruppe, München
  2. Daimler AG, Sindelfingen
  3. Schwarz IT Infrastructure & Operations Services GmbH & Co. KG, Neckarsulm
  4. Robert Bosch GmbH, Stuttgart-Feuerbach


Anzeige
Spiele-Angebote
  1. (-61%) 17,99€
  2. (u. a. Uncharted 4 34,99€, Ratchet & Clank 29,00€, The Last of Us Remastered 28,98€, The...
  3. 59,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       

  1. Petya-Variante

    Goldeneye-Ransomware verschickt überzeugende Bewerbungen

  2. Sony

    Mehr als 50 Millionen Playstation 4 verkauft

  3. Weltraumroboter

    Ein R2D2 für Satelliten

  4. 300 MBit/s

    Warum Super Vectoring bei der Telekom noch so lange dauert

  5. Verkehrssteuerung

    Audi vernetzt Autos mit Ampeln in Las Vegas

  6. Centriq 2400

    Qualcomm zeigt eigene Server-CPU mit 48 ARM-Kernen

  7. VG Wort Rahmenvertrag

    Unis starten in die Post-Urheberrecht-Ära

  8. Ultrastar He12

    WD plant Festplatten mit bis zu 14 Terabyte

  9. LG

    Weitere Hinweise auf Aufgabe des bisherigen Modulsystems

  10. Onlinewerbung

    Forscher stoppen monatelange Malvertising-Kampagne



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Nach Angriff auf Telekom: Mit dem Strafrecht Router ins Terrorcamp schicken oder so
Nach Angriff auf Telekom
Mit dem Strafrecht Router ins Terrorcamp schicken oder so
  1. Red Star OS Sicherheitslücke in Nordkoreas Staats-Linux
  2. 0-Day Tor und Firefox patchen ausgenutzten Javascript-Exploit
  3. Pornoseite Xhamster spricht von Fake-Leak

Gear S3 im Test: Großes Display, großer Akku, große Uhr
Gear S3 im Test
Großes Display, großer Akku, große Uhr
  1. In der Zuliefererkette Samsung und Panasonic sollen Arbeiter ausgebeutet haben
  2. Vernetztes Auto Samsung kauft Harman für 8 Milliarden US-Dollar
  3. 10LPU und 14LPU Samsung mit günstigerem 10- und schnellerem 14-nm-Prozess

Robot Operating System: Was Bratwurst-Bot und autonome Autos gemeinsam haben
Robot Operating System
Was Bratwurst-Bot und autonome Autos gemeinsam haben
  1. Roboterarm Dobot M1 - der Industrieroboter für daheim
  2. Roboter Laundroid faltet die Wäsche
  3. Fahrbare Roboter Japanische Firmen arbeiten an Transformers

  1. Re: Und jetzt Tie-Fighter bitte komplett in VR... o.0

    otraupe | 17:11

  2. Re: Ergänzung...

    Muhaha | 17:11

  3. Re: Mal weiterdenken...

    Muhaha | 17:09

  4. Personalabteilungen sind ein Super Ziel

    Mopsmelder500 | 17:08

  5. Re: Die Gefahr ist dennoch real!

    IchBIN | 17:06


  1. 17:04

  2. 16:33

  3. 16:10

  4. 15:54

  5. 15:50

  6. 15:40

  7. 15:34

  8. 14:43


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel