Anzeige
Project Naptha
Project Naptha (Bild: Project Naptha)

Project Naptha: Texterkennung im Browser erspart lästiges Abtippen

Mit dem Google-Chrome-Plugin Naptha können Texte aus Bilddateien kopiert werden. Das erspart mitunter viel Tipparbeit und funktioniert erstaunlich gut, wie ein Test von Golem.de zeigte. Der Text kann dabei sogar aus dem Bild entfernt werden.

Anzeige

Texte in Bilddateien sind im Web ständig zu finden - mit Project Naptha können sie bequem markiert und kopiert werden. Doch bevor die optische Zeichenerkennung möglich ist, muss der Text in den Bildern erst vom Hintergrund isoliert werden, was ein Algorithmus von Microsoft erledigt.

Der Text im Bild wird einfach mit der Maus markiert und kann nach kurzer Zeit kopiert oder mittels Google Translate sogar übersetzt werden. Das ist besonders bei asiatischen Webseiten interessant, auf denen häufig aus Layoutgründen Grafiken statt richtiger Texte eingesetzt werden. Selbst aus Comics oder gar Screenshots können mit dem Plugin Texte extrahiert werden. Schräg verlaufende Schrift bis zu einem Winkel von 30 Grad wird ebenfalls erkannt.

Project Naptha ist eine Entwicklung des MIT-Studenten Kevin "antimatter" Kwok. Napta ist mehr als eine reine OCR-Funktion, denn das System funktioniert auch bei Bildern, bei denen der Text vor einem Muster abgebildet ist.

Naptha löscht auch Texte aus Bildern

Die Text-Entfernungsfunktion zeigt, dass Project Naptha den Text im Bild zunächst isoliert. Das Entfernen funktioniert ähnlich wie die Photoshop-Funktion Content-Aware Fill. Die Identifizierung von Texten wird mit der Stroke Width Transform (SWT) von Microsoft Research durchgeführt. Dieser Algorithmus identifiziert Text anhand der Eigenschaft der meisten Schriftarten, gleiche Strichbreiten zu verwenden. Ist das geschehen, wird das Extrakt zu einem Webdienst für die optische Zeichenerkennung geschickt, der mit der Engine Ocrad läuft. Wer will, kann auch Googles Tesseract-Engine nutzen. Möglich ist auch eine Übersetzung des Textes, die dann anstelle des Originaltextes im Bild erscheint. Dabei versucht der Algorithmus, die Originalschrift nachzuahmen, doch das funktioniert nicht immer.

Gute Erkennungsrate

Im Test von Golem.de konnte Naptha durchaus überzeugen. In vielen Bildern wurden die Buchstaben korrekt erkannt, wobei besonders kleine Schriften naturgemäß größere Probleme verursachen. Auch sehr groß gestaltete Texte sind ein Hindernis für das System, das aber für den Alltag ausreicht, wenn es zum Beispiel darum geht, aus Screenshots oder aus abfotografierten Texten den Inhalt zu extrahieren.

Die Google-Chrome-Extension Naptha ist derzeit kostenlos über Googles Webstore zu beziehen.


eye home zur Startseite
__destruct() 26. Apr 2014

Sorry, ich habe in meinem Post 13.04 geschrieben. Ich nutze aber 14.04 und dachte, du...

Avarion 24. Apr 2014

Danke dir. Werde ich mal probieren.

slashwalker 24. Apr 2014

Also bei mir nicht. Hab es gerade beim Denic Whois ausprobiert.

Himmerlarschund... 24. Apr 2014

Ich glaube, dieses Tool ist für Captchas nicht sonderlich sinnvoll. "Die Identifizierung...

81u3x4r 24. Apr 2014

Ah, hab das gar nicht versucht. Danke!

Kommentieren



Anzeige

  1. Mitarbeiter 2nd-Level-Support (m/w)
    KREMPEL GmbH, Vaihingen an der Enz
  2. Software Testingenieur (m/w) Fahrerassistenzsysteme
    Continental AG, Lindau
  3. Produktsoftware-Entwickler/in
    Robert Bosch GmbH, Tamm
  4. Mitarbeiter/-in Automatisierte Softwareverteilung
    Dataport, Hamburg, Altenholz bei Kiel, Bremen, Magdeburg

Detailsuche



Anzeige
Top-Angebote
  1. JETZT VERFÜGBAR: Total War: WARHAMMER
    54,99€
  2. TIPP: Zotac Geforce GTX970
    259,00€ (Vergleichspreis: 290,04€)
  3. NEU: Geforce GTX 1080 Info-Seite
    ab 27.05. verfügbar

Weitere Angebote


Folgen Sie uns
       

  1. Hyperloop

    HTT will seine Rohrpostzüge aus Marvel-Material bauen

  2. Smartwatches

    Pebble 2 und Pebble Time 2 mit Pulsmesser

  3. Kickstarter

    Pebble Core als GPS-Anhänger für Hacker und Sportler

  4. Virtual Reality

    Facebook kauft Two Big Ears für 360-Grad-Sound

  5. Wirtschaftsminister Olaf Lies

    Beirat der Bundesnetzagentur gegen exklusives Vectoring

  6. Smartphone-Betriebssystem

    Microsoft verliert stark gegenüber Google und Apple

  7. Onlinehandel

    Amazon startet eigenen Paketdienst in Berlin

  8. Pastejacking im Browser

    Codeausführung per Copy and Paste

  9. Manuela Schwesig

    Familienministerin will den Jugendschutz im Netz neu regeln

  10. Intels Compute Stick im Test

    Der mit dem Lüfter streamt (2)



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Doom im Test: Die beste blöde Ballerorgie
Doom im Test
Die beste blöde Ballerorgie
  1. id Software Doom wird Vulkan unterstützen
  2. Id Software PC-Spieler müssen 45 GByte von Steam laden
  3. id Software Dauertod in Doom

Darknet: Die gefährlichen Anonymitätstipps der Drogenhändler
Darknet
Die gefährlichen Anonymitätstipps der Drogenhändler
  1. Privatsphäre 1 Million Menschen nutzen Facebook über Tor
  2. Security Tor-Nutzer über Mausrad identifizieren

Privacy-Boxen im Test: Trügerische Privatheit
Privacy-Boxen im Test
Trügerische Privatheit
  1. Hack von Rüstungskonzern Schweizer Cert gibt Security-Tipps für Unternehmen
  2. APT28 Hackergruppe soll CDU angegriffen haben
  3. Veröffentlichung privater Daten AfD sucht mit Kopfgeld nach "Datendieb"

  1. Re: "Vectoring ist Glasfaser"

    LinuxMcBook | 21:24

  2. Re: 5 Jahre hab ich gewartet

    Braineh | 21:23

  3. Re: Microsoft hat zwei Fehler gemacht

    Braineh | 21:21

  4. Re: Das wichtigste Feature geht im Text fast unter...

    kvoram | 21:13

  5. Re: sowas kommt von sowas

    476f6c656d | 21:11


  1. 19:01

  2. 18:03

  3. 17:17

  4. 17:03

  5. 16:58

  6. 14:57

  7. 14:31

  8. 13:45


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel