Original-URL des Artikels: https://www.golem.de/1006/75952.html    Veröffentlicht: 23.06.2010 08:18    Kurz-URL: https://glm.io/75952

Texterkennung

Google Docs mit OCR

Google hat in seiner Onlinetextverarbeitung "Texte & Tabellen" (Google Docs) nun eine Funktion freigeschaltet, mit der Texte aus hochgeladenen Bildern und PDFs erkannt und in editierbaren Text umgewandelt werden.

Im Uploaddialog hat der Anwender nun die Wahl, Texte aus PDFs und Bilddateien in "Google Texte & Tabellen"-Dokumente zu konvertieren. Das Google-Docs-API unterstützt die optische Zeichenerkennung (OCR) seit Anfang Oktober 2009. Bei Google Docs selbst war die Texterkennung bislang nur als experimentelle Funktion verfügbar. Programmierer können die Funktion nutzen, um gescannte Texte per Upload zu Google direkt in die Onlinetextverarbeitung zu importieren. Dies nutzt zum Beispiel der FTP-Client Cyberduck für Mac OS X.

Google unterstützt Uploads als JPEGs, PNGs, GIFs und PDFs mit Bildern. Letztere werden häufig von Multifunktionsgeräten und Scannern bereitgestellt. Sie sind ohne Texterkennung jedoch nicht durchsuchbar. Die Texterkennung bei Google Docs läuft mittlerweile in wenigen Minuten durch.

Ein Buchstabe sollte nach Angaben von Google mindestens 10 Pixel hoch sein - und die Bilder möglichst schwarz-weiß oder in Graustufen vorliegen. Höhere Erkennungsraten konnte Golem.de bei kontrastreichen Scans erzielen. Als Auflösung haben sich 200 dpi als durchaus brauchbar erwiesen. Die Erkennungsraten sind selbst bei guten Vorlagen allerdings nur durchschnittlich.  (ad)


Verwandte Artikel:
Coda: Office-365-Alternative kommt ohne "Schiffe versenken" aus   
(24.10.2017, https://glm.io/130779 )
API von Google Docs unterstützt nun OCR und Übersetzungen   
(01.10.2009, https://glm.io/70180 )
Freie Texterkennung OCropus in erster Alpha veröffentlicht   
(24.10.2007, https://glm.io/55596 )
Phishing: Bösartige Google-Docs-Einladungen kopieren Kontakte   
(03.05.2017, https://glm.io/127628 )
Google vs. Microsoft: Wer braucht Office 2010?   
(12.05.2010, https://glm.io/75071 )

© 1997–2018 Golem.de, https://www.golem.de/