Apache: Tika durchsucht 1.200 Dateiformate

Die Apache Software Foundation(öffnet im neuen Fenster) hat den Parser Tika 1.0 veröffentlicht(öffnet im neuen Fenster) . Tika ist Teil des Lucene-Projekts(öffnet im neuen Fenster) , das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.
Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI(öffnet im neuen Fenster) oder PDFBox(öffnet im neuen Fenster) .
Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr(öffnet im neuen Fenster) ein, um die Fülle an Daten zu verarbeiten zu können.
Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download(öffnet im neuen Fenster) auf der Projekt-Webseite bereit.



