Apache: Tika durchsucht 1.200 Dateiformate
Der Parser Tika 1.0 kann Daten aus 1.200 verschiedenen Dateiformaten extrahieren. Die NASA setzt die Apache-Software ein, um wissenschaftliche Daten zu analysieren.

Die Apache Software Foundation hat den Parser Tika 1.0 veröffentlicht. Tika ist Teil des Lucene-Projekts, das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.
Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI oder PDFBox.
Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr ein, um die Fülle an Daten zu verarbeiten zu können.
Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download auf der Projekt-Webseite bereit.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed