• IT-Karriere:
  • Services:

Apache: Tika durchsucht 1.200 Dateiformate

Der Parser Tika 1.0 kann Daten aus 1.200 verschiedenen Dateiformaten extrahieren. Die NASA setzt die Apache-Software ein, um wissenschaftliche Daten zu analysieren.

Artikel veröffentlicht am ,
Apache Tika 1.0 erschienen
Apache Tika 1.0 erschienen (Bild: tika.apache.org)

Die Apache Software Foundation hat den Parser Tika 1.0 veröffentlicht. Tika ist Teil des Lucene-Projekts, das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.

Stellenmarkt
  1. Datema Software & Beratung GmbH, Stuttgart
  2. RUAG Ammotec GmbH, Fürth

Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI oder PDFBox.

Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr ein, um die Fülle an Daten zu verarbeiten zu können.

Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download auf der Projekt-Webseite bereit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. Ryzen 5 5600X für 359€, Ryzen 7 5800X für 489€)

Folgen Sie uns
       


Linux unter Windows 10 installieren - Tutorial

Wir zeigen im Video, wie man in wenigen Minuten Linux unter Windows 10 zum Laufen bringt.

Linux unter Windows 10 installieren - Tutorial Video aufrufen
    •  /