Apache: Tika durchsucht 1.200 Dateiformate

Der Parser Tika 1.0 kann Daten aus 1.200 verschiedenen Dateiformaten extrahieren. Die NASA setzt die Apache-Software ein, um wissenschaftliche Daten zu analysieren.

Artikel veröffentlicht am ,
Apache Tika 1.0 erschienen
Apache Tika 1.0 erschienen (Bild: tika.apache.org)

Die Apache Software Foundation hat den Parser Tika 1.0 veröffentlicht. Tika ist Teil des Lucene-Projekts, das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.

Stellenmarkt
  1. Leitung Projektmanagement IT (m/w/d)
    Waschbär GmbH, Freiburg im Breisgau
  2. Senior IT Professional Electronic Data Interchange (EDI) (m/w/d)
    ALDI International Services SE & Co. oHG, Mülheim an der Ruhr, Duisburg, Dortmund, Düsseldorf
Detailsuche

Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI oder PDFBox.

Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr ein, um die Fülle an Daten zu verarbeiten zu können.

Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download auf der Projekt-Webseite bereit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Dataport
"Die Arbeit wird uns nicht so schnell ausgehen"

Ein Job mit Zukunft und Sinnhaftigkeit, sicherer Bezahlung und verlässlichen Arbeitsbedingungen - so hat es Dataport zum Top-IT-Arbeitgeber geschafft.
Von Sebastian Grüner

Dataport: Die Arbeit wird uns nicht so schnell ausgehen
Artikel
  1. Jolly: Arduino-Chip ergänzt Bastelrechner um WLAN-Empfang
    Jolly
    Arduino-Chip ergänzt Bastelrechner um WLAN-Empfang

    Das Jolly-Modul wird von einem der Co-Gründer des Arduino-Projektes entwickelt. Es ergänzt das Standard-SoC um ein WLAN-Modul.

  2. Microsoft: Sony äußert sich zur Übernahme von Activision Blizzard
    Microsoft
    Sony äußert sich zur Übernahme von Activision Blizzard

    Rund 20 Milliarden US-Dollar haben die Aktien von Sony verloren. Nun hat der Konzern erstmals den Kauf von Activision Blizzard kommentiert.

  3. Halbleiterfertigung in Europa: Wir haben keine Zeit zu verlieren
    Halbleiterfertigung in Europa
    "Wir haben keine Zeit zu verlieren"

    Noch im Februar 2022 will die Europäische Union ihre Pläne zum European Chips Act, also der Halbleiterfertigung in der EU, veröffentlichen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RTX 3070 989€ • The A500 Mini Retro-Konsole mit 25 Amiga-Spielen vorbestellbar 189,90€ • RX 6800 16GB 1.129€ • Intel Core i9 3.7 459,50€ Ghz • WD Black 1TB inkl. Kühlkörper PS5-kompatibel 189,99€ • Switch: 3 für 2 Aktion • RX 6700 12GB 869€ • MindStar (u.a. 1TB SSD 69€) [Werbung]
    •  /