Abo
  • Services:

Apache: Tika durchsucht 1.200 Dateiformate

Der Parser Tika 1.0 kann Daten aus 1.200 verschiedenen Dateiformaten extrahieren. Die NASA setzt die Apache-Software ein, um wissenschaftliche Daten zu analysieren.

Artikel veröffentlicht am ,
Apache Tika 1.0 erschienen
Apache Tika 1.0 erschienen (Bild: tika.apache.org)

Die Apache Software Foundation hat den Parser Tika 1.0 veröffentlicht. Tika ist Teil des Lucene-Projekts, das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.

Stellenmarkt
  1. Schaeffler Technologies AG & Co. KG, Steinhagen
  2. Bankhaus Lampe KG, Düsseldorf

Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI oder PDFBox.

Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr ein, um die Fülle an Daten zu verarbeiten zu können.

Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download auf der Projekt-Webseite bereit.



Anzeige
Top-Angebote
  1. 158,80€
  2. 184,99€
  3. 69,99€ statt 119,99€

Folgen Sie uns
       


Sony E3 2018 Pressekonferenz - Live (techn. Probleme)

Sony hatte während der Übertragung der Pressekonferenz der E3 2018 massive technische Probleme. Abseits davon waren die gezeigten Spiele aber sehr gut. Trotzdem empfehlen wir, den Abschnitt nach The Last of Us bis zu Ghost of Tsushima zu überspringen. (Minute 40-50)

Sony E3 2018 Pressekonferenz - Live (techn. Probleme) Video aufrufen
KI in der Medizin: Keine Angst vor Dr. Future
KI in der Medizin
Keine Angst vor Dr. Future

Mit Hilfe künstlicher Intelligenz können schwer erkennbare Krankheiten früher diagnostiziert und behandelt werden, doch bei Patienten löst die Technik oft Unbehagen aus. Und das ist nicht das einzige Problem.
Ein Bericht von Tim Kröplin

  1. Medizintechnik Künstliche Intelligenz erschnüffelt Krankheiten
  2. Dota 2 128.000 CPU-Kerne schlagen fünf menschliche Helden
  3. KI-Bundesverband Deutschland soll mehr für KI-Forschung tun

VR-Rundschau: Retten rockende Jedi-Ritter die virtuelle Realität?
VR-Rundschau
Retten rockende Jedi-Ritter die virtuelle Realität?

Der mediale Hype um VR ist zwar abgeflaut, spannende Inhalte dafür gibt es aber weiterhin - und das nicht nur im Games-Bereich. Mit dabei: das beliebteste Spiel bei Steam, Jedi-Ritter auf Speed und ägyptische Grabkammern.
Ein Test von Achim Fehrenbach

  1. Oculus Core 2.0 Windows 10 wird Minimalanforderung für Oculus Rift
  2. Virtual Reality BBC überträgt Fußball-WM in der virtuellen VIP-Loge
  3. VR-Brillen Google experimentiert mit Lichtfeldfotografie

Garmin Fenix 5 Plus im Test: Mit Musik ins unbekannte Land
Garmin Fenix 5 Plus im Test
Mit Musik ins unbekannte Land

Kopfhörer ins Ohr und ab zum Joggen, Rad fahren oder zum nächsten Supermarkt spazieren - ohne Smartphone: Mit der Sport-Smartwatch Fenix 5 Plus von Garmin geht das. Beim Test haben wir uns zwar im Wegfindungsmodus verlaufen, sind von den sonstigen Navigationsoptionen aber begeistert.
Ein Test von Peter Steinlechner

  1. Garmin im Hands on Alle Fenix 5 Plus bieten Musik und Offlinenavigation

    •  /