Abo
  • Services:

Apache: Tika durchsucht 1.200 Dateiformate

Der Parser Tika 1.0 kann Daten aus 1.200 verschiedenen Dateiformaten extrahieren. Die NASA setzt die Apache-Software ein, um wissenschaftliche Daten zu analysieren.

Artikel veröffentlicht am ,
Apache Tika 1.0 erschienen
Apache Tika 1.0 erschienen (Bild: tika.apache.org)

Die Apache Software Foundation hat den Parser Tika 1.0 veröffentlicht. Tika ist Teil des Lucene-Projekts, das Suchanwendungen erstellt, und ein Toolkit zur Inhaltserkennung und -Analyse von Dateien. Die nun erschienene Version des Programms findet strukturierten Text und Metadaten in 1.200 Dateiformaten, dazu gehören HTML, XML, MS-Office-Formate, ODF oder ePub, aber auch komprimierte Archive und verschiedene Multimedia-Formate.

Stellenmarkt
  1. Verlag C.H.BECK, München-Schwabing
  2. Rentschler Biopharma SE, Laupheim

Der Parser Tika lässt sich unter anderem über die Kommandozeile ansteuern oder auch in Projekte integrieren, die in Java, Python oder C++ implementiert sind. Dazu bietet Tika ein API an und nutzt bereits existierende Bibliotheken wie Apache POI oder PDFBox.

Eingesetzt wird Tika unter anderem von der NASA, die damit "mehrere hundert TByte wissenschaftlicher Daten in unzähligen Formaten und damit verbundene Metadaten" analysiert. Neben Tika setzt die NASA auch die Suchmaschine Solr ein, um die Fülle an Daten zu verarbeiten zu können.

Der Quellcode von Tika 1.0 steht unter der Apache-Lizenz 2.0 zum Download auf der Projekt-Webseite bereit.



Anzeige
Blu-ray-Angebote
  1. Jetzt für 150 EUR kaufen und 75 EUR sparen

Folgen Sie uns
       


iOS 12 angesehen

Das neue iOS 12 bietet Nutzern die Möglichkeit, die Bildschirmzeit besser kontrollieren und einteilen zu können. Auch Siri könnte durch die Kurzbefehle interessanter als bisher werden.

iOS 12 angesehen Video aufrufen
Athlon 200GE im Test: Celeron und Pentium abgehängt
Athlon 200GE im Test
Celeron und Pentium abgehängt

Mit dem Athlon 200GE belebt AMD den alten CPU-Markennamen wieder: Der Chip gefällt durch seine Zen-Kerne und die integrierte Vega-Grafikeinheit, die Intel-Konkurrenz hat dem derzeit preislich wenig entgegenzusetzen.
Ein Test von Marc Sauter

  1. AMD Threadripper erhalten dynamischen NUMA-Modus
  2. HP Elitedesk 705 Workstation Edition Minitower mit AMD-CPU startet bei 680 Euro
  3. Ryzen 5 2600H und Ryzen 7 2800H 45-Watt-CPUs mit Vega-Grafik für Laptops sind da

Galaxy A9 im Hands on: Samsung bietet vier
Galaxy A9 im Hands on
Samsung bietet vier

Samsung erhöht die Anzahl der Kameras bei seinen Smartphones weiter: Das Galaxy A9 hat derer vier, zudem ist auch die restliche Ausstattung nicht schlecht. Aus verkaufspsychologischer Sicht könnte die Einstufung in die A-Mittelklasse bei einem Preis von 600 Euro ein Problem sein.
Ein Hands on von Tobias Költzsch

  1. Auftragsfertiger Samsung startet 7LPP-Herstellung mit EUV
  2. Galaxy A9 Samsung stellt Smartphone mit vier Hauptkameras vor
  3. Galaxy J4+ und J6+ Samsung stellt neue Smartphones im Einsteigerbereich vor

Neuer Echo Dot im Test: Amazon kann doch gute Mini-Lautsprecher bauen
Neuer Echo Dot im Test
Amazon kann doch gute Mini-Lautsprecher bauen

Echo Dot steht bisher für muffigen, schlechten Klang. Mit dem neuen Modell zeigt Amazon, dass es doch gute smarte Mini-Lautsprecher mit dem Alexa-Sprachassistenten bauen kann, die sogar gegen die Konkurrenz von Google ankommen.
Ein Test von Ingo Pakalski


      •  /