Abo
  • IT-Karriere:

Mapreduce: Apache Hadoop 1.0 veröffentlicht

Die Apache Software Foundation hat Apache Hadoop in der Version 1.0.0 veröffentlicht. Hadoop basiert auf dem Mapreduce-Algorithmus von Google und erlaubt es, sehr große Datenmengen im Petabyte-Bereich auf Clustern aus vielen Einzelrechnern zu verarbeiten.

Artikel veröffentlicht am ,
Hadoop 1.0.0 mit HDFS und Mapreduce
Hadoop 1.0.0 mit HDFS und Mapreduce (Bild: Apache Software Foundation)

"Apache Hadoop ist ein Framework, das die verteilte Verarbeitung großer Datenmengen auf Clustern mit vielen einzelnen Knoten mit einem einfachen Programmiermodell erlaubt", so beschreibt das Projekt Apache Hadoop seine Software. Hadoop ist darauf ausgelegt, von einem einzelnen Server bis hin zu tausenden Maschinen zu skalieren, bei denen jeder einzelne Knoten lokalen Speicher und Rechenleistung beisteuert. Das System wurde dabei so ausgelegt, dass es den Ausfall einzelner Knoten erkennt und handhaben kann, so dass ein hochverfügbarer Dienst entsteht.

Stellenmarkt
  1. SSI SCHÄFER Automation GmbH, Dortmund, Münster
  2. IFS Deutschland GmbH & Co. KG, Erlangen, Neuss oder Home-Office

Apache Hadoop kommt unter anderem bei Facebook, a9.com, AOL, IBM, Imageshack und Yahoo zum Einsatz. Facebook speichert nach eigenen Angaben Kopien seiner internen Log-Dateien und Dimensionsdatenquellen in Hadoop und benutzt das System für Reporting- und Analysezwecke sowie für maschinelles Lernen. Dabei kommen derzeit zwei große Hadoop-Cluster zum Einsatz, der größere verfügt über 1.100 Maschinen und 8.800 CPU-Kerne sowie rund 12 Petabyte an Speicherplatz.

Yahoo betreibt mehrere große Hadoop-Cluster mit insgesamt mehr als 100.000 CPUs in rund 40.000 Computern. Der größte Cluster verfügt über 4.500 Nodes. Eingesetzt wird Hadoop hier für das Werbesystem und die Websuche.

Apache Hadoop 1.0.0 umfasst neben den Basiswerkzeugen Hadoop Common auch das Hadoop Distributed File System (HDFS) und Hadoop Mapreduce. HDFS ist ein verteiltes Dateisystem, das auf hohen Datendurchsatz getrimmt ist. Daneben gibt es weitere Apache-Projekte, die in Verbindung mit Hadoop stehen, darunter das einst von Facebook entwickelte Hive, eine Data-Warehouse-Infrastruktur, die Daten aggegriert und Ad-hoc-Abfragen ermöglicht sowie HBase, eine skalierbare verteilte Datenbank, die das Speichern strukturierter Daten erlaubt. Yahoo steuerte einst die parallele Programmiersprache Pig bei. Mit Mahout gibt es zudem eine Bibliothek für maschinelles Lernen auf Basis von Hadoop.

Hadoop 1.0.0 basiert auf der stabilen Serie 0.20 und steht unter hadoop.apache.org zum Download bereit.



Anzeige
Top-Angebote
  1. (u. a. Call of Duty: Modern Warfare für 52,99€, Pillars of Eternity II für 16,99€, Devil May...
  2. (u. a. Aorus Pro für 219,90€, Aorus Pro WiFi für 229,90€, Aorus Elite für 189,90€)
  3. (u. a. Sandisk SSD Plus 1 TB für 88,00€, WD Elements 1,5-TB-HDD für 55,00€, Seagate Expansion...

Folgen Sie uns
       


Philips Hue Play HDMI Sync Box angesehen

Die Philips Hue Play HDMI Sync Box ist ein HDMI-Splitter, über den Hue Sync verwendet werden kann. Im ersten Kurztest funktioniert das neue Gerät gut.

Philips Hue Play HDMI Sync Box angesehen Video aufrufen
iPad 7 im Test: Nicht nur für Einsteiger lohnenswert
iPad 7 im Test
Nicht nur für Einsteiger lohnenswert

Auch mit der siebten Version des klassischen iPads richtet sich Apple wieder an Nutzer im Einsteigersegment. Dennoch ist das Tablet sehr leistungsfähig und kommt mit Smart-Keyboard-Unterstützung. Wer ein gutes, lange unterstütztes Tablet sucht, kann sich freuen - ärgerlich sind die Preise fürs Zubehör.
Ein Test von Tobias Költzsch

  1. iPad Einschränkungen für Apples Sidecar-Funktion
  2. Apple Microsoft Office auf neuem iPad nicht mehr kostenlos nutzbar
  3. Tablet Apple bringt die 7. Generation des iPads

Gemini Man: Überflüssiges Klonexperiment
Gemini Man
Überflüssiges Klonexperiment

Am 3. Oktober kommt mit Gemini Man ein ambitioniertes Projekt in die deutschen Kinos: Mit HFR-Projektion in 60 Bildern pro Sekunde und Will Smith, der gegen sein digital verjüngtes Ebenbild kämpft, betreibt der Actionfilm technisch viel Aufwand. Das Seherlebnis ist jedoch bestenfalls komisch.
Von Daniel Pook

  1. Filmkritik Apollo 11 Echte Mondlandung als packende Kinozeitreise

Elektromobilität: Warum der Ladestrom so teuer geworden ist
Elektromobilität
Warum der Ladestrom so teuer geworden ist

Das Aufladen von Elektroautos an einer öffentlichen Ladesäule kann bisweilen teuer sein. Golem.de hat mit dem Ladenetzbetreiber Allego über die Tücken bei der Ladeinfrastruktur und den schwierigen Kunden We Share gesprochen.
Ein Bericht von Friedhelm Greis

  1. Elektromobilität Hamburg lädt am besten, München besser als Berlin
  2. Volta Charging Werbung soll kostenloses Elektroauto-Laden ermöglichen
  3. Elektromobilität Allego stellt 350-kW-Lader in Hamburg auf

    •  /