Abo
  • IT-Karriere:

Mapreduce: Apache Hadoop 1.0 veröffentlicht

Die Apache Software Foundation hat Apache Hadoop in der Version 1.0.0 veröffentlicht. Hadoop basiert auf dem Mapreduce-Algorithmus von Google und erlaubt es, sehr große Datenmengen im Petabyte-Bereich auf Clustern aus vielen Einzelrechnern zu verarbeiten.

Artikel veröffentlicht am ,
Hadoop 1.0.0 mit HDFS und Mapreduce
Hadoop 1.0.0 mit HDFS und Mapreduce (Bild: Apache Software Foundation)

"Apache Hadoop ist ein Framework, das die verteilte Verarbeitung großer Datenmengen auf Clustern mit vielen einzelnen Knoten mit einem einfachen Programmiermodell erlaubt", so beschreibt das Projekt Apache Hadoop seine Software. Hadoop ist darauf ausgelegt, von einem einzelnen Server bis hin zu tausenden Maschinen zu skalieren, bei denen jeder einzelne Knoten lokalen Speicher und Rechenleistung beisteuert. Das System wurde dabei so ausgelegt, dass es den Ausfall einzelner Knoten erkennt und handhaben kann, so dass ein hochverfügbarer Dienst entsteht.

Stellenmarkt
  1. OEDIV KG, Bielefeld
  2. BWI GmbH, Münster

Apache Hadoop kommt unter anderem bei Facebook, a9.com, AOL, IBM, Imageshack und Yahoo zum Einsatz. Facebook speichert nach eigenen Angaben Kopien seiner internen Log-Dateien und Dimensionsdatenquellen in Hadoop und benutzt das System für Reporting- und Analysezwecke sowie für maschinelles Lernen. Dabei kommen derzeit zwei große Hadoop-Cluster zum Einsatz, der größere verfügt über 1.100 Maschinen und 8.800 CPU-Kerne sowie rund 12 Petabyte an Speicherplatz.

Yahoo betreibt mehrere große Hadoop-Cluster mit insgesamt mehr als 100.000 CPUs in rund 40.000 Computern. Der größte Cluster verfügt über 4.500 Nodes. Eingesetzt wird Hadoop hier für das Werbesystem und die Websuche.

Apache Hadoop 1.0.0 umfasst neben den Basiswerkzeugen Hadoop Common auch das Hadoop Distributed File System (HDFS) und Hadoop Mapreduce. HDFS ist ein verteiltes Dateisystem, das auf hohen Datendurchsatz getrimmt ist. Daneben gibt es weitere Apache-Projekte, die in Verbindung mit Hadoop stehen, darunter das einst von Facebook entwickelte Hive, eine Data-Warehouse-Infrastruktur, die Daten aggegriert und Ad-hoc-Abfragen ermöglicht sowie HBase, eine skalierbare verteilte Datenbank, die das Speichern strukturierter Daten erlaubt. Yahoo steuerte einst die parallele Programmiersprache Pig bei. Mit Mahout gibt es zudem eine Bibliothek für maschinelles Lernen auf Basis von Hadoop.

Hadoop 1.0.0 basiert auf der stabilen Serie 0.20 und steht unter hadoop.apache.org zum Download bereit.



Anzeige
Spiele-Angebote
  1. 1,72€
  2. 1,19€
  3. 50,99€

Folgen Sie uns
       


ANC-Kopfhörer im Lautstärkevergleich

Wir haben Microsofts Surface Headphones und die Jabra Elite 85h bei der ANC-Leistung verglichen. Für einen besseren Vergleich zeigen wir auch die besonders leistungsfähigen ANC-Kopfhörer von Sony und Bose, die WH-1000XM3 und die Quiet Comfort 35 II.

ANC-Kopfhörer im Lautstärkevergleich Video aufrufen
Erasure Coding: Das Ende von Raid kommt durch Mathematik
Erasure Coding
Das Ende von Raid kommt durch Mathematik

In vielen Anwendungsszenarien sind Raid-Systeme mittlerweile nicht mehr die optimale Lösung. Zu langsam und starr sind sie. Abhilfe schaffen können mathematische Verfahren wie Erasure Coding. Noch existieren für beide Techniken Anwendungsgebiete. Am Ende wird Raid aber wohl verschwinden.
Eine Analyse von Oliver Nickel

  1. Agentur für Cybersicherheit Cyberwaffen-Entwicklung zieht in den Osten Deutschlands
  2. Yahoo Richterin lässt Vergleich zu Datenleck platzen

Mobilfunktarife fürs IoT: Die Dinge ins Internet bringen
Mobilfunktarife fürs IoT
Die Dinge ins Internet bringen

Kabellos per Mobilfunk bringt man smarte Geräte am leichtesten ins Internet der Dinge. Dafür haben deutsche Netzanbieter Angebote für Unternehmen wie auch für Privatkunden.
Von Jan Raehm

  1. Smart Lock Forscher hacken Türschlösser mit einfachen Mitteln
  2. Brickerbot 2.0 Neue Schadsoftware möchte IoT-Geräte zerstören
  3. Abus-Alarmanlage RFID-Schlüssel lassen sich klonen

In eigener Sache: Neue Workshops zu agilem Arbeiten und Selbstmanagement
In eigener Sache
Neue Workshops zu agilem Arbeiten und Selbstmanagement

Wir haben in unserer Leserumfrage nach Wünschen für Weiterbildungsangebote gefragt. Hier ist das Ergebnis: Zwei neue Workshops widmen sich der Selbstorganisation und gängigen Fehlern beim agilen Arbeiten - natürlich extra für IT-Profis.

  1. In eigener Sache ITler und Board kommen zusammen
  2. In eigener Sache Herbsttermin für den Kubernetes-Workshop steht
  3. Golem Akademie Golem.de startet Angebote zur beruflichen Weiterbildung

    •  /