Das Framework Hadoop wird von Firmen wie Yahoo, Facebook oder IBM genutzt, um Berechnungen auf Computerclustern für sehr große Datenmengen durchzuführen. Hadoop wird unter dem Dach der Apache Software Foundation entwickelt und ist in Java geschrieben.
In Berlin hat der Linuxtag 2012 begonnen. Die Messe beginnt mit der Verleihung des Univention-Absolventenpreises. Themenschwerpunkte liegen in diesem Jahr in den Bereichen Storage, Android und bei Rechenzentren.
Die Apache Software Foundation hat ihre NoSQL-Datenbank Cassandra in der Version 1.1 veröffentlicht. Das einst von Facebook entwickelte System bringt in der aktuellen Version einige Neuerungen.
Das US-Startup Opscode erhält in einer dritten Finanzierungsrunde 19,5 Millionen US-Dollar Risikokapital. Das Unternehmen entwickelt mit Chef eine Open-Source-Software zur Cloud-Automation.
Hypertable hat eine freie NoSQL-Datenbank entsprechend dem Design von Googles Bigtable entwickelt. Sie ist in C++ implementiert und schlägt das auf Hadoop basierende HBase zumindest in einem von Hypertable durchgeführten Benchmark deutlich.
Mit reichlich Aktualisierungen, aber ohne die für die finale Version geplanten Neuerungen hat Canonical die zweite Alpha von Ubuntu 12.04 veröffentlicht. Als Basis läuft der Linux-Kernel 3.2.2.
Laut einer Umfrage planen zahlreiche Oracle-Kunden den Umstieg von Solaris zu Linux. Oracle bietet zwar eine eigene Linux-Lösung an, aber die befragten Kunden bevorzugen Lösungen vom Konkurrenten Red Hat.
Die Apache Software Foundation hat Apache Hadoop in der Version 1.0.0 veröffentlicht. Hadoop basiert auf dem Mapreduce-Algorithmus von Google und erlaubt es, sehr große Datenmengen im Petabyte-Bereich auf Clustern aus vielen Einzelrechnern zu verarbeiten.
Das Apache-Projekt Mahout erhält zahlreiche neue Algorithmen. Über den Fortschritt der skalierbaren Implementierung von maschinenlernenden Algorithmen hat Entwickler Grant Ingersoll berichtet.
Unter dem Namen Precise Pangolin soll im April 2012 Ubuntu 12.04 LTS erscheinen. Die Neuerungen der letzten beiden Ubuntu-Versionen sollen optimiert, die Linux-Distribution selbst soll auf Stabilität getrimmt werden.
Windows will die NoSQL-Datenbank Hadoop in seine Cloud-Dienste integrieren. Später soll Hadoop auch auf Windows Server laufen.
Auf seiner Hausmesse Oracle Open World hat Oracle den Big Data Appliance vorgestellt, ein System speziell zur Analyse großer Datenmengen. Dabei kommt neben Hadoop eine NoSQL-Datenbank zum Einsatz: die Oracle NoSQL Database.
Der ehemalige Debian-Projektleiter Bruce Perens stellt ein Konzept zur Duallizenzierung von Software vor. Demnach soll Code von freien Entwicklern nie ausschließlich proprietär verwendet werden können.
Twitter will das von Backtype entwickelte System Storm als Open Source freigeben. Dabei handelt es sich um ein verteiltes, verlässliches und fehlertolerantes System zur Verarbeitung von Datenströmen, das Backtype als eine Art Hadoop für Echtzeitdaten bezeichnet.
O'Reilly startet einen europäischen Ableger seiner Konferenz Velocity in Berlin. Die bisher in den USA und China veranstaltete Konferenz widmet sich den Themen Web Performance und Operations.
Twitter übernimmt das auf Echtzeitanalysen spezialisierte Unternehmen Backtype. Wie so oft bei solchen Übernahmen werden die Produkte von Backtype nicht länger angeboten.
Yahoo will um Apache Hadoop eine eigene Firma gründen: Hortonworks soll Hadoop-Entwickler aufnehmen und sich mit Support sowie Training finanzieren. Die Plattform soll weiterhin als Open-Source-Software angeboten werden.
Der Datenspezialist Lexisnexis will High Performance Computing Cluster (HPCC) als Open Source freigeben und damit eine Alternative zu Apache Hadoop schaffen. HPCC soll Unternehmen helfen, Probleme mit großen Datenmengen zu lösen.
Ein namhafter Entwickler hat Google verlassen und bezeichnet Softwaretools des Konzerns wie Protocol Buffers, Bigtable und Mapreduce als veraltet. Dhanji Prasanna war im Google-Wave-Team und vertrat Google in mehreren Java-Expertengruppen.
Yahoo gibt seine eigene Hadoop-Distribution auf und will sich künftig stärker an Apache Hadoop beteiligen.
Revolution Analytics erweitert seine auf der freien Programmiersprache R basierende statistische Analysesoftware um Unterstützung für große Datenmengen. Damit wird es möglich, mit R Daten aus Hadoop oder NoSQL-Datenbanken gezielt zu analysieren.
Eine Suchmaschine für die eigenen Daten bietet Q-Sensei mit Boost. Die Technik soll Anwendern helfen, eigene Daten schnell und leicht aufzubereiten und mit anderen zu teilen. Dabei lassen sich auch Daten aus mehreren Quellen zusammenführen.
Die Apache Software Foundation (ASF) hat auf einen Schlag sechs neue Top-Level-Projekte angekündigt, ein Rekord für die Organisation. Dazu zählt der Apache Traffic Server ebenso wie die Projekte Mahout, Tika, Nutch, Avro und HBase.
Cassandra-Entwickler Jonathan Ellis hat mit Matt Pfeil das Unternehmen Riptano gegründet, das Dienstleistungen rund um Apaches freies NoSQL-System anbieten soll.
Das Apache-Projekt Hadoop verstößt möglicherweise gegen ein Patent von Google, doch das will Google nicht gegen die Open-Source-Projekte ins Feld führen. Damit ist ein wesentlicher Unsicherheitsfaktor des Projekts aus der Welt.
Die von Facebook entwickelte und an die Apache Software Foundation übergebene NoSQL-Datenbank Cassandra wurde in der Version 0.6.0 veröffentlicht. Es ist die erste Cassandra-Ausgabe als Apache-Top-Level-Projekt.
Auf einer eigens dafür geschaffenen Webseite stellt Twitter die Open-Source-Projekte vor, die der Anbieter für seine Microblogging-Dienste verwendet. Darunter befindet sich Ruby-Gems sowie Java-Anwendungen, die dort auch per Git zum Download freigegeben wurden.
Singlechip Cloud Computer (SCC) nennt Intel seinen neuen Prozessor, der über 48 Kerne verfügt und den Weg hin zu Many-Core-Prozessoren ebnen soll. Dank feiner Stromsparfunktionen liegt die Leistungsaufnahme des Chips zwischen 25 und 125 Watt.
Die von Yahoo seit mehreren Jahren entwickelte und eingesetzte Software Traffic Server geht als Spende an die Apache Software Foundation. Die Software kümmert sich um Session-Management, Authentifizierungen, Konfigurationsmanagement, Load-Balancing und Routing für eine komplette Servergruppe, die zu einer Cloud vernetzt wurde.
Facebook ist groß, in jeder Dimension. Das sagt Jeff Rothschild, Vice President für Technologie bei Facebook bei einer Präsentation an der Universität San Diego und unterlegte dies mit Zahlen. Rothschild erläuterte die Architektur hinter Facebook und sprach über künftige technische Herausforderungen.
Der Hadoop-Spezialist Cloudera hat mit dem Cloudera Desktop eine GUI für Apache Hadoop vorgestellt. Mit der kostenlosen Software lassen sich Applikationen auf öffentlichen und privaten Hadoop-Clustern administrieren und überwachen.
Die Zusammenarbeit mit Microsoft, in deren Rahmen Yahoo künftig die eigene Suchmaschine durch Microsofts Bing ersetzen will, soll keine negativen Auswirkungen auf Yahoos Hadoop-Engagement haben. Hadoop sei weiterhin wichtig.
Die Skalierbarkeit von Hadoop, kombiniert mit der Geschwindigkeit eines parallelen Datenbanksystems. Das soll HadoopDB bieten - ein freies paralleles shared-nothing Datenbanksystem, das mit einer an SQL angelehnten Sprache abgefragt werden kann.
Yahoo hat eine eigene Distribution von Apache Hadoop angekündigt. Die bei Yahoo intern eingesetzte Hadoop-Version stellt das Unternehmen Dritten im Quelltext zur Verfügung.
Amazon bietet mit seinem neuen Dienst Amazon Elastic MapReduce einen Hadoop-Cluster zum Mieten an. Damit lassen sich große Datenmengen auf verteilten Systemen verarbeiten.
Die Installation und Konfiguration von Hadoop ist nicht ganz einfach. Um das zu ändern, bietet Cloudera seine Hadoop-Distribution ab sofort frei zum Download an. Das Apache-Projekt dient zur Verarbeitung großer Datenmengen auf verteilten Systemen und ist an Googles Map/Reduce-Engine angelehnt.
Die OpenSolaris-Community hat eine Live-CD mit einem Hadoop-Cluster veröffentlicht. Vom Start bis zum voll einsatzbereiten Cluster sollen dabei nur etwa 15 Minuten vergehen. Zudem soll sich die Software mit verhältnismäßig geringen Ressourcen ausprobieren lassen.
HP, Intel und Yahoo starten eine gemeinsame Open-Source-Testumgebung für Cloud-Computing, die mehrere Rechenzentren umfasst. Damit sollen finanzielle und logistische Barrieren bei der Forschung im Bereich Cloud-Computing abgebaut werden.
Yahoo hat seinen Crawler und die dahinterliegende Infrastruktur überarbeitet und schickt seinen Crawler Slurp nun in der Version 3.0 ins Netz. Im Vorfeld der Umstellung war es zu einigen ungewollten Unregelmäßigkeiten der Yahoo-Crawler gekommen.
Yahoo hat die bislang größte Hadoop-Installation in Betrieb genommen, auf der Yahoos Webmap liegt, die Basis von Yahoos Suche. Yahoos Hadoop-Installation umfasst mehr als 10.000 CPUs sowie 5 PByte Festplattenplatz.
Yahoo legt ein Programm auf, um die Forschung und Entwicklung von Open-Source-System-Software für verteiltes Rechnen zu fördern. Dabei folgt Yahoo einem ähnlichen Plan von Google und IBM, stellt aber eine deutlich größere Hardware-Installation zur Verfügung.
Neue Methoden der Software-Entwicklung, mit denen sich die Herausforderungen künftiger Generationen von Internetapplikationen besser bewältigen lassen, wollen Google und IBM mit einer gemeinsamen Initiative fördern. Im Kern geht es darum, Studenten im Bereich paralleles Rechnen besser auszubilden, um so die Möglichkeiten verteilter Rechner-Ressourcen besser nutzen zu können.
Microsoft hat eine webbasierte Demo des User Interface von Windows Phone 7 für iPhone und Android-Smartphones veröffentlicht. Damit will Microsoft Nutzern der konkurrierenden Plattformen sein System näherbringen.
(Windows 7 Android)
In einem für Händler gedachten PDF auf Intels Webservern finden sich die Daten aller CPUs, die bis April 2012 mit der neuen Architektur Ivy Bridge erscheinen sollen. Prozessoren für High-End-Desktops wie für Ultrabooks sind darunter.
(Ivy Bridge)
E-Mail an news@golem.de