Das Framework Hadoop wird von Firmen wie Yahoo, Facebook oder IBM genutzt, um Berechnungen auf Computerclustern für sehr große Datenmengen durchzuführen. Hadoop wird unter dem Dach der Apache Software Foundation entwickelt und ist in Java geschrieben.
Der Chiphersteller Intel hat eine eigene Hadoop-Distribution veröffentlicht, die speziell für die eigenen Prozessoren angepasst ist. Sie soll Daten deutlich schneller analysieren, vor allem, wenn sie aus Gründen der Datensicherheit verschlüsselt gespeichert werden.
Welche Probleme mussten Facebooks Entwickler lösen, um das Wachstum auf mehr als 1 Milliarde aktive Nutzer zu bewerkstelligen, und was waren die daraus resultierenden größten technischen Errungenschaften? Andere, als die meisten denken, sagt Robert Johnson, der fünf Jahre lang Facebooks Infrastruktur-Software-Team leitete.
Meint ein Nutzer, der nach "Bayern" sucht, das Land, seine Bewohner oder den Fußballclub? Und wie können Suchanfragen eingeordnet werden, die erstmals oder in neuem Kontext auftauchen? Wenn Maschinen zu langsam lernen, können Menschen helfen.
Von HP gibt es zwei neue Rackserver, die sich für aufwendige Berechnungen oder Big-Data-Anwendungen eignen. Der Proliant SL270s G8 kann bis zu 8 GPU-Karten aufnehmen, der Proliant SL4500 G8 dafür bis zu 60 Festplatten. Beide Server liegen preislich im mittleren vierstelligen Bereich.
2014 sollen sie fertig sein: AMDs erste Prozessoren mit ARM-Kernen. Vorgesehen sind sie für sparsame Server, und nicht nur die AMD-Tochter Seamicro soll sie verbauen. Mit Dell und HP sind bereits starke Partner gefunden.
SAP will künftig mit Hadoop-Anbietern zusammenarbeiten, um die Integration von Big-Data-Lösungen auf Basis von Hadoop in SAP-Umgebungen zu ermöglichen. Dazu bietet SAP ein neues Big-Data-Bundle an.
Der Hadoop-Spezialist Cloudera hat mit Impala eine Lösung für Echtzeitabfragen auf Hadoop und HBase vorgestellt. Die Abfragen werden in SQL formuliert und sollen zehnmal schneller sein als mit Hive/Mapreduce.
Seit rund drei Jahren ist Spanner bei Google im Einsatz, in der vergangenen Woche veröffentlichte Google nun Details zu Spanner, das Google-Systeme wie Bigtable und Megastore ablösen soll. Dabei wird deutlich: Google ist seiner Konkurrenz einen Schritt voraus.
Mit Drill soll die Abfrage und Analyse riesiger Datenmengen beschleunigt werden. Drill soll ein Incubator-Projekt der ASF werden und basiert auf dem Konzept des Google-Werkzeugs Dremel, welches das Unternehmen intern einsetzt.
Dass Twitter Open-Source-Software benutzt und selbst entwickelt, ist kein Geheimnis. Wie viel quelloffene Technik der Nachrichtendienst einsetzt und wo, hat der Leiter der Open-Source-Abteilung Chris Aniszczyk jetzt verraten.
Die freie Suchmaschine Apache Nutch ist in der Version 2.0 erschienen. Mit Nutch lässt sich das Web ebenso crawlen und indexieren wie das eigene Intranet. Die Inhalte lassen sich dann über eine Suche verfügbar machen.
Mit teils massiven Ausfällen hat die Schaltsekunde in der Nacht zum 1. Juli 2012 unter anderem dem Linux-Kernel, MySQL und Java-basierten Anwendungen Probleme bereitet. Betroffen waren unter anderem Qantas, Reddit und Mozilla.
Mit einem Update für Azure hat Microsoft seine Cloud-Plattform für weitere Open-Source-Software angepasst. Hadoop läuft als Beta. Hadoop-Entwickler Alan Gates beschreibt die Integration in einem Interview mit Golem.de.
Arun Murthy, Release-Manager für Apache Hadoop 2.0, hat eine erste Alphaversion der kommenden Hadoop-Generation veröffentlicht, die unter anderem Hochverfügbarkeit für HDFS bietet und den Mapreduce-Nachfolger Yarn unterstützt.
In Berlin hat der Linuxtag 2012 begonnen. Die Messe beginnt mit der Verleihung des Univention-Absolventenpreises. Themenschwerpunkte liegen in diesem Jahr in den Bereichen Storage, Android und bei Rechenzentren.
Die Apache Software Foundation hat ihre NoSQL-Datenbank Cassandra in der Version 1.1 veröffentlicht. Das einst von Facebook entwickelte System bringt in der aktuellen Version einige Neuerungen.
Das US-Startup Opscode erhält in einer dritten Finanzierungsrunde 19,5 Millionen US-Dollar Risikokapital. Das Unternehmen entwickelt mit Chef eine Open-Source-Software zur Cloud-Automation.
Hypertable hat eine freie NoSQL-Datenbank entsprechend dem Design von Googles Bigtable entwickelt. Sie ist in C++ implementiert und schlägt das auf Hadoop basierende HBase zumindest in einem von Hypertable durchgeführten Benchmark deutlich.
Mit reichlich Aktualisierungen, aber ohne die für die finale Version geplanten Neuerungen hat Canonical die zweite Alpha von Ubuntu 12.04 veröffentlicht. Als Basis läuft der Linux-Kernel 3.2.2.
Laut einer Umfrage planen zahlreiche Oracle-Kunden den Umstieg von Solaris zu Linux. Oracle bietet zwar eine eigene Linux-Lösung an, aber die befragten Kunden bevorzugen Lösungen vom Konkurrenten Red Hat.
Die Apache Software Foundation hat Apache Hadoop in der Version 1.0.0 veröffentlicht. Hadoop basiert auf dem Mapreduce-Algorithmus von Google und erlaubt es, sehr große Datenmengen im Petabyte-Bereich auf Clustern aus vielen Einzelrechnern zu verarbeiten.
Das Apache-Projekt Mahout erhält zahlreiche neue Algorithmen. Über den Fortschritt der skalierbaren Implementierung von maschinenlernenden Algorithmen hat Entwickler Grant Ingersoll berichtet.
Unter dem Namen Precise Pangolin soll im April 2012 Ubuntu 12.04 LTS erscheinen. Die Neuerungen der letzten beiden Ubuntu-Versionen sollen optimiert, die Linux-Distribution selbst soll auf Stabilität getrimmt werden.
Windows will die NoSQL-Datenbank Hadoop in seine Cloud-Dienste integrieren. Später soll Hadoop auch auf Windows Server laufen.
Auf seiner Hausmesse Oracle Open World hat Oracle den Big Data Appliance vorgestellt, ein System speziell zur Analyse großer Datenmengen. Dabei kommt neben Hadoop eine NoSQL-Datenbank zum Einsatz: die Oracle NoSQL Database.
Der ehemalige Debian-Projektleiter Bruce Perens stellt ein Konzept zur Duallizenzierung von Software vor. Demnach soll Code von freien Entwicklern nie ausschließlich proprietär verwendet werden können.
Twitter will das von Backtype entwickelte System Storm als Open Source freigeben. Dabei handelt es sich um ein verteiltes, verlässliches und fehlertolerantes System zur Verarbeitung von Datenströmen, das Backtype als eine Art Hadoop für Echtzeitdaten bezeichnet.
O'Reilly startet einen europäischen Ableger seiner Konferenz Velocity in Berlin. Die bisher in den USA und China veranstaltete Konferenz widmet sich den Themen Web Performance und Operations.
Twitter übernimmt das auf Echtzeitanalysen spezialisierte Unternehmen Backtype. Wie so oft bei solchen Übernahmen werden die Produkte von Backtype nicht länger angeboten.
Yahoo will um Apache Hadoop eine eigene Firma gründen: Hortonworks soll Hadoop-Entwickler aufnehmen und sich mit Support sowie Training finanzieren. Die Plattform soll weiterhin als Open-Source-Software angeboten werden.
Der Datenspezialist Lexisnexis will High Performance Computing Cluster (HPCC) als Open Source freigeben und damit eine Alternative zu Apache Hadoop schaffen. HPCC soll Unternehmen helfen, Probleme mit großen Datenmengen zu lösen.
Ein namhafter Entwickler hat Google verlassen und bezeichnet Softwaretools des Konzerns wie Protocol Buffers, Bigtable und Mapreduce als veraltet. Dhanji Prasanna war im Google-Wave-Team und vertrat Google in mehreren Java-Expertengruppen.
Yahoo gibt seine eigene Hadoop-Distribution auf und will sich künftig stärker an Apache Hadoop beteiligen.
Revolution Analytics erweitert seine auf der freien Programmiersprache R basierende statistische Analysesoftware um Unterstützung für große Datenmengen. Damit wird es möglich, mit R Daten aus Hadoop oder NoSQL-Datenbanken gezielt zu analysieren.
Eine Suchmaschine für die eigenen Daten bietet Q-Sensei mit Boost. Die Technik soll Anwendern helfen, eigene Daten schnell und leicht aufzubereiten und mit anderen zu teilen. Dabei lassen sich auch Daten aus mehreren Quellen zusammenführen.
Die Apache Software Foundation (ASF) hat auf einen Schlag sechs neue Top-Level-Projekte angekündigt, ein Rekord für die Organisation. Dazu zählt der Apache Traffic Server ebenso wie die Projekte Mahout, Tika, Nutch, Avro und HBase.
Cassandra-Entwickler Jonathan Ellis hat mit Matt Pfeil das Unternehmen Riptano gegründet, das Dienstleistungen rund um Apaches freies NoSQL-System anbieten soll.
Das Apache-Projekt Hadoop verstößt möglicherweise gegen ein Patent von Google, doch das will Google nicht gegen die Open-Source-Projekte ins Feld führen. Damit ist ein wesentlicher Unsicherheitsfaktor des Projekts aus der Welt.
Die von Facebook entwickelte und an die Apache Software Foundation übergebene NoSQL-Datenbank Cassandra wurde in der Version 0.6.0 veröffentlicht. Es ist die erste Cassandra-Ausgabe als Apache-Top-Level-Projekt.
Auf einer eigens dafür geschaffenen Webseite stellt Twitter die Open-Source-Projekte vor, die der Anbieter für seine Microblogging-Dienste verwendet. Darunter befindet sich Ruby-Gems sowie Java-Anwendungen, die dort auch per Git zum Download freigegeben wurden.
Singlechip Cloud Computer (SCC) nennt Intel seinen neuen Prozessor, der über 48 Kerne verfügt und den Weg hin zu Many-Core-Prozessoren ebnen soll. Dank feiner Stromsparfunktionen liegt die Leistungsaufnahme des Chips zwischen 25 und 125 Watt.
Die von Yahoo seit mehreren Jahren entwickelte und eingesetzte Software Traffic Server geht als Spende an die Apache Software Foundation. Die Software kümmert sich um Session-Management, Authentifizierungen, Konfigurationsmanagement, Load-Balancing und Routing für eine komplette Servergruppe, die zu einer Cloud vernetzt wurde.
Facebook ist groß, in jeder Dimension. Das sagt Jeff Rothschild, Vice President für Technologie bei Facebook bei einer Präsentation an der Universität San Diego und unterlegte dies mit Zahlen. Rothschild erläuterte die Architektur hinter Facebook und sprach über künftige technische Herausforderungen.
Der Hadoop-Spezialist Cloudera hat mit dem Cloudera Desktop eine GUI für Apache Hadoop vorgestellt. Mit der kostenlosen Software lassen sich Applikationen auf öffentlichen und privaten Hadoop-Clustern administrieren und überwachen.
Die Zusammenarbeit mit Microsoft, in deren Rahmen Yahoo künftig die eigene Suchmaschine durch Microsofts Bing ersetzen will, soll keine negativen Auswirkungen auf Yahoos Hadoop-Engagement haben. Hadoop sei weiterhin wichtig.
Die Skalierbarkeit von Hadoop, kombiniert mit der Geschwindigkeit eines parallelen Datenbanksystems. Das soll HadoopDB bieten - ein freies paralleles shared-nothing Datenbanksystem, das mit einer an SQL angelehnten Sprache abgefragt werden kann.
Yahoo hat eine eigene Distribution von Apache Hadoop angekündigt. Die bei Yahoo intern eingesetzte Hadoop-Version stellt das Unternehmen Dritten im Quelltext zur Verfügung.
Amazon bietet mit seinem neuen Dienst Amazon Elastic MapReduce einen Hadoop-Cluster zum Mieten an. Damit lassen sich große Datenmengen auf verteilten Systemen verarbeiten.
Die Installation und Konfiguration von Hadoop ist nicht ganz einfach. Um das zu ändern, bietet Cloudera seine Hadoop-Distribution ab sofort frei zum Download an. Das Apache-Projekt dient zur Verarbeitung großer Datenmengen auf verteilten Systemen und ist an Googles Map/Reduce-Engine angelehnt.
Die OpenSolaris-Community hat eine Live-CD mit einem Hadoop-Cluster veröffentlicht. Vom Start bis zum voll einsatzbereiten Cluster sollen dabei nur etwa 15 Minuten vergehen. Zudem soll sich die Software mit verhältnismäßig geringen Ressourcen ausprobieren lassen.
Microsoft hat eine webbasierte Demo des User Interface von Windows Phone 7 für iPhone und Android-Smartphones veröffentlicht. Damit will Microsoft Nutzern der konkurrierenden Plattformen sein System näherbringen.
(Windows 7 Android)
In einem für Händler gedachten PDF auf Intels Webservern finden sich die Daten aller CPUs, die bis April 2012 mit der neuen Architektur Ivy Bridge erscheinen sollen. Prozessoren für High-End-Desktops wie für Ultrabooks sind darunter.
(Ivy Bridge)
Die Fujifilm Finepix X-Pro1 verlangt in der Bedienung dem Anwender einiges ab. Ihr langsamer Autofokus strapaziert die Geduld. Und trotz aller Kritikpunkte entschädigt die Bildqualität für alle Mühen. Golem.de hat die umstrittene Systemkamera einem Praxistest unterzogen.
(Fuji X Pro 1)
US-Forscher haben eine Brennstoffzelle so modifiziert, dass sie nicht nur Energie produziert, sondern auch speichert. Den gespeicherten Strom gibt sie ab, wenn ihr Brennstoff verbraucht ist, was die Laufzeit der Zelle verlängert.
(Brennstoffzelle)
Sony zeigt mit dem Xperia V das erste LTE-fähige Android-Smartphone für den deutschen Markt. Als Besonderheit ist es vor Staub und Wasser geschützt.
(Xperia V)
Microsoft hat nun offiziell die Umstellung seines Windows Live Messengers auf Skype angekündigt. Bis Frühjahr 2013 kann der alte Instant Messenger noch genutzt werden.
(Messenger)
E-Mail an news@golem.de