HadoopDB - Hybrid aus Hadoop und PostgreSQL
Skalierbar und robust wie Hadoop, so schnell wie eine parallele Datenbank
Die Skalierbarkeit von Hadoop, kombiniert mit der Geschwindigkeit eines parallelen Datenbanksystems. Das soll HadoopDB bieten - ein freies paralleles shared-nothing Datenbanksystem, das mit einer an SQL angelehnten Sprache abgefragt werden kann.
Daniel Abadi, Informatik-Professor an der Universität Yale, hat zusammen mit seinen Studenten Azza Abouzeid und Kamil Bajda-Pawlikowski HadoopDB entwickelt. Das System basiert auf PostgreSQL, Hadoop und Hive mit einer Verbindung zwischen PostgreSQL und Hadoop und einem Interface, das Anfragen in MapReduce oder SQL verarbeitet. Das System generiert Anfragepläne, die zum Teil in Hadoop und zum Teil in verschiedenen PostgreSQL-Instanzen verteilt über mehrere Nodes eines Shared-Nothing-Clusters ausgeführt werden.
Letztendlich ist HadoopDB als ein Hybrid aus MapReduce und parallelen Datenbank-Management-System auf tiefer Ebene. Dadurch soll es sich von Systemen wie Aster Data, Greenplum, Pig und Hive unterscheiden. Zudem ist HadoopDB Open Source.
HadoopDB soll laut Abadi eine ähnliche Fehlertoleranz wie Hadoop aufweisen und robust gegen Laufzeitschwankungen sein, die in großen Clustern auftreten. Die Leistung des System solls dabei an die kommerzieller Datenbanksysteme heranreichen.
Das genutzte Datenbanksystem, derzeit PostgreSQL, soll sich theoretisch auch gegen andere Systeme austauschen lassen. MySQL wurde als Basis bereits mit Erfolg ausprobiert. Zudem wird an der Anbindung an Column-Store-Datenbanken wie MonetDB und Infobright gearbeitet, wovon sich die Wissenschaftler eine Leistungssteigerung bei analytischen Arbeitsaufgaben versprechen.
Der Code der ersten Veröffentlichung von HadoopDB steht unter db.cs.yale.edu/hadoopdb zum Download bereit. Allerdings handelt es sich dabei derzeit eher um einen akademischen Prototypen.
Details zu HadoopDB finden sich im Aufsatz HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, der auf der Konferenz VLDB 2009 (Very Large Databases) Ende August in Lyon vorgestellt werden soll.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Nein, es soll keine staatliche Sozialhilfe oder Hatz4. Warum sollte ich arbeiten und...
Hehe, merkt man. :)
Was hast du erwartet, gibt viel interessantere Themen zur Zeit, wie z.B. "So könnte...