Original-URL des Artikels: https://www.golem.de/0907/68643.html    Veröffentlicht: 28.07.2009 12:09    Kurz-URL: https://glm.io/68643

HadoopDB - Hybrid aus Hadoop und PostgreSQL

Skalierbar und robust wie Hadoop, so schnell wie eine parallele Datenbank

Die Skalierbarkeit von Hadoop, kombiniert mit der Geschwindigkeit eines parallelen Datenbanksystems. Das soll HadoopDB bieten - ein freies paralleles shared-nothing Datenbanksystem, das mit einer an SQL angelehnten Sprache abgefragt werden kann.

Daniel Abadi, Informatik-Professor an der Universität Yale, hat zusammen mit seinen Studenten Azza Abouzeid und Kamil Bajda-Pawlikowski HadoopDB entwickelt. Das System basiert auf PostgreSQL, Hadoop und Hive mit einer Verbindung zwischen PostgreSQL und Hadoop und einem Interface, das Anfragen in MapReduce oder SQL verarbeitet. Das System generiert Anfragepläne, die zum Teil in Hadoop und zum Teil in verschiedenen PostgreSQL-Instanzen verteilt über mehrere Nodes eines Shared-Nothing-Clusters ausgeführt werden.

Letztendlich ist HadoopDB als ein Hybrid aus MapReduce und parallelen Datenbank-Management-System auf tiefer Ebene. Dadurch soll es sich von Systemen wie Aster Data, Greenplum, Pig und Hive unterscheiden. Zudem ist HadoopDB Open Source.

HadoopDB soll laut Abadi eine ähnliche Fehlertoleranz wie Hadoop aufweisen und robust gegen Laufzeitschwankungen sein, die in großen Clustern auftreten. Die Leistung des System solls dabei an die kommerzieller Datenbanksysteme heranreichen.

Das genutzte Datenbanksystem, derzeit PostgreSQL, soll sich theoretisch auch gegen andere Systeme austauschen lassen. MySQL wurde als Basis bereits mit Erfolg ausprobiert. Zudem wird an der Anbindung an Column-Store-Datenbanken wie MonetDB und Infobright gearbeitet, wovon sich die Wissenschaftler eine Leistungssteigerung bei analytischen Arbeitsaufgaben versprechen.

Der Code der ersten Veröffentlichung von HadoopDB steht unter db.cs.yale.edu/hadoopdb zum Download bereit. Allerdings handelt es sich dabei derzeit eher um einen akademischen Prototypen.

Details zu HadoopDB finden sich im Aufsatz HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, der auf der Konferenz VLDB 2009 (Very Large Databases) Ende August in Lyon vorgestellt werden soll.  (ji)


Verwandte Artikel:
Yahoo veröffentlicht eigene Hadoop-Distribution   
(11.06.2009, https://glm.io/67701 )
Open Source: PostgreSQL 10 erweitert das Konzept von Teilen und Herrschen   
(06.10.2017, https://glm.io/130485 )
Talend-Produkt zur parallelen Datenverarbeitung   
(19.05.2009, https://glm.io/67218 )
Azure: Microsoft betreut MySQL und PostgreSQL in der Cloud   
(11.05.2017, https://glm.io/127772 )
PostgreSQL 8.4 ist fertig   
(01.07.2009, https://glm.io/68106 )

© 1997–2020 Golem.de, https://www.golem.de/