Datawarehouse: Amazon Redshift soll billiger und zehnmal schneller sein
Mit Redshift hat Amazon ein Datawarehouse in der Cloud angekündigt, das rund zehnmal schneller sein soll als bisher verfügbare Lösungen und dabei nur ein Zehntel kosten. Bis zu 1,6 Petabyte Daten lassen sich darin speichern und per SQL abfragen.

Große Datenmengen in kurzer Zeit zu analysieren, verspricht Amazons neues Cloud-Datawarehouse Redshift, das ab sofort in einer eingeschränkten Vorschauversion zur Verfügung steht. Wie üblich rechnet Amazon auch den neuen Cloud-Dienst nach Nutzung ab. Wer sich aber auf drei Jahre bindet und die Speicherkapazität der Server voll ausnutzt, zahlt ab 1.000 US-Dollar pro TByte und Jahr. Amazon vergleicht die Zahl mit einer von IBM veröffentlichten, wonach die Kosten für ein Datawarehouse zwischen 19.000 und 25.000 US-Dollar pro TByte und Jahr liegen.
Einige Amazon-Kunden konnten Redshift bereits testen, darunter Netflix, JPL und Flipboard. Amazon hat das neue Cloud-Datawarehouse auch mit seinen eigenen Kundendaten getestet: Abfragen waren 10- bis 150-mal schneller als auf dem derzeit genutzten System.
Amazon bietet Redshift in Form eines Single-Node-Clusters mit einem Server und maximal 2 TByte Speicherplatz sowie als Multi-Node-Cluster an, der aus mindestens zwei Compute-Nodes und einem Leader-Node besteht. Letzterer kümmert sich um die Verwaltung von Verbindungen, parst die Anfragen, erzeugt Ausführungspläne und verwaltet die Ausführung der Anfragen auf den einzelnen Compute-Nodes. Berechnet werden allerdings nur die Compute-Nodes.
Compute-Nodes bietet Amazon in zwei Varianten an: hs1.xlarge mit 2 TByte Speicherkapazität und hs1.8xlarge mit 16 TByte Speicherkapazität. Dabei können maximal 32 der kleinen und 100 der großen Compute-Nodes in einem Cluster zusammengefasst werden, so dass sich eine maximale Speicherkapazität von 64 TByte beziehungsweise 1,6 PByte ergibt.
Die Compute-Nodes verfügen über mehrere Festplatten, was den Datenzugriff schneller machen soll als der Rückgriff auf Cloud-Speicher, der über das Netz angebunden ist. Die einzelnen Compute-Nodes sind zudem in einem eigenen Netz mit 10 Gigabit/s zusammengeschaltet, das üppig dimensioniert ist, so Amazon.
Software kommt angeblich von Paraccel
Die Software hinter Redshift basiert Medienberichten zufolge auf einer Lösung von Paraccel. An dem Unternehmen ist Amazon beteiligt. Amazon gibt lediglich an, Redshift arbeite spaltenorientiert, was es ermögliche, die gespeicherten Daten deutlich stärker zu komprimieren, als das bei zeilenbasierten Datenbanken der Fall wäre. Zudem arbeite Redshift in jeder Hinsicht parallel, schreibt Amazons Technikchef Werner Vogels. Nicht nur Abfragen werden auf mehreren Servern parallel verarbeitet, auch Daten können parallel auf mehreren Servern eingelesen werden. Zudem werden Daten in zwei Kopien auf bis zu 24 Platten abgelegt und zudem in Amazon S3 gesichert.
Die Abfrage der Daten ist per SQL möglich, wobei Redshift laut Amazon ANSI-SQL-kompatibel ist. Neben ODBC- und JDBC-Treibern können auch Standard-PostgreSQL-Treiber genutzt werden. So soll Redshift auch kompatibel zu bestehenden Analyse- und Business-Intelligence-Lösungen sein.
Ab 11,4 US-Cent pro Stunde
Amazon Redshift soll für die kleine Instanz ohne Vertragsbindung 85 US-Cent pro Stunde kosten, für die große fallen 6,80 US-Dollar an. Für beide Varianten, so rechnet Amazon vor, ergibt sich ein Preis von 3.723 US-Dollar pro TByte im Jahr.
Billiger wird es, wenn sich Kunden für reservierte Instanzen entscheiden und somit für ein oder drei Jahre festlegen. Bei einem Jahr Laufzeit berechnet Amazon eine einmalige Gebühr von 2.500 US-Dollar für den kleinen und 20.000 US-Dollar für den großen Server, zuzüglich 21,5 US-Cent beziehungsweise 1,72 US-Dollar pro Stunde. Damit ergebe sich dann rechnerisch ein Preis von 2.190 US-Dollar pro TByte im Jahr.
Bei drei Jahren Laufzeit sinkt der Preis auf 11,4 beziehungsweise 91,2 US-Cent pro Stunde und damit auf 999 US-Dollar pro TByte pro Jahr. Hinzu kommen dann einmalig 3.000 beziehungsweise 24.000 US-Dollar.
Interessenten können sich für den öffentlichen Betatest von Amazon Redshift ab sofort bewerben. Regulär soll Amazons Cloud-Datawarehouse Anfang 2013 zur Verfügung stehen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
is a computer that runs an infinite loop in one second. Klingt hier auch so ... nur mit...