Zum Hauptinhalt Zur Navigation

AWS Data Pipeline: Amazon organisiert Daten, nicht nur in der Cloud

Mit der AWS Data Pipeline hat Amazon einen Dienst vorgestellt, der Daten automatisch von einem zum anderen System verschieben und auch verarbeiten kann. Das funktioniert mit Daten in Amazons Cloud ebenso wie mit Daten auf anderen Rechnern.
/ Jens Ihlenfeld
Kommentare News folgen (öffnet im neuen Fenster)
Amazon-Chef Jeff Bezos auf der AWS re:invent (Bild: Richard Brian/Reuters)
Amazon-Chef Jeff Bezos auf der AWS re:invent Bild: Richard Brian/Reuters

Amazon will mit AWS Data Pipeline die wachsenden Datenmengen, die auf unterschiedlichen Systemen in unterschiedlichen Formaten liegen, einfacher handhabbar machen. Der Dienst(öffnet im neuen Fenster) kann beispielsweise Logfiles von Amazons EC2-Servern einsammeln und in S3 speichern, aber auch deutlich komplexere Aufgaben abwickeln.

Dazu lassen sich in der AWS Management Console beliebige Pipelines definieren, die aus mehreren Datenquellen, Bedingungen, Zielen, Verarbeitungsschritten und Zeitplänen bestehen. Es wird also festgelegt, welche Daten von welchen Systemen wann und unter welchen Bedingungen geholt werden sollen, wie diese zu verarbeiten sind und wo die Ergebnisse landen sollen. Solche Pipeline-Definitionen können aber auch extern in Textform angelegt werden.

Die Pipelines werden dann entsprechend den eingestellten Zeitplänen ausgeführt, beispielsweise stündlich, täglich oder einmal in der Woche, vorausgesetzt, die definierten Bedingungen sind erfüllt. So kann unter anderem festgelegt werden, dass der Prozess nur anlaufen soll, wenn eine bestimmte Datei auch vorhanden ist.

Die dabei vorzunehmende Datenverarbeitung kann in Amazons Cloud auf EC2-Instanzen oder einem Elastic-Mapreduce-Cluster abgewickelt werden, aber auch auf Systemen, die physisch beim Kunden stehen. Dazu stellt Amazon mit Task Runner ein Open-Source-Werkzeug zur Verfügung, das sich Aufgaben aus der AWS Data Pipeline holt und abarbeitet. Es muss dazu auf den Systemen laufen, auf denen Daten verarbeitet werden sollen.

Derzeit steht AWS Data Pipeline allerdings nur in Form eines beschränkten Betatests zur Verfügung, demnächst soll der Dienst aber regulär starten.


Relevante Themen