AWS Data Pipeline: Amazon organisiert Daten, nicht nur in der Cloud

Mit der AWS Data Pipeline hat Amazon einen Dienst vorgestellt, der Daten automatisch von einem zum anderen System verschieben und auch verarbeiten kann. Das funktioniert mit Daten in Amazons Cloud ebenso wie mit Daten auf anderen Rechnern.

Artikel veröffentlicht am ,
Amazon-Chef Jeff Bezos auf der AWS re:invent
Amazon-Chef Jeff Bezos auf der AWS re:invent (Bild: Richard Brian/Reuters)

Amazon will mit AWS Data Pipeline die wachsenden Datenmengen, die auf unterschiedlichen Systemen in unterschiedlichen Formaten liegen, einfacher handhabbar machen. Der Dienst kann beispielsweise Logfiles von Amazons EC2-Servern einsammeln und in S3 speichern, aber auch deutlich komplexere Aufgaben abwickeln.

Stellenmarkt
  1. IT Service Portfolio Manager (m/w/d)
    Soluvia IT-Services GmbH, Kiel, Mannheim, Offenbach
  2. Senior Associate Project Manager m/w/d
    NTT Germany AG & Co. KG, Bad Homburg
Detailsuche

Dazu lassen sich in der AWS Management Console beliebige Pipelines definieren, die aus mehreren Datenquellen, Bedingungen, Zielen, Verarbeitungsschritten und Zeitplänen bestehen. Es wird also festgelegt, welche Daten von welchen Systemen wann und unter welchen Bedingungen geholt werden sollen, wie diese zu verarbeiten sind und wo die Ergebnisse landen sollen. Solche Pipeline-Definitionen können aber auch extern in Textform angelegt werden.

Die Pipelines werden dann entsprechend den eingestellten Zeitplänen ausgeführt, beispielsweise stündlich, täglich oder einmal in der Woche, vorausgesetzt, die definierten Bedingungen sind erfüllt. So kann unter anderem festgelegt werden, dass der Prozess nur anlaufen soll, wenn eine bestimmte Datei auch vorhanden ist.

Die dabei vorzunehmende Datenverarbeitung kann in Amazons Cloud auf EC2-Instanzen oder einem Elastic-Mapreduce-Cluster abgewickelt werden, aber auch auf Systemen, die physisch beim Kunden stehen. Dazu stellt Amazon mit Task Runner ein Open-Source-Werkzeug zur Verfügung, das sich Aufgaben aus der AWS Data Pipeline holt und abarbeitet. Es muss dazu auf den Systemen laufen, auf denen Daten verarbeitet werden sollen.

Golem Karrierewelt
  1. Container Technologie: Docker und Kubernetes - Theorie und Praxis: virtueller Drei-Tage-Workshop
    27.-29.09.2022, virtuell
  2. Go für Einsteiger: virtueller Zwei-Tages-Workshop
    01./02.12.2022, Virtuell
Weitere IT-Trainings

Derzeit steht AWS Data Pipeline allerdings nur in Form eines beschränkten Betatests zur Verfügung, demnächst soll der Dienst aber regulär starten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Gene Roddenberrys andere Sci-Fi-Stoffe
Neben Star Trek leider fast vergessen

Der Name Gene Roddenberry steht vor allem für Star Trek. Nach dem Ende der klassischen Serie hat er aber noch andere Science-Fiction-Stoffe entwickelt.
Von Peter Osteried

Gene Roddenberrys andere Sci-Fi-Stoffe: Neben Star Trek leider fast vergessen
Artikel
  1. Carsten Spohr: Lufthansa-Chef wird Opfer eigener Sicherheitslücke
    Carsten Spohr
    Lufthansa-Chef wird Opfer eigener Sicherheitslücke

    Unbekannte haben einen QR-Code auf einem Boardingpass von Lufthansa-Chef Carsten Spohr ausgelesen und auf persönliche Daten zugreifen können.

  2. Illegales Streaming: House of Dragons bei Piraten beliebter als Ringe der Macht
    Illegales Streaming
    House of Dragons bei Piraten beliebter als Ringe der Macht

    Das Game-of-Thrones-Prequel hat mehr Zuschauer als die neue Herr-der-Ringe-Serie - zumindest via Bittorrent.

  3. Showcar: Renault 5 Turbo 3E kommt als Driftauto mit Elektromotoren
    Showcar
    Renault 5 Turbo 3E kommt als Driftauto mit Elektromotoren

    Renault hat sich zum 50. Geburtstag des Renault 5 den R5 Turbo 3E einfallen lassen. Das Showcar mit zwei E-Motoren ist wie gemacht zum Driften.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • CyberWeek: Bis -53% auf Gaming-Zubehör und bis -45% auf PC-Audio • Crucial 16-GB-Kit DDR5-4800 69,99€ • Crucial P2 1 TB 67,90€ • MindStar (u. a. Intel Core i5-12600 239€ und Fastro 2-TB-SSD 128€) • Logitech G Pro Gaming Keyboard 77,90€ • Apple iPhone 12 64 GB 659€ [Werbung]
    •  /