• IT-Karriere:
  • Services:

Anzeige: Einfacher Einstieg ins Data Engineering mit Apache Spark

Apache Spark ist ein mächtiges Werkzeug für die Arbeit mit großen Datenmengen. Big-Data-Neulingen erleichtert das Online-Training der Golem Akademie den Einstieg.

Sponsored Post von Golem Akademie veröffentlicht am
Anzeige: Einfacher Einstieg ins Data Engineering mit Apache Spark
(Bild: pexels.com)

Die reichhaltigen Konnektoren zu Datenquellen aller Art - relationale Datenbanken, NoSQL oder Streams - machen Apache Spark zu einem der am schnellsten wachsenden Frameworks für Big-Data-Anwendungen.

Ein großer Vorteil des Open-Source-Frameworks der Apache Foundation liegt darin, dass Spark neben seiner horizontalen Skalierbarkeit über die "Local"-Methode auch die Ausführung einzelner Prozesse möglich macht. Dadurch kann Spark auch für die Verarbeitung kleinerer Datenmengen eingesetzt werden. Zudem sorgen sogenannte User Defined Functions (UDF) für eine leichte Erweiterbarkeit.

Apache Spark auch für Kubernetes verfügbar

Mit der Anfang März veröffentlichten Version 3.1.1 ist Apache Spark auch für Kubernetes verfügbar geworden. Dadurch entfällt die Notwendigkeit, zu seiner Nutzung ein Hadoop-System vorzuhalten. Dies kommt vor allem Anwendern zugute, die bereits einen Kubernetes-Cluster einsetzen.

Dennoch ist der Einstieg in Spark für Big-Data-Neulinge nicht einfach. Genau hier setzt das Onlinetraining der Golem Akademie "Data Engineering mit Apache Spark" am 19. und 20. April 2021 an. Teilnehmer lernen nach einer Einführung ins Ökosystem von Hadoop und Apache Spark die von dem Framework genutzte native Programmiersprache Scala kennen.

Darüber hinaus stehen die Sprachanbindungen zu Java, Python und R sowie die SQL-Schnittstelle und eine Bibliothek an Algorithmen aus dem Machine Learning auf dem Lehrplan. Geleitet wird der Kurs von dem Big-Data-Spezialisten Dr. Kaya Kupferschmidt.

Erste Schritte mit Apache Spark

Der Workshop richtet sich insbesondere an Softwareentwickler, die mit Apache Spark arbeiten möchten. Diese werden mit dem Onlinetraining in die Lage versetzt, erste Schritte mit Apache Spark zu gehen. Der Schwerpunkt liegt auf der Aufbereitung von Daten zur weiteren Verwendung, dem Data Engineering.

Für die praktischen Übungen erhalten die Workshop-Teilnehmer Zugang zu einem eigenen Hadoop-/Spark-Cluster, auf den sie per Web-Browser und gegebenenfalls per SSH zugreifen können.

Der Kurs

Data Engineering mit Apache Spark: 19. bis 20. April 2021, online

Eine Übersicht über alle Trainings der Golem Akademie finden Interessierte unter akademie.golem.de.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed

    •  /