Zum Hauptinhalt Zur Navigation

Golem Plus Artikel
Ducklake:
Die nächste Generation der Datenarchitektur

Eintauchen in Ducklake
Ducklake ist ein hervorragendes System, um Daten günstig zu speichern. In einer dreiteiligen Reihe erklären wir alle wichtigen Funktionen.
/ Antony Ghiroz
Kommentare News folgen (öffnet im neuen Fenster)
Ducklake ist eine bessere Variante des Lakehouse-Systems. (Bild: StockSnap / Pixabay)
Ducklake ist eine bessere Variante des Lakehouse-Systems. Bild: StockSnap / Pixabay

Data Lakes gelten als Grundpfeiler moderner Datenarchitekturen. Mit ihnen lassen sich große Mengen unterschiedlich strukturierter Daten zentral und kostengünstig speichern. Konsistenzprobleme, unübersichtliche Metadaten und fehlende Funktionen wie Schema-Evolution oder Time Travel sind aber häufige Kritikpunkte. Um sie anzugehen, haben sich Lakehouse-Systeme wie Delta Lake oder Apache Iceberg etabliert. Sie verbinden die Flexibilität von Data Lakes mit der Zuverlässigkeit von Data Warehouses. Allerdings sind sich diese Vorteile oft mit erheblicher Komplexität erkauft. Systeme wie Iceberg nutzen verschachtelte Metadatenstrukturen aus JSON-, Avro- und Manifestdateien, die wiederum auf Parquet-Dateien verweisen. Anwender müssen so nicht nur Datenbanken, sondern auch ein Konglomerat an Technologien wie Postgres, REST-Schnittstellen, Avro und Docker im Blick behalten.

Mit Ducklake ist ein neues Format entstanden, das die Vorteile eines Lakehouse-Systems in stark vereinfachter Form bereitstellt. Entwickelt aus dem Umfeld von DuckDB, verfolgt es den Ansatz, Lakehouse-Funktionalität für alle nutzbar zu machen – ohne komplizierte Zusatzkomponenten oder aufwendige Infrastruktur. Im ersten Teil unserer Erklärreihe zu Ducklake betrachten wir die Kernfunktionen und beantworten die Frage, für wen es geeignet ist und für wen nicht.

Golem Plus Artikel