Zum Hauptinhalt Zur Navigation

Golem Plus Artikel
DuckDB und Pandas:
Big bei Big Data

DuckDB ist ein In-Memory-Datenbankmanagementsystem (DBMS) für Data-Science-Anwendungen – und Open Source . Es vereint das Beste aus beiden Welten: DBMS und Data Science Frameworks.
/ Antony Ghiroz
1 Kommentare News folgen (öffnet im neuen Fenster)
Enten gelten als widerstands- und anpassungsfähig - daran haben die Gründer von DuckDB auch gedacht, als die den Namen gaben. (Bild: Pixabay)
Enten gelten als widerstands- und anpassungsfähig - daran haben die Gründer von DuckDB auch gedacht, als die den Namen gaben. Bild: Pixabay

Beim Umgang mit großen Datenmengen stoßen Data-Science-Projekte häufig an die Grenzen traditioneller, auf Transaktionsverarbeitung ausgelegter DBMS. Systeme wie SQLite, MySQL oder PostgreSQL sind zwar leistungsfähig, aber mitunter aufwendig in der Handhabung. Der wiederholte Import und Export von Daten zwischen DB und Analyse-Tools wie Pandas ist fehleranfällig und langsam.

Darüber hinaus fehlen in traditionellen DBMS-Features, die für Data Science unerlässlich sind, etwa die verteilte Verarbeitung über mehrere Knoten, um sehr große Datenmengen zu handeln. Auch die Möglichkeit, Daten jenseits des Arbeitsspeichers ("Beyond-Memory") zu verarbeiten, ist für viele Anwendungen nötig. Warum DuckDB besser ist und wie es funktioniert, zeigen wir an einem praktischen Beispiel.

Golem Plus Artikel