DuckDB und Pandas: Big bei Big Data

Beim Umgang mit großen Datenmengen stoßen Data-Science-Projekte häufig an die Grenzen traditioneller, auf Transaktionsverarbeitung ausgelegter DBMS. Systeme wie SQLite, MySQL oder PostgreSQL sind zwar leistungsfähig, aber mitunter aufwendig in der Handhabung. Der wiederholte Import und Export von Daten zwischen DB und Analyse-Tools wie Pandas ist fehleranfällig und langsam.
Darüber hinaus fehlen in traditionellen DBMS-Features, die für Data Science unerlässlich sind, etwa die verteilte Verarbeitung über mehrere Knoten, um sehr große Datenmengen zu handeln. Auch die Möglichkeit, Daten jenseits des Arbeitsspeichers ("Beyond-Memory") zu verarbeiten, ist für viele Anwendungen nötig. Warum DuckDB besser ist und wie es funktioniert, zeigen wir an einem praktischen Beispiel.