Streaming: Bei 1 PByte reicht Bigtable nicht mehr für Spotify
Mit Googles Cloud-Datenbank Bigtable sollen sich schnell riesige Datenmengen verarbeiten lassen. Spotify setzt aber auf etwas Eigenes.

Zum Ende jedes Jahres erstellt Spotify einen individuellen Jahresrückblick für die Nutzer seines Audio-Streamingangebots und hat dabei erstmals auf Googles Bigtable verzichtet. Die Datenbank ist eigentlich für die Verarbeitung extrem großer Datenmengen gedacht. Wie das Team von Spotify in seinem Engineering-Blog schreibt, seien diesmal aber auch ohne Bigtable rund 1 PByte an Daten zusammengeführt worden.
Die Kosten für den Datenfluss seien dabei im Vergleich zu der Umsetzung mit Bigtable aus dem Vorjahr um 50 Prozent zurückgegangen. Auch das Skalieren der Bigtable-Cluster zu ihrer sonst zwei- bis dreifachen Größe zum Verarbeiten der riesigen Datenmengen sei nicht nötig gewesen, was ebenfalls massive Einsparungen bedeute. Spotify setzte seit fast fünf Jahren auf die Google Cloud und Bigtable.
Um auf Bigtable zu verzichten, nutzt Spotify eine Technik, die Sort Merge Bucket (SMB) genannt wird und bei Spotify intern als Teil einer Masterarbeit entstand. Die grundlegende Idee dabei ist, Daten so zu speichern, dass diese beim Zusammenführen für Auswertungen möglichst wenig bis gar nicht neu sortiert oder verschoben werden müssen.
Daten einfacher zusammenführen
In der SMB-Dokumentation heißt es, es handle sich um "eine Technik zum Schreiben von Daten in das Dateisystem an deterministischen Orten, die nach einem vordefinierten Schlüssel sortiert sind, damit sie später als Gruppen mit gleichem Schlüssel eingelesen werden können (...). Da jedem Element ein Dateiziel (Bucket) zugewiesen wird, das auf einem Hash seines Schlüssels basiert, können wir mit derselben Technik mehrere Quellen gruppieren, solange sie mit demselben Schlüssel und demselben Hashing-Schema geschrieben werden."
Die Schlüssel sind im Falle von Spotify etwa die User-ID, Nutzermetadaten oder auch Events eines einzelnen Nutzers. Mit SMB sollen sich dazugehörige Daten aus verschiedenen Quellen schnell zusammenführen und anschließend verarbeiten lassen. Genau das, was Spotify für die individuellen Jahresrückblicke braucht.
Im vergangenen Jahr hat der Streaminganbieter immer mehr auf SMB gesetzt, die Idee an vielen Stellen für den produktiven Einsatz erweitert und vor allem die eigentlichen Datenquellen auf das neue Format umgestellt. Für die Jahresauswertung hat das Team erst die Daten der einzelnen Wochen und danach wiederum die Wochenauswertungen zusammengeführt.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Gar nicht. Wollte nur zeigen, dass 1pb nicht viel ist. Es ist auch unser Speicherplatz...
"Reicht nicht mehr"??
...man muss damit auch umgehen können" Fehlt nur noch eine hübsche Grafik welche das...
Kommentieren